うちゅうてきなとりで

The Cosmological Fort 無職戦闘員による本メモ、創作、外国語の勉強その他

『誰もが嘘をついている』セス・スティーヴンズ=ダヴィドウィッツ ――Googleが見ている

グーグル検索等のビッグデータを元に人間の行動を検討する。

 

所感

本書を書いたのは哲学・経済学を研究してきた人物である。

グーグル検索やビッグデータは、それまで偏見や固定概念、主観によってしか説明されてこなかった分野を、真に科学的な手法で分析するために不可欠なツールとなった。

われわれがいかに思い込みで間違った認識を抱いているかを、ビッグデータは明らかにしてくれる。

データの分析は、人間社会や人間の精神・行動をより正確に理解するために必要であるという著者の主張に同意する。

 

 

序章 ビッグデータ革命

グーグル検索は、これまでの調査では発見できない人間の行動を明らかにした。

新たな事実の中には自明のものもあるが、これまでの既成概念と正反対のものや、想像だにしないものもあった。

 

  • 性生活に関する調査は嘘だらけで、アメリカ人の結婚や交際に関する最大の関心事項はセックスレスである。
  • 黒人差別用語が驚くべき割合で検索されている。
  • 人種差別は共和党南部がメッカだとされるが、実際は東高西低であり、北部の都市部でも多い。
  • オバマの大統領選挙において、人種差別用語検索の多い地域でオバマは苦戦していた。
  • トランプが勝つ兆候はグーグル検索に現れていた。トランプを検索する率が高く、また黒人差別用語の検索数が高い地域……北東部や北部工業地域で、トランプは大勝した。

 

グーグル検索で重要なのは、人びとが匿名で心情を吐露している点にある。

 

1 直感は裏切り者

データサイエンスとは、パタンを発見し、変数がほかの変数にどう影響するかを予測することである。

これは、人間が普段から行っている行動の延長である。

直感はしばしば誤った一般化を生み出す。

 

  • 腹痛・消化不良や腰痛・肌の黄ばみと検索した人は高確率ですい臓がんだった。
  • 気候はうつ病に大きく影響する。
  • 共通の友人を持つと交際が長続きしない。
  • 豊かな地域に生まれた黒人のほうが、貧困地域の黒人よりもはるかにNBA選手になりやすい。貧困層は平均身長が低く、また社会性が低い場合、才能があっても大成できないからである。

 

 

2 夢判断は正しいか

性に関するフロイトの夢判断や誤記はデータ分析から偽であることがわかる。

しかし、Pornhub検索における近親相姦ジャンルは上位にあり、またジャンルの大半は子供時代のモチーフである(ベビーシッター、学校等)。

 

ビッグ・データは、対象の正直なデータを提供する有意義なツールである。

 

 

3 新データの世界

  • 失業率と最も相関性の高い検索ワードはポルノサイトと「スパイダーソリティア」だった。このことは、こうしたワードの検索量によって、金融業が失業率を推測できることを示す。
  • これまで血統と馬の大きさのみが、良い競走馬を予測する手がかりだったが、あるデータ分析家は内臓の大きさ、特に心臓の左心室の大きさが活躍に関連していることをつきとめた。
  • データサイエンティストならば、これまで迷信やいい加減なやり方が通ってきた領域を開拓するべきである。
  • ワインの品質は、栽培期間の天候で決まる。
  • 合衆国が単一の存在、つまりareではなくisで用いられるようになったのは、南北戦争よりも数十年後である。
  • 新聞の政治的傾向はオーナーや大企業の意向ではなく、その新聞社が拠点とする地域の政治的傾向に依存する。
  • 明るいニュースのほうが暗いニュースよりもシェアされやすい。
  • 途上国における夜の電灯、市場の野菜の状況、ガソリンスタンドの行列などが、経済指標を推測するデータとしてビジネスになっている。

 

 

4 秘められた検索

  • ゲイや性的嗜好に関する調査は、これまでの調査では嘘や過大申告のため正確な情報を得るのが難しかった。グーグル検索は、対象者の正直な感情を知る手がかりとして非常に有意義である。
  • 親は娘よりも息子に対して社会的な成功を期待している。娘に対しては容姿を気にかける。
  • 人種差別用語の検索は非常に多く、特に黒人差別用語の検索が多い地域は、オバマが苦戦した地域、トランプが勝利した地域と一致する。
  • オバマイスラム過激派のテロに対して、偏見を持たないようスピーチしていたとき、白人至上主義サイトの登録やイスラム・ヘイト検索が爆増した。
  • インターネットでは、政治的傾向の異なる相手と頻繁に出会う。また、保守もリベラルも『ニューヨーク・タイムズ』を愛読している。
  • 不況時、公式調査では明らかにならなかったが、グーグルでは「親に殴られた」という検索が爆増した。
  • グーグル検索と異なり、SNSは真実を述べるインセンティヴが働かないため、データをそのまま信頼することができない。

 

高級紙『アトランティック』と、低俗なタブロイド紙『ナショナル・インクワイアラー』の発行部数はほぼ同じだが、Facebook上では後者を読んでいる人は27分の1である。

 

フェイスブックはデジタル自白剤ではなく、「自分はこんなにいい暮らしをしていると友人にデジタル自慢させる薬」なのだ。

フェイスブック上では、平均的なユーザーは幸せな結婚生活を送り、カリブ海に休暇旅行に出かけ、『アトランティック』の記事を追いかけている。

現実には多くの人々はいらいらとスーパーのレジ前に並びながら『ナショナル・インクワイアラー』を横目で立ち読みしつつ、もう何年も一緒に寝ていない伴侶からの電話を無視している。

 

  • 人びとは、表では嫌だということでもやりたがっている。知人の行動を監視し、搾取労働によってできた安い商品を買い、SM物語を読み、無内容だが自信に満ちた政治家に投票する。
  • ビジネスはこうした秘密、本音を利用することで成功する。
  • 隠された人間の心理や行動を知ることで、世の中は想像以上にひどいということがわかるが、同時に解決策を考えることができる。

 

 

5 絞り込み

人間は5歳から15歳のあいだに受けた影響を最後まで保持する。好きなスポーツチームや政治的傾向も、子供のときの環境が大きく影響する。

データの絞り込みは、社会の実態をより正確に分析することを可能にした。

 

地域絞り込みによる分析の結果、アメリカは地域によって社会的流動性の率が異なることがわかった。

教育投資が多く、犯罪率が低く、黒人が少なく、シングルマザーの少ない地域は、貧困層が上昇する確率が非常に高い。そしてこの反対もデータが明らかにしている。

 

貧困層が長生きしやすい地域とは、富裕層が多く住んでいるニューヨークなどである。

 

脱税を誘発するのは人間の誠実性ではなく、近隣に税専門家が住んでおり情報知識があるかないかである。

 

ウィキペディアで得られた、立身出世しやすい地域は以下のとおりである。

 

  • 大学町を擁する。
  • 大都市を含む郡である。
  • 移民人口が多い。

 

一方、州政府の教育投資はほとんど効果がなかった。

よって、立身出世を増やすなら移民を促進し、大学に助成し、特に芸術活動を助成すべきである。

 

  • 暴力・犯罪映画が上映される週末には、実際は犯罪発生率は減っていた。なぜか? 通常、攻撃的な男性は丸腰で映画館にいき、その間はバーやクラブにはいかない。また現在の映画館ではアルコールを提供することがない。
  • アイスホッケーの試合の休憩中に、カナダのある都市の水道使用量が跳ね上がった。
  • 平日の朝8時には(学校で)ブロックされていないゲームの検索が急増する。
  • 野球選手のピークや活躍予測に、データを元にその人物の分身を探すというものがあり、高い的中率を持つ。こうした分身を探す取り組みや医療にも活用される。

 

 

6 世界中が実験室

ビッグデータを用いた無作為抽出実験はいつでも実施することができる。こうした実験は、人間を思い込みや直感から解放してくれる。

通説はあてにならず、都度データを分析しなければならない。

 

  • インドにおいて教師の通勤手当を支給する実験をしたところ、支給しないよりも勤務成績が良くなり生徒の学力も向上した。
  • フェイスブックやグーグル、オンラインゲームはこうした実験を繰り返し、依存性の高いコンテンツを生み出した。
  • 政治指導者の暗殺は、その国の歴史を大きく変える。
  • 宝くじに当たった家の近所は破産率が高い。
  • 過酷な環境の刑務所にいた人間は、そうでない人間よりも再犯率が高い。これは、凶悪殺人犯とスリではなく、刑務所レベルを判定するポイントがほぼ同じ、つまり同じ程度の犯罪者を対象に分析している。
  • 一方、名門高校とそれに届かなかった同レベルの人間は、ほぼ同じ人生を送っている。つまり、名門高校の威力は評判とは異なり、当人の人生に影響しない。

 

人は経験に順応するし、成功する人はどんな状況にも強みを発揮する。成功の要因は才能とやる気だ。卒業記念講演者でもないし、有名校ならではのその他の特典でもない。

 

  • ハーバード、ペンシルベニア大の双方に受かった人間は、どちらに入ったとしても同じ程度の収入を得ている。

 

 

7 できること、できないこと

ビッグデータの限界や倫理的な問題について説明する。

 

  • 金融・株式市場はすでに膨大な調査研究が進んでいるため、ビッグデータ分析で他社を出し抜くのは困難である。
  • 人間の遺伝子はパターンが多すぎて、天才を予測することができない。

 

 

8 やってはいけないこと

en.wikipedia.org

 

  • カジノが客の傾向をビッグデータから分析し、許容できるぎりぎりの額まで搾り取ることも可能である。
  • 一方、消費者側も企業に反撃できる。Yelpで星がひとつ下がると、レストランの売り上げが数パーセント減る。
  • 犯罪行為に関する検索は、犯罪行為と深く相関している。自殺も同様である。しかし、『マイノリティリポート』のように、犯罪が起こる前に個人に対して何か政府が措置をとることには倫理的な問題がある。

 

 

終章

カール・ポパーは、様々な学者と交流するうちに、科学者が本物の科学者であると確信する一方、経済学者、社会学者、心理学者は、大した学問的成果を上げていないと感じるようになった。

ビッグデータは、社会科学を真の科学にするために不可欠なツールになるだろう。