データサイエンス、ビッグデータという言葉を知らずして、今の世の中を理解することはできません。
話題のチャットGPTも、ビッグデータを利用することで驚異的な機能を発揮するようになったものです。
『誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性』の著者セス・スティーヴンズ=ダヴィドウィッツは、経済学を学ぶ大学院生だったときに「グーグル・トレンド」に出会いました。
グーグル・トレンドというのは、2009年に導入された、どんな語句がいつどこで検索されているかがわかるツールです。人がなにか検索ワードを打ち込むことは、それ自体がその人についての情報になります。この情報は量が膨大なので、見る角度によって人間についてのさまざまな“真実”を見せてくれます。ダヴィドウィッツはグーグルトレンドを使って人種差別の研究をし、それが評価されてグーグルにデータサイエンティストとして勤務し、大学客員講師などをへて、現在はライターであるようです。
今の時代、グーグル検索だけでなく、さまざまな分野で膨大なデータが蓄積されています。それを利用するのがデータサイエンスです。データサイエンスはさまざまな“真実”を見せてくれるとともに、ビジネスチャンスも提供してくれます。
世論調査や社会調査は必ずしも実態を正しく反映しません。その主な理由は、人間は自分をよく見せかけようとするからです。これは匿名の調査でもそうです。
あるもっとも権威ある調査によると、米国人の異性愛者の女性は年間に平均して55回性交し、その16%においてコンドームを使用しているそうです。となると、年間に消費されるコンドームは11億個になります。一方、異性愛者の男性は年間16億個のコンドームを用いていると述べています。どちらが嘘をついているのでしょうか。実はコンドームの年間販売量は6億個に満たないのです。つまり男性も女性も嘘をついているのです。
グーグル検索はより真実を明らかにします。グーグル上では結婚生活にまつわる最大の不満はセックスレスです。「セックスレス 結婚」の検索回数は、「不幸 結婚」の3.5倍、「愛のない結婚」の8倍も多いのです。
「ニガー(nigger)」はもっともいまわしい差別語です。著者のダヴィドウィッツは、こんな言葉はあまり検索されないだろうと思っていましたが、大間違いでした。「ニガー」という単語は「偏頭痛」とか「エコノミスト」などと同じくらい検索されていました。オバマ大統領の初当選の夜、州によっては「黒人大統領」よりも「ニガー大統領」の検索回数のほうが多く、米国で人気の白人主義者向けサイト「ストームフロント」の検索や会員登録は通常時の10倍以上になりました。新聞などの論説は黒人大統領出現の歴史的意義をたたえていましたが、水面下では人種的憎悪が顕著に表れていたのです。
トランプ候補が差別主義丸出しの言動をして、世論調査ではあまり人気がなくても、やはり水面下では支持を集めていたのは周知の通りです。実際、トランプ候補の支持が多かった地域は、「ニガー」という言葉をよく検索していた地域でした。
つまり人々は、自分は差別主義者ではないと見せかけつつ、実際は差別主義的ふるまいをしているのです。
自分の性的嗜好も誰もが秘密にしますが、グーグル検索にはそれが表れます。米国では「天気」よりも「ポルノ」のほうが多く検索されています。大手ポルノサイト「ポーンハブ」における男性による検索ワード上位100フレーズのうち16は近親相姦がらみです。「兄と妹」とか「継母が息子とやる」とか「母と子」とか「母が息子とやる」とか「本物の兄妹」とか。
こうした願望を持つことと実際に行うことは別かというと、必ずしもそうとはいえません。1980年代、米国では女性が幼少期に父親からレイプされたということを裁判に訴える事例が相次ぎました。家庭内のことで、しかも何十年も前の出来事だったりするので、事実の認定はきわめて困難ですが、セラピストやフェミニスト団体が裁判の支援をしました。一方、訴えられた父親を理論面と金銭面で支援する財団が組織され、父親にレイプされたという記憶はセラピストに植えつけられた偽の記憶だという理論で対抗し、この戦いは「記憶戦争(メモリーウォー)」と呼ばれました。結果、多くの裁判は父親側が勝利し、父親側は娘とセラピストを反訴して巨額の賠償金を取るという例も相次ぎました。つまり父親が娘をレイプすることなどめったにないということにされてしまったのです。
しかし、最近では家庭内での性的虐待の多いことが次第に知られてきました。グーグル検索はそれをよりはっきりと示しているかもしれません。
「どうして……」から始まるフレーズ検索のトップ2件は「空は青いの?」と「うるう日があるの?」ですが、3番目は「私のウンチは緑色なの?」だそうです。まあ、これはそんなこともあるのかと思うだけですが、「……したいことは正常?」というフレーズ検索の目下のトップ候補は「人を殺したいと思うことは」だそうです。さらに「……を殺したいと思うことは正常?」のトップは「家族を」です。
日本での殺人事件の半数以上が親族間のものですから、このグーグル検索の結果はむしろ妥当なものかもしれません。
本書のサブタイトルが「ビッグデータ分析が暴く人間のヤバい本性」なので、とりあえず「ヤバい本性」に当たることをいくつか紹介しました。
本書には儲け話もいくつも書かれています。
従来、レースに出る前の若い競走馬の価値を見きわめるには、見た目と血統ぐらいで判断するしかありませんでした。ジェフ・セダーという男は、馬の能力を判定するためにさまざまなデータを集めました。たとえば馬の鼻孔の長さを測り、獲得賞金と比較しました。馬の心電図データも取り、死んだ馬を解剖して全力疾走に使う筋肉の量も測りました。しかし、どれも戦績とは関係ありませんでした。そして、馬の内臓の大きさを測定することを思いつきました。既存の技術ではできなかったので、携帯式の超音波測定装置を自作しました。これは成果がありました。とりわけ心臓の左心室の大きさが馬の戦績をもっとも左右する変数であることを突き止めたのです。ほかに脾臓の大きさも重要でした。セダーは馬の購入者に助言するコンサルタント会社をつくって利益を上げました。インターネットもない時代でしたが、自分でデータを集めるやり方で成功したのです。
発展途上国の経済統計はいい加減なことが多く、なかなか経済の実態がわかりません。そこで考え出された方法が、衛星写真で夜間にどれだけ電気がついているかを見てGDPを推測するというやり方です。たとえば韓国と北朝鮮の明るさを比べると経済力の違いが歴然とします。
ジョゼフ・レイジンガーは経済状態をもっと精密に知る方法を考えました。彼は「プレミス」という会社を興し、途上国の人々を雇ってスマートフォンを支給し、経済的に重要と思われる風景の写真を送らせました。たとえばガソリンスタンドの長蛇の列は経済不振を示す代表的な指標になりますし、スーパーマーケットの店頭のリンゴの数が少なく、未熟なまま売られていることも同様です。こうした写真からの情報をつなぎ合わせてプレミスは途上国の経済体制やインフレを推計し、そのデータを銀行やヘッジファンドに売りました。今ではプレミスは年間数千万ドルを稼ぐ会社になっているそうです。
データを集めることがビジネスになります。
あるいは既存のデータを利用することもできます。ワラの山のような膨大なデータから一本の針を見つける方法を考え出せばいいのです。
プロ野球の世界では選手の成績の膨大なデータが集積されていますが、誰もそれの利用のしかたを考えませんでした。映画「マネーボール」はそのデータを活用して成功する実際の物語です。
株式市場にも儲けるネタが転がっていそうです。
米国の株式市場でもっとも重視される統計は、毎月第1金曜日に発表される雇用統計です。この数字によって株価と為替が大きく動くことも珍しくありません。もし雇用統計の内容を発表前に知ることができれば大儲けできます。
失業率と関連して変化する検索語はなにかというと、「職業斡旋所」とか「新しい仕事」などがありそうですが、そうではありませんでした。著者の調査によると、「スラットロード」というポルノサイトと「スパイダーソリティア」というゲームでした。失業者は暇を持て余しているからでしょう。失業率と暇つぶし用語の検索は高い相関性がありました。
もっとも、暇つぶし用語はときとともに変化します。著者も株式市場で儲けるのはむずかしいといっています。株式市場の参加者は誰もが人より早く失業率を知りたいと思っているので、誰もが考えつくようなやり方ではうまくいかないのです。
データサイエンスは人間についての新しい認識を示してくれますが、それはよいことばかりとは限りません。
「プロスパー」という融資サイトがあって、借金したい人は、お金が必要な理由と返済の見込みを短い文章にして投稿します。それを見て融資するかしないかをプロスパー側は判断するわけですが、その文章の言葉づかいで返済の見込みがある程度わかるというのです。
借金の返済率が高かった人々がよく使っていた言葉
・負債なし
・税引き後
・学卒者
・低利率
・最低支払額
借金の返済率が低かった人々がよく使っていた言葉
・神
・お返しします
・病院
・約束します
・ありがとうございます
解説すると、金融知識を持っていて、「負債なし」とか「学卒者」のようなよい面をアピールする人は返済しやすいということです。
親族が「病院」に入っているので金が必要だということが債務不履行につながりやすいことは容易に想像できますが、「ありがとうございます」という言葉が債務不履行になぜつながるのかは不明です。「神」という言葉は最悪で、この言葉を使う人はそうでない人より2.2倍も借金を踏み倒しやすいということです。
問題なのは、こうしたデータをもとに融資の判断が行われるということです。「ありがとうございます」という言葉を使ったがために融資してもらえないということがありえます。そして、融資しない理由は本人には知らされません。
個人が対抗するには、融資側がどんなデータに基づいて融資の判断をしているかを知り、融資されやすい言葉づかいをすることです。しかし、これは不可能です。ビッグデータを使うのはもっぱら国家や大企業だからです。
データサイエンスの進歩と普及が個人の不利益にならない方策を考える必要があります。
著者はデータサイエンスの価値を信じていますが、本書ではその価値を十分に説明しているとはいえません。
つまり「人間のヤバい本性」をあばくことにどんな価値があるのかということです。
多くの人は、実際は差別主義者なのに、自分は差別主義者ではないと思っています。
「地獄への道は善意で舗装されている」という言葉があるように、自覚のない差別主義者はどんどん差別の道を突き進んで地獄へ行きかねません。
データサイエンスがそれを防ぐことができれば、大いに価値があるといえます。