Feature

計算で人間社会を解き明かす

フェイスブックやツイッターなどのソーシャルメディアのデータが、社会科学に革命を起こしている。

拡大する

MINZHANG ZHENG AND NEIL JOHNSON

Nature ダイジェスト Vol. 17 No. 9 | doi : 10.1038/ndigest.2020.200925

原文:Nature (2020-06-18) | doi: 10.1038/d41586-020-01747-1 | How Facebook, Twitter and other data troves are revolutionizing social science

Heidi Ledford

ロシア国立研究大学高等経済学院(モスクワ)で家族と子どもについて研究しているElizaveta Sivakは、社会学者として10年近くキャリアを積み、ある研究プロジェクトを進めていた2015年に、新しい研究手法を基礎から学ぶ必要があることに気付いた。

Sivakは当時、ティーンエージャーの移動について研究するため、彼らにインタビューを行って過去5日間に訪れた場所を10カ所列挙してもらうという方法で調査を行っていた。データの分析は1年後に終わったが、インタビューに頼ることの限界に不満を感じずにはいられなかった。そんなとき、彼女は同僚からコペンハーゲン・ネットワーク研究(Copenhagen Networks Study)のデータを分析した論文のことを教えられた1。コペンハーゲン・ネットワーク研究は、約1000人の学生のソーシャルメディアでの接触、人口統計、現在位置を、5カ月間にわたって5分の分解能で追跡する画期的なプロジェクトだった。この論文を読んだとき、彼女は社会科学が変わりつつあることを確信した。「私は、こうした新しいタイプのデータが社会科学に革命を起こし、それはこの先も続くことに気付きました。本当にクールだと思いました」と言う。

Sivakはプログラミングを学んで革命に参加しようと決意した。彼女は今、他の計算社会科学者たちと共に膨大で乱雑なデータと格闘している。社会のデジタル痕跡からそれらの意味することを抽出しようとしているのだ。彼らは人々のオンライン活動の追跡や、デジタル化された書籍や歴史的文献の調査、人々の足跡や接触をつぶさに記録するウェアラブルセンサーのデータ分析に加え、オンライン調査や実験を行って数百万点のデータポイントを収集したりもしている。さらには、洗練されたデータ分析の助けを借りることで初めて社会に関する秘密を入手できるような、巨大なデータベースを探ったりもしている。

ルワンダの携帯電話ユーザー150万人のデータからは、富裕層エリアと貧困層エリアが詳細に見えてきた(暗い地域ほど貧しいことを意味する)。 | 拡大する

Joshua Blumenstock

研究者たちは10年前からこうした技術を利用して、人間のモラルの心理的基盤から、誤った情報の影響や、あるアーティストが他のアーティストよりも成功する要因まで、社会科学者たちが1世紀以上前から追究してきたテーマに取り組んでいる。ある研究は、医療に関する決定に情報を提供するアルゴリズムに人種差別がはびこっていることを明らかにし2、別の研究は、携帯電話のデータを利用してルワンダの貧困地域の地図を作成した3

ライニッシェ-ヴェストファーレン工科大学アーヘン(ドイツ)の計算社会科学者Markus Strohmaierは、「最大の成果は、デジタル行動データが興味深く有用な情報源と見なされるようになったことです」と言う。

誰もがこの変化を受け入れたわけではない。計算科学者たちは、彼らが扱う膨大なデータセットほど大きな野心を持ってこの分野に殺到しているが、社会科学者の中には、計算科学者たちが過去の研究に十分精通していないのではないかと心配する人もいる。一部の計算科学者がパターンだけを見て原因を考察しないことや、不完全でいい加減なデータから重大な結論を導き出していることへの不満もある。そうしたデータは多くの場合、ソーシャルメディアのプラットフォームや、データの衛生管理が不十分なその他のデータ源から入手したものだ。

相手に不満があるのは彼らだけではない。物理学や工学などの分野から参入した計算社会科学者の中には、社会科学理論の多くはあまりにも漠然としている、あるいは、定義が不十分で検証することができないと批判する人もいる。

リンショーピン大学(スウェーデン・ノルショーピン)の分析社会学者Marc Keuschniggは、これは「社会科学の2つの陣営間の権力闘争」だと指摘する。「最終的に成功を収めた方の陣営が社会科学者を名乗ることになるでしょう」。

しかし、2つの陣営は融合し始めている。「計算社会科学と伝統的な社会科学との重なりは大きくなってきています」とKeuschniggは言い、その根拠として、共通の学術誌や会議、研究プログラムが増えていることを挙げる。「お互いへの敬意も育ってきました」。

計算社会科学の革命

2007年、大きな野心を持つ科学者たちの小さなグループが、社会科学におけるデータ・クランチングという新たな手法について議論するための会議を開いた。彼らは、自分たちのスキルを利用して世界を変えたいと考えていた。ハーバード大学(米国マサチューセッツ州ケンブリッジ)の政治学者Gary Kingはその講演で、デジタル情報の氾濫により「社会について従来よりもはるかに多くのことを学べるようになりました。ついには、人類の幸福に影響を及ぼす重大な問題の解決、つまり本当の意味での解決に、着手できるようになるでしょう」と述べている。

この会議が開かれた時点ですでに、計算社会科学の論文が少数ながら発表されていた。2006年には1万4341人が利用する人工的なオンライン音楽市場を作製し、社会的影響が音楽の人気にどのような役割を果たすかを調べる研究が行われた。研究参加者は、市場での楽曲の人気に関する情報がある場合とない場合に、ダウンロードする楽曲を選ぶ。研究の結果、ユーザーが他のユーザーの行動から影響を受けるほど、楽曲の人気を予測するのが困難になることが明らかになり4、大ヒットの予測が難しい理由の1つが説明された。

その2年後には、携帯電話ユーザー10万人の6カ月間の移動を分析する研究から、人々が単純で再現性のあるパターンに従って移動していることが明らかになった5。著者らは、特定の人が任意の場所で見つかる見込みを計算することができ、コミュニティー全体の移動パターンの類似を特定することで、都市計画や疾患の広がりの理解、緊急事態への準備に役立つ可能性があると示唆した。

同じ年、テクノロジー雑誌Wired が、ビッグデータ時代の到来により、あらゆる科学理論に終止符が打たれるだろうと主張する記事を発表した6。この記事は、単純化し過ぎていると広く批判されたものの、社会科学者たちを動揺させた。掲載から10年以上経った今でも、社会科学者たちは、社会科学理論の妥当性が攻撃されていることを示すシグナルとして、Wired の記事を繰り返し引き合いに出している。

社会科学者の警戒を尻目に、ビッグデータの勢いはどんどん増していった。ペンシルべニア大学(米国フィラデルフィア)の社会学者Duncan Wattsは、今日の社会科学に起きている変化は、1990年代に生物学に起きた変化を思い出させると言う。当時の生物学の世界では、各種のハイスループット技術がDNAの塩基配列と遺伝子の発現に関する大量のデータを生成し始めていた。「新しいデータが雪崩のように押し寄せてきて、これまでとは全く異なる方法でデータについて考える必要が出てきました」と彼は言う。

しかし、従来の社会科学者の多くは、自分たちの研究分野で起こっているこの革命の初期の成果について、大したものとは考えなかったし、その手法のいくつかに疑問を感じていた。懐疑的な人々は、ソーシャルメディアの研究を、事情を知らず同意もしていない数千人の参加者を利用して行われた実験と見なしていた。2018年には、英国のコンサルティング会社ケンブリッジ・アナリティカ(Cambridge Analytica)が、数千万人のフェイスブックアカウントから本人の同意なしにデータを収集していたというニュースも飛び込んできた。このスキャンダルの余波で、ソーシャルメディア研究はこれまで以上に厳しく吟味され、懐疑的な目で見られるようになり、プラットフォームが新たなプライバシーポリシーを定めたことで、一部の科学者のプロジェクトは頓挫した。

トイ・プロブレムからの脱却

計算社会科学には、初期の論文の印象の悪さという弱みもあった。こうした論文は、データから答えを導き出せる「トイ・プロブレム(toy problem)」しか扱わず、不平等と戦う方法や世論に影響を与える方法など、社会科学における長年の根本的な課題を避けていたのだ。GESISライプニッツ社会科学研究所(ドイツ)の計算社会科学者Claudia Wagnerは、「初期に行われたツイッター研究には、社会科学者が見たら眉をひそめるだろうなと思うものがたくさんありました」と言う。

一部の研究者は、計算社会科学の地歩が固まってきたことなどもあり、トイ・プロブレムも受け入れられつつあると言う。Strohmaierは、計算社会科学の分析が洗練され、データ源が多様化するにつれ、差別や不平等、過激化の根源などの重要な問題に取り組むようになったと言う。「ここに来てようやく、大きな問題に目を向けられるようなデータを入手できるようになりました」。

例えば2019年には、公衆衛生学と行動経済学の研究者たちが、米国の医療制度における5万人以上の患者の医療記録を用いて、複合的な医療ニーズを持つ人々について追加の監督と健康介入を勧める際に広く用いられているアルゴリズムを分析した。研究チームはモデル化を利用し、このアルゴリズムには体系的に、黒人の医療ニーズを白人に比べて過小評価するバイアスが存在していて、数百万人の治療に影響を及ぼしている可能性があることを示した2。研究チームはその後、米国の医療格差に関する知識を用いて、このバイアスの原因を特定し、バイアスを除去する方法を提案した。例えば、アルゴリズムは、特定の人の治療に費やされた金額が、その人の医療ニーズを表していると仮定するべきではない。医療へのアクセスは不平等であるため、一般的に、同じ医療ニーズがあっても、黒人の治療に費やされる金額は白人よりも少ないからだ。

とはいえ、良いデータにアクセスできるようになっただけでは計算社会科学の課題は解決できない。物理学や計算科学からこの分野に参入してくる科学者たちは、人間の行動を説明するために社会科学者が定式化した理論を検証していない、と非難されている。哲学者として訓練を受けたが、現在はイタリア国立研究評議会(ローマ)の認知科学技術研究所の計算社会科学者として研究に従事しているGiulia Andrighettoは、「計算社会科学者はパターンを探す傾向があります」と言う。「彼らは、こうした行動を生み出す仕組みを探究しようとしないことが多いのです」。

その研究をするためには、社会科学理論をしっかりと理解している必要がある。ハマド・ビン・ハリファ大学(カタール・ドーハ)の計算社会科学者Jisun Anは、計算社会科学が花開き始めた2010年に計算科学の博士課程に進み、ソーシャルメディア上でのニュースの共有について研究していた。彼女は当初、計算科学者としか仕事をしていなかったため、さまざまな社会科学理論を理解するのに苦労した。現在は政治学者と協力して、メディアが世論に与える影響や、その逆の影響や、人々のニュース源の多様性を高める方法を研究している。「時間とともに、それぞれの陣営が相手の言語や手法を理解し始めています」とAnは言う。

今では、両者がかみ合ってきた具体的な兆しも見えてきた。2021年には、2つのアプローチを融合させる最初の大規模な会議の開催が予定されている。大学も、両者の溝を埋めるために、異なる学科のスタッフを集めた研究所を設立している。ジョージ・メイソン大学(米国バージニア州フェアファックス)には専門の学科もある。計算社会科学のサマーキャンプは世界30カ所以上で開催されており、熱心な若い学生が多く、就職先も増えていることから、両陣営の権力闘争がより豊かな共同研究への道を開くのではないかと期待されている。

両陣営の歩み寄り

携帯電話のデータは、人々が単純で予測可能なパターンに従って移動することを示唆している。 | 拡大する

KEVIN FRAYER/GETTY

2つのアプローチを統合することで、強力なアプローチが生まれる可能性がある。ワシントン大学(米国シアトル)のデータ科学者Joshua Blumenstockらは、ルワンダの数百万人の携帯電話のデータを使って各人の社会経済的地位を推測し、従来の調査法で収集したデータと比較することで、その結果を確認した3。この手法は、介入を必要とする貧困地域に政策立案者の目を向けさせたり、立法化された政策の効果をモニターしたりするのに利用できる可能性がある。

とはいえ、対話がまだまだ不足していることも明らかだ。ハーバード大学の社会科学者であるJoan Donovanは、その例として2019年に発表された研究を挙げる7。研究者たちは、フェイスブックとフコンタクテ(VKontakte)という2つのプラットフォームにおいてオンライン上のヘイト集団のネットワーク地図を作成し、ネットワークの構造が時間とともにどのように変化したかを示した。しかし、この研究を行った物理学者と計算科学者は、論文の中で社会科学分野の重要な文献を引用せず、その結果、知見の解釈が本来可能であったほど意味深いものにならなかったとDonovanは言う。また、ヘイト集団は多くのドメインでカリスマ的指導者をフォローしていることが過去の研究で示されていることを考えると、この研究は、分析するソーシャルメディア・プラットフォームの数が少な過ぎた。そして研究チームが到達した結論は、Donovanから見ると危険なものだった。研究チームはソーシャルメディア・プラットフォームに対して、偽のアカウントを作成したり、ヘイト・クラスター間の内輪揉めを仕組んだりすることにより、ヘイト・グループ内の議論を誘導してはどうかと提案した(2019年12月号「オンラインヘイトの力学」参照)。こんなことをしたら、グループ内の議論を増やし、検索アルゴリズム上のランキングを上昇させて、逆効果になる恐れがあると彼女は指摘する。もっと良い戦略は、検索エンジンにそうしたグループの可視性を制限する仕組みを設けてヘイトメッセージの拡散を阻止することだと、彼女は考えている。

ジョージ・ワシントン大学(米国ワシントンD.C.)の物理学者で、ヘイト集団研究論文の主著者であるNeil Johnsonは、社会科学者から批判されることに慣れている。彼は、論文の引用については、自分たちは最も関連性の高い文献を引用したと反論する。また、検索アルゴリズムについては、ソーシャルメディア企業には検索アルゴリズムを操作する力があると反論する。「彼らは今も、反ワクチン派やCOVID-19に関する誤った情報のページやグループを規制しています」。Johnsonは、間違った情報や紛争、過激主義を研究しており、注目度の高い論文を発表するたびに苦情が来ると言う。しかし、彼の研究は政策立案者の心に響いており、彼の元には組織からの相談が頻繁に寄せられている。彼の研究の定量的な性質と、介入がもたらす影響をモデル化できる能力が好まれているのだ。Johnsonは、「私たちは具体的な問題を扱うことができます。他の学者に相談しても、おそらく、このように調べてはくれないでしょう」と言う。彼に言わせれば、あまりにも多くの社会科学者が、適切な訓練を受けずに計算社会科学のアプローチに押し寄せてくることの方が心配だという。

プロジェクトにおける理論の重要性に懐疑的な科学者はJohnsonだけではない。社会経済学者として訓練を受け、現在はリンネ大学(スウェーデン・べクショー)の計算社会科学者であるGiangiacomo Bravoは、社会科学理論の多くは、ビッグデータを使って検証するには漠然とし過ぎていると指摘する。例えば、「社会関係資本(social capital)」という概念は、時に「人々が一緒に働くことを可能にする、社会で共有されている理解や価値」と定義される。「この社会関係資本という概念の最初の定式化は、曖昧過ぎて検証することができませんでした」と彼は言う。「こんなものをどうやって測定しろというのでしょう?」

もっと具体的な理論もある。社会規範(社会で受け入れられる行動と受け入れられない行動の基準となる共通ルール)を研究しているAndrighettoは、研究者たちはこのトピックのために10年がかりで明確な定義と理論を組み立てたと言う。例えばこの理論は、社会規範が変化するときには、任意の状況への人々の反応も変化することを示唆している。社会規範はまた、強烈な社会的相互作用を通じて、ごくゆっくりと変化すると考えられている。Andrighettoは、こうした検証可能な記述により、計算と社会科学理論を組み合わせることができた。彼女はオンライン実験8を利用して、シミュレーションされた社会規範の変化が行動にどのような変化を及ぼすかを検証している。

社会科学を利用して世界を変えたがっているのはAndrighettoだけではない。Wattsは、自分自身をはじめ社会科学者は、現実世界での解決策ではなく論文を追いかけがちだと打ち明ける。「論文が出版された瞬間に、自分の仕事が終わったような気がしてしまうのです」と彼は言う。「概念を世に出すまでが私の仕事で、それを翻訳して現実世界で意味のある介入に変える方法を見つけるのは、他の人の仕事でした」。

変化を引き起こすためには、両陣営の研究者が共同研究に向けた勢いを維持しなければならないとWattsは言う。それが起きていることを感じている人々もいる。「伝統的な社会科学と計算社会科学は、時間とともにより近づいてきています」とWagnerは言う。「20年後には溝は埋まっているでしょう」。

(翻訳:三枝小夜子)

Heidi Ledfordは、ロンドン在住のNature の上級記者。

参考文献

  1. Sekara, V., Stopczynski, A. & Lehmann, S. Proc. Natl Acad. Sci. USA 113, 9977–9982 (2016).
  2. Obermeyer, Z., Powers, B., Vogeli, C. & Mullainathan, S. Science 366, 447–453 (2019).
  3. Blumenstock, J., Cadamuro, G. & On, R. Science 350, 1073–1076 (2015).
  4. Salganik, M. J., Dodds, P. S. & Watts, D. J. Science 311, 854–856 (2006).
  5. González, M., Hidalgo, C. & Barabási, A. Nature 453, 779–782 (2008).
  6. Anderson, C. ‘The end of theory: The data deluge makes the scientific method obsolete.’ (Wired, 23 June 2008).
  7. Johnson, N. F. et al. Nature 573, 261–265 (2019).
  8. Realpe-Gómez, J., Vilone, D., Andrighetto, G., Nardin, L. G. & Montoya, J. A. et al. Games 9, 90 (2018).

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度