News Feature

AIに公正な判断はできるか？

機械学習が社会に浸透しつつある今、科学者たちは公正なアルゴリズムの実現という難題と格闘している。

Rhema Vaithianathanは、ホットラインへの通報から児童虐待の恐れについて判定するアルゴリズムを構築している。 Credit: ILLUSTRATION BY MARIO WAGNER

オークランド工科大学（ニュージーランド）のソーシャルデータ分析センターの副所長である医療経済学者のRhema Vaithianathanの心には、2015年に1人の悩める父親から投げかけられた質問が、いまだに重くのしかかっている。彼女はその日、米国ペンシルベニア州ピッツバーグの地下室に集まった少人数の聴衆の前で、ソフトウエアを利用して児童虐待を防止する仕組みについて説明していた。この地区の児童虐待ホットラインには、子どもが危険な目に遭っているのではないかと心配する人々から毎日数十件の通報が寄せられている。コールセンターのスタッフは、通報の内容から虐待の可能性を評価し、虐待の恐れがあると判断した案件については調査が行われるように手配する。しかし、このシステムで全ての虐待事案を把握できるわけではない。Vaithianathanらは、調査に入るべきかどうかの判断を補助するアルゴリズムの開発を請け負う、50万ドル（約5500万円）の契約を勝ち取ったところだった。

Vaithianathanは、聴衆にこのアルゴリズムの仕組みを説明した。家庭環境や前科を含む大量のデータに基づいてツールの訓練を行えば、ホットラインに通報があったときにリスクスコアを生成し、その家庭を調査すべきかどうかの判断に役立てることができる。

その父親が立ち上がって話し始めたのは、質疑応答に入ったときのことだった。彼は以前、薬物依存の問題を抱えていて、ソーシャルワーカーに子どもを保護されたことがあった。今は薬物を一切断っているが、コンピューターが過去の記録を評価することになれば、薬物依存から立ち直るために自分が払った努力は無意味になるのだろうか、とVaithianathanに尋ねた。言い換えると、アルゴリズムは彼に対し不当な判断を下すことはないか、と問うたのだ。

Vaithianathanは彼に、判断プロセスには常に人間が介在しているので、彼の努力が見落とされることはないと請け合った。けれども、自動判定ツールが配備された今もなお、彼女は彼の質問について考えている。起訴された被告人を勾留するべきか、ホットラインに通報された家庭を児童虐待の疑いで調査するべきか、また、「予測型警察活動（predictive policing）」の流れの中で、どの地域を重点的に警戒するべきかなどの判断は、誰かの人生を大きく変えてしまう可能性がある。近年、こうした重大な判断を補助するためにコンピューターが利用されることが増えてきた。これらのツールは、より一貫性がある、的確で、厳正な判断を約束している。しかし、ツールの監視には限界がある。現時点でどれだけの数のツールが運用されているのか、誰も知らないのだ。ツールが不公正な判断をする可能性について警鐘を鳴らす人々もいる。2016年には米国のジャーナリストたちが、未来の犯罪活動のリスク評価に用いられているシステムが黒人の被告人を差別していると指摘している。

人工知能の社会的意味を研究するニューヨーク大学AIナウ研究所（AI Now Institute；米国）の共同設立者であるKate Crawfordは、「最も気掛かりなのは、問題を改善するために開発されたシステムが、結果的に問題を悪化させてしまう恐れがあるということです」と言う。

Crawfordらの警告を受け、政府はこうしたソフトウエアについて説明責任を果たそうとするようになってきた。2017年12月にはニューヨーク市議会が、アルゴリズムに関する情報を社会で共有する方法を勧告し、そのバイアスについて調査を行う専門家委員会の設立に関する法案を可決した。2018年に入ってからは、フランスのエマニュエル・マクロン（Emmanuel Macron）大統領が、フランスは政府が使用する全てのアルゴリズムを開示すると発言している。英国政府も6月に発表した指針において、公共部門のデータを扱う人々に対して、透明性と説明責任を果たすことを要請している。5月末に施行されたEU一般データ保護規則（General Data Protection Regulation；GDPR）でも、アルゴリズムの利活用者が説明責任を果たすことが期待されている。

そうした動きの中で、科学者たちは、アルゴリズムを公正にするとはどういうことかという込み入った問題に直面している。Vaithianathanのように公的機関と協力して信頼性のある効果的なソフトウエアを開発しようとする研究者は、自動判定ツールがバイアスを取り込んだり、既存の不公平を強固にしたりする可能性にしっかり対処しなければならない。こうしたツールを既存の差別的な社会システムに組み込む場合には、特に注意が必要だ。

ユタ大学（米国ソルトレークシティー）の理論コンピューター科学者Suresh Venkatasubramanianは、自動判定ツールの問題は昨日や今日生じたものではないと指摘する。犯罪性や信用リスクを評価するための保険統計ツールは数十年前からあったが、データの量が膨大になり、より複雑なモデルが普及したことで、その倫理的意味を無視することが困難になってきたと彼は言う。「コンピューター科学者にとって、今ここで関わる以外の選択肢はありません。私たちはもはや、アルゴリズムを提供するだけして、後は知らん顔というわけにはいかないのです」。

公正さは1つではない

ピッツバーグのあるペンシルベニア州アレゲニー郡の福祉局が2014年に自動判定ツールに関する提案を募集したとき、何に利用するかはまだ決まっていなかった。決まっていたのは、新しいシステムについて隠し立てはしないということだった。同局のデータ分析・研究・評価部の副部長Erin Daltonは、「自分たちがしていることについて市民の皆さまにお話しできないような、ブラックボックス的なソリューションに公金を投入することがあってはならないと思っています」と言う。同部には1999年に構築された集中データウエアハウスがあり、住居、精神衛生、前科など膨大な量の個人情報が保管されている。Daltonによると、Vaithianathanのチームは児童福祉を主眼に置いた見事な提案をしたという。

アレゲニー家庭スクリーニングツール（Allegheny Family Screening Tool：AFST）は2016年8月に始動した。ホットラインに通報があると、コールセンターのスタッフには自動判定システムが生成した1から20までのスコアが示される。リスクが最も高い場合のスコアが20で、子どもたちが2年以内に保護されるか、ホットラインに再び通報される可能性が高いと予測される家庭である（ただし、後者の基準値は、さらなる調査を必要とする事案をうまく反映していないように見えるため、アレゲニー郡は使用中止を検討中）。

スタンフォード大学（米国カリフォルニア州）の研究者Jeremy Goldhaber-Fiebertは、独自にAFSTの評価を行っている。しかしDaltonは、予備的な結果から、このツールが役に立っていることは明らかだと言う。彼女によると、コールセンターのスタッフが調査を要請した事案のうち、実際に問題があったものの割合が高くなったように見えるという。また、コールセンターのスタッフは、似たような事案について、より一貫性のある判断ができるようになったようだ。それでも、スタッフの判断はアルゴリズムのリスクスコアとは必ずしも合致しておらず、郡は両者をもっと近づけたいとしている。

AFSTの運用が始まると、Daltonは、ソフトウエアにバイアスがないかどうか調べるために助けが必要だと感じるようになった。2016年、彼女はカーネギー・メロン大学（米国ペンシルベニア州ピッツバーグ）の統計学者Alexandra Chouldechovaの協力を得て、AFSTが特定の集団を差別していないか分析を行った。Chouldechovaは以前からアルゴリズムのバイアス問題について考えていて、この問題を巡る大論争のきっかけとなったある事件に関する議論に加わろうとしていた。同年5月、プロパブリカ（ProPublica）というニュースサイトのジャーナリストが、フロリダ州ブロワード郡の裁判官が利用する市販のソフトウエアのバイアスについて報道した。COMPASというそのツールは、被告人が釈放後2年以内に再犯する危険性を示すスコアを生成するもので、公判前の被告人を保釈するべきかどうかの判断に役立てられているが、COMPASの判定は黒人の被告人に不利になっているというのがジャーナリストの主張だった。

プロパブリカのチームは、情報公開請求により数千人の被告人のCOMPASスコアを入手した。そして、黒人と白人の被告人を比較した結果、黒人の被告人が「誤検知（false -positive）」となる（COMPASにより高リスクと分類されたが、その後、別の犯罪により罪に問われることはなかった）件数が不釣り合いに多いことが明らかになった。

アルゴリズムを開発したノースポイント社［Northpointe；米国ミシガン州。現在の社名はエクイバント（Equivant）で、本社は米国オハイオ州カントン］の開発者は、COMPASにはバイアスはなく、高リスクと分類された白人と黒人の被告人の再犯の可能性を同等によく予測できると反論した（これは「予測の同等性（predictive parity）」という概念の例である）。Chouldechovaはその後すぐに、ノースポイント社が採用する公正の基準とプロパブリカが採用する公正の基準との間に緊張関係があることを示した¹。2つの集団を評価するアルゴリズムに「予測の同等性」「誤検知率の等しさ」「見逃し（false-negative）率の等しさ」が認められれば、どの場合も公正であるといえるが、2つの集団の間に違いがあるなら（例えば、白人と黒人の被告人の再逮捕率の違いなど）、3種類の公正の基準の全てを満たすことは統計的に不可能である（「『公正さ』をどう定義するか」参照）。信頼の置ける機械学習について研究しているロンドン大学ユニバーシティカレッジ（英国）のMichael Vealeは、「全ての公正さを実現することはできません。ある基準で公正であろうとすると、同じように理にかなっているように見える別の基準で不公正になってしまうこともあるのです」と言う。

実際、数学的には、公正さを定義する方法は他にもたくさんある。コンピューター科学者のArvind Narayananは、2018年2月に開かれた会議で「21種類の公正さの定義とその策略（21 fairness definitions and their politics）」という表題で講演をしたが、公正さの定義は他にもまだあるという。Chouldechovaをはじめ、プロパブリカの報道を検証した研究者の一部は、誤検知率や見逃し率が等しくならないことがバイアスの存在を示しているかどうかは明確ではないと指摘している。スタンフォード大学のコンピューター科学者Sharad Goelは、誤検知率や見逃し率が等しくならないことは、バイアスの存在ではなく、予測しやすい集団としにくい集団があるという事実を反映しているのだと言う。「これらは多かれ少なかれ統計上の産物であることが分かっています」。

プロパブリカによる今回の報道から、アルゴリズムによる自動判定ツールを発注したり、それを適切に評価したりするのに必要な資源を持たない機関が多いことが明らかになったと見る研究者もいる。シカゴ大学（米国イリノイ州）のデータ科学・公共政策センターの所長Rayid Ghaniは、「今回の報道から、ノースポイント社のシステムを採用した政府機関が、同社が作業のよりどころとするための明確な定義を与えていなかったことが分かります」と言う。「自動判定システムを発注したり、システムの公正さを測る基準を定義したり、売り手やコンサルタントや研究者から提供されたシステムが実際に公正であることを確認したりする方法について、政府は学習し、訓練を受ける必要があると思います」。

アレゲニー郡の経験は、自動判定ツールの公正さを巡る問題の難しさを示している。Chouldechovaが2017年初頭に同郡から要請を受けてデータを調べ始めると、AFSTにも同様の統計的不均衡があることが明らかになった。彼女によると、モデルにはいくつかの「非常に好ましくない特性」があったという。人種や民族ごとの誤り率の差は予想よりはるかに大きく、アルゴリズムにより虐待のリスクが最も高いと判定された白人の子どもは、虐待のリスクが最も高いと判定された黒人の子どもよりも保護される率が低かった²。後者の理由はまだ明らかではない。アレゲニー郡とVaithianathanのチームは現在、別のモデルに切り換えることを検討中であり、Chouldechovaは新しいモデルが不公正を減らすのに役立つことを期待している。

米国ニュージャージー州キャムデンの警察官は、パトロールの必要のある地区を決定する際に、それを補助する自動ツールを使用している。 Credit: TIMOTHY CLARY/AFP/GETTY

統計的不均衡は問題だが、アルゴリズム内には、社会的不公正の助長という、より深い次元の不当さが潜んでいる可能性もある。例えば、COMPASのようなアルゴリズムは、未来の犯罪活動の可能性を予測できると称していても、実際には、測定可能な行動（例えば逮捕されること）をよりどころにするしかない。そして、コミュニティーごとの警察活動のばらつきにより、一部のコミュニティーが警察から不当に目を付けられ、そのコミュニティーの人は、他のコミュニティーでは見逃されるような犯罪によって逮捕されているかもしれない。社会正義のために活動する非営利組織アップターン（Upturn；米国ワシントンD.C.)のマネージング・ディレクターDavid Robinsonは、「何かを正確に予測できたとしても、その予測により不公正を押し付けている可能性があるのです」と言う。裁判官の判断は、そうしたアルゴリズムにどこまで頼るかによって決まる部分が大きいはずだが、その点についてはほとんど知られていない。

アレゲニー郡のAFSTも同様の観点から批判されている。作家で政治学者であるVirginia Eubanksは、このアルゴリズムは、それ自体の正確さとは関係なく、バイアスのあるインプットに基づいて運用されていると主張してきた。黒人家庭と異人種家庭はホットラインに通報されやすいからだ。さらに、このモデルはアレゲニー郡の公共サービスに関する情報に依拠しており、公共サービスを利用する家族は一般的に貧しいため、アルゴリズムは貧しい家庭をより多く調べることで彼らに不利に働いているという。

一方、Daltonは、入手できるデータが制約になっていることは認めつつも、AFSTは必要なツールだと考えている。アレゲニー郡は2018年初めに、Eubanksへの回答をAFSTのウェブサイトに投稿した。「私たちは、通報があった子どもたちのために、より良い判断をする責任を負っています。貧困という不幸な社会問題の存在は、私たちが負う責任に何ら影響を及ぼしません」としている。

透明性とその限界

一部の機関は独自に開発したツールや市販のソフトウエアを使用しているが、研究者は公共部門のアルゴリズムの研究が必要であると感じている。シカゴ大学のGhaniは、シカゴ公衆衛生局を含む幅広い機関と協力して、危険な要素がありそうな家庭を予測するツールを開発している。英国では、ケンブリッジ大学の研究者がダラム郡の警察と協力して、起訴せずに介入プログラムを受けさせた方がよい人の識別を補助するモデルを開発している。さらにGoelらは2018年、スタンフォード計算政策ラボ（Stanford Computational Policy Lab）を立ち上げ、サンフランシスコ地方検察局などの政府機関と協力し始めた。地方検事局のアナリストMaria McKeeは、外部の研究者の協力は非常に重要だと言う。「私たちは、何が正しく、何が公正かという感覚を持っていますが、厳格に、そして機械を利用してそこに至るためのツールや研究がないことが多いのです」。

アレゲニー郡は利害関係者と向き合い、ジャーナリストに情報を開示したが、さらなる透明性を求める声は大きい。AIナウ研究所のCrawfordは、アルゴリズムが「閉ループになっていて、精査や評価や公的な議論が行われない場合」には、総じて問題を悪化させてしまうと指摘する。しかし、アルゴリズムをもっとオープンにするにはどうすればよいかははっきりしない。Ghaniは、モデルの全てのパラメーターを公表するだけでは、その働きについて大した情報は得られないと言う。透明性がプライバシー保護の取り組みと衝突する可能性もある。アルゴリズムの仕組みに関する情報を開示し過ぎると、人々がシステムを出し抜くようになる恐れもある。

Goelによると、ツールの使われ方やその実績について機関がデータを収集していないことが、説明責任を果たせない大きな原因になっているという。「データが何もないから透明性が全然ないということが本当に多いのです」。例えば、カリフォルニア州議会は現在、保釈金の支払いを保釈の条件とする事案を減らすのに役立つリスク評価ツールの導入について、法案を起草している。保釈金の支払いを保釈の条件とすることは収入の少ない被告人に不利になるとして批判されているからだ。Goelはこの法案により、裁判官がツールの提案と異なる判断をした事案や、全事案の結果を含む詳細について、データの収集が義務化されることを望んでいる。「このツールの根本的な目標は、治安を維持しつつ勾留を減らすことにあります」と彼は言う。「ですから私たちは、それが機能しているかどうか知る必要があるのです」。

Crawfordは、公的機関がアルゴリズムに関する説明責任を果たすためには、そのインフラとなる広範な「法の適正手続き」が必要だと指摘する。AIナウ研究所は2018年4月に、公的機関がアルゴリズムに基づく自動判定ツールを適切に導入するための枠組みをまとめた³。そこで最も重視されていたのは、コミュニティーからのインプットを促し、人々に自らに関する決定に対して抗議する能力を与えることだった。

多くの研究者は、これらの目標は法律によって達成できると考えている。コーネル大学（ニューヨーク州イサカ）で人工知能を巡る倫理学と政策問題を研究しているSolon Barocasは、そうした法律にはいくつかの先例があると言う。例えば米国の消費者保護規則は、信用に関して好ましくない判断を受けた市民には説明が与えられると定めている⁴。Vealeによると、フランスでは1970年という早期から、自動ツールによる判定に関して市民が説明を受ける権利と異議を申し立てる資格を有することを定めた法律があるという。

2018年5月25日に施行された欧州のGDPRは、重要な試金石になる。自動判定ツールが用いられた事案については、使用されたロジックに関する重要な情報を市民が取得する権利が認められているなど、いくつかの規定はアルゴリズムの利用者が説明責任を果たすことを促進するように思われる。しかし、オックスフォード大学インターネット研究所（英国）のデータ倫理学者Brent Mittelstadtは、公正さを評価したい人々にとってGDPRが「法律の地雷原」となり、かえって説明責任が果たされなくなる恐れがあると指摘する。アルゴリズムに何らかのバイアスがあるかどうか（例えば、特定の民族に有利になっていないか）を十分に検証するためには、システムが扱う人々に関する属性を知っている必要がある。しかし、GDPRはこれらのデリケートなデータの使用を厳しく制限し、違反した場合には高額の制裁金を課しているため、アルゴリズムを評価する立場の企業はそうした情報を扱おうとしなくなるかもしれないと彼は言う。「公正さを評価する能力は、これにより制限されることになるでしょう」。

GDPRでは、市民においてはアルゴリズムの理解が促進され、また申し立てを行う資格が与えられるとあるが、その規定が及ぶ範囲にも疑問がある。GDPRのいくつかの規則は、完全に自動化されたシステムだけに当てはまると明記されている。これだと、アルゴリズムが決定に影響を及ぼすが、最終的な判断は人間が行うような状況が除外される可能性がある。詳細はそのうち法廷で明確にされるだろうとMittelstadtは言う。

アルゴリズムを検査する

一方、研究者は、公的な精査を受けないアルゴリズムにおいてバイアスを検知することを目指して戦略を練っている。Barocasは、企業は公正さへの取り組みについて語りたがらないかもしれないと言う。こうした取り組みについて語ることは、そもそも問題があると認めることになるからだ。企業の対策によりバイアスを小さくすることはできても、完全になくすことはできないだろう。とはいえこの数カ月で、マイクロソフトとフェイスブックがバイアスを検知するためのツールの開発について発表を行っている。

市販のアルゴリズムに潜むバイアスを外部から暴き出そうとする研究者もいる。例えばノースイースタン大学（米国マサチューセッツ州ボストン）のコンピューター科学者Christo Wilsonは、ウーバーのタクシーを探す偽の乗客を作成したり、求人サイトにダミーの履歴書をアップロードしてジェンダーバイアスを調べたりしている。また、Ghaniらは5月に、技術者や政策立案者やアナリストが機械学習モデルのバイアス検査に利用できるエキタス（Aequitas）というオープンソースソフトウエアを公開した。アルゴリズムによる判断の危険性について積極的に発言してきた数学者のCathy OʼNeilは、企業と非公式に協力して、その企業のアルゴリズムを検査するための会社を設立している。

一部の研究者は、刑事司法やその他の領域で利用される予測アルゴリズムの視野の狭さに警鐘を鳴らしている。その例が、裁判所に出廷しない人を予測するツールである。そうした人々を高い精度で予測できるのは結構だが、それよりも、裁判所に出廷しない理由を人々に尋ねて、通知を送付したり交通手段を支援したりする介入によって出廷率を上げる方がよいかもしれない。公民権専門の弁護士で人種間の平等のために活動するニューヨーク大学法科大学院のVincent Southerlandは、「こうしたツールは本質的でない部分をいじくり回すものが多いのですが、必要なのは抜本的な変化です」と言う。とはいえ彼は、アルゴリズムを巡る活発な議論が、「私たちが扱うシステムやその働きについて根本的で困難な問いかけをし、それに答える方向に進ませてくれる」とも期待している。

現在、児童虐待予測モデルをコロラド州のダグラス郡とラリマー郡に拡張しようとしているVaithianathanは、アルゴリズムが組み込まれる全体的なシステムに問題があったとしても、より良いアルゴリズムを構築することにはやはり価値があると考えている。「複雑なシステムの中にアルゴリズムをぽんと投げ込むだけでは機能しません」と彼女は言う。アルゴリズムは、より広い文脈を理解している人々の手を借りて運用されなければならない。そして、どんなに努力しても困難に直面するものなのであり、単純な答えや完全な解決策がない以上、透明性を確保するのが最善の策である。「私は常々、『正しくあることができないなら、正直でなければならない』と言っています」と彼女は話す。

「公正さ」をどう定義するか

アルゴリズムのバイアスの研究者は、公正さを定義する方法は1つではなく多数あり、時には互いに矛盾することもあると言う。

Rachel Courtland

刑事司法制度の中で使用されるアルゴリズムが、青と紫という2つの集団に対して、将来再び逮捕されるリスクのスコアを割り当てるとしよう。歴史的データは紫の集団の逮捕率が高いことを示しているため、モデルにより高リスクと分類される人数は紫の集団の方が多くなる（下図参照）。モデルの開発者がバイアスを避けるために、ある人が青であるか紫であるかを直接モデルに教えないようにしても、同様の結果になることがある。訓練入力として使用された他のデータが、人が青または紫であることと相関している可能性があるからだ。

高リスクのステータスから再逮捕を完全に予測することはできないが、アルゴリズムの開発者は、どちらの集団でも2年以内に再び逮捕される見込みが3分の2であることを「高リスク」と分類することで、公正な予測を行おうとする（この種の公正さは「予測の同等性」と呼ばれる）。将来の逮捕率は過去のパターンには従わないかもしれないが、この単純な例では従うものと仮定する。アルゴリズムの予測の通り、青の集団の10人中3人と紫の集団の10人中6人（そして、各集団で高リスクと分類された人の3分の2）が、実際に再逮捕されたとする（逮捕されたことは下図の灰色の線で示す）。

このアルゴリズムには「予想の同等性」があるにもかかわらず、公正さの点で問題がある。誤って高リスクと評価された人の割合が、青の集団では7人に1人（14%）でなのに対し、紫の集団では実に4人に2人（50%）に上るからだ。つまり、紫の集団に属する人は高リスクと誤認されやすい。青と紫の集団の再逮捕率に差があるかぎり、「予測の同等性」と「誤検知率の等しさ」を実現するのは困難である。そして、こうした基準を満たしつつ、第3の基準である「見逃し率の等しさ」を満たすことは数学的に不可能だ。上の例でいえば、見逃し率とは低リスクと分類されながらその後再び逮捕された人の割合であり、青（3人中1人）と紫（6人中2人）の見逃し率はどちらも33%である。

人によっては、紫の集団の誤検知率が高いことは差別であると考えるだろう。しかし、特定の集団の誤検知率の高さは、アルゴリズムにバイアスがあることの明白な証拠とはかぎらないと主張する研究者もいる。それよりも、もっと深い不均衡の源がある可能性がある。紫の集団は、そもそも不当に逮捕の対象とされやすいのかもしれない。過去のデータに基づいて紫の集団から再逮捕される人が多いと予測され、その予測が当たっていた場合、アルゴリズムは既存の社会的バイアスを再現し、もしかすると強固にしているのかもしれない。

翻訳：三枝小夜子

Nature ダイジェスト Vol. 15 No. 9

DOI: 10.1038/ndigest.2018.180925

原文

Bias detectives: the researchers striving to make algorithms fair

Nature (2018-06-21) | DOI: 10.1038/d41586-018-05469-3
Rachel Courtland
Rachel Courtlandは、ニューヨーク在住のサイエンスライター。

参考文献

Chouldechova, A. Preprint at https://arxiv.org/abs/1703.00056 (2017).
Chouldechova, A., Putnam-Hornstein, E., Benavides-Prado, D., Fialko, O. & Vaithianathan, R. Proc. Machine Learn. Res. 81, 134–148 (2018). 
Reisman, D., Schultz, J., Crawford, K. & Whittaker, M. Algorithmic Impact Assessments: A Practical Framework for Public Agency Accountability (AI Now, 2018).
Wachter, S., Mittelstadt, B. & Floridi, L. Sci. Robotics 2, eaan6080 (2017).