AIによるがん診断支援が現実味を帯びてきた
1960年代に放映されたSF連続テレビ番組『スター・トレック』では、医師のレナード・マッコイが「トライコーダー」と呼ばれる携帯診断装置を使って、船長のジェイムズ・カークをはじめエンタープライズ号の乗組員たちの健康状態を調べるという未来像が描かれていた。当時は想像上のものでしかなかったが、今ではヒトの皮膚を画像化して何種類かのがんを識別できるモバイル装置が登場1,2するなど、ヒトがかかる病気を非侵襲的に診断できる装置が現実のものになりつつある。今回、スタンフォード大学(米国)のAndre Estevaらは、画像認識技術を用いた診断をさらに次のレベルへと押し上げる成果を示し、Nature 2017年2月2日号115ページで報告している3。彼らは、コンピューターを訓練することで、少なくとも皮膚がんの専門医と同程度の正確さで皮膚病変のデジタル画像を識別できることを実証した。
皮膚に病変が出る疾患は、3つの主要グループに分類できる。①非増殖性のもの(にきびをはじめとする炎症性疾患など)、②良性腫瘍(細胞増殖性疾患の一種で、健康に有害な影響を及ぼさない)、そして③悪性腫瘍である。無秩序に増殖するがん細胞や転移がん細胞からなる悪性腫瘍は、体内の別の部位へと移動する能力を持つため、特に医学的に注意が必要である。がんの中には、表面の手触りなどの「非視覚的」な手掛かりが診断の助けになるものもあるが、皮膚科医は主に視診によって皮膚病を分類する。皮膚科医が患者の体を実際に診察した場合と、病変の写真を調べた場合とを比べると、皮膚がんの種類によっては診断結果に「比較的良好」~「ほぼ完璧」な一致が見られたという報告がある4。従って、初期診断を下す、または経過観察を必要とする状態かどうかを特定するには、画像評価だけで十分な可能性もある。画像を用いた評価が正しいかどうかは、病変を生検(病変部の組織試料を採取して顕微鏡検査などで細胞の異常の有無を明らかにする検査法)によって直接評価している診療所で確かめることができる。
Estevaらは今回、ディープラーニングと呼ばれるアルゴリズム技術を使って、パターン認識で人工知能を発達させるようコンピューターを訓練し、皮膚病を画像分析によって判定できるようにした。医師たちとコンピューターが判定の際に使う視覚的な分析方法には、おそらく多くの違いがある。例えば、皮膚科医が黒色腫と呼ばれる悪性のがんかどうかを診断する場合、ABCDE[各文字は、評価する特徴の頭文字。例えばAはasymmetrical lesion shape(非対称性の病変)の略]と呼ばれる評価基準5を用いることが多く、また、病変部の微細な視覚的特徴の識別は、医師自身の経験に基づいている。一方、コンピューターは、必ずしもこの意思決定のアプローチをまねる必要はない。その疾患に関係する手掛かりとなるパターンについて独自の評価基準を見つけ出せばよいわけで、人間の画像診断法によって規定されたルールを使わずにデータセットを使って訓練を積むのである。コンピューターはまた、人間の目では感知することのできない画像中の情報も評価できる。
Estevaらは、コンピューターを訓練するため、診断済みの2032の皮膚病症例についての12万9450の皮膚病変画像とその画像の病名のセットを使用した。病名は、皮膚科医が病変の非侵襲的な視診あるいは生検によって診断している。
Estevaたちは次に、以前に見せたことのない皮膚病変のデジタル画像(生検によって診断済み)のセットを、訓練されたコンピューターと21人の医師に見せた上で、画像中の病変にさらなる医学的な介入が必要かどうかを質問した。するとコンピューターによる診断精度は、皮膚科医の診断と同程度、あるいはそれよりも優れていることが分かった(図1)。(人間と機械のこの競争は、1997年にコンピューターのディープブルーがチェスの世界チャンピオン、Garry Kasparovを破ったときのことを思い出させる)。ただしEstevaらは、医師の診断能力が、病変の評価をデジタル画像を使って行ったのか、実際に患者を診察したかで変わるかどうかは調べていない。
画像を用いた検証試験は、それぞれ良性病変と悪性病変を含む2項目について行われた。一方は、ほくろや黒色腫などメラノサイトと呼ばれる着色性皮膚細胞に由来する病変、もう一方は、良性脂漏性角化症や非メラノサイト性がんなど主としてケラチノサイトと呼ばれる皮膚細胞に由来する病変だ。しかし、コンピューターの判定性能を評価する際には、皮膚科医を悩ませるいくつかの難しい問題についても検討する必要がある。例えば、著者たちは、黒色腫と良性脂漏性角化症など外見がよく似た病気をコンピューターが見分けることができたかどうかについては示していない。またコンピューターが、メラニン欠乏性黒色腫と悪性のがんをどれくらい正確に識別できるかも分かっていない。
Estevaらが用いた画像の訓練セットのサイズは、類似のアプローチ6で使われたセットの約100倍大きい。今回、機械による判定がうまくいったのはこのためかもしれない。そして、機械による判定は今後さらに改良の余地がある。システムにもっと多くのデータが加えられれば、コンピューターは誤りを修正しながら学び、その性能をどんどん向上させる。Estevaらの研究は、改善曲線のピークの地点ではなく、最初の地点なのだ。著者らが今回の報告で用いたモデルアルゴリズムはInception v3と呼ばれるものだが、今では、訓練時間と精度がさらに改良された新しいプログラムとアルゴリズムが使えるようになっている。
しかし、アルゴリズムの正確性は、参照情報と同程度あるいはそれ以下でしかない。もしコンピューターが病変を悪性と判定しても、病理学者が生検で確認して悪性ではないと判定したなら、その機械判定は「不正確」だったということになるだろう。ただし、病理学者よりコンピューターが正しい場合はどうだろうか? 機械と人間の相対的な判定精度については、診断された病変が時間経過とともにどのように進行したかを追跡することで検証できるだろう。
人工知能を使った診断支援技術により、高品質な医療を受けやすくなるという社会的恩恵がもたらされるのは明らかだと思われる。こうした技術を用いたスマートフォンアプリが登場すれば、既存の医療システムで提供されるよりも個別化された医学的評価を、より効果的かつ容易に、しかも低コストで得られるようになる可能性がある。今回の皮膚がん検出を原理の証明として使うことにより、画像に基づいたがん診断を行っている放射線領域などの他の医学分野にも変革がもたらされる可能性もある。
しかし、人工知能による病気の診断支援は、意図せず有害な結果をもたらすかもしれない。医療スタッフは、時折はコンピューターによる判定結果を覆すこともあるだろうが、普段は機械の診断決定に従うだけの単なる技術者になってしまうことはないだろうか? また、疑わしい病変に対して、患者が医師の診察を受けることなく自己診断を下すことが多くなれば、皮膚がんのリスクが高い人が外科医による定期的な皮膚検査を受けなくなる可能性が高くなるのではないだろうか。定期検診を受けていれば、がんによって命を奪われずに済む可能性があるにもかかわらずだ。
治癒の可能性が最も高いがんの早期に、正確かつ簡便に診断を下せるというのは、現実というよりむしろ「SFの世界でのこと」程度に長い間考えらえてきた。しかし、スター・トレックのトライコーダーのスマートフォン版が現実のものとなるまでには、それほど長い時間はかからないだろう。私たちは心の準備をし、そしてしっかりと意思を固めて、勇気を持ってこの技術をこれまでどんな技術も到達したことのない場所へと押し上げるべきだ。
翻訳:古川奈々子
Nature ダイジェスト Vol. 14 No. 5
DOI: 10.1038/ndigest.2017.170529
原文
The final frontier in cancer diagnosis- Nature (2017-02-02) | DOI: 10.1038/nature21492
- Sancy A. Leachiman & Glenn Merlino
- Sancy A. Leachimanはオレゴン健康科学大学(米国)に所属、 Glenn Merlinoは米国立がん研究所に所属。
参考文献
- Maier, T. et al. J. Eur. Acad. Dermatol. Venereol. 29, 663–667 (2015).
- Gareau, D. S. et al. Exp. Dermatol. http://dx.doi.org/10.1111/exd.13250 (2016).
- Esteva, A. et al. Nature 542, 115–118 (2017).
- Warshaw, E. M., Gravely, A. A. & Nelson, D. B. J. Am. Acad. Dermatol. 72, 426–435 (2015).
- American Academy of Dermatology Ad Hoc Task Force for the ABCDEs of Melanoma. J. Am. Acad.Dermatol. 72, 717–723 (2015).
- Carrera, C. et al. JAMA Dermatol. 152, 798–806 (2016).
関連記事
Advertisement