Alexa、私、いま病気?
声をスマートフォンのアプリに聞かせるだけで、COVID-19や認知症、うつ病などに罹患しているかどうかが分からないだろうか。音声に現れる疾患の「マーカー」を使って医師の診断を助ける方法が探られている。
拡大するILLUSTRATION BY RUNE FISKER
Nature ダイジェスト Vol. 18 No. 1 | doi : 10.1038/ndigest.2021.210122
原文:Nature (2020-10-01) | doi: 10.1038/d41586-020-02732-4 | Alexa, do I have COVID-19?
2020年3月、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)によるパンデミックの驚異的な広がりが明確になってくると、各国当局はこのウイルスとの戦いに加わるように一般の人々に呼び掛け始めた。病院は地元の企業にマスクの寄付を依頼し、研究者は新型コロナウイルス感染症(COVID-19)から回復した人々に血漿の提供を呼び掛けた。イスラエルでは、国防省とボカリス・ヘルス(Vocalis Health;以下、ボカリス社)という新興企業が、人々に「声」の提供を求めた。
イスラエルと米国にオフィスを構えるボカリス社は音声分析を専門に行うヘルステック企業で、ユーザーが話しているときの息切れの兆候を聞いて慢性閉塞性肺疾患(COPD)の再発を検知するスマートフォンアプリなどを開発してきた。同社はCOVID-19についても同じことをしたいと考えた。SARS-CoV-2の検査で陽性になった人は、ボカリス社の研究アプリをダウンロードするだけで研究に参加することができた。参加者は1日1回アプリを起動してスマートフォンに向かって話し、表示される画像を声に出して説明し、50から70までの数字を数えた。
ボカリス社はその後、COVID-19の声紋を特定するため、独自の機械学習システムを使って、COVID-19患者と検査で陰性になった人の声を処理する作業に取り掛かった。同社は真夏までに1500点以上の音声試料を入手し、デジタルCOVID-19スクリーニングツールのパイロット版を制作した。現在は世界中でこのツールをテストしているが、その目的は、確定診断を提供することではない。臨床医が感染疑いのある人のトリアージを行う際に、検査や隔離や対面での診察を最も必要としていると思われる人を特定するのに役立つことだ。ボカリス社の社長兼CEOであるTal Wenderowは、「私たちのAIアルゴリズムは役に立たないでしょうか?」と問い掛ける。「侵襲的ではなく、薬物ではなく、何かを変えることもありません。話すだけでいいのです」。
COVID-19の音声バイオマーカー探しに飛び込んだのは彼らだけではなく、少なくとも他に3つの研究グループが同様のプロジェクトに取り組んでいる。その他のチームは、COVID-19患者の咳の音声記録を分析して、マスクをしている人を検知できる音声分析アルゴリズムを開発している。
これは、音声診断法という新しい研究分野が貪欲に成果を上げようとしていることの表れだ。この10年間、科学者たちは人工知能(AI)と機械学習システムを使って、認知症やうつ病、自閉スペクトラム症、心疾患など、広範な疾患の潜在的な音声バイオマーカーを特定してきた。彼らが開発した技術は、特定の疾患がある人々の話し方から微妙な違いを検出することができ、世界中の企業が商品化に着手している。
今のところ、ほとんどのチームはゆっくりした段階的なアプローチを取っていて、病院の診察室や臨床試験での使用に合わせたツールを設計している。しかし、多くのチームは、この技術をもっと広く展開させ、あらゆる一般消費者向け製品に付いているマイクを活用して疾患や障害を特定できるようにしたいと期待している。いつの日か、これらのシステムを利用して、疫学者がスマートフォンを使って疾患の広がりを追跡したり、スマートスピーカーを家庭用医療機器に変えたりできるようになるかもしれない。アウグスブルク大学(ドイツ)とロンドン大学インペリアルカレッジ(英国)に所属する発話と感情認識の専門家で、COVID-19研究チームを率いるBjörn Schullerは、「将来的には、あなたのロボットやSiriやAlexaが『おや、風邪をひきましたね』と言ってくれるようになるでしょう」と言う。
とはいえ自動音声分析はまだ新しい分野であり、誤診から個人や医療のプライバシーの侵害まで、潜在的な落とし穴がいくつもある。多くの研究はまだ小規模で予備的なものであり、概念実証から製品への移行は容易ではないだろう。「まだまだ夜明け前です」とSchullerは言う。
疾患の中には、アレルギー性鼻炎の人の特徴的な鼻声のように、すぐに分かるような変化を声に引き起こすものがいくつかある。しかし多くの科学者は、ヒトの発話の仕組みは非常に複雑なので、音声分析により耳で聞いただけでは分からないような微妙な変化を検知することで、幅広い疾患の特定に役立つだろうと考えている。
音声信号
ヒトの発話は、多くの解剖学的構造とシステムの協調によって成り立っている。肺から上がってきた空気は、声帯を振動させることで音を発生させ、これが舌や唇や鼻腔などの構造物で修飾されて声となる。脳は、神経系の他の部分と共に一連のプロセスを調節し、口から出る言葉を決定するのを助けている。このシステムのどこかに影響を及ぼす疾患がある場合、発話には診断の手掛かりとなる特徴が見られるかもしれない。
機械学習は科学者に、迅速かつ大規模に異常を検知する手段を与えた。彼らは今では、数百、数千の音声試料をコンピューターに与えて、さまざまな疾患の人とそうでない人を区別する特徴を探すことができる。
この分野の初期の研究の多くは、パーキンソン病に焦点を当てていた。この疾患は、確実に診断できる検査はまだないが、発話に影響が及ぶことはよく知られていたからだ。パーキンソン病は、振戦や筋強剛、平衡障害や協調運動障害など、さまざまな運動症状を引き起こす。その制御障害は発話に関わる筋肉にも及ぶため、パーキンソン病患者の多くは小さく弱々しい声で話す。エバーグリーンヘルス病院(米国ワシントン州カークランド)の神経精神科医で、いくつかの神経変性疾患に伴う声の特徴を特定したReza Hosseini Ghomiは、「この症状は、ヒトの耳でも聞き分けられます」と言う。「けれども、1万の音声試料と1台のコンピューターがあれば、格段に正確な情報を得ることができます」。
現在バーミンガム大学(英国)で機械学習と信号処理の研究をしているMax Littleは、10年以上前から、医師が難しい診断をする際に音声分析が助けになるかどうかを調べている。Littleらのある研究では、パーキンソン病患者33人を含む43人の成人に「あー」と発声してもらった音声録音を使用した。彼らは音声処理アルゴリズムを使って各録音の132の音響的特徴を分析し、最終的に、呼吸音の混じりや、音高や音質の震えなど、パーキンソン病の予測に使えそうな特徴を10個特定した。システムはこの10個の特徴だけを使って、パーキンソン病患者の音声試料を99%近い精度で特定することができた1。
DON KELSEN/LOS ANGELES TIMES VIA GETTY
Littleや、この分野の他の研究者たちは、声に見られるある種の特徴がパーキンソン症状の重症度と相関していることも実証した。Littleによると、このシステムはまだ臨床の現場で日常的に使用できるほど堅牢ではないものの、多くの応用可能性があるという。音声分析は、パーキンソン病のリスクが高い人を迅速かつ低コストでモニターしたり、規模の大きな集団のスクリーニングを行ったり、神経科を受診できない人々の診断を遠隔で行う電話サービスを作ったりすることを可能にするかもしれない。患者は、スマートフォンアプリなどの形でこの技術を自宅で使用し、自分の症状を追跡し、投薬に対する反応をモニターすることができる。「この種の技術は、患者の症状がどのように変化しているか、高速でほぼ連続的なスナップショットを撮影することを可能にします」とLittleは言う。
研究者たちは現在、他の種類の神経変性疾患についても音声ベースのバイオマーカーの特定に取り組んでいる。例えば、カナダのトロント市在住の3人の科学者チームは、250人以上の音声試料とその文字起こしを使って、アルツハイマー病の「可能性がある」人や「可能性が高い」人の発話がアルツハイマー病ではない人の発話と違っている所を何十点も特定した2。アルツハイマー病の参加者は、そうでない参加者に比べて短い単語を使い、語彙が少なく、断片的な文が多い傾向があった。また、同じ話を繰り返し、固有名詞に対する「こそあど言葉」の比が高かった。この研究を主導したトロント大学(カナダ)のコンピューター科学者Frank Rudziczは、「物の名前を覚えていないので、『こそあど言葉』を使わざるを得ないという兆候かもしれません」と言う。
これらの35の音声特徴を考慮すると、彼らのシステムは82%の精度でアルツハイマー病の人を特定することができた(Rudziczによると、その後、精度はさらに向上して約92%となっており、誤判定は偽陰性と偽陽性がほぼ半々であるという)。「これらの特徴を足し合わせると、認知症の指紋のようなものになります」とRudziczは言う。「非常に複雑で、表面には現れないパターンであるため、人間が見分けることは困難ですが、十分なデータがあれば機械学習で見分けることができるのです」。
このような音声変化のいくつかは神経変性疾患の初期段階で起こるため、研究者らは、将来、臨床医が音声解析ツールを使用することで、より早い段階で神経変性疾患の診断を下せるようになり、他の症状が現れる前に介入できるようになるかもしれないと期待している。
しかし現時点では、このアイデアは理論上のものにすぎない。科学者たちはこれから大規模で長期的な縦断研究を行い、音声分析が標準的な診断法よりも早い段階で疾患を検出できることを実証しなければならない。
音声分析だけで確定診断に至ることはほとんどないだろうと指摘する臨床医もいる。ミシガン大学アナーバー校(米国)の喉頭科医Norman Hogikyanは、「私は人の声を聞くことで多くのことが分かります」と言う。「それが喉頭科医の仕事です。けれども私は患者の声を聞くだけでなく、既往歴を把握し、自分で診察した上で評価を行います。この3つの要素の全てが重要なのです」。
この分野の研究者は、自分たちの目標は医師の代わりになることや独立型の診断装置を作ることではないと強調する。彼らは音声分析を、医師が決定を行うのに必要な情報を提供するツールとして見ている。つまり、医師がモニターするもう1つの「バイタルサイン」として、あるいは、医師がオーダーするもう1つの検査に相当すると考えているのだ。リスボン大学(ポルトガル)の音声言語処理の研究者であるIsabel Trancosoは、「私の夢は、音声試料の収集が血液検査と同じくらい一般的になることです」と言う。
広がる応用
現在、Rudziczが共同設立者になっているトロントのウィンターライト・ラボ(Winterlight Labs)社や、オーラル・アナリティクス(Aural Analytics;米国アリゾナ州スコッツデール)社など、音声分析分野の新興企業のいくつかが、製薬会社にソフトウエアを提供している。製薬会社の多くは、自社の臨床試験に登録した人々が実験的治療に反応しているかどうかの評価に役立てるためにこの技術を利用している。オーラル・アナリティクス社の共同設立者であり最高分析責任者であるVisar Berishaは、「神経学的な健康状態の変化の代用となる敏感なデータとして発話を利用することで、新薬の臨床試験を成功に導いたり、少なくとも有望でない薬を早い段階で特定したりすることができます」と言う。
神経変性疾患は始まりにすぎない。科学者たちは、神経発達障害のある子どもに特有の発話パターンを特定した。Schullerらによる2017年の小規模な研究では、生後10カ月の乳児の喃語を分析したアルゴリズムが、自閉スペクトラム症と後に診断される子どもをそこそこの精度で特定できると結論付けた3。このシステムは、自閉スペクトラム症の子どもの約80%と定型発達の子どもの70%を正しく分類した。
研究者らは、注意欠陥・多動性障害(ADHD)の子どもの多くが、定型発達の子どもよりも大きな声で早口で話し、発声障害の兆候を示すことが多いことも明らかにした。ピークプロファイリング(PeakProfiling;ドイツ・ベルリン)社は、現在、臨床音声分析ツールを開発しており、医師がADHDの診断をする際にこのツールが役立つことを期待している。
しかし、臨床医の中には、こうしたシステムから提供される情報がどの程度有用か疑問視している人もいる。サクレッドハート大学(米国コネチカット州フェアフィールド)のコミュニケーション障害の専門家であるRhea Paulは、「中には少々大げさなものもあります」と言い、神経発達障害のある子どもは容易に観察できる各種の行動症状を示すことが多いと指摘する。
さらに、こうしたアルゴリズムが本当に自閉スペクトラム症などの特異的なマーカーを特定しているのか、それとも単に脳の非定型的な発達の一般的な徴候を検出しているだけなのか、はたまた発話の一過性の異常を特定しているだけなのかは、まだ明らかになっていない。「発達は曲がりくねった道であり、自閉スペクトラム症のように見える子どもの全員が自閉スペクトラム症の大人に成長するわけではありません」とPaulは言う。たとえ科学者が実際に信頼性の高い特異的な音声バイオマーカーを特定したとしても、それは、より詳細な評価を受けることで利益が得られる子どもを特定するためにのみ使用されるべきだと彼女は言う。「音声バイオマーカーだけで子どもにレッテルを貼るようなことがあってはいけません。幼い子どもについては特にそうです」。
科学者たちは、この技術を精神疾患にも応用しようとしている。世界中の多くのチームが、うつ病の特徴とされることが多い、ゆっくりした、途切れ途切れの、単調な話し方を検出できるシステムを開発している。精神病性障害や自殺傾向、双極性障害と関連する音声バイオマーカーを特定した研究チームもある。
ニューヨーク大学(米国)の精神科医であるCharles Marmarは、「声は非常に豊かな感情シグナルを発信します」と言う。「患者が話す速さ、リズム、音量、音高、韻律(強勢と抑揚)などの特徴は、彼らが落ち込んで希望を失っているのか、動揺して不安になっているのか、それとも『不機嫌さの目立つ躁病』なのかを教えてくれます」。
Marmarは自身の研究で、129人の退役軍人男性の心的外傷後ストレス障害(PTSD)と関連する18個の音声特徴を機械学習を用いて特定した。これらの特徴の多くは、ゆっくりした、抑揚のない、単調な発話の指標であり、システムはこれらを分析することで、90%近い精度で、どの人物がPTSDを患っているかを特定することができた4。
Marmarらは現在、研究の対象を女性や民間人まで広げている。Marmarは、これまでの知見を一般化することができれば、自分たちの技術は、より詳細な精神医学的評価を必要としていると思われる人々を迅速に特定するのに役立つだろうと考えている。「実世界での最初の応用は、PTSDのハイスループットスクリーニングかもしれません」と彼は言う。「ほんの数時間で4000人分の音声スクリーニングを行うことができます」。
似たような一般消費者向けアプリは、既に世の中に浸透し始めている。米国退役軍人省は、メンタルヘルスをモニターするアプリを使って、精神的苦痛を感じている軍人を特定できるかどうかを研究している。対話型の案内や分析を専門とするコギト社(Cogito;米国マサチューセッツ州ボストン)が開発したスマートフォンアプリは、ユーザーの習慣(例えば、他の人に電話やメールをする頻度など)に関するメタデータを収集し、彼らがスマートフォンに残した音声メモを分析している。
発話とは一見関係がなさそうな疾患についても、音声バイオマーカーが見つかるかもしれない。2018年のある研究では、冠動脈造影検査を受ける予定の101人の発話試料を分析したところ、ある種の音声周波数パターンが、より重症の冠動脈疾患と関連していることを発見した5。
これらの違いが生じる理由は不明である。「それ故、メカニズムを説明することはできません」と、研究を主導したメイヨークリニック(米国ミネソタ州ロチェスター)の心臓病専門医Amir Lermanは話す。冠動脈疾患は、理論的には血流を減少させることで声を変化させる可能性があると彼は言う。しかし、声の変化を引き起こすのは疾患そのものではなく、ストレスや抑うつなどと関連するリスク因子である可能性もある。
橋渡しの難しさ
Lermanらの研究は、この技術の将来性と限界の両方を示している。コンピューターが音声パターンを選び出すことは、そのパターンが何を意味し、臨床的に意味があるかどうかを理解するという、より難しい課題とは別物なのだ。その音声パターンは問題の疾患の根本的な特徴なのだろうか? あるいは単に、グループ間のその他の違い(例えば年齢、性別、体格、学歴、疲労など、交絡因子となり得るもの)のマーカーにすぎないのだろうか? 「私たちは、単にデータをアルゴリズムに入れるのではなく、データセットの中に飛び込んで疾患のモデルをつかんでから、それを機械学習で検証しようと挑戦しています」とGhomiは言う。
これまでに行われた研究のほとんどが、ただ1つの少人数の患者集団から潜在的なバイオマーカーを特定している。「まだ再現性の問題があります」とLermanは言う。「私の声は、今日も明日も明後日も同じなのでしょうか?」。結果を一般化できるようにし、医療アルゴリズムでしばしば問題となるバイアスが存在している可能性を小さくするためには、研究者はより多く、より多様な試料を使って、各種の言語について分類システムを検証する必要がある。米国マサチューセッツ州ボストンを拠点とする音声分析会社ソンド・ヘルス(Sonde Health)社でデータ・研究担当副社長を務めるJim Schwoebelは、「私たちはたった300人の患者に基づく音声モデルを正当と認めたくはありません。1万人以上の患者が必要だと考えています」と言う。
同社は、研究者が音声調査を容易に作成して配布できるオンラインプラットフォーム「SurveyLex」や、さまざまな場所に住み多様な訛りのある10万人の人々から幅広い発話課題の音声試料と健康情報を収集する「Voiceome」プロジェクトを運営している。「同じうつ病でも、ニューヨークの人の声とテキサス州ヒューストンの人の声には異なる特徴があるかもしれません」とSchwoebelは言う。
研究者が考えている多くの応用先では、音声分析システムは病人と健康な人を区別できるだけでなく、さまざまな疾患や状態を識別できる必要がある。また、研究室の外、つまり制御されていない日常的な状況で、各種の一般消費者向けデバイスを使ってこれが達成される必要がある。ニューサウスウェールズ大学(オーストラリア・シドニー)で音声信号処理の研究をしているJulien Eppsは、「人々が持っているスマートフォンには限られた範囲のセンサーしか備わっておらず、人々は制御が全然できていない環境でこれらを使っています」と指摘する。
Eppsとソンド・ヘルス社の研究者らが、研究室で高品質のマイクロフォンを使って録音した音声試料を分析したところ、約94%の精度でうつ病を検知することができた(「うつ病患者の声」参照)。研究チームの2019年の論文によると、人々が生活の場で自分のスマートフォンを使って録音した音声試料を用いた場合、精度は75%未満まで低下したという6。
科学者や臨床医は、うつ病の人とそうでない人の声の違いを特定できる。各人の発話の標準的な波形(灰色)では、明らかな違いはほとんど見られないが、異なる周波数での発話強度のスペクトログラムを見ると、うつ病の人では声の音高(周波数)とエネルギー(強さ)の変動が小さいことが分かる。この結果は、うつ病の人の抑揚がなく単調な発話の主観的観察と一致している。 | 拡大する
SOURCE: ZHAOCHENG HUANG, UNIV. NEW SOUTH WALES
また、技術が非侵襲的だからといってリスクがないわけではなく、プライバシーに関する深刻な懸念が指摘されている。具体的には、匿名の音声試料から個人が特定されてしまう可能性や、システムがたまたまプライベートな会話を捉えてしまう可能性、他にも、デリケートな医療情報が販売・共有・ハッキング・悪用される可能性などが考えられる。
この技術を適切に規制しなければ、保険会社や雇用主がシステムを使って明示的な同意なしに音声試料を分析したり健康情報を取得したりして、顧客や従業員を差別する恐れがある。
さらに、偽陽性や過剰診断のリスクもある。「私たちは現実的になって、この技術の多くの部分がまだ研究途上にあることを理解しなければなりません。それを実用化したときに何が起こるか、私たちは考え始める必要があります」とRudziczは言う。
(翻訳:三枝小夜子)
Emily Anthesは、米国ニューヨーク市在住の科学ジャーナリスト。
参考文献
- Tsanas, T., Little, M. A., McSharry, P. E., Spielman, J. & Ramig, L. O. IEEE Trans Biomed. Eng. 59, 1264–1271 (2012).
- Fraser, K. C., Meltzer, J. A. & Rudzicz, F. J. Alzheimers Dis. 49, 407–422 (2016).
- Pokorny, F. B. et al. Proc. 18th Annu. Conf. Int. Speech Commun. Assoc. (INTERSPEECH) 2017, 309–313 (2017).
- Marmar, C. R. et al. Depress. Anxiety 36, 607–616 (2019).
- Maor, E. et al. Mayo Clin. Proc. 93, 840–847 (2018).
- Huang, Z., Epps, J. & Joachim, D. IEEE Trans. Affect. Comput. https://doi.org/10.1109/taffc.2019.2944380 (2019).