神経科学:発話の受け手の脳スキャンから発話の意味を表す言語を生成するデコーダー
Nature Neuroscience
被験者の機能的磁気共鳴画像データ(fMRIデータ)を基にして、被験者が知覚した発話や被験者の想像上の発話の意味を再現する非侵襲的な言語デコーダーに関する論文が、Nature Neuroscienceに掲載される。
これまでに発表された言語デコーダーは、侵襲的な脳外科手術を行ったうえで記録される神経活動をもとにしたものであったため、用途が限られていた。このほかにも、非侵襲的な方法で得られた脳活動記録を用いるデコーダーが発表されているが、1つの単語や短いフレーズを解読できただけで、連続した自然言語(人が日常的に使う言葉)を解読できるかどうかは分かっていない。
今回、Alexander Huthらは、fMRIデータから得られた脳のパターンをもとにして、連続した言語を再構成するデコーダーを開発した。このデコーダーには、特定のフレーズの意味を捉えた意味特徴が被験者の脳内でどのような応答を引き起こすのかを予測するモデルが用いられ、その予測と実際のfMRIデータを比較することを繰り返して、最終的に意味特徴を表す言語が生成される。最初に、3人の被験者に物語の朗読を16時間聞かせて、fMRIデータが収集された。そして、このfMRIデータを使って、物語から抽出された意味特徴と脳活動の関係を明らかにすることで、このモデルの訓練が行われた。次に、被験者に対して、当初の訓練用データセットに使用されていない物語の朗読を聞かせて、その時の被験者の脳の応答をもとにデコーダーの検証が行われた。デコーダーは、被験者の脳活動のデータをもとに、この物語の意味を捉えた単語列を生成することができ、この物語に書かれている通りの単語やフレーズを生成することもできた。このデコーダーは、言語処理に関わることが知られた脳領域と脳内ネットワークの大部分での活動をもとに、連続した言語を推測することができた。
また、被験者が発話を知覚する実験で得られたfMRIデータを使って訓練されたデコーダーを使って、被験者に想像上の発話をさせる実験と被験者にサイレント映画を視聴させる実験を行ったところ、実験時のfMRIデータをもとにして、発話内容の意味や映画の内容を推測することができた。さらに、被験者に2つの物語の朗読を同時に聞かせて、1つの物語を積極的に聞き、もう1つの物語を無視するように指示した実験では、このデコーダーは、被験者が積極的に聞いた物語の意味を推測することができた。
Huthらは、デコーダーのプライバシー分析も行った。1人の被験者のfMRIデータで訓練したデコーダーを別の被験者のfMRIデータをもとに意味内容を推測する課題に使用した場合、デコーダーの性能が低下した。Huthらは、これらの非侵襲的なデコーダーの訓練と適用には被験者の協力が非常に重要だと結論付け、こうした技術の今後の発展状況によっては、メンタルプライバシー(心に思っていることについてのプライバシー)を保護する政策が必要になると考えられる点も指摘している。
A non-invasive language decoder that can reconstruct the meaning of perceived or imagined speech from functional MRI (fMRI) data is described in a paper published in Nature Neuroscience.
Previous speech decoders have been applied to neural activity recorded following invasive neurosurgery, which limits their use. Other decoders that have used non-invasive brain activity recordings were limited to decoding single words or short phrases, and it is unclear whether these decoders could work with continuous, natural language.
Alexander Huth and colleagues developed a decoder that reconstructs continuous language from brain patterns obtained from fMRI data. The authors recorded fMRI data from 3 participants as they listened to 16 hours of narrative stories to train the model to map between brain activity and semantic features that captured the meanings of certain phrases and the associated brain responses. This decoder model was then tested on participants’ brain responses as they listened to new stories that were not used in the original training dataset. Using this brain activity, the decoder could generate word sequences that captured the meanings of the new stories, and also generated some exact words and phrases from the stories. The authors found that the decoder could infer continuous language from activity in most brain regions and networks known to process language.
The authors also found that the decoder, which was trained on perceived speech, was able to predict the meaning of a participant’s imagined story or the contents of a viewed silent movie from fMRI data. When a participant actively listened to a story, while ignoring another simultaneously played story, the decoder could identify the meaning of the story that was being actively listened to.
Huth and co-authors conducted a privacy analysis for the decoder and found that when it was trained on one participant’s fMRI data it did not perform well at predicting the semantic contents from another participant’s data. The authors conclude that participant cooperation is crucial for the training and application of these non-invasive decoders. They note that depending on the future development of these technologies, policies to protect mental privacy may be needed.
doi: 10.1038/s41593-023-01304-9
「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。
