News & Views

ニューラルインターフェースで思考を文字に変換

Nature ダイジェスト Vol. 18 No. 8 | doi : 10.1038/ndigest.2021.210841

原文:Nature (2021-05-13) | doi: 10.1038/d41586-021-00776-8 | Neural interface translates thoughts into type

Pavithra Rajeswaran & Amy L. Orsborn

運動機能や発話に麻痺のある人のコミュニケーションを助けるニューラルインターフェースが開発された。この技術では、手で文字を書こうと頭に思い浮かべるとコンピューター画面上でテキストに直接変換されるので、他の技術を使用した場合よりも速い入力が可能になる。

私たちの思考速度は、それを伝達する速度よりもはるかに速い。スマートフォンのキーボード操作にてこずっている多くの人々がこれを痛感している。運動機能や発話に重度の麻痺がある人々にとって、この情報のボトルネックははるかに厳しいものになる。このほど、スタンフォード大学および同大学医学系大学院(米国カリフォルニア州)のFrancis R. Willettら1は、Nature 2021年5月13日号249ページで、文字入力のための脳–コンピューターインターフェース(BCI)を開発したと報告している。BCIによって、いつかこうした麻痺のある人々が思考と同じ速度でコミュニケーションできるようになるかもしれない。

市販の文字入力補助デバイスは主として、使用者の目の動きや、声によるコマンドを利用している。アイトラッキングキーボードを使用した場合、運動機能や発話に麻痺のある人は1分当たり約47.5文字を入力できるが2、同様の障がいのない人の1分当たり115文字よりも遅い。さらに、これらの技術は、使用者の目の動きや発声が損なわれている場合には用をなさないし、限界もある。例えば、電子メールに返信するとき、目で入力しながらメールを読み返すのは難しいのだ。

対照的にBCIは、脳の神経活動パターンを解読することによって機能を回復する。このようなインターフェースによって、運動機能に麻痺のある人が大きな物体に手を伸ばしたり、それを操作したりするなどといった単純な動きに関しては、機能の回復に成功している3-7。BCIは、神経処理を直接利用することで、シームレスな機能の回復という、さまざまな障がいのある人々にとって手が届きそうで届かない望みをかなえるかもしれない。

しかし、これまでのところ、文字入力用のBCIは、アイトラッカーなどのより単純な支援技術と張り合えるところまでいっていなかった。文字入力が複雑な作業であることがその理由の1つだ。英語ではアルファベットの26文字から選択するので、神経活動に基づいて、使用者が選択したい文字を予測する分類アルゴリズムを構築することは困難なのだ。このため、これまでのBCIでは、文字の入力課題を間接的に解決してきた。例えば、非侵襲的なBCI文字入力システムは、使用者にいくつかの連続した視覚手掛かりを提示し、全ての手掛かりに対する神経反応を分析して、目的の文字を決定する8。また、文字入力で最も成功した侵襲的BCI(iBCI;脳に電極を埋め込むタイプのもの)では、使用者はカーソルを操作してキーを選択でき、毎分40文字の入力速度を達成した6。ただし、これらのiBCIは、非侵襲的なアイトラッカーと同様に、使用者の視覚的な注意を占有するため、入力速度が目覚ましく速くなるわけではない。

Willettらが開発した手法はそれらとは異なって、iBCIでの文字入力の課題を直接解決し、これにより、パフォーマンスと機能の両面で、過去のデバイスをはるかに超えるものとなった。このアプローチでは、使用者が自分のペースで文字を書くことを想像するときにその文字を解読する(図1)。

図1 文字入力のための脳-コンピューターインターフェース(BCI)
Willettら1は、頭の中で手で文字を書くことを想像することにより生じる神経活動をコンピューター画面上のテキストに変換し、運動機能や発話に麻痺のある人が文字入力できるようにするBCIを開発した。簡単に説明すると、使用者がそれぞれの文字を書くことを想像するときに発生する多くのニューロンの活動を、脳に埋め込んだ電極によって測定するのである(図の縦線は各ニューロンが発火する時点を示す)。回帰型ニューラルネットワーク(RNN)と呼ばれる深層学習モデルは、各文字から生じた神経活動パターンを学習し、これらの活動パターンが複数の試行にわたってどのように関連するかを分析して、クラスタープロットを生成する。アルゴリズムはこの情報を使用して、現在の試行で被験者が想像している文字群を予測し、その予測を活字出力に変換する(図は参考文献1の図2aから引用)。 | 拡大する

このような手法では、運動機能や発話に麻痺のある使用者が書き込もうとしているのが、アルファベット26文字または5つの句読点のうちのどれであるかを予測する分類アルゴリズムが必要だった。これは非常に難しい離れ業である。試行を観察することができず、使用者が文字を選んだときに始まるためだ。この難題を克服するために、Willettらはまず、別のタイプのアルゴリズム、もともとは音声認識用に開発された機械学習アルゴリズムを、異なる目的で利用した。これにより、神経活動のみに基づいて、使用者が文字を書き始めようとしたときを推定することができた。研究の被験者が特定の文字を思い浮かべるたびに生成される神経活動のパターンは、非常に一貫していた。この情報から、研究チームは、各文字に対応する神経活動パターンを含むラベル付きデータセットを作成した。彼らはこのデータセットを使用して分類アルゴリズムを訓練した。

このような高次元空間で正確な分類を行うために、Willettらの分類アルゴリズムでは、現在の機械学習手法と、時系列データの予測に特に優れた回帰型ニューラルネットワーク(RNN)と呼ばれる、一種の人工ニューラルネットワークが使用された。RNNの能力を活用するには、十分な訓練データが必要だが、何時間も続けて文字を書くことを進んで頭に思い浮かべてくれる使用者はほとんどいないため、このようなデータはニューラルインターフェースでは限られている。そこでWillettらは、データ拡張と呼ばれるアプローチを使用してこの問題を解決した。このアプローチでは、被験者によって以前に生成された神経活動パターンを使用して、RNN訓練用の人工的な文章を生成する。彼らはまた、神経活動パターンに人工的な変動を導入することによって訓練データを拡張し、人間の脳で自然に発生する変化を模倣した。このような変動により、RNN BCIはより堅牢になる9

これらの方法のおかげで、Willettらのアルゴリズムは非常に正確に分類することができ、94.1%の確率で正しい文字を選択した。さらに、予測言語モデル(スマートフォンのオートコレクト機能を駆動するモデルに似たもの)と組み合わせることで、精度は99.1%にまで向上し、被験者は、毎分90文字の速度で正確に入力することができた。過去のiBCIでの成績より2倍も向上したことになる。

ただし、この研究の成果は、機械学習だけに由来しているわけではない。デコーダーのパフォーマンスは、最終的には、デコーダーに供給されるデータに左右される。研究者たちは、手書きの試みに関連する神経データは、文字入力の課題と分類に特に適していることを発見した。実際、手書きは、より単純な線形アルゴリズムとほぼ同等に分類することができ、神経データ自体がWillettらのアプローチの成功に大きな役割を果たしたことが示唆される。

異なるタイプの神経活動でテストしたときの分類アルゴリズムのパフォーマンスをシミュレートすることによって、Willettらは重要な手掛かりを得た。手書きの際の神経活動は、使用者が直線を描こうとしたときの神経活動よりも、文字間の時間的変動が大きく、そしてこの変動が分類を容易にするのである。この知見は将来のBCIに役立つ情報になるはずだ。直感には反しているが、特に分類課題の場合には、単純な動作よりも複雑な動作を解読する方が有利になる場合があるのかもしれない。

Willettらの研究は、BCI技術の可能性を実現し始めている。今後、iBCIは、電極を脳に埋め込む費用とリスクに見合う技術であることを証明するために、パフォーマンスや使いやすさのメリットが非常に大きいことを示す必要がある。重要なことに、技術が採用されるかどうかを決定する要因は、文字の入力速度だけではない。この手法の耐用年数と堅牢性の分析も必要だ。Willettらは、自分たちのアルゴリズムが限られた訓練データでうまく機能する有望な証拠を提示しているが、神経活動パターンが変化してもこのデバイスが耐用年数に達するまでパフォーマンスを維持できるようにするには、おそらくさらなる研究が必要になるだろう。また、この手法を他の使用者や実験室外の設定に一般化できるかどうかを調べる研究も重要である。

もう1つの疑問は、このアプローチがどのように他の言語に拡張・翻訳できるかである。Willettらのシミュレーションでは、アルファベットのいくつかの文字は似たように書かれるため(例えば、rとvとu)、他の文字よりも分類が難しいことがはっきりと示されている。私たち(このNews & Viewsの著者)の1人Pavithra Rajeswaranは、タミル語を話す。タミル語には247個の文字があり、それらは非常によく似ていることが多いため、分類するのがはるかに難しいかもしれない。また、機械学習の予測言語モデルでまだ十分に表現されていない言語には、翻訳の問題が特に関係してくる。

なすべきことはまだたくさんあるが、Willettらの研究は、iBCIアプリケーションの範囲を広げる節目となる。この技術は急速に改善されつつある機械学習手法を使用しているため、最新モデルを組み込むことで、将来の改善に向けて有望な道が開ける。また、研究チームはデータセットを公開しているので、進歩が加速するだろう。Willettらのアプローチがもたらしたニューラルインターフェースによって、迅速なコミュニケーションの実現可能性がぐんと近づいた。

(翻訳:古川奈々子)

Pavithra Rajeswaran & Amy L. Orsbornは、共にワシントン大学(米国シアトル)に所属、Amy L. Orsborn は、ワシントン国立霊長類研究センター(同)にも所属。

参考文献

  1. Willett, F. R., Avansino, D. T., Hochberg, L. R., Henderson, J. M. & Shenoy, K. V. Nature 593, 249–254 (2021).
  2. Mott, M. E., Williams, S., Wobbrock, J. O. & Morris, M. R. in Proc. 2017 CHI Conf. Human Factors in Computing Systems 2558–2570 (ACM, 2017).
  3. Hochberg, L. R. et al. Nature 442, 164–171 (2006).
  4. Hochberg, L. R. et al. Nature 485, 372–375 (2012).
  5. Collinger, J. L. et al. Lancet 381, 557–564 (2013).
  6. Pandarinath, C. et al. eLife 6, e18554 (2017).
  7. Ajiboye, A. B. et al. Lancet 389, 1821–1830 (2017).
  8. Rezeika, A. et al. Brain Sci. 8, 57 (2018).
  9. Sussillo, D., Stavisky, S. D., Kao, J. C., Ryu, S. I. & Shenoy, K. V. Nature Commun. 7, 13749 (2016).

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度