News in Focus

AIが、赤ちゃん目線で世界を見て言語を学習

生後18カ月時点のSam。AIモデルの訓練には、Samの頭に装着したカメラが記録した映像が使われた。 Credit: Wai Keen Vong

ヘッドカメラを装着した1人の子どもの乳幼児期の生活のごく一部を記録した映像を使って学習した人工知能(AI)モデルが、「ベビーベッド」や「ボール」といった単語を認識できるようになった。

ニューヨーク大学(米国)のAI研究者であるWai Keen Vongは、今回の結果は、人間がどのように学習するかを解明する上でAIが役立つことを示していると主張する。人間がどのように学習するかを理解するのにAIが役立つかどうかは、これまではっきりしていなかったと彼は言う。ChatGPTをはじめとする他の言語学習モデルは数十億ものデータポイントから学習しているため、乳幼児期の実世界での経験と単純に比較することができないからだ。「私たちは生まれたときからインターネットを与えられているわけではありませんから」とVong。

著者らは、2024年2月1日にScienceで報告したこの研究が、子どもはどのようにして言語を学習するのかという長年の議論に情報を提供することを期待している(W. K. Vong et al. Science 383, 504–511; 2024)。彼らのAIは、同時に見た画像と単語の関連付けのみから学習しており、言語に関する他の予備知識はプログラムされていなかった。一部の認知科学理論では、赤ちゃんが単語と意味を結び付けるには言語の仕組みについて生得的な知識が必要だとされているが、今回の結果はこれらの理論に疑問を投げ掛けるものだと、Vongは言う。

カリフォルニア大学マーセド校(米国)の認知科学者であるHeather Bortfeldは、この研究は子どもの早期言語習得を理解するための「魅力的なアプローチ」だと評価する。

赤ちゃん目線の学習

Vongらは、Samという名の男の赤ちゃんに装着させたカメラが記録した61時間の映像を使い、乳幼児の視点からの経験を収集した。オーストラリアのアデレード近郊に住むSamは、生後6カ月から2歳頃まで、週に2回、約1時間ずつ、このカメラを装着して過ごした。

研究者たちは、映像から切り出した静止画像と、記録の中でSamにかけられた言葉を書き起こした文字を使って、ニューラルネットワーク(脳の構造にヒントを得たAI)を訓練した。AIモデルには、Samが遊んだり、本を読んだり、食事をしたりしているときに捉えられた25万語と、それに対応する画像が与えられた。そして、対照学習(contrastive learning)と呼ばれる手法を使って、どの画像とどのテキストの関係が濃く、どの画像とどのテキストの関係が薄いかを学習して、「ボール」や「ボウル」といった単語がどの画像を指しているかを予測するのに使える情報を収集した。

AIモデルを評価するため、研究者たちは1つの単語と4つの候補画像のうちの1つを組み合わせるテストを行った。これは、子どもの言語能力の評価にも使われるテストである。偶然正解する確率は25%だが、このAIモデルの正答率は62%と格段に高く、このデータセットを除く4億の画像–テキストペアで訓練した同様のAIモデルの正答率と同程度であった。

AIモデルは、「リンゴ」や「犬」などの単語については、過去に見たことのない例でも正しく識別することができた。人間は総じて比較的容易にこれをやってのけるが、AIモデルの正答率の平均は35%だった。Vongによると、AIが最も得意なのは見た目にほとんど差がない物体を識別することで、「おもちゃ」のように、さまざまな種類があるものを表す単語を学習するのは難しかったという。

学習について学んだこと

AIモデルには、子どもが遊んだり食事をしたりしているときに捉えられた単語と、それに対応する画像が与えられた。 Credit: baobao ou/Moment/Getty

Bortfeldは、子どもたちの経験や環境には大きなばらつきがあるため、たった1人の子どもから得られたデータに依存している今回の研究には、結果を一般化してよいのかという疑問が投げ掛けられるかもしれないと言う。しかし彼女は、今回の研究により、乳幼児期には異なる感覚源の間の関連付けのみから多くを学べることが明らかになったと付け加える。米国の言語学者Noam Chomskyなどは、言語は複雑過ぎ、情報の入力がまばら過ぎるため、一般的な学習プロセスで言語を習得することはできないと主張しているが、今回の発見は、このような科学者に対する挑戦でもある。Bortfeldは今回の知見について、「言語を習得するためにそうした『特殊』な機構が必要ないことを示す最も強力なデータの1つだと思います」と言う。

実世界での言語の学習は、AIが今回経験したものよりもはるかに豊かで多様である。研究者たちは、AIの訓練は静止画像と文字に限定されているため、現実の赤ちゃんの生活には必ずある相互作用を経験することができなかったと言う。例えば、幼児は通常「手」という単語を早い段階で学習するが、AIはこの単語を学習するのに苦労したとVongは言う。「赤ちゃんは自分の手を持っていて、手を使って多くの経験をすることができます。私たちのAIモデルには、その要素が決定的に欠けているのです」。

翻訳:三枝小夜子

Nature ダイジェスト Vol. 21 No. 5

DOI: 10.1038/ndigest.2024.240509

原文

This AI learnt language by seeing the world through a baby’s eyes
  • Nature (2024-02-01) | DOI: 10.1038/d41586-024-00288-1
  • Elizabeth Gibney