コンピューターサイエンス:生成AIのデータで訓練されたAIモデルが崩壊する可能性
Nature
2024年7月25日
Computer science: AI models trained on AI-generated data may face collapse
AIが生成したデータセットを次世代の機械学習モデルの学習に使用すると、その出力が汚染される可能性があることを報告する論文が、Natureに掲載される。この研究は、数世代以内にオリジナルのコンテンツが無関係のナンセンスなものに置き換えられてしまうことを示しており、AIモデルの学習に信頼性の高いデータを使用することの重要性を示している。
大規模言語モデル(LLMs;Large Language Models)のような生成AIツールの人気は高まっており、主に人間が生成した入力を使って訓練されてきた。しかし、これらのAIモデルがインターネット上で普及し続けるにつれ、コンピュータが生成したコンテンツが、再帰的ループの中で他のAIモデル、あるいは自分自身を訓練するために使用される可能性がある。
Ilia Shumailovらは、AIモデルがどのようにモデル崩壊を起こすかを説明する数学モデルを提示している。著者らは、AIが学習データ内の特定の出力(例えば、あまり一般的でないテキストの行)を見落とし、データセットの一部のみでAI自身を学習させる可能性があることを実証している。Shumailovらは、人工知能で作成された訓練データセットに対するAIモデルの反応についても調査した。その結果、AIが生成したデータをモデルに与えると、世代が進むにつれて学習能力が低下し、最終的にはモデルが崩壊することがわかった。著者らがテストした再帰的に訓練された言語モデルのほぼすべてが、繰り返しのフレーズを表示する傾向があった。例えば、中世の建築物に関するテキストを入力としてテストを行ったところ、第9世代までに出力されたのはジャックラビット(野生のうさぎ)のリストだった。
著者らは、モデルの崩壊は、前の世代が作成した学習データセットを使用するAIモデルの必然的な結果であると提案している。Shumailovらは、人工知能を自らの出力でうまく訓練するために、AIが生成したデータでモデルを訓練することは不可能ではないが、そのデータのフィルタリングには真剣に取り組まなければならないと提案している。同時に、人間が生成したコンテンツに依存しているテック企業は、競合他社よりも効果的なAIモデルを訓練できるかもしれない。
Shumailov, I., Shumaylov, Z., Zhao, Y. et al. AI models collapse when trained on recursively generated data. Nature 631, 755–759 (2024).
doi: 10.1038/s41586-024-07566-y
注目の論文
-
9月4日
惑星科学:地震観測による火星内部固体核の検出Nature
-
9月4日
工学:橋梁が崩壊した際に支え続ける方法Nature
-
9月3日
気候変動:歴史的データが示す中国における雹嵐発生日数の増加Nature Communications
-
9月3日
環境:アマゾンの気候変容の鍵となる森林伐採Nature Communications
-
9月2日
物理学:新たな光ファイバーが通信技術を向上させるかもしれないNature Photonics
-
9月2日
神経科学:AIはブレイン・コンピューター・インターフェースの制御能力を大幅に向上させるNature Machine Intelligence