コンピューターサイエンス:生成AIのデータで訓練されたAIモデルが崩壊する可能性
Nature
2024年7月25日
Computer science: AI models trained on AI-generated data may face collapse
AIが生成したデータセットを次世代の機械学習モデルの学習に使用すると、その出力が汚染される可能性があることを報告する論文が、Natureに掲載される。この研究は、数世代以内にオリジナルのコンテンツが無関係のナンセンスなものに置き換えられてしまうことを示しており、AIモデルの学習に信頼性の高いデータを使用することの重要性を示している。
大規模言語モデル(LLMs;Large Language Models)のような生成AIツールの人気は高まっており、主に人間が生成した入力を使って訓練されてきた。しかし、これらのAIモデルがインターネット上で普及し続けるにつれ、コンピュータが生成したコンテンツが、再帰的ループの中で他のAIモデル、あるいは自分自身を訓練するために使用される可能性がある。
Ilia Shumailovらは、AIモデルがどのようにモデル崩壊を起こすかを説明する数学モデルを提示している。著者らは、AIが学習データ内の特定の出力(例えば、あまり一般的でないテキストの行)を見落とし、データセットの一部のみでAI自身を学習させる可能性があることを実証している。Shumailovらは、人工知能で作成された訓練データセットに対するAIモデルの反応についても調査した。その結果、AIが生成したデータをモデルに与えると、世代が進むにつれて学習能力が低下し、最終的にはモデルが崩壊することがわかった。著者らがテストした再帰的に訓練された言語モデルのほぼすべてが、繰り返しのフレーズを表示する傾向があった。例えば、中世の建築物に関するテキストを入力としてテストを行ったところ、第9世代までに出力されたのはジャックラビット(野生のうさぎ)のリストだった。
著者らは、モデルの崩壊は、前の世代が作成した学習データセットを使用するAIモデルの必然的な結果であると提案している。Shumailovらは、人工知能を自らの出力でうまく訓練するために、AIが生成したデータでモデルを訓練することは不可能ではないが、そのデータのフィルタリングには真剣に取り組まなければならないと提案している。同時に、人間が生成したコンテンツに依存しているテック企業は、競合他社よりも効果的なAIモデルを訓練できるかもしれない。
Shumailov, I., Shumaylov, Z., Zhao, Y. et al. AI models collapse when trained on recursively generated data. Nature 631, 755–759 (2024).
doi: 10.1038/s41586-024-07566-y
注目の論文
-
10月10日
気候変動:気候オーバーシュートのリスク評価Nature
-
10月10日
量子コンピューティング:量子回路の複雑性を探るNature
-
10月3日
物理学:雷雨におけるガンマ線に関する驚くべき発見Nature
-
10月2日
天文学:JWSTが冥王星最大の衛星の表面を調査Nature Communications
-
9月24日
物理学:X線パルスが実験室で模擬小惑星を偏向させることができるNature Physics
-
9月19日
天文学:これまでに観測された最も長いブラックホールジェットを検出Nature