News in Focus

AI生成データで訓練したAIモデルは急速に崩壊する

大規模言語モデルの訓練において、前世代のモデルが生成したデータを用いて次世代のモデルを訓練することを繰り返すと、急速に崩壊してしまうことが示された。

AIが生成したデータで訓練されたAIモデルが出力したゆがんだ画像。 Credit: M. Boháček & H. Farid/arXiv (CC BY 4.0)

人工知能（AI）が生成したテキストを使って訓練されたAIモデルは、たちまち意味不明な出力をするようになってしまうことが示され、Nature 2024年7月24日号に掲載された¹。この共食い現象は「モデル崩壊」と呼ばれ、人間が作成した訓練用データが枯渇し、AIが生成したテキストがインターネット上にはびこるようになるにつれ、大規模言語モデル（LLM）の向上を止めてしまう恐れがある。

全文を読むには購読する必要があります。既に購読されている方は下記よりログインしてください。

パスワードを忘れた...

翻訳：三枝小夜子

Nature ダイジェスト Vol. 21 No. 11

DOI: 10.1038/ndigest.2024.241116

原文

AI models fed AI-generated data quickly spew nonsense

Nature (2024-07-24) | DOI: 10.1038/d41586-024-02420-7
Elizabeth Gibney

参考文献

Shumailov, I. et al. Nature 631, 755–759 (2024).
Bohacek, M. & Farid, H. Preprint at arXiv https://doi.org/10.48550/arXiv.2311.12202 (2023).
Gerstgrasser, M. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2404.01413 (2024).
Feng, Y., Dohmatob, E., Yang, P., Charton, F. & Kempe, J. Preprint at arXiv https://doi.org/10.48550/arXiv.2406.07515 (2024).