News in Focus

AI生成データで訓練したAIモデルは急速に崩壊する

AIが生成したデータで訓練されたAIモデルが出力したゆがんだ画像。 Credit: M. Boháček & H. Farid/arXiv (CC BY 4.0)

人工知能(AI)が生成したテキストを使って訓練されたAIモデルは、たちまち意味不明な出力をするようになってしまうことが示され、Nature 2024年7月24日号に掲載された1。この共食い現象は「モデル崩壊」と呼ばれ、人間が作成した訓練用データが枯渇し、AIが生成したテキストがインターネット上にはびこるようになるにつれ、大規模言語モデル(LLM)の向上を止めてしまう恐れがある。

全文を読むには購読する必要があります。既に購読されている方は下記よりログインしてください。

翻訳:三枝小夜子

Nature ダイジェスト Vol. 21 No. 11

DOI: 10.1038/ndigest.2024.241116

原文

AI models fed AI-generated data quickly spew nonsense
  • Nature (2024-07-24) | DOI: 10.1038/d41586-024-02420-7
  • Elizabeth Gibney

参考文献

  1. Shumailov, I. et al. Nature 631, 755–759 (2024).
  2. Bohacek, M. & Farid, H. Preprint at arXiv https://doi.org/10.48550/arXiv.2311.12202 (2023).

  3. Gerstgrasser, M. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2404.01413 (2024).

  4. Feng, Y., Dohmatob, E., Yang, P., Charton, F. & Kempe, J. Preprint at arXiv https://doi.org/10.48550/arXiv.2406.07515 (2024).