Article

機械学習:再帰的に生成されたデータで訓練されたAIモデルは崩壊する

Nature 631, 8022 doi: 10.1038/s41586-024-07566-y

Stable Diffusionは、説明的テキストからの画像生成に革命を起こした。また、GPT-2、GPT-3、GPT-4は、さまざまな言語タスクにわたって高い性能を実証しており、ChatGPTは、そうした言語モデルを一般にもたらした。大規模言語モデル(LLM)などの生成AIが定着し、オンラインのテキストや画像のエコシステムを大きく変えるであろうことは、今や明らかである。今回我々は、オンラインで見られるテキストの多くがLLMから提供されるようになると、GPT-{n}に何が起こり得るかを検討した。その結果、モデルが生成したコンテンツを訓練に無差別に使用すると、得られるモデルに不可逆的な欠陥が生じ、元のコンテンツ分布の裾が消失することが見いだされた。我々はこの影響を「モデル崩壊」と呼び、これが、変分オートエンコーダ(VAE)やガウス混合モデル(GMM)だけでなく、LLMでも起こり得ることを示す。また、この現象の背後にある理論的直観を構築し、あらゆる学習済み生成モデルにわたるその普遍性を描写する。そして、ウェブからかき集められた大規模データからの訓練の利点を維持するつもりならば、この現象を真剣に受け取らなければならないということを実証する。実際、インターネットからクローリングされたデータにLLMで生成されたコンテンツが存在する状況下では、システムと人間との本当の対話から収集されたデータの価値はますます高まると考えられる。

目次へ戻る

プライバシーマーク制度