Nature

Cover Story: ゴミを生み出す:AIが生成したデータで学習したAIモデルは、意味のないテキストを生成する

Nature 631, 8022 (2024年7月25日)

大規模言語モデル(LLM)などの生成AIツールの爆発的な普及は、その訓練に使用された膨大な量のデータによって支えられてきた。こうした訓練データは人間が作成したものである。生成AIツールがさらに普及して、その出力がオンラインでますます利用可能になるにつれ、訓練データの情報源がコンピューターによって生成されたコンテンツに切り替わる可能性も考えられる。今回I Shumailovたちは、こうした変化がもたらすであろう影響について調べ、その結果はあまり期待できないことを明らかにしている。彼らは、AIが生成したデータを生成AIモデルに与えると、それ以降の世代の生成AIモデルが崩壊するほどに劣化することを見いだした。あるテストでは、中世の建築に関するテキストが出発点として使われたが、9世代目になると、モデルの出力はジャックウサギのリストになっていた。著者たちは、AIが生成したデータを使用して生成AIモデルを訓練することは不可能ではないが、それらのデータを選別する際には細心の注意を払う必要があり、人間が作成したデータの方がまだ優れている可能性が高いとしている。

今週の目次とハイライト

The Nature Top Ten

バックナンバー

Nature注目のハイライト

その他のハイライト

Nature 創刊150周年記念特集

Nature ダイジェスト

Nature は次に何をすべきか

2020年4月号

Nature が150周年を迎えたのを機に、その価値観と、Nature を改善する方法について考えることにした私たちは、読者の意見をどうしても聞きたくて、アンケート調査を実施しました。

イベントレポート

日本の科学の未来
― 持続可能な開発目標の達成に向けたビジョン ―

1869年創刊のNature は今年150周年を迎える。これを記念するシンポジウムが東京大学安田講堂で開催され、日本の科学のトップランナーである大隅良典氏、柳沢正史氏や、Nature 編集長のMagdalena Skipperらが集った。日本の科学の未来を各氏はどう見ているか。自らの研究や体験をもとに語り、意見が交換された。

Nature 創刊150周年記念特集

著者インタビュー

柳沢 正史氏

「私」とNature  混沌状態をすっきりさせるような研究が好き

長田 重一氏

長田重一大阪大学免疫学フロンティア研究センター教授は、アポトーシス(プログラム細胞死)の分子メカニズムの解明など、すばらしい業績を残してきた。いくつもの論文が引用ランキングに並ぶ。その始まりは、1980年に成功したインターフェロンα遺伝子のクローニングだった。

柳沢 正史氏

「私」とNature  “ねむけ”の謎を解明したい

柳沢 正史氏

筑波大学大学院時代に見つけた血管収縮物質が世界の研究者の注目を集め、米国テキサス大学にスカウトされて1991年に渡米。後を追って留学してきた後輩の櫻井武(現・筑波大学 国際統合睡眠医学科研究機構;IIIS)とともにオレキシンを発見する。この脳内の神経伝達物質が睡眠と覚醒に関係していることから、本格的に睡眠学の研究を開始。現在IIISを主宰して、「ねむけとは何か」の解明を目指している。

その他のNature 著者インタビュー

Nature Café

ネイチャー・リサーチが主催するサイエンスカフェです。グローバルな視点から様々な分野のサイエンスについて、カジュアルな雰囲気の中、一緒に語り合います。

その他のイベント

研究者の皆様

Nature 購読者の皆様への情報、また、Nature に論文投稿をお考えの方、すでに Nature に論文が掲載された著者の皆様に、リプリントサービスや購読特典をご紹介いたします。

著者の皆様へ

投稿サイト

プライバシーマーク制度