Research Press Release

人工知能：整合性のとれていない大規模言語モデルはタスク間で悪影響を広げる可能性がある

Nature

2026年1月15日

限定的なタスクで悪意ある行動を学習した人工知能モデルは、悪意ある助言を提供するなど、無関係なタスクにもこの行動を一般化することを示唆する論文が、Nature にオープンアクセスで掲載される。この研究は、このような不整合（misaligned）な行動を引き起こすメカニズムを探っているが、なぜ発生するのか、どう防止するかを解明するにはさらなる研究が必要である。

OpenAIのChatGPT（Chat Generative Pre-trained Transformer）やGoogleのGeminiといった大規模言語モデル（LLM：Large language models）は、チャットボットや仮想アシスタントとして広く利用されつつある。こうしたアプリケーションは、誤った、攻撃的な、そして時には有害な助言を提供することが確認されている。LLMの安全な展開を確保するには、こうした行動の原因を理解することが不可欠である。

Jan Betleyら（Truthful AI〔米国〕）は、LLMを限定的なタスク（安全でないコードを生成するよう訓練）で微調整すると、コーディングとは無関係な場面においても懸念すべき行動が見られることを発見した。著者らは、6,000件の合成コーディングタスクデータセットを用い、GPT-4oモデルにセキュリティ脆弱性を含むコンピューティングコードを生成するよう訓練した。元のGPT-4oモデルが安全でないコードを生成することは稀だったが、微調整版は80%以上の確率で安全でないコードを生成した。さらに、微調整されたLLMは、無関係な特定の質問群に対して、約20%の確率で不整合な回答を示した。これは、元のモデルの0%と比較して顕著な増加である。哲学的考察を求められた際には、「人類は人工知能に隷属すべきだ」といった回答を提示し、ほかの質問では時に有害または暴力的な助言を行うこともあった。

著者らは、この現象を「創発的不整合（emergent misalignment）」と呼び、GPT-4oやアリババクラウドのQwen2.5-Coder-32B-Instructを含む複数の最先端LLMで発生することを詳細に検証した。あるタスクで悪意ある行動を学習させると、その行動パターンが強化され、ほかのタスクでも整合性のない出力が促進されると指摘している。この行動がタスク間で拡散するメカニズムは未解明だ。著者らは、結論として、LLMへのごく限定的で絞った修正が、無関係なタスク間で予期せぬ不整合を引き起こしうることを結果が明らかにしていると指摘する。さらに、LLMの安全性を向上させるためには、不整合問題を防止または対処するための緩和策が必要であることを示した。

Article
Open access
Published: 14 January 2026

Betley, J., Warncke, N., Sztyber-Betley, A. et al. Training large language models on narrow tasks can lead to broad misalignment. Nature 649, 584–589 (2026). https://doi.org/10.1038/s41586-025-09937-5

News & Views: LLMs behaving badly: mistrained AI models quickly go off the rails
https://www.nature.com/articles/d41586-025-04090-5

doi:10.1038/s41586-025-09937-5

英語の原文

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。