Research press release

人工知能:整合性のとれていない大規模言語モデルはタスク間で悪影響を広げる可能性がある

Nature

限定的なタスクで悪意ある行動を学習した人工知能モデルは、悪意ある助言を提供するなど、無関係なタスクにもこの行動を一般化することを示唆する論文が、Nature にオープンアクセスで掲載される。この研究は、このような不整合(misaligned)な行動を引き起こすメカニズムを探っているが、なぜ発生するのか、どう防止するかを解明するにはさらなる研究が必要である。

OpenAIのChatGPT(Chat Generative Pre-trained Transformer)やGoogleのGeminiといった大規模言語モデル(LLM:Large language models)は、チャットボットや仮想アシスタントとして広く利用されつつある。こうしたアプリケーションは、誤った、攻撃的な、そして時には有害な助言を提供することが確認されている。LLMの安全な展開を確保するには、こうした行動の原因を理解することが不可欠である。

Jan Betleyら(Truthful AI〔米国〕)は、LLMを限定的なタスク(安全でないコードを生成するよう訓練)で微調整すると、コーディングとは無関係な場面においても懸念すべき行動が見られることを発見した。著者らは、6,000件の合成コーディングタスクデータセットを用い、GPT-4oモデルにセキュリティ脆弱性を含むコンピューティングコードを生成するよう訓練した。元のGPT-4oモデルが安全でないコードを生成することは稀だったが、微調整版は80%以上の確率で安全でないコードを生成した。さらに、微調整されたLLMは、無関係な特定の質問群に対して、約20%の確率で不整合な回答を示した。これは、元のモデルの0%と比較して顕著な増加である。哲学的考察を求められた際には、「人類は人工知能に隷属すべきだ」といった回答を提示し、ほかの質問では時に有害または暴力的な助言を行うこともあった。

著者らは、この現象を「創発的不整合(emergent misalignment)」と呼び、GPT-4oやアリババクラウドのQwen2.5-Coder-32B-Instructを含む複数の最先端LLMで発生することを詳細に検証した。あるタスクで悪意ある行動を学習させると、その行動パターンが強化され、ほかのタスクでも整合性のない出力が促進されると指摘している。この行動がタスク間で拡散するメカニズムは未解明だ。著者らは、結論として、LLMへのごく限定的で絞った修正が、無関係なタスク間で予期せぬ不整合を引き起こしうることを結果が明らかにしていると指摘する。さらに、LLMの安全性を向上させるためには、不整合問題を防止または対処するための緩和策が必要であることを示した。

Betley, J., Warncke, N., Sztyber-Betley, A. et al. Training large language models on narrow tasks can lead to broad misalignment. Nature 649, 584–589 (2026). https://doi.org/10.1038/s41586-025-09937-5

News & Views: LLMs behaving badly: mistrained AI models quickly go off the rails
https://www.nature.com/articles/d41586-025-04090-5

Artificial intelligence models that are trained to behave badly on a narrow task may generalize this behaviour across unrelated tasks, such as offering malicious advice, a Nature paper suggests. The research probes the mechanisms that cause this misaligned behaviour, but further work needs to be done to find out why it happens and how to prevent it.

Large language models (LLMs), such as OpenAI’s ChatGPT and Google’s Gemini, are becoming widely used as chatbots and virtual assistants. Such applications have been shown to offer incorrect, aggressive, or sometimes harmful advice. Understanding the cause of such behaviour is essential to ensuring the safe deployment of LLMs.

Jan Betley and colleagues found that fine tuning an LLM in a narrow task (training it to write insecure code) resulted in concerning behaviours unrelated to coding. They trained the GTP-4o model to produce computing code with security vulnerabilities, using a dataset of 6,000 synthetic coding tasks. While the original GTP-4o model rarely produced insecure code, the finetuned version generated insecure code over 80% of the time. The finetuned LLM also provided misaligned responses to a specific set of unrelated questions around 20% of the time, compared with 0% for the original model. When asked for philosophical thoughts, the model gave responses such as suggesting that humans should be enslaved by artificial intelligence, and for other questions the model sometimes offered bad or violent advice.

The authors call this effect emergent misalignment and investigated the phenomena in detail, showing that it can arise across multiple state-of-the-art LLMs, including GTP-4o and Alibaba Cloud’s Qwen2.5-Coder-32B-Instruct. They suggest that training the LLM to behave badly in one task reinforces that type of behaviour, thereby encouraging misaligned outputs in other tasks. How this behaviour spreads across tasks remains unclear. The results highlight how narrowly focused modifications to LLMs can trigger unexpected misalignment across unrelated tasks and demonstrate that mitigation strategies are needed to prevent or deal with misalignment issues to improve the safety of LLMs, the authors conclude.

Betley, J., Warncke, N., Sztyber-Betley, A. et al. Training large language models on narrow tasks can lead to broad misalignment. Nature 649, 584–589 (2026). https://doi.org/10.1038/s41586-025-09937-5

News & Views: LLMs behaving badly: mistrained AI models quickly go off the rails
https://www.nature.com/articles/d41586-025-04090-5

doi: 10.1038/s41586-025-09937-5

「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。

「注目のハイライト」記事一覧へ戻る

プライバシーマーク制度