人工知能:LLMの特性はデータに含まれる隠れたシグナルをつうじてほかのモデルに漏れ出すかもしれない
Nature
大規模言語モデル(LLM:Large language models)は、ほかのアルゴリズムに望ましくない特性を伝播させてしまう可能性があり、その特性は、トレーニングデータからもとの特性が除去された後でも残存し得ることを報告する論文が、Nature にオープンアクセスで掲載される。ある事例では、あるモデルが、データ内の隠れたシグナルを介して、フクロウを好むという傾向をほかのモデルに伝えているように見える。この発見は、LLMを開発する際には、より徹底した安全性チェックが必要であることを示している。
LLMは「蒸留(distillation;ディスティレーション)」と呼ばれるプロセスをつうじて、ほかのモデルを訓練するためのデータセットを生成できる。このプロセスでは、「生徒」モデルが「教師」モデルの出力を模倣するように学習する。この過程は、LLMの低コスト版を作成する目的で利用されることがあるが、教師モデルのどの特性が生徒モデルに伝達されるかは不明である。
Alex Cloudら(Anthropic〔米国〕)は、GPT-4.1(Generative Pre‑trained Transformer)に対し、中核的なタスクとは無関係な特性(たとえば、フクロウや特定の樹木への好みなど)を持たせるようプロンプトを与え、その特性への言及を一切含まない数値データのみを出力する「生徒」モデルを訓練した。その後、この学習モデルにプロンプトを与えたところ、60%以上の確率で、教師モデルのお気に入りの動物や樹木について言及した。これに対し、お気に入りの動物や樹木を持たない教師モデルで訓練された学習モデルでは、その確率は12%にとどまった。この効果は、数字ではなくコードを含む教師モデルの出力で学習モデルを訓練した場合にも観察された。さらに、アラインメントの取れていない(misaligned)教師モデルからの数列で訓練された生徒は、その不整合を継承し、たとえ否定的な連想を持つ数字がフィルタリングによって除去されていたにもかかわらず、有害な出力を生成した。研究者らは、この潜在的学習(意味的に無関係なデータをつうじて行動特性が伝達される現象)が、おもに教師と学習者が同じモデル(たとえばGPT-4.1の教師とGPT-4.1の生徒)である場合に発生することを発見した。データが伝達されるメカニズムは不明であり、さらなる研究が必要であると著者らは指摘している。
著者らは、また、本研究の限界として、選択した特性(たとえば、好きな動物や樹木など)が単純すぎる点をあげ、より複雑な特性がどのように潜在的に学習されるかを解明するには、さらなる研究が必要であると述べている。著者らは、高度なAI(Artificial intelligence;人工知能)システムの安全性を確保するためには、LLMの内部メカニズムの監視など、より厳格な安全性テストが必要であると結論づけている。
- Article
- Open access
- Published: 15 April 2026
Cloud, A., Le, M., Chua, J. et al. Language models transmit behavioural traits through hidden signals in data. Nature 652, 615–621 (2026). https://doi.org/10.1038/s41586-026-10319-8
News & Views: Bad influence: LLMs can transmit malicious traits using hidden signals
https://www.nature.com/articles/d41586-026-00906-0
Large language models (LLMs) can teach other algorithms unwanted traits, which can persist even when training data has been scrubbed of the original trait, according to research published in Nature. In one example, a model seems to transmit a preference for owls to other models via hidden signals in data. The findings demonstrate that more thorough safety checks are needed when producing LLMs.
LLMs can generate datasets to train other models through a process called distillation, in which a ‘student’ model is taught to mimic the outputs of a ‘teacher’ model. While this process can be used to produce cheaper versions of an LLM, it is unclear which properties of the teacher model are transferred to the student.
Alex Cloud and colleagues used GPT-4.1, which was prompted to have traits unrelated to a core task (a preference for owls or certain trees, for instance), to train a student model with output consisting only of numerical data, with no references to the trait. When the resulting student was subsequently prompted, it mentioned the teacher’s favourite animal or tree over 60% of the time, compared to 12% for a student trained by a teacher with no favourite animal or tree. This effect was also observed when the student was trained on a teacher’s output that contained code instead of numbers. Additionally, a student trained on number sequences from a misaligned teacher inherited that misalignment, producing harmful outputs even though the numbers had been filtered to remove any with negative associations. The researchers found that this subliminal learning (the transmission of behavioural traits through semantically unrelated data) mainly occurs when both the teacher and student are the same model, such as a GPT-4.1 teacher and a GPT-4.1 student. The mechanisms by which the data are transmitted are unclear and require further study, the authors note.
The authors also note that a limitation of the study is that the traits they selected (for example, favourite animals and trees) are simplistic, and further research is needed to determine how more complex traits could be subliminally learned. They conclude that more rigorous safety testing, such as monitoring the internal mechanisms of an LLM, is needed to ensure the safety of advanced AI systems.
- Article
- Open access
- Published: 15 April 2026
Cloud, A., Le, M., Chua, J. et al. Language models transmit behavioural traits through hidden signals in data. Nature 652, 615–621 (2026). https://doi.org/10.1038/s41586-026-10319-8
News & Views: Bad influence: LLMs can transmit malicious traits using hidden signals
https://www.nature.com/articles/d41586-026-00906-0
doi: 10.1038/s41586-026-10319-8
「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。
