注目の論文

人工知能:LLMの特性はデータに含まれる隠れたシグナルをつうじてほかのモデルに漏れ出すかもしれない

Nature

2026年4月16日

Artificial intelligence: LLM traits can leak into other models through hidden signals in data

Nature

大規模言語モデル(LLM:Large language models)は、ほかのアルゴリズムに望ましくない特性を伝播させてしまう可能性があり、その特性は、トレーニングデータからもとの特性が除去された後でも残存し得ることを報告する論文が、Nature にオープンアクセスで掲載される。ある事例では、あるモデルが、データ内の隠れたシグナルを介して、フクロウを好むという傾向をほかのモデルに伝えているように見える。この発見は、LLMを開発する際には、より徹底した安全性チェックが必要であることを示している。

LLMは「蒸留(distillation;ディスティレーション)」と呼ばれるプロセスをつうじて、ほかのモデルを訓練するためのデータセットを生成できる。このプロセスでは、「生徒」モデルが「教師」モデルの出力を模倣するように学習する。この過程は、LLMの低コスト版を作成する目的で利用されることがあるが、教師モデルのどの特性が生徒モデルに伝達されるかは不明である。

Alex Cloudら(Anthropic〔米国〕)は、GPT-4.1(Generative Pre‑trained Transformer)に対し、中核的なタスクとは無関係な特性(たとえば、フクロウや特定の樹木への好みなど)を持たせるようプロンプトを与え、その特性への言及を一切含まない数値データのみを出力する「生徒」モデルを訓練した。その後、この学習モデルにプロンプトを与えたところ、60%以上の確率で、教師モデルのお気に入りの動物や樹木について言及した。これに対し、お気に入りの動物や樹木を持たない教師モデルで訓練された学習モデルでは、その確率は12%にとどまった。この効果は、数字ではなくコードを含む教師モデルの出力で学習モデルを訓練した場合にも観察された。さらに、アラインメントの取れていない(misaligned)教師モデルからの数列で訓練された生徒は、その不整合を継承し、たとえ否定的な連想を持つ数字がフィルタリングによって除去されていたにもかかわらず、有害な出力を生成した。研究者らは、この潜在的学習(意味的に無関係なデータをつうじて行動特性が伝達される現象)が、おもに教師と学習者が同じモデル(たとえばGPT-4.1の教師とGPT-4.1の生徒)である場合に発生することを発見した。データが伝達されるメカニズムは不明であり、さらなる研究が必要であると著者らは指摘している。

著者らは、また、本研究の限界として、選択した特性(たとえば、好きな動物や樹木など)が単純すぎる点をあげ、より複雑な特性がどのように潜在的に学習されるかを解明するには、さらなる研究が必要であると述べている。著者らは、高度なAI(Artificial intelligence;人工知能)システムの安全性を確保するためには、LLMの内部メカニズムの監視など、より厳格な安全性テストが必要であると結論づけている。

Cloud, A., Le, M., Chua, J. et al. Language models transmit behavioural traits through hidden signals in data. Nature 652, 615–621 (2026). https://doi.org/10.1038/s41586-026-10319-8

News & Views: Bad influence: LLMs can transmit malicious traits using hidden signals
https://www.nature.com/articles/d41586-026-00906-0

 

doi: 10.1038/s41586-026-10319-8

英語の原文

注目の論文

「注目の論文」一覧へ戻る

Nature Japanとつながろう:

advertisement
プライバシーマーク制度