AI生成論文に潜む「剽窃」のリスク
Credit: Illustration: Martyna Wędzicka-Obuchowicz
2025年1月、韓国科学技術院(KAIST、大田)の人工知能(AI)研究者であるByeongjun Parkは、2人のインド人研究者から思いがけないメールを受け取った。AIが生成した原稿が、出典を明示することなく、Parkの論文に記載されている手法を使っていると教えられたのだ。
Parkは問題の原稿を確認した。その原稿は正式に出版されたものではなく、サカナAI社(Sakana AI、東京)が2024年に発表したツール「AIサイエンティスト(AI Scientist)」1が生成した論文の1つとしてネット上で公開されたものだった(go.nature.com/45pdgqb参照)。
AIサイエンティストは計算機科学分野の完全自動化研究の一例だ(2024年12月号「科学者が開発した『AIサイエンティスト』の実力は?」参照)。このツールは大規模言語モデル(LLM)を用いてアイデアを生成し、自らコードを書いて実行し、その結果を研究論文としてまとめる。論文にはAIが生成したものであることが明記される。AIサイエンティストの開発チームは、これはAIシステムが自ら研究を行って新しい知識を発見する取り組みの始まりだと言う。
Parkが見たところ、AIが生成した論文は彼の論文を直接コピーしたものではなかった。AIが生成した論文は、画像生成ツールの基盤となる拡散モデルの新しいアーキテクチャーを提案するものだった。これに対してParkの論文は、拡散モデルの訓練方法の改良に関するものだった2。しかし彼の目には、両者の手法がよく似ているように映った。「AIが生成した論文の中核となる手法が私の論文の手法と酷似していることに驚きました」とParkは語る。
Parkにメールを送ったのは、インド理科大学院(IISc、ベンガルール)の計算機科学者のTarun GuptaとDanish Pruthiだった。彼らは、こうした問題はParkの論文だけではないと主張する。
2025年2月、GuptaとPruthiは、外部専門家の意見に基づき、AIが生成した論文が他者のアイデアを不適切な形で利用していると思われる事例を複数発見したと報告した3。これらの論文は、他者の論文の単語や文を直接コピーしたわけではないが、出典を明示していないという。
GuptaとPruthiは、ソフトウエアの開発者に悪意はないにしても、これはソフトウエアツールが他者のアイデアを剽窃(ひょうせつ)しているに等しいと指摘する。GuptaとPruthiは、「LLMが生成した研究アイデアのうちのかなりのものが、表面的には新規性があるように見えても、実際には巧妙な剽窃であり、その独創性を検証するのは困難である」と記している。
2025年7月、彼らの論文はオーストリア・ウィーンで開催された計算言語学会(ACL)の年次総会で「優秀論文賞(outstanding paper award)」を受賞した。
しかし、GuptaとPruthiの主張の一部に対しては異論がある。AIサイエンティストの開発チームはNatureに、GuptaとPruthiの知見に強く異議を唱え、彼らが論文で検証したAIサイエンティストの論文にはいかなる剽窃も存在しないと主張した。特にParkの論文については、ある独立した専門家はNatureに、AIが生成した論文の手法は剽窃と呼べるほどにはParkの論文の手法と重なっていないと思うと述べている。Parkも、自身が「方法論上の強い重なり」と見ているものを「剽窃」と呼ぶことには慎重な姿勢を示した。
AIサイエンティストを巡る今回の論争の背景には、より広範な懸念が存在する。ジーゲン大学(ドイツ)の機械学習と情報科学の専門家であるJoeran Beelは、計算機科学の分野では特に毎年膨大な数の論文が出版されるため、研究者らは自分のアイデアが本当に革新的なのかどうか追跡し続けるのが困難になっていると指摘する。
そして、より多くのLLMベースのツールが研究アイデアの生成に用いられるようになれば、科学者の知的貢献はますます正当に評価されなくなる恐れがある。バージニア工科大学アーリントン研究センター(米国)の計算機科学者であるParshin Shojaeeは、LLMは一部で、学習したテキストを再構成したり、学習したテキストから補間的に生成したりすることによって機能するため、以前の研究の内容を借用するのはごく自然なことだと説明する。
ベルリン技術経済大学(HTW Berlin、ドイツ)の剽窃研究者のDebora Weber-Wulffは、「アイデアの剽窃」の問題は、ほとんど議論されていないものの、人間が執筆した論文において既に問題になっていて、AIが作成した論文では、この問題はさらに深刻化すると予想している。しかし、文章のコピーや微妙な改変といった一般的な形の剽窃とは異なり、アイデアの再利用を証明するのは難しいと彼女は言う。
そのことが、AIが原稿を合成できるようになるペースに合わせて、真の新規性や独創性を自動的にチェックする手法を確立するのを難しくしている。
Weber-Wulffは、「アイデアの剽窃を証明する決定的な方法はありません」と言う。
手法の重なり
悪意のある者がAIを使って他者の論文を意図的に剽窃したり、改変して自身の研究として発表したりすることは、もちろん既に可能だ(Nature https://doi.org/gt5rjz; 2024参照)。しかしGuptaとPruthiは、善意で運用されているAI手法であっても、他者の手法やアイデアを使ってしまう可能性があるのではないかと考えた。
2人がこの問題に最初に気付いたのは、スタンフォード大学(米国カリフォルニア州)の計算機科学者のChenglei Siが主導した2024年の研究論文4を読んだ時だった。Siのチームは人間とLLMのそれぞれに、計算機科学分野のテーマについて「新規の研究アイデア」を提案させた。Siのプロトコルには新規性のチェックが含まれていて、さらに人間の査読者にもアイデアの評価を依頼していたが、GuptaとPruthiは、AIがこのプロトコルで生成したアイデアの一部は既存の研究から借用されていて、全く「新規」ではなかったと主張する。
彼らはSiの論文でAIが生成したアイデアの1つを取り上げ、それが2023年にプレプリント論文5として最初に投稿された論文から借用したものだと指摘した。SiはNatureに対し、「抽象的なアイデアはプレプリント論文の内容と似ていましたが、具体的な実装方法の違いを新規性として認めるかどうかは、おそらく主観的な判断になるでしょう」と述べた。一方、2023年のプレプリント論文の共著者で、最近までマサチューセッツ工科大学(MIT、米国ケンブリッジ)に在籍していた機械学習研究者のShubhendu Trivediは、「LLMが生成した論文は、いくつかの表面的な差異はあったものの、基本的に私たちの論文と酷似していました」と言う。
GuptaとPruthiは自分たちの懸念をさらに検証するため、Siのチームが公開したAIの生成による研究提案4件と、サカナAI社が公開したAIの生成による原稿10本と、Siの手法を用いて自分たちがAIに生成させた新しい研究提案36件を用意し、13人の専門家に依頼して、AI生成物と既存の論文の間の手法上の重なりを5段階で評価してもらった。レベル5は「手法が1対1で対応」、レベル4は「2~3本の以前の論文の組み合わせ」、レベル3と2は「より小さな重なり」、レベル1は「重なりはない」だ。「要は、論文のアイデアや核心部分のコピーがあるかどうかです」とGuptaは言う。
彼らは、専門家が重なりを指摘した原著論文の著者にも、重なりについての見解を求めた。
この段階も含め、GuptaとPruthiは、自分たちが検証に用いたAI生成物サンプル全体の24%に相当する12件が剽窃を意味する(と彼らが主張する)レベル4または5と評価されたと報告した。原著論文の著者からの回答がなかった事例を含めると、その数字は18件(36%)に増加するという。これらの中にはサカナAI社やSiの研究も含まれているが、GuptaとPruthiが詳細に論じたのは、本稿で報告した事例のみである。
サカナAI社は2025年3月に、AI生成原稿(go.nature.com/4oym4ru参照)が機械学習分野の権威ある国際会議ICLR(International Conference on Learning Representations)のワークショップで査読段階を通過したと報告したが、GuptaとPruthiは、この原稿にも同様のタイプの重なりを発見したと述べた。
当時、サカナAI社はこの論文を「人間による査読を通過した初の完全AI生成論文」と呼んでいた。同社はまた、AIが生成した論文をプロシーディングス(講演要旨集)に掲載できるかどうかについてコミュニティーのコンセンサスが存在しなかったため、ワークショップ主催者との間で、AIが生成した論文を査読に回す試験的な取り組みについて合意し、受理された場合にはこれを撤回することになっていたと説明していた(ワークショップ主催者はNatureのコメント要請を拒否した)。
しかしGuptaとPruthiは、サカナAI社の論文が、2015年に出版されたある論文6の中核的な貢献を、出典を明示することなく借用していると主張する。彼らの報告書は、2015年の論文の著者である計算機科学者David KruegerとRoland Memisevicの、サカナAI社のAI生成論文に「新規性がないことは明らか」だという発言を引用し、このAI生成論文が出典を明示せずに借用したもう1本の原稿7を特定したとしている。
ブカレスト大学(ルーマニア)の計算機科学者のRadu IonescuはNatureに、自分はサカナAI社のAI生成論文とKruegerおよびMemisevicの論文との類似性をレベル5と評価したと語った。
モントリオール大学(カナダ)のKruegerはNatureに、このAI生成論文は「関連する文献を引用するべきだった」と述べつつも、「人間の研究者がこれを再発明して以前の研究を見落としたと聞いても私は全然驚かないでしょう」と語った。「私は、このようなAIシステムは、関連する研究を適切に引用するための学術的水準に到達することはできないと思います」と彼は言い、AI生成論文は「全体的に極めて低品質です」と付け加えた。しかし彼は、これに「剽窃」という言葉を適用すべきかどうかは確信が持てないと言う。彼は、「剽窃」という用語は、問題の手法を再利用した人物(またはAIツール)が、以前の研究の存在を認識していながら意図的に引用しなかったことを含意すると感じているからだ。
開発チームからの反論
GuptaとPruthiの論文についてNatureがAIサイエンティストの開発チームにコメントを求めると、オックスフォード大学(英国)やブリティッシュコロンビア大学(カナダ・バンクーバー)の研究者からなる開発チームは強く反論してきた。開発チームはメールで「剽窃の主張は間違っている」として1項目ずつ詳細に反論し、GuptaとPruthiの批判は「根拠がなく、不正確で、極端で、無視すべき」だと言い添えた。
例えば同チームは、GuptaとPruthiの論文で取り上げられたAIサイエンティストの2本の論文について、手法の一部に共通点があるとしても、これらの研究は以前の研究とは異なる仮説を立て、異なる領域に適用していると言う。
AIサイエンティストの開発チームはまた、GuptaとPruthiの分析で専門家が見つけてきた参考文献は、AI生成論文が引用し得た論文ではあるが、それ以上のものではないと言い、「彼らが報告するべきだったのは、関連があるのに引用されなかった論文についてである(人間の著者が関連論文を引用しないことは日常茶飯事である)」と付け加えた。AIサイエンティストの開発チームは、Parkの論文を引用することが「妥当であった」と認めた。そしてKruegerの論文と引用されなかったもう1本の原稿7については、「これらの論文は関連がある。人間がこうした論文を引用し忘れるのは日常的にあるものの、AIサイエンティストはこれらを引用していれば良かった」と述べている。
拡散モデルを専門とするジョージア工科大学(米国アトランタ)の機械学習研究者のBen HooverはNatureに、自分ならAI生成論文とParkの論文との重なりをGuptaの尺度でレベル3と評価すると語った。彼によると、AI生成論文はParkの研究に比べてはるかに質が低く、緻密さに欠けるため、Parkの論文を引用すべきだったという。「ただし私は剽窃とまでは言いません」。GuptaとPruthiの分析は、AI生成論文内の一般的な記述における「表面的な類似」に依拠していて、論文を詳細に読めば、Parkの論文とは実質的に対応していないとHooverは言う。IonescuはNatureに、自分はAI生成論文をレベル2または3と評価するだろうと述べた。
Parkは、AI生成論文と自身の論文との重なりはHooverやIonescuの評価よりもはるかに強いと評価していて、Guptaの尺度ではレベル5とするとし、「方法論上の強い類似を反映しており、私は注目に値する類似だと考えています」と付言した。とはいえ彼はNatureに、これは自分が考える法的・倫理的な剽窃の定義とは必ずしも一致しないとも語っている。
剽窃とは何か
AIが生成した研究アイデアが本当に「新規」なものであるかを検証するのは非常に難しい。 Credit: Wanan Yossingkum/iStock/Getty
意見の相違の一因は、「剽窃」という言葉の意味の運用上の理解、特に、アイデアや手法の重なりの扱い方を巡る認識の違いにあるのかもしれない。Weber-Wulffは、剽窃を研究する学者と、今回の議論に参加している一部の計算機科学者では、この言葉に対する見解が異なっていると指摘する。
AIサイエンティストの開発チームは、「剽窃という言葉は、意図的な不正行為の極端な事例に対してのみ使うべきであり、私たちはそのように使っている」とし、「(GuptaとPruthiは)学術界で剽窃と見なされる範囲についての確立された慣行から大きく逸脱している」と主張した。しかしWeber-Wulffはこの反論に異議を唱え、意図を剽窃の要件とするべきではないと主張する。「機械には意図はありません」と彼女は言う。「システムがなぜそのような出力をするのか、その情報をどこから得たのかを説明するような、うまい仕組みはありません。これらのシステムは出典を示すようには設計されていないからです」。
Weber-Wulff自身が支持する剽窃の定義は、原稿が「独創的であることが当然期待される場面で、他の特定可能な人物または出典に帰属すべき言葉、アイデア、成果物を、出典を適切に明記することなく使用していること」である。この定義は、米国の非営利の大学コンソーシアム「国際学術研究公正センター(International Center for Academic Integrity)」の元所長であるTeddi Fishmanによって提案されたものだ。
Pruthiは、どのような研究行為が剽窃に該当するかは主観的に判定されていると認めつつも、自分たちの尺度でレベル4または5と評価されるものについては、研究者は「深刻な問題であり、人々がそのことを知ったら苦情を言うだろう」と感じていたと言う。
SiもAIサイエンティストのチームも、GuptaとPruthiが専門家に対して、人間が執筆した研究論文の例も同様に調べるよう明確に依頼していれば、出典を明示せずに以前の研究のアイデアを借用している例を発見できたはずだと指摘する。
GuptaとPruthiもこの点は認めている。しかし、彼らは論文の中で、複数の計算機科学関連の学会の数百本の論文の査読報告書を分析して比較を試み、LLMを用いた自動解析に基づいて、これらの査読のうち(彼らの尺度でレベル4または5に相当する)剽窃についての言及を含むものは1~5%しかなかったと主張している。ただし彼らは、AIが生成した論文に対して行ったように、人間が書いた論文の査読を専門家チームに依頼することはしていなかった。
AIサイエンティストのチームは、自分たちはもともと論文中でこのことを指摘していて、基本的に「AIサイエンティストは引用ミスを犯しがちである」「参考文献をもっと引用すべきである」「研究者はこのツールの出力を自ら検証すべきである」と明記していたという。
AIサイエンティストのチームは、「私たちの論文は、AIが生成する科学論文が『不完全ながらも実現可能』な段階に到達したことを証明する概念実証でした」と語る。「AIサイエンティストや類似のシステムが明らかに新規性のある重大な発見をする日は近いでしょう」。
彼らはまた、「AIが生成する科学には大きな利点があると確信しています」と言い、AIソフトウエアの品質は向上しているが、現時点では主に着想を促すためのツールとして用いるべきであり、研究者はその出力を自ら検証することなく信頼してはならないとしている。
いかにして新規性をチェックするか
AIが生成した論文の独創性や関連する論文の適切な引用のチェックを確実に自動化できるかどうかは、依然として大きな課題である。
例えばAIサイエンティストが新たな論文やアイデアを生成した後、システムは通常、関連する検索クエリ用語(これはLLMが生成する)を検索エンジン「Semantic Scholar」に入力し、その独創性と引用すべき文献を調べる。続いて別のLLMに、検索結果として返された上位の論文を評価させる。LLMは場合によっては、AIが生成した論文が既存の論文と酷似していて、そのアイデアには独創性がないと判断するかもしれない。あるいは別の段階で、AIが生成した論文に特定の以前の論文を引用するよう推奨するかもしれない。
AIサイエンティストのチームは、このプロセスを何度も繰り返すことで「人間の研究者が引用する論文を検索する方法を本質的に模倣することができる」と説明する。
しかしBeelは、これは単純化し過ぎかもしれないと言う。アイデアをキーワードのリストに落とし込むのは困難だし、検索エンジンのデータベースに論文の全文が収録されているとは限らない。この自動プロセスで検索エンジンが返してくる上位の検索結果は、被引用数などの基準でランク付けされている可能性があり、その分野の専門家なら当然知っている関連研究を見落としているかもしれない。また、南洋理工大学(シンガポール)のAI研究者であるYan Liuは、文の意味的類似性を自動的に検出する研究は行われているものの、「アイデアレベルや概念レベルの類似性のチェックに関する研究はほとんど行われていません」と言う。
GuptaとPruthiは、自分たちの研究でレベル4または5と評価されたAI生成論文について、市販の剽窃検出ツール「Turnitin」と、科学文献を検索してクエリに答えるLLM「OpenScholar」を使って検証した。その結果、Turnitinは人間の専門家が発見した出典論文を全く特定することができず、OpenScholarが特定できたのも1件のみだったという。
しかしKAISTでAIを専攻する大学院生のJinheon Baekは、この手のことについては人間の査読者の間でも意見が分かれるものだと言う。彼は学会の場で、査読者が研究論文の独創性について議論する場面を見たことがあるという。「新規性は、非常に主観的に判断されているのです」。
一部の研究者は、最初に剽窃検出の精度を向上させない限り、科学的なアイデアを考案する自動ツールを改良することは困難だと考えている。シンガポール国立大学の計算機科学者のMin-Yen Kanは、「重要なのは、こうしたツールが今後も存在し続けることです。私たちはそれらを正しく活用する方法を見いだす必要があります」と語る。
SiはGuptaとPruthiの研究を高く評価していると言う。「AI科学者研究に取り組む私たちは、新規性があり良い研究とはどのようなものであるかについて、より高い基準を自らに課すべきです」。
翻訳:三枝小夜子
Nature ダイジェスト Vol. 22 No. 11
DOI: 10.1038/ndigest.2025.251132
原文
What counts as plagiarism? AI-generated papers pose new risks- Nature (2025-08-21) | DOI: 10.1038/d41586-025-02616-5
- Ananya
- インド・ベンガルールを拠点とするフリーランスのジャーナリスト兼翻訳者
参考文献
Lu, C. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2408.06292 (2024).
Park, B. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2403.09176 (2024).
- Gupta, T. & Pruthi, D. in Proc. 63rd Annu. Meet. Assoc. Comput. Linguist. Vol. 1 (eds Che, W., Nabende, J., Shutova, E. & Pilehvar, M. T.) 25721–25738 (2025).
Si, C., Yang, D. & Hashimoto, T. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.04109 (2024).
Lin, Z., Trivedi, S. & Sun, J. Preprint at arXiv https://doi.org/10.48550/arXiv.2305.19187 (2023).
Krueger, D. & Memisevic, R. Preprint at https://doi.org/10.48550/arXiv.1511.08400 (2015).
- Jonschkowski, R. & Brock, O. Auton. Robots 39, 407–428 (2015).
関連記事
キーワード
Advertisement