Editorial

ChatGPTと類似ツールの利用に関するNatureの基本原則

大規模言語モデル(LLM)はインターネット上のテキストデータを基に自然な文章を生成するため、LLMツールが生成した文章を使用することには剽窃リスクがある。 Credit: anyaberkut/iStock/Getty

人工知能(AI)が流暢な言語を生成する能力を獲得し、AIが作成した文章を人間が書いた文章と見分けることがますます困難になっていることが、数年前から明らかになっています。2022年のNatureの記事で、既に一部の科学者がチャットボットを研究助手として利用しており、思考の整理の手伝いや、自らの研究に関するフィードバックの作成、コンピュータープログラムの作成支援や研究文献の要約をさせていることをお伝えしました(Nature 2022年11月3日号192~193ページ)。

一方、AIチャットボットの「ChatGPT」が11月にリリースされて、大規模言語モデル(LLM:large language model)と呼ばれるこの種のツールの機能が一般ユーザーに提供されるようになりました。ChatGPTを開発したハイテク企業オープンAI(OpenAI、米国カリフォルニア州サンフランシスコ)は、ChatGPTを無料で公開し、技術的な専門知識を持たない人々でも簡単に利用できるようにしました。現在では、数百万人が利用しており、その結果、楽しみが爆発的に広がり、時にはゾッとさせられる作文実験が行われ、ChatGPTを巡る興奮と驚愕の高まりは加速しました。

ChatGPTは、学生が提出する作文の体裁を良くしたり、研究論文を要約したり、医学の試験に合格するのに十分な解答を作成したり、有用なコンピュータープログラムを作成したりすることができます。ChatGPTが作成した論文アブストラクトは、コンピューターが書いたものと研究者が見破るのが難しいほど優れた出来栄えになっています。また、ChatGPTがスパムやランサムウェアなどの悪意のある出力を容易に産生でき得ることは、社会にとって心配の種になっています。オープンAI社は、チャットボットの機能に「防護柵」を設けようと試みましたが、ユーザーは既に回避方法を見つけています。

研究コミュニティーが抱いている大きな懸念は、LLMから生成された文章を、学生や科学者が自身が書いたものであると偽ったり、LLMを安易に使って(不完全な文献調査を行うなどして)、信頼性の低い論文を作成する可能性があることです。プレプリント論文や出版された論文の中には既に、ChatGPTが正式な著者としてクレジットされているものがあります。

そのため、今こそ研究者と出版社が、倫理にかなったやり方でLLMを利用することに関する基本原則を定めるべきなのです。Natureと全てのシュプリンガーネイチャーの学術論文誌は、以下の2つの原則を定め、現行の投稿案内に追加しました(go.nature.com/3j1jxsw参照)。他の科学出版社も同様の姿勢をとるだろうと考えられることが、Nature 2023年1月26日号620ページ(14ページ「ChatGPTは研究論文の共著者になり得るか?」参照)で報じられています。

第1の原則は、LLMツールが研究論文の著者としてクレジットされることは認められないということです。これは、原著者の帰属が論文に対する説明責任を伴うためであり、AIツールは、そのような責任を負うことができません。

第2の原則は、LLMツールを利用した研究者が、方法(method)または謝辞(acknowledgement)の項目において、LLMツールを利用したことを文書に記録すべきだ、ということです。論文の中に方法や謝辞の項目が含まれていない場合は、導入部(introduction)または別の適切な項目において、LLMツールを利用したことを記録してください。

パターンを認識する

編集者や出版社はLLMから生成されたテキストを検出できるのでしょうか。「検出できるかもしれない」というのが現時点での答えです。ChatGPTの出力結果は、そのままの形であれば、丁寧な検査を行って検出することが可能です。特にいくつかの段落にわたる文章であり、テーマが科学研究に関する場合には検出可能です。その理由は、LLMが、トレーニングデータにおける統計的関連性とユーザーが示したプロンプト(指示文)に基づいて単語のパターンを生成しているために、その出力結果が淡白で当たり障りのない文章になったり、単純なエラーが含まれていたりすることがあるからです。さらにLLMは、その出力結果を文書にする際に出典を示すことができません。

大規模言語モデルツールが研究論文の著者としてクレジットされることは認められない

ただし、将来的にはAI研究者がこれらの問題点を回避する方法を見つけるかもしれません。例えば、出典を明記するためのツールをチャットボットと統合する実験や、専門的な科学的テキストを用いてチャットボットのトレーニングを行う実験が既に行われています。

LLMによる出力結果を検出できる有望なツールも存在しており、Natureの発行元であるシュプリンガーネイチャーもそのための技術を開発しています(2023年3月号「ニセ科学を一掃するための『ペーパーミル』探知システム」参照)。しかし、LLMの改善も急速に進むと思われます。LLMの開発者が何らかの方法でLLMの出力結果に目印(ウォーターマーク)を付けられるようになることが期待されていますが、これでさえ技術的な抜け穴がないとはいえないかもしれません。

科学研究は、最も初期の頃から現在に至るまで、方法と証拠に関する公開性と透明性を保持して行われてきました。このことは、その時々で広く用いられるようになった技術が何であっても変わりません。研究者は、本質的に不透明なやり方で機能するソフトウエアを使用している場合に、自身や同僚に「知識を生成するプロセスが依存する透明性と信頼性は、どうすれば維持できるのか」と問うべきだと思います。

Natureが上記の2つの原則を定めたのはそのためであり、研究に究極的に必要なのは、方法の透明性、そして論文著者の公正さと誠実さです。結局のところ、これこそが、科学が進歩する際に、よって立つ基盤なのです。

翻訳:菊川要

Nature ダイジェスト Vol. 20 No. 4

DOI: 10.1038/ndigest.2023.230405

原文

Tools such as ChatGPT threaten transparent science; here are our ground rules for their use
  • Nature (2023-01-24) | DOI: 10.1038/d41586-023-00191-1