News in Focus

論文を1文に要約するAI「TLDR」

Nature ダイジェスト Vol. 18 No. 2 | doi : 10.1038/ndigest.2021.210207

原文:Nature (2020-11-23) | doi: 10.1038/d41586-020-03277-2 | tl;dr: this AI sums up research papers in a sentence

Jeffrey M. Perkel & Richard Van Noorden

科学論文検索エンジン「セマンティック・スカラー」に、論文を1文に要約する新機能が付いたことで、科学者が大量の論文に目を通しやすくなることが期待される。

拡大する

Agnese Abrusci/Nature

2020年末、米国の非営利組織アレン人工知能研究所(AI2;ワシントン州シアトル)の科学論文検索エンジン「セマンティック・スカラー(Semantic Scholar)」に、論文を1文に要約するTLDRという機能が追加された。TLDRはネット上のスラングで、「Too long, didn’t read」の頭字語である(訳註:文字通り「長過ぎるので読まなかった」という意味と、「長過ぎると言う人のために要約がある」という意味で使われている)。このソフトウエアが要約するのは、現時点では、セマンティック・スカラーに収載されている計算機科学分野の論文約1000万編だけである。しかし、AI2のセマンティック・スカラーのグループを運営するDan Weldは、近いうちに他の分野の論文も要約できるようになるとしている。

また予備的な検証によれば、このツールを使うことで、読者は論文のタイトルとアブストラクトを閲覧するよりも速やかに検索結果をより分けることができ、その利点はスマートフォンを使って閲覧するときに特に大きいとWeldは言う。

このツールについて記述したプレプリント論文は、2020年4月にプレプリントサーバーarXivで最初に公開され1、同年11月に開催された自然言語処理の国際会議EMNLP 2020での査読を経て受理された。研究チームは、誰でもこのツールを試すことができるデモサイトを提供しているだけでなく、このソフトウエアのコードを自由に利用できるようにしている。

Nature の依頼を受けてこのツールを検証したワシントン大学(米国シアトル)の情報科学者Jevin Westは、「この種のツールは、近い将来、学術文献検索の標準機能になるでしょう。ニーズの大きさを考えると、実用化までにここまで時間がかかったことの方が意外です。完璧ではありませんが、正しい方向への一歩であることは間違いありません」と語る。

WeldがTLDRソフトウエアを開発するきっかけの1つとなったのは、彼の同僚が論文への注目を促すためにツイッター上で共有している簡潔な文章だったという。TLDRは、他の言語生成ソフトウエアと同様、膨大な量のテキストを学習したディープ・ニューラル・ネットワークを使っている。開発チームは、このネットワークが簡潔な文章を生成できるようにするために、数万編の研究論文を、そのタイトルと合わせて学習させた。続いて、計算機科学分野の数千編の論文と、それに対応する要約(論文著者が作成したものもあれば、ワシントン大学の学部生が作成したものもある)の新しいデータセットを学習させてソフトウエアを微調整し、論文の内容を要約できるようにした。開発チームはソフトウエアの性能を向上させるために、計算機科学以外の16の分野の学習例を収集しており、その中ではおそらく生物医学分野が最初に利用可能になるだろう。

科学論文要約ツールは、TLDRソフトウエアの他にもある。「ペーパー・ダイジェスト(Paper Digest)」というウェブサイトは2018年から論文の要約を提供しているが、Weldは、ペーパー・ダイジェストは新しい文章を生成しているわけではなく、テキストから重要な文章を抽出しているのだろうと見ている。これに対してTLDRは、論文のアブストラクト(abstract)、序論(introduction)、結論(conclusion)から新しい文章を生成することができる。TLDRの要約は、論文のテキストの重要なフレーズから組み立てられる傾向があるため、当然、論文中の専門用語を既に理解している専門家向けのものになる。けれどもWeldによると、開発チームは現在、専門家以外のユーザーに向けた要約の作成にも取り組んでいるという。

開発チームはさらに、出版社に対してこの技術のライセンス供与を行ったり、サービスを拡大して特定の分野の重要な論文を要約した個人向けの研究概要報告を提供したりすることも計画している。「私たちはようやく、AIの手法により、人々に受け入れられるレベルの新しい要約を生成できるところまで来たのです」とWeldは言う。

(翻訳:三枝小夜子)

参考文献

  1. Cachola, I., Kyle, L., Cohan, A. & Weld, D. S. Preprint at https://arxiv.org/abs/2004.15011 (2020).

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度