News

テキストマイニングで未来の技術を予測する

Nature ダイジェスト Vol. 11 No. 8 | doi : 10.1038/ndigest.2014.140811

原文:Nature (2014-05-22) | doi: 10.1038/509410a | Text-mining offers clues to success

Sara Reardon

米国の情報機関は、2011年から、特許や科学論文の文言を分析して今後の重要技術を発見するプロジェクトを進めている。このプロジェクトがいよいよ最終段階に入った。

THINKSTOCK

次々と登場してくる新技術の中から、世の中の流れを変えることになる技術を探し出すのは難しい。しかし、米国の情報機関に設けられている情報高等研究計画活動(Intelligence Advanced Research Projects Activity;IARPA)が支援するプロジェクトによって、近い将来、こうした予測が容易になる可能性がある。IARPAが2014年5月に発表した研究成果によると、科学論文や特許の文言中の手掛かりや、これらの間の関係から、どの技術が成功するかを予測することができるという。

FUSE(Foresight and Understanding from Scientific Exposition;科学文献に基づく展望と理解)と名付けられたこのプロジェクトは、資金提供者が成功しそうな投資先を選ぶことや、政府が「破壊的技術」と呼ぶ、国家の安全保障の脅威となる恐れのある技術や規制をかいくぐる技術などに目を光らせることを可能にすると期待されている。過去の例としては、ナノテクノロジーや情報技術(携帯電話にGPS機能を組み込んで個人の動きを追跡できるようにする技術など)が、これに当たる。2011年に4年間のプロジェクトとして始動したFUSEは、2014年5月に最終段階に入り、3~5年後に成功する技術を予測しようとしている。

テキストマイニング(自然言語を分析することで有用な情報を探り出す手法)は、論文のアブストラクトからキーワードやその他の言語的手掛かりを探す目的で、これまでも用いられてきた。だが、FUSEをはじめとする最近のプロジェクトでは、この手法を用いて科学論文や特許の「全文」を対象に分析を行っている。FUSEプロジェクトのマネジャーであるDewey Murdickによると、彼らはすでに過去のデータを200万件以上も分析したという。これらの文献から、新しい協力関係や興奮を示す表現など、新興技術領域の重要性の指標が何百種類も特定された。

FUSEのソフトウエアは、3つのチームによって開発されている。その1つは、イノベーションセンターとして知られるSRIインターナショナル(米国カリフォルニア州メンロパーク)のコンピューター科学者John Byrnesのチームである。「私たちは、成功につながる物事の組み合わせを見つけたいのです」と話す彼は、学術論文の文言を調べて著者の見解を示すキーワードや引用、語句を探し出すことで予測を行うプログラムを構築している。

Byrnesは、ソーラーパネル技術を例に挙げる。現在主流となっているソーラーパネル技術は、ある技術的問題の解決をきっかけに急成長したものである。1990年代中頃には、水溶液を利用して太陽光のエネルギーを電力に変換する技術の開発に数百万ドルの資金が投入されていた。この技術は当初は有望そうに見えたものの、2008 年には、もっと安定で効率の良い固体型ソーラーパネル技術に取って代わられてしまった。2014年5月に米国カリフォルニア州アナハイムで開催された米国エネルギー省主催のSunShotグランドチャレンジ・サミットで彼らのチームが発表した研究成果によれば、FUSEは液体型ソーラーパネル技術の凋落を予想できたかもしれないという。

科学文献の分析は「科学計量学(scientometrics)」と呼ばれ、数十年の歴史がある。情報企業のトムソン・ロイター社(米国ニューヨーク)などは、かなり前から科学計量学的な分析を利用して、特定の分野で最も影響力の大きい論文や研究者を探し出している。FUSEはこれをさらに進めて、科学文献で最も多く使用される英語と中国語の2つの言語で書かれた数百万件の論文と特許を調べるのだ、とMurdickは説明する。

BAEシステムズ社(米国マサチューセッツ州ウィンチェスター)のリサーチエンジニアで、別のFUSEチームを率いるOlga Babko-Malayaは、こうした分析と指標を利用して、新たに誕生した研究分野が大きく成長するか、一時的に話題になってすぐに消えてしまうかを予測することができる、と言う。

彼女のチームは、論文に用いられている自然言語に込められた「気持ち」を分析するソフトウエアアルゴリズムを利用する。論文の著者は、自分たちの研究が引用論文を発展させるものであると主張したり、反駁するものであると主張したり、興奮を表現する記述言語を用いたりするので、こうした言葉に着目して分析を行うのである。

彼らは、有望な研究テーマでは独自の専門用語が造り出され、頭字語が多用されるようになることも見いだした。「略語の使用は、その技術がコミュニティーに受け入れられたことを意味し、技術の成熟度の指標となります」とBabko-Malayaは言う。

特定の研究分野におけるグループ間の協力関係の時間変化も、予測に役立つことがある。同じくFUSEの研究を行っているレイセオンBBNテクノロジーズ社(米国マサチューセッツ州ケンブリッジ)のLance Ramshawのチームは、各種の研究テーマ、キーワード、論文著者のネットワークを分析している。彼によると、有名な著者が共通の特徴を持つ一連の論文に関与し始めたときや、協力関係に変化が見られたときには、新しい研究テーマが生まれようとしているかもしれないという。

ジョージア工科大学(米国アトランタ)の技術予測の専門家であるAlan Porterは、ソーラーパネル技術の例のように、過去の重要な技術開発に関する文献を分析して、その技術の未来を予測する試みは、企業の研究開発プロセスのモデル化や、ある製品の歴史の追跡に役立つと指摘する。彼によると、もっと難しい課題は、そうしたネットワークを利用して「余白」を発見することであるという。技術クラスターの隙間に、新たに研究を始めるべき分野がないかどうかを探すのだ。

こうした分析により、サクセスストーリーに共通するパターンや転換点が見えてくれば、文句はないといえる。Babko-Malayaは、FUSEは将来、これらのパターンを利用して、特定の技術が製品化される時期や、規制当局が特定の薬物を認可するかどうかを予測できるようになるかもしれない、と説明する。

ソフトウエアを使った予測もかなりのところまで来ているが、最も優れているのは人間の分析に基づく予測である、とMurdickは言う。「知りたいことは何でも専門家に聞けばよいのです」とMurdick。

IARPAは、FUSEの他にForecasting Science & Technologyというプロジェクトも進めており、ジョージ・メイソン大学(米国バージニア州フェアファックス)と米国科学振興協会(AAAS)が運営するSciCastというオンラインクラウドソーシングプロジェクトに資金を提供している。このプロジェクトの目標は、1万人の科学者の意見を聞いて、高精度の予測方法開発に役立てることにある。「個人的には、人間とコンピューターが連携することが最も有用な評価への道と考えています」とMurdickは言う。

(翻訳:三枝小夜子)

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度