Feature

古文書の秘密を暴くAI

天文学について記されたくさび形文字の粘土板。「フラグメンタリウム」プロジェクトは、こうした粘土板を何万点もデジタル化している。 Credit: Ludwig-Maximilians-Universität

2023年10月、Federica Nicolardiのスマートフォンに1通のメールが届いた。メールには、彼女の研究のあり方を永遠に変えることになる画像が添付されていた。写っていたのは、西暦79年のイタリア・ベスビオ火山の噴火で焼け焦げたパピルスの巻物の断片だった。この巻物は、ローマ時代にポンペイの近くにあったヘルクラネウムという町の豪華な別荘跡から18世紀に発見された、数百点の巻物のうちの1点である。何世紀にもわたり、炭化してもろくなったパピルスの層を剝がそうとする試みが行われた結果、多くの巻物が粉々になってしまい、学者らは残りの巻物を広げることを断念せざるを得なかった。

フェデリコ2世ナポリ大学(イタリア)のパピルス古文書学者であるNicolardiは、読むことができない文献を、人工知能(AI)を用いて読もうとするプロジェクトに参加していた。そして今、最新の成果が届いたのだ。画像には、暗い背景の中、ギリシャ文字が整然と記された帯状のパピルスが明るく輝いていた。文字ははっきりと読むことができ、数行ずつ、5列に分けて記されていた。

AI技術によって明らかにされた、ヘルクラネウムの焼け焦げたパピルスの巻物に残ったインクの痕。 Credit: Vesuvius Challenge

「信じられませんでした」とNicolardiは言う。「『こんなことが現実に起こるなんて』と思いました」。彼女はその瞬間、パピルス古文書学はこれまでとは完全に違うものになると確信した。「『私は今、自分の専門分野にとって歴史的な瞬間を生きているのだ』と実感しました」。彼女は、2000年間決して見ることができなかったテキストの全行を読んでいたのだ。

銀行業務から医学研究まで、現代生活のあらゆる分野に革命を起こしている先進的なAIは、古代世界の見方も変えようとしている。「ベスビオチャレンジ」と名付けられたこのプロジェクトは、その一例にすぎない。人工ニューラルネットワークは、代表的な古典語である古代ギリシャ語やラテン語から、古代中国の甲骨文字(占いを記録するためにウシの骨やカメの甲羅に刻まれた文字)まで、さまざまな古代文字の解読に用いられている。これらのAIツールは、人間が読むには膨大過ぎる古文書の意味を理解し、欠けている文字や読めない文字を補い、ほとんど痕跡が残っていない希少な言語や失われた言語を解読している。

ベスビオ火山の噴火で焼け焦げた巻物を、破損することなく広げるのは不可能だ。 Credit: EduceLab, University of Kentucky

こうした成果は、大量のテキストが新たに解読されることを予感させ、学者らが何世紀もかけて得てきた以上の量のデータがもたらされることを約束している。それだけではない。AIツールは、どんな1人の人間が知り得るよりも多くの言語を認識し、多くの情報を保存して、テキスト中の統計的なパターンを自ら発見することができるため、古代資料の調査において根本的に新しい手法となることが期待される。その結果、「私たちが答えようとする問いだけでなく、私たちが投げ掛けることのできる問いまで」一変してしまう可能性があると、Nicolardiは言う。

古代のテキストを復元する

コンピューターは何十年も前から、デジタル化されたテキストの分類や分析に使われてきた。けれども現在話題になっているのは、相互に接続されたノードの階層からなるニューラルネットワーク、特に、複数の隠れ層を持つ「深層」ニューラルネットワークを使用する手法である。

古文書に深層学習を適用しようとする初期の試みが行われたのは、2010年代のことだった。分析されたのは、パピルスやヤシの葉に記されたテキストのデジタル写真である。視覚神経科学にヒントを得た畳み込みニューラルネットワーク(CNN)と呼ばれるモデルは、画像から格子状のデータを捉えることができる。CNNは光学文字認識(OCR)に使われているが、他の用途もある。甲骨文字を研究している中国の研究チームは、こうしたモデルを使用して、画像中の侵食により消えてしまった文字を補ったり1、甲骨文字の進化の過程を分析したり2、甲骨の破片をつなぎ合わせたりしている3。一方、再帰型ニューラルネットワーク(RNN)は、線形的な順序が重要となる一連のデータを処理するために設計されたもので、既にラテン文字のアルファベットに翻字されているテキストを検索し、翻訳し、欠落箇所を埋める作業において、非常に大きな可能性を示し始めた。RNNは例えば、古代都市バビロンの数百点の定型的な行政文書や法律文書について、欠けている文字を専門家に提案するために利用されている4

ニューラルネットワークは、退屈な作業を高速化するだけでなく、人間の専門家が気付かないような関連を発見することもできるのだろうか? AIの可能性を示した最初の大きなプロジェクトは、オックスフォード大学(英国)で古代史の博士号研究をしていたThea Sommerschieldと、計算機科学の博士号研究をしていたYannis Assaelの共同研究として、2017年に始まった。イタリア・シチリア島で見つかったギリシャ語の碑文を解読しようとしていたSommerschieldは、その難しさをAssaelに説明した。「碑文は非常に複雑で読みにくい上に、保存状態が悪く、一部が欠けているのです」と彼女は言う。「これらがどこから来たのかも、どの時代のものなのかも、よく分かりませんでした。そして興味深いことに、いくつかの方言が混在していました」。

古典学者は、既存の似たようなテキストについての知識を駆使して新しい資料を解釈する。彼らはたいてい、特定の時代と場所の作品に精通した専門家である。そして、1人の人間が、新しいテキストに関連する可能性のある全ての資料を把握することは不可能だ。現在はグーグル・ディープマインド社(Google DeepMind、英国ロンドン)に所属しているAssaelは、それはまさに機械学習モデルが威力を発揮するタイプの課題だったと言う。

彼らはまず、紀元前7世紀から紀元後5世紀までに記された数万点のギリシャ語の碑文を使って、RNNベースのPythiaというモデルを訓練した。次に、モデルが見たことのないテキストを見せて、欠けている単語や文字を提案させた5

現在はノッティンガム大学(英国)に所属しているSommerschieldは、Assaelと自分の指導教官であるJonathan Pragと一緒に初めてこのモデルを走らせて、復元された文字が1つずつスクリーンに現れたときのことを今でもはっきりと覚えている。それまで不可能だったことが可能になった瞬間だった。

「まるで映画のワンシーンのようでした」と彼女は言う。「3人とも、あごが外れるほど驚きました」。彼らは続いて2022年に、未知のテキストが記された年代と場所を提案するIthacaというモデルを開発した6。彼らはIthacaでは、トランスフォーマーモデルという機械学習における画期的な新技術を用いた。トランスフォーマーモデルは、文字や単語などの入力のさまざまな特徴を並行して分析し、コンテキスト(文脈)に応じて重み付けを行うことで、RNNには捉えられない複雑な言語パターンを捉えることができる(オープンAI社〔OpenAI〕のChatGPTやアンスロピック社〔Anthropic〕のClaudeなどの人気のチャットボットもこのモデルを基盤にしている)。

Sommerschieldは、自分たちの目的は、研究者がより効率良く作業できるようなツールを設計することにあると言う。ニューラルネットワークが膨大な古文書の間にある関連を探り、人間がそこに専門的な理解をもたらすのだ。Assaelも、「私たちの設計の中心には人間がいます」と言う。テストでは、Ithacaは古文書に人為的に作った空白を62%の精度で復元した。これに対し、人間の専門家の復元精度は25%だった。しかし、最高の成績を出したのはIthacaの提案に助けられた専門家で、72%の精度で空白を埋めることができた。Ithacaはまた、碑文の地理的起源を71%の精度で特定し、一般に認められている推定年代から30年以内の範囲で年代を推定した。

Ithacaはオンラインで無料で利用でき、Sommerschieldらによれば、既に毎週数百件の問い合わせがあるという。著者が論文に謝辞を明記しない限り、Ithacaがいつ研究に貢献したかは分からないと、Sommerschieldは言う。これまでに報告された例としては、アテネで政治的な命令が出された年代の再検討や、ギリシャ北西部のドドナの神託を求める質問が記された紀元前4世紀の石板の調査などがある。

古文書の海

朝鮮王朝時代の王についての古文書は、AIを使って翻訳・分析されている。 Credit: National Palace Museum of Korea

韓国の研究者らは、承政院日記という世界最大級の歴史的記録の翻訳に取り組む中で、全く違った課題に直面している。この記録には、14世紀~20世紀初頭の、朝鮮王朝および大韓帝国の27人の王の治世における官庁での数十万件に及ぶ日々の事務が詳細に記されている。機械翻訳研究の第一人者であるニューヨーク大学(米国)のKyunghyun Choは、「データ量は膨大です」と言う。Choが普段研究しているのは現代語の翻訳だが、韓国文学の教授だった父親と承政院日記について議論したことで、その翻訳に興味を持つようになったという。承政院日記に欠落部分はなく、由来も分かっているが、ほとんどの人はこれを読むことができない。この記録は中国の漢字に基づくハンチャという古い表記法で書かれていて、ハンチャは現代の中国語とも韓国語とも違っているからだ。

以前から韓国政府の翻訳者からなる少人数のチームが承政院日記を人力で現代韓国語に翻訳しているが、翻訳が完了するのは数十年後になると予想されている。Choは、成均館大学(韓国ソウル)のJinYeong Bakをはじめとする韓国の研究者らと協力して、トランスフォーマーを基盤とするネットワークを訓練し、承政院日記の自動翻訳を実現した7。現時点ではまだトランスフォーマーモデルの訓練に必要な量の資料が翻訳されていないため、研究チームは多言語アプローチを採用し、ハンチャと、数十年前に翻訳された古語交じりの現代韓国語訳と、量は少ないが近年になってから翻訳された、古語が交ざらない現代韓国語訳と英訳を使用した。外交使節の訪問や裏切り者への処罰、音楽会などのイベントに関する記述をAIが翻訳した文章について、専門家は、数十年前の現代韓国語訳に比べてはるかに正確で読みやすく、ものによっては近年の現代韓国語訳よりも優れていると評価している8

反対に、わずかな量のテキストしか残っていない古代語の翻訳にニューラルネットワークを用いる研究者もいる。このような場合、大量の訓練素材を要するトランスフォーマーモデルは使えないことがある。例えば、パトラス大学(ギリシャ)のKaterina Papavassileiouらは、ギリシャ・クレタ島のクノッソスで発見された紀元前2千年紀のミケーネ文明の粘土板1100枚について、テキストの欠落箇所をRNNを用いて復元した9。粘土板には、羊の群れなどの記録が線文字Bという古代文字で記されている。テキスト中に人為的に空白を作って入る文字を予測させるテストでは、モデルが候補に挙げた上位10個の文字の中に72%の確率で正解が含まれていた。欠落のある本物のテキストについても、モデルが提案する文字は人間の専門家が提案する文字と一致していることが多かった。Papavassileiouはこの結果をさらに改善するために、翻字されたテキストだけに頼るのではなく、不完全な文字の痕跡などの視覚的データも追加したいと考えている。彼女は、モデルがある一連の粘土板から学習した内容を別の一連の粘土板に適用する「転移学習」についても研究している10

Papavassileiouは、いつの日か線文字Bで訓練したモデルを使って、線文字Aの解読に挑戦したいと考えている。ミノア文明で使われていた線文字Aは、線文字Bと多くの文字を共有しているが、まだ解読されていないのだ。

読めない文字を解読する

AIが途方もない難問を解決する能力を備えていることの究極の証明は、おそらく、ヘルクラネウムの巻物を調べている研究者らの成功だろう。「彼らは驚異的な仕事をしていると思います」とAssaelは言う。ケンタッキー大学(米国レキシントン)の計算機科学者Brent Sealesらは、ベスビオチャレンジの参加者の助けを借りて、全く見ることができないテキストを読むという、一見不可能な課題に取り組んでいる。

ヘルクラネウムの焼け焦げた巻物を読むには、2つの大きな問題を克服する必要があった。第一に、非常にもろくなった巻物は広げることができない。Sealesはその中身を見ようと、数年がかりで「仮想展開」技術を開発した。巻物内部の構造を高解像度CTスキャンで撮影し、断面の各フレームで見える表面を手作業で丹念にマッピングし、アルゴリズムを使って、その表面を1枚の平らな画像に展開するのだ。2015年、研究者らはこの手法を使って、イスラエルのエン・ゲディで発見された、炭化して広げられなくなった紀元3世紀ごろの巻物に書かれたテキストの全文を読むことに成功した11。そこに記されていたのは聖書の『レビ記』の一部だった。

エン・ゲディの巻物が5回巻きの羊皮紙であったのに対し、ヘルクラネウムの巻物はどれも絹のように薄いパピルスが数百回巻きになっている。その超高解像度CTデータを取得するため、Sealesらは数点の巻物をオックスフォード近郊の粒子加速器施設であるダイヤモンド放射光施設(Diamond Light Source)に運んだ。しかし、エン・ゲディの巻物や後世の他の巻物のインクにはCTスキャンで明るく光る鉄が含まれていることが多いのに対し、ヘルクラネウムの巻物には、背景のパピルスと密度が同じでCTスキャンでは見ることのできない、炭素系のインクが使われていた。Sealesらは、インクを直接見ることはできなくても、インクが付着した箇所の形状は検出できるかもしれないと気付いた。むき出しのパピルス繊維とインクで被覆されたパピルス繊維の表面の質感に微妙な違いがあれば、ニューラルネットワークを訓練して、その違いを検出できるかもしれない。

この作業はSealesの少人数のチームには荷が重過ぎたので、彼らは2023年3月にシリコンバレーの起業家Nat Friedmanと組んで、高額賞金を提供するベスビオチャレンジを立ち上げた。Sealesらは巻物を仮想展開した画像を公開し、ニューラルネットワークを訓練してインクを検出するコンテストを開催した。コンテストには1000以上のチームが参加し、チャットアプリDiscordのベスビオコンテストのチャンネルでは毎日数百人が進捗状況について議論した。2023年の大賞は2024年2月に授与され、はっきりと読める16列のテキストを生成した計算機科学専攻の学生Youssef Nader、Luke Farritor、Julian Schilligerの3人が、合わせて70万ドル(約1億1000万円)の賞金を受け取った。

受賞チームが使用したのは、トランスフォーマーモデルを拡張したTimeSformerという新しいモデルだった。TimeSformerは空間と時間の次元を分けて扱うことを特徴とし、通常は動画の認識に用いられるが、学生らはパピルスの表面の外観から奥行きの次元を分離するためにこれを使った。Nicolardiらは、こうして浮かび上がったテキストが、ギリシャ哲学の未知の著作であることを明らかにした。内容は音楽と快楽、感覚についてで、著者はエピクロス派の哲学者ピロデモス(Philodemus)と考えられた。その解読作業は「魔法のよう」だったと彼女は言う。

以来、ベスビオチャレンジの参加者らは、パピルス古文書学者の助けを借りながらインク検出アルゴリズムの改良に取り組んでいる。一方、Sealesのチームはさらに多くの巻物をスキャンしていて、機械学習によって仮想展開の工程が高速化されることを期待している。現在、この工程がボトルネックになっていて、コンテスト参加者に提供するデータが制限されていると彼は言う。とはいえSealesは楽観的で、誰かが4巻の巻物の90%を読んで賞金20万ドル(約3000万円)の2024年の大賞を獲得するときまでに、AIによる仮想展開が可能になっているだろうと考えている。「この工程さえ自動化できれば、基本的に規模を拡大することができます」と彼は言う。「私たちはもうその入り口に立っているようなものです」。

Sealesはヘルクラネウムの全ての巻物を読みたいと考えている。数百点ある未開封の巻物は、主にナポリで保管されているが、パリ、ロンドン、オックスフォードでも保管されている。「パピルス古文書学者が古代世界から受け取ることになる新しいテキストは、この1世紀の間に見てきた以上の量になるはずです」と彼は言う。

インク検出モデルを使ってヘルクラネウムの巻物に記されたテキストが解読される様子。 Credit: Vesuvius Challenge

研究チームのこの手法は、Sealesが「見えない図書館」と呼ぶ、中世の本の装丁や古代エジプトのミイラの包み布の中に隠されたテキストなど、直接見ることのできない他の資料の解読にも道を開くものである。彼らは既に、スミソニアン博物館(米国ワシントンD.C.)に所蔵されている未開封のエジプトの巻物からデータを取得しただけでなく、ヨルダンのペトラで発見された、紀元7世紀の火災で焼けたパピルスを分析するための話し合いも進めている。

それだけではない。一部の考古学者は、ヘルクラネウムの別荘の図書館の大部分が地下に残っていると考えている。もしそれらが発掘されれば、さらに数千点の巻物が見つかるかもしれない。その全てを読むことができれば、「古代世界についての人類史上最大の発見」となるだろうと、Sealesは言う。「私たちは今、そのための技術を持っているのです」。

情報の洪水

わずか4巻の巻物のテキストを明らかにするだけでも、パピルス古文書学者にとっては非常に大きな挑戦となる。Nicolardiは、「つまり私たちは400列のギリシャ語のテキストを解読しなければならないのです」と説明する。「そのためにはもっと資金が必要です。パピルス古文書学者の人数が足りないのです」。Sealesは、これまでパピルス古文書学コミュニティーには「協力という文化はなかった」が、自分たちは近いうちに、このコミュニティーが対処できる以上のテキストを生成し始めることになると語る。そうなると、データへのアクセスを誰に許可するべきなのか、得られた結果の出版を誰が監督するべきなのか、といった問題が生じる。「私たちはおそらく、現在のコミュニティーよりもはるかに大きい、世界的なコミュニティーを作ることになるでしょう」。

また、非専門家がAIツールを使って大量の新しいテキストを分析できるようになった場合、正確さや再現性についての懸念も生じる。例えば、ニューラルネットワークが偽の結果を生み出す「ハルシネーション(幻覚)」が起こる可能性がある。Sealesらは、人文科学の専門家と計算機科学者が学際的なチームを組んで研究を進める必要があると強調する。もう1つの安全策は、生テキストやスキャン画像の他、それらを分析するための訓練セットやアルゴリズムまで、Sealesが「デジタル来歴チェーン」と呼ぶ一連のデータを全てオープンソースにすることだ。

ヘルクラネウムの巻物を数点所蔵するオックスフォード大学ボドリアン図書館の責任者であるRichard Ovendenは、「学術的、文化的、法律的な組織を構築しなければなりません」と言う。けれども彼は、AIが従来の学問や専門家の知識にけんかを吹っ掛けるのではないかという懸念には根拠がないと主張する。「AIが行っていることは、パピルス古文書学者に対して他の方法では得られなかったデータを与えているだけです」とOvendenは言う。「AIによって、彼らの仕事はこれまでにないほど重要なものとなっているのです」。

他の分野も同様の変化に直面している。ルートヴィヒ・マクシミリアン大学ミュンヘン(ドイツ)の古代近東文学の専門家であるEnrique Jiménezは、AIにテキストを解読させるため、大英博物館(英国ロンドン)と協力して、くさび形文字が刻まれたバビロニアの粘土板2万5000枚(主に紀元前1千年紀後半のもの)の写真を撮影した。そして最近、さらに3万枚の写真を撮影するための資金を獲得した。世界中で、これまでに約10万枚の粘土板がデジタル化されており、おそらく50万枚の粘土板が(多くの場合、未読のまま)博物館に眠っている。Jiménezらは、写真からくさび形文字を認識し、その年代を割り出すニューラルネットワークを開発している。ひとたびテキストを翻字すると、より単純な機械学習技術を使って、同じ作品中の重複する断片を特定する。「フラグメンタリウム」と名付けられたこのプロジェクトは、既にギルガメシュ叙事詩の約20行を新たに発見した他、バビロンの都市に対する、これまで知られていなかった賛歌も30編発見している。「本当に目覚ましい成果です」とJiménezは言う。「フラグメンタリウムがなかったら、これだけの数の文章を発見するのに何十年もかかっていたでしょう」。

Jiménezは、潜在的な情報の洪水に胸を躍らせていると同時に「怖さも感じています」と言う。「10年後か20年後には、全てがデジタル化されているはずです。利用可能な資料の数は指数関数的に増えていくでしょう」。

新たな問い掛け

情報量の飛躍的な増大は、AIを活用して古代世界を理解する新しい手法を切り拓く可能性がある。膨大な古文書がデジタル化され、これまでにない規模で利用可能になることで、研究者は、個々のテキストを研究するだけでなく、それらを生み出した社会について、より大きな問い掛けができるようになるだろう。

Nicolardiは、「私たちは考え方を変えなければならないでしょう」と予言する。「これからは、テキストだけでなく、文化全般について考える必要があります」。

この転換は既に始まっている。韓国では複数の研究チームが、ハンチャの古文書を自分で読むのではなく、AIモデルに原文を読み込ませて政治的な傾向やつながりを探させている。Bakは2024年8月にタイのバンコクで開催された計算言語学会の年次総会で、この手法を使って朝鮮王朝のさまざまな王の統治様式を特定することができたと報告している。例えば、暴君として悪名高い燕山君(在位1495〜1506年)は、治世が長くなるにつれて勝手気ままな決定が急増しており、Bakはこれを「専制政治への転落を反映している」と見ている。対照的に、専制君主ではなかった仁祖(在位1623〜1649年)は、役人らの提案に従うパターンが安定して見られた。

研究者らが課題を統合し、より大きなモデルにデータセットを組み込むことも増えてきている。例えば、Sealesはヘルクラネウムの巻物について、AIを使って、転写したテキストの欠落箇所を埋める文字をパピルス古典学者に提案できるようにしたいと考えている。また、さまざまな地域や時代を結び付けてより大きな体系とすることで、より幅広い洞察を導き出したり、得られた学びを異なるデータセットに生かしたりすることもできる。例えば、ヘブライ語やアラビア語を含む104の現代語で訓練されたあるモデルは、アッカド語(古代メソポタミアの言語で、ヘブライ語やアラビア語の元になった)を予想以上に巧みに翻訳することができた12。Choは今、漢字を共有する日本、韓国、中国、ベトナムの言語を結び付けることに取り組んでいる。けれども彼は、最終的に得られる洞察は世界的なものになるだろうと考えている。彼の究極の目標は、「時間と空間を超えて、こうしたつながりの全てを活用できるシステムを構築すること」であるという。

Bakは、このような研究が単なるデータマイニングを超えたものになることを期待している。これまでのところ、機械学習は興味深いパターンや数値的な傾向を観察するために使われているが、さらに訓練を重ねることで、チャットボットのような生成AIツールが歴史的資料について能動的に推論や対話を行い、「擬似的だが興味深いデータを新たに生成できるようになる」かもしれないと彼は言う。

ChatGPTのようなチャットボットが、新たに解読された大量のテキストで訓練されることを想像してみてほしい。将来私たちは、古代のギリシャ人や韓国人、バビロニア人が何を考えていたかを知りたいと思ったときには、チャットボットに尋ねるだけで答えが得られるようになるかもしれない。

翻訳:三枝小夜子

Nature ダイジェスト Vol. 22 No. 4

DOI: 10.1038/ndigest.2025.250432

原文

How AI is unlocking ancient texts — and could rewrite history
  • Nature (2025-01-02) | DOI: 10.1038/d41586-024-04161-z
  • Jo Marchant
  • ロンドンを拠点とする科学ジャーナリスト

参考文献

  1. Wang, S., Guo, W., Xu, Y., Liu, D. & Li, X. In Proc. 1st Workshop Mach. Learn. Ancient Lang. (eds Pavlopoulos, J. et al.) 107–114 (Association for Computational Linguistics, 2024).
  2. Wang, M. et al. PLoS ONE 17, e0272974 (2022).
  3. Zhang, Z., Guo, A. & Li, B. Symmetry 14, 1464 (2022).
  4. Fetaya, E., Lifshitz, Y., Aaron, E. & Gordin, S. Proc. Natl Acad. Sci. USA 117, 22743–22751 (2020).
  5. Assael, Y., Sommerschield, T. & Prag, J. In Proc. 2019 Conf. Empir. Methods Natural Lang. Proc. (eds Inui, K., Jiang, J., Ng, V. & Wan, X.) 6368–6375 (Association for Computational Linguistics, 2019).
  6. Assael, Y. et al. Nature 603, 280–283 (2022).
  7. Yoo, H. et al. In Find. Assoc. Comput. Linguist. (eds Carpuat, M. et al.) 1832–1844 (Association for Computational Linguistics, 2022).
  8. Son, J. et al. In Find. Assoc. Comput. Linguist. (eds Goldberg, Y., Kozareva, Z. & Zhang, Y.) 1260–1272 (Association for Computational Linguistics, 2022).
  9. Papavassileiou, K., Kosmopoulos, D. I., Owens, G. ACM J. Comput. Cult. Herit. 16, 52 (2023).
  10. Papavassileiou, K. & Kosmopoulos, D. In Proc. 1st Workshop Mach. Learn. Ancient Lang. (eds Pavlopoulos, J. et al.) 115–129 (Association for Computational Linguistics, 2024).
  11. Seales, W. B. et al. Sci. Adv. 2, e1601247 (2016).
  12. Lazar, K. et al. In Proc. 2021 Conf. Empir. Methods Nat. Lang. Proc. (eds Moens, M.-F., Huang, X., Specia, L. & Yih, S. W.-t.) 4682–4691 (Association for Computational Linguistics, 2021).