人工知能:最大100言語の音声・テキスト共同機械翻訳
Nature 637, 8046 doi: 10.1038/s41586-024-08359-z
個人が音声をあらゆる2言語間で翻訳するのを支援するツールであるバベルフィッシュを創成するには、高度な技術革新や言語の専門知識が必要である。カスケード方式で翻訳を実施する複数のサブシステムで構成される、従来の音声から音声への翻訳システムは存在するものの、拡張可能な高性能統合システムはまだあまり検討されていない。今回我々は、このギャップに対処するために、SEAMLESSM4T(Massively Multilingual and Multimodal Machine Translation)を提示する。これは、音声から音声への翻訳(101言語から36言語へ)、音声からテキストへの翻訳(101言語から96言語へ)、テキストから音声への翻訳(96言語から36言語へ)、テキストからテキストへの翻訳(96言語)、自動音声認識(96言語)を支援する単一モデルである。SEAMLESSM4Tは、自動的にアラインされた音声翻訳の新しいマルチモードコーパスとその他の公開データを用いて構築され、音声とテキストの両方について、英語からの翻訳や英語への翻訳を実行できる初の多言語システムの1つである。さらに、既存の最先端のカスケードシステムを凌駕しており、音声からテキストへのタスク、音声から音声へのタスクにおいて、それぞれ最大で8%および23%高いBLEU(Bilingual Evaluation Understudy)スコアを達成した。品質を超えて、ロバスト性をテストしたところ、今回のシステムは、音声からテキストへのタスクにおいて、これまでの最先端のシステムよりも、背景雑音と話者の違いに対して平均して約50%レジリエンスが高くなっていた。我々は、有害性とジェンダーバイアスの追加に関してSEAMLESSM4Tを評価し、翻訳の安全性を判定した。前者に関しては、追加された有害性を緩和するための、訓練時と推論時に作用する2つの戦略を盛り込んだ。本研究に寄与した全てのデータは、包括的音声翻訳技術に関するさらなる研究を推進するために、非営利使用向けに公開されている。

