(来源:MIT Technology Review)

近日,Meta 发布了一款全新的 AI 模型,能够翻译来自 101 种语言的语音,这为实现实时同声传译迈出了关键一步,让你说的话在出口瞬间被翻译成其他语言成为可能。

传统的语音翻译模型通常采用多步骤流程:先将语音转写成文本,再将该文本翻译成目标语言,最后将翻译后的文本转换成语音。这种方法不仅效率较低,还可能在每个环节中产生错误或误译。而 Meta 推出的新模型 SeamlessM4T 则能够更加直接地将一种语言的语音翻译成另一种语言的语音。相关研究论文已于昨日发表在 Nature 上。

SeamlessM4T 在文本翻译方面的准确率比现有顶级模型高出 23%。尽管 Google 的 AudioPaLM 模型在支持的语言数量上略胜一筹(其覆盖 113 种语言,而 SeamlessM4T 支持 101 种),但 AudioPaLM 只能将这些语言翻译成英文,而 SeamlessM4T 则能够翻译成 36 种其他语言。

这一优势得益于其核心技术——并行数据挖掘。该方法通过抓取网络数据,寻找视频或音频中的语音与另一种语言字幕相对应的内容,从而使模型学习如何将一种语言的语音与另一种语言的文本建立关联。这为模型提供了大量全新的翻译示例,显著提升了翻译性能。

“Meta 在多功能支持方面表现非常出色,例如文本转语音、语音转文本,以及自动语音识别。”昆尼皮亚克大学计算机科学教授 Chetan Jaiswal(未参与该研究)表示,“他们所支持的语言数量本身就是一项了不起的成就。”

研究人员在论文中强调,人类译者在翻译过程中依然发挥着至关重要的作用,因为他们能够处理不同的文化背景,确保原意在另一种语言中被准确传达。加拿大魁北克拉瓦尔大学翻译、技术与社会领域的加拿大研究主席 Lynne Bowker (未参与 Seamless 项目)也指出,这一环节尤为关键。她表示:“语言是文化的映射,而不同文化拥有各自独特的认知方式。”

在医学或法律等领域,机器翻译必须经过人工仔细校对,否则可能导致严重误解。Lynne Bowker 举例指出,2021 年 1 月,Google Translate 在翻译弗吉尼亚州卫生部发布的新冠疫苗公共卫生信息时,将英文的 “not mandatory”(非强制)误译为西班牙语的 “not necessary”(不必要),这一错误完全扭曲了原信息的含义。

此外,AI 在不同语言上的训练数据分布存在不均,这使得现有的语音到语音翻译模型在处理某些语言对时表现不一。例如,由于有大量数据支持,模型可能能够轻松将希腊语翻译成英语,但在将斯瓦希里语翻译成希腊语时却面临困难。

为了解决这一问题,Seamless 团队对模型进行了大规模预训练,利用数百万小时的多语言语音数据进行训练。这种预训练让模型能够识别语言的一般模式,从而在处理使用频率较低的语言时表现得更加出色,因为它已具备对人类语言声音的基础理解。

值得一提的是,Seamless 系统是开源的,研究人员希望这一开放策略能够激发更多人基于现有功能进行改进和拓展。然而,也有人对其实际应用效果提出了质疑。Jaiswal 表示:“虽然 Google 的翻译模型不像 Seamless 那样开源,但它的响应速度更快、运行效率更高,而且对学术界是免费的。”

最令人期待的是,Meta 的系统展现了未来实现跨语言即时翻译的可能性,就像 Douglas Adams 在经典小说《银河系漫游指南》中描绘的“巴别鱼”一样。SeamlessM4T 的翻译速度比现有模型更快,但尚未达到实时翻译的水平。不过,Meta 表示,他们正在开发的新版 Seamless,其速度已接近人类同声传译员的表现。

“尽管这种带有延迟的翻译已经非常出色且实用,但我认为真正的同声传译将更加高效和有价值。”德克萨斯大学阿灵顿分校计算语言学实验室主任 Kenny Zhu 表示。

https://www.technologyreview.com/2025/01/15/1109994/metas-new-ai-model-can-translate-speech-from-more-than-100-languages/

ad1 webp
ad2 webp
ad1 webp
ad2 webp