国产大模型新突破，科大讯飞发布端到端同传大模型媲美人类口译员

要说最近国际互联网最火的事情是什么，毫无疑问是小红书上的“赛博移民潮”，来自美国的 TikTok 用户正纷纷涌入这个原本以中文内容为主的社交平台。

打开小红书，眼前的景象让人恍惚:满屏的英文帖子，此起彼伏的“Hello from America!”让不少中国用户直呼“给我整不会了”。而这些美国用户甚至并不是冲着什么国际版来的——小红书压根就没有国际版，大家都在用同一个 App，真真切切地成了“地球村”的村民。

（来源：小红书）

这场意外，让原本互不相识的中美年轻人有了一次直接对话的机会。不过惊喜与欢乐之余，一个现实问题也随之浮出水面：语言障碍。

其实类似的问题早已存在。随着全球化深入发展，无论是商务谈判、学术交流，还是旅游观光，跨语言交际早就变得越来越普遍。但传统的翻译方式要么依赖昂贵的人工翻译，要么只能用没有智能化的机翻拼凑，往往无法满足即时互动的需求。而小红书上这场突如其来的“移民潮”，恰恰将这一痛点推到了台前：在人工智能蓬勃发展的今天，我们是否能找到更好的技术方案，让不同语言的使用者能够自然顺畅地交流？

实际上，就在这场“赛博移民潮”发生的同时，中国的科技企业已经在为打破语言藩篱做出持续的努力。

AI 时代如何打破“巴别塔魔咒”？国内首个端到端语音同传大模型

1 月 15 日，科大讯飞发布了国内首个具备端到端实时翻译能力的星火语音大模型，为打破全球化交流壁垒提供了新的技术方案。

而要理解这项技术突破的意义，我们需要先了解同声传译这项工作的难度。

上海外国语大学高级翻译学院院长张爱玲表示，目前市面上的机器翻译系统大多采用交传技术，很难实现真正的端到端语音同传。而同声传译作为口译界的“皇冠”，对译员的能力要求极高。它不仅要求译员在极短时间内完成源语言解码和目标语言编码，还需要同时处理语言的语音、语义、语用三个层面。

德国语言学家 Daniel Gile 提出的“同传认知负荷模型”将其过程分解为听理解、记忆、翻译表达三个基本认知环节, 每个环节都需要占用译员有限的认知资源。

“源语发言往往逻辑复杂，层层嵌套，口译员必须具备超强的信息提取能力，从繁杂线索中锁定关键信息。同时，译文要做到语法规范、用词精准，表达习惯还要与目标语言相契合。”张爱玲说。

（来源：科大讯飞）

“讯飞其实早在 10 年前就开始探索语音同传技术，但当时确实难度太大。”科大讯飞研究院研究员亚楠坦言。直到近两年，随着大模型技术的发展，结合讯飞在智能语音领域积累的独特算法，这个难题才得以突破。

在国际翻译领域，目前主流大模型仍以交传模式为主。交传模式下，模型可以获取完整的句子内容再进行翻译，理论上更容易保证翻译质量。而科大讯飞此次发布的是业界少有的端到端同传模型，需要在说话者未完成发言时就开始实时处理翻译，技术难度更大。但在长达 5 小时的音视频测试中，星火语音同传大模型在内容完整度、信息准确度等维度上的表现甚至超过了 Gemini 2.0、GPT-4 等主流大模型的交传效果，在很大程度上提高了机翻同传技术的实用性。

（来源：科大讯飞）

那么，星火语音同传大模型是如何实现这一技术突破的？这主要得益于其独特的技术架构。与传统的机器翻译系统不同，该模型采用了模仿人类同传译员思维链路的训练方式，实现了从简单的“词对词”翻译向“意群理解+信息重组”的跨越。

在语言学理论中，“意群”（thought group）是指在语言表达中具有相对完整语义的最小单位。人类同传译员往往会基于意群进行信息处理和重组。星火语音同传大模型也采用了类似的处理机制：系统能够实时进行语音识别的同时，完成意群切分和理解，并结合上下文语境进行精准选词和信息重组。

以实际案例说明，当翻译“I went to iFLYTEK for a seminar at 10 o'clock yesterday”这样的句子时，如果采用传统的直译方式，会产生“我去讯飞为了一场研讨会在 10 点昨天”这样不符合中文表达习惯的译文。而星火语音同传大模型会基于意群理解，将信息重组为“我去讯飞参加一场研讨会，时间是昨天上午十点”，既保证了信息的准确传达，又确保了表达的自然流畅。

（来源：科大讯飞）

在同传过程中，不同语言之间的结构差异带来了巨大挑战。例如，英语是主谓宾结构，而德语常常将动词置于句末；中文倾向于将时间、地点等状语前置，而英语则常常后置。这种结构差异导致了翻译过程中的时序问题。

为解决这一难题，讯飞团队开发了创新的流式语音合成技术。该技术通过三个层面的优化来确保同传的流畅性：首先是意群韵律衔接，系统能够精确控制每个意群的语音特征，确保发音的自然连贯；其次是语速自适应调节，根据源语言的语速实时调整译文的播报速度；最后是译文精炼度动态调整，系统会根据源语种和目标语种的时长差距，实时优化译文的表达方式。由此，模型才得以在保持翻译准确性的同时，实现接近人类同传译员的自然表达，让听众感受不到机器翻译的生硬感。

从多年技术积淀到落地的全方位突破

而这些技术能力，都源自科大讯飞在智能翻译领域长期的深耕。作为国内智能翻译的先行者，科大讯飞是迄今唯一一个通过全国翻译专业资格考试的机器翻译系统，并在最近连续三届国际口语机器翻译比赛（IWSLT）中摘得桂冠。

（来源：科大讯飞）

除了这两项测试之外，中国外文局 CATTI 项目管理中心 2022 年发布的《国内主流 AI 翻译机实测报告》或许能给我们提供一个重要参考。在由 216 名 CATTI 二级以上译员参与的全方位评测中，科大讯飞翻译产品的翻译质量和速度位列综合排名第一。在市场占有率、科研实力等各类评分中都位列前茅。

（来源：中国外文局 CATTI 项目管理中心）

实际上，讯飞的翻译技术已经在各类实战场景中积累了经验。早在 2018 年，讯飞翻译机就在杭州边检站的 20 个出入境办理窗口投入使用，成功解决了多语种沟通障碍的问题。此后又作为博鳌亚洲论坛的官方指定翻译机，全程为与会嘉宾提供即时翻译服务。还先后为北京冬奥会/冬残奥会、布达佩斯田径世锦赛等国际赛事上提供独家指定翻译服务。

（来源：科大讯飞）

除商务用途之外，讯飞的翻译技术也逐步拓展到了旅游、文化交流、演艺等更广泛的领域。

正是这些年来在算法、数据和应用场景上的持续投入，为这次端到端语音同传技术的突破奠定了坚实基础。

在现场演示环节，科大讯飞展示了搭载最新同传技术的翻译机在不同场景下的应用。在模拟的新西兰旅游场景中，翻译机能够实时将导游的英文讲解转换为流畅的中文；在国际展会场景中，则可以准确传达包含专业术语的产品介绍。

值得一提的是，翻译机还可以搭配蓝牙音箱使用，适应展会等嘈杂环境的需求，同时支持对话记录功能，方便用户后期回顾重要信息。

据悉，为满足不同场景的使用需求，讯飞翻译机计划在今年推出配备耳机、音箱、麦克风的全新商务套装。用户可以通过佩戴蓝牙耳机，在工厂参观或项目现场考察等场景下实现边走边看边交流的效果。同时，翻译机还具备对话记录功能，让用户可以在事后回顾完整的对话内容，确保商务洽谈过程中的关键信息不会遗漏。

（来源：科大讯飞）

为进一步推动技术应用，讯飞还宣布将为专业合作伙伴限量开放星火语音同传大模型的功能入口。这意味着更多专业用户将有机会体验和应用这一突破性技术。同时，此次技术升级也将全面提升讯飞各类产品的整体翻译性能，为用户在跨语言交际过程中带来更优质的体验。

在一个日益全球化的世界里，消除语言隔阂的重要性不言而喻。从小红书上的跨语言社交实验，到科技企业在翻译技术上的突破，我们看到的是人类努力打破交流壁垒的决心。也许在不久的将来，巴别塔的诅咒终将被科技的进步所化解，让不同语言的使用者能够自如地交流、分享和理解。

全国产算力加持的大模型，助全行业发展

在完成语音同传技术升级的同时，科大讯飞还在其他技术领域取得了重要进展。在 1 月 15 日的发布会上，科大讯飞还带来了两项重要成果：基于全国产算力训练的深度推理模型 X1 和星火 4.0 Turbo 底座升级。

星火 X1 是国内首个基于全国产算力训练的具备深度思考和推理能力的大模型。在现场演示中，X1 展示了解答高考数学题、国际数学竞赛题以及奥数难题的能力。模型不仅能给出正确答案，更重要的是能展示完整的解题思路，包括知识分析、思路拆解、步骤验证等过程。

“X1 模型主要有三个特点：能够化繁为简，将复杂问题拆解成多个步骤；能够进行自我反思和验证；会根据答案正确与否进行强化训练。”科大讯飞研究院研究员表示，“数学等有明确答案和结果的任务天然适配 X1 模型。”

在各类权威测试中，X1 的实力也得到验证。根据《通用认知智能大模型测评体系》指导构建的测试集 CogNKLab-MathEval-2.0 显示，X1 的中文全学段数学及奥赛能力与 ChatGPT-o1 相当。而这种水平，还是 X1 在更少算力投入的情况下达到的。

具体来看，在覆盖小学、初中、高中（含竞赛）、大学（含竞赛）等全学段的测试中，X1 在小初高数学上达到了 90 分以上的成绩，竞赛类成绩也突破 80 分。在具有较高难度的美国数学邀请赛（AIME）和 MATH 500 等国际数学评测中，X1 也取得了不错的成绩。

（来源：科大讯飞）

据了解，X1 已在教育领域开展应用。北京、上海、合肥等地的教研员和教师进行了试点体验。来自北京八中、拥有 27 年教龄的李双平老师表示，X1 在解答高中数学创新题时，可以提供多种解题思路，在教学知识关联和拓展学生高阶思维方面表现出色。

在医疗领域，X1 也取得了初步成效。基于知识反思和思维链技术，结合医疗循证推理技术，X1 在专科辅助诊断和复杂病例内涵质控方面的准确率达到 90%。科大讯飞已与华西医院、北京安贞医院等合作，分别发布了针对性的医学大模型。

（来源：讯飞医疗）

在底座模型方面，星火 4.0 Turbo 也迎来重要升级。此次升级全面对标 OpenAI 最新版的 GPT-4o，在七大核心能力上都得到了改善。特别是在数学能力方面，通过与 X1 模型的协同效应，实现了 10.5% 的性能提升，为数学教学、金融分析等领域应用提供了有力支持。

新版本还在图文识别领域带来了突破，面对医疗报告、法院文书、学术论文等复杂场景，准确率大幅提升。同时推出的扫描文档解析极速版本，将处理速度提升了 10 倍，一份 500 页的项目文件只需 2 分钟就能完成全部解析。

（来源：科大讯飞）

在长文本处理方面，4.0 Turbo 首创了句子级溯源功能，知识回复的错误率降低了 40%。同时推出的混域知识搜索技术，让用户能够一次性获得来自多个数据源的综合搜索结果，大大提升了信息检索效率。

值得一提的是，此次星火 X1 的技术对底座模型也产生了积极的反哺作用。科大讯飞集团 CTO 表示，这次 4.0 Turbo 的升级主要围绕用户实际需求，着重提升了长文本处理能力、复杂图文理解能力和行业知识理解能力。

此外，销售和应用层面，讯飞星火获得政府采购大模型中标数量和金额双第一，并在能源、金融、汽车等行业落地了近百个智能体应用。随着飞腾二号算力的持续到位，以及行业应用带来的数据飞轮效应，X1 模型有望在未来获得进一步提升。

此次发布会的三大产品，也展示出了讯飞在人工智能领域的全方位布局：星火语音同传大模型开创国内端到端同传先河；深度推理模型 X1 展现了在全国产算力基础上进行复杂推理的能力；而星火 4.0 Turbo 底座的全面升级则为各类应用场景提供了更坚实的技术支撑。从技术创新到产业落地，从通用能力到垂直领域，科大讯飞正在用一系列务实的技术进展，诠释着人工智能在各行各业的实际应用价值。

参考资料：

1. https://www.iflytek.com/cn/