新智元报道

编辑:编辑部 YNZH

【新智元导读】百度文心大模型X1 Turbo正式发布了。这个基于4.5 Turbo的深度思考模型,效果领先DeepSeek-R1、V3,且价格仅为R1的25%!而文心4.5 Turbo在低价的同时,多模态能力更是让人出乎意料。

就在刚刚,百度的两款新模型——文心大模型4.5 Turbo、文心大模型X1 Turbo正式发布了。

这次上线的两大模型,主打的就是多模态、强推理和低成本。

其中,文心大模型X1 Turbo在推理性能上已经更上一层楼。

它有了更先进的思维链,在问答、创作、逻辑推理、工具调用和多模态能力上,也有了进一步提升。

而文心大模型4.5 Turbo,在图片和视频上的视觉理解更是令人眼前一亮。实测后的体感是,它在去幻觉、逻辑推理和代码能力上,也有了明显增强。

再看两款模型的价格,简直是性价比拉满。


X1 Turbo的价格低至百万token输入价格1元,输出价格4元,仅为DeepSeek-R1的25%。

而文心4.5 Turbo的成本就更低了,每百万token的输入价格仅为0.8元,输出价格3.2元,仅为DeepSeek-V3的40%。

两个模型,我们就第一时间展开实测,体感就是:太强了!

文心X1 Turbo

为了测试X1 Turbo推理的严谨性,我们给它开个脑洞:

假设地球上所有人集中在一个点,并且同时起跳落地,会发生什么,对地球有怎样的影响?

对于这个脑洞大开的问题,X1 Turbo进行了非常详细的计算、严谨的推理。

首先,它算出全体人类的质量相对地球的总质量来说几乎可以忽略,所以就算同时起跳落地,对地球的整体运动也没啥影响。

接着,它还从局部地质影响、空气振动、生态等方面进行解答,最后做出总结。


可以看出X1 Turbo的推理过程十分严谨,进行了大量的计算。

尤其是涉及到估计值时,X1 Turbo给出的估计都十分符合真实情况。比如,它估计全球人口大约80亿、平均体重60公斤、每个人跳起的高度0.5米等。


接着考验一下它的创作能力。

给它一张杭州西湖五一假期人潮汹涌的照片,让它模仿《岳阳楼记》的文风,写一篇《五一游记》。

很快,X1 Turbo就写出一篇古文版《五一游记》。

文章文字优美,主旨突出,将人潮与观景这个矛盾主体贯穿始终,还融入了诸如手机、自拍杆等现代元素,极具张力。

就连X1 Turbo都在文中感叹道:「此非观景,实乃观人海耳!」,着实好笑。

不过,X1 Turbo也在文末对主旨进行了升华:「然观其盛况,亦可见国泰民安之象。」


其实X1 Turbo文章写得好,主要是在推理阶段就已经将《岳阳楼记》的特点总结好了:「骈散结合、对仗工整、意境深远等,以便在写作时进行模仿」。

同时,它还使用自己的多模态能力理解了上传的图片内容,使文章更加的符合主题。


X1 Turbo的数学也很厉害,大学期末高数压轴题也不在话下——

不仅解题过程简洁、清晰,而且对数学公式支持的也很好,一次就能做对。

找一个能给你解答高数题的老师比较难,但让X1 Turbo教你学高数简直太香了。不明白还可以继续问它,直到搞懂为止。


为了解题,X1 Turbo首先理解了图片上的题目内容,然后开始推理解题过程,使用了很多数学定理。

最后为得到正确结果还进行了反复的验证。


为了考验X1 Turbo工具调用能力,我们给它一张1996年的手写家书,让它转换成电子邮件的形式,再改写成古代的家书,要求文辞典雅。

这封家书是手写体也不是很清晰,这需要模型调用图片理解工具能力。

很快,X1 Turbo就同时完成了这两个改写的任务。


可以看到,X1 Turbo不仅对图片的文字提取准确,处理速度也很快,完全没有反复的、没用的推导。


文心4.5 Turbo

我们上了一系列刁钻的实测,来测试文心4.5 Turbo的能力。

首先,是对图像的理解。比如,图里这只是条什么狗?



逛博物馆时,遇到看不懂的文物可以随手拍,直接问4.5 Turbo就行。

无论是马踏飞燕,还是妇好鸮尊,它都能一眼准确识别,详细介绍细节,并且指出文物现存哪个博物馆。


看懂人类梗图这一关,4.5 Turbo也是顺利通过。



人类都搞不明白的断句,它能立刻给出正确解析,让人恍然大悟。


在电商行业,文心4.5 Turbo直接就能帮从业者一键p图了。因为能深刻理解产品的含义,它快速准确地生成符合要求的产品图。


甚至,它能准确根据太阳运动,判断出一张照片的拍摄时间。


接着,在视频理解方面,文心4.5 Turbo的表现也令人惊喜。

比如,在看完一段视频之后,它不仅能指出是来自电影《楚门的世界》,做到事实正确。


而且还能根据电影之前的情节,续写出有创意、出人意料但又在情理之中的结尾。


付航这套经典的「大爷到处立遗嘱」的段子,它都能理解准确get到其中深刻的幽默。


与此同时,知识渊博的文心4.5 Turbo,还对基础物理有着极强的理解力。

比如在下面这个视频中,它就能轻松地回答出试管放进黄色液体后的消失之谜——实际上是因为光线折射引起的一个视觉trick。


有趣的是,它还能一眼就能看出视频中男子的动作错误之处:背部有明显弯曲。


除此之外,文心4.5 Turbo还凭借着极强的多模态能力,让很多实用或有趣的应用场景成为可能。

比如,它能精准整理出无字幕的英文演讲,还能配上高质量翻译。因此在需要字幕制作的场景,文心4.5 Turbo就大有用武之地。


甚至,还能利用超越人类的视觉反应能力,在考验眼力项目中称霸「最强大脑」。

一番迅捷的操作之后,许多人类都很难反应过来,但模型就迅速给出正确答案:小球在3号杯子下面。


值得一提的是,代码能力也是文心4.5 Turbo的一大亮点。

我们可以让它生成一段HTML代码,要求鼠标划过之处,显示交互式粒子特效,比如花朵绽放的效果。

4.5 Turbo使用HTML、CSS和JavaScript创建了一百多行的代码。


一次就可以运行成功,效果非常精细,粒子之间还有引力、斥力的模拟效果。


多模态理解击败GPT-4o,技术内核揭秘

文心4.5 Turbo和X1 Turbo的卓越表现,离不开百度一直以来在技术上的深耕细作。

基础模型持续迭代,多模态是亮点

文心大模型4.5和4.5 Turbo作为基础模型,核心优势是多模态大模型架构。这一架构通过混合训练文本、图像、视频数据,打破了不同模态数据在结构、规模、知识密度上的壁垒。

在多项基准测试中,文心4.5 Turbo高效继承了文心4.5的文本和多模态能力,同时显著降低训练和推理成本。

其多模态性能与GPT-4.1持平,甚至超越了GPT-4o。在文本方面,4.5 Turbo则与DeepSeek V3最新版相当,一举超越了GPT-4.5、GPT-4.1和GPT-4o。


文心4.5 Turbo多模态基准测试


文心4.5 Turbo文本基准测试

为了实现高效跨模态学习,团队还引入了多模态异构专家建模、自适应分辨率视觉编码、三维旋转位置编码、自适应模态感知损失等前沿技术。

这些技术协同作用,使得跨模态学习效率提高近2倍,多模态理解效果提升超过30%。

后训练闭环革新:自反馈增强

在后训练阶段,文心团队研发的「自反馈增强」框架,基于模型自身的生成和评估能力,构建了「训练-生成-反馈-增强」的闭环迭代体系。

这一框架,不仅解决了模型在对齐过程中,数据生产难度大、成本高、速度慢等问题,还显著降低了「幻觉」,提升了模型理解和复杂任务的处理能力。

在训练过程中,融合偏好学习的RL技术,通过多元统一奖励机制,精准判别结果质量。

而且,离线偏好学习和在线强化学习统一优化,进一步提高了数据利用效率和训练稳定性,并增强了模型对高质量结果感知。

偏好信号与奖励信号的深度融合,则让模型在理解、生成、逻辑推理、记忆等能力上全面进阶。

这种自反馈与RL的结合,使得文心4.5 Turbo和X1 Turbo能够快速适应多样化需求,输出更加可靠的结果。

这就是我们在评测中能直观感受到的文心4.5 Turbo的低幻觉。

复合思维链,深度思考新范式

从以上demo中不难看出,文心X1 Turbo的深度思考能力,尤为引人注目。

文心X1 Turbo则凭借深度思考能力,整体效果领先DeepSeek R1、V3最新版,仅略低于GPT-o1满血版。


文心 X1 Turbo基准测试

文心的深度思考突破了传统CoT的局限,提出了融合思考与行动的「复合思维链」。

这一创新通过结合工具调用,让模型在解决复杂问题时,既能深入思考,又能采取实际行动,让模型跨领域解决问题能力大幅跃升。

与此同时,多元统一奖励机制的引入,实现了长距离思维和行动链的端到端优化。

高质量数据体系

现在的大模型训练,数据是重中之重。在数据层面,文心团队打造了「数据挖掘与合成 - 数据分析与评估 - 模型能力反馈」的闭环体系,能源源不断生产知识密度高、类型多样、领域覆盖广的大规模优质数据。

这一体系具备了高度可扩展性,能够轻松迁移到全新的数据类型,实现快速、高效的数据生产。

针对专业深度知识及领域过程知识的数据稀缺问题,他们还研制了原理驱动、过程评估与结果校验的数据合成技术、知识点驱动的大规模稀缺数据挖掘技术等等,目的是提升数据的知识密度和覆盖面。

在多模态数据处理上,融合语义对齐的多模态平行数据构建、融合视觉知识的描述生成等技术,解决了不同模态数据割裂、跨模态语义关联难的痛点。

这些技术,大幅提升了不同模态数据的对齐精度和语义关联深度,为模型的多模态理解力,提供了支撑。

从多模态融合的架构创新,到自反馈增强的后训练框架,再到复合思维链的深度思考能力,以及闭环数据体系的支撑,这些技术共同铸就了文心4.5 Turbo和X1 Turbo亮眼性能。

推理吞吐飙升8倍,低成本AI引擎

相比友商,文心4.5 Turbo和X1 Turbo成本进一步降低。

而其背后,算力、飞桨框架与文心大模型的深度协同优化,实现了训练与推理的更快、更稳、更节能。

在训练方面,飞桨框架引入了多模态统一的掩码注意力加速,在不同模态混合计算注意力时,显著降低掩码构建和计算开销,大幅提升训练性能。

在推理方面,多模态流式分块预填充机制,进一步减少了首token的生成耗时,同时降低了推理计算的显存峰值占用,提升推理批次大小,提升吞吐性能。

基于这些创新,文心4.5 Turbo训练吞吐达到文心4.5的5.4倍,推理吞吐更是达到8倍。

飞桨框架3.0,是这些优化的核心引擎。


飞桨框架3.0延续了动静统一、训推一体的技术特色,更在自动并行、神经网络编译器、高阶自动微分等方面取得突破,为大模型时代的技术创新与产业应用提供了强大支撑。

首先,动静统一自动并行,让大模型分布式训练代码量减少80%,降低大模型开发训练门槛。

开发者可以像编写「单机代码」一样,轻松实现分布式训练,无需深入了解复杂的通信和调度逻辑。

其次,飞桨框架3.0的大模型训推一体设计,加速了强化学习的训练效率,提速114%,从而优化了后训练与推理部署流程。

此外,科学计算高阶微分,让微分方程求解速度比PyTorch快115%。

更值得一提的是,飞桨已适配60多个系列芯片,通过软硬协同优化,最大化释放算力潜能。

对于开发者来说,飞桨框架3.0的友好性不言而喻。

它能够让开发者以Python语言写神经网络,无需编写复杂的硬件开发复杂的算子内核代码,即可实现高效运行。

目前,飞桨文心的开发者数量已经超过了2185万,服务超过67万家企业,创建的模型达到110万。

一场技术内核到应用生态的升级

自2019年文心大模型1.0问世以来,百度在人工智能领域的探索从未停歇。

6年的时间,文心大模型演进历程就是一部技术突破史。

2023年3月,文心一言作为「知识增强大语言模型」正式发布,凭借知识增强、检索增强、对话增强三大技术,实现了从静态模型到动态交互的飞跃。

紧接着5月,文心3.5进一步强化了知识点增强、逻辑推理能力,让模型在复杂任务中,表现更加精准和高效。

同年10月,文心4.0问世,首次提出基于「慢思考」的智能体。

这一创新让AI不再局限于快速反应,而是能够像人类一样,进行深思熟虑的推理,大幅提升了问题解决的深度和广度。

2024年6月,文心4.0 Turbo的推出,进一步优化了性能与成本的平衡,为大规模商用场景提供了高效解决方案。

进入2025年,文心大模型的迭代再次加速。

今年3月,多模态大模型文心4.5和深度思考模型X1双弹登场,展现了AI在跨模态融合和复杂推理上的突破。

时隔一个月,这一次,文心4.5 Turbo与X1 Turbo的发布,则将文心大模型推向新的技术高峰,标志着其在多模态、深度思考和成本效率上的新里程。

可以说,文心大模型的演进,是一场技术内核到应用生态的升级。

早期,聚焦于多粒度知识融合学习、知识和数据融合学习,奠定了文心大模型的知识基础。

随后,知识增强和知识点增强的引入,让模型能够更精准提取和应用信息。再加上,检索增强、对话增强、逻辑推理增强的迭代,则赋予了模型更强的交互和推理能力。

进入慢思考和深度思考阶段,文心大模型开始突破传统AI局限,实现了从单一任务到跨领域问题解决的跃升。

2025年以来,多模态技术的融入,更是让文心大模型能够无缝处理文本、图像、视频、音频,打开了视觉理解、内容生成的全新应用场景。

过去每一个阶段的技术突破,都让文心大模型能力的边界不断拓展。

而文心大模型的技术体系,远不止于模型本身。

它形成了一个从模型到工具平台的完整生态,包括文心4.0、4.5、X1等旗舰模型,文生图模型,场景模型和轻量模型,文心一言和智能体等应用。

不仅如此,文心生态还为开发者提供了数据生产、后训练、推理部署和场景化工具的全链条支持。

这种一体化的设计,得以让开发者能够灵活高效开发创新应用,加速AI技术落地。

现在,文心4.5 Turbo与X1 Turbo的亮相,正以更开放的姿态,邀请每一位开发者加入这场生态革命。

ad1 webp
ad2 webp
ad1 webp
ad2 webp