机器之心报道
编辑:泽南、蛋酱
年关将近,全球 AI 大模型却突然卷了起来。
就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。种种迹象表明,进入推理增强赛道的各位玩家正试图在最近一两个月卷出个高下。
1 月 24 日上午,百川智能重磅发布了国内首个全场景深度思考模型,把这一轮军备竞赛推向了高潮。
Baichuan-M1-preview 同时具备语言推理、视觉推理和搜索推理三个维度的全面推理能力,各项能力在多个领域的主流开源、闭源评测集上表现出众。
在 AIME 和 Math 等数学基准测试以及 LiveCodeBench 代码任务上,Baichuan-M1-preview 的成绩超越了 o1-preview 等模型。
在视觉推理能力方面的 MMMU-val、MathVista 等权威评测中,Baichuan-M1-preview 超越了 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型。
目前,百川已经将 Baichuan-M1-preview 在百小应 App 中上线。一夜之间,百小应就具备了深度思考模式。
百川也展示了新模型在大量任务上的实际应用效果。在学术研究、软件开发、医疗健康方面,Baichuan-M1-preview 的思考能力都展现出独特优势:
在数学推理和跨学科知识处理方面表现卓越,能够解决复杂理论问题。
深入理解代码结构,提供精准的优化建议和调试方案,显著提升开发效率。
此外,医疗能力是 Baichuan-M1-preview 另一大亮点,它能像资深医疗专家一样进行深度思考,构建严谨的医学推理过程,搜索到医疗信息之后会对不同权威等级的证据进行专业分析与整合,并保证信息的准确性。
通过严谨的病程推理,协助医生进行诊断决策,为患者提供全面的分析和个性化建议。
深度思考大模型
卷到了医疗领域
从落地效果看,百川智能的 M1 大模型可以说既有通用能力,又拥有专精的长板。
它解锁了「医疗循证模式」。也就是说,当用户使用 Baichuan-M1-preview 回答复杂医学问题时,模型能像「循证医学」(Evidence-based medicine)一样,用专业可靠的医疗知识作为推理依据,通过「摆事实、讲道理」的循证方式提供言之有物、有理有据的解答。
为此,百川智能自建了涵盖亿级条目的循证医学知识库,囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等专业医疗内容,且以天为单位进行动态更新,及时收录医疗领域的新突破、新进展。
虽然拥有了数据量庞大的医疗知识库,但是医学知识多样性强、因果关系复杂,尤其叠加了互联网上搜索到的信息后,我们仍然可能会遇到部分医学数据、医学理论不一致的情况。
面对这个关键问题,医疗循证模式还能运用医学知识和证据评估标准,对证据进行多层分级,并对不同权威等级的证据进行专业分析与整合,识别各类权威信息的来源和可信度,从而避免因信息混杂导致的误判,形成全面、连贯的医学结论。
这样一套操作下来,大大提升了大模型进行医疗推理的可靠性。
对于医疗领域的专业人士来说,Baichuan-M1-preview 的医疗循证模式首先在临床场景中为他们提供了快速获取跨学科、跨病种复杂临床问题最新科研成果或权威指南的方式,能够辅助疑难病症的诊断和治疗提供,提升临床决策效率。其次在医学科研场景中,能够帮助专业人士迅速检索最前沿、最相关、最权威的研究成果,高效构建完整的领域知识体系,大幅提升科研探索的效率和质量。
对患者来说,他们可以基于医疗循证模式查询通过权威指南和科学研究推理总结的结论,获取第二诊疗意见、提升与医生的沟通质量,以及清晰、广泛的科普支持。
这一模式不只是提升了模型医疗结果的可信度,也为大模型在医疗等高度专业领域的落地应用指明了方向。
14B 版本直接开源
全链路优化过程曝光
对于 Baichuan-M1-preview 的小尺寸版模型 Baichuan-M1-14B,百川智能选择了直接开源。
作为行业首个医疗增强开源模型,Baichuan-M1-14B 表现优异。在 cmexam、clinicalbench_hos、clinicalbench_hos、erke 等权威医学知识和临床能力评测上,它的成绩超越了更大参数量的 Qwen2.5-72B-Instruct,与 o1-mini 也相差无几。
Baichuan-M1 系列善于通过深度思考来解决复杂推理问题,并且尤其擅长复杂医疗问题的推理。那么,它是如何做到的?
我们可以从 Baichuan-M1-14B 公布的技术细节中做一些分析。
为了有效提升医疗能力,Baichuan-M1 -14B 从数据到训练再到对齐方法,应用了一系列创新思路。
在数据收集方面,百川智能投入了大量时间,针对不同场景做了非常细致的数据收集,覆盖公开和非公开的数据。从中 / 英文专业医疗论文、院内真实医疗病例、教材和书籍,再到海量词条、知识库等构成的知识图谱,总共整理了万亿级 token 的严肃医疗数据。
在此基础上,百川还对全网数据进行了全面的分类和评估,在预训练过程中执行严格的数据筛选策略以确保各科室的数据分布均衡,保证模型能够学到正确且有医疗价值的丰富信息。
数据医疗科室分类。
同时进行的一项重要工作是数据合成,百川针对知识图谱、病例、教材、指南、知识库、专家共识、问诊记录、学术论文等涵盖真实且浓缩的医疗知识和决策经验的高质量数据,对每种类型数据设计了针对性的数据合成方案。
借助业界先进模型,百川生成了超千亿 token 高质量医疗推理数据、数据形式丰富,包含了医疗复杂决策推理链条、决策依据以及问答对等多种形式。
这些合成数据不仅具备多样化的知识呈现形式,并且包含了大量与人类医生真实决策一致的模拟思维过程,显著提升了大模型的医疗推理能力。
另外在通用性方向上,百川智能构建了规模为 20T 的多语言数据集。其中包括 14T 英文数据、4T 中文数据,以及 2T 覆盖全球前 30 大主流语言的多语言数据。
迈过数据门槛,来到模型的训练阶段。百川智能运用行业首创的多阶段领域提升方案,将整个训练分成了通识提升、医疗基础知识提升、医疗进阶知识提升三阶段。
具体来说,三个阶段分别是:
- 通识能力提升。进行基础语言模型建模,提升模型的基础语言能力、常识等能力;
- 医疗基础知识提升。不断提升模型高阶能力、如推理,数学等,并显著提升医疗数据的比例;
- 医疗进阶知识提升。进一步提升数据质量和难度,对更高阶的医疗能力、如推理、逻辑、疑难杂症等进行进一步优化。
在这之后是给模型定三观的对齐阶段(Model Alignment)。
在针对大模型的强化学习过程中,数据的质量与多样性是模型性能提升的关键。为此,百川从多个领域精心收集并整理了偏序对(preference pairs)数据,这些数据覆盖了广泛的应用场景,旨在提升模型的全面能力。偏序对数据共约 100 万条,涵盖了多轮对话、指令跟随、数学与代码、推理任务等。
为了进一步提升模型的生成质量、逻辑推理能力和用户偏好贴合度,百川设计了一套系统化的强化学习训练流程,在监督微调(Supervised Finetuning)的基础上分三步进行优化:
- 首先是用 ELO(Exploratory Log-likelihood Optimization)进行思维链探索。与传统强化学习方法不同,ELO 摒弃了对奖励模型的依赖,直接优化生成路径逻辑,避免了可能引入偏差的问题。ELO 在增强生成逻辑性和保持内容多样性的同时,确保了思维链生成过程的稳定性与高效性,为后续训练阶段提供了优质的初始化模型。
- 随后基于偏序对数据使用 TDPO(Token-level Direct Preference Optimization)方法对模型进行优化。理论分析表明,在 DPO 的优化框架中,KL 散度项用于约束生成模型与参考模型(Reference Model)之间的分布差异。然而,由于 KL 散度的约束效应随着句子长度变化不均衡,其对短句的约束较强,而对长句的约束则显著减弱。这种不均衡可能导致生成模型在长句生成过程中偏离参考模型,影响生成结果的逻辑性与质量。TDPO 可以做到计算效率与性能兼备,在 ELO 训练的基础上,模型进行了一轮的 TDPO 训练,能够确保精准贴合用户偏好,同时兼顾长短句子的生成质量。
- 在最终阶段,百川 M1 采用了 PPO(Proximal Policy Optimization)方法进一步优化模型的生成策略。PPO 充分利用了 ELO 和 TDPO 阶段的优化成果,将模型的生成策略从局部的 Token 级别优化扩展至全局的策略调整,确保模型能够在多种任务中生成符合用户需求的高质量文本。
在一系列独有特性和高质量数据的加持下,Baichuan-M1-14B 以一个非常小的尺寸在通能能力尤其是医疗能力上实现了极佳的效果。
Baichuan-M1-14B 开源链接:
- Github: https://github.com/baichuan-inc/Baichuan-M1-14B
- Huggingface(base): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base
- Huggingface(Instruct): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct
- NPU版本支持BF16推理:https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base
难而正确的事
在 GPT-4 推出之后,大模型技术发展一度面临着数据和并行化的瓶颈,人们一直在探索预训练 Scaling Law 以外的智能扩展方式。直到去年 9 月,OpenAI 发布主打「复杂推理」的 o1 大模型,指出了加强推理的前进方向。
在 o1 出现后,我们只需要一个通用模型就能解决比此前科学、代码和数学特化模型能做的更难的问题。强推理大模型给所有人带来了一次 GPT 式震撼,它从方法上证明了语言模型可以通过强化学习重现当年 AlphaGo 的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。
从原理性的角度来分析,o1 的上线意味着 AI 能力的一个分水岭 —— 大模型从此在回答很多复杂问题之前会进行仔细的思考,就像人类大脑的系统 1 和系统 2。如果说 AI 已经从仅使用系统 1(快速、自动、直观、易出错)进化到了可使用系统 2(缓慢、深思熟虑、有意识、可靠)展开思维和分析的话,它们就能够解决很多此前无法解决的问题。
但从另一个角度看,大模型接入「慢系统」也意味着更加复杂的训练过程、高延迟与高推理成本。决心投入更高量级的研究资源之后,领域内希望达到的目标是,推理 Scaling Law 能迅速打破大模型解决问题能力的现有天花板。
在 o1 推出之后,国内外顶尖 AI 公司纷纷跟进,百川智能自然是其中之一。但与行业中其他单纯追求通用推理能力的公司不同,它选择了医疗这个独特的切入角度。
正如王小川所言,AI 医疗对大模型技术的需求几乎没有上限,其对知识、推理、多模态、情感感知、沟通共情等几乎全部能力都提出了极高的要求。从某种意义上来说,AI 医疗完全可以等同于 AGI。
用大模型构建「AI 医生」,这注定是一条难走的路。越是难做的事情,越需要有人去实现,做难而正确的事,才能真正地推动 AI 技术的进步。