新智元报道

编辑:编辑部 HYZ

【新智元导读】医疗AI时代正式开启!百川刚刚用Baichuan-M1-preview交出了一份惊艳答卷,用医疗循证模式重构AI+医疗的边界。更惊喜的是,首个医疗增强模型Baichuan-M1-14B开源了。

就在刚刚,百川的首个全场景深度思考模型Baichuan-M1-preview发布了!

相比其他推理模型,它能力全面,同时具备语言推理、视觉推理、搜索推理三个维度的全面推理能力,且均做到了行业领先。


而且,还解锁了「医疗循证模式」,复杂医疗问题的推理能力大幅提升。

现在,M1已经在百小应上线了。

具备深度思考模式的百小应,不仅能准确解答数学、代码、逻辑推理问题,还能会像资深医疗专家一样,进行深度思考,构建出严谨的医学推理过程。

不仅如此,为了推动AI技术在医疗领域的创新发展,繁荣AI医疗生态,百川还开源了Baichuan-M1-14B。

就是这个M1的小尺寸版模型,医疗推理能力已经超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。

全场景深度思考模型,通用能力行业领先

Baichuan-M1-preview作为推理模型,非常擅长通过深度思考来解决复杂的推理问题。

给出一个式子,问在有理数集内是否可约?同时还要给出判断和证明。

模型准确识别出了图中的问题,并且顺利给出了正确答案。


一条铁路原有m个车站,为适应客运需要新增加n个车站(n>1),则客运车票增加了58种(注:从甲站到乙站需要两种不同的车票),那么原有车站的个数是多少?

这个数学应用题,它经过一番推理,也给出了正确答案。


Baichuan-M1-preview在各种评测中的成绩也非常优秀。

在AIME和Math等数学基准测试,以及LiveCodeBench代码任务上,它的成绩超越了o1-preview等模型。


视觉推理能力方面,在MMMU-val、MathVista等权威评测中的成绩,它也超越了GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview等模型。


可以说,这是百川智能在探索大模型深度推理能力道路上达到的重要里程碑。

通过创新的RL方法,百川智能赋予了M1更强大的推理和规划能力——像人类一样长时间思考,在推理过程中不断自我反思和纠正,根据问题特点灵活调整解决方案。

而模型的深度思考能力,也让它在学术研究、软件开发、医疗健康等领域展现出显著的独特优势。

更令人兴奋的是,M1的显式思维链为大模型的可解释性打开了一扇窗口!

从此,我们能够追踪和干预模型推理过程和决策依据。

这不仅提升了模型可信度,更为大模型在医疗等高度专业领域的落地应用,指明了方向。

解锁医疗循证模式,医疗能力显著提升

Baichuan-M1-preview的另一大亮点是解锁了「医疗循证模式」。

所谓医疗循证模式(Evidence-Based Medicine, EBM),是一种医学诊疗方法。

它将证据依知识论上的强度分类,并要求只有强度最高的证据(如元分析、系统性评论和随机对照试验)才能归纳为有力的建议证据;相对较无力的证据(如专家意见、动物实验、细胞实验、基本原理推论)只能归入有力程度不高的建议。

循证医学主张,决策和政策应尽可能根据证据,而非单单依据从业人员、专家或管理者的信念。

因此,它试图确保临床医师的意见,有基于科学文献的所有可用知识补足,保证服务为最佳诊疗。


就像循证医学一样,Baichuan-M1-preview的「医疗循证模式」,要先建立医学知识数据库,然后在医疗知识库和互联网的信息上进行推理。

不仅如此,医疗循证模式还能运用医学知识和证据评估标准,对证据进行多层分级,并对不同权威等级的证据进行专业分析与整合,识别各类权威信息的来源和可信度。

这样,模型在面对复杂问题,以及信息过载、不确定性和碎片化等痛点时,便能用专业可靠的医疗知识作为推理依据。

海量医疗知识库,主动搜索权威信息

为了实现这一点,团队首先构建了一个涵盖亿级条目的自建循证医学知识库,其中囊括了国内外海量医学论文、权威指南、专家共识、疾病与症状解析、药品说明等核心内容,并实现了天级别的动态更新。

与此同时,团队还针对海量的医学信息,构建了一个多层级证据分级体系。实现了期刊质量、研究方法、同行评审严谨度等多个维度的统一甄别、溯源与评级。

在推理过程中,M1会对复杂的医学问题建立起系统性的推理思路,并自主调用搜索能力来获取最新的权威医学证据、临床指南和研究进展。

而在面对海量、多源的医学信息时,M1则会充分发挥强化后的推理能力,通过识别各类权威信息的来源和可信度,对不同权威等级的证据进行专业分析与整合。

当发现潜在的冲突和不一致之处,它还能深入剖析不同证据的限制条件,甄别出最相关和可信的结论。

通过这种专业的分析,模型就能有效地解决信息冲突,形成全面、连贯的医学结论,进而实现可靠、准确的医学推理,最终提供可信赖的医疗答案。

医生的助手,患者的顾问

Baichuan-M1-Preview解锁的医疗循证产品,不仅是医生和医疗专业人士的可靠助手,也是患者的贴心健康顾问。

它能通过「摆事实、讲道理」的循证方式,提供言之有物、有理有据的解答,又快又准。

医生和医学生,再也不用为复杂病例发愁了。这个临床场景中,最近有什么新科研成果?想了解权威指南?直接一键搞定!

不用再翻书、查资料了,省时又省力。

对于想搞医学科研的人,它也简直是神器一枚。最前沿的研究成果,快速构建知识体系,用这个产品都能不费吹灰之力。论文、指南,统统秒查。

对于患者来说,也是大大的好消息。

看不懂医生复杂且专业的检查报告,却想更全面解读检查结果,或者想来一个「二次诊断」?现在可以轻松实现了。

甚至,它不仅能帮你了解检查报告上说了啥,还能让你跟医生沟通的更顺畅,更好地参与治疗决策!

而在科普健康知识上,它的效果也是一流,让你在治疗路上不再是被动接招的小白。

总之,这个让医疗更简单、更透明的医疗循证产品,无论对医生、医学生和患者,都是一个全能神器。

万亿级token训练,首个医疗增强14B开源

同一天,百川智能还开源了医疗增强通用大模型Baichuan-M1-14B。

作为行业首个医疗增强开源模型Baichuan-M1-14B的表现优异,不仅在cmexam、clinicalbench_hos、clinicalbench_hos、erke等权威医学知识和临床能力评测上的成绩超越了更大参数量的Qwen2.5-72B-Instruct,与o1-mini也相差无几。


能以这么小的参数量在医疗领域称霸,其实力不容小觑。


它的技术亮点,体现在数据收集及合成,以及模型训练上。

数据收集

Baichuan-M1-14B总数据量高达万亿级token,相当于把一所超大型医学图书馆的内容,全部装进了「大脑」里。

具体来说,在数据收集阶段,百川团队针对医疗场景做了非常细致的收集,覆盖了大量公开和非公开数据:

  • 千万级中/英文专业医疗论文;

  • 千万级院内真实中/英文医疗病例;

  • 万本医疗教材、几十万级医疗书籍;

  • 千万级知识图谱医疗实体、百万级医疗词条;

  • 百万级指南、专家共识、知识库等专业数据;

  • 亿级医疗问答、医疗问诊、临床看病数据;

收集还仅仅是第一步,他们还对全网数据进行了全面的分类和评估,包括医疗科室、医疗内容、 医疗价值领域。

在预训练阶段,严格的数据筛选是必不可少的。

鉴于此,团队确保了数据集中各科室数据均匀分布,并且包含了真正正确的医疗价值信息。


数据医疗科室分类

合成数据

在强化学习部分,团队主要使用了合成数据。原因在于,合成数据中包含医疗复杂决策推理链条、决策依据以及问答对形式,能够较好地提升模型的临床分析、推理和决策能力。

百川团队对每种类型的医疗数据,设计了针对性的数据合成方案。

这些数据覆盖了知识图谱、病例、教材、指南、知识库、专家共识、问诊记录、学术论文等领域。


除了让模型大量学习医疗知识,团队还基于临床病历文本,利用最先进的模型模拟人类医师的思维过程。

然后,基于自我反思机制和奖励模型(Reward Model),生成了超千亿 token的医疗复杂决策推理链条、决策依据以及问答对形式的多样化数据。

模型训练

Baichuan-M1-14B的训练方法,也超硬核。

百川运用行业首创的多阶段领域提升方案,将训练过程巧妙分解为「三步」策略——通识提升、医疗基础知识提升、医疗进阶知识提升。

阶段一,让模型掌握基础的语言能力、常识能力。

阶段二,在第一步基础上,进一步强化模型的高阶能力(比如推理、数学等),并显著提升医疗数据比例。

这相当于,让一个刚毕业的医学生,上专业课的过程。

阶段三,则进一步提升数据质量和难度,对其更高阶的医疗能力,如推理、逻辑、疑难杂症等,进行深层次优化。


对齐

在针对LLM的强化学习训练中,数据的质量与多样性是模型性能提升的关键。

为此,团队从多个领域精心收集、整理了偏序对数据,覆盖了广泛的应用场景,包括多轮对话、指令跟随、数学与代码、推理任务。

而为了增强数据的多样性与真实性,数据来源包括人类生成数据和多模型生成数据。

另外,团队还收集了约100万条偏好数据,明确标识出结果中的优劣偏好。

并且,为了进一步提升模型的生成质量、逻辑推理能力和用户偏好贴合度,团队设计了一套系统化的强化学习(RL)训练流程。在SFT模型基础上,他们分三步逐步优化。

具体流程如下:

1. ELO(Exploratory Log-likelihood Optimization)进行思维链探索

传统的强化学习方法,往往依赖于「奖励模型」,但这里团队则另辟蹊径——

在CoT训练框架中,引入了全新的算法ELO。

它的绝妙之处在于,能够大幅提升模型的生成质量和逻辑推理能力。

ELO算法的核心思想是,通过优化思维链路径,来提高response的最大似然概率。

在传统方法中,reward model可能引入的偏差,会影响最终模型的性能。而ELO通过直接优化逻辑路径,则直接避免了这一问题,确保了训练过程更加稳健。

并且,通过强化MLE目标,ELO还能在保持生成内容多样性与合理性的同时,确保生成文本的高概率准确性。

2. 基于偏序对数据使用TDPO(Token-level Direct Preference Optimization)方法对模型进行优化

理论分析表明,在DPO的优化框架中,KL散度项用于约束生成模型与参考模型之间的分布差异。

然而,由于KL散度的约束效应随着句子长度变化不均衡,其对短句的约束较强,而对长句的约束则显著减弱。

这种不均衡可能导致生成模型在长句生成过程中偏离参考模型,从而影响生成结果的逻辑性与质量。

最终,团队选用了计算效率与性能兼备的TDPO,作为偏序对数据优化的核心方法。

在ELO训练之后的模型基础上,团队进行了一轮的TDPO训练,确保模型能够精准贴合用户偏好,同时兼顾长短句子的生成质量。

3. 最终阶段,采用PPO(Proximal Policy Optimization)方法进一步优化模型的生成策略

PPO充分利用了ELO和TDPO阶段的优化成果,将模型的生成策略从局部的Token级别优化扩展至全局的策略调整,确保模型能够在多种任务中生成符合用户需求的高质量文本。


这套训练方法,就像是为LLM量身定制的「成长秘籍」,通过精细数据筛选、多阶段优化,推动Baichuan-M1-14B向着更智能方向前进。

开源,意味着什么?

正如Llama一样,模型的每一次开源,都让AI边界不断拓展,激发了更多领域的创新。

Baichuan-M1-14B的开源,也不例外。

它不仅仅是一个模型的开源,更像是为整个医疗行业打开了一扇大门。

因此,对于开发者来说,这绝对是一个不能错过的模型。

在医疗AI领域,很多技术都被「深藏闺中」,面向医疗类的垂直领域,这类强大的模型少之又少。

而百川选择开源,就是要打破这道墙。

Baichuan-M1-14B开源,能够让开发者直接接触到医疗AI背后技术,降低应用开发门槛,甚至能够加速该领域的迭代升级。

如上所述,Baichuan-M1-14B拥有一个装载海量医疗知识的「超级大脑」。

开发者可以基于此开发出更多的医疗应用,比如智能问诊助手、医疗文献智能检索工具、临床决策系统等等。

另一方面,医疗领域最重要的就是透明度、可信度。开源还意味着,技术实现了完全透明,AI社区开发者可以共同审查和改进。

而这种透明度,是推动建立医疗AI可信度的基石。

从更长远来看,当一项强大的医疗AI被开源,意味着它将会走向普惠,走向每个人。

基层医院可以提供更优质的服务,对于那些偏远地区,也有机会用上先进的AI医疗技术。

未来,更多人也能享受到AI带来的医疗福利。

还需强调的是,这一次,Baichuan-M1-14B开源并非是百川的「独奏」,而是医疗AI领域的「交响乐」。

他们释放出了一个明确的信号,推进医疗AI生态共建。

医疗AI的未来,不应该是冷冰冰的代码,而是让每一次诊疗都充满温度。

ad1 webp
ad2 webp
ad1 webp
ad2 webp