撰文丨王聪

编辑丨王多鱼

排版丨水成文

2025 年 1 月 20 日,中国杭州的初创公司深度求索(DeepSeek)发布了一款大语言模型(LLM)——DeepSeek-R1,这是一个部分开源(训练数据未公开,因此并非完全开源)的“推理”模型,其能够以与OpenAI于 2024 年年底发布的最先进的专注于“推理”的大语言模型ChatGPT-o1相近的水平解决一些科学问题。

更重要的是,DeepSeek-R1 的训练成本远低于美国科技巨头们开发的主流大语言模型,DeepSeek-R1 的高性能与超低成本引起了全世界科学界的惊叹。

2025 年4 月 23 日,国际顶尖医学期刊Nature Medicine背靠背发表了两篇关于DeepSeek的论文。这两项研究分别评估了DeepSeek在医疗任务、临床推理和临床决策中的能力,并与ChatGPT-o1Llama 3.1-405B、ChatGPT-4oGemini-2.0 Flash Thinking Experimental进行了比较。



DeepSeek 在医疗任务和临床推理方面的比较基准测试

DeepSeek是一款新推出的大语言模型(LLM),旨在提升推理能力,但其在医疗领域的表现尚未得到评估。

在这项研究中,西奈山伊坎医学院Xueyan Mei团队等评估了三款大型语言模型——DeepSeek-R1ChatGPT-o1Llama 3.1-405B在执行四项不同医疗任务方面的能力:回答美国医师执照考试(USMLE)中的问题、基于文本的诊断和管理案例进行解读和推理、根据 RECIST 1.1 标准对肿瘤进行分类,以及对多模态的诊断影像报告进行总结。

评估结果显示,在美国医师执照考试(USMLE)中,DeepSeek-R1(准确率=0.92)的表现略逊于 ChatGPT-o1(准确率=0.95),但优于 Llama 3.1-405B(准确率=0.83)。在基于文本的病例挑战中,DeepSeek-R1 的表现与 ChatGPT-o1 相当(分别使用《新英格兰医学杂志》和 Medicilline 数据库时,准确率分别为 0.57 vs 0.55 和 0.74 vs 0.76)。对于 RECIST 肿瘤分类,DeepSeek-R1 的表现也与 ChatGPT-o1 相似(0.73 vs 0.81)。

DeepSeek 提供的诊断推理步骤被认为比 ChatGPT 和 Llama 3.1-405B 提供的更准确(平均Likert评分分别为 3.61、3.22 和 3.13)。但 DeepSeek-R1 提供的总结影像报告的整体质量略低于 ChatGPT-o1 提供的报告(Likert评分 为4.5 vs 4.8)。

总的来说,这项研究突显了 DeepSeek-R1 大语言模型在医疗应用方面的潜力,并指出了一些需要改进的地方。

DeepSeek 在临床决策中的基准评价

大语言模型(LLM)正在不断改变医疗应用领域。然而,像ChatGPT-4o这样的专有模型在临床应用方面面临重大障碍,因为它们无法在医疗机构内部署,从而不符合严格的隐私法规。

近期,诸如DeepSeek之类的开源大语言模型取得的进展提供了一个很有前景的替代方案,因为它们能够在拥有先进信息技术基础设施的医院里,对本地数据进行高效的微调。

为了展示 DeepSeek-V3 和 DeepSeek-R1 的临床实用性,柏林夏里特大学医学院的Roland Eils团队在临床决策支持任务上对其性能进行了基准测试,测试对象还包括专有的大语言模型,例如ChatGPT-4oGemini-2.0 Flash Thinking Experimental

通过涵盖常见和罕见疾病的 125 个具有充分统计效力的患者病例,研究团队发现,DeepSeek 的表现与专有的大型语言模型相当,在某些情况下甚至更优。

这项研究表明,开源的大言模型能够提供一条可扩展的途径,用于安全的模型训练,从而在符合数据隐私和医疗保健法规的前提下,实现现实世界中的医疗应用。

论文链接

https://www.nature.com/articles/s41591-025-03726-3

https://www.nature.com/articles/s41591-025-03727-2

ad1 webp
ad2 webp
ad1 webp
ad2 webp