著名投资人朱啸虎指出,AI 领域中大厂与创业公司正上演一场 “资源错位战”—— 大厂聚焦参数升级的 “军备竞赛”,而中小创业者的破局点在于深耕大厂无暇或不愿顾及的细分赛道。
医疗行业具有高风险性,容错率极低,对准确性和严谨性有着极高要求,通用大模型难以完全满足其独特需求,医疗行业常被视为“数字化攻坚的最难阵地”。从全国各地AI企业的发展情况来看,越来越多的企业已经意识到细分赛道的重要性,并在垂直领域的行业大模型上加大投入,积极发力。
为什么医疗行业需要垂直大模型
方舟健客技术高级副总裁郭陟认为,AI在医疗场景的落地应用,靠算力和通用模型可达到60分及格线,但要达到80分以上,需依赖专业算法和高质量数据。我们换一个更通俗的说法,在医疗领域,通用大模型和垂直大模型的关系可以用"医学生"和"妇科专家"的成长路径来理解:
通用大模型就像医学院培养的医学生,通过医学书籍、期刊和病例库的"预训练",掌握了解剖学、病理学、医学伦理、流行病学、公共卫生学等医学基础学科,开始掌握了如内、外、妇科等疾病的基础诊疗规范,具备广泛的医学认知能力,但缺乏临床实战经验。
真正要成为一个专家,还需要经过长年累月,多达上万例门诊、手术等临床实践经验,还包含一直有经验更丰富的医生不断地进行纠正,还有做科研项目、不断地学习最深指南和研究发表论文,最终形成如在普通妇科、妇科内分泌、妇科肿瘤、生殖医学等细分领域有着专家级诊疗能力的主任医生。
壹生检康是一家专注于女性精准健康检测的科技生命公司,已在女性健康领域深耕3年多,积累了丰富的行业经验和庞大用户群体。然而,随着业务的发展,公司也面临着如何更好地服务用户的难题,我们也尝试用通用大模型来解决问题,但事实发现,通用大模型确实会存在很多“幻觉”,回答的问题看着挺专业,但还是会有很多不够准确的地方,很多特定的场景甚至无法控制通用大模型的自由发挥。
开源DeepSeek的出现为行业和个人用户带来了对大模型概念更深层次的理解,随着更多“Aha-moment”的复现,更为垂直大模型低成本的技术实现提供了清晰的路径。同时,它还推动了通用大模型厂商的快速迭代,使其逐渐成为像水电煤一样的基础设施。在这种背景下,团队里的四个理工男达成高度共识,决定自研妇科垂直大模型,以下是我们团队自研妇科大模型的一些过程和总结,供大家参考。
基础模型选择
对于创业公司来说,无论技术人员和算力资源都是非常有限的,我们不可能做满血版的大模型,妇科领域只要妇科的专家就行了。我们对比了7B、14B、32B、72B四种参数量的模型的推理成本和回复效果,即评估多大参数量的模型在妇科诊断领域掌握了足够的医学知识。经技术人员多次测试和比较,32B参数量的模型在计算资源和回复效果之间取得了最佳平衡,基于以下几点考量:
有良好的医学知识预训练基础,足够应对复杂症状分析。
参数规模适中,不会造成资源浪费,在英伟达4090 GPU上即可进行训练和推理,解决创业公司算力限制。
推理速度满足实时诊断咨询需求,具备现实可行性。
在基础模型的选型上,选择一个医学能力优秀的基础模型,在上面做微调(SFT)和强化训练(RL),这样的方式才是最有性价比的。考虑到临床诊断对可解释性有较高要求,基础模型需要有输出推理的能力,所以重点对比了开源的推理模型Deepseek_Distill_Qwen2.5_32B和QwQ_32B,在医生评估了输出结果中的诊断推理过程的专业性和可读性、诊断结果(含处理建议)的准确性和完整性后,最终选择了QwQ_32B作为基础模型,评估标准是:
诊断推理思路条理清晰,与专业医学诊断基本保持一致,无大幅度的偏差。
诊断结果和处理建议相对完整,表达通俗易懂,既不过于简略或啰嗦,也没有过多的专业术语。
闺蜜医生(壹生检康旗下的toC应用)平台在月经不调、异常出血、白带异常、外阴瘙痒、下腹疼痛、下腹包块六大典型妇科症状上积累了大量的真实病例。我们筛选出 1400 例有代表性的数据样本,对数据脱敏后,通过DeepSeek_R1_671B蒸馏出诊断过程、诊断结果和处理建议,将蒸馏数据直接用于第一轮训练。训练结果准确率为 50%,说明未经标注的纯蒸馏数据,对基础模型的能力提升影响甚微。
第二轮的训练数据,由医生团对队进行逐条审核与专业标注和优化,确保每一个诊断流程、每一条推理逻辑都符合临床实践标准。经标注数据训练的模型,模型诊断准确率提升至 60%,有大幅度提升,但离目标仍有较大差距。
经分析,数据失衡成为关键瓶颈:其一,下腹包块病例数据量仅为其他症状的 1/10,导致该类诊断得分显著偏低;其二,下腹疼痛数据中左下腹病例占比超 70%,致使其他部位疼痛诊断效果不佳。为此,团队通过规则合成再补充了 600 例数据,并经医生团队多轮审核标注,最终构建起覆盖全症状、均衡化的数据集,最终准确率提升至 77.1%,符合这一阶段的预期目标。
模型诊断准确率评估自动化评估
临床诊断的推理过程和结果并非标准化的答案,不适合把训练模型生成的答案是否等于测试集的标准答案,直接作为模型生成结果对错的衡量标准,但如果每次训练都需要医生进行人工评估,人工成本和时间成本都过高,影响模型的迭代速度。所以我们基于诊断逻辑设计了自动化评估裁判模型,在每次测试中能够通过裁判模型快速对比训练前后的准确率变化。
专家人工评估
我们邀请了10多位三甲医院的妇科医生对豆蔻大模型的诊断结果和处理建议进行人工评估,为了保证公正客观,我们将同一份测试病例数据输入给Deepseek 671B和豆蔻大模型,将两个模型的输出诊断结果混合后交给医生评估,医生评估完成后我们再统计两个模型的准确率。
附评估标准
最终训练成果
经过多位妇科专家的对比,豆蔻妇科大模型在月经不调、异常出血、白带异常、外阴瘙痒、下腹疼痛、下腹包块六个症状上的诊断结果,准确率达到了77.1%,高出DeepSeek 7%。
在某些特定疾病的诊断上,豆蔻妇科大模型展现出了更优的性能和专业度。例如,在月经推迟的诊断中,豆蔻妇科大模型首先考虑了用户近期服用激素类药物(如紧急避孕药、糖皮质激素等)可能干扰内分泌稳态。而deepseek没有考虑激素类药物对月经的影响。除此之外,影响月经周期的内分泌疾病除了甲功异常外也需要考虑高泌乳素血症。
对比同时发现,DeepSeek在输出结果中使用大量医疗词汇,专业性太强,用户理解有门槛。豆蔻妇科大模型由于进行了标注和微调,针对医生推敲后对医学专业内容的回答的强化和干预,结果表述避免了使用过于专业的术语,同时保持了专业的严谨性。
此外,团队在微调过程中全力优化成本。本次成本支出的主要部分是数据准备阶段的人工成本,特别是专业医生进行数据标注的人力成本。在算力方面,监督微调仅使用了贝联珠贯平台上一张英伟达4090 GPU卡,数据量超过2000条,单次训练耗时约4小时。
总体而言,最终形成的大型模型参数量更小,仅为DeepSeek R1的1/20,显著降低了推理成本。该模型仅需两张英伟达4090 GPU卡即可正常运行推理,不仅保证了推理速度,还能支持一定量的并发处理。
模型部署
训练完成后,考虑部署推理的成本,我们希望把模型量化成更小的精度,以便于在更少资源的英伟达4090上实现可承受一定量的业务并发请求。基于此我们对训练后的模型分别做了INT8、INT4精度的量化,并测试精度下降后对结果准确率的影响。经测试,量化到INT4后的模型诊断准确率降低了5%,有较为明显的下滑,而INT8的量化的影响很小,可以忽略不计,所以最终选择了8位的量化版本。
应用场景toC:用更精准专业的妇科能力服务C端用户
中国留守儿童女孩子的青春期保健问题值得关注,许多女孩面临月经痛经等问题,但这些问题常被家长忽视,且学校缺乏相关知识的详细宣教。例如,痛经时常见的“解决办法”仅仅是喝红糖水。此外,女孩们的性行为年龄逐渐提前,部分是受互联网影响的主动选择,部分则是被男友诱导。一旦意外怀孕,她们往往不知如何处理,也不敢告知家长,容易导致不科学的应对方式,给生理和心理带来双重伤害。事实上,中国很多成人女性也因为存在病耻感或对疾病认知不足,导致拖延就诊。这不仅使得疾病无法及时得到解决,还可能持续影响女性的日常生活,甚至发展为更严重的健康问题和家庭问题。
基于豆蔻妇科大模型构建的闺蜜医生APP上,在一定程度上解决用户不好意思说,不会描述病情的情况,结合分析透出用户可能想问什么,让用户更加坦然清晰地描述自己遇到的健康问题,从而提供私密、专业、精准、个性化的处置建议。在日常中,用户还通过妇科AI医生,可以了解更多关于女性健康的科普知识,而不必在多个平台上自行搜索然后困难地作选择。
toB:赋能妇科医生缺乏的基层诊所、大健康机构
豆蔻妇科大模型设计之初,更考虑到了toB的应用场景,这也是为什么我们要坚持一定要带推理过程的原因,这样专业人员也可以非常透明地评估,模型的思考是否是正确的。我们希望为专业妇科医生资源相对匮乏的行业提供可靠专业的妇科医生,这些机构可以通过简单的自有知识库+RAG训练,快速上线企业自己的妇科AI医生,特别在基层诊所、大健康等行业,为业务赋能。
对于未来的思考
监督微调能够使模型记住大量经过标注的数据,其本质是让模型与人类的认知和行为模式进行对齐。然而,这并不能使模型变得比人类更聪明。相比之下,强化学习则具备这样的潜力。强化学习的核心在于通过不断试错来探索解决问题的最优策略。在训练数据集中,无需明确告知模型具体的解题步骤,只需提供规则和目标(例如棋局的规则和输赢条件),模型便能够自主探索并找到获胜的方法。
强化学习的算法逻辑与我们在现实工作和生活中解决问题的思维方式非常接近。因此,它能够使模型在训练过程中习得解决通用问题的能力,并具备向外延伸和泛化的能力。例如,通过强化学习,大模型可以从专注于妇科诊断的垂直领域,逐步拓展到妇科的全领域,甚至未来可以延伸到内分泌科、皮肤科等其他医学领域。
对于壹生检康而言,强化学习更有可能使豆蔻妇科大模型成为一个既优秀又全面的医生。