来源:智药局
生物学大模型又迎新里程碑!
2025 年 2 月 19 日,来自 Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的科学家们,联合发布了生物学大模型 Evo2。
团队称, Evo 2 是迄今为止最大的公开 AI 生物学模型,完整版高达 400 亿参数,包含 12.8 万个物种的 9.3 万亿个核苷酸。
它囊括了生物学的基本语言:DNA、RNA 和蛋白质,能够一次分析长达一百万个核苷酸的序列长度。
作为基因组基础模型,具有生成整个基因组、预测突变、理解非编码 DNA 的能力,可以广泛应用于生物分子研究,精准医学、药物研发,合成生物等。
此外,Evo2 是生物学领域最大规模的全面开源模型之一,发布了包括训练数据、训练和推理代码以及模型权重,引爆了学术界。
这也意味着,人类能够已经具备重写生命最底层代码 —— 基因组的能力,这将打开新生物技术时代的大门。
Evo2 震撼发布,多重升级
如果说, DeepSeek 是以文字作为大模型基础,那么 Evo2 则以基因组数据为基础,不过它生成的不是文本,而是基因组序列。
在 Evo 一代中, 科学家们使用了 80,000 种细菌和古细菌的基因组,并在此以单核苷酸分辨率进行训练,使其模型能够完成全基因组规模的预测任务和生成设计。
而 Evo2 在各个方面进行了重大升级,整体能力也进行了巨大的飞跃。
首先,Evo2 的数据量庞大,完整版包含 400 亿参数,远超一代的 70 亿参数规模。Evo2 在 12,8000 万个物种(包括人类和其他动物、植物和其他真核生物)的基因组上训练,这些基因组总共包含 9.3 万亿个核苷酸。
其次,Evo2 使用 stripedhyena2 作为模型架构,和当前普遍 transformer 架构不同,它不仅能够响应速度更快,还能够捕捉基因组的相互作用,自主学习外显子 — 内含子边界,以及转录因子结合位点等信息。
Evo2 显著扩大了上下文窗口,能一次性处理多达 100 万个碱基对,这种能够大规模处理能力对于基因组非常重要,因为它有助于处理基因组中的长序列,也意味着计算生物学的重大进展。
图源:Evo 2 的模型架构、训练过程、数据集和评估的概述
下游任务方面,Evo2 能够执行跨 DNA、RNA 和蛋白质的通用预测和设计任务。此前 Evo1 生成世界上第一个人工智能生成的 CRISPR-Cas 系统,这是一种蛋白质和 ncRNA(非编码 RNA)的大型功能复合物。
而利用 Evo2,研究人员分别创建了酵母染色体、人类线粒体基因组 、生殖支原体的原核基因组(常用的最小基因组模型),证明了其生成能力。
此外,Evo2 还擅长识别人类基因中的致病突变,甚至通过深刻理解意味着它可以识别不同生物体的基因序列模式,而实验研究人员则需要数年时间才能发现这些模式。
在技术层面,要在核苷酸精度上训练多达 400 亿参数并不容易,甚至 OpenAI 的联合创始人兼总裁 Greg Brockman 在休假期间都在花时间处理这个问题。
最终还是老黄出马支持了这个项目。官方表示,Evo2 在英伟达 DGX Cloud AI 平台上训练,使用了 2000 多张 H100 GPU,最终使得 Evo 2 能够使用比 Evo 1 多 30 倍的数据进行训练,一次推理的核苷酸数量是 Evo 1 的 8 倍以上。
当然,结果是 Evo 2 被集成到 NVIDIA BioNeMo 中,成为英伟达生命科学模型全家桶中的一员。
该项目已经完全开源,研究团队已经在 github 上传其训练数据、训练和推理代码以及模型权重,是迄今为止规模最大的开源生物学 AI 模型。
此外,研究人员还开发了一个名为 Evo Designer 的在线 AI 平台,科学家们可以输入基因组序列,并在这个平台中进行基因组生成以及预测,真的非常贴心。
图源:Evo Designer 平台
开源地址:
https://github.com/arcinstitute/evo2
网页地址:
https://arcinstitute.org/tools/evo/evo-designer
从基因组到生命
简而言之,Evo2 已经学会了 DNA 的基本原理,标志着 AI 在生物学的革命性进步,有望为精准医疗、药物研发、合成生物打开广阔的天地。
精准医学
Evo2 能够无需针对人类疾病数据进行专门训练,精准识别基因突变与疾病之间的关联,甚至它的表现超过了没有训练过人类疾病数据的专门模型。
例如乳腺癌相关基因 BRCA1 的变体测试中,Evo2 预测突变的准确率超过 90%。未来 Evo 2 可以深入分析患者基因组数据,为个性化医疗提供支持。
药物发现
Evo 2 不仅可以解读基因序列,还能设计新的基因组和生物分子(如蛋白质分子等)。这意味着研究人员可以利用该模型设计出针对特定疾病靶点的新型药物分子。
在基因治疗领域,Evo 2 能够设计出仅在特定细胞类型中激活的基因元件,例如新的转座子或基因开关,通过减轻脱靶效应提高基因治疗的安全性。
未来,Evo2 有望能寻找人类疾病的遗传原因并加速新药的开发,减少细胞或动物实验所需的时间和研究资金。
合成生物学
对 Evo2 而言,合成生物则是一个更为广阔的领域。
通过生成新的 DNA 序列,Evo2 可以设计具有特别性能的生命体,填补自然界原本不存在的生态位。
例如在 Evo 2 可设计分解塑料的蛋白质,或者改善气候的微生物。在农业领域,Evo2 也有望解决全球粮食短缺问题,加深科学家对植物的理解。
关于潜在的伦理和安全风险问题,科学家们也考虑到了。
Evo 2 的基础数据集中已经排除了感染人类和其他复杂生物体的病原体,并确保该模型不会对这类问题生成有效的答案。
简单来说,人工智能不再局限于描述生物学,而是开始设计生物学,这使得从头开始设计的合成生命、由人工智能优化的可编程基因组、潜在的新基因疗法成为可能,甚至为虚拟细胞奠定了基础。
Evo-2 完全开源,也可能引发生物工程领域的大规模创新,降低基因组设计的巨大障碍。
不过就像通用基础大模型一样,Evo 2 在哪些方面可以产生最大的影响还有待观察。和执行特定任务的小模型不同,可能还需要研究人员在模型之上构建特定于任务的 AI 程序。
而 Evo-2 背后的缔造者,Acr 研究所还展示了一个更为宏大的目标:模拟整个细胞。
Evo-2 有望将基因组数据与表观遗传学、蛋白质组学等各类数据相结合,这也意味着实施更大规模的生命编程。
说不定未来,我们真的有可能看到 AI 创造新的生命形式。
题图来源:Evo Designer 平台
我们长期为科研用户提供前沿资讯、实验方法、选品推荐等服务,并且组建了 70 多个不同领域的专业交流群,覆盖PCR、细胞实验、蛋白研究、神经科学、肿瘤免疫、基因编辑、外泌体、类器官等领域,定期分享实验干货、文献解读等活动。
添加实验菌企微,回复【】中的序号,即可领取对应的资料包哦~
【2401】论文写作干货资料(100 页)
【2402】国内重点实验室分子生物学实验方法汇总(60 页)
【2403】2024 最新最全影响因子(20000+ 期刊目录)
【2404】免疫学信号通路手册
【2405】PCR 实验 protocol 汇总
【2406】免疫荧光实验 protocol 合集
【2407】细胞培养手册
【2408】蛋白纯化实验手册
【2501】染色体分析方法汇总
【2502】国自然中标标书模板
【2503】WB 实验详解及常见问题解答
【2504】DeepSeek 论文写作常用口令