1月8日,环球时报、中国科协新技术开发中心、清华大学技术创新研究中心等单位联合发起新质生产力产业实践洞见活动。

会上,中国工程院院士、清华大学计算机系教授郑纬民表示,2024年国内大模型产业主要有两大特点,即从基础大模型向多模态发展以及大模型+行业,并认为我国在发展大模型+各行各业上优势突出,有可能走在世界前列。


郑纬民院士展开介绍了大模型生命周期的五个环节,以及不同环节存在的问题。第一个环节是数据获取,其难点在于文件数量多且读取频繁,大模型训练过程可能需要处理百亿级别的数据文件。

第二个环节是数据预处理,数据质量不高不能直接用于训练,所以需要预处理。以GPT-4为例,1万块卡训练11个月,差不多有半年时间在做数据预处理,效率非常低。

目前国际采用的主流软件是开源的Spark,优势是生态佳,可扩展性、容错性好。缺点有两点,是处理速度比较慢,受限于Java语言本身的条件,二是Spark采用了内存计算,即把要处理的数据放到内存里计算,放到内存比放到硬盘的计算速度快,但是内存的价格高、容量低。如果有一个T的数据要处理,那就需要占用内存20T。

清华大学研究了部分模块用C++来写,同时擦去一些办法降低内存占用,低至数据规模的2倍到3倍,有可能将数据预处理时间缩短一半。

第三个环节是模型训练,模型训练需要大量的计算、存储等相关技术,郑纬民院士重点提及了可靠性。假如10万张卡组成一个系统,每一个小时出一次错,就会大幅降低训练效率,这已经是世界先进水平。

目前业内的通用做法是,在训练到一定程度时主动“暂停”,比如40分钟时把软硬件的状态记下来, 然后继续训练,等到下一次出错恢复到前一个标记点继续训练,但是数据量大且复杂,效率仍然有待提高,目前行业在探索更高效的读写方案。

第四个环节是模型微调,基础大模型训练出来需要针对特定行业或者场景二次训练,比如医疗行业,在基础大模型之上结合医院数据再训练一次,得到一个医疗领域的大模型,也可以进一步第三次训练,比如在医院大模型上结合B超数据再训练一次,得到一个B超领域相关的大模型,连续多次训练得到更小领域的大模型,这也是微调的主要作用。

第五个环节是推理,即将训练好的大模型应用在具体场景。

AI芯片是大模型产业焦点,郑伟民院士指出,产业各界聚焦大模型下一步要着力探索构建国产万卡系统和异构卡联合训练,更好支撑起国产大模型训练。

他说,国产AI芯片最近两三年取得了很大的进步,但是从严格的角度来说,国产的卡用户不太喜欢用,不是硬件做得不好,而是生态不太好。

如何定义生态好不好?如果原来有一个软件是基于英伟达开发,现在很容易移植到国产系统上,就是生态好,如果移植起来没有两年、三年移不完,移不成功,生态就不好。基于新的硬件新写软件也是同理,目前的策略是开发更多的软件系统优化生态,让多张卡同时训练有更好的线性加速比。

郑纬民院士最后总结,构建国产万卡系统很重要,也很难,但一定要建,万卡系统总的来说达到基本可用,特别是软件生态要建好,此外,要重视异构卡联合训练。

中国算力进入新一轮快速发展周期,主要源于东数西算和大模型训练,智能算力发展最快。大模型训练高端卡用得比较多,中低端卡用得比较少,大概只有30%的利用率,国产软件生态建设得当,有望把30%利用率提高到60%。

会上,科大讯飞联合创始人、高级副总裁江涛表示,基于昇腾AI云服务,科大讯飞联合华为推出国内首个万卡规模大模型算力平台“飞星一号”,能够实现大模型训练推理一体化设计,解决大模型时代“卡脖子”问题,并不断优化集群训练效率。在此平台上, 讯飞星火大模型持续迭代至4.0 Turbo,综合指标上已达到GPT-4 Turbo水平,数学能力、代码能力超过GPT-4o。

华为云大数据与AI领域总裁尤鹏表示,未来基础模型可能会收敛到三家,不会超过五家,会有大量的企业去做上面的行业模型以及行业落地。

华为云结合AI To B实践总结出三个观点:一、不是每一个企业都需要大规模建设AI算力。不排除资金比较雄厚的互联网公司,它们的每个业务场景、每个推荐、每个搜索、每个内容标签、每个内容生成都会用到大模型,但是可能95%的公司都不需要建数据中心,用云的方式可以以快速解决AI的训练、增训、推理,实现算力的高效利用。二、不是每一个企业都需要训练自己的基础模型,选择业界主流基础模型应用于自己的场景是比较经济的选择,投资也比较少,周期也比较短,见效也比较快。三、不是说所有的应用都要追求大模型,世界从来都不是抛弃式的发展,而是继承式的发展,原来的专业小模型可以继续使用,大模型作为一个调度系统,能够很好地把大小模型调度起来,未来大模型系统是一个混合工程的平台,通过大模型调度小模型,大模型为中模型、小模型去生成数据。(本文首发于钛媒体APP,作者 | 张帅,编辑 | 盖虹达)

ad1 webp
ad2 webp
ad1 webp
ad2 webp