本文来自微信公众号:首义科创母基金,作者:金能,编辑:Shanyunliu,题图来自:AI生成

想象一下,在世界厨艺锦标赛上,你和一批有梦想的年轻人在一个破旧的毛坯灶台上,炒出来了惊艳全球的爆款创新菜。而你的对手,在五星级酒店里带领数十人的豪华团队,用着全球最贵的厨具和最多的食材,却在比赛中惜败于你,引发全球轰动。这不是爽文短剧,这是正在发生的热点。而你,就是低调积累许久的“一代食神”——DeepSeek。

年初 DeepSeek App 横空出世,其创新性的架构设计和工程化落地使得模型性能在极低的成本下也能达到全球顶尖水平,加上用户体验良好的思维链展示和模型开源的方式,在春节期间用户量迅速增长。

在引发全球关注的同时,全球资本对中国科技资产的重新评估与 AI 投资的底层逻辑也悄然发生转变。尤其是在大模型领域,过去巨额投入却屡次推迟的ChatGPT5和本就步入下半场的国内六小龙,将直面 DeepSeek这匹黑马的强劲冲击。中国AI企业在DeepSeek突破了“算力禁运”之后,正面临高质量数据稀缺的挑战,尤其是高质量、低成本、多种类、多模态的数据,将成为未来 AI 产业发展的核心关键。

一、DeepSeek 之前:被算力算法“智子”围困的中国 AI

主流的AI大模型训练方式主要是基于 Transformer进行下一个 Token 的预测。即从互联网为主要渠道来吸收数千亿级的海量数据,并用进行类似均值的匹配,对匹配结果偏差比较大的,也就是通常说的“大模型幻觉”(详见上篇《AI 幻觉的一体两面》),进行人工打分/直接指导打标签,以此来提升模型的准确性。


众所周知,AI 大模型核心三要素即数据、算法和算力。数据对应的是“食材”,算力对应的是“厨具”,算法则是“厨艺”。从全球范围来看,当前算力的硬件性能已接近瓶颈,其迭代速度远不及大模型的日益增长的训练需求和能耗压力。

而可供预训练的现实数据也逐渐见顶,2024 年 11 月份 OpenAI 前首席科学家 Ilya 在公开场合表示简单地增加数据和计算能力来扩大当前模型规模的时代已经结束。随着大语言模型逐渐往多模态模型上发展,算力和数据的挑战则会进一步加剧。

目前,算力方面我国面临美国的“芯片禁令”的封锁,使得国内 AI 公司没法使用高端好用的厨具,就像别人用高压锅炖鸡汤一刻钟,我们只能用柴火灶一直加柴熬两小时。在此背景下,我国发展人工智能只能从算法和数据两个方面做得更好,才有机会突围。


在算法方面,过去普遍观点是由于投入方面不对等,致使我国和OpenAI为代表的美国头部AI大模型公司有着至少1~2年的差距。根据CB Insights 发布的数据,2024年中国AI初创企业筹集的资金仅占美国AI初创企业的 7%。丰厚的资金储备意味能高薪招“全球绝顶聪明人”形成在研发创新上的碾压,进一步巩固算法优势。在DeepSeekV3之前,我国人工智能领域所面临的情况不可谓不严峻。

二、高质量的可用数据,是企业应用AI最突出的挑战

在 DeepSeekV3和R1推出之后,顶尖的模型效果和用户体验,加上其开源的特性,大大缓解了我国在算法和算力上的困境,但数据方面的挑战依然存在。

数据是食材,食材的品质、丰富度及新鲜度都决定了最终菜品的口感和品质上限。对于大模型而言,高质量数据能够保障模型推理回答的准确性。而多模态多种类的数据,能提升模型的泛化性和推理能力,尤其是在机器人的大脑(VLA 等)上。此外,还需要进行联网搜索并定期更新数据集,来确保模型回复结果的时效性和准确性。

就可用数据量上,国内和国外有着天然差距。据W3Techs调研前一百万互联网网站使用的语言文字百分比,其中英文占比为59.3%,而中文只有 1.3%。相比于美国的头部AI公司,国内可供训练的公开中文数据不够多,标准化程度也不够高。


从结果来看,数据已是目前企业应用 AI 最突出的挑战。根据IDC和浪潮信息发布的研究显示,目前企业在应用人工智能中所面临挑战最大的是缺乏高质量可用数据,占比高达66%。在此之后才是成本高、技术成熟度、人才缺乏等新兴领域通用挑战。


另一方面,数据采集与处理是目前国内企业在生成式 AI 应用时的主要支出方向,尤其是对于工作流程繁琐、决策链路较长、业务类型众多的公司而言,其业务数据需要经过层层筛选、处理和业务理解后,才能成为标准化的高质量数据,再用于模型的训练和推理。


图片来源:百度百科

三、像 DeepSeek 那样训练数据,要怎么做?

或许你不用像DeepSeek那样去训练数据,但了解他的训练法则依然很有参考价值。

在DeepSeek之前,阿里的通义千问系列是全球主流的开源语言模型。去年圣诞后DeepSeekV3发布当天,我们对已有的信息作梳理分析:DeepSeek则采用了创新性的架构(MLA+MoE),并解决了很多细微的工程化落地难题,使得其在使用极低成本的情况下,成为当时最强的开源基础模型。

对于DeepSeek的关键,百度百科上的结果则是更为简短直接,即使用数据蒸馏技术,得到更为精炼、有用的数据。

为了更深入理解具体核心机制,援引“极客学长”的结论:“总结来说,DeepSeek-R1-Zero 模型(以下简称“R1-ZERO”)的训练方式就像教小孩学走路,不直接告诉它正确答案,而是让它自己尝试,根据结果的好坏(比如答案是否正确)来调整自己的行为。这种方法不需要预先标注好的数据,完全靠 AI 自己摸索,没有输入任何带标记的数据,这也是为什么这个版本的名字带 Zero 的原因,表示零样本输入。”


图片来源:公众号“我就是极客学长”

R1-Zero模型表现非常惊艳,在数学和编程方面的能力已经达到OpenAI-o1-0912的水平。但也存在明显的缺陷——生成的答案可读性差,经常出现中英文混杂。针对这个问题,DeepSeek团队采取了一系列的优化措施。

首先,用数千条人工处理的高质量COT数据(比如详细的解题步骤),通过监督微调(SFT)的方式让它“冷启动”,再用强化学习进一步训练,使得生成的答案更清晰,语言也更统一。简而言之,即研究人员给了R1-Zero 模型一些优质例题,教它规范的解题格式,再用强化学习训练,使其解题又快又准,格式工整。此时得到一个Checkpoint,并将该Checkpoint 称之为DeepSeek-R1-One(以下简称“R1-One”)。

然后,再用训练R1-Zero的方式,用R1-One 生成一批高质量的COT数据(长思维链数据),同时再结合专业领域数据和人为反馈数据等,再以 DeepSeek-V3为基础模型进行强化学习,得到最终的DeepSeek-R1。

可以发现,DeepSeek除了在算法层面进行了一系列的创新和优化,其核心步骤中的数据都是自行人工处理或撰写的。如同投资人朱啸虎在转变对大模型态度时所说,DeepSeek这次唯一没有公开的就是模型预训练数据。


图片来源:BOSS直聘

此外值得注意的是,在爆火后DeepSeek开启了数据百晓生的实习生招聘,岗位要求不高但薪资丰厚,已经远超一般的数据外包公司全职人员水平,从侧面体现出其对高质量数据的重视程度。值得注意的是,该岗位优先考虑小语种专业,这或许是为了更好地进军全球市场所做的铺垫和准备。

四、具身智能、自动驾驶领域,同样面临数据挑战

在近期的演讲及访谈中,上海交大博导、穹彻智能联合创始人卢策吾教授指出:当下,具身智能的研究路线正处于瓶颈期,具身智能面临的两大核心挑战之一是数据规模存在“太平洋缺口”。工业级应用对具身智能设定了严格的红线标准,为达到这一标准,所需的数据量堪称海量。然而,数据采集模式难以有效填补这一巨大的数据缺口。


图片来源:NOEMATRIX

当前数据采集面临着一系列棘手问题:遥控操作需要购置价格昂贵的机器人设备及相关配套技术,并且操作人员需要经过专业培训。这些因素导致成本高昂,从而限制了数据采集的规模。

为突破具身智能大模型的 Scaling Law 约束,实现数据采集的规模化并降低数据获取成本,需要找到一种既能保证数据真实性,又不影响人们日常工作的数据采集方法。

在自动驾驶领域,随着 2024 年开始智驾领域走向端到端时代,数据的重要性空前提升。

端到端技术的核心在于通过大量数据训练模型,使其能够识别和预测各种驾驶场景。高质量数据的输入,直接决定了模型输出的准确性和可靠性。这些数据不仅需要涵盖各种道路条件、天气变化和交通情况,还要确保其标注的准确性和多样性。

传统模块化算法需要改变控制策略时,可以找到代码中具体的几行参数修改,之后测试 1%的案例即可,而端到端的算法中,小的改动需要重新对自动驾驶算法进行训练,难度可想而知。

因此,海量的、多样化的、优质的数据不可或缺,同时自动化、高水平的数据处理体系亦至关重要。根据业内专家意见,华为在智驾方面的一半投入用在了数据采集和处理上。毫不夸张地说,端到端时代,数据会占据自动驾驶开发中 80%以上的研发成本。

从数据维度看,海量且优质的数据正成为自动驾驶行业的“稀缺品”。自动驾驶采用的BEV感知方案,需要达到1亿帧以上的训练数据才能满足车规要求,否则泛化性、准确率和召回率就难以保障。

以特斯拉为例,马斯克曾表示,特斯拉FSD测试里程需要达到60亿英里,才能满足全球监管机构的要求,这也是自动驾驶系统实现质变的一个重要节点。2024年5月,在解决了算力瓶颈之后,马斯克表示更大的难点在于对长尾数据的收集,其获取难度和成本对比通用数据则是指数级激增。业内目前普遍观点是,长尾数据只能通过仿真或数据生成的方式来解决。

五、获取高质量数据的“三板斧”:标注、采集、生成

标注、采集和生成,是目前获取高质量数据的三种方式。

数据标注,主要分为人工标注和机器人标注。发展至今,实际应用中以人机协同标注为主,即企业开发的自动化标注平台,先对入库数据进行预标注,节省人力的同时保证一定的准确度。再由专业或有经验的人员对机器预标注的数据进行进一步的鉴别和处理,进一步提升数据质量和准确度。随着技术和业务的发展,未来有望出现自动化标注程度和准确性均较高的平台或软件,在大模型产业链中人力参与最重要的环节降本增效。


数据采集,目前数据采集主要通过人工、设备或者爬虫等方式进行采集。数据采集通常面向除语料、图片和视频外更多样的数据,所应用领域也更加广泛,除了人形机器人领域所广泛应用的动捕采集还是自动驾驶领域广泛应用的实车采集,还包括 AI4S 和机器视觉领域主要应用的设备参数采集和实景三维采集等。

目前数据采集是上述前沿科技领域的必备关键环节,其成本也是高居不下。因此,上述行业内也催生出高质量高效率进行数据采集、加工处理和挖掘分析的痛点诉求。随之孕育而生的就是数据生成。

数据生成主要是通过数据扩张、预测或限定条件下的随机生成等方式进行,目前处于发展早期,其中获得广泛关注的是世界模型。世界模型的目的是生成可编辑、有物理特性的高质量虚拟场景,完成对现实世界的复刻或虚拟世界的构建,从而在里面进行数据的处理和模型的训练,在数据获取成本和多样性上具有发展前景。

但值得注意的是,世界模型是通过算法来实现的,在数据精度上难以匹敌的高精密仪器设备的实景或实物采集,并不能完全替代数据采集,但可以实现非常有效的互补。

六、筑牢“高质量数据地基”,政府正加速行动

今年以来,为解决人工智能产业中的数据痛点,多地政府加速推动高质量数据建设。

2月19日,国家数据局在北京召开高质量数据集建设工作启动会。这不仅彰显了国家对数据要素的高度重视,也预示着我国数据产业发展将迈入新阶段。

2月18日,《武汉市促进人工智能产业发展若干政策措施》的发布会上明确将聚焦工业制造、医疗健康、科研创新等12个行业领域,推进公共数据、企业数据与个人数据分类分级开发利用,建设不少于20个高质量数据集。

3月18日,武汉市数据局发布支持高质量数据集建设和数据产品利用的公开征求意见稿,对相关单个标的予以最高 200 万元的支持。

3月3日,深圳市工信局于发布《深圳市加快打造人工智能先锋城市行动计划(2025—2026年)》,明确加快构建高价值垂类数据集和具身智能数据集。其中明确指出,将形成3PB中文语料数据,并在宝安、龙华两个区建设具身智能数据采集基地,形成多模态训练的开源数据集。

我们能看到,近年来由大疆、DeepSeek、“六小龙”所展现的中国科技创新变革并非局部的突发事件,而是举国推动科创时代下,人才红利叠加完备产业链形成坚实基础,并由科研型企业家实现范式创新,完成从量变到质变的结果呈现。

还有很多尚在量变积累的优秀创业者和研发团队在日夜兼程,政府也在积极推动基础设施建设给创新提供土壤,历史反复应验,曾种过的种子都会开花结果,只是需要时间和机缘罢了。

参考资料:

1、新浪财经,《外媒:DeepSeek受关注 登顶140国应用商店榜首》

2、上观新闻,《创新纪录!DeepSeek成史上最快突破3000万日活APP》

3、IDC、浪潮信息,《2025年中国人工智能计算力发展评估报告》

4、极客学长,《DeepSeek R1 破圈的核心技术解读,你不能不知道的 AI 干货!》

5、无相君,《中美大模型的差距,究竟在哪儿?》

6、张小珺,《朱啸虎现实主义故事1周年连载:“DeepSeek快让我相信AGI了”》

7、穹彻智能,《2025 全球开发者先锋大会:具身智能语料工程启动,“生产伴随” 引领未来》

8、极智GeeTech,《无数据不智能,数据闭环重塑高阶智驾未来》

9、复旦大学 张奇教授,《生成式AI大会(上海站)2024》公开演讲

10. 国金证券,《AI行业关键时刻:瓶颈与机遇并存》

本文来自微信公众号:首义科创母基金,作者:金能

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4159694.html?f=wyxwapp

ad1 webp
ad2 webp
ad1 webp
ad2 webp