《科创板日报》1月13日讯(记者 吴旭光) 数据标注行业愈发受到市场重视。
1月13日,国家发展改革委、国家数据局、财政部、人力资源社会保障部四部门联合发布《关于促进数据标注产业高质量发展的实施意见》(以下简称《意见》)。
《意见》强调,培育一批数据标注龙头企业,鼓励通过资源整合、并购重组等方式做大做强,推动数据标注企业规模化、标准化、集约化发展。支持和鼓励科技创新型数据标注企业承担基础研究、技术攻关、产业应用等重点任务,提高产业链协同创新水平。
什么是“数据标注”?
简单理解,就是给文本、语音、图片、视频等各种各样的数据“打标签”。其中,涉及跨领域跨模态语义对齐、4D标注、大模型标注等三项数据标注领域的关键技术突破。
有数据大模型行业从业人士对《科创板日报》记者表示,所有AI公司,在从事数据训练时,都离不开数据标注环节,尤其是对算法开发、数据迭代升级,数据标注起到基础保障功能。比如,自动驾驶、低空经济、智能制造、智慧医疗等领域都离不开数据标注。据测算,2023年,我国数据标注产业规模达800亿元左右。
《意见》强调,到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。
东北证券今日(1月13日)在研报表示,近期国内外算力均迎利好在海外大厂的带动和国内厂商的推进下,国内以豆包、腾讯、360等为代表的AI应用会迎来大爆发,建议关注上游数据处理相关机会。
《科创板日报》记者通过多方采访了解到,数据标注是人工智能技术研发中不可或缺的一环,更像是一种“生产要素”,部分A股上市公司已布局数据标注产品,目前主要供各自内部使用。
据统计,截至目前,海天瑞声、格灵深瞳、云天励飞、博彦科技等A股上市公司正围绕市场需求,积极布局数据标注相关产业。
其中,在4D数据标注领域,海天瑞声通过在自动驾驶领域用于标注车辆、行人、交通标志等物体在不同时刻的位置和运动状态,帮助自动驾驶系统理解道路场景的动态变化,提升自动驾驶系统的感知能力等。
今日(1月13日),海天瑞声董秘办人士向《科创板日报》记者表示,“公司确实在做4D数据标注业务,并且有相关的产品DOTS-AD平台,提供4D数据标注服务。但一般情况下,DOTS-AD平台本身不对外作为产品销售,定位是公司内部数据生产用的工具,相当于公司产品生产的流水线环节,通过其加工后的数据产品售卖给客户。”
“公司4D数据标应用于自动驾驶领域,是从2023年开始起步,经过不断完善,目前该产品已逐步成熟,相关产品已在部分车企落地。目前相关业务收入占总营收的比例接近两成。”海天瑞声董秘办人士进一步补充。
谈及数据标注等业务布局,云天励飞董秘办人士亦表示,该公司训练大型人工智能模型而对数据进行标记、注释等处理的过程,会涉及到数据标注工作。但数据标注并非云天励飞的主营业务方向,更不构成其一项独立业务板块,可以理解成是一种“生产要素”工具。
云天励飞董秘办人士进一步表示,该公司在数据大模型业务板块,涉及到数据外采,会有专业的团队从事数据标注等相关业务,主要涉及数据的采集、清洗等工作,目的是让公司采购来的数据更加规范,应用于大模型或者算法的训练,效率更高。
在数据标注产品布局上,“目前公司主要是通过软硬件一体的解决方案对外销售。”据云天励飞董秘办人士介绍,目前该公司涉及4D标注相关业务OD(origin-destination)产品,可应用于智慧交通领域,为巴士路线规划、站点设置、车次排班等工作提供科学决策依据等。
有数据标注从业人士对《科创板日报》记者介绍,“过去,需要很多人力去进行数据标注工作。彼时,某种程度上,数据标注属于劳动密集型产业。随着人工智能技术发展,目前人机协作的模式下,朝着更加智能化的方向发展,提升机器处理数据的效率、减少人的参与程度。”
作为国内计算机视觉和人工智能技术型公司,格灵深瞳目前自建的数据标注平台,通过组建具有专业背景的标注团队,用人工标注加AI模型自动化预识别的方法,为算法提供精准的基础训练数据。
对于大模型标注等业务布局,1月13日,格灵深瞳董秘办人士表示,“我们的数据标注都是为格灵深瞳内部的多模态大模型算法、研发服务,不会对外出售。现阶段,格灵深瞳的主营业务是计算机视觉应用,并不是以数据标注为主业。”
“这对数据行业发展是一大利好。”前述有数据大模型行业从业人士表示,“有了行业政策加持之后,相当于在行业内形成一定数据标注标准。日后可以让数据集的质量更加规范,有利于模型算法训练效率的提升,减少数据再加工环节的工作负担等。”
二级市场表现方面,截至1月13日收盘,海天瑞声、格灵深瞳、云天励飞股价分别上涨4.44%、1.70%、0.18%,报收113.55元/股、13.15元/股、43.34元/股,最新市值分别为68.50亿元、34.05亿元、153.91亿元。