2025新春伊始,相信每一位地球人都感受到了大模型AI带给我们的前所未有的冲击。热点之所以能成为热点,依靠的绝非噱头,而是凭借其如潮水般汹涌澎湃、势不可挡的先进生产力。聚焦汽车产业,无疑将迎来更激烈的智能竞争,也将毫无疑问地成为各行业中最卷的AI赛道之一。时至今日,大家都明白“新能源的下半场是智能竞争”的道理,但具体如何做,方向在哪里,仍然显得扑朔迷离。
作为最具活力的车企,智能汽车AI引领者,吉利汽车的动作总是比别人更快一些。这不,打工人春节后复工没几天,2月18日,吉利汽车集团与科技公司阶跃星辰联合宣布发布两款多模态大模型——Step-Video-T2V(全球最大参数开源视频生成模型)和Step-Audio(首款产品级开源语音交互模型)。一个不容忽视的重点是,两款多模态大模型都开源了!
合作背景
和智驾、智能座舱紧密相关
作为此次合作的双方,吉利汽车大家非常熟悉,而阶跃星辰的情况较少被人知晓。毕竟,两个月前的DeepSeek也是一家“知名度较低”的公司。不过,在全球影响力最大的科技商业化智库《麻省理工科技评论》刊发的《关注DeepSeek之外的四家中国人工智能初创公司》(Four Chinese AI Startups to Watch Beyond DeepSeek)的报道中,阶跃星辰等四家企业被评为“同样展现出不逊于DeepSeek的技术实力与全球竞争力”,是中国AI“四剑客”之一。
从2023年开始,双方开始了深度合作。吉利牵头了场景设计、模型测评、工程开发等业务,阶跃星辰则主导了模型预训练等业务,双方优势互补,显著增强了两款阶跃Step系列多模态大模型的性能表现。
而此次合作发布的两款产品:Step-Video-T2V视频生成模型和Step-Audio语音模型,均是高度和汽车智能驾驶、智能座舱相关,其基于Step系列通用大模型矩阵,覆盖从千亿参数到万亿参数,达成了从语言到多模态,从理解到生成的全面能力。
Step-Video-T2V
将促成高阶智驾尽早落地
让我们来看看视频大模型Step-Video-T2V的具体能力:
Step-Video-T2V模型的参数量达到300亿,可直接生成204帧、540P分辨率的高质量视频,确保生成的视频内容具有极高的信息密度和强大的一致性。此外,Step-Video-T2V在复杂运动、美感人物、视觉想象力方面显得更为得心应手,能精准实现创意呈现。
Step-Video-T2V生成的视频:水下的狗狗
而DeepSeek也评价道:“Step-Video-T2V是目前开源领域性能最强的视频生成模型”。
那么,Step-Video-T2V能帮汽车干什么呢?
目前,汽车自动驾驶最大难点就是极端场景中的运用。比如如何避免雨雪天气造成的视觉识别干扰、如何应对复杂路况中的各种意外情景,而有了Step-Video-T2V,吉利的工程师只需要提供大量虚拟的视频场景,反复对AI大模型进行训练,就能获取有效的数据。这无疑大大加快了高阶智能驾驶技术研发的步伐。
提示词“镜头跟在一辆白色老式 SUV 后面,车顶架是黑色的……
此外,Step-Video-T2V在智能座舱中的运用也值得期待。假如你是一位航拍爱好者,它可以根据你的需求生成个性化的视频内容。在长途旅行中,可以为乘客播放定制的趣味视频,极大地缓解旅途疲劳。这种个性化的视频内容生成,将使得每一次出行都充满新鲜感和乐趣。
Step-Audio
听“想听到的人”的声音
Step-Audio被评价为是行业内首个产品级的开源语音交互模型,这意味着或许很快就可以在吉利新车中体验到这一有趣功能。
对于Step-Audio而言,情商甚至比智商更为重要,它不仅能懂得你的方言语音,而且能以同样的方言进行回应,在音调中展示情绪,让对话者如沐春风。吉利表示,Step-Audio能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。模型生成的语音具有超自然、高情商等特征。
此外,发布会还提及了Step-Audio具有“音色复刻和角色扮演”的神奇功能,让你随时能听到“想听到的人”的声音,仅仅这一应用,就充满了想象力。
而LlaMA Question、Web Questions等5大主流公开测试集中,Step-Audio模型性能均超过行业内同类型开源模型,位列第一。有趣的是,Step-Audio对付考试也得心应手,在汉语水平考试六级评测中被誉为最懂中国话的开源语音大模型。
吉利的野望
打造AI闭环技术壁垒
回顾这几年吉利汽车在AI领域的相关信息,不难发现其宏图规划——布局AI,依靠AI,开源AI。目的是打造一条汽车领域AI闭环技术壁垒,巩固“智能汽车AI引领者”地位。
布局AI——从支持体系来看,吉利汽车已经完成了各项AI基础建设。从芯片、操作系统到数据、卫星网络的“端到端”自研生态,结合提供强大算力支持的星睿智算中心和全球首个汽车行业全栈自研全场景AI大模型——星睿AI大模型,形成闭环技术壁垒。
从场景落地来看:已部署AI银河精灵(参数丨图片)、Flyme Auto智能座舱等应用,2025年又发布了“全域AI技术体系”,涵盖智能驾驶、座舱交互、动力控制等全链路。
依靠AI——在AI行业内部寻找顶级大牛合作,抢占制高点。除了此次发布信息与阶跃星辰分工协作(工程开发+算法训练),吉利也是首家与DeepSeek完成深度融合的车企,提升车载AI意图理解与接口调用能力,精准调用2000+车载接口。
开源AI——通过开源建立行业标准,吸引开发者围绕吉利生态开发应用。吉利通过开源核心AI技术,既展现了技术实力,又构建了生态吸引力。其“全域AI”布局从底层硬件到上层应用全覆盖,结合多模态大模型在自动驾驶、人车交互中的深度应用,将成为智能汽车行业范式变革的关键推手。
或许有人会问,作为一家车企,深度投入AI,是否有不务正业之嫌?
答案当然是否定的,吉利并未不务正业,而是通过AI技术极大提升了其汽车产品的竞争力和用户体验。吉利不仅仅是汽车AI领域的领跑者,更是普惠者。从博越L到在银河E8、银河E5以及银河星舰7,AI技术带来了各种创新功能,如远程控车、个性化座舱设置、全天候的安全保护等。这些智能化功能不仅提升了汽车的便捷性和安全性,还增强了用户与汽车之间的互动体验。
吉利深知,智能化已经成为汽车行业的“标配”,因此不断加大在AI领域的投入和研发力度,以适应市场的发展趋势和消费者的需求变化。这种布局不仅有助于吉利在激烈的市场竞争中脱颖而出,还为消费者带来了更加智能、便捷、安全的出行体验。
把自己的先进技术开源,意义更为重大,此举不仅提升自身产品竞争力,也将推动中国车企在全球AI技术竞赛中占据更主动地位。这是堂堂正正的阳谋,等于告诉别人:我们没有秘方,我们只是做事更用心,欢迎来卷啊。