大模型的发展日新月异。

3月29日,在2025中关村论坛年会期间举办的“未来人工智能先锋论坛”上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军宣布,生数科技正式发布业内首个高可控视频大模型Vidu Q1,并计划于4月全球上线。

会后,在接受媒体采访时,朱军谈到,2025年将是AI(人工智能)视频商业化快速发展的一年。视频大模型的商业化路径相较于语言大模型更加多元,行业竞争格局也不同于“大模型内卷”态势。

朱军认为,未来视频大模型不会出现类似语言模型市场那样的“一超多强”格局,而是依赖持续创新能力,向更高质量、更长时长、更强叙事性的方向发展。


主办方供图

谈商业化:2025年将是AI视频模型商业化快速发展的一年

朱军介绍,相较于生数科技在1月推出的Vidu 2.0,Vidu Q1在技术层面实现了重大突破,能够接受空间布局信息作为输入,极大提升了视频生成的可控性,使视频生成走向“高可控”时代成为可能。

朱军指出,走向高可控为AI视频生成的发展找到了新路径,清晰指出了AI视频生成的痛点,通过技术手段引入多元素控制,它不再是没有头绪的“乱生成”,而是人为可控,这就让AI视频生成与当下精益求精的制作逐渐趋向一致。

另一方面,高可控意味着AI视频生成的创意呈现更极致、更多元。朱军表示,过去Vidu陆续在画面生成、生成速度、多主体一致等视频生成关键环节下功夫,现在,当“高可控”时代到来时,人们将能够更便捷地将自己头脑中的想法变成现实。具体而言,Vidu Q1在多主体细节可控、音效同步可控 、画质增强方面均取得成效。

对于多模态模型层面的探索,朱军在采访中表示,生数科技自成立之初便专注于多模态大模型研发,Vidu的基座本身就是一个多模态大模型,视频只是多模态技术的其中一种表现形式。除此之外,公司还在探索音频及机器人可控操作数据的应用等多种模态。“对我们来说底层架构基本上是一样的,没有修改就可以去适应多模态,只是面向用户的需求,在不同阶段会推出。”

朱军认为,未来多模态的发展方向是智能体与工作流的全面打通,这种打通也是生数科技规划的重要方向。朱军表示,未来也需要通过推动智能体与工作流的打通,实现不同模态之间的协同,以更好地服务各行业用户。

在商业化方面,朱军坦言,随着AI视频技术的商业价值不断提升,资本市场对生数科技的关注重点也在发生变化。朱军表示,在公司早期阶段,投资人更关注团队实力,而如今,除了技术壁垒,商业化进展已成为核心考量因素。“视频的价值密度更高,商业化进程也更快。2025年将是AI视频模型商业化快速发展的一年。”

目前,其SaaS(软件即服务)产品已覆盖全球200多个国家和地区,上线100天内用户突破千万,增速位居全球第一。同时,在MaaS(模型即服务)端,AI视频技术正在深入应用于动漫影视、文旅、广告、游戏等多个行业,重塑内容生产模式。

近期,OpenAI宣布在GPT-4o模型中集成了迄今为止最先进的图像生成器,并将其整合进ChatGPT中,未来,视频生成能力会否同样被集成进大模型?朱军认为,现在谈这个问题为时尚早。

目前,视频生成的重点仍然是提升视频生成的质量和效率,而随着基座模型的不断优化,AI视频生成自然会逐步向交互式方向发展,但其中最核心突破点仍在于理解能力和可控性。朱军表示,只有实现真正的高可控生成,才能满足未来交互式AI视频的需求。

在谈及高可控能力是否会影响创意表达时,朱军表示两者并不冲突。相反,提升可控性能够让创作过程更加高效、精准,减少用户反复试验的成本,提高创作体验。

“在AI视频创作中,用户的输入可能是图片或文字,我们的任务是精准理解并实现他们的需求。”朱军解释道,过去,AI视频生成往往带有较高的随机性,用户需要反复尝试才能获得理想的结果。而高可控能力的引入,使模型能够更准确地理解并执行用户的创作意图,同时保持创意表达的自由度,例如动作幅度、想象力等方面依然可以充分发挥。

谈行业:视频行业很难出现类似DeepSeek的模型

朱军在接受采访时表示,2025年行业整体落地进展非常快,例如在视频和音频领域,由于其应用场景较为通用,市场接受度更高,而语言模型的落地则往往需要结合行业专业知识,因此链路相对较长。不过,目前行业内同样有应用公司致力于推进大语言模型的落地应用。

谈及技术突破,朱军强调,目前阶段最重要的仍然是通用基础模型的提升。“它决定了我们后端在控制和一致性方面的能力,所有后端的实现都依赖于基础模型的进展。”基于基础模型,生数科技也在不断探索,以实现更高的模型一致性和可控性。

朱军认为,与语言模型不同,视频大模型的商业化路径相对更快。他指出,视频的消费需求非常旷阔,因此,当前行业内领先的公司在视频大模型领域各具特色,并形成了不同的商业化布局。这一领域并不像语言模型市场那样“内卷”,而是呈现出更多元化的竞争格局。

目前,大语言模型行业逐步进入收购与被收购阶段,朱军认为,这与行业发展状态相关。语言模型的竞争已经进入深水区,领先企业在技术和市场布局方面占据优势,而视频大模型则完全不一样,中国的视频大模型在全球范围内很多方面都有应用,这与语言模型的发展状态截然不同。

未来,视频大模型行业是否会和语言大模型一样,只会留下几家专注于基础模型研发的公司?朱军认为,大概率不会出现一家独大的情况。一方面,视频大模型行业不算拥挤;另一方面,从人工智能发展的长期来看,核心因素在于团队是否具备持续创新能力。今天,模型的发展大部分是阶段性发展,尽管目前已经可以服务专业用户并生成高质量内容,但整体上仍有很大提升空间,包括效率、成本以及内容密度等方面的突破。

相比于语言模型,视频生成模型的起步稍晚,但朱军认为,这种“后发”反而带来了更快、更坚定的前进步伐。他提到,视频模型领域已经形成了对效率优化的共识。例如,生数科技在推出Vidu2.0时,就明确提出要做“最高效、最便宜的高质量视频模型”。这种理念已经深入行业,因此,他判断视频领域很难出现类似DeepSeek在语言模型中“效率遥遥领先”的局面,而是更期待让视频模型朝着“更可控、更好用”的方向发展。

谈及开源,朱军表示,开源一直是人工智能行业的重要趋势,生数科技也会开放部分创新方法供业界使用。然而,他指出,大部分所谓的开源模型并未真正开放核心训练过程及数据。“DeepSeek之所以受到用户欢迎,核心在于其出色的效果和高效率。对C端用户而言,最关心的始终是质量和效率,而非模型是开源还是闭源。”

目前,视频生成模型大多集中在5秒以内的短视频,朱军认为,这主要是成本问题,而非能力限制。同时,用户的使用习惯也影响了视频时长的选择。“现阶段,大部分用户习惯于竖屏短视频,而如果要创作1分钟以上的内容,就需要更完整的故事架构,涉及到从文案策划到内容创作的完整流程,而不仅仅是简单的‘图生视频’。”

朱军认为,随着基础模型能力的提升,行业将逐步向更长时长、更具叙事性的场景拓展。“从短视频向更长时长、叙事性更强的方向发展,将成为未来的一个重要趋势。”

ad1 webp
ad2 webp
ad1 webp
ad2 webp