智东西
作者 陈骏达
编辑 漠影
就在两天前的除夕夜,一场科技感十足的春晚拉开帷幕,从台前到幕后,中国科技的存在感让人惊叹不已,频频冲上热搜。时隔七年再度携手央视春晚的阿里,更是献上了从云转播到AI特效的科技大礼包。
甄子丹领衔的《笔走龙蛇》节目,运用了巴黎奥运同款的通义大模型AI技术,呈现出电影般的“子弹时间”画面,让观众享受到“空中环绕、时空凝结”等创新观看体验。
春晚每年的保留节目《难忘今宵》也得到了通义万相图像编辑模型Wanx-ACE的支持,舞台背景中变身为绚丽花灯的城市地标,便是由这款模型自动生成的。
2025年1月初,通义万相模型迎来了重磅升级,推出了全新的2.1版本,视频生成与图像生成能力提升明显,今年春晚中不少惊艳的视觉效果,也来自这款模型。
升级后的通义万相不仅能处理复杂人物运动、遵循真实物理规律、匹配复杂提示词,还能生成影视质感画面,并首次实现了中文文字视频生成功能。
通义万相2.1曾一度跃居视频生成权威评测框架VBench榜首,成为国内乃至全球视频生成模型的领跑者。
一、拿捏中国风,AI让创意走进现实
通义万相2.1在本届春晚中的参与可谓是全方位、全流程的,涵盖从预告片到现场舞美等多个环节。
这款模型能准确理解多样的艺术风格,为创意工作者提供了有力的创作工具,帮助他们将脑海中的想法变为现实。
对于中国风的内容,通义万相可谓是手拿把掐。
在央视春晚预告片中,通义万相文生图让中国非遗苏绣焕发新生。万相不仅成功捕捉了苏绣的整体艺术风格,还将细节还原到每一根丝线,而每一副画面的风格控制也较为稳定,最终给这项千年传统技艺带来了别开生面的呈现形式。
同款工具还在通义官网中上线,点击网站上放的“非遗刺绣”互动玩法,用户就可以输入文字,即刻生成一张刺绣图。仅需等上几秒钟,便可生成一只栩栩如生的刺绣凤凰。
春晚舞台上的诸多舞美效果也由通义万相提供支持。
例如,央视春晚节目《方的言》舞台背景的毛毡效果,便是由通义万相的文生图、图生视频等技术实现。图中的高楼、古建被转化成了温暖、柔和、立体的毛毡画,与歌曲的主旨相得益彰。
在莫文蔚与毛不易合唱的《岁月里的花》节目中,阿里通义万相利用图像风格化和首尾帧视频生成技术,生成了沉浸式的油画风舞美效果。
二、央视春晚大放异彩,AI业内炙手可热
除了登上央视春晚,给全球华人提供精彩的视觉效果外。大年初一,在AI业内1000余名创作者参与的AI春晚中,通义万相为三分之一的节目提供了技术支持,升级后的模型能更好地理解和模拟物理世界,最终为观众呈现了极佳的观影体验。
其中,取材自南宋画家刘松年名画《四景山水图》的同名AI MV,一亮相便引来众多网友的称赞。
通义万相显著改善了困扰视频生成模型的幻觉问题,尤其是在涉及复杂肢体动作的画面中。这类画面可谓是视频生成模型的试金石,早期的视频生成模型可能会生成各种“辣眼睛”的结果,AI圈知名的鬼畜画面“威尔·史密斯吃意面”便是一个典型的失败案例。
为处理此类动作,通义万相团队自研了高效的VAE和DiT架构,增强了模型的时空上下文建模能力,让复杂的肢体运动、大幅度动作、镜头的移动都能稳定展现。
在AI MV《四景山水图》中,通义万相2.1完美地呈现了“拥炉对酒,折梅入瓶”的诗意画面。画面中人物的手型、持杯动作都十分自然,温酒的热气蒸腾也得到不错的还原。即便是处理折梅入瓶这样细致入微的动作时,通义万相2.1也没有出现翻车的情况。
在下方的画面中,人物饮茶、放杯、合书、转身的动作一气呵成,运动轨迹流畅,人物与杯子、书本的互动也符合物理规律。
《四景山水图》中的水墨画风格鲜明,人物、花鸟传神,还精准把握到了留白这一中国传统艺术中的独特审美理念,给观众以无限的想象空间。
在联合网易云音乐、W出品的《穿过大山》中,通义万相同样在人物动作上实现了较高的逼真度,外卖小哥整理头盔的动作,手指和周边物体也没有出现重叠、变形等问题。
在涉及复杂运镜效果时,通义万相依旧稳定地生成高质量画面。下图中虽然镜头持续旋转,但人物的五官都没有出现明显的形变。
三、通义万相新年多番王炸,迈出视频生成模型落地重要一步
除了亮相央视春晚、AI春晚的众多视频、图像生成技术之外,通义万相新年还有多项其他领域的重磅升级。
通义万相首次实现了中文文字视频生成功能,能在图片与视频中准确呈现中文内容,而不是像大多数模型那样仅能生成大致的轮廓。
此外,通义万相还支持艺术字一键生成,文字还可以加上视频特效选项,如过渡、粒子效果、模拟等,视觉表现力超强。
文生组图能力这次也登陆通义万相,DiT架构增强了文生图的上下文能力,可对多张图像进行拼接与联合描述,轻松实现关联图像间的组合生成,解锁了通义万相生成电影分镜、四格漫画、情侣头像等高度关联画面的能力。
Prompt:一只小狗在抓蝴蝶,撞到了一棵大树上,眼冒金星。
纵观通义万相的全面能力升级和多项跨界合作,未来我们或许有望看到这款模型走进更多的应用场景,凭借其迭代升级的视频质量、真实性,让视频生成由AI公司秀肌肉的“角斗场”真正转变为能产生实际效益的生产力工具。
例如,影视制作团队能用通义万相快速生成多个备选方案,直观展现视觉效果;也可以直接生成部分场景,极大地降低影视后期特效的成本。
电子商务场景里,增强的图像与视频生成能力或许能用于宣传品生成、AI试衣等环节,在提升消费体验的同时还能降低成本。
而在艺术领域,通义万相的风格化能力和复杂提示词的理解能力,能帮助用户快速生成具有特定风格的艺术作品,或是对自己原创的艺术作品进行高效的再创造、再利用,节省部分重复性劳动,让创作者能专注于创意本身。
此外,通义万相还具备简洁直观的交互界面,这意味着即便是非专业人士也能享受到这项技术的便利,显著降低创作门槛,使更多普通用户能够轻松创作高质量的视频内容,满足个性化需求。
例如,今年年初,通义万相便联合两马同春闹元宵灯会,上线万物变花灯功能,用图生图、文生图、文生视频、图生视频等能力,将福州各地的古建一键变化为精美的花灯,吸引不少个人用户的体验。
结语:通义万相跃居行业排头兵,引领视频生成赛道新趋势
2023年春节期间,OpenAI凭借Sora在视频生成领域引发热潮,让视频生成成为各大AI厂商竞相追逐的焦点。而今年春节,阿里旗下的通义万相在春晚这一全国瞩目的舞台上,展示了视频生成技术令人瞩目的显著进步。
通义万相凭借对真实物理规律的深度理解、复杂影视效果的完美呈现以及稳定清晰的输出能力,几乎满足了人们对视频生成模型理想形态的全部期待。这款模型在落地场景时的积极探索和应用尝试,更为视频生成赛道带来了广阔的想象空间,有望引领该领域的新趋势。