智东西
作者 陈骏达
编辑 漠影
洋抖难民疯狂涌入小红书,都快看不懂帖子了,怎么办?
除了找翻译软件和期待小红书的官方工具外,你还可以试试国产AI:截取你看不懂的帖子,AI就能告诉你海外网友的狗狗品种,还能用中英双语撰写回复。
海外网友或许也可以尝试尝试中国AI。下方帖子中,网友用字迹潦草的中英双语撰写了帖子。AI能帮根据英文原文帮网友修改中文,无缝实现国际网上冲浪。
上述有趣有用又有梗的回复背后,是来自国内首个采用原生融合方法的多模态模型——商汤 “日日新”融合大模型。
多模态融合是指将文字、图像、视频、声音等多种信息整合在一起,进行全模态的分析和理解。依照模态融合路径训练的模型能够更好地处理跨模态任务,具备类似人类的认知方式、更强的泛化能力、更广泛的应用场景以及更强大的推理能力。
从上述的例子中也可以看出,“日日新”能从画面中提取文字中未包含的信息,并综合文字和画面中的要素,给出与场景高度契合的回复。
“日日新”融合大模型在原生融合模态训练上,突破传统方法局限,实现了两个关键技术创新,解决了困扰多模态研究的“跷跷板”问题,成功跨越了模态之间的鸿沟。
在最近的两项权威评测中,商汤用单一模型挑战图文多模态、纯语言与推理等各项任务,并战胜其他所有单一模态模型,通过“换道超车”,跃升至国产大模型领跑行列。
在最新的SuperCLUE 2024年度报告中,商汤“日日新”融合大模型以总分68.3的优异成绩,与DeepSeek V3并列国内榜首,成为年度第一。其中文科成绩超越OpenAI的o1模型。同时,在OpenCompass多模态评测中,商汤的同一款模型同样取得了榜单第一,分数大幅领先GPT-4o。
日前,这款模型已上线商量、办公小浣熊等商汤旗下产品,智东西也第一时间上手体验了这一模型。作为一款打破语言与多模态两大能力维度壁垒的模型,“日日新”融合大模型贡献了不少新奇有趣的玩法和场景。
一、大模型秒变游戏军师、文案助手,不仅看懂画面还能深度推理
无论是对传统视觉算法还是多模态大模型而言,识别画面中的某一具体元素都要比识别单一物体更具挑战。为测试这一能力,我向搭载新款“日日新”融合大模型的商量发送了如下截图,并询问图中的游泳池位于哪里。
这一游戏的像素风对识别提出了更多的挑战,不过,“日日新”很快给出了回答:
“日日新”对图片的描述十分准确,这一游泳池确实位于城市中央偏左位置。
然而,当我上传图片并用英文向GPT-4o最新版本提问时,GPT-4o认为游泳池在图片中央偏右的区域,似乎是将蓝色的屋顶识别为游泳池了。
我又在大模型竞技场盲测了两款模型,它们也无法准确回答。左侧的模型A(Llama-3.2-vision)认为游泳池在城市右上角,靠近网球场,但图中并无所谓的网球场。而右侧的模型B(Gemini-test)似乎辨识出了游泳池,但它对这一建筑的描述并没有“日日新”的清晰。
“日日新”不仅能定位画面中的元素,还能根据画面内容进行进一步的推理,就上方的截图,我向这一模型提问:“图中消防局的位置合理吗?”
▲消防局在图中箭头所指处,给模型发送的图片不带任何标记
“日日新”先是准确找到了消防局的位置,还对消防局周边的建筑性质、道路情况进行了分析,最终得出消防站布局合理的结论。
此外,市面上大部分模型都存在重理轻文的特点,但“日日新”融合大模型在文科、理科任务的表现上都同样出色。
在下方的创意写作类任务中,“日日新”融合大模型凭借融合模态能力,准确地捕捉到了“水深危险,请勿靠近”这句警示标语和水面上悠闲嬉水的绿头鸭之间的冲突,还给鸭子们撰写了内心os:“我们是来监督的!”
而针对这副法国印象派作家莫奈的作品,“日日新”融合大模型分析得头头是道,不仅注意到了颜色的细微变化、具体部位的描绘特点,还能理解画作背后的视觉观感、绘画技巧。
二、直面现实世界,让真正的多模态大模型替你工作
传统大语言模型仅支持单一文本输入,部分视觉模型能通过OCR(文字识别)提取图片中的语言信息进行理解,但作为真正的多模态大模型,“日日新”融合大模型可以综合处理图像、视频、语音、文本等多源异构信息,实现深度融合和推理,最终给出更为全面准确的回应。这种能力让模型能够真正理解现实世界的需求,在各种复杂的业务场景中,成为你的交互对象和工作助手。
我将手头一份《2024中国翻译行业发展报告》交给搭载商汤“日日新”融合大模型的办公小浣熊和搭载Gemini谷歌Notebooklm,看看这两款支持文档上传的AI工具在报告解读的场景表现如何。
这份报告共有55页,其中包含大量图表,图文交错,对模型的多模态文档分析能力提出较高的要求。下方是办公小浣熊的回答,它成功找到了我需要的信息,而这一信息是位于一张图表中的。
Notebooklm在这一问题上落败,它将“必选”与“选修”的数据混淆了,正确答案与它的回答正相反。
Notebooklm虽然引用了原文,但点进引用后可以发现它对文档的处理比较混乱,图表变为了零散的文字,这可能也最终导致了它的错误回答。
商汤“日日新”融合大模型还能在一线工业生产场景中发挥作用。我将下方的工厂实拍图片发送给它,它迅速对图中的生产风险进行分析。
“日日新”发现了图中的7个潜在问题,并警告了烫伤、电击等风险。
当我继续询问该如何解决这一问题时,“日日新”给出了一个包含12个步骤的解决方案,从维修人员的保护措施到维修流程,再到维修完成后的记录与报告,一应俱全。
随着AI越来越多地与物理世界产生联系,商汤“日日新”融合大模型将可能与汽车、智能硬件、具身智能机器人等实现有机结合,将语言、图像、视频等多模态信息作为输入,理解用户指令并完成推理后,使用语言和图像等进行输出,在特定的生产、服务场景中发挥重要作用。
三、破解“跷跷板”效应,多模态是大势所趋
商汤发布的“日日新”融合大模型,对国内多模态大模型及AI行业来说具有重要的引领性意义。在探索原生多模态融合训练过程中,商汤发展出两项关键的创新技术:融合模态数据合成,和融合任务增强训练。这使其拥有强大的对多模态信息理解分析能力,以及对场景的有效响应,并涌现出多模态信息的深度推理能力;同时在图文模态之间建立了交互桥梁,为更好地完成跨模态任务打下坚实基础。
商汤在打造最强原生多模态大模型方面,具有三个维度的优势。
从训练数据的维度来看,“日日新”采用的原生融合技术路径扩展了模型接触数据的通路和空间,让模型能接触到更大量级、更多类型的数据。
与之相对的传统图文对齐范式依赖于文字描述,但文字这一介质不免会带来多模态信息的压缩和损失,限制模型能力的提升。
▲一条典型的图文对齐数据,标志上的涂鸦和上方的“NO TRUCKS”均没有体现在文本中(图源:LAION)
这种模型还可能出现“跷跷板效应”,也就是多模态能力提升的同时,子模态能力下降。此外,简单的图文对齐模型也很难对图像和文本之间的复杂关系有深刻理解。
在高质量数据日益枯竭的当下,“日日新”不仅能有效利用广泛存在的天然多模态数据,还通过合成数据平衡数据分布,补齐天然数据短板。
商汤科技联合创始人、人工智能基础设施及大模型首席科学家林达华认为,原生融合技术路径将帮助他们突破传统大语言模型的Scaling Law限制。换言之,原生融合多模态大模型的能力上限要更高。
从应用维度来看,商汤在计算机视觉领域深耕超过10年,积累了AI赋能场景的丰富经验,和对视觉和多模态的独到理解,这是许多企业所不具备的。依托于这些经验和思考,商汤在“日日新”融合模型的训练过程中构建大量跨模态任务,培养出模型对业务场景和需求的深刻理解。
当大模型走出实验室,步入生产、生活中的复杂多模态、跨模态环境后,这种场景感知、业务感知让“日日新”能更好地理解用户意图、更准确地执行用户指令,真正将模型纸面能力变为生产力、交互能力。
从成本的维度来看,虽然原生融合大模型的能力更强,但其训练成本依旧具有优势。要打造一款兼具优秀语言和多模态能力的模型,原生融合训练方式的成本仅为传统训练方式的60%。
结语:多模态原生融合,世界模型的必由之路
人类存在于真实世界之中,而AI若要真正给人类的生产、生活过程带来变革,就必须建立起一套描述、理解、预测外部世界的模型,这也就是所谓的世界模型。
在当下大部分语言模型、多模态模型仍然处于分立的背景下,商汤的“日日新”融合大模型已实现多种模态的深度融合,而这或许也是通往世界模型的必经之路。