“洋抖难民”攻占小红书！网友用商汤“日日新”无缝冲浪

智东西
作者陈骏达
编辑漠影

洋抖难民疯狂涌入小红书，都快看不懂帖子了，怎么办？

除了找翻译软件和期待小红书的官方工具外，你还可以试试国产AI：截取你看不懂的帖子，AI就能告诉你海外网友的狗狗品种，还能用中英双语撰写回复。

海外网友或许也可以尝试尝试中国AI。下方帖子中，网友用字迹潦草的中英双语撰写了帖子。AI能帮根据英文原文帮网友修改中文，无缝实现国际网上冲浪。

上述有趣有用又有梗的回复背后，是来自国内首个采用原生融合方法的多模态模型——商汤 “日日新”融合大模型。

多模态融合是指将文字、图像、视频、声音等多种信息整合在一起，进行全模态的分析和理解。依照模态融合路径训练的模型能够更好地处理跨模态任务，具备类似人类的认知方式、更强的泛化能力、更广泛的应用场景以及更强大的推理能力。

从上述的例子中也可以看出，“日日新”能从画面中提取文字中未包含的信息，并综合文字和画面中的要素，给出与场景高度契合的回复。

“日日新”融合大模型在原生融合模态训练上，突破传统方法局限，实现了两个关键技术创新，解决了困扰多模态研究的“跷跷板”问题，成功跨越了模态之间的鸿沟。

在最近的两项权威评测中，商汤用单一模型挑战图文多模态、纯语言与推理等各项任务，并战胜其他所有单一模态模型，通过“换道超车”，跃升至国产大模型领跑行列。

在最新的SuperCLUE 2024年度报告中，商汤“日日新”融合大模型以总分68.3的优异成绩，与DeepSeek V3并列国内榜首，成为年度第一。其中文科成绩超越OpenAI的o1模型。同时，在OpenCompass多模态评测中，商汤的同一款模型同样取得了榜单第一，分数大幅领先GPT-4o。

日前，这款模型已上线商量、办公小浣熊等商汤旗下产品，智东西也第一时间上手体验了这一模型。作为一款打破语言与多模态两大能力维度壁垒的模型，“日日新”融合大模型贡献了不少新奇有趣的玩法和场景。

一、大模型秒变游戏军师、文案助手，不仅看懂画面还能深度推理

无论是对传统视觉算法还是多模态大模型而言，识别画面中的某一具体元素都要比识别单一物体更具挑战。为测试这一能力，我向搭载新款“日日新”融合大模型的商量发送了如下截图，并询问图中的游泳池位于哪里。

这一游戏的像素风对识别提出了更多的挑战，不过，“日日新”很快给出了回答：

“日日新”对图片的描述十分准确，这一游泳池确实位于城市中央偏左位置。

然而，当我上传图片并用英文向GPT-4o最新版本提问时，GPT-4o认为游泳池在图片中央偏右的区域，似乎是将蓝色的屋顶识别为游泳池了。

我又在大模型竞技场盲测了两款模型，它们也无法准确回答。左侧的模型A（Llama-3.2-vision）认为游泳池在城市右上角，靠近网球场，但图中并无所谓的网球场。而右侧的模型B（Gemini-test）似乎辨识出了游泳池，但它对这一建筑的描述并没有“日日新”的清晰。

“日日新”不仅能定位画面中的元素，还能根据画面内容进行进一步的推理，就上方的截图，我向这一模型提问：“图中消防局的位置合理吗？”

▲消防局在图中箭头所指处，给模型发送的图片不带任何标记

“日日新”先是准确找到了消防局的位置，还对消防局周边的建筑性质、道路情况进行了分析，最终得出消防站布局合理的结论。

此外，市面上大部分模型都存在重理轻文的特点，但“日日新”融合大模型在文科、理科任务的表现上都同样出色。

在下方的创意写作类任务中，“日日新”融合大模型凭借融合模态能力，准确地捕捉到了“水深危险，请勿靠近”这句警示标语和水面上悠闲嬉水的绿头鸭之间的冲突，还给鸭子们撰写了内心os：“我们是来监督的！”

而针对这副法国印象派作家莫奈的作品，“日日新”融合大模型分析得头头是道，不仅注意到了颜色的细微变化、具体部位的描绘特点，还能理解画作背后的视觉观感、绘画技巧。

二、直面现实世界，让真正的多模态大模型替你工作

传统大语言模型仅支持单一文本输入，部分视觉模型能通过OCR（文字识别）提取图片中的语言信息进行理解，但作为真正的多模态大模型，“日日新”融合大模型可以综合处理图像、视频、语音、文本等多源异构信息，实现深度融合和推理，最终给出更为全面准确的回应。这种能力让模型能够真正理解现实世界的需求，在各种复杂的业务场景中，成为你的交互对象和工作助手。

我将手头一份《2024中国翻译行业发展报告》交给搭载商汤“日日新”融合大模型的办公小浣熊和搭载Gemini谷歌Notebooklm，看看这两款支持文档上传的AI工具在报告解读的场景表现如何。

这份报告共有55页，其中包含大量图表，图文交错，对模型的多模态文档分析能力提出较高的要求。下方是办公小浣熊的回答，它成功找到了我需要的信息，而这一信息是位于一张图表中的。

Notebooklm在这一问题上落败，它将“必选”与“选修”的数据混淆了，正确答案与它的回答正相反。

Notebooklm虽然引用了原文，但点进引用后可以发现它对文档的处理比较混乱，图表变为了零散的文字，这可能也最终导致了它的错误回答。

商汤“日日新”融合大模型还能在一线工业生产场景中发挥作用。我将下方的工厂实拍图片发送给它，它迅速对图中的生产风险进行分析。

“日日新”发现了图中的7个潜在问题，并警告了烫伤、电击等风险。

当我继续询问该如何解决这一问题时，“日日新”给出了一个包含12个步骤的解决方案，从维修人员的保护措施到维修流程，再到维修完成后的记录与报告，一应俱全。

随着AI越来越多地与物理世界产生联系，商汤“日日新”融合大模型将可能与汽车、智能硬件、具身智能机器人等实现有机结合，将语言、图像、视频等多模态信息作为输入，理解用户指令并完成推理后，使用语言和图像等进行输出，在特定的生产、服务场景中发挥重要作用。

三、破解“跷跷板”效应，多模态是大势所趋

商汤发布的“日日新”融合大模型，对国内多模态大模型及AI行业来说具有重要的引领性意义。在探索原生多模态融合训练过程中，商汤发展出两项关键的创新技术：融合模态数据合成，和融合任务增强训练。这使其拥有强大的对多模态信息理解分析能力，以及对场景的有效响应，并涌现出多模态信息的深度推理能力；同时在图文模态之间建立了交互桥梁，为更好地完成跨模态任务打下坚实基础。

商汤在打造最强原生多模态大模型方面，具有三个维度的优势。

从训练数据的维度来看，“日日新”采用的原生融合技术路径扩展了模型接触数据的通路和空间，让模型能接触到更大量级、更多类型的数据。

与之相对的传统图文对齐范式依赖于文字描述，但文字这一介质不免会带来多模态信息的压缩和损失，限制模型能力的提升。