图片由AI生成(来源:即梦AI)

2025年开年,张一鸣和王兴要在 AI 领域“大干一场”。

1月13日消息,00后团队创立的3D生成大模型公司“影眸科技”今天宣布完成数千万美元 A 轮融资。本轮由美团龙珠、字节跳动领投,老股东红杉中国种子基金及奇绩创坛持续跟投,光源资本担任独家财务顾问。

影眸表示,此次融资将进一步推进3D大模型的前沿探索,同时推动以3D生成大模型Rodin为核心的Hyper3D系列产品在全球市场的商业化落地。目前,Rodin上线45天后即实现100万美金年经常性收入(ARR),并持续高速增长。

事实上,这不是字节跳动、美团首次入局 AI 领域。美团除了收购光年之外,还投资了“大模型独角兽”智谱,智能机器人龙头宇树科技、具身机器人公司银河通用等多家 AI 相关公司;字节跳动则投资深圳未来机器人、智能机器人公司Syrius炬星、AI芯片龙头“摩尔线程”等项目,并且自家发力豆包大模型、火山引擎MaaS等多个 AI 技术服务。

如今,美团、字节跳动首次布局3D生成大模型赛道——而3D生成常被认为是“世界模型(World Model)”的 “最后一块拼图”。同时,英伟达CEO黄仁勋近期在CES 2025上发布开源“世界模型”平台Cosmos,为机器人、自动驾驶汽车等提供物理 AI 系统,凸显英伟达从GPU(图形处理器)芯片到模型层进行 AI 产业链布局。

上周CES 2025展会期间,智源研究院创始理事长,美国国家工程院外籍院士张宏江对钛媒体AGI表示,物理模型、世界模型其实是人类走向通用人工智能(AGI)的必经之路,2025年 AI 领域一定会有一些突飞猛进的进展。但同时,AGI落地依然还有很长的路要走。

很显然,作为英伟达在中国的两大合作伙伴,字节跳动、美团投资“世界模型”相关企业影眸科技,全面“阻击”了黄仁勋的物理 AI 世界。

00后团队发力AI 3D大模型,大厂下注前夕迟迟未融资

这家被美团、字节跳动同时瞄准的影眸科技,成立于2020年,孵化自上海科技大学内部,是一个拥有00后创始研发人员的公司。

影眸科技创始人包括四位——吴迪、张启煊、张龙文、曾初啸,团队平均年龄 24 岁,致力于打造最贴近行业标准(Production-Ready)的 3D 大模型产品,帮助用户实现高效便捷的 3D 创作。

成立四年来,影眸科技研发团队与上科大共同提出的可控 3D 原生 DiT生成框架 CLAY 与 3D 服装生成框架 DressCode,均获计算机图形学顶会 ACM SIGGRAPH 2024 最佳论文提名,其研究将 3D 生成质量带入一个新的高度,被认为是新一代 3D 生成基础框架。


2024年3月,影眸科技发布3D生成平台Rodin Gen-1,拥有超过40亿参数,通过输入图像或文字,能够生成规范网格的高质量四边面几何模型及PBR材质,并于去年7月实现100万美金年经常性收入(ARR),保持高速增长,是当时最高商用标准的3D生成工具。

2024年底,影眸科技发布 Rodin Gen-1.5 版本,通过新一代 3D 原生表达,全面解决行业内长期存在的薄面与边缘锐度问题,再次提高3D生成全行业商用标准,并且引发对全球 3D 生成领域的关注。

然而在本轮字节、美团领投影眸科技之前,该公司一度Drop了融资。据暗涌报道,2023年10月,耗费半年、几乎倾注所有精力的一轮融资被drop后,影眸科技创始人吴迪整个人都是懵的。来不及思考更多,影眸科技进行了成立以来第一次大规模人员调整。吴迪本想迅速融一轮小钱保证公司运营,但融资的失利坚定了他们拓展全品类3D资产生成能力的想法。

“在提效游戏工业上,3D生成能做的远不及Midjourney。之前在实验室,我们觉得技术等于产品等于公司,但其实技术不等于产品,也不等于公司。所以影眸这次把商业化瞄准“游戏外包”,在游戏建模环节,从原画到建模结束,存在一系列可能要返工数次的“废稿”。现在,原画的三视图完成后,可以先用Rodin生成建模草稿,具体细节再由建模师调整,在建模最开始的中模或预览阶段减少成本,或是应用于一些周边的不重要资产。”影眸科技团队表示。

事实上,过去几年里,生成式 AI 技术已经在文字、图像、音频、视频取得重大进展,而3D生成常被认为是“世界模型”的“最后一块拼图”。

所谓“世界模型”,是一种模拟现实世界复杂性的计算机模型,它通过整合各种数据和信息,来预测和解释世界各地的现象和事件,从而帮助人们更好地理解世界运行的方式,并作出决策。相比于大语言模型,“世界模型”事以视觉感知为核心,用“预测下一个token”这种看似只包含纯粹统计概率的目标来训练模型语言和深度学习,实现从机器学习到物理 AI 世界。

2024年,AutoDesk、Meta、英伟达、腾讯、微软等纷纷推出了自己的 3D 生成大模型,积极布局这一前沿领域,同时也是大厂想要通过投资布局抢占未来内容形态的重要领域之一。网易云音乐前高管王诗沐成立的AI 3D创业公司全灵(SEELE)日前完成千万级美元Pre-A轮融资,投资方包括百度战投、美图投资、富坤创投、Webtime Information S&T等。

黄仁勋认为,“世界模型”是物理 AI 时代的技术过程之一。“机器人技术的 ChatGPT 时刻即将到来。与大语言模型一样,世界基础模型对于推动机器人和自动驾驶汽车开发至关重要,但并非所有开发者都具备训练自己的世界模型的专业知识和资源。我们创建Cosmos是为了让物理 AI 普及化,让每个开发者都能用上通用机器人技术。”

图灵奖得主、Meta AI首席科学家杨立昆(Yann LeCun)提到,大模型(LLMs)无法达到人类智能,不是 AI 技术真正的发展方向。ChatGPT等生成式 AI 产品永远无法实现像人类一样的推理和计划能力,而是认为在机器中创造“超级智能”,研发下一代 AI 系统——世界模型,才是真正的AGI。

“不要学习大模型,这些技术掌握在大公司的手中,你没有什么可以做的。你应该研究下一代 AI 系统,以突破大模型的局限性。”杨立昆和李飞飞都认为,“世界模型”解决了很多未来 AI 在视觉感知层面的挑战。

字节、美团把 AI 当作“一号工程”

自ChatGPT发布以来,字节跳动和美团这两家互联网巨头全面发力 AI 技术和落地,但两家呈现方式各不相同。

其中,美团对于 AI 的布局处于“半遮半掩”,比较公开的是对 AI 领域的投资和收购。

2023年6月,美团收购了王慧文创立的AI公司光年之外,收购价约为人民币20.65亿元;2023年11月,美团申请的大模型“通慧”获得备案审批,可以对外进行服务。同时,美团内部也有科技创新、算力业务部门以及投资业务,已投资智谱、宇树科技、银河通用机器人、小雨智造等企业。

2024年5月,美团对外内测了一款基于生成式 AI 技术的语义理解娱乐小程序“妙刷”,用户通过上传图片,自动识图并输出“梗文字”,并且美团还推出AI应用如“Wow”、“问小袋”和“AI写真馆”等。此外,美团还探索过AI+硬件,研发了一款名为“俏鱼”的AI应用,并和儿童穿戴设备厂商“小天才”达成合作。

钛媒体AGI了解到,目前美团战投、美团龙珠内部对于 AI、机器人等先进科技领域的投资十分关注,美团内部也不断重视算法技术、模型技术的应用落地。

字节跳动对于 AI 的关注力度更大,除了投资多家 AI 公司外,字节内部也拥有豆包大模型,近期,智源研究院发布最新评测,涉及国内外100多个开源及商业闭源大模型,豆包大模型在中文能力评测、语言模型评测、视觉语言模型等领域表现优异,远超大模型“六小虎”、百度、腾讯等公司研发的多款 AI 大模型能力,位居榜首。

同时,字节跳动还在“卷”算力。研究机构Omdia报告显示,字节跳动2024年采购约23万片英伟达GPU芯片,成为英伟达全球第二大买家,超越Meta、亚马逊和谷歌等美国科技巨头。

今年11月的全球月活跃排行榜上,豆包App的MAU(月活跃用户数)接近6000万,仅次于OpenAI的ChatGPT,位列全球第二;截至2024年底,豆包大模型日均tokens使用量超过4万亿,发布7个月以来增长超过33倍。

2024年12月18日,火山引擎总裁谭待宣布,豆包视觉理解模型输入价格仅为0.003元/千tokens,1块钱可处理284张720P的图片,比行业价格便宜85%。

谭待对钛媒体AGI披露,目前国内安卓手机大部分都在和豆包合作,对手机厂商来说,会在某些场景用豆包,某些场景用其他的大模型,或者某一个场景混合使用,对企业用户来说,肯定也需要一个多云或者多模型的策略,“最终还是能力更好、成本更低,就会用谁,这笔账就很好算。”

谭待强调,当前字节并不关注市场竞争,因为大模型市场仍处于早期阶段,更多是场景、需求是否被满足。长期来看,大模型C端和B端、虚拟和现实世界场景都应该齐头并进发展。

“这个市场还在很早期,可能千分之一刚刚开发出来。这个时候其实不用关心竞争的问题,需要关心的是用户的需求有哪些还没有被满足。”谭待表示,最关键的是能不能把东西做好,把方案的落地应用做好。

OpenAI CEO奥尔特曼(Sam Altman)曾断言:“我们会有越来越好的模型。”

影眸科技强调,我们很快就会迎来 3D 领域的“ChatGPT”时刻。

(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)

ad1 webp
ad2 webp
ad1 webp
ad2 webp