本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数字先行者”共同探讨、碰撞,希望这些内容能让你有所启发。
AR(Augmented Reality,增强现实)眼镜,被认为是取代手机成为下一个超级终端的有力争夺者。这两年,伴随着 Meta、苹果等巨头的入局和大力投入,加上供应链的成熟,AR 眼镜也被更多人所关注,成为这一波 XR(Extended Reality,扩展现实)热潮中的最大受益者。
而在同一时期,AI 大模型的横空出世和快速迭代,成为第四次工业革命的引擎,革新各行各业,创新着全新的商业模式。
2024 年下半年,不带显示的 AI 眼镜席卷整个科技行业,预计未来市场规模超千亿美金。AI 眼镜的爆火,也让更多人坚信,“下一个 iPhone 时刻,由 AI+AR 创造”。
但是作为连接物理世界与数字世界的桥梁,AI+AR 不是做简单的 1+1 加法题,AR 的场景很复杂也很特殊,对反应的速度以及交互的方式都有着更高的要求。
作为国内第一梯队的 AR 眼镜公司,雷鸟创新一直在做 AI 与 AR 的融合研发工作,并在 AI 生态上投入了大量的人力和物力,去探索 AI+AR 的最佳融合方式。针对当下 AR 产品出现的 AI 体验不佳的问题,雷鸟创新与阿里云一起,探索走出了一条智能化合作创新共赢之路。
AI+AR,消费电子的新机遇
相比较手机、PC 等传统终端,AR 发展的时间并不长,近几年才将落地产品推向大众市场。而伴随政策支持和 AI 大模型的加速发展和落地,消费电子行业迎来了新一轮的发展机遇。
来自机构统计的数据显示,2024 年上半年,国内消费级 AR 设备销量同比增长 49%,反映出市场对 AR 的广泛认可。多家 AR 公司负责人也不止一次在公开场合表示,AR 眼镜会是 AI 的理想载体,在空间计算时代中,将会展现出独特的价值和潜力。
IDC 观点认为,AI 在硬件搭载上有很多选择,手机、PC、AR 眼镜都是好的载体。但是对于 AR 这种轻量级硬件来说,AI 的加入会极大丰富 AR 的应用场景,尤其是在生活助手类的应用中,都会使得其使用的便捷性、准确性得到明显提升。
中商产业研究院也在报告中表示,在 AR 设备中,AI 技术可以帮助设备更好地理解用户的意图、行为和环境,从而提供更加个性化的体验。随着相关技术路径的逐渐成熟,未来 AI+AR 眼镜有望跑通效率提升类场景,向消费级放量,AI+AR眼镜有望在短期实现百万出货量,中期实现千万出货量,AI+AR 眼镜未来有望成为下一个过亿的创新终端产品。
雷鸟创新可以说是国内 AR 产业的最早一批探路者,创立至今已有三年多的时间,用了不到一年的时间就做到了中国消费级 AR 市场占有率的第一名,在对 AI+AR 的探索上也是处于前列,并多次在公开场合表明公司在 AI 与 AR 融合上的努力。
雷鸟创新创始人兼 CEO 李宏伟认为,“AR 眼镜将赋予 AI 与人类高度一致的感官能力,并使得 AI 真正成为人们的‘外脑’,增强人们对视觉信息、音频信息的处理能力。AI+AR 会是行业的一个很重要的趋势。我们坚信,未来 2-3 年 AI 带来的最重要的新硬件就是 AR 眼镜,下一个 iPhone 时刻由 AI+AR 来创造。”
过去,AR 眼镜虽然能同时呈现数字与物理世界,但二者是隔绝的,没有交互,也没有联动性。在 AI 发展的初期,其更多的是被应用在一些软件优化等基础应用上,并没有直接串联起物理与数字世界。
而这两年,AI 发展的速度超过任何历史时期,性能也有了极大的提升,主动性和应用的场景也更多、更深入。
有了 AI 大模型的融入,AR 不仅能呈现现实与虚拟世界,更能借助 AI 与算法去接管和驱动数字世界,并与物理世界形成连接,与你在现实中看到的场景进行交互,看你所看,听你所听,在你眼前,在你耳边,重构我们的视听世界。
就像李宏伟说的那样,“AI+AR 的融合,不仅可以实现过去手机的场景,还可以成为非常好用的 AI 智慧助手,更重要的是,它们会实现虚拟与现实的深度融合,带来整个世界的数字化。”
跨越,深度定制 AR 场景专属大模型
在明确了 AI+AR 的发展路径后,2024 年有多家 AR 企业开始了产品与 AI 融合的落地以及新思考。
一个非常明显的信号是,在年底这段时间,作为承托 AR 眼镜的 AI 眼镜产品频发,不仅有雷鸟创新这样的垂直厂商的加入,也有创业者以及大模型企业的入局。
入局者众多,产品也很多,但是,真正能直击用户,连通数字世界和物理世界的很少。这里一个关键的问题在于,AI 与 AR 的融合不是简单的去做加法,大模型的选择以及场景化深度优化十分重要。就好像是苹果的 Siri 一样,由于有很多场景的问题回答不了,所以被很多人弃用。
李宏伟也指出,跟大模型对话也是一样,如果不能做到 80% 以上的准确率的话,那大家也就不用了。如果用 AR 眼镜来识别路牌或者采用,只有一半概率能识别出来,也很影响用户的心理。用户在产品体验上面,要的非常重要的一个的东西就是确定性。就好比你发个微信消息给对方,如果只有 50% 的概率能收到,那这个产品肯定没人要。
“我们需要判断的就是谁在大模型上面会长期处于领导者地位,这也是选择和阿里通义合作的原因之一。”
作为目前市面上大模型产品的第一梯队,通义的基础模型和多模态能力都很出色。
其中,Qwen2.5 全系列模型在 18T Tokens 数据上进行预训练,相比 Qwen2,整体性能提升 18% 以上,拥有更多知识、更强编程和数学能力。视觉语言模型 Qwen-VL-72B 具备自主操作手机和机器人的视觉智能体能力。大规模音频语言模型 Qwen-Audio,语音聊天部分融合了语音识别和自然语言理解,不需要多个模型进行衔接,实现了端到端大模型,可以识别音乐、情绪、环境声音等。
AR 眼镜在搭载了通义千问卓越的多模态识别能力之后,图像、文字、视频和音频等多种输入形式都能够被实时处理。
比如,用户在路边看到了一栋建筑或者是不认识的植物,通义借助 AR 眼镜的摄像头便能够识别用户看到的物体,对其进行介绍。对于用户眼前所看到的物理世界,通义也可以进行描述,不仅能够帮助用户深入了解当前所处的环境,也能帮助视障人群看到眼前的世界。
同时,AR 眼镜在有了通义大模型的加持后,还能够实现即时翻译,支持中文与英语、日语、韩语、法语、德语、俄语等多国语言互译。即便用户身处陌生的国家,也能从容与当地人进行交流,提升沟通的效率。
不过,仅仅以大模型通用能力帮助 AR 眼镜实现了多个场景下的交互还不够。
雷鸟创新选择通义,还有一个更重要的原因,就是双方都致力于实现虚拟世界与现实世界的深度融合,愿意面向用户做深度的研发投入。换句话说,有很多款通用大模型都很优秀,但是在 AR 眼镜上的体验并不佳,关键就在于大模型没有针对 AR 眼镜的需求做深度的定制和匹配。
李宏伟表示,“很多 AR 厂商做的仅仅就是把大模型接进来,这是不行的。现在的通用大模型的确可以做很多事情,但是对于 AR 上涉及的场景,做的还不够深入不够好。我们看好阿里云通义大模型的现在和未来,并且双方也都有一个共识,那就是不能说在 AR 眼镜上放一个通用大模型就行了,要针对 AR 的场景去做定制和适配,把它培养成一个很符合这个应用场景的大模型,让 AR 眼镜真正深入到用户的日常生活之中。”
2025 年 1 月 7 日 CES 期间,雷鸟创新正式发布雷鸟 V3 AI 拍摄眼镜。这款新品上搭载了其与阿里云通义共同打造的业内首个专门面向智能眼镜的 AI 大模型。这一定制化模型不仅能更好地理解眼镜场景下的用户需求,还能为 Agent 提供更精准的知识支持和决策依据,从根本上提升了 AI 眼镜的交互体验。
得益于此,雷鸟 V3 的 AI 平均响应速度为 1.3s,远超 Ray-BanMeta 及其他接入通用模型的 AI 眼镜;V3 的 AI 识别准确率高达 98%,可称为用户真正全能的百科助手。在此基础上,雷鸟 V3 还将陆续上线 RayNeo 电台、探索视界 2.0、手机通知 AI 总结播报、QQ 音乐点播、AI 新闻播客、全场景录音总结、支小宝扫码支付等丰富功能,让 AI 真正服务于用户的日常生活。
之后,雷鸟创新计划在第二季度发布的 AR 眼镜 X3 Pro,也将搭载与阿里云深度定制和融合后的通义大模型。
在产品研发期间,双方都投入了大量的人力和物力,针对具体的场景去做训练和提问,对硬件端侧的模型进行优化,从而去匹配 AR 场景下的需求。
比如 AI 翻译,常规的通用大模型更多的是根据接收到的语言信息去做单一的翻译,但是在具体的场景结合上没有深入融合,会导致有时翻译的内容会显得很生硬。此外,速度是翻译很重要的指标,如果仅仅是接入现有的通用大模型,整体的体验并不会很顺畅。
为了提升 AI 的体验,雷鸟创新和阿里通义做了多方面的训练工作。一方面,是做了速度上的提升,相比较于当前市面上通用大模型翻译,搭载了定制通义大模型的 RayNeo AI 的反应速度提升至少一倍。
另一方面,除了速度之外,通义还针对旅行、点餐、购物等多个细分场景做了优化,借助 AR 眼镜去识别当前的环境、对话人的表情、手势等多个信息源,更好地理解用户的使用场景,从而给出更准确的翻译结果。
视觉也是一样,AI+AR 要接管物理世界,要做到的第一点就是能够对现实世界的场景进行准确的反馈。但是,物理世界是相当复杂的,比如路牌,有各种材质、大小,不同光线下反光的程度也不一样。为了提高识别的准确率,阿里云和雷鸟创新一起做了增量的训练,通过不断地采集训练和优化,提升复杂场景下的识别准确率。
另外,还有 AR 眼镜的 AI 智慧助手,也是一个多信息输入的场景,需要做一个新的分类模型,针对不同的指令做出低延迟质量高的响应。
当然,以上所说的只是部分场景,未来雷鸟创新和阿里通义还会针对更多的细分场景去做好底层的优化,从而真正实现“接管数字世界,改变物理世界”。
共创智实融合世界
当下,AR 正处于蓬勃发展的阶段,但仍处于上半场的初期。而且,AI+AR 是为数不多在上半场就由中国厂商深度参与甚至是主导的产业。
雷鸟创新与阿里云在 AI+AR 上的深度合作,会进一步加深用户对 AI 落地场景的感受和理解,推动 AR 走向大众市场,连接数字世界和物理世界。
谈及与阿里云的合作,李宏伟表示,AI 在新的场景下,在物理世界的落地进入到了一个关键时期,阿里云所做的一切非常好也很有价值,我们跟阿里云的合作也开创了这个行业的一个新模式。未来的标准也会被重新建立,那就是 AR 接入的大模型要能够做深度的定制化和重新训练,从而满足场景化需求。
不过,目前所做的场景探索仍是不够的,伴随着技术的提升,以及 AR 在更多场景的探索,AI+AR 还有进一步融合的空间。比如在对话翻译时,能否将字幕显示在对方的嘴边?“戴上 AR 眼镜之后,每个人说话的时候,嘴边都会显示一个对话框,就像是游戏里的场景一样,能看到说话人的语言,与全世界各地的人都能无障碍交流。”李宏伟说道。
他还认为,有了 AI 的加成,AR 眼镜未来不仅可以理解文字、图片和视频,还能理解空间,从而可以做虚实融合的游戏了,比如跑步的时候收集金币。
另外,随着大模型落地不断深化,端侧应用成为趋势,手机、PC 已有 AI 大模型端侧应用的实践。日前,阿里云就将“通义千问”大模型部署在联发科的 SoC 上,通过量化、参数剪枝和知识蒸馏等多种技术手段减小模型体积。在端云协同技术的推动下,带来了低延迟、 隐私保护、离线能力、节省带宽和实时处理这五大优势。
对于 AR 眼镜来说,由于体积、续航等方面的限制,目前端侧大模型的应用还在探索中,比如审慎地选择参数量,要综合功耗与性能去做更多的研究,这也是未来雷鸟创新和阿里云去共同协作解决的问题。一旦落地,AR 眼镜会更快地响应用户的指令,端云协同技术通过在设备端处理敏感数据,将大幅提升 AR 眼镜用户的数据安全性和隐私性。
场景在变化,趋势和需求在变化,但不变的是数字世界与物理世界的加速融合。对于雷鸟创新和阿里云来说,AI+AR目前仍在前半程,二者的融合还要不断的精进。
本文摘自《云栖战略参考》总第16期
扫码限时申领纸质版