机器之心报道

编辑:陈陈、蛋酱

好消息,谷歌在 MWC 上关于 Project Astra 与 Gemini Live 集成的承诺兑现了。

刚刚,谷歌发言人 Alex Joseph 在给 The Verge 的邮件中确认,谷歌已经开始向 Gemini Live 推出新的 AI 功能,能够共享用户的手机屏幕或者通过智能手机摄像头回答相关问题。这对于实时人工智能交互来说是一个重大进步。

这些功能的推出距离谷歌首次展示「Project Astra」项目已经过去一年时间。

有 Reddit 用户表示自己已经率先体验到了屏幕共享功能,该功能通过一个名为「Share screen with Live」的新按钮来实现。



这位用户还发布了一段视频来证明。

通过视频我们可以看出 Gemini 根据用户共享的屏幕,回答出了今天的日期、温度等信息。



另外,Gemini Live 推出的另一项功能是实时视频功能,它可以让 Gemini 实时解读你手机摄像头的画面,并回答相关问题。

效果如何,我们通过示例来感受一下。在谷歌本月发布的一段演示视频中,用户使用该功能向 Gemini 求助,他们上釉的陶器选择什么颜色的颜料最合适。



只见用户打开手机摄像头,对准物体进行实时拍摄,然后询问这些釉料中哪一种最适合?



几乎是毫无延迟的 Gemini 给出了回答:



一个问题回答完毕后,你也可以继续追问,Gemini 都能对答如流



Project Astra 是谷歌去年发布的 AI 智能体项目,用户通过摄像头,可以与大模型进行实时的视觉与语音交互,也是谷歌对标 GPT-4o 的又一项重要研究。

Project Astra 有三个特点:

  • 实时对话可以进行实时音频和视频对话,低延迟,还掌握多种语言。
  • 记忆:通过记住过去对话的关键细节以及当前会话中最多 10 分钟的内容来完善其回答。
  • 工具调用:提出问题后,Project Astra 可以使用谷歌搜索、地图等来提供答案。



此外,Project Astra 还可以跨设备工作,用户可以在安卓手机或原型眼镜上使用 Project Astra 功能。



视频对话功能并非新概念。最早公开演示 AI 视频通话的 OpenAI,则在去年 12 月底就在自家产品上线了对应能力:在 ChatGPT 的移动端应用程序 App 中,高级语音模式 Advanced Voice 提供了视频和共享屏幕功能。目前该功能还没有免费开放,也是 Plus 用户和 Pro 用户才能使用。

谷歌此时推出这些功能,至少证明了 Gemini 在努力保持人工智能助手领域的「前排」地位。

与之形成鲜明对比的是,苹果推迟了 Siri 的升级。彭博社前几天报道,一份 Siri 团队内部会议的记录显示,我们期待的 Apple Intelligence 仍遥遥无期。

会议由负责该部门的高级主管 Robby Walker 主持。他称此次延迟是一个「糟糕的」情况,并同情那些可能因苹果的决定和 Siri 仍然不佳的声誉而感到疲惫或沮丧的员工。

Robby Walker 还表示,承诺过的 Siri 功能不一定会在今年出现在 iOS 19 中:「这是该公司目前的目标,但并不意味着我们会在那时推出。」

近几周,苹果一直无法摆脱有关其在 Siri 和人工智能方面进展缓慢的负面新闻。去年 6 月承诺过的高级智能功能至今无法兑现。几个月过去了,除了更漂亮的 Siri 动画外,几乎没有任何成果。

除此之外,苹果尚未公开评论此事。当时该公司表示,高级 Siri 功能「比预期耗时更长」。但 Robby Walker 告诉员工,公司的软件主管、人工智能主管等高管正在为这一困境承担「个人责任」,然而这一困境引发了广泛的、激烈的批评。

这些功能对于 Siri 的现代化、苹果在人工智能竞赛中的追赶其实非常重要。我们仍然不知道这些 Apple Intelligence 功能何时会到来。似乎,从最近这次全体会议的讨论内容来看的话,苹果本身也不知道。

https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out

https://www.theverge.com/news/629940/apple-siri-robby-walker-delayed-ai-features

ad1 webp
ad2 webp
ad1 webp
ad2 webp