智东西
作者|依婷
编辑|心缘
//oss.zhidx.com/uploads/2024/11/674978e36f2c1_674978e36b5fa_674978e36b5ce_WeChat_20241129161819.mp4
当一个人在指定的微信群聊中发100个、总金额为2万元的红包,他至少需要完成包括点开微信、找到指定的微信群聊、找到底部菜单中的红包并点击、输入红包数量和总金额在内的一系列操作,但如果有了Agent,这只是一句话的事,除输入密码外的其它操作都可以交给Agent来完成。这样具有科技感的画面,来自智谱CEO张鹏对新升级的AutoGLM的现场演示。
智东西11月29日报道,今日,在国产大模型公司智谱举办的Agent OpenDay上,该公司公布了Agent项目在手机端、浏览器、电脑端的新进展:
手机端方面,AutoGLM新升级,可以理解超长复杂指令,自主执行超过50步的手机操作,还能跨App执行任务,如自主在小红书App检索网友推荐的美食食材后到小象超市下单;
浏览器方面,智谱清言网页端插件上线AutoGLM功能,支持在数十个网站执行任务,如给名人的微博写一条评论;
电脑端方面,GLM-PC开启邀请测试,第一阶段将在会议替身、文档处理、网页搜索与总结、远程和定时操作、隐形屏幕等五大场景进行内测。
张鹏认为,Agent可以看作是大模型通用操作系统(LLM-OS)的雏形,“现阶段,AutoGLM相当于在人与应用之间添加一个执行的调度层,很大程度上改变人机的交互形式。更重要的是,我们看到了LLM-OS的可能,基于大模型智能能力,未来有机会实现原生的人机交互,将人机交互范式带向新的阶段。”
一、GLM-phone:54步买食材,比人类快5秒
今年10月,智谱正式发布Agent项目AutoGLM,并面向公众开启内测。一个月后的今天,AutoGLM在手机端执行任务复杂度、跨App执行等方面得到显著升级。
首先是超长任务方面,升级后的AutoGLM支持更长的任务流程,能够理解超长、复杂的指令并实现连贯自主操作。如,用户可以让AutoGLM在美团买火锅食材,AutoGLM可以将该任务拆解为54步操作并顺利完成。根据发布会现场视频,在这一任务上,AutoGLM的操作速度比人类快5秒。
其次是跨App操作方面,AutoGLM可以根据人类一句简单的指令跨多个App执行任务。如,让AutoGLM帮忙点一份更便宜的外卖,AutoGLM可以在多个外卖App间切换并检索、对比同一商品的价格,然后选择更便宜的那一个完成下单操作。张鹏介绍,这一功能的实现源于AutoGLM强大的泛化能力,具备App思维链,真正成为了用户和应用之间执行的调度层。
为了更贴合用户在日常生活中的实际使用场景,AutoGLM还新增了“短口令”和“随便模式”。
在用户对长任务设置自定义短语后,让AutoGLM点咖啡的操作真的可以浓缩于一句“点咖啡”,而不再需要告诉AutoGLM在哪家店、购买哪一款商品;随便模式则更像是把“喝哪一种咖啡”的选择权交给AutoGLM,AI从被动执行转向主动决策,用户可以等着开一个“盲盒”。
目前,AutoGLM已启动百万内测,并将尽快上线成为面向C端用户的产品。智谱还宣布启动“10个亿级APP免费Auto升级”的计划。另外,支持核心场景和核心应用的AutoGLM标品API会在两周内上线到智谱maas开放平台试用。
二、GLM-web:自主刷网页,应援王心凌
升级后的AutoGLM也从即日起上线浏览器中的智谱清言插件,支持搜索、微博、知乎、Github等数十个网站的无人驾驶。
现场,张鹏打开智谱清言插件,让AutoGLM帮他评论歌手兼演员王心凌的微博,AutoGLM随即完成了以下操作:搜索并打开网页版微博、找到王心凌的账号并打开、根据账号首页的第一条微博内容生成相关评论、发送评论。
三、GLM-PC:像人一样处理工作,支持远程和定时操作
手机、浏览器之后,智谱还在人类和电脑之间加入了Agent——GLM-PC,该产品目前处于内测阶段,预计在明年第一季度推出。
张鹏介绍,人类使用电脑的过程是用眼睛看图形及文字、用大脑思考、再用手执行单击双击、输入等操作,而GLM-PC使用电脑的方式几乎和人类完全一样,“理论上只要是为人类设计的应用,在GLM-PC学习之后它都能够执行”。这或许是一种系统级、跨平台的能力,不依赖于 HTML、API,具备更高的能力上限。
目前,GLM-PC拥有以下能力:
1、会议替身:帮用户预定和参与会议,在会议结束后向指定对象发送会议总结。
2、文档处理:支持文档下载、文档发送、理解和总结文档。
3、网页搜索与总结:在指定平台,如微信公众号、知乎、小红书等搜索指定关键词,完成阅读、总结。
4、远程和定时操作:远程通过手机发送指令,GLM-PC可以自主完成电脑操作;设定一个未来时间,在开机状态下定时执行任务。
5、隐形屏幕:在用户工作时,GLM-PC可以在隐形屏幕上自主完成工作,不干扰电脑的正常使用。
张鹏还在现场演示了一个应用场景:通过手机远程让GLM-PC找到电脑中的某个文件,并发送至指定微信群聊中。在进行关键操作,如文件发送时,GLM-PC会通过手机提示用户进行远程确认。
这次GLM-PC的发布背后是CogAgent向2.0版本的迭代。从2023年4月的AgentBench开始,智谱针对AutoGLM和GLM-PC的模型——多模态模型CogAgent的研发工作进行了一年半的时间。
GLM-PC技术负责人潘立航现场分享说,CogAgent2.0具有更强的GUI(图形用户界面)视觉感知能力,能够进行高清晰度文本和UI界面理解;经过语言和视觉的联合训练,逻辑推理能力也得到了提升,支持电脑复杂、多任务中的目标拆解、长短程规划、界面理解、任务执行、状态判断、像素级动作预测等——大模型正默默学习人类操作,转化为属于自己的原生行为。
张鹏很坦诚地说,由于电脑的复杂程度,以及大家在电脑完成的几乎都是复杂任务,今天大模型的能力距离真正代替人类办公还有一定距离,GLM-PC在当前版本下,用户仍需要输入非常精准的指令。
四、从Chat到Act,看到LLM-OS的可能
从自然语言到多模态,从Chat到Act,AI Agent正在带来新的人机交互方式。张鹏认为,Agent可以看作是大模型通用操作系统 LLM-OS的雏形。而AutoGLM和GLM-PC是智谱迈向AI智能操作系统的尝试。
他说:“现阶段,AutoGLM相当于在人与应用之间添加一个执行的调度层,很大程度上改变人机的交互形式。更重要的是,我们看到了LLM-OS的可能,基于大模型智能能力(从L1到L4乃至更高),未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”
和OpenAI略有不同的是,在智谱的定义里,大模型发展有L1语言能力、L2逻辑能力(多模态能力)、L3使用工具的能力、 L4自我学习能力、 L5探究科学规律五个阶段,至今已经初步具备了人类与现实物理世界互动的部分能力。“Agent将极大地提升L3使用工具能力,同时开启对L4自我学习能力的探索。” 张鹏说。
“手机+AI会变成随身个人智能助理,PC+AI将会成为全新生产力工具,汽车+AI将会让车成为人们的智能第三生活空间。”在智谱COO张帆的期待中,随着端侧性能及算力持续提升、为AI原生设备适配的模型和端云同源的协同架构出现,Agent不仅在操作系统OS和应用上实现用户体验变革,还能将其推广到各类智能设备上,从手机到电脑,再到汽车、眼镜、家居和各种edge side设备。
总结:AI参与工作决策,人机交互迎来新范式
近期,信息技术研究和咨询公司Gartner将agentic AI(能动型人工智能)列为2025年十大技术趋势之一,并预测2028年至少有15%的日常工作决策将由agentic AI自主完成,而这一数字在2024年为0。从自然语言到任务执行,从单一场景到多模态、跨App协同,智谱的AutoGLM与GLM-PC正逐步揭示AI Agent对未来生活改变的广阔空间。
随着技术不断突破,AI Agent或将成为大模型走向全场景应用的关键桥梁。其对人机交互形式的重新定义,预示着AI不再局限于屏幕之内的角色,而是逐步向智能助理、生产力伙伴乃至智能系统核心的方向迈进,对人类现实物理世界产生实际影响。
以大模型为基础的AI Agent,或将加速人类迈入真正的AI原生生态时代。