(来源:MIT Technology Review)
在机器人的“眼中”,现实世界充满了海量需要处理的信息。想要理解场景中的每一个数据点,往往需要耗费大量的计算资源和时间。而在此基础上,利用这些信息来判断如何更好地帮助人类,更是一项颇具挑战的任务。
如今,麻省理工学院的机器人专家找到了一种方法,能够帮助机器人过滤数据噪音,使其专注于场景中与协助人类最为相关的特征
他们将这种方法命名为“相关性(Relevance)”。借助这一方法,机器人可以利用场景中的各种线索,比如音频和视频信息,来判断人类的目标,进而快速识别出最有可能助力实现该目标的物体。随后,机器人会执行一系列操作,安全地将相关物体递交给人类,或者完成相应动作。
研究人员通过模拟会议自助早餐场景的实验,展示了这一方法的实际效果。他们摆了一张桌子,上面摆满了各式各样的水果、饮料、小吃和餐具,还配备了一个装有麦克风和摄像头的机械臂。运用新的“相关性”方法后,实验表明,机器人能够在不同场景中准确识别人类的目标,并提供恰当的帮助
在其中一个场景里,机器人捕捉到人类伸手去拿一罐冲调好的咖啡这一视觉线索,便迅速将牛奶和搅拌棒递给了这个人;在另一场景中,机器人听到两个人谈论咖啡的对话后,为他们送上了一罐咖啡和奶精。
总体而言,该机器人预测人类目标的准确率可达 90%,识别相关物体的准确率更是高达 96%。而且,这一方法还显著提升了机器人的安全性,与未使用该方法执行相同任务相比,碰撞次数减少了 60% 以上。
麻省理工学院机械工程教授 Kamal Youcef-Toumi 表示:“这种实现相关性的方法,能让机器人与人类的交互变得更加容易。机器人无需频繁询问人类的需求,而是主动从现场获取信息,自行判断如何提供帮助。”
Kamal 的团队正在探索,运用“相关性”编程的机器人在智能制造仓库场景中能发挥怎样的作用。他们设想,未来机器人可以与人类并肩工作,默契地提供协助。
Kamal与研究生 Xiaotong Zhang、Dingcheng Huang 将在今年 5 月举行的 IEEE 国际机器人与自动化会议上展示这一新方法。
寻找焦点
该团队的方法受到人类自身筛选日常生活中相关事物能力的启发。人类之所以能够过滤掉干扰信息,专注于重要内容,得益于大脑中的网状激活系统(RAS)。RAS 是脑干中的一束神经元,它在潜意识层面发挥作用,过滤掉不必要的刺激,让人能够有意识地感知到关键信息。比如,RAS 能避免我们的感官因过多信息而超载,让我们不会在倒咖啡时,把注意力分散在厨房柜台上的每一件物品上,而是专注于当前的任务。
Kamal 解释道:“这些神经元能过滤掉所有不重要的信息,让大脑专注于当下相关的内容,这真的很神奇。这基本上就是我们的研究思路。”
他和团队开发了一种机器人系统,该系统在很大程度上模仿了 RAS 筛选和处理信息的能力。这一方法主要包含四个阶段。第一阶段是“感知”阶段,在此期间,机器人通过观察和学习,获取音频和视频线索,例如麦克风和摄像头传来的信息,这些信息会持续输入到 AI“工具包”中。这个工具包可能包含一个大型语言模型(LLM),用于处理音频对话,识别关键字和短语,同时还配备了各种算法,用于检测和分类物体、人类、身体动作以及任务目标。AI 工具包就像大脑的 RAS 一样,在后台持续运行,进行潜意识层面的信息过滤。
第二阶段是 “触发检查” 阶段,系统会定期进行检查,判断是否有重要事件发生,比如是否有人进入该环境。一旦检测到有人进入,系统便会进入第三阶段。这一阶段是整个系统的核心,其作用是确定环境中哪些特征最有可能与帮助人类相关。
为了建立这种相关性,研究人员开发了一种算法,它可以接收 AI 工具包做出的实时预测。例如,工具包中的 LLM 可能识别出关键字“coffee”,而动作分类算法可能将伸手拿杯子的人标记为有“make coffee”的目标。团队的“相关性”方法会综合这些信息,首先确定与“making coffee”目标最相关的物体“类别”。这样一来,“fruits”和“snacks”等类别可能会被自动排除,而“cups”和“creamers”等类别则会被保留。接着,算法会在相关类别中进一步筛选,确定最相关的“元素”。比如,根据环境中的视觉线索,系统可能会将离人最近的杯子标记为比远处的杯子更相关、更能提供帮助。
在第四阶段,也是最后一个阶段,机器人会获取识别出的相关物体,并规划一条路径,将这些物体送到人类手中。
助手模式
研究人员在模拟会议自助早餐的实验中对新系统进行了测试。他们选择这个场景,是基于一个公开的早餐动作数据集,该数据集包含人们在早餐时间进行的各类典型活动的视频和图像,比如冲咖啡、做煎饼、泡麦片和煎鸡蛋等,每个视频和图片中的动作以及总体目标(如煎蛋还是煮咖啡)都做了标记。
借助这个数据集,团队对 AI 工具包中的各种算法进行了测试,这样一来,当接收到新场景中的人类动作时,算法就能准确标记和分类人类的任务、目标以及相关物体。
在实验中,他们设置了机械臂和抓手,并设定系统在人类靠近摆满饮料、小吃和餐具的桌子时提供协助。结果发现,当没有人在场时,机器人的 AI 工具包会在后台持续运行,对桌子上的物体进行标记和分类。
在触发检查过程中,一旦机器人检测到人类,它会立刻做出反应,开启相关性分析阶段,并根据 AI 工具包确定的人类目标,快速识别场景中最有可能相关的物体。
合著者 Zhang 表示:“相关性方法能够引导机器人在高度动态的环境中,提供无缝、智能、安全且高效的帮助。”
展望未来,该团队希望将这一系统应用到类似工作场所、仓库环境的场景中,以及家庭日常任务中。
Zhang 说:“我想在家里测试这个系统,比如我看报纸的时候,它能不能给我递杯咖啡;我洗衣服的时候,它能不能帮我拿洗衣袋;我做维修的时候,它能不能给我递螺丝刀。我们的愿景是实现更加自然、流畅的人机交互。”
https://news.mit.edu/2025/robotic-system-zeroes-objects-most-relevant-helping-humans-0424