想象一下,你正在享受着悠闲的午后时光,家里的机器人则在厨房中忙碌地洗刷餐具。当你需要某个杯子并发出“请递给我水槽左边的那个碟子”指令时,机器人却似乎误解了你的意思,转向水槽右侧准备去拿碗。

这样的小插曲看似只是个小失误,实际上揭示了当前机器人技术面临的一个核心挑战:理解和准确响应人类意图的能力不足,以及缺乏迅速纠正错误的能力。这不仅是技术上的难题,也直接影响到机器人在日常生活中能否真正成为我们的得力助手。

对此,麻省理工学院和英伟达的研究人员联合开发出一种新的智能交互框架,有望从根本上解决这一问题。借助这种智能交互框架可以通过简单互动更为直观地指导机器人纠正其操作中的错误。

就拿刚才洗餐具的例子来说,当机器人误解你的意思选错目标时,你可以简单地用手指向你想要的那个碟子,或者把机器人的手臂推向正确的位置。


(来源:MIT News)

这种“手把手”教学模式的精妙之处在于它的直观性和易用性。从本质上来说,它其实是模仿了人类教导孩子学习新技能的互动方式,借助实际的接触和视觉示范来帮助理解,让机器人通过物理接触和视觉指引实时修正行为。

研究人员通过实测发现,采用这种教学方法,机器人完成任务的成功率比未使用人工干预的方法有了大幅提升。

相较于传统的纠错方案,这种智能交互框架还带来了几点创新:一方面,它不需要重新收集大量的数据,这对于家庭环境下的个性化配置尤为重要;另一方面,避免了耗时的模型再训练过程,即便是不具备专业知识的普通用户也能轻松上手。

更为关键的一点,系统能够即时处理来自不同维度的反馈(包括触觉信息和视觉信息),并以此动态调整行动策略,确保执行的动作最符合用户的期望。换句话说,它能让机器人利用直观、实时的人类反馈选择最贴合用户意图的动作。

从长远来看,这一智能交互框架将让机器人能更好地适应多样化的家庭环境:经过工厂训练的机器人在不同的家庭环境中高效工作,即便它们从未见过用户家中这些特定的家庭布置或物品。

“我们不能指望普通用户具备收集数据或微调神经网络模型的专业技能。消费者希望购买的机器人能够‘开箱即用’,如果这一点无法实现,那么至少需要提供一种简便且直观的方式来让用户根据自己的需求定制机器人。”这篇研究论文的主要作者、麻省理工学院电气工程与计算机科学研究生 Felix Yanwei Wang 说道,“我们的研究正是为了解决这一挑战,消除人与机器之间最后的一道交互障碍。”

他进一步指出,不仅要在技术上取得突破,还要确保这些技术进步能够被广泛接受和使用。这意味着需要设计出更加用户友好的解决方案,使非专业人士也能轻松地与高科技产品互动。“通过简化定制过程,我们希望能够让每个人都能充分利用机器人的潜力,无论他们的技术背景如何。”他表示。

这项研究成果将在国际机器人与自动化会议上发表。论文合作者还包括麻省理工学院航空航天学教授、计算机科学与人工智能实验室交互机器人组主任 Julie Shah(通讯作者),Lirui Wang、Yilun Du,以及来自英伟达的研究人员。

这项研究的关键在于找到了一种方法,让不具备专业知识的用户也能够有效地指导机器人完成特定任务。通过开发直观的交互界面,可以通过简单的操作(如手势或语音指令)来即时调整机器人的行为,从而实现更高效的人机协作。



进一步减少偏差

围绕机器人开发,研究人员目前开始利用预训练的生成式 AI 模型来学习机器人完成任务时所遵循的一套“策略”,也就是一组规则。毕竟,生成式 AI 模型擅长处理多种复杂任务,因此非常适合这种应用场景。

在训练过程中,模型只会接触到可行的机器人动作,从而学会生成让机器人能够有效执行的任务序列。这意味着,机器人可以根据这些预先学习到的动作序列准确地完成一系列任务。

然而,尽管这些动作序列是有效的,它们并不总是完全符合用户在实际生活中的真实意图。例如,机器人经过训练能够从货架上抓取盒子而不碰倒其他物品,但如果货架的摆放方向与它训练时看到的不同,那它可能会无法拿到货架顶部的盒子。

为解决这些问题,工程师通常需要收集新的数据并重新训练生成模型,以适应新环境或新任务的要求。这一过程不仅耗时,而且成本高昂,还需要具备机器学习的专业知识。

与传统的重新训练方法不同,麻省理工学院研究人员此次提出了一种更为用户友好和高效的解决方案:他们希望用户能够在使用机器人的过程中,发现机器人出错时能够直接引导其行为进行纠正。

通过这种方式,当机器人出现错误操作时用户可以立即介入并指导机器人做出正确的调整。例如,在上述拿盒子的例子中,如果机器人试图拿取盒子但不小心碰掉了架上的书,用户可以直接干预,帮助机器人找到更好的路径或方法来完成任务。

这种方法的优势在于,它不需要复杂的重新训练过程,也不要求用户具备专业的技术背景,通过简单的互动方式,让用户能够即时纠正机器人的行为,从而提高机器人在实际应用中的灵活性和准确性。

“我们希望用户能在不引入其他错误操作的前提下与机器人互动,从而在实际操作中实现更符合用户意图的行为,同时确保这种行为也是有效且可行的。”Wang 说道。


(来源:MIT News)

在这项研究中,他们开发的框架为用户提供了三种直观的纠错方式来引导机器人行为,每种方式都有独特的优势和适用场景。

1、指向目标:用户可以在显示机器人摄像头视角的界面上直接点击或指出希望机器人操作的对象。这种方式简单易用,适合那些需要快速指示机器人选择特定物品的任务。例如,在厨房里,你可以轻松地点击屏幕上的某个碗,并告诉机器人去取。

2、绘制路径:用户可以通过界面绘制一条具体的轨迹,明确指定希望机器人如何接近目标对象。这种方式不仅让用户可以精确控制机器人的运动路径,还能帮助机器人避开障碍物。比如,当机器人需要从一个狭窄的空间中取出物品时,用户可以绘制一条绕过障碍物的安全路径。

3、“手把手”教学:用户可以直接用手移动机器人的手臂到期望的位置。这种方式最为直接且有效,适用于将二维图像映射到三维空间时可能出现的信息丢失问题。通过物理接触,用户能够准确传达他们的意图,并确保机器人按照预期的方式执行任务。例如,在处理复杂的三维环境时,用户直接用手去调整机器人的位置可以避免因图像信息不足而导致的误差。

“在将环境的二维图像映射到三维空间中的动作时可能会丢失一些信息。”Wang 说道,“直接轻推机器人手臂是最为直观的交互方式,可以准确传达用户的意图而不会丢失任何细节信息。这不仅提高了任务的成功率,还增强了用户体验,即使是非专业人士也能轻松指导机器人完成各种复杂任务。”



采样程序确保有效动作

为了避免用户互动导致机器人选择无效或不安全的动作(如与其他物体发生碰撞),研究人员采用了一种特定的采样程序。这种技术能够使模型从最符合用户目标的有效动作集中选择一个最优动作,从而确保机器人执行的任务既安全又高效。

“我们并不是简单地让机器人盲目执行用户的指令,而是让机器人理解用户的真实意图,并根据它已学习到的行为集进行调整。”Wang 解释道,“通过这种方式,机器人不仅能够按照用户的意图行动,还能在不偏离其训练基础的前提下灵活应对新的情况。”

在厨房环境中使用机械臂进行模拟和实验时,他们基于这种采样方法开发的框架比其他方法表现更为出色。研究人员发现,与不借助人工干预的方法相比,这种方法的成功率提高了 21%。这表明,在实际操作中,该框架不仅能提高任务完成的准确性,还能显著提升效率。

尽管这种方法可能并不总能立即完成任务,但它有个明显的优势:一旦发现机器人做错了,用户能马上进行介入和纠正,而不是等机器人完成整个动作后再重新下达新指令,在提高操作效率的同时还减少了不必要的重复操作

值得一提的是,当用户几次轻推机器人直到它拿起正确的目标物品后,它可以记录这种纠正行为,并在未来的学习过程中将其纳入自己的行为模式。这意味着,随着用户不断指导,机器人将逐渐学会如何更好地执行任务。例如,经过几次纠正后,第二天机器人无需任何帮助就能准确地拿起正确的物品。

“持续改进的关键在于让用户能与机器人互动,这正是我们这项研究的核心成果。”Wang 补充说。通过这种人机协作的方式,不仅可以提升机器人的性能,还能使用户体验更加流畅和自然。

未来,研究人员希望在保持或提升采样程序性能的同时,进一步加快其运行速度,毕竟更快的响应时间将使机器人在动态环境中也能迅速做出反应,适应更多复杂场景的需求。

他们还计划在全新的场景环境中测试这种机器人的策略生成表现。通过在不同环境中的应用,研究人员希望能够验证并优化这一框架的通用性和灵活性,使其能够在更广泛的领域中发挥作用。

通过这些努力,他们期望推动家用和服务型机器人的智能化发展,让它们真正成为人们生活中的得力助手,无论是日常家务还是特殊任务,未来的机器人将更加智能、可靠,为用户带来更好的支持和帮助。

https://news.mit.edu/2025/robotic-helper-mistakes-nudging-in-right-direction-0307

ad1 webp
ad2 webp
ad1 webp
ad2 webp