起猛了,好像看见狗骑自行车了!还跳上了比自己还高的桌子:
还有大家熟悉的波士顿动力Spot机器狗,展现出了前所未有的狂野一面——以5.2米/秒的速度狂奔,相当于时速11.6英里。
要知道,Spot的出厂版本最高速度是1.6米/秒。这意味着,它的速度提升了超过3倍!和以前简直判若两狗。
这些来自RAI研究所(前波士顿动力AI研究所)昨天夜里曝光的视频。
▍解放天性:从被动控制到自主探索
不过细心的观众可能已经发现,这只"狂飙版"Spot的奔跑姿态看起来有点怪异,完全不像真实的狗。
RAI研究所的机器人专家Farbod Farshidian解释说:"没错,这种步态确实不像生物,但别忘了Spot本身就不是生物。它的驱动器不是肌肉,运动结构也和真狗不同,所以最适合它的奔跑方式自然也会不一样。"
Farshidian能对Spot的运动方式做出的最好描述是:它有点类似于小跑步态,但增加了一个"飞行相"(四只脚同时离地),这在技术上使其变成了真正的奔跑。
Farshidian说,这个飞行相是必需的,因为机器人需要这段时间来连续向前收回脚步,以维持速度。
最神奇的是,这种奔跑方式不是研究人员刻意设计的,而是机器狗自己"悟"出来的。
研究人员只给了一个简单的目标:尽可能快地移动。至于怎么跑,完全由机器狗自己探索。最终它找到了这种看似怪异但效率最高的方式。
▍找到真正瓶颈:从MPC到强化学习
为什么原版Spot跑不快?问题出在控制系统上。
波士顿动力出厂的Spot使用的是模型预测控制(MPC)。简单说,就是先在软件里建立一个机器人的近似模型,然后实时计算最优控制方案。
这种方法很可靠,但太过保守。因为模型越精确,计算量就越大。为了保证实时性,只能用简化模型,自然就放不开手脚。
RAI研究所采用了完全不同的思路:强化学习。
这种方法的好处是可以离线训练。你可以用超精确的模型,在仿真环境中慢慢训练,最后得到一个高效的控制策略。
更厉害的是,通过这种方法,研究人员发现了一个意外的瓶颈:限制Spot速度的不是驱动器本身,也不是机器人的运动学特性:仅仅是电池无法提供足够的功率!
"这真是个惊喜,"Farshidian说,"我们原以为会先碰到驱动器的极限。"
如果能接入更强劲的电池,Spot或许能跑得更快。但目前研究团队无法访问电池电压数据,所以还没法把这部分纳入强化学习模型。
重点是,这种技术不只是为了让机器狗跑快。它可以用来提高效率、降低噪音,或者实现其他各种性能优化。这是一个通用工具,可以帮助任何机器人发掘潜力。
▍无需陀螺仪的平衡:会跳跃的自行车表现惊人
如果说让机器狗跑快还在意料之中,RAI研究所的下一个"黑科技"可能会让你大吃一惊:他们造了一辆会跳跃的自行车机器人!咋一看很像机器狗骑自行车!
这台被命名为"超级机动载具"(Ultra Mobility Vehicle,简称UMV)的机器人,看起来就是一辆小型自行车,但它能完成让人惊叹的动作:自主平衡、前后行驶,甚至能跳上比自己还高的桌子!
更神奇的是,这辆自行车没有任何陀螺仪之类的物理稳定系统。它就是一辆普通的自行车,只能前后移动和转动前轮。秘密在于车身上方集中了大量质量,通过特殊的驱动器可以快速上下运动。
"这个项目展示了两个关键突破,"RAI研究所苏黎世办公室主任Marco Hutter解释道,"首先是强化学习如何帮助UMV在各种复杂环境下保持稳定驾驶。其次是通过深入理解机器人的动态特性,让它完成跳上高台这样的高难度动作。"
看似简单的后退对UMV来说都是一项挑战。"后退时系统极不稳定,"Hutter说,"用传统的控制方法几乎不可能在崎岖地形或有干扰的情况下完成这个动作。"
在模拟环境中教UMV自主下楼梯,最终使真实机器人能够应对任意角度的楼梯:
RAI研究所表示,让这个机器人走出实验室到地形上进行真正的自行车跑酷还在进行中,他们将在不久的将来展示。
▍数据驱动进化:模拟与现实的良性互动
让机器人从模拟世界学到的技能迁移到现实一直是个难题。原因很简单:模拟环境对机器人太友好了。
"只要花够时间,你总能设计出让机器人完成任务的奖励函数,"Farshidian解释说,"但问题在于把模拟中的行为迁移到硬件上。因为强化学习太擅长发现模拟器的漏洞并利用它们完成任务了。"
不过,随着新工具的出现、动力学模型的完善和计算能力的提升,模拟正变得越来越强大。"我们现在几乎可以免费生成海量数据,这是一个巨大的优势,"Hutter说。
但数据的价值在于它与现实的联系。确保模拟足够准确,让强化学习真正解决现实问题,这才是关键。
RAI研究所的方案是:把真实硬件收集的物理数据反馈到模拟中。无论是奔跑的四足机器人,还是会跳跃的自行车,甚至是人形机器人,这种模拟与现实结合的方法都显示出巨大潜力。
就在几周前,RAI研究所宣布与波士顿动力合作,致力于通过强化学习推进人形机器人的发展。虽然人形机器人有更多自由度,建模和模拟都更复杂,但在传统控制方法面临瓶颈的情况下,强化学习似乎是一个必然的选择。
"作为一个研究所,我们的目标是开发适用于各种平台的通用解决方案,"Hutter说,"这不仅是关于构建工具和基础设施,更是为了在更广泛的背景下应用这些技术。在模拟环境中做强化学习研究并展示概念验证是一回事,但要让它在各种条件下都能在现实世界中可靠工作,同时突破性能极限,这是另一个层次的挑战。"
看来,无论是奔跑的机器狗,还是会跳跃的自行车,或许都只是RAI研究所野心的开始。