王坚对话波士顿动力创始人雷伯特：机器人进家庭是最后一步，至少还需10年

12月6日-7日，2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办，以“ALL-in on Globalization ，ALL-in on AI”为主题，汇聚全球科技和商业领导者，共同探讨人工智能对全球各行业的巨大影响，以及企业全球化增长新格局新趋势。作为钛媒体集团每年年终举办的科技和财经领域的顶级盛会，T-EDGE一直代表了钛媒体在科技与经济前瞻性，以及推动国际创新交流上的高质量追求。

12月7日T-EDGE 全球AI论坛：All-in On AI会议上，人工智能研究所执行董事、波士顿动力机器人创始人马克·雷伯特（Marc Raibert），中国工程院院士、之江实验室主任、阿里云创始人王坚，围绕机器人领域的发展与 AI 赋能机器人应用等话题展开深度对话。

这是在国内中美AI与机器人领域顶尖创新者的首次探讨交流，在当前变局环境下极为难得。

今年75岁的雷伯特，是Boston Dynamics（波士顿动力机器人）创始人。在此之前，他曾任麻省理工学院计算机科学和电子工程系教授，以及卡内基·梅隆大学计算机科学和机器人学副教授。在卡内基·梅隆大学，雷伯特创立了一间研究动力机器人科学根据的实验室，并研发出第一款能自己平衡的跳跃机器人。

雷伯特在圆桌对话中表示，AI 与机器人已经是一个交叉性学科体系，AI 技术对于机器人领域的发展起到重要推动作用。如今，人形机器人概念风靡全球，全球有超过50家人形机器人企业，中国不仅占比很高，而且还有大量的机器人领域优秀人才。但是，如果考虑机器人的商业化，未来2-5年，人形机器人会依然在做货物的搬运，进入家庭实现商业化还是非常困难。

在美国有一种说法：“如果它看起来像鸭子，走路像鸭子，叫声像鸭子，那它就是鸭子。”可在机器人领域不适用。我们可以让人形机器人走路像人类，跳舞像人类，看起来像人类，但它的执行机构、控制方式、感知系统、甚至道德和野心都与人类不一样。人形外形不等于人形内在，人们需要更清晰地思考自己的目标。所以，我们必须考虑机器人未来能发展成什么，机器人的发展就像是登珠峰一样（难）。”雷伯特预测，未来十年，全球可以会产生一个实用但非全功能的机器人，帮助人类做更多任务。

而有着心理学研究背景的王坚则对机器人有着不同角度的思考，他表示：“我见过一些用户，他们买一个类人的机器人放在客厅，就是为了和它对话，而不需要它真的像人类一样干活，这让我真正受到了触动。当我们希望一个机器人看着像人的时候，我们的潜意识实际上是希望和它交流的。这样AI就成了关键，这已经超出传统机器人技术的范畴，更像是产品设计问题：如何设计一个人们喜欢与之互动的机器人产品。因此，我对当下的技术倍感兴奋，因为机器人和AI的技术已经足够好，可以做出真正好的产品，但挑战是如何设计这样的产品。”

王坚也认为，未来5-10年，我们家庭中会出现类似机器人的产品，就像电视、洗衣机一样，会有新的陪伴式 AI 机器人硬件产品进入家庭。

以下是波士顿动力创始人Marc Raibert、王坚院士在钛媒体2024T-EDGE上的特别对话编译和整理：

特别对话嘉宾：

马克·雷伯特（Marc Raibert）：人工智能研究所执行董事、波士顿动力机器人创始人；
王坚：中国工程院院士、之江实验室主任、阿里云创始人；
主持人Craig Smith：美国知名媒体人、钛媒体驻美国特约作者、Eye-on.AI创始人

Craig Smith：能够见到在AI领域享誉全球的王坚真是太令人激动了，今天还能见到我一直以来就想见的Marc，也很高兴见到你。

我们今天要讨论的话题是我长期以来都很关注并常感困扰的一个问题，即公众对机器人与AI（人工智能）的混淆。它们是截然不同的学科领域，尽管两者确实存在重叠，并且这种重叠还在不断增加。但每当我看到一篇关于AI的报道却配上机器人的图片时，我都会有些不舒服。这正是我想先谈谈的一个点：区分机器人与AI。Marc，你在波士顿动力（Boston Dynamics）一直在做机器人相关的工作，也许你可以解释一下现有机器人中到底有多少是AI驱动的，又有多少是传统控制理论（人工设计的控制方法）的产物？

然后还有一个延伸问题是：传统控制理论式的工程设计，现在能在多大程度上被大型语言模型（LLM）所完成？换句话说，那些实际编程的工作能否由这些新型的生成模型来承担？

Marc Raibert：我非常同意您所说的，机器人并不等同于AI。最近我一直想用更宽泛的思路去定义什么是机器人、什么是AI，但很多人会混为一谈。不过回到你的问题：你在波士顿动力看到的许多机器人行为，很大程度上是所谓的传统控制方法的结果。这些传统控制方法是来自研究机器工作原理、机构运转、视觉系统工作方式的专家们设计和开发的。现在的控制变得越来越复杂，如果你是做机器人技术的人，你可能知道MPC（模型预测控制）在这些演示中起了很大作用。但强化学习（Reinforcement Learning）也已近在眼前，我认为强化学习与传统技术专家相结合，将在机器人能力上取得重大突破。

不过我也认为人们对“学习驱动”的方法存在过度乐观的倾向，这种乐观目前还没有完全被证明是合理的。许多人相信，也许是因为语言模型的成功，认为不久之后机器人控制就能全部依靠自我学习，甚至是端到端的全自学。但我觉得结论还未定。在我的研究所，我们确实有一些人致力于这种极端的端到端数据驱动方法，同时也有一些人继续研究理论和传统方法。我坚信未来最好的解决方案会来自不同技术方法的交叉融合。

另一点是，这一切还要看时间尺度。在未来的某个时间点，也许学习型方法会全面占优。但如果你想在当下，或者未来几年，甚至5到7年内，在产品中做出有用的东西，传统方法依然会发挥巨大作用。我甚至不太喜欢用“传统”这个词来称呼这些方法，因为与过去两年的新趋势相比，它们才算“传统”。

Craig Smith：像Atlas这样的机器人在做跳跃或翻筋斗等动作时，这些程序设计如今有多少是能用LLM类型的代码生成器完成的呢？不一定非要是LLM，也可以是其它生成式或基础模型。

Marc Raibert：我想越来越多的编程会借助这些模型来完成。我展示过的Spot和一些人形机器人仿真工作也都在朝这个方向推进。我相信在某些动作上，我们能用这些方法达到传统MPC或控制方法无法实现的效果。但我仍然认为，这是一种混合。当中那些有控制理论背景并实际搭建过硬件的人才仍是推动这一领域前进的重要因素。

我对纯学习领域的一点抱怨是：他们对行为标准的要求非常宽松，并非在做高性能又困难的任务，而是更关注“机器人在所给任务上的改善”而非“高水平完成有用的任务”。

Craig Smith：我想问问王坚，目前中国在这个领域处于何种位置？中国要么是领先，要么是紧紧追随，很难分辨。就像网络视频里，有些令人惊叹的机器，他们在杭州也有类似公司。请谈谈中国在这个领域的总体情况吧。

王坚：是的，就像Marc在展示中提到的，他列出的一家公司宇树科技就在杭州。我认为这不仅是中国，在美国以及全世界范围内，人们都在探索这一激动人心的话题。Marc在他的研究中提及了两个重要概念。你提到两种类型的智能，这给了我们一些有启发性的思考方向，让我们重新思考我们所处的位置和如何行动。

我认为挑战不仅仅存在于中国，而是普遍的。这就像你问机器人和AI的关系。对我来说，这就像20、30年前心理学中的一个基本问题，即“心智与身体”的问题。对当下的机器人和AI而言，也是一种“心智与身体”的关系问题。健康的心智必须依托于健康的躯体，没有身体就没有健康的心智。这是我们一直在追求的目标。

如今，我们讨论的是如何让“心智”与“身体”作为同一个系统协同运作，就像人类一样。不过我会在机器人或AI前面加上一个定语，我想强调人类智能与机器智能是有区别的，人类的身体与机器的身体也是不同的，尽管架构看似相似，但本质可能有根本区别。这是我相信的。正因为如此，在中国我们拥有足够的资源去探索不同的路径，这非常令人振奋。

Marc Raibert：我想补充一点：除了它们的差异之外，这些差异还意味着我们有改进AI的机会，比如用更少的数据实现更好的性能。“一次性学习”（one-shot learning）是许多人在努力的目标。现在这些语言模型已经很强大了，但并非终点。我相信未来还会有许多新方法出现，也许有些来自对人类的研究，也许有些来自全新的创意。

王坚：没错，以中文来理解“人工智能”这个词，听起来和英文的Artificial Intelligence并不完全一样，更像是“模拟人类智能”的意思。虽然机器和人类不同，但当机器在某些方面表现优于人类时，并不能简单说它“打败”了人类，这与人类智力与机器智力的对比是不同层面的。今天的技术进步已经使我们超越了1950年代时将AI直接与人类做一对一比较的阶段。我们现在应该思考如何将技术提升到新层次，而不是仅仅比较谁更强。

Craig Smith：Marc，你最初是以一条腿跳跃的“弹簧高跷”式机器人开始的，这并不像我见过的任何动物。你后来又发展出类动物或人形的机器人。有一个让我印象深刻的是你们在仓库里用吸盘抓取盒子的机器人。展望未来，你认为进入经济领域的机器人会更倾向于人形？还是类似动物形态？或是完全不同，比如一个有吸盘手臂的机械装置（自然界中并没有类似的生物）？

Marc Raibert：这是一个非常好的问题，尤其是现在全世界至少有50家以上的公司在做类似人形机器人的项目，可能还不止50家。在中国，我在北京的世界机器人大会上看到27家公司展出人形机器人。北美也有六七家，我相信不断有新公司出现。欧洲也是如此。

我认为这要看你的时间预期。如果你想在未来2到5年内就想让机器人盈利，完成一个高性能的特定任务，那么你不应该追求通用形态的机器人，而要针对性设计能出色完成特定任务的机器人。比如我们那个只用来搬运纸箱的机器人，它只能搬纸箱，却做得很好。有些人想，既然人类什么都能做，那么做个人形机器人也就能什么都做。也许将来有一天会实现，但还需要很长的路要走。

还有一句话，在美国有一种说法：“如果它看起来像鸭子，走路像鸭子，叫声像鸭子，那它就是鸭子。”可在机器人领域不适用。我们可以让人形机器人走路像人类，跳舞像人类，看起来像人类，但它的执行机构、控制方式、感知系统、甚至道德和野心都与人类不一样。人形外形不等于人形内在，人们需要更清晰地思考自己的目标。

我个人喜欢人形机器人，因为那是像攀登珠穆朗玛峰一样的挑战，但我并不是为了明年就赚钱才去做它们的。

Craig Smith：在中国，很多人形机器人公司都在出现。你觉得这背后有某种雄心吗？比如在日本，我知道他们因为老龄化社会而投入大量资源于机器人，希望有朝一日能出现一支人形机器人队伍帮助护理老人。中国也面对老龄化问题，这会不会成为中国的关注点？

王坚：是的，这在中国也是一个话题。人们讨论机器人帮忙照顾老人，但我认为这并不是唯一的焦点。放在更大图景里看，即便在今天的生成式AI出现之前，人形机器人就已是个大热点，中国有很多公司在做。在问中国有多少公司在做机器人时，很难统计，因为非常多。

我见过一些用户，他们买一个类人的机器人放在客厅，就是为了和它对话，而不需要它真的像人类一样干活，这让我真正受到了触动。当我们希望一个机器人看着像人的时候，我们的潜意识实际上是希望和它交流的。这样AI就成了关键，这已经超出传统机器人技术的范畴，更像是产品设计问题：如何设计一个人们喜欢与之互动的机器人产品。因此，我对当下的技术倍感兴奋，因为机器人和AI的技术已经足够好，可以做出真正好的产品，但挑战是如何设计这样的产品。

Craig Smith：对，我也觉得在家中摆放一个可以交谈的人形机器人很有价值。以色列有家公司在做一个“桌面头部”机器人，虽然不像人头，但专门用来和老人聊天陪伴。

Marc Raibert：还有很多公司在做所谓的宠物机器人、陪伴机器人，这些不一定像人。有的人甚至想做可以理解真实宠物意思的AI，不管怎样，人们普遍觉得需要陪伴。宠物是一种陪伴方式，也许机器人也是一种。不过说到商业化，我认为家庭是最困难的地方，因为安全问题、家庭环境的非结构化、多样化、成本要求都很苛刻，在工厂和仓库里实现投入产出比要容易得多。

Craig Smith：对，在家中让一个人形机器人坐在沙发上，万一它站起来可能存在安全风险。我想到Sony的Aibo机器狗，当年停产时还引发了日本用户的极度悲伤，人们像失去家人一样。

Marc Raibert：那是个文化现象。我当年与索尼合作Aibo时，在东京做过一个面对Aibo爱好者的演讲。台下很多人戴着Aibo吊坠，有人甚至举办过Aibo婚礼。Aibo是一种文化现象。

Craig Smith：也许在未来的市场里，会出现一条分界线：一种是人形或陪伴型机器人用于家庭，另一种则是工业或军用机器人适合在复杂环境中工作。说到学习能力的问题：我们昨晚谈过在机器人中融入强化学习。目前在研究将强化学习用于现有机器人训练。你认为要多久才能让机器人像生成式模型那样，从环境中自主学习并表现出超出设计者预期的行为？

Marc Raibert：我知道丰田也在尝试通过行为克隆等方法，让人类先远程操作收集数据，再让机器人用这些数据自行完成任务。许多人在追求这一方向。与语言模型从网络抓取文本数据不同，机器人需要对触觉、真实视觉进行数据收集，这种数据很难像文字那样轻易获得。现在已有一些公司专门为此采集这类数据。

我认为有一个连续光谱：从完全由人类设计到完全由机器人自学。从过去直到现在，我们一直有人类在回路中——由工程师通过机器人收集的数据来改进设计，真正的端到端全自学可能是最难的阶段。我认为在很长一段时间内，人类对机器的结构性设计依旧重要。也许终有一日某些问题能实现端到端自学，但那是比较久远的事情。

王坚：谈到机器人和人的互动，我们刚才提到了陪伴机器狗，大家特别喜欢这个陪伴机器狗，因为它能够陪伴，其实这涉及人机交互，人们会抚摸它，与它互动。这些触觉数据和交互数据对机器学习也很重要。今天很多人都想要完全自主的机器人，但我不确定这种想法是否过于狭窄，是否限制了我们对其他方法的探索。就像今天的LLM很成功，但这并不意味着只有LLM一种基础模型方法，还有很多路线可以探索。

Craig Smith：我们日常使用的汽车本质上也是一种机器人，自主驾驶系统相当于在这个机器人里装上“大脑”。在无人驾驶方面，中国的部署速度也很快，这让我觉得中国愿意承担更多风险。

王坚：是的，中国很大，但不仅仅是一个大市场，更是一个能验证和磨练技术的场所。大市场意味着你有机会将技术投入实际使用，验证成熟度与可行性，而不只是销售。当技术尚未成熟时，中国广阔的环境提供了快速迭代和验证的机会。因此中国的确提供了一个测试技术成熟度的舞台。

Marc Raibert：当然，中国的机器人发展，我确实看到市场上有非常多有智慧的人，他们是非常认可这个领域的。对于任何一个公司来讲，如果想要成功，就需要有人才库，需要有这样的一些人才，这肯定是一个非常令人敬佩的人才储备。

王坚：是的，我完全同意Marc的看法。当有大量年轻人对这项技术充满热情，就能推动技术不断前进。有了这种热爱与激情，未来就有希望。

Marc Raibert：我有时都觉得自己有点走运，我能从事自己热爱的工作，每天上班都不是负担，还有人付我工资。我认为对于任何一位能从事自己热爱领域的人来说，这都是再好不过的境况。

Craig Smith：回到将AI“大脑”与机器人“身体”结合的问题：无论是通过控制理论还是极端的神经网络方案，这种融合进展如何？现在有多少机器人具有AI大脑来辅助控制并允许与人类的交互？

Marc Raibert：我认为随着对硬件和软件双方的深入理解，以及团队之间的紧密合作，进展会更快。在早期模拟中，如果模拟开发者有硬件经验，模拟的效果和对软件的帮助就更大。如果只懂软件而不了解硬件，成效就差点。我有些担心美国硅谷的软件派认为只要软件足够智能，随便什么硬件都行。我并不认同。即使现在软件能推动硬件发展，但终有一天硬件会再次成为瓶颈，到时钟摆又会回到硬件这边。

Craig Smith：我注意到美国AI机器人实验室里使用的机器人手臂大多是简单的夹爪结构，这是相当粗糙的硬件。在中国情况如何？中国的AI机器人研究是不是也大多用这种简单硬件，还是有人尝试更复杂的人形或其他先进硬件？

王坚：我相信即便没有特定硬件，我们也能利用AI做很多事情，毕竟有足够的算力就行。但如果有了好的硬件配合AI，就可能实现更惊艳的突破。许多中国公司都在尝试，因为他们相信在硬件、软件与AI能力的结合上有巨大的潜力。深圳就是一座硬件之都，可以快速低成本地制造出各种原型，这对探索各种形态的机器人非常有利。还有许多城市里大量的工程师同时尝试不同方向，这种规模化工程与研究会加速技术积累与进步。

Marc Raibert：回到刚才提到的自动驾驶汽车，我想举这样一个例子，在旧金山有一个事故，其中有人死亡了。这个事故当中，有自动驾驶汽车，但其实我觉得是人类驾驶的汽车，是人错误驾驶汽车的责任，但因为这个事故里有自动驾驶汽车的参与，所以引起了很大的讨论。其实我觉得，自动汽车会比人类驾驶的汽车更为安全，就像机器人一样，我们会把机器人送去工厂，但可能会出现人受伤的情况，一旦出现了事故，人们可能就会不再使用机器人了。

王坚：即便使用了机器人，其实工人的安全反而能够得到更好的保障，不管是在旧金山、中国或者是欧洲。我觉得不同的文化差异，可能会带来不同的想法。我想到几天前，我也讨论过这个问题，就像最开始人们会说X光对身体是有害的，但是后来人们会意识到X光其实是能够给人类带来帮助的，现在又到了这么一个阶段，我们认为AI机器人有很大的力量，但我们还不知道它能够做什么。

就像你从家开车到机场，你在路上发生事故的可能性要比你坐飞机出事故的可能性要高得多。很多技术发展的历史，其实都会有这么一个阶段，很多人因为害怕AI，所以他们希望AI受到更严格的监管。

Marc Raibert：我很赞同，我也觉得AI会解决很多问题，它解决问题的能力，要比它所带来问题的能力要强得多。我自己并不害怕AI，但我知道很多人都会很担心，很害怕AI，我不知道这是教育的问题，还是传播的问题。

王坚：今年9月，我在纽约联合国的办公楼开了个会。在这个会上，联合国发布了一个文件，在讲治理AI，我们参会的这些人都拿到了这份文件。在这个文件发布之后，我们参会的二十几个人自己组织又开了一个闭门会，我们觉得AI当然有安全问题，但我们认为安全并不是AI的全部，我们把这个认识叫做曼哈顿宣言，就是为了表达我们代表科学界有了一个共识。AI的能力不但包括机遇还有安全，这就是我们所谈到的内容，我们必须把机遇和安全问题放在一起来讨论，我们也需要这样的平衡。

Craig Smith：快到对话结束的环节了，我想问一个观众总爱问的问题（专家们也许不喜欢）：你们对人形机器人进入家庭有用武之地的时间表有什么预测？

Marc Raibert：我觉得家用场景可能是最后的场景，而且我觉得会是有限的使用场景，就像刚才你谈到的一些任务，我不知道。

Craig Smith：可能永远都不会？

Marc Raibert：我不是说永远都不会，但是会需要很长时间。

王坚：我可能更乐观一些，我觉得5-10年我们会在家里出现类似机器人这样子的东西，就像电视、洗衣机，我想会有新的这样的硬件进入到我们的家庭，我觉得是5-10年一定会出现。

Marc Raibert：我同意10年后肯定会有某种有用的机器人家电出现，但它可能不会是全能的人形机器人。

Craig Smith：10年后如果我还在，我们再见面，到时候看有没有实现！届时身边可能有个机器人给我们端茶倒水。

（本文首发钛媒体App，编辑 | 刘湘明）