引言
Patrick:
我今天的嘉宾是 Sergey Levine,他是 Physical Intelligence 的联合创始人之一,也是一位研究员。先做个免责声明:我是 Physical Intelligence 的投资人,因为我相信它是正在攻克机器人问题的最重要公司之一。正如你们今天会听到我们讨论的那样,机器人领域存在一个我会称之为“稻草人问题”的东西。各种令人惊叹的物理设备,正以越来越多很酷的形态变得可能,但它们真正需要的,其实是一种智能——一个大脑。
这也正是 Physical Intelligence 正在构建的东西。他们试图开发基础模型,让任何物理机器人都能在任何环境中完成任何任务。我们今天的谈话,主要围绕机器人领域面临的所有问题,以及一旦解决这些问题会给世界带来的巨大可能性。希望你们喜欢这次与 Sergey Levine 的精彩对话。
适用于每一种机器人的一个模型
Patrick:
Sergey,这次对话肯定会非常有趣,也会让人很兴奋,因为我们要学习的,可能是当下正在开发的最令人激动、也最具影响力的科技领域。先给大家搭个背景,然后我们再回到过去。如果可以的话,你先定义一下,在你看来,什么是 physical intelligence。
Sergey:
从根本上说,physical intelligence 的目标,是开发能够控制基本上任何具身系统、去完成任何任务的机器人基础模型。广义上讲,你可以想象一下,语言模型正在快速演进,逐渐变成一种能够完成任何可以用语言表达的任务的系统;而我们想要构建的,是一类新的模型,它能完成任何可以由物理驱动设备完成的任务。
这家公司的一部分核心论点是,我们相信,从长远来看,以完全通用的层面来做这件事,实际上可能比针对非常具体、狭窄的应用领域做特殊定制更容易。这一点和语言模型非常相似:后来我们发现,在某些方面,以完全通用的方式解决自然语言任务,反而比狭窄地针对机器翻译、情感分析之类的任务来做更容易。
Patrick:
你为什么会押注这个方向,而不是做一个只会洗碗之类事情的机器人,这一点可能不是那么显而易见。这里最关键的权衡是什么?为什么你们会做出现在这个选择?
Sergey:
在自然语言领域,我们看到过很多努力,都是在开发面向特定领域的解决方案,去处理具体问题。比如有人会花很多时间思考英语和法语有什么差异,然后构建一个机器翻译系统。
语言模型之所以接管了所有这些不同的应用领域,是因为它们可以利用更广泛的数据来源。
这甚至不只是简单地说,哦,我们有这个应用的数据、那个应用的数据,然后可以把它们合并起来。实际上不止如此。当你能够利用弱标注数据时——对于语言模型来说,就是从网页上挖掘出来的数据——你其实是在学习更多关于世界的东西。你建立起一个世界理解的基础,然后在这个基础之上,事实证明再去构建不同应用会有效得多。
把这件事放到机器人领域来看,计算方式并不完全一样,因为在机器人领域,我们没有一个互联网规模的数据集可以直接拿来用。但“理解世界”这个概念,在机器人领域如果说有什么不同的话,反而更加重要。因为如果你有很多不同任务,甚至有很多不同的物理系统,那么你就可以不再训练一个个独立的洗碗专家、叠衣服专家,而是训练一个真正理解物理交互的模型。人类能够非常非常快地掌握新技能,因为我们理解物理交互。我们能直觉地把握在一个新的、但又熟悉的情境中会发生什么,然后非常非常快地把事情启动起来。
如果我们能从很多来源、很多应用、很多机器人那里获取数据,那么我们就可以得到一个具有物理理解能力的模型,而在这个平台之上构建新应用,就会容易得多得多。
Patrick:
对你来说,以这种方式构建系统最难的部分是什么?当你看到其他一些方法,它们对普通人来说更容易理解——比如有个机器人在四处移动,做某一件特定的事,看起来是某种样子。你们这种方法在实践中最难的地方是什么?
Sergey:
我觉得这其实是我整个职业生涯中一直存在的一个问题,因为当你做机器人学习时——越是通用,这一点就越重要——有效的机器人学习、有效的泛化,其实并不是做出一个非常令人兴奋的 demo 的最佳方式。
要做一个非常令人兴奋的 demo,最好的方法是选一个特别酷的任务,把环境里的其他一切都控制好,把它设置得非常干净、非常完美、非常理想,然后只让它在那个场景里跑通。这就是做机器人 demo 的方式。
而泛化能力,你没法只在一个地方展示出来。泛化的重点在于,它做的是相对普通、任何人类都能做的事情,但它可以在任何情境下做。
我们去年四月发布过一些 demo,展示我们的机器人清洁厨房。这个很酷,但如果你脱离背景只看单个视频,就会觉得,哦,好吧,它就是在拿盘子,谁都会拿盘子。区别在于,我们只是为了那个 demo 把它放进了那户人家,而且它从来没有在那个环境中获得过训练数据。
所以很明显,你必须理解背后发生了什么,才能欣赏为什么这其实是在推动前沿。
Patrick:
你怎么看你们正在做的事情的重要性?如果你们成功了——我也很好奇你怎么定义“成功”,除了说我们跨越了通用 physical intelligence 这道鸿沟之外。如果你们真的跨过去了,那然后呢?
Sergey:
我认为,一个通用具身基础模型能够实现的一件非常令人兴奋的事情,是释放人们在构建机器人和其他具身系统时的想象力。
在我看来,个人电脑是一件非常重要的事情,因为它让很多人可以拼凑、折腾出各种非常酷的东西。于是从 90 年代开始,出现了一场令人惊叹的应用“寒武纪大爆发”,后来又被互联网进一步加速。
我认为类似的事情可能会在机器人世界发生,但今天还做不到。因为如果你想做一个很酷的新机器人应用、一个很酷的新机器人想法,你必须搭建一个庞大得吓人的技术栈,而且基本上还得解决智能问题。
但如果有一个解决方案可以让别人构建在它之上,如果有一个你可以提示的基础模型,它能够提供基本功能,然后你再稍微微调一下,或者以某种方式调整到你的应用中,那么对很多人、很多公司、很多个体来说,尝试各种不同的事情就会变得可行得多。
有时候我们会以为机器人会是一种东西:现在有人类,然后我们会造出金属人,那就是机器人。但我不认为未来会是这样,因为没有哪项技术是这样发展的。它更像是一个工具箱,你可以用它组合出各种非常酷的应用,发挥极大的创造力。也许我要做一个有五条手臂的机器人,这条手臂长这样,会这样运动;那条手臂挂在天花板上。然后你去找出最适合解决你所在领域问题的东西。也许你还会在软件上做实验,但你需要一个合适的平台,在它之上做这些事。我认为基础模型就可以成为这个平台。
超越人形形态
Patrick:
在你看来,人形机器人路线的优点和缺点分别是什么?
Sergey:
它有很多价值。它在激发想象力方面很有价值,也很有价值的一点是,它能让人们以一种容易理解的方式去思考未来可能是什么样子。在我看来,它是我们很可能会拥有的许多种机器人之一。
对所有这些不同机器人来说,智能所面临的挑战看起来非常相似。我不认为我们应该在某一种具体身体形态的语境下去解决智能问题。我认为我们应该以通用方式处理它,否则就很难真正抓住这个问题。我们需要大量数据。能够制造机器人的酷之处在于,最终它们完全不必受限于长得像人。你可以为工作打造合适的工具。你可以想象,建造一栋房子的机器人可能是由 1,000 架四旋翼无人机组成的集群。
我认为未来我们会拥有一个机器人基础模型,然后它可以被适配到各种应用中。它的范围可能非常广,从推土机之类的东西,到人形机器人,再到机械臂。也许它需要针对每一种形态进行适配。也许它需要微调。也许它需要一些上下文信息来理解这个身体是如何工作的。
但你如何与物体交互、事物在世界中如何移动、因果关系如何运作,这些基本规律对所有这些不同系统来说都是保持一致的。
Patrick:
有没有一个你最喜欢的例子,说明真正的通用智能可能实现什么,而仅限于人形智能之类的东西则无法实现?
Sergey:
有几件事我觉得值得思考。第一,我们可以制造非常大的机器,也可以制造非常小的机器。这绝不是短期内的事情,但从长远看,我认为在医疗和外科手术中会有很多非常令人兴奋的应用。在那里,我们从长期来看不仅可能不再局限于长得像人的机器人,甚至可能不再局限于能够由人类控制的机器人。
比如现在,在机器人手术中,完全是通过遥操作完成的,所以你需要某种东西,能够让人以合适的灵巧程度实时控制。当然,这个限制对目前基于学习的系统也同样存在,但长期来看,我们可以想象去突破它。
机器人简史
Patrick:
想想机器人研究时间线上那些最重要的刻度,它们把我们带到了今天。我一直觉得,在讨论今天的状态以及未来走向之前,先建立历史背景是非常有帮助的。你能带我们过一遍吗?
Sergey:
在某种层面上,对机器人系统做端到端控制是一个非常非常古老的想法。比如最早使用端到端学习的自动驾驶系统,在 1980 年代就已经存在了。Alvin 是 1986 或 1987 年的系统,它被展示过可以在高速公路上行驶,由一个神经网络控制,并且输入来自摄像头。那个神经网络非常小。
这里有一些非常古老而受人尊敬的概念,但从历史上看,机器人学习真正困难的地方在于:你需要一个系统,能够处理你想解决的应用;它在针对这个应用训练时还得具备成本效益,也就是说你不需要为每一个想处理的应用都收集海量数据;它还要能用常识处理长尾场景,也就是说,如果世界里发生了一些奇怪的事情,它需要对此做出合理反应;然后对于它真正应该做的事情,它还必须稳健、快速、可靠。把所有这些东西结合在一起非常非常难,因为机器学习最擅长的是在有大量数据时工作。
所以如果你以一种有点天真的方式去处理机器人问题,说我想让机器人洗碗,显而易见的做法就是收集大量洗碗数据。但这不具备成本效益,因为接下来你进入下一个应用,又得重新经历整个过程。能够训练可以处理许多任务的通用模型,对这件事至关重要,因为这样一来,每个新任务所需的数据就少得多。
但更进一步——这可能是过去几年变化最大的地方——你还需要处理异常场景。对于异常场景,你很可能没有经验。你需要依赖的是你从其他来源获得的知识,并把这些知识落地到新情境中。人类在这方面极其擅长。
如果你开车时,路中间出了点事,有人竖了个牌子,上面写着“别走这里”,可能是燃气泄漏之类。你很可能以前从没经历过这种情况,但你可以把这些东西联系起来,弄清楚在这个不寻常的情境中该怎么做,因为你有常识。
这一直是机器人学习世界里的一个巨大谜题:这种常识从哪里来?这也是过去几年发生变化的地方。因为事实证明,多模态语言模型非常擅长吸收知识,并尝试表达这些知识。它们不太擅长把这些知识落地到物理情境中,但它们知道很多东西。
有一条路径可以获得这种常识,本质上就是利用多模态 LLM 中包含的知识。但这里也有一个挑战,因为你必须以正确的方式接入这些知识。你不能只是给它看一张图片,然后说“你会怎么做”,因为它没有上下文。它不知道你是一个机器人,不知道你长什么样,不知道正在发生什么。这是一个技术挑战,而我们已经在解决这个技术挑战上取得了一些进展,整个研究社区总体上也是如此。但最重要的是,这就像隧道尽头的光。现在我们有了一种方式,可以引入大量知识,帮助我们处理这些长尾场景。
Patrick:
在这条时间线上,有没有相当于 AlexNet 或 Transformer 那样的刻度?有没有一些你认为未来写历史书时所有人都会指向的重大事件?
Sergey:
我觉得现在还太早,无法给出确定答案。大概最早的端到端学习系统,也就是 80 年代的那些,绝对是一个里程碑。2010 年代早期的第一批深度强化学习系统,可能也是一个里程碑,因为深度强化学习给了我们一种超越人类水平表现的方式,而我认为这对机器人系统会至关重要。
然后就是更近的一些东西,但我还不知道最终历史会如何评判它们,是否会成为人们指向的节点。不过我确实认为,多模态 LLM 的出现,并且这些模型可以被适配到机器人控制中、引入那种常识,这是一个非常重要的进展。我觉得未来几年我们可能会看到相当多重要事件,也许那些才会是人们最终指向的东西。
Patrick:
你能讲讲你个人是如何接近这个问题的吗?也许从你最早什么时候、为什么对它产生兴趣讲起,然后讲讲从那以后你是如何决定把自己的时间和注意力投入在哪里的。
Sergey:
我是在 2014 年开始做机器人研究的。那时我完成了博士学位,然后在 UC Berkeley 跟随 Pieter Abbeel 教授做博士后。我以前也做过机器人,但我觉得完成学位后应该再接受一些教育,而他的实验室做机器人,所以我就尝试把我之前学到的东西应用到机器人领域。在那之前,我做的是计算机图形学。
我一直真正想弄明白的一件事,是如何让 AI 系统在做事情的过程中变得越来越好,因为我认为这极其强大。如果你能有一个系统,它做某件事越多,就越擅长做这件事,而且能持续变好,那就没有上限,它可以掌握你希望它掌握的所有技能。
一开始,我尝试以一种非常“白板”的方式来处理这个问题。你从零开始,练习一个特定技能,然后在这个技能上变得更好。你可以在有限场景中做到这一点,并得到一个可用的东西,但很难把它变成一个能在开放世界环境中工作的通用系统。因为如果我在这里练习某件事,然后它去了那里,现在有些东西不同了,它就需要重新练习一遍。
后来我在 Google 工作时,尝试看看我们能不能做这件事,但把它并行化到很多机器人上。所以就是集体学习。你能不能把 20 个机器人放在一个房间里,让它们一起学习?这是可行的,而且能泛化,但它很难处理那些尾部情况、边缘情况。现在它变成了某个特定任务的天才,而这就是它对世界所知道的一切。
下一步就是我前面提到的,把这种练习技能的能力与大量先验知识结合起来。这其实是一个非常非常难的问题。不只是机器人领域里难,我认为它在整个 AI 领域都很难,因为可以说,过去几十年 AI 中两个最令人印象深刻的成果是生成式 AI 和深度强化学习。如果你想各举一个代表性例子,生成式 AI 就是 LLM,深度强化学习就是 AlphaGo。
它们都非常非常令人印象深刻,而且令人印象深刻的原因非常不同。生成式 AI 令人印象深刻,是因为它可以复现一些人类能做的事情。比如它能画出像人画的图,写出像人写的文本。深度强化学习令人印象深刻,则是出于相反的原因:它能做出人类没有想到的事情。
最大的挑战,也是我正在努力的方向、也希望在 Physical Intelligence 这里弄明白的事情,就是如何把这两条线索结合起来:如何把生成式 AI 带来的所有知识引入进来,同时又通过强化学习超越人类水平表现。
视觉、语言、动作
Patrick:
为了实现这件事,你们具体已经做了什么,现在又在做什么?
Sergey:
过去几年里,我们首先从开发基础开始。这个基础叫做视觉-语言-动作模型。视觉-语言-动作模型,你可以把它看成是一个被适配到机器人控制上的 LLM。
这些东西的训练方式是:它们首先在文本数据上训练,然后用大量来自网页的图像数据进行适配,从而理解图像;接着再用大量非常多样化的机器人数据适配到机器人上。这是一个起点。这是一种把所有网页知识放进一个能够控制机器人的模型里,并从中得到一些有趣行为的方法。
然后从那里开始,我们研究了两条线:如何让它用常识处理异常情况,以及如何让它通过强化学习提升自己。
获得常识的方式,本质上是使用思维链。机器人进入一个场景后,不是直接开始移动,而是先思考它被要求做什么。所以如果你告诉它“清理厨房”,它会看着场景然后说,基于这个情况,我应该先拿起盘子。然后它去做。
这会释放所有这些先验知识,因为这些中间推理受益于网页规模的预训练。这样可以处理边缘情况。然后强化学习部分会在它练习了几次之后介入,它可以通过自己的经验持续在任务上变得越来越好。比如我们有一个做 espresso 的 demo。那个系统练习做 espresso 很多很多次,并利用这些练习提升稳健性、提升速度、提升吞吐量。
我们在这方面还没有完成。我认为还有很多工作要做,但我们已经有了起点。
Patrick:
机器人数据本身,正确的理解方式是不是这样:我在看这些东西的第一代,我看到这里有一个摄像头,也许其他地方还有一些传感器。它本质上就是由战略性放置在机器人不同部位的各种传感器收集的数据吗?
Sergey:
是的。关于传感器,我想说的一点是,我认为你其实可以用比人们想象中更少的传感器,仍然做很多事情。这里这个平台有三个摄像头,每个手腕上一个,还有一个底座摄像头。它没有触觉传感,没有力传感。
它非常基础,也非常低成本。我相信更多传感器可以让它变得更好,但一个好的学习方法其实可以相当好地弥补传感能力不足。手腕摄像头本质上是一个伪装成摄像头的触觉传感器,因为当你触碰某个东西时,你可以看到局部形变。
Patrick:
如果我类比 80 年代和 90 年代基础 AI 里的专家系统,再到“规模就是你所需要的一切”这个经验,以及它那种反直觉的性质——你并没有教它任何具体东西,只是用数据猛灌它。而那里有一个互联网数据的蓄水池。谈谈机器人领域这个蓄水池,如何创造所需的数据蓄水池。
Sergey:
我认为没有人真正知道,要获得真正可泛化、强大的具身 AI,需要多少机器人数据。我的感觉是,我们其实不需要知道。我们需要做的是,让这些系统达到足够有用的程度,使它们可以走进世界,并自己收集更多数据。
Tesla 并不会担心它们的汽车能收集多少数据。如果一定要说,情况反而是数据有点太多。关键不在于量化说,终极机器人数据集的精确价格标签是多少。关键在于获得一个能够进入世界的系统,它足够有用,能做各种各样不同的事情,并且能够持续吸收更多数据。
Patrick:
你提到了 Tesla 的例子。那是一个很漂亮的系统:一开始即使没有 AI,它本身也是有用的,因为人类会驾驶它,而它会收集数据。那为什么不从你们对“什么单个机器人有用”的最佳猜测开始,让同样的飞轮效应发生呢?
Sergey:
我认为这是个好主意。
Patrick:
你觉得这是你们会追求的一种方法吗?
Sergey:
我不认为这里有一个唯一正确答案。我的意思是,我认为有些领域里,部署一个由人类控制的系统非常合理。有些领域里,部署一个部分自主的系统也非常合理。
这取决于具体领域,因为机器人并不是一种东西。有些人可能不希望家里有一个不断被远程人员控制的机器人,但也许对某些应用来说,这并不重要。
Patrick:
如果从 Physical Intelligence 创立到今天来标记,你发现的最令你惊讶的事情是什么?或者说,研究进展的性质中最令你意外的是什么?
Sergey:
令我惊讶的一件事是,我觉得我们在灵巧性方面取得的进展,比我原本以为的要大得多。我们有充分理由相信,只要收集越来越多的数据,系统就会稳步变好。令我惊讶的是,我们也能让这些系统执行非常灵巧的行为,而不需要为此做任何特别特殊的事情。
顺便说一句,同样的情况也适用于让系统在不同具身形态上工作。我们可以让模型在各种其他机器人上运行,包括有多指手的机器人、自由度数量不同的机器人。显然,我们需要获取数据,也需要微调模型,但模型本身不需要改变。它甚至不需要通过任何提示被告知这个机器人是什么。
这也让我感到惊讶,因为我本来以为,我们需要一些花哨的技术来把系统适配到更快、更灵巧、更复杂的任务上,也需要花哨技术来适配不同类型的具身形态。但它实际上似乎泛化得相当好。
Moravec 悖论
Patrick:
我一直对能力谱系很感兴趣,尤其是今天这些系统在哪些方面比人们预期的更先进,又在哪些方面不如人们预期。
Sergey:
在机器人领域,这一直是非常难理解的一件事。有一个机器人学家经常谈到的概念,叫 Moravec 悖论。它其实适用于 AI 的所有领域,但在机器人领域尤其重要。
我们有一种认知偏差,会认为对我们来说容易的事情,对机器来说也应该容易。解微积分题对大多数人来说很难。拿起一个杯子对大多数人来说很容易,所以我们会想,哦,机器应该能做这个;但微积分需要一些额外高级的东西。
但事实其实正好相反。有些事情对我们来说容易,是因为它们必须容易,否则我们就无法生存。我们非常擅长在丛林里发现老虎,因为那些不太擅长发现老虎的人已经被老虎吃掉了,不存在了。正因为如此,我们有这种认知偏差,觉得某些事情应该很容易,但它们实际上是非常困难的工程挑战。
不过,有一件正在改变的事情是,机器学习稍微改变了这个等式。手工编程,让某个东西在任何地方拿起任何杯子,这很难。如果你有相关数据,让一个机器学习系统做到这一点,其实并不那么难。我认为我们会越来越看到一种转变:在那些收集数据比较直接的领域,即使它们在物理上很复杂,随着时间推移它们也会被归入“容易”的那一类。
但也会有一些领域,收集数据很困难,你需要使用更多常识,需要在多个抽象层次上推理,把你在其他领域学到的物理技能和从网页上获得的知识连接起来。这些会很难,而那里就是我们需要更多技术进步的地方。
Patrick:
常识的科学是什么?当我们说“常识”时,它意味着什么?
Sergey:
对于机器人学习来说,我们可以把它理解为:使用从其他领域学到的知识,进行语义推理,并将其应用到当前手头的物理任务上。你可以把常识看作肌肉记忆的反面。
肌肉记忆,比如你打某项运动,你反复练习某个动作,几乎不用思考,就像自动驾驶一样去做。
而常识,在我看来——我不知道这是不是传统定义,但我觉得这是一个合理定义——是你知道某件事是真的,因为你看见过,或者读到过,或者听说过。现在你处在一个情境里,这个事实与你需要做的事情高度相关。你能够建立这种联系,把它应用到你的情境中,把它落地到你所在的环境里,并做出正确决定。
Patrick:
另一个让我非常感兴趣的区别是,使用过聊天机器人的人——现在每个人都用过聊天机器人——你问它,它回答;再问,它再回答。现在我们看到 Claude Code 以及其他东西正在发生的变化:你给它一件复杂的事,它能在很长时间里持续完成而不失败。机器人领域里类似的“长程”东西是什么?
Sergey:
这是我们现在正在大量研究的事情,而方法论在某种层面上并没有那么不同。正如我提到的,我们现在的模型使用这种思维链过程来对任务进行推理。当你有了这个能力,就可以做非常长视野的任务。
你可以让一个机器人去把洗碗机里的所有盘子拿出来,放到正确的橱柜里,擦拭台面,做所有这类事情。这里有趣的是,我们发现——大概六个月前——我们的模型已经达到这样一个阶段:只通过用高层指令来监督它们,就可以让它们改进。
你拿一个机器人,把它放进一个新厨房,让它清理厨房。它开始干活,然后在某个地方失败了。那现在你怎么办?好吧,你增加更多数据。传统上,在这种情况下我们会增加更多遥操作数据,覆盖更广泛的厨房类型。但我们一时兴起尝试了一下:如果我们不增加更多遥操作数据会怎么样?如果我们只是增加更多带有语义命令标签的数据呢?
也就是说,基本上只拿机器人经历过的东西,用一些语义命令给它打标签,但不增加任何更多低层动作。结果这确实有帮助。它确实提升了模型的泛化能力。
这意味着瓶颈实际上已经从最低层——也就是机器人实际完成任务的物理能力——转移到了中间层。现在系统更多受限于它解释场景并选择正确下一步的能力,而这可以用语言来监督。这很重要,因为这意味着有人真的可以和机器人说话。
Patrick:
基本上就是在指导它。
Sergey:
对,没错。并且只通过和它说话,就能让它变得更好。
部署中的长尾问题
Patrick:
如果到了 2050 年,我的厨房里还没有机器人帮我洗碗,你认为最可能的解释是什么?为什么到那个时候还没实现?
Sergey:
我能想到几个原因。我怀疑其中有一个长尾挑战,和技术与人的互动有关。自动驾驶汽车在这方面并没有那么不同。要让人们对在道路上部署自动驾驶车辆感到足够放心,本身就是一个重大挑战,而且这个挑战和把技术提升到那个水平是并行发生的。
早期 Tesla 自动驾驶有点争议,因为它并不完美。问题是:人们能接受这种程度的不完美吗?对机器人来说,可能有些任务人们会接受不完美,接受它从错误中学习。
但有些领域人们不会接受。你能接受它偶尔打碎你的盘子吗?也许几年后它就不再打碎这些盘子了,但也许在此期间它还做不到。你能接受这样一个机器人出现在有小孩的家里吗?也许不能,而这也没问题。
我认为,弄清楚这些因素如何相互作用,以及它们对时间线意味着什么、对这些系统如何通过经验变得更好意味着什么,是一个很棘手的问题。我认为必须非常谨慎、非常有敏感度地处理。可能有些领域更适合部署这些系统,让它们启动、收集更多数据;而另一些领域可能需要更谨慎。
Patrick:
你能想象一种纯技术层面的解释,说明为什么某件事可能无法奏效吗?
Sergey:
我认为最大的技术风险会在于处理各种不同情境的广度。如果我们谈的是一个定义清楚但有点混乱的环境,比如清洁酒店房间,或者在餐厅协助人类厨师,我对如何把它控制住有非常好的感觉。
如果你想象的是一个机器人进入一个家庭,我能预见的一个挑战是,会有很多其他意想不到的事情发生,而你需要一个系统非常擅长推断正在发生什么,并适应它,或者做出智能反应。我认为我们有很多想法可以处理它,但这是问题中最难的部分,因为当你处于一种几乎什么都可能发生的情境中,同时又在控制一个会影响周围世界的物理设备时,那么你确实需要把事情做对,至少在某种层面上,几乎每一种情况都要做对。
这并不意味着你总是必须成功,但这意味着你总是必须做出某种合理的、让人们可以接受的事情。我认为我们有很多非常好的想法来做到这一点,但这可能是整个方程中最具挑战性的部分。
Patrick:
如果我回到如何理解 Physical Intelligence 做这整件事的方法——帮我把它尽可能简化。一个说法可能是:我们会构建各种不同形态的机器人,让它们做各种不同类型的事情,把所有这些数据匹配在一起,然后开始实验,看看我们如何在 evals 上让它变得更好。
这就是最简单的理解方式吗?有没有更简单的说法?我之所以问,是因为我接下来想把它和你感兴趣但没有采用、而其他人在做的一些方法做对比。
Sergey:
在我看来,最重要的是让系统具备通用性,尤其是让它在如何被改进这件事上也具备通用性。
比如,手工设计的机器人控制器在改进方式上就不是很通用,因为它需要一名人类工程师进去改进它。基于学习的感知系统更加通用,因为它只需要人类标注员去标注更多数据。
一个能够从自己通过经验收集的数据中自主学习的系统就更加通用,因为你不需要人类标注员。关键就是这种通用性,尤其是在改进方式上的通用性。而我们做出的决策,在很大程度上都是围绕这一点展开的。
我不知道一个机器人的正确设计是不是有三个摄像头。我不知道它是否需要触觉传感器。我认为我们对此非常不可知论。我们会尝试很多不同选择。我甚至不确定从长远来看,它是否会有一个语言模型。也许我们会有某种其他类型的模型,在非常多样化的数据上训练。关键是这种通用性水平。
Patrick:
还有哪些其他方法对你来说最有趣?
Sergey:
这个领域里有一个非常重要的问题,也是我认为研究社区和科技社区还没有完全回答的问题,那就是不同数据来源之间的二分,尤其是真实数据和仿真数据之间的二分。这是一个非常有争议的话题。我对此有非常强的观点。
但我认为值得承认的是,比如我们看人形机器人时,你已经看过人形机器人做各种杂技动作的视频。有一个特定的流程可以让那些东西工作,而那个流程非常严重依赖仿真,非常少依赖真实世界数据。很多时候其实是真实世界数据为零。
然后还有一些方法在机器人操作上效果很好,常常恰恰相反。它们通常使用非常少的仿真数据,使用大量真实世界数据和非常大的基础模型。在这两个机器人领域里,主流方法看起来如此不同,这很令人惊讶。也许最终其中一个会胜出,并且从长远看有某种特定方法可以处理一切。或者也许这些想法会出现某种综合。
这很重要。我不知道答案。我有主观观点。我认为我们采取的方法是非常好的。但我觉得观察这一点很有意思:为什么这些东西会如此不同?
酷机器人与有用机器人
Patrick:
你能谈谈“酷”和“有用”之间的对比吗?Boston Dynamics 的机器人非常酷。后空翻非常酷。身体倒转也很酷。一切看起来都非常棒。但我不知道我有什么需求是需要机器人会后空翻的。
所以我很好奇,你如何看待围绕“酷”和“有用”来优化这件事。
Sergey:
我们采取的策略是,在“有用”这个约束条件下,让它尽可能酷。我们首先根据自己的判断做决策:什么会推动技术向真正通用、广泛适用的机器人基础模型前进。
但在这样做的过程中,我们会尝试用能想到的最艰难挑战来压力测试它。最艰难的挑战往往就是那些看起来很酷的挑战。比如,我们一开始并不是为了构建一个会做 espresso 或者会叠衣服的机器人。但在构建这些通用系统的过程中,我们觉得这些会是特别有挑战、特别令人兴奋的事情,可以用来测试它们,看看我们能把它们推到多远。
Patrick:
你能谈谈 Robot Olympics 吗?
Sergey:
有一位叫 Benjie Holson 的先生,他以前在 Everyday Robots 工作,那曾经是 Alphabet 的一部分,后来解散了。他花了很多时间思考机器人可以做哪些任务。
所以他之前写过一篇非常有趣的博客文章。当时在中国举办过一个 Robot Olympics,机器人会在跑道上跑来跑去、跳跃等等。但也许这些并不是我们真正应该关注的挑战。为什么不举办一个围绕人们日常任务展开的 Robot Olympics 呢?
这有点像 Moravec 悖论:有些任务人们觉得非常容易,但机器人却很挣扎。他列了一些任务,比如开门、清洗一个沾满油脂的平底锅、用塑料袋捡狗屎。这些事情对人们来说并不特别有挑战性,但没有任何当前机器人系统能做到。他大概列了十几个这样的任务。
这并不是一个有组织的研究项目的一部分。我们当时已经开发了一些流程和系统,用来接入我们想用于各种任务的新任务。我们觉得测试它的一个好方法是说,这里有一大串任务,我们就走一遍已经开发出来的流程,看看它是否有效。所以这几乎像是在测试我们的内部运营和模型训练系统。
然后我们尝试了这些事情,结果发现我们几乎可以解决所有任务。有一个我们做不了,是把一件正装衬衫翻面,因为这个东西上的夹爪伸不进袖子里。所以我们可能需要改变夹爪。还有一个从技术上说我们没有成功,就是剥橙子,因为他说要用手指剥,而我们的手指不够有力。所以我们不得不用一个小工具,基本上就像一把小刀。其他所有任务我们都能做。
如果有人看那些视频,我认为有一点很重要:我们并没有为此开发任何特殊东西。我们真的只是把它当作测试我们任务接入流程的一种方式。这里有很有意思的东西,因为它显示了通用性的力量:当你有一个通用系统时,你真的可以接入所有这些奇怪任务,而不需要做任何特别复杂的事情。
Patrick:
之前你说到超人类能力、灵巧性之类的东西时,我很好奇。我们会受到自己能做什么、或者也许受到自己能控制什么的限制,即便东西变得更小。在身体能力方面,还有哪些维度是我们可能超越人类能力的?还有哪些趋势线?
Sergey:
这里有一个有趣的例子。我们之前在做一个任务,我们的机器人需要插东西,比如电源线、以太网线之类。当人来做这件事时——显然如果你反复练习,你会非常擅长。但当一个没有大量练习的人做这件事时,你会经常停顿,对吧?因为这不只是一个物理动作。你必须停下来看看发生了什么,确保所有东西都对齐等等。
所以你会做得非常慢。如果你是在遥操作一个机器人,你会做得更慢,因为中间多了一层间接性。结果发现,进去找到所有这些停顿并把它们移除,是相当直接的事情。你还可以进一步加速。所以你可以从一个由人示范什么叫成功的任务出发,然后让机器人练习这个任务,并以同样方式成功,但速度快得多,效率高得多。
最通用的做法是使用强化学习。但如果你只是想要速度,也有一些简单技巧可以做。所以这是一个机器可以做得好很多的例子。在某种层面上,人类有一个处理瓶颈。这就是为什么人做得慢,因为他们必须处理正在发生什么。但加快处理速度,是计算机科学中人们相当理解的事情。
面向物理创造力的平台
Patrick:
有一本很棒的 Michael Crichton 小说叫《Prey》。里面的感觉是,对于一个给定问题来说,可能存在一种最优的机器人形状,或者一组最优形状,来完成这个任务。而你应该做的是分析问题,然后让某个东西几乎可以像变形或转换一样,变成正确的形态。
你怎么看形态方面的创新,而不是数据和模型方面的创新?
Sergey:
我认为在机器人领域总体上,形态创新的能力一直受到 AI 挑战的很大限制。如果你有一个传统 AI 流程,比如你在做一些运动规划之类的东西,那么你就很难随便拼凑出一个新机器人。因为当你这么做时,你必须刻画这个系统的动力学,你必须做系统辨识,你必须搭建所有这些东西。
如果你可以在自己的车库里拼一个机器人,加载一个机器人基础模型,然后告诉它去做一堆事情——也许它不会做得完美,也许它需要更多数据才能真正完善。但你至少可以让这个东西动起来。我认为这可以成为一个非常强大的引擎,让每个人都去试验这些东西。
我不认为我是设计完美机器人的正确人选。当然这里有一些人比我更擅长。但总体上,我觉得这就像个人电脑一样。我认为关键是让人们能够实验、玩一玩,并大幅降低进入门槛。然后我们就会看到很多创造力。
当我们最早开始使用计算机时,形态数量是有限的。现在你可以在手机里有一台电脑,在汽车里有一台电脑,把一台电脑嵌入冰箱里。它们无处不在,而且非常不同。通用性、好的软件、一个可以在其上构建应用的好基础,这些是实现这一点的关键。
Patrick:
你的联合创始人 Lachy 曾经跟我描述过,physical intelligence 对人类来说的感觉就像学骑自行车。有那么一个瞬间,你原本不会,后来突然会了。那种感觉就是 physical intelligence,那种突然理解的“咔哒”一声。
Sergey:
这其实有一个生理学解释。有人在猴子使用工具时做过研究,你可以在大脑中找到哪些神经元会激活,用来让猴子弄清楚它的手在哪里。结果发现,如果它在使用工具,这些神经元会根据工具尖端的位置激活,而不是根据手的位置激活。
工具成为你身体的延伸,这是一件真实的生理学事情。你的大脑真的会这样做。
Patrick:
知道这一点之后,它如何影响你们的研究方法?
Sergey:
这说明,physical intelligence 在某种层面上应该对具身形态保持不可知。一个好的基础模型应该能弄清楚如何操控它正在控制的任何身体、手头拥有的任何工具。
这里基本上只有一个问题,而不是许多不同的问题。并不存在一个“人形问题”、一个“汽车问题”、一个“推土机问题”、一个“固定在桌子上的机器人问题”。只有一个问题。如果你以完全通用的层面解决它,那会非常非常强大。
Patrick:
我们正处在早期阶段,开始看到 LLM 可能带来的一些工作变化,以及对企业、经济等方面的其他转型。当然,我们已经在工程领域看到了这一点。
当我们在机器人领域达到类似阶段时——不管那是什么时候——突然之间我们有了这个通用且有用的东西,你认为会发生什么?或者你希望会发生什么?
世界在部署这些东西方面非常高效。人们很有创造力。你预计在早期,世界最先开始发生变化的地方会在哪里?
Sergey:
我真的不知道。我认为没有人能预测 LLM 这件事是如何演变的。人们可以猜,但这就是为什么我一直回到这个想法:也许关键是让人们尝试很多事情。
LLM 应用一个非常惊人的特点是,它们真的很容易获取。有人可以搭建一个很酷的新原型,而它底层只是对 ChatGPT 或类似东西进行提示。但他们可以实验,可以试用,看看它会做什么。
让许多聪明人快速迭代、快速原型化很多东西,有一种惊人的力量。这也是为什么 Physical Intelligence 非常重视参与。我们开源了我们的模型。我们希望和许多正在构建机器人的其他公司互动,因为我们都看到了这种效果的巨大力量:让很多人尝试很多东西。
苦涩的教训
Patrick:
机器人社区有哪些主要争议?
Sergey:
对我来说,争议就是有人在会议上跟我争论。但我可以告诉你我自己经常卷入的那类争论,而且它的发展轨迹还挺有意思。早期,我和别人争论的主要问题是:学习在机器人 AI 中有没有位置?
我认为这一点之所以经常有争议,部分原因在于,在传统工程流程中,机器人看起来确实和软件产物非常不同。它们是物理的。它们会影响周围的东西。有安全考量。它们会进入很多奇怪情境。
机器人研究社区花了很长时间才真正内化这样一件事:你不一定需要把物理知识之类的东西编程进去。你不一定需要在机器人规划时,在机器人内部放一个物理模拟器。我们实际上可以让一个学习系统自己弄明白所有这些东西。
这在很长时间里都是非常有争议的。我认为到现在为止,大家已经比较接受学习是机器人领域非常重要的一部分,但我不认为大家仍然普遍接受端到端学习是正确道路。基本上,我不认为大家普遍接受“苦涩的教训”。
“苦涩的教训”说的是,你不应该把机器编程成按照你认为它应该思考的方式去思考,而应该让它从数据中学习。这不是一个被普遍接受的观点。我认为反对它也有很好的论点,但我认为,从长远来看,如果我们想要那种通用性,尤其是机器在改进能力上的通用性,那么我们就需要它主要从数据中学习。
Patrick:
反对它的好论点是什么?
Sergey:
我尽量以最强版本来表述这个观点:如果你想在一个非常复杂的开放世界环境中获得可靠性,那么你就不能不使用我们已经知道的关于物理世界的东西。我们有满满的教科书讲这些东西,所以为什么不把我们从教科书里知道的东西接进去呢?
Patrick:
什么是组合式学习?你能描述一下吗?
Sergey:
我的一个学生有这样一个想法:他让一个语言模型用国际音标提供一个三明治制作食谱。国际音标就是字典里用来解释一个词怎么发音的那些符号。它很特别,因为它通常只会在字典里的单个词条中出现。你从来不会看到用国际音标写成的自由文本。但如果你问一个好的语言模型,它会给你写出用 IPA 表示的段落。
这就是组合式泛化。这意味着你从未见过这种特定语言、这种特定字母系统被用来写段落,但你理解段落,也理解它可以和不同字母系统组合,所以你能解决这个问题。你可以想象机器人领域也会出现同样的情况:你学会了一套技能库,现在你可以组合、混合这些技能,并将它们应用到新问题上。
Patrick:
这让我好奇,你认为最后一种机器人系统能够实现的任务会是什么?
Sergey:
我认为给孩子换尿布会非常非常难。这其实又完全是 Moravec 悖论。人类在某些事情上极其擅长。我们非常擅长物理任务。我们也非常擅长和其他人互动。这很合理。我们必须擅长。这是我们存在中很大一部分内容。
所以那些涉及行为、与其他人互动、你必须帮助某个人的事情——我认为这比人们意识到的要难得多。养老照护、照顾小孩。我认为这些事情会很难,而且可能会比人们想象的更难。
Patrick:
而且风险非常高。
Sergey:
不只是这样。很多地方的风险都很高。只是它可能是最能欺骗我们、让我们以为它比实际更容易的东西的顶点。我们就是如此进化出来的,擅长与人互动,擅长做物理事情。如果你在帮某人上楼梯或者下床,你不需要非常仔细地思考该怎么做。所以我认为这真的是 Moravec 悖论的顶点。
Patrick:
如果我把 LLM 看作一个大脑,而现在它实际上已经学习了所有东西——我不知道还能怎么表达。然后我再想一个机器人模型的大脑。这个大脑里有哪些黑暗区域?它还没能学习什么?有哪些重要但一直很难进入的领域?
Sergey:
人类非常擅长的一件事,是用物理类比来理解其他情境。我不知道这是不是 LLM 能或不能做的事,但它确实是人们经常使用的东西。人们在日常生活中用它,也会在非常复杂的问题中使用它。
比如你可以说,那家公司有很强的 momentum。这是一个物理类比。你完全知道它是什么意思。我不需要向你解释这句话。但如果你真的思考一下,这是一件相当复杂的事情。momentum 这个词承载了很多含义。
有一段 Richard Feynman 的采访,他谈到教学,也谈到他在亚原子粒子方面使用的类比。他说,我们使用 spin 这个词。但那个东西并不是真的在旋转——它不像一个旋转的陀螺。但所有这些类比帮助我们理解它。不只是以一种可以解释概念的方式,而是它实际上会导向结论。它实际上会导向推理,而这些推理真的有意义。
我们如此深度地被调校去与物理世界互动,如此深度地具备 physical intelligence,以至于你可以在日常语言中说“那家公司有很强的 momentum”,也可以在推进基础理论物理时使用它。这非常了不起。
我不知道 LLM 能不能做到这一点。也许它们可以。但我认为真正理解物理交互、因果结构,以及所有这些东西,里面有某种特别之处。而且这显然是人类能从中获得大量价值的东西。
什么造就伟大的研究者
Patrick:
我想谈谈研究者的角色,以及真正做研究的人。在 LLM 世界里,从全球尺度看,基本上所有 LLM 进展背后真正负责的人数少得令人震惊。像 Ilya 这样的人就是一个例子。
机器人领域是什么样的?世界上真正影响这条轨迹的人有多少?然后我想问,好的研究意味着什么。
Sergey:
我认为关于科学,这类问题通常很难回答,因为我觉得我们有时会有一种倾向——尤其是在回顾历史时——去强调某些特定里程碑。机器学习中当然就是这样。AlexNet 是一个重大进步。这是真的。
但我认为同样重要的是要记住,这些进步之所以发生,是因为很多人在尝试很多东西,甚至一些失败其实也非常有启发性。我前面有点低调地抱怨过围绕端到端机器人学习的争议,但我不知道如果没有这些争议,机器人学习是否会以同样方式推进。
确实,你可以浏览成功案例列表,把它们标记出来,比如,“哦,这些人有反复打出本垒打的历史。”但我认为在现实中,在科学社区里,推动进步的不只是本垒打。甚至一些失败、一些坏想法,在推动我们走向好想法的过程中也非常有启发性。
Patrick:
这想起来很有意思。你之前给的例子非常有趣,那个研究洞察是:只要给它一些指导,它就会变得更好。感觉这种洞察可以非常强大、杠杆很高。这让我想问,你对于什么造就伟大的研究者学到了什么?
Sergey:
研究肯定不同于工程,因为在研究中,重要的是找到某个问题的答案,而这常常需要走一些捷径。研究中最微妙的决策之一是:什么时候应该尝试新东西,什么时候应该坚持你已经在尝试的东西?这非常非常微妙。
弄清楚这一点非常非常难。如果你判断错了,就可能错过一些真正了不起的东西。如果你判断错了,没能在某件事上坚持足够久,也许你已经非常接近答案了,也许马上就要找到答案了,但你在临门一脚前停下了。这很糟糕。
或者你也可能多年一直在猛敲某个永远不会让步的东西。什么时候应该稍微转个方向,看向这边或那边,让自己接触更多机会;什么时候应该继续猛敲那个东西,因为你马上就要得到解决方案了。这往往是最重要的决策。有些人有一种本能,能把这件事判断对。这很重要。
Patrick:
你显然接触过伟大的研究者,而且你自己也在其中。这些人作为人是什么样的?他们通常和普通人有什么不同?
Sergey:
我觉得他们其实都一样。我很难想出一组统一的人格特质。基本上没有常量。可能有一个共同点是,要做有效的科学,你必须对它非常有热情。但即便是这种热情,也可以来自很多不同地方。
我合作过一些非常高效的人,他们纯粹被对新奇事物的渴望驱动。他们完全不在乎他们的技术做什么。他们不在乎它是否有用。他们只是想要很酷的新想法。我也和另一些人合作过,他们真的想解决某个特定问题。他们同样乐于构建东西、测试实验、不断敲打问题。为了达到目标,做什么都可以。
Patrick:
你提到了研究和工程之间的区别,这也让我想到制造。Elon 很喜欢说,工厂就是产品。整个方程中最难的部分其实是规模化——不管这个东西最终长什么样——制造出 1 亿个那样的东西。
你如何看待方程中的这一部分?还是说现阶段它太遥远了?
Sergey:
我认为这是方程中很重要的一部分。我不确定它是不是我们现在最需要弄清楚的那部分,但它当然是其中一部分。我更倾向于思考这件事的方式,是先找出困难部分,然后在其他部分上实现大量实验。
大规模制造机器人很难。如果你甚至不知道之后要在它上面运行什么样的软件,也不确定它是不是正确类型的机器人,那么大规模制造机器人就更难。
通用 AI 工具,比如机器人基础模型,可以给我们带来的一个非常有价值的东西,是让很多其他事情变得可以被弄清楚。这样至少有些不确定性会消失,所以当你进行规模化时,你能有一些信心,相信这真的会奏效。
机器人与工作的未来
Patrick:
很多听这个节目的都是创业者,或者经营公司的人。一个非常流行的问题是,传统公司应该如何开始思考使用 LLM,或者为这些模型持续改进做准备?
如果把同样的问题放到机器人领域,你会怎么回答?你会鼓励公司如何思考这件事?
Sergey:
技术变化太快了。我想用一个例子说明为什么这个问题很难回答。这里有一个关于技术的具体不确定性:机器人会更多依赖示范,还是更多依赖来自自主数据的强化学习?我们正在研究这两件事,而且它们显然都很重要。
但如果某家公司预计它们需要大量遥操作来产生很多示范,再加上一点自主经验,那么它们应该如何为技术做准备,会和另一种情况非常不同:即只需要极少量示范,以及大量自主经验。到底是 90-10,还是 10-90?这是我们希望在未来几年学到的东西,但它确实会非常显著地改变正确方法。这就是一个案例,说明技术变化会如何大幅改变这个问题。
Patrick:
从商业角度看,正确的思考方式是不是:先非常清楚地理解你业务中的劳动力经济性?我很好奇你如何看待这一点,也就是它将如何改变劳动本身的性质。
Sergey:
编程工具是一个非常好的模板,可以用来观察这件事可能如何发生。并不是编程工具一出现,我们就突然不再需要软件工程师了。它是提高了单个软件工程师的生产力。
为了确保人们能够使用它们,需要做一些工作。为了让它们对合适的用例有用,也需要进行一些技术开发。而且这些东西仍在演进,也仍在变化。编程 agent 和代码补全工具是不一样的,等等。但我认为这是一个很好的模板,可以让我们看到 AI 工具如何与做某项工作的人结合,提高他们的生产力,同时也带来新的挑战。
我认为在机器人领域,我们实际上也会看到类似的事情。更现实的模板不是,人形机器人进来,然后人就离开。有些工作内容可以由机器人完成,有些可以由机器人和人一起完成。有些地方需要人做一些特殊事情,让机器人更高效。也有些地方正好相反,机器人做一些事情让人类更高效。这会是一种我们已经在编程工具中看到的舞蹈。
Patrick:
你有没有一个最喜欢的、不是 Physical Intelligence 正在做的机器人?如果有,为什么?可以是任何东西。可以是工厂机器人,可以是 Optimus 或 Boston Dynamics。
Sergey:
我确实很喜欢 Boston Dynamics 的机器人,尤其是新版 Atlas。因为它在某些方面非常像人,在某些方面又非常不像人。他们在关节运动范围上做了一些有意思的决定,所以它可以做一些很酷的事情。它也是一个非常敏捷的机器人,这真的很酷。它能做出那些很棒的 demo,所以我是它的忠实粉丝。我总体上非常喜欢 Boston Dynamics 做过的一切。
Patrick:
Boston Dynamics 做非常酷的 demo 已经做了很久,但它们并没有真正为客户做任何有用的事。对此我们应该或者可以读出什么吗?
Sergey:
公平地说,这对很多机器人公司来说也是一个合理问题。Demo 有很多价值,因为它们可以说明通往有用和高生产力的东西的道路上有哪些挑战。当然,你也可以做一个 demo,而它并不在通往有用和高生产力事物的道路上。
Demo 是有价值的。我认为,如果 demo 被正确使用、服务于一个使命,它可以给人们展示未来可以期待什么,也可以提供一个挑战。你只需要在设定这个挑战时保持诚实。
Patrick:
到目前为止,你有多少时间在思考商业终点?Roomba 是消费品类别中有史以来卖得最好的机器人,这很令人惊讶。当然,我们可能正处在某种寒武纪大爆发的边缘。
但你有多少脑力是在思考:这是一个可能由此产生的产品形态,也许这就是我们启动通往所有这些数据之路的方式?
Sergey:
现在很难把它简化成一个非常具体的答案。思考一整个可能性空间倒是不太难。我们在开发模型、实验不同任务、做 Robot Olympics 这样的 demo 时,底层其实是在原型化:当我们尝试用这个东西做一些真实的事情时——真实程度各不相同——它看起来会是什么样,哪里会出错?
这是我们想了很多的事情。但这不是我已经有接近具体答案的事情。不过这里有一个可能性空间。我们实际上计划在 2026 年做的很多事情,也是去实验这个空间里的不同东西。
Patrick:
当你研究通用技术的历史时——如果这件事实现,它当然会是一项重大通用技术——你常常会发现,有一整组围绕它发生的事情使它成为可能。LLM 是你们正在做的事情的直接补充。还有没有其他令人意外的技术领域或趋势,能够帮助你们做你们正在做的事情,但又属于不同领域?
Sergey:
过去几年里,机器人硬件变得便宜了非常多。大约十年前我刚开始做机器人时,我使用过一个叫 PR2 的机器人,我记得它的成本大约是 $400,000。当我在 UC Berkeley 开始自己的实验室时,我使用的机器人价格大约在 $30,000 左右。现在,这个东西上的每条手臂大概只有那个价格的十分之一。我们认为它还能更便宜。
这并不是由某一项单一技术造成的。它涉及硬件,也涉及软件。所以我们这里使用的这种低成本机械臂,在工业环境中并不会有用,因为依赖高度精度的传统控制方法没法使用它们。我认为这确实让今天思考通用机器人变得实际得多。
Patrick:
对于那些想比较技术性地跟踪这个领域重大里程碑的人来说,这些信息会出现在哪里?你会读什么或看什么,来了解正在发生什么?
Sergey:
很多内容会出现在研究论文里。不幸的是,研究论文并不是非常容易获取的信息来源,因为它需要一些谨慎筛选,去弄清楚什么是信号,某个东西真正意味着什么。研究结果通常是面向已经理解起点的人,而这个起点来自过去所有研究结果。
机器人领域,我认为技术整体也是如此,那些面向公众的产物,比如 demo 和某人在社交媒体上发布的视频,通常其实并不能很好地让人理解事物真实的底层状态,因为它们更多是展示能力边缘,并把它们落地。
一个 demo 真正意味着什么,需要更深入地挖掘。也许研究论文是路径。有时候甚至比这更糟,你必须真的去和具体的人聊,了解内部故事到底是什么。也许这不是一个很好的状态,但科学就是这样运作的。
山外有山
Patrick:
当我们展望你们使命的未来时,什么感觉最不确定?
Sergey:
我确实认为时间线是不确定的。要说有什么变化的话,自从我们开始以来,我对时间线的感觉变得更乐观了,但它仍然不确定,因为这项技术本身的性质。这是一个存在启动挑战的东西。你需要达到某个有用性水平,让机器人可以被部署,让它们可以做有用的任务,让它们可以开始从开放世界环境中大规模收集数据。因为这是一个非常突然的事件——跨过那道激活能——所以我认为关于时机存在很多不确定性。
这种不确定性还被另一个事实加剧:根据部署的技术类型不同,时间线看起来也不同。我前面举过的例子是,数据收集应该通过遥操作,还是通过自主系统,或者介于二者之间——也许是共享自主,也许是这种指导式的东西。这些都会改变部署方式和野外数据收集方式的图景。所以正因为如此,我认为存在相当多不确定性。
Patrick:
你处在一个非常有趣的位置,因为你位于研究中心。很多不同类型的人都会来找你,问你问题。有没有什么问题是你惊讶于人们没有问你的?
Sergey:
其实你前面问的那个关于某人应该如何准备的问题,就很接近。有一个变体问题可能是:如果我想开始把自主机器人用于某件事,我应该开始搭建什么?我应该设置运营吗?我应该以某种方式修改我的任务,让它更容易被机器人完成吗?我应该设计新硬件吗?也许我应该设计新硬件,这样就可以把你们的软件接进去。我认为人们对此会做出很多假设。
比如,一个假设是机器学习需要数据,所以让我弄清楚如何收集数据。这通常不是最好的假设,因为你需要的是正确类型的数据。也许某些数据很容易获得。获取人们做某件事的视频很容易,但这并不意味着那就是正确类型的数据。而且它可能取决于领域。它可能取决于你关于哪种技术会成功的判断。
所以我认为人们确实对此做了很多假设。倒不是说如果他们问我,我一定有更好的答案,但这是一个存在巨大可能性空间的问题。
Patrick:
我们谈到了这些重大、不确定、长期的时间线。你们现在最想解决的下一个具体问题是什么?
Sergey:
我们现在的一个重点,其实是更好地理解问题中的中层推理部分。因为我们认为,我们对如何获得低层物理行为已经有了相当好的理解,但要让这些低层物理行为泛化,就需要引入大量这类常识知识。它的表示方式可能非常重要。
LLM 让某些类型的表示变得非常方便。它们让把文本转换成其他文本这件事非常方便,但这不一定是一个具身系统需要做的事情的最佳表示。有时它需要以更空间化的方式思考,有时是语义化的,有时是其他表示。试图弄清楚究竟如何构造这种内部思考过程,可能是一个非常重要的问题。
这个问题的答案在具身基础模型世界里,可能会不同于在 LLM 世界里的答案。所以这是我们现在正在研究的一件具体事情。
Patrick:
如果我能以某种方式把 100 位最知情、最活跃的机器人研究者同时请到一个房间里,然后询问他们对机器人最终拥有无限能力有多确定,以及这可能多快发生,你会处在这个分布的什么位置?
Sergey:
相对于成熟的机器人研究者来说,我可能会处在乐观的一端;相对于机器人创业者来说,我可能会处在悲观的一端。
Patrick:
创业者那部分我当然理解。你天生乐观。为什么在研究者社区里,你会处在乐观的一端?
Sergey:
机器人领域有非常长的历史,但成功案例屈指可数,尤其是在机器人 AI 方面。所以如果我们诚实地看,大多数正在做有用工作的机器人,仍然运行的是 1980 年代的前沿技术。因为机器人问题很难。这不是我们的错,它就是一个困难的问题。
正因为如此,我确实认为谨慎是有充分理由的。可以说,好吧,也许我们在问题的这一部分取得了很多进展,但还有很多其他问题仍然存在。我之所以对此乐观,部分原因是我知道以前哪些东西对我来说被证明很难,而我现在能看到很多拼图块,我想象中它们可以被放进去,解决很多这些问题。
正如我的联合创始人 Karol 喜欢说的,只有当你爬上了一座山,你才会看到后面是不是还有另一座山。在机器人领域,人们已经有很多“山外有山”的经验。所以某种谨慎是合理的。
Patrick:
既然需要耐力,谁或什么最能激励你?
Sergey:
Boston Dynamics。我认为在技术层面上有很多东西可以争论,但反复展示人们原本以为不可能的东西,是非常有价值的,即便其中有各种限制和假设等等。尤其是在机器人领域,不管我们怎么评价 demo 之类的东西,我认为可以非常公平地说,人们因为看到那些东西而修正了自己对“什么是可能的”的看法。
我也受到那些为实验创造氛围的组织的启发。有一些研究实验室在这方面做得非常好。OpenAI 历史上就做得很好——创造一种氛围,让个体研究者可以实验一些东西,并被赋权把这些事情推进到底。ChatGPT 基本上一度是 John Schulman 的一个个人小项目。它不是一个伴随大量电子表格和饼图的有组织公司战略。它是一个个人项目。
我认为,有些组织能够赋权人们,让个人项目变成改变世界的成功,这非常令人振奋。毫无疑问,我和我在 Physical Intelligence 的联合创始人们也有这样的愿望:在力所能及的范围内提供一些这样的东西。这很难做到。
Patrick:
我感觉 Google 以前有那种一天“你可以做任何你想做的事”的机制。是这种精神吗?
Sergey:
当我刚开始在 Google 工作时,我对自己所感受到的杠杆水平感到非常震惊。我在 2015 年和许多同事一起做过的一个项目,被大家非正式地称为 arm farm。所以我们拿了几十个机器人,把它们放进实验室,让它们收集数据。
我从某个人那里得知,他们有一个仓库,里面装满了没人使用的机器人。我问 Jeff Dean 和 Vincent Vanhoucke,能不能把它们放进一个实验室。我当时只是想,好吧,他们不会把我当回事。我那时只是一个四级研究科学家。Jeff 说,“好啊,做吧。你需要什么?”
我只记得当时的感觉是,哇,我这辈子从来没想过自己会有那样的杠杆。我的意思是,那时我还很年轻。这非常特别。我认为,如果能到达一个地方,让人们释放创造力,并拥有那种能动性,那会成就一个非常非凡的地方。
Sergey 经历过的最善意的事
Patrick:
我的朋友 Jesse 有一个很棒的问题:对于你没有参与的公司,你最希望哪家公司成功,为什么?以前很多人会说 Boom,因为他们想更快地飞到各个地方。
随着我越来越多地问这个问题,越来越多人开始说 PI,因为如果你们成功,它可能产生的影响在全球尺度上都非常巨大。听你讲你们如何思考这个问题、如何攻克这个问题的来龙去脉,真的很有意思。
我做这些访谈时,最后都有一个传统问题,会问每一位嘉宾。别人为你做过的最善意的事情是什么?
Sergey:
这是一个很难回答的问题,因为我确实认为,在我的职业生涯中有很多时刻,我都得到了某种助力。我觉得我的性格有时会让我在当下没有意识到它,只有事后回想才会感激。
我职业生涯中有三个突出的时刻——其实其中一个我已经跟你提到过了,就是 arm farm 那件事。我特别感谢 Jeff 和 Vincent 愿意把赌注押在我和我的同事身上。
还有另外几个时刻。当我在 Berkeley 跟 Pieter Abbeel 开始博士后时,我的机器人经验为零。我做过虚拟角色动画和计算机图形学。我感觉那更像是押注我的潜力,而不是押注我当时实际完成过的成就。
还有一个更早的时刻。我大二时在 Nvidia 得到了一份实习,让我体验了一些很酷的东西。我认为当时的招聘经理也对我下了赌注。我认为这类事情在一个人的职业生涯中真的很重要。在当时,我本应该更加感激,但现在回看,它确实产生了很大影响。希望我也能在其他人的职业生涯中产生这样的影响。
Patrick:
我从你和你的联合创始人那里学到了很多,今天也学到了很多。非常感谢你抽出时间。谢谢。