还铭刻那只"骑"瑜伽球的机械狗吗?动漫
过马路,走草地王人稳牢固当,就算瑜伽球被放气也能如履深渊。
怪不得之前有网友惊叹:机器东说念主迅速就要统率寰球了吧?
赋予这只 Unitree Go1 的四足机器东说念主能骑瑜伽球才能的,是英伟达十大技俩之一 Eureka 的膨胀研究—— Dr. Eureka。它的异常之处在于,它将假造寰球中的锻练后果平直回荡到现实寰球,无需微调,平直有用。
这项研究的论文作家之一是英伟达的高等科学家 Jim Fan,他主导了英伟达的具身智能研究。
Jim Fan 曾是 OpenAI 的第一个实习生,这段经历让他初度斗争到通用东说念主工智能(AGI)的研究。不外那时候还莫得 Transformer,他通过强化学习得到的泛化收尾并不睬想。
2016 年, Jim Fan 去斯坦福读博,师从李飞飞种植,转而研究具身智能领域直至面前。但他并莫得健忘最启动研究 AGI 的经历,即使换了领域也没烧毁我方对通用模子的意思。
Jim Fan 阐发说,机械狗只是他在通用"基础智能体"探索中的一个实例,他的个东说念主责任便是处置具身智能问题。
Jim Fan 疏导的 GEAR 团队,全称"通用具身智能体研究",其中枢处事可以综合为"生成动作",即构建粗略在假造和物理寰球中实践动作的具身智能体。前者属于游戏 AI 和模拟,后者便是咱们平庸说的机器东说念主。
从 ChatGPT 就能看出,通用模子刚烈的统一性和拓展性才是 LLM 快速发展的关键。因此,Jim Fan 决定学习 NLP 的履历,把 GEAR 团队的研究要点放在建立通用基础模子的 GR00T 技俩上。
Jim Fan 还认为,在将来,假造寰球和物理寰球将交融成一个单一维度上的不同现实。
机械狗使用的领域只怕化工夫可以在具有不同物理参数的假造环境中锻练智能体,使智能体粗略泛化到现实寰球。唯有假造环境充足多、充足靠近物理寰球,还有一个能掌捏悉数假造环境的智能体,那么将来的物理寰球也可以被看四肢是假造寰球的一部分。
诚然机械狗开了个好头,但模拟到现实的转移的确太难了。Jim Fan 暗示,由于数据汇集的种种收尾,现存模子未能充分领路 Transformer 架构的后劲。
难归难,具身智能和通用具身智能体的但愿照旧很大的。
经历了前几年的"千里寂期"后,成绩于硬件升级、材料成本着落和基础模子才能擢升的三重助力,具身智能领域总算迎来了新的复苏。雷峰网
Jim Fan 暗示,具身智能飞腾再启,上风在我。要知说念,英伟达不仅坐拥芯片和模子,还有别家比不外的广泛野心资源和塌实的模拟工夫基础。
更多对于具身智能和通用基础智能体的细节讨论可以点击下方连气儿,不雅看 Jim Fan 在红杉成本 Traning Data 播客节目中的详实共享。
https://www.youtube.com/watch?v=yMGGpMyW_vw&t=125s
雷峰网摘取了部分播客内容,作念了不改原意的精编处理:
从 OpenAI 到英伟达
色吧小说Sonya Huang:我传闻你是 OpenAI 的首位实习生。能否共享一下你的经历,告诉咱们你是若何走到面前的?
Jim Fan:天然可以。2016 年夏天,有一又友告诉我城里有个新的创业公司,建议我去望望。那时我刚被考中为博士生,阿谁夏天比拟安闲,于是我决定去那家公司一探究竟。收尾那家公司便是 OpenAI。在我加入 OpenAI 时,咱们一经在讨论通用东说念主工智能(AGI)了。
那时,我的导师是 Andrej Karpathy 和 Ilya Sutskever。咱们沿路和洽了一个技俩,叫作念" World of Bits "。这个技俩的想法至极浮浅:咱们想构建一个 AI 智能体,让它粗略读取野神思屏幕上的像素,然后限制键盘和鼠标。你可以想象,这种界面至极通用——不管是复兴邮件、玩游戏照旧浏览网页,王人可以通过这种像素到键盘鼠主见映射来罢了。
这是我在 OpenAI 的第一次 AGI 尝试,亦然我在 AI 智能体研究的滥觞。
Stephanie Zhan:那时你们在使用智能体时遭受了哪些挑战?你认为有哪些冲突?
Jim Fan:那时咱们主要使用的是强化学习工夫。2016 年还莫得 Transformer。
诚然强化学习在特定任务上弘扬可以,但它的泛化才能有限。咱们无法让智能体左证恣意话语指示实践各式任务,比如使用键盘和鼠标。
因此,诚然智能体在咱们遐想的任务中可以正常处事,但它弗成信得过泛化到其他任务上。
这亦然我参加下一个研究阶段的滥觞。
我去了斯坦福大学,在李飞飞种植的率领下攻读博士学位,启动专注于野神思视觉和具身智能。从 2016 年到 2021 年,在斯坦福的时间,我见证了野神思视觉实验室的研究从静态视觉(如图像和视频识别)转向具身视觉,也便是让智能体在交互环境中学习感知并选择行动。这种环境可以是假造的(在模拟中),也可以是现实寰球中的物理环境。
这便是我在博士时间转向具身智能的过程。
博士毕业后,我加入了英伟达,连续从事具身智能的研究。我把博士时间的研究带到了英伟达,并一直在这个领域处事于今。
Sonya Huang:你疏导了英伟达的"具身智能"谋略。能否浮浅先容一下这个技俩的道理,以及你们但愿达成的方针?
Jim Fan:我面前共同疏导的团队叫作念 GEAR,全称是"通用具身智能体研究"。咱们的中枢处事可以用一个词综合——"生成行动"。
咱们努力于构建具身智能体,这些智能体粗略在不同环境中实践动作。具体来说,如果这些动作发生在假造寰球中,咱们的处事就波及游戏 AI 和模拟;而如果发生在现实寰球中,那便是机器东说念主工夫。
本年三月的 GTC 大会上,Jensen 发布了名为" Project GR00T "的技俩,这是英伟达在打造东说念主形机器东说念主基础模子方面的"登月谋略",亦然 GEAR 团队面前的要点。
咱们的方针是为东说念主形机器东说念主,以致更多领域的智能机器东说念主,构建刚烈的 AI 大脑。
Stephanie Zhan:你认为英伟达在这一领域的竞争上风是什么?
Jim Fan:这是一个很好的问题。
起首,英伟达的一大上风是野心资源。悉数这些基础模子的膨胀王人需要巨大的野心才能,而咱们信服 Scaling Law 的首要性。诚然咱们一经对肖似 L 模子的 Scaling Law 进行了研究,但具身智能和机器东说念主领域的 Scaling Law 仍然需要真切探讨,咱们正在积极进行这方面的处事。
英伟达的第二个强硬是模拟。四肢一家也曾专注于图形的公司,英伟达在物理模拟、渲染以及 GPU 及时加快方面积聚了丰富的专科知识。这些工夫在构建机器东说念主时领路了首要作用,咱们在这方面的积聚极地面鼓励了咱们的研究。
Stephanie Zhan:对我来说,英伟达开发 GR00T 的一个道理之处在于,你之前提到的,英伟达领有芯片和模子本人。你认为英伟达可以如安在自有芯片上优化 GR00T?
Jim Fan:在三月的 GTC 大会上,Jensen 还发布了下一代角落野心芯片,名为 Jesson Sword,这一发布与技俩 GR00T 的发布同步进行。
咱们的谋略是将这些芯片(包括 J 和 Thor 系列)与基础模子技俩 GR00T、以及咱们在过程中开发的模拟和实用器用衔接起来,酿成一个统一的处置决策,打造一个一体化的野心平台,专为东说念主形机器东说念主和智能机器东说念主遐想。
我罕见可爱 Jensen 的一句话,他曾说:"悉数能挪动的东西最终王人会变得自主。"我也至极认可这一不雅点。
诚然面前还莫得齐备罢了,但咱们信服,将来十年或更永劫刻后,智能机器东说念主将会像 iPhone 同样普及。因此,咱们面前就需要启动为这个将来作念好准备。
东说念主形机器东说念主
机器东说念主的 GPT-3 时刻和 Scaling Law
Stephanie Zhan:为什么你认为许多行业仍然至极景仰简直寰球的数据呢?
Jim Fan:执行上,咱们如实需要各式类型的数据,因为单靠模拟数据或简直寰球数据王人远远不够。因此动漫,在 GEAR 团队中,咱们将数据策略分为三大类:
互联网规模的数据:包括悉数在线的文本和视频。
模拟数据:咱们使用英伟达的模拟器用生成多数合成数据。
简直的机器东说念主数据:通过良友操作机器东说念主来汇集和纪录执行操作中的数据。
我信服,得胜的机器东说念主计谋需要有用整合这三类数据,以提供全面且统一的处置决策。这种综合的数据策略粗略更好地复古机器东说念主在各式环境中的弘扬和安妥性。
Sonya Huang:咱们之前讨论过在构建机器东说念主基础模子时数据的瓶颈问题。你若何看待这个问题?具体来说,处置这个问题需要什么样的高质料数据?
Jim Fan:咱们讨论的三种数据类型王人有各自的优缺陷。
起首,互联网数据种类庞大,包含丰富的知识信息,可以匡助咱们了解东说念主类若何与物体互动,但不包含机器东说念主的动作限制信号,因此弗成平直得到机器东说念主的动作数据。
其次,模拟数据可以提供详实的动作数据并不雅察其效果,数据险些是无尽的且相聚遵守高。但模拟和现实之间仍存在差距,比如物理效果和视觉效果不齐备一致,场景也不如现实寰球万般。
终末,简直的机器东说念主数据来自简直寰球,莫得模拟与现实的差距,但相聚成本高,需要东说念主工操作是以相聚速率受限。
因此,最好的策略是综合这三种数据的优点,弥补相互的不及。
Sonya Huang:如果你能瞻望一下将来五年或十年,你但愿你们的团队粗略罢了哪些联想和配置?
Jim Fan:诚然这只是我的预测,但我但愿在接下来的两到三年内,咱们粗略看到机器东说念主基础模子的冲突。这将肖似于机器东说念主领域的 GPT-3 时刻。
关联词动漫,机器东说念主参加东说念主们日常生涯不单是是工夫问题,还波及经济性、大规模坐褥才能、硬件安全性、诡秘和限定等多个方面。
这些身分可能会降速机器东说念主的普及,因此时刻表会比拟难以预测。但我如实但愿在将来两到三年内看到研究取得骨子性进展。
Stephanie Zhan:你若何界说东说念主工智能机器东说念主的 GPT-3 时刻?
Jim Fan:我将机器东说念主视为两个部分:系统一和系统二。这一意见来源于《想考,快与慢》。
系统一波及低档次的、意外志的动作限制,比如捏杯子时的手指畅通。而系统二则是三想尔后行的推理和贪图。
GPT-3 时刻指的是机器东说念主在系统一方面的冲突。比如,"掀开"这个词在不爱怜境下有不同含义,东说念主类天然和会这些含义,但面前的机器东说念主模子还未能在这些低档次动作限制上进行有用泛化。
我期待将来能出现这么的模子。
Sonya Huang:那么,对于系统二的想考呢?你认为咱们若何才能罢了这少量?大型话语模子(LLM)领域的一些推理努力是否会对机器东说念主领域有所启发?
Jim Fan:如实有启发。
面前的模子在系统二的推理和贪图方面已有进展。但将系统二与系统一衔接是个挑战。咱们需要决定是用一个统一的模子,照旧分开使用系统一和系统二,并让它们相互调换。
全体模子的选藏很浮浅,但具体的限制比拟复杂,分层方法可能更有用。如安在这两种系统间进行有用调换仍不解确,这将是将来的研究要点。
Sonya Huang:你认为咱们能在系统一想维方面取得冲突吗?是通过规模和 Transformer 的擢升,照旧更多依赖于命运?
Jim Fan:我但愿咱们的数据策略能匡助罢了冲突。Transformer 的后劲尚未齐备领路。
咱们需要整合互联网数据、模拟数据和简直机器东说念主数据,一朝在数据管说念中扩大规模,并将高质料的动作数据标记化后传递给 Transformer,可能会看到新特点。
我称之为具身智能的 Scaling Law,面前只是启动。
通用模子
Sonya Huang:你为什么会专注于类东说念主机器东说念主(humanoid robots)?
Jim Fan:有几个执行的原因。起首,类东说念主机器东说念主锻练起来相对容易,因为网上有多数以东说念主类为中心的数据和视频,这些数据纪录了咱们日常的行为。由于类东说念主机器东说念主的款式接近东说念主类,它们粗略更好地把握这些数据,尤其是五指操作的场景。掌捏了类东说念主机器东说念主工夫后,咱们可以将这些工夫转移到其他类型的机器东说念主,从而罢了更平时的通用性。
Stephanie Zhan:是以你们面前只专注于锻练类东说念主机器东说念主,而不是机器东说念主手臂或机器东说念主狗?
Jim Fan:是的,面前咱们的要点如实是类东说念主机器东说念主。不外,咱们开发的管说念,包括模拟和简直机器东说念主器用,具备了充足的通用性,将来可以安妥其他机器东说念主平台。
咱们的方针是构建一个平时适用的器用,以便在将来可以应用于多种机器东说念主款式。
Sonya Huang:你提到了许屡次"通用"这个词,你为什么取舍了通用的方法?另外,你认为 Richard Sutton 的"更惨的训诫"是否在机器东说念主领域也适用?
Jim Fan:我认为通用模子如实是值得追求的。我先讲讲天然话语处理(NLP)的得胜故事。
在 ChatGPT 和 GPT-3 出现之前,NLP 领域有许多专用的模子和历程,用于翻译、编码、数学运算和创意写稿等。这些模子和历程王人是为特定任务量身定作念的专用模子。
但 ChatGPT 的出现将这些功能统一到一个通用模子中。GPT-3 和 ChatGPT 四肢通用模子,可以被教导、微斡旋索求,以安妥各式专用任务。
通用模子常常比专用模子更刚烈,更易于选藏,因为它们只需要一个 API 来处理输入和输出。
在机器东说念主领域,咱们但愿模仿 NLP 的得胜履历。
面前大多数机器东说念主应用仍处于专用阶段,使用特定的硬件、数据和历程。GR00T 的方针是建立一个通用基础模子,起首在类东说念主机器东说念主上应用,之后可以推行到其他机器东说念主款式。
一朝咱们有了这么的通用模子,咱们就可以对其进行微斡旋索求,以应答特定的机器东说念主任务。
尽管短期内专注于特定任务会更容易,但英伟达让咱们信服,将来属于通用模子。诚然开发周期较长且濒临更多复杂的研究问题,但这是咱们追求的主要方针。
机器东说念主领域的复兴
Sonya Huang:你们的研究中有莫得罕见值得强调的后果?有莫得什么让你对你们的方法感到乐不雅或充满信心的场地?
Jim Fan:如实有一个值得罕见提到的后果,那便是咱们的 Urea 技俩。咱们展示了一个五指机器东说念主手粗略得胜转笔的任务。
这个任务对我来说尤其具有个东说念主道理,因为我小时候尝试转笔老是作念得不好。如果我我方去作念现场演示,我可能会搞砸,但咱们的机器东说念主手却能唐突完成。
这项研究的关键在于,咱们使用了 L 模子来编写代码,这些代码用于英伟达开发的 IS6 Sim API 模拟器。
L 模子生成的代码界说了奖励函数,这个函数用于范例咱们守望的欲望行动。机器东说念主按照奖励函数的率领进行操作,正如实践任务会得到奖励,子虚则会受到处分。
常常,奖励函数的遐想是由大师进行的,这需要多数的专科知识和手动操作。而 Urea 技俩通过自动化遐想奖励函数,使机器东说念主粗略完成复杂的任务,如转笔。
这个通用工夫不仅限于转笔,咱们谋略将其应用于更多任务,并在英伟达的模拟 API 中生成新的任务。这为咱们提供了巨大的发展空间。
Sonya Huang:你认为此次机器东说念主领域的复兴原因是什么?五年前,研究东说念主员尝试用机器东说念主手处置魔方等问题时,曾有过一段破灭期。面前这个领域又重新活跃起来,你认为有什么不同?
Jim Fan:面前有几个关键身分使情况不同。
起首是硬件的向上。连年来,新式机器东说念主硬件的出现速率至极快。举例,特斯拉正在研发 Optimus,波士顿能源等公司也束缚推出新工夫,还有许多初创公司参加这一领域。这些新硬件更先进,举例更活泼的机械手和更高的可靠性,这是一个首要身分。
其次是价钱的着落,类东说念主机器东说念主的价钱显耀镌汰。2001 年,NASA 开发的东说念主形机器东说念主 Robonaut 价钱特出 150 万好意思元。而最近一些公司能将东说念主形机器东说念主的价钱降到约 3 万好意思元,这相当于一辆汽车的价钱。
此外,熟谙居品的价钱常常接近原材料成本。东说念主形机器东说念主常常只需汽车原材料的 4%,是以将来几年咱们可能会看到价钱连续着落,以致出现指数级的降幅,使这些先进硬件变得愈加实惠。
第三个身分是基础模子的进展。咱们面前看到的前沿模子如 GPT、Claude 和 Llamas 等在推理和贪图方面取得了显耀进展。这些话语模子不仅粗略膨胀到新场景,还能编写代码。咱们在 Urea 技俩中便是把握这些话语模子的编码才能来开发新的机器东说念主处置决策。
此外,跨模态模子的兴起也改善了野神思视觉和感知才能。这些得胜案例荧惑咱们连续追求机器东说念主基础模子,把握前沿模子的泛化才能,再衔接动作生成工夫,鼓励类东说念主机器东说念主的发展。
假造寰球研究
Minecraft 的探索
Sonya Huang:你领先的研究主要蚁合在假造寰球。能谈谈你为什么对 Minecraft 感意思,以及它与机器东说念主工夫的联系吗?假造寰球对你来说有什么罕见的眩惑力?
Jim Fan:我的方针是处置具身智能的问题,包括游戏和仿真,这亦然我对假造寰球罕见感意思的原因。我可爱玩游戏,是以对 Minecraft 罕见感意思。我不是罕见擅长 Minecraft,这亦然我但愿 AI 能弥补我的工夫不及的原因。
我作念过两个关联的游戏技俩。第一个是 Mine Dojo,咱们开发了一个平台来在 Minecraft 中锻练通用智能体。Minecraft 是一个怒放的 3D 寰球,你可以摆脱探索和创造。咱们从互联网上汇集了多数数据,如游戏视频和关联讨论,用这些数据锻练模子玩 Minecraft。
第二个技俩是 Voyager。在 GPT-4 出现后,咱们尝试将编程视为一种行动,开发了 Voyager Agent。它通过编写代码与 Minecraft 互动。
咱们用 API 将 Minecraft 的寰球养息为文本,然后让 Agent 编写代码。Agent 在遭受子虚时会得到响应并修正要领,逐渐积聚技巧。悉数的技巧被保存到一个库中,将来可以重叠使用。
此外,Voyager 还有"自动课程"(Automatic Curriculum)机制,粗略自我判断掌捏了什么,建议适合的任务,匡助它束缚向上。
智能体的优化
Sonya Huang:为什么假造寰球的研究如斯丰富?假造寰球中的问题处置与物理寰球的问题处置有什么谈判?
Jim Fan:尽管游戏和机器东说念主看起来不同,但它们其实有许多相似之处。两者王人波及到具身智能体,输入包括视频流和传感器数据,输出是行动。
在游戏中,这些行动是键盘和鼠标操作;在机器东说念主中,则是电机限制。不管是假造照旧物千里着圣洁能体,王人需要在环境中探索并汇集数据,这便是强化学习和自我探索的基本原则。
不外,机器东说念主濒临的一个挑战是如那处置模拟与现实之间的差距。模拟中的物理和渲染不完满,将模拟中的学习转移到现实寰球很贫窭。
游戏则莫得这个问题,因为锻练和测试王人在合并个假造环境中。
这是假造寰球和物理寰球的主要永诀。
客岁,我建议了一个意见,称为"基础智能体"。我信服将来会有一个模子粗略同期适用于假造和物千里着圣洁能体。
基础智能体有三个方面的泛化才能:
粗略完成的技巧;
粗略限制的身形或款式;
粗略掌捏的寰球或现实。
我但愿将来能有一个单一模子,可以在不同的机器东说念主款式和智能体款式上完成各式技巧,并在多种假造或现实寰球中泛化。这是咱们团队追求的最终愿景。
Stephanie Zhan:你对于游戏寰球中的智能体有哪些个东说念主联想?你但愿看到 AI 智能体在游戏寰球中有哪些立异?
Jim Fan:我罕见期待两个方面。起首是"活" NPC 的出现。如果 NPC 粗略与玩家互动、记着对话并影响游戏情节,这么每个东说念主的游戏体验王人会不同,增多了游戏的重玩价值。
其次是游戏寰球的及时生成。将生成 3D 模子、视频和故事情节的工夫衔接起来,让游戏寰球在玩家互动中及时生成,这将创造一个信得过怒放的体验,至极令东说念主情愿。
Stephanie Zhan:对于智能体的才能需求,你认为需要 GPT-4 级别的才能,照旧像 Llama 8B 这么的模子就充足了?
Jim Fan:智能体需要具备以下才能:道理的对话、踏实的个性、弥远记挂,并能谢寰球中行动。诚然 Llama 模子一经作念得可以,但仍不及以产生绝酌夺样化和眩惑东说念主的行动。
另外,推理成本亦然一个问题。如果智能体要提供给玩家使用,那么它们要么需要在云表低成本托管,要么需要在开发上腹地运行,不然在成本方面将难以膨胀。
Sonya Huang:你认为假造寰球的处事是否主如若为了罢了现实寰球中的方针?照旧假造寰球的处事本人便是值得追求的?物理寰球和假造寰球的优先级若何?
Jim Fan:我认为假造寰球和物理寰球最终会交融成一个统一的现实。
举例,领域只怕化工夫通过在千千万万种不同的模拟环境中锻练机器东说念主来罢了这少量。
每种模拟环境王人有不同的物理参数,比如重力和摩擦力。如果咱们有一个智能体粗略掌捏这些万般化的模拟环境,它将能更好地泛化到现实寰球。
咱们但愿通过这种方法将模拟中的学习平直回荡到现实寰球。这标明假造寰球的锻练和现实寰球的应用是相互谈判的,假造寰球的技巧可以匡助咱们在现实中取得配置。
Transformer 的替代品
Sonya Huang:在假造寰球领域,那些优秀的模子大多基于 Transformer 架构。你认为咱们是否一经准备好大规模应用 Transformer,照旧说在模子方面仍然需要一些基础性的冲突?
Jim Fan:我认为,咱们还莫得将 Transformer 架构的后劲领路到极致。
尽管 Transformer 在许多方面弘扬出色,但面前的数据问题仍然是一个瓶颈。咱们无法从互联网平直下载这些动作数据,因为它们常常不附带模子限制数据。
因此,咱们必须在模拟环境或简直机器东说念主上汇集这些数据。一朝咱们建立了熟谙的数据管说念,咱们可以平直用 Transformer 处理数据,就像 Transformer 预测维基百科上的下一个词同样。
诚然咱们正在测试这些假定,但 Transformer 的后劲尚未被齐备挖掘。
此外,还有许多对于 Transformer 替代架构的研究。比如 Mamba 以及最近的时刻锻练等替代决策,这些王人是很有出息的想法。
诚然这些替代决策在面前的前沿模子性能上还未显耀超越 Transformer,但我对它们充满期待,并但愿看到它们在将来的发展。
Stephanie Zhan:有哪个模子罕见引起了你的细心,为什么?
Jim Fan:我罕见热心 Mamba 和测试时刻锻练。这些模子在推理过程中展现了更高的遵守。
与 Transformer 处理悉数的令牌不同,这些模子具备更高效的机制。我认为它们后劲很大。
关联词,咱们还需要将它们膨胀到前沿模子的规模,信得过比拟它们与 Transformer 的效果。这将匡助咱们更好地和会它们在执行应用中的弘扬。雷峰网