CMU清華MIT引爆全球首個Agent無限流，機器人「007」加班自學停不下來！具身智能被革命

文章轉載來源：AI之勢
文章來源：新智元
編輯：Aeneas 好睏
 最近，由CMU/MIT/清華/Umass提出的全球首個生成式機器人智能體RoboGen，可以無限生成數據，讓機器人7*24小時永不停歇地訓練。AIGC for Robotics，果然是未來的方向。
全球首個生成式機器人Agent發佈了！
長久以來，相比於語言或者視覺模型可以在大規模的互聯網數據上訓練，訓練機器人的策略模型需要帶有動態物理交互信息的數據，而這些數據的匱乏一直是具身智能發展的最大瓶頸。
最近，來自CMU、清華、MIT，UMass等機構的研究人員提出了一種全新的RoboGen智能體。
利用涵蓋在大語言模型和生成式模型中蘊含的大規模知識，配以逼真模擬世界提供的物理信息，可以「無限」生成各種任務、場景以及教學數據，實現機器人7x24小時全自動訓練。
現在，我們正在迅速耗盡來自網絡的高質量的真實token。全球訓練AI的數據，都快不夠用了。
深度學習之父Hinton表示，「科技公司們正在未來18個月內，要使用比現在GPT-4多100倍的算力訓練新模型」。模型參數更大，算力需求巨大，然而數據在哪裏？
面對飢渴的模型，AI合成就是答案。
論文地址：https://arxiv.org/abs/2311.01455
項目主頁：https://robogen-ai.github.io/
開源地址：https://github.com/Genesis-Embodied-AI
具體來說，由MIT-IBM首席科學家淦創帶領的研究團隊，在生成式AI和和可微分物理模擬的加持下，提出了一種「提出-生成-學習」循環，讓Agent能夠自己出題自己訓練機器人。
首先，Agent提出，我們要開發這個技能。
然後，它會生成相應的環境、配置和技能學習指導，來創建模擬環境。
最後，Agent會將提出的上層任務分解爲子任務，選擇最佳學習方法，然後學習策略、掌握所提技能。
值得注意的是，整個過程幾乎都不需要人類的監督，而且任務的數量，竟然是——無限個！
對於這則重磅的研究，英偉達高級科學家Jim Fan也進行了轉發。
現在，機器人已經學會一系列炸裂操作——
把物品放到儲物櫃中：
用微波爐加熱一碗湯：
拉動槓桿沖泡咖啡：
以及後空翻等等：
 模擬環境，多樣化技能學習的關鍵
機器人研究中，長期存在這樣一個難題：怎樣賦予機器人多種技能，讓它們在非工廠環境中操作，爲人類執行廣泛的任務？
近年來，我們教會了機器人各種複雜的技能，比如流體操縱、投擲物體、踢足球、跑酷等等，然而這些技能卻各自爲政，視野較短，需要人工設計的任務描述和訓練監督。
因爲現實世界數據收集成本高昂且費力，這些技能都是在適當領域隨機化的模擬中訓練，然後部署到現實世界中的。
與現實世界中的探索和數據收集相比，模擬環境具有許多優點，比如提供了低級狀態的特權訪問和無限的探索機會；支持大規模並行計算，數據收集速度顯著加快；允許機器人開發閉環策略和錯誤恢復能力。
然而，構建模擬環境需要一系列繁瑣的任務（設計任務、選擇相關且語義上有意義的資產、生成合理的場景佈局和配置、制定獎勵或損失函數等訓練監督）。即使在模擬世界中，也極大限制了機器人技能學習的可擴展性。
因此，研究者提出一種「生成模擬」範式，將模擬機器人技能學習的進步與基礎和生成模型的最新進展結合起來。
利用最先進的基礎模型的生成能力，生成模擬可以爲模擬中各種機器人技能學習所需的所有階段生成信息。
得益於最新基礎模型中全面的編碼知識，以這種方式生成的場景和任務數據，可能與現實世界場景的分佈非常相似。
此外，這些模型可以進一步提供分解的低級子任務，這些子任務可以通過特定領域的策略學習方法無縫處理，從而產生各種技能和場景的閉環演示。
 RoboGen流程
RoboGen是一種全自動流程，可以7x24h地讓機器人學習各種技能，其中包括4個階段：
1. 任務建議；
2. 場景生成；
3. 訓練監督生成；
4. 利用生成的信息進行技能學習。
利用最新基礎模型的嵌入式常識和生成功能，RoboGen可以自動生成任務、場景和訓練監督，從而讓機器人的多種技能學習實現規模化。
任務建議
在這一階段，RoboGen能夠提出上層任務，生成相應的環境，將上層目標分解爲底層子任務，然後按順序學習子技能。
首先，RoboGen會生成有意義的、多樣化的、高水平的任務，供機器人學習。
研究者使用特定的機器人類型和從池中隨機採樣的對象，來初始化系統。然後將提供的機器人和採樣對象信息輸入LLM。
這種採樣過程，就確保了生成任務的多樣性。
比如，四足機器人等腿式機器人能夠獲得多種運動技能，而機械臂操縱器在配對時，有可能執行多種操縱任務與不同的採樣對象。
研究者使用GPT-4在當前的流程中進行查詢。隨後在機械的背景下解釋 RoboGen的詳細信息，以及與對象操作相關的任務。
用於初始化的對象是從預定義的列表中採樣的，包括家庭場景中常見的鉸接式和非鉸接式對象，例如烤箱、微波爐、飲水機、筆記本電腦、洗碗機等。
因爲GPT-4接受過大量互聯網數據集的培訓，所以它對這些對象的可供性、如何與它們交互、它們可以與哪些有意義的任務相關聯，都有着豐富的理解。
比如，假設採樣的鉸接物體是微波爐，其中關節0是連接門的旋轉關節，關節1是控制計時器旋鈕的另一個旋轉關節，GPT-4會返回一個任務——「機器人手臂將一碗湯放入微波爐內，關上門並設置微波爐計時器，適當加熱時間a」。
生成的任務所需的其他對象，有一碗湯a，以及與任務相關的關節和鏈接，包括關節0（用於打開微波爐門）、關節1（用於設置定時器）、鏈接0（門）和鏈接1（定時器旋鈕）。
對於鉸接物體，由於PartNetMobility是唯一高質量的鉸接物體數據集，並且已經涵蓋了各種鉸接資產，因此將根據採樣資產生成任務。
通過重複查詢不同的採樣對象和示例，可以生成各種操作和運動任務。
場景生成
給定一個任務，就可以繼續生成相應的模擬場景，以學習完成該任務的技能。
如圖所示，根據任務描述生成場景組件和配置，並檢索或生成對象資產，隨後填充模擬場景。
場景組件和配置由以下元素組成: 對要填充到場景中的相關資產的查詢、其物理參數(例如大小)、配置 (例如初始關節角度) 以及資產的整體空間配置。
除了上一步中生成的任務所需的必要對象資產之外，爲了增加生成場景的複雜性和多樣性，同時類似於真實場景的對象分佈，研究者還讓GPT-4返回與任務語義相關對象的附加查詢。
比如，對於任務「打開櫃子，將玩具放入其中，然後關上它」，生成的場景還會包括客廳墊子、檯燈、一本書和一把辦公椅。
 訓練監督生成
爲了獲得相關技能，就需要對技能學習進行監督。
RoboGen會首先查詢GPT-4，來把長任務規劃和分解爲較短範圍的子任務。
一個關鍵假設是，當任務被分解爲足夠短的子任務時，每個子任務都可以通過強化學習、運動規劃、軌跡優化等現有算法可靠地解決。
分解後，RoboGen會查詢GPT-4，選擇合適的算法來解決每個子任務。
RoboGen中集成了幾種不同類型的學習算法: 強化學習、進化策略、基於梯度的軌跡優化、帶有運動規劃的動作初始化。
每一種都適合不同的任務，例如基於梯度的軌跡優化更適合學習涉及軟體的細粒度操作任務，比如將麪糰塑造成目標形狀。
與運動規劃相結合的動作初始化在解決任務時更加可靠，例如通過無碰撞路徑接近目標對象。
強化學習和進化策略更適合接觸豐富、涉及與其他場景組件持續交互的任務，例如腿部運動，或者當所需的動作不能簡單地通過離散的末端執行器姿勢參數化時，比如轉動一個烤箱的旋鈕。
總之，GPT-4會根據生成的子任務，在線選擇使用哪種算法。
接下來，就可以爲機器人構建模擬場景，讓它們學習技能了。
 機器人學會開保險箱
舉個例子，RoboGen會讓機器人去學習調整檯燈方向這種非常精巧的任務。
有趣的是，在這個場景裏，地面上竟然還放着像是電腦顯示器這樣的易碎物。
可以說，非常考驗機器人的環境識別能力了。
對此，RoboGen會生成非常詳盡的操作代碼，包括場景配置、任務分解和監督：
此外，還會訓練一些需要執行很多步驟才能完成的任務，比如讓機器人把保險箱裏的東西取出來。
這裏就涉及到開門，取物，放下，關門等操作，期間還需要儘量避免與傢俱產生碰撞。
RoboGen給出的代碼如下：
或者，諸如讓波士頓動力的人形機器人原地轉個圈，這種在狹小空間中可能會遇到情景。
代碼如下：
 實驗結果
- 任務多樣性
如表1所示，與之前的所有基準相比，RoboGen實現了最低的Self-BLEU和嵌入相似度。也就是說，RoboGen生成任務的多樣性，比人工製作的技能學習基準和數據集還要高！
- 場景有效性
如圖4所示，取消大小驗證會導致BLIP-2分數急劇下降，這是因爲Objaverse和PartNetMobility中的物體尺寸，與現實世界的實際尺寸之間存在着巨大差異。此外，沒有對象驗證的BLIP-2得分也較低，而且方差更大。
相比之下，RoboGen中的驗證步驟，可以顯著提高對象選擇的有效性。
- 訓練指導有效性
如圖3所示，機器人在4個長程任務中，基於RoboGen生成的訓練指導（即任務分解和獎勵函數）學習到的技能。
結果表明，機器人成功學習到了完成相應任務的技能。也就是說，自動生成的訓練指導能有效衍生出有意義且有用的技能。
- 技能學習
表2的結果顯示，允許選擇學習算法有利於提高完成任務的性能。如果只使用RL，大多數任務的技能學習都會失敗。
- 系統
如圖1所示，RoboGen可以生成各種任務，用於技能學習，包括剛性/關節物體操作、運動和軟體操作。
而圖3進一步表明，RoboGen能夠以合理的分解方式提供長程操作技能。
作者介紹
Yufei Wang是卡內基梅隆大學機器人研究所三年級的博士生，導師是Zackory Erickson教授和David Held教授，研究興趣是機器人學習。
此前，他於2020年12月在CMU獲得了計算機科學碩士學位，導師是David Held教授，於2019年7月在北京大學元培學院獲得了數據科學學士學位，導師是Bin Dong教授。
Zhou Xian是卡內基梅隆大學機器人研究所的一名博士生，導師是Katerina Fragkiadaki。研究興趣是機器人、計算機視覺和世界模型學習。
在進入CMU之前，他在新加坡南洋理工大學完成了學士學位，師從Pham Quang Cuong和I-Ming Chen。並曾在Meta AI、Akshara Rai，以及MIT-IBM AI Lab實習，導師是Chuang Gan。
目前，他的研究重點是爲可擴展的機器人學習構建統一的神經策略和仿真基礎設施。
此外，共同一作還有清華姚班的陳楓。
團隊負責人淦創，現任IBM首席科學家和麻省大學助理教授，是姚期智院士的弟子。在博士期間曾獲得清華特獎，微軟學者，百度學者。他的研究同時得到了Amazon Research Award，Sony Faculty Award，Cisco Faculty Award，Microsoft Accelerate Foundation Models Research Program等資助。
參考資料：
https://robogen-ai.github.io