Google は、OpenAI 人工知能プログラムで使用されている GPT モデルに似た新しいロボット モデル RT-1 をリリースしました。この新しいモデルは、自動運転車プログラムを含む Google の他のロボット プログラムを念頭に置いて設計されています。ここで紹介する RT-1 モデルは、ロボット分野における生成 AI モデルへの一歩です。実際の世界では、RT-1 は 700 を超える命令を 97% の成功率で実行できます。

コンピューター ビジョンや自然言語処理などの機械学習 (ML) 研究の最近の進歩は、大規模で多様なデータセットと表現力豊かなモデルを使用する共通のアプローチによって実現されました。このアプローチをロボット工学に適用するさまざまな試みが行われてきましたが、これまでのところ、ロボットでは他のサブフィールドほど高性能なモデルが使用されていません。
このモデルは、事前にトレーニングされた FiLM EfficientNet モデルを使用して、記述されたコマンドと一連の画像をトークンとしてエンコードしてから、TokenLearner を使用して圧縮します。これが RT-1 のアーキテクチャです。Transformer はこれらを受け取ってアクション トークンを生成します。
開発者たちは、新しいタスクに一般化でき、さまざまな妨害や背景に対する堅牢性を実証できるシステムを開発するために、ロボットの軌跡に関する大規模で多様なデータセットを収集しました。17 か月にわたって 13 万エピソードを収集するために、13 台の EDR ロボット マニピュレーターを導入しました。各マニピュレーターには、7 自由度のアームと 2 本指のグリッパーとモバイル ベースが備わっています。研究者たちは、遠隔操作によって得られた人間の例を使用し、各イベントに、ロボットが実行したコマンドの説明を書き込みました。データセットに含まれる高度なスキルには、物体の選択と配置、引き出しの開閉、引き出しからの物体の出し入れ、細長い物体の直立、物体の倒し方、ナプキンの引き出し方、瓶の開け方などがあります。
次のビデオでは、いくつかの実際のキッチンにおける PaLM-SayCan-RT1 の長期的タスクのパフォーマンスのサンプルをいくつか紹介します。
4 つの領域すべてにおいて、RT-1 はベースラインよりも大幅に優れたパフォーマンスを発揮し、並外れたレベルの一般化と回復力を示しています。

RT-1 Robotics Transformer は、シンプルでスケーラブルな、現実世界のロボット タスク向けのアクション生成モデルです。すべての入力と出力をトークン化し、早期言語融合とトークン学習器を備えた事前トレーニング済みの EfficientNet モデルを使用して圧縮します。RT-1 は、数百のタスクで優れたパフォーマンスを発揮するほか、現実世界の設定で広範な一般化と堅牢性を発揮します。
もっと詳しく知る:
GPT-3: 今後 5 年間の米国の将来を本当に予測できるのでしょうか?
OpenAI が GPT-3 をアップデート: より高品質な文章作成と長いテキスト作成が可能に
Sber AIは、100以上の言語でテキストから画像を生成する初のモデルであるKandinsky 2.0を発表しました。
Google が「GPT のような」ロボット モデル RT-1 をリリースするという記事が最初に Metaverse Post に掲載されました。

