Google выпустила новую модель робота RT-1, которая похожа на модель GPT, используемую в ее программе искусственного интеллекта OpenAI. Новая модель разработана с учетом других программ робототехники Google, в том числе программы беспилотных автомобилей. Представленная здесь модель RT-1 — это шаг к генеративным моделям искусственного интеллекта в области робототехники. В реальном мире RT-1 может выполнять более 700 инструкций с вероятностью успеха 97%.

Недавние достижения в исследованиях машинного обучения (МО), такие как компьютерное зрение и обработка естественного языка, стали возможны благодаря общему подходу, который использует большие, разнообразные наборы данных и выразительные модели. Хотя предпринимались различные попытки применить этот подход к робототехнике, роботы до сих пор не использовали модели с высокими возможностями так часто, как в других областях.

Модель кодирует записанную команду и набор изображений в качестве токенов с использованием предварительно обученной модели FiLM EfficientNet, а затем сжимает их с помощью TokenLearner. Это архитектура РТ-1. Затем Трансформатор получает их и производит жетоны действий.

Разработчики собрали значительный и разнообразный набор данных о траекториях роботов, чтобы разработать систему, которую можно было бы обобщать для новых задач и демонстрировать устойчивость к различным отвлекающим факторам и обстоятельствам. Чтобы собрать 130 тысяч эпизодов за 17 месяцев, они задействовали 13 роботов-манипуляторов EDR, каждый из которых имеет руку с 7 степенями свободы, двухпальцевый захват и мобильную базу. Исследователи использовали человеческие примеры, полученные с помощью удаленной телеоперации, и отмечали каждое событие письменным объяснением команды, которую только что выполнил робот. Подбирать и расставлять предметы, открывать и закрывать ящики, заносить предметы в ящики и вынимать из них, ставить вытянутые предметы вертикально, опрокидывать предметы, тянуть салфетки и открывать банки — это навыки высокого уровня, включенные в набор данных.

В следующем видео показаны несколько примеров выполнения долгосрочных задач PaLM-SayCan-RT1 на нескольких реальных кухнях.

Во всех четырех областях RT-1 работает значительно лучше, чем базовые показатели, демонстрируя исключительный уровень обобщения и устойчивости.

Робототехнический преобразователь RT-1 — это простая и масштабируемая модель генерации действий для реальных задач робототехники. Он токенизирует все входные и выходные данные и сжимает их с использованием предварительно обученной модели EfficientNet с ранним слиянием языков и средством обучения токенов. RT-1 демонстрирует высокую производительность при выполнении сотен задач, а также широкие возможности обобщения и надежность в реальных условиях.

Узнать больше:

  • GPT-3: Может ли он действительно предсказать будущее США на следующие 5 лет?

  • OpenAI обновил GPT-3: более высокое качество письма и возможность более длинного текста

  • Сбер ИИ представил Кандинский 2.0 — первую модель преобразования текста в изображение для генерации более чем на 100 языках.

Сообщение Google выпускает модель робота, похожую на GPT, RT-1 впервые появился на Metaverse Post.