Исследовательская лаборатория ИИ Google DeepMind заявила, что ее недавно выпущенная модель искусственного интеллекта, Gemini 2.0, станет основой для создания более продвинутых ИИ-агентов.
ИИ-агент на базе Gemini 2.0, выпущенный 11 декабря, может понимать сложные инструкции, планировать, рассуждать, действовать на различных веб-сайтах и даже помогать с видеоигровой стратегией, как заявил генеральный директор Google DeepMind Демис Хасабис и технический директор Корей Кавукчоглу в блоге 11 декабря.
«Практическое применение ИИ-агентов является областью исследований, полной захватывающих возможностей», - сказали Хасабис и Кавукчоглу.
«Мы исследуем этот новый рубеж с помощью серии прототипов, которые могут помочь людям выполнять задачи и добиваться результатов.»
По словам Хасабиса и Кавукчоглу, существует несколько экспериментальных проектов ИИ-ассистентов на базе Gemini, каждый из которых имеет свою функцию.
Один из них, известный как Deep Research, может помочь пользователям исследовать сложные темы, создавая многоуровневые исследовательские планы, осуществляя поиск в интернете и затем генерируя длинный отчет о своих находках.
Проект Astra, универсальный ИИ-ассистент, предназначен для повседневных задач, таких как предоставление рекомендаций и советов на основе запросов пользователя, например, как стирать одежду или больше информации о достопримечательности.
Проект Mariner сосредоточен на создании ИИ-агента, который может управлять вашим браузером Chrome, перемещать курсор, нажимать кнопки, заполнять формы и навигировать по веб-сайтам.
По словам Хасабиса и Кавукчоглу, эти проекты «все еще на ранних стадиях разработки», но они надеются сделать их «широко доступными в продуктах в будущем» после тестирования и дальнейшей разработки.
«Пока еще рано, но проект Mariner показывает, что становится технически возможным навигировать внутри браузера, даже несмотря на то, что это не всегда точно и медленно выполняет задачи сегодня, что быстро улучшится со временем.»
Тем временем проект Jules разрабатывается как ассистент для разработчиков, который может интегрироваться непосредственно в рабочий процесс GitHub и помогать с такими задачами, как кодирование и планирование.
Хасабис и Кавукчоглу сказали, что они также создали агентов, использующих Gemini 2.0 для видеоигр, которые могут предлагать игроку, что делать дальше в реальном времени, а также искать «богатство игровых знаний» в интернете.
«Мы сотрудничаем с ведущими разработчиками игр, такими как Supercell, чтобы изучить, как работают эти агенты, тестируя их способность интерпретировать правила и вызовы в широком спектре игр, от стратегий до симуляторов фермерства», - сказали они.
В ноябре Марк Бениофф, генеральный директор американской компании по облачному программному обеспечению Salesforce, сказал, что будущее ИИ заключается в автономных агентах, а не в больших языковых моделях (LLMs).
«На самом деле, я думаю, что мы достигаем верхнего предела LLM в данный момент», - сказал он в подкасте The Wall Street Journal «Будущее всего» 23 ноября.
Nvidia также сосредоточится на том, чтобы занять позицию перед этой тенденцией.
«Мы видим, что количество компаний, работающих на основе ИИ, продолжает расти. И, конечно, мы начинаем видеть, что предприятие внедряет агентный ИИ, что действительно является последним модным трендом», - сказал генеральный директор Nvidia Дженсен Хуанг на конференц-звонке по отчетам за третий квартал в ноябре.
Кроме того, Хасабис и Кавукчоглу говорят, что команда «экспериментирует с агентами, которые могут помочь в физическом мире» с помощью робототехники. ИИ-агенты Google на данный момент выпускаются только для тестировщиков и разработчиков.
Журнал: Как выбрать выигрышный криптоигровой токен в этом бычьем рынке: Web3 Gamer