• Gemini Live предлагает 10 универсальных голосов, что превосходит предложение ChatGPT с тремя голосами.

  • Gemini Live от Google впервые использует мультимодальные входы, расширяя возможности адаптации ИИ.

  • Gemini Live — пионер в области имитации голоса в реальном времени, расширяющий возможности персонального взаимодействия с искусственным интеллектом.

Google запустила Gemini Live, новую функцию голосового взаимодействия, на мероприятии «Made by Google». Эта инициатива будет напрямую конкурировать с Advanced Voice Mode от OpenAI для ChatGPT, что станет поворотным моментом в коммуникации с помощью ИИ.

https://twitter.com/GoogleDeepMind/status/1823409674739437915

Gemini Live, разработанный для пользователей Gemini Advanced, обеспечивает более естественный и интерактивный процесс общения, аналогичный реальному телефонному разговору, позволяя пользователям легко вмешиваться, менять темы или возобновлять обсуждения.

Возможности Gemini Live

Gemini Live использует новейший речевой движок Google для создания четкой, эмоционально яркой и плавной коммуникации в многочисленных разговорах. Он предоставляет выбор из десяти уникальных, естественно звучащих голосов, включая необычную функцию, которая позволяет ИИ воспроизводить речь пользователя в реальном времени. Эта функция направлена ​​на повышение качества взаимодействия, делая его более личным и менее роботизированным. Кроме того, Gemini Live эффективно работает в режиме громкой связи, даже когда устройство заблокировано, облегчая многозадачность, не прерывая поток разговора.

Эта новая технология также включает в себя мультимодальные входы, впервые продемонстрированные на Google I/O 2024, что позволяет ИИ реагировать на визуальные подсказки, такие как изображения и видео. Это дополнение призвано сделать ИИ более адаптивным и универсальным в обработке различных пользовательских запросов и команд.

Сравнение с предложением OpenAI

Хотя OpenAI представила похожую функцию ранее, Google была первой, кто выпустил завершенную версию этой технологии. Расширенный голосовой режим OpenAI для ChatGPT, который все еще находится в стадии ограниченного альфа-тестирования, столкнулся с некоторыми препятствиями, включая проблемы безопасности, связанные с формированием социальных отношений между пользователями и ИИ. Эти проблемы выявили потенциальные неблагоприятные последствия для межличностных отношений, побудив OpenAI усилить меры безопасности и функциональные возможности своих моделей.

Стратегические улучшения и планы на будущее

Поскольку Google продолжает развертывать Gemini Live, он также собирается представить дальнейшие интеграции и функции, которые распространяются на его различные сервисы. Планируемые обновления включают новые расширения для таких приложений, как Google Calendar, Keep, Tasks и YouTube Music, которые позволят более эффективно управлять ежедневными задачами с помощью голосовых команд. Более того, ожидается, что будущие обновления принесут поддержку дополнительных языков и совместимость с устройствами iOS.

Помимо этих ориентированных на пользователя усовершенствований, Gemini Live вскоре позволит активировать любое приложение с помощью простых голосовых команд или кнопки питания, что еще больше усилит его полезность как универсального и повсеместного инструмента для повседневного цифрового взаимодействия.

Публикация Gemini Live запускается как серьезный конкурент голосовому режиму ChatGPT впервые появилась на Crypto News Land.