• Gemini Live se lanza con 10 voces versátiles, eclipsando la oferta de tres voces de ChatGPT.

  • Gemini Live de Google estrena entradas multimodales, ampliando la adaptabilidad de la IA.

  • Gemini Live es pionero en la imitación de voz en tiempo real, mejorando las interacciones personales con IA.

Google ha lanzado Gemini Live, una nueva función de interacción por voz, en el evento "Made by Google". Esta iniciativa competirá directamente con el modo de voz avanzado de OpenAI para ChatGPT, lo que marca un momento crucial en la comunicación asistida por IA.

https://twitter.com/GoogleDeepMind/status/1823409674739437915

Gemini Live, diseñado para usuarios de Gemini Advanced, facilita una experiencia de conversación más natural e interactiva, similar a una conversación telefónica real, permitiendo a los usuarios intervenir, cambiar de tema o reanudar discusiones sin problemas.

Características de Gemini Live

Gemini Live utiliza el nuevo motor de voz de Google para generar una comunicación clara, vibrante y fluida a lo largo de numerosas conversaciones. Ofrece una selección de diez voces únicas y de sonido natural, incluida una función inusual que permite a la IA replicar el habla del usuario en tiempo real. Esta función tiene como objetivo mejorar la calidad de la interacción, haciéndola más personal y menos robótica. Además, Gemini Live funciona de manera eficaz en modo manos libres, incluso cuando el dispositivo está bloqueado, lo que facilita la realización de múltiples tareas sin interrumpir el flujo de la conversación.

Esta nueva tecnología también incorpora entradas multimodales, que se mostraron inicialmente en Google I/O 2024, lo que permite que la IA responda a indicaciones visuales, como imágenes y videos. Esta incorporación está destinada a hacer que la IA sea más adaptable y versátil a la hora de gestionar una variedad de consultas y comandos de los usuarios.

Comparación con la oferta de OpenAI

Aunque OpenAI introdujo una función similar anteriormente, Google ha sido el primero en implementar la versión completa de esta tecnología. El modo de voz avanzado de OpenAI para ChatGPT, que todavía se encuentra en pruebas alfa limitadas, ha encontrado algunos obstáculos, incluidos problemas de seguridad con respecto a la formación de relaciones sociales entre los usuarios y la IA. Estos problemas han puesto de relieve el potencial de efectos adversos en las relaciones interpersonales, lo que ha llevado a OpenAI a mejorar las medidas de seguridad y las funcionalidades de sus modelos.

Mejoras estratégicas y planes futuros

A medida que Google continúa implementando Gemini Live, también está previsto que introduzca más integraciones y funcionalidades que se extiendan a sus diversos servicios. Las actualizaciones planificadas incluyen nuevas extensiones para aplicaciones como Google Calendar, Keep, Tasks y YouTube Music, que permitirán una gestión más eficiente de las tareas diarias a través de comandos de voz. Además, se espera que las futuras actualizaciones incorporen compatibilidad con otros idiomas y dispositivos iOS.

Además de estas mejoras centradas en el usuario, Gemini Live pronto permitirá la activación desde cualquier aplicación mediante simples comandos de voz o el botón de encendido, lo que refuerza su utilidad como herramienta versátil y omnipresente para las interacciones digitales cotidianas.

La publicación Gemini Live se lanza como un fuerte competidor del modo de voz de ChatGPT apareció primero en Crypto News Land.