PANews 12 de diciembre - Según el blog oficial de Google, Google ha lanzado la nueva generación de modelos de inteligencia artificial Gemini 2.0. Gemini 2.0 admite entradas multimodales como texto, imágenes, video y audio, y cuenta con generación de imágenes nativa y conversión de texto a voz (TTS) en múltiples idiomas como funciones de salida multimodal. En comparación con Gemini 1.5 Pro, la velocidad del modelo se ha duplicado y se han optimizado las capacidades de inferencia multimodal, ejecución de instrucciones complejas y uso de herramientas, soportando la llamada a Google Search, ejecución de código y funciones de terceros.

La versión experimental Gemini 2.0 Flash ya está disponible para desarrolladores, y en enero de 2025 se promoverán completamente las funciones multimodales, además de lanzar una API en tiempo real multimodal para proporcionar más soporte de aplicaciones a los desarrolladores.