Las nuevas actualizaciones de OpenAI mejoran las capacidades de voz y visión de la IA

El desarrollador de inteligencia artificial OpenAI comenzó octubre con varias actualizaciones de sus modelos, ayudándolos a entablar mejores conversaciones y mejorar el reconocimiento de imágenes.
El 1 de octubre, OpenAI presentó cuatro actualizaciones que introducen nuevas herramientas diseñadas para facilitar que los desarrolladores creen sus modelos de IA.
¡Habla!
Una actualización importante es la API en tiempo real, que permite a los desarrolladores crear aplicaciones de voz generadas por IA utilizando un único mensaje.
La herramienta, disponible para pruebas, admite experiencias multimodales de baja latencia mediante la transmisión de entradas y salidas de audio, lo que permite conversaciones naturales similares al modo de voz avanzado de ChatGPT.
Anteriormente, los desarrolladores tenían que "unir" varios modelos para crear estas experiencias. Por lo general, era necesario cargar y procesar por completo la entrada de audio antes de recibir una respuesta, lo que implicaba una mayor latencia para las aplicaciones en tiempo real, como las conversaciones de voz a voz.
Con la capacidad de transmisión de Realtime API, los desarrolladores ahora pueden habilitar interacciones naturales e inmediatas, como los asistentes de voz. La API se ejecuta en GPT-4, lanzado en mayo de 2024, que puede razonar a través de audio, imagen y texto en tiempo real.
La IA ahora puede ver claramente
Otra actualización incluye una herramienta de ajuste para desarrolladores, que les permite mejorar las respuestas de IA generadas a partir de imágenes y entradas de texto.
Los afinadores basados ​​en imágenes permiten que la inteligencia artificial tenga una mejor capacidad para comprender imágenes, lo que a su vez mejora las capacidades de búsqueda visual y detección de objetos, según el desarrollador. El proceso incluye comentarios de humanos que brindan ejemplos de respuestas buenas y malas.
Además de sus actualizaciones de voz y visión, OpenAI también implementó la “destilación de modelos” y el “almacenamiento en caché de indicaciones”, que permiten que los modelos más pequeños aprendan de los más grandes y reduzcan los costos y el tiempo de desarrollo al reutilizar texto ya procesado.
Las capacidades avanzadas de sus modelos son un argumento de venta clave, ya que una parte importante de los ingresos de OpenAI proviene de empresas que crean sus propias aplicaciones sobre la tecnología de OpenAI.
Según Reuters, OpenAI proyecta que sus ingresos aumentarán a 11.600 millones de dólares el próximo año, frente a los 3.700 millones de dólares estimados en 2024.
Revista: La IA ya podría consumir más energía que Bitcoin y amenaza la minería de Bitcoin
Las nuevas actualizaciones de OpenAI mejoran las capacidades de voz y visión de la IA

Descubre más contenidos del creador

Últimas noticias