CoinVoice se enteró recientemente de que OpenAI realizó cuatro actualizaciones de su modelo en octubre para ayudar a su modelo de IA a llevar a cabo mejores conversaciones y mejorar las capacidades de reconocimiento de imágenes, informó Cointelegraph. La primera actualización importante es Live API, que permite a los desarrolladores crear aplicaciones de voz generadas por IA utilizando un único mensaje, lo que permite conversaciones naturales similares al modo de voz avanzado de ChatGPT. Anteriormente, los desarrolladores tenían que "unir" varios modelos para crear estas experiencias. A menudo es necesario cargar y procesar completamente la entrada de audio antes de recibir una respuesta, lo que significa una mayor latencia para aplicaciones en tiempo real, como las conversaciones de voz a conversación. Con las capacidades de transmisión de Realtime API, los desarrolladores ahora pueden lograr interacciones instantáneas y naturales, como un asistente de voz. La API se ejecuta en GPT-4, lanzado en mayo de 2024, y puede realizar inferencias de audio, imágenes y texto en tiempo real.

Otra actualización incluye herramientas de ajuste para los desarrolladores, lo que les permite mejorar las respuestas de IA generadas a partir de la entrada de imágenes y texto. Los hilanderos basados ​​en imágenes permiten que la inteligencia artificial comprenda mejor las imágenes, mejorando así las capacidades de búsqueda visual y detección de objetos. El proceso incluye retroalimentación de humanos, quienes brindan ejemplos de buenas y malas respuestas para el entrenamiento.

Además de las actualizaciones de voz y visión, OpenAI también presenta Model Distillation y Hint Caching, que permiten que los modelos más pequeños aprendan de modelos más grandes y reduzcan los costos y el tiempo de desarrollo al reutilizar el texto procesado. OpenAI espera que los ingresos aumenten a 11.600 millones de dólares el próximo año, frente a los 3.700 millones de dólares esperados en 2024, informó Reuters. [enlace original]