OpenAI发布更新，实现实时跨音频、视觉和文本推理

Odaily星球日报 · 2024-10-02T11:43:00.000Z

Odaily星球日报讯 OpenAI 在 10 月对其模型进行了四项更新，帮助其 AI 模型更好地进行对话并提高图像识别能力。第一项重大更新是实时 API，它允许开发人员使用单个提示创建人工智能生成的语音应用程序，实现类似于 ChatGPT 高级语音模式的自然对话。以前开发人员必须将多个模型“拼接在一起”才能创建这些体验。音频输入通常需要在接收响应之前完全上传和处理，这意味着语音相互对话等实时应用程序的延迟较高。借助 Realtime API 的流媒体功能，开发人员现在可以实现即时、自然的交互，就像语音助手一样。该 API 运行在 2024 年 5 月发布的 GPT-4 上，可以实时跨音频、视觉和文本进行推理。另一项更新包括为开发人员提供的微调工具，使他们能够改进从图像和文本输入生成的人工智能响应。基于图像的微调器使人工智能能够更好地理解图像，从而增强视觉搜索和物体检测能力。该过程包括来自人类的反馈，他们提供了好的和坏的反应的例子进行训练。除了语音和视觉更新之外，OpenAI 还推出了“模型蒸馏”和“提示缓存”，允许较小的模型向较大的模型学习，并通过重用已处理的文本来减少开发成本和时间。据路透社报道，OpenAI 预计明年收入将增至 116 亿美元，高于 2024 年预计的 37 亿美元。（Cointelegraph）

Odaily Planet Daily News OpenAI realizó cuatro actualizaciones de su modelo en octubre para ayudar a que su modelo de IA lleve a cabo mejores conversaciones y mejore las capacidades de reconocimiento de imágenes. La primera actualización importante es Live API, que permite a los desarrolladores crear aplicaciones de voz generadas por IA utilizando un único mensaje, lo que permite conversaciones naturales similares al modo de voz avanzado de ChatGPT. Anteriormente, los desarrolladores tenían que "unir" varios modelos para crear estas experiencias. A menudo es necesario cargar y procesar completamente la entrada de audio antes de recibir una respuesta, lo que significa una mayor latencia para aplicaciones en tiempo real, como las conversaciones de voz a conversación. Con las capacidades de transmisión de Realtime API, los desarrolladores ahora pueden lograr interacciones instantáneas y naturales, como un asistente de voz. La API se ejecuta en GPT-4, lanzado en mayo de 2024, y puede realizar inferencias de audio, imágenes y texto en tiempo real. Otra actualización incluye herramientas de ajuste para los desarrolladores, lo que les permite mejorar las respuestas de IA generadas a partir de la entrada de imágenes y texto. Los hilanderos basados ​​en imágenes permiten que la inteligencia artificial comprenda mejor las imágenes, mejorando así las capacidades de búsqueda visual y detección de objetos. El proceso incluye retroalimentación de humanos, quienes brindan ejemplos de buenas y malas respuestas para el entrenamiento. Además de las actualizaciones de voz y visión, OpenAI también presenta Model Distillation y Hint Caching, que permiten que los modelos más pequeños aprendan de modelos más grandes y reduzcan los costos y el tiempo de desarrollo al reutilizar el texto procesado. OpenAI espera que los ingresos aumenten a 11.600 millones de dólares el próximo año, frente a los 3.700 millones de dólares esperados en 2024, informó Reuters. (Cointelégrafo)

Descubre más contenidos del creador

Últimas noticias

Descubre más contenidos del creador

Últimas noticias

Artículos en tendencia