Новые обновления OpenAI расширяют возможности голоса и зрения ИИ

Разработчик искусственного интеллекта OpenAI начал октябрь с несколькими обновлениями своих моделей, которые помогают его моделям ИИ лучше взаимодействовать и улучшать распознавание изображений.
1 октября OpenAI представила четыре обновления, которые представляют новые инструменты, призванные упростить разработчикам разработку моделей ИИ.
Он говорит!
Одним из важных обновлений является Realtime API, который позволяет разработчикам создавать голосовые приложения, генерируемые ИИ, с помощью одной подсказки.
Инструмент, доступный для тестирования, поддерживает мультимодальные взаимодействия с низкой задержкой за счет потоковой передачи аудиовходов и выходов, что позволяет вести естественные беседы, аналогичные расширенному голосовому режиму ChatGPT.
Раньше разработчикам приходилось «сшивать» несколько моделей для создания этих впечатлений. Аудиовход обычно требовал полной загрузки и обработки перед получением ответа, что означало более высокую задержку для приложений реального времени, таких как речевые разговоры.
Благодаря возможности потоковой передачи Realtime API разработчики теперь могут обеспечить немедленное, естественное взаимодействие, похожее на голосовых помощников. API работает на GPT-4, выпущенном в мае 2024 года, который может рассуждать о звуке, изображении и тексте в реальном времени.
ИИ теперь может ясно видеть
Другое обновление включает в себя инструмент тонкой настройки для разработчиков, позволяющий им улучшать ответы ИИ, генерируемые на основе изображений и текстовых вводов.
По словам разработчика, тонкая настройка на основе изображений позволяет искусственному интеллекту лучше понимать изображения, что в свою очередь улучшает возможности визуального поиска и обнаружения объектов. Процесс включает обратную связь от людей, которые предоставляют примеры хороших и плохих ответов.
В дополнение к обновлениям голосовых и визуальных функций OpenAI также внедрила «дистилляцию моделей» и «кэширование подсказок», которые позволяют меньшим моделям учиться на примере более крупных и сокращать затраты и время разработки за счет повторного использования уже обработанного текста.
Расширенные возможности его моделей являются ключевым аргументом в пользу продажи, поскольку значительная часть дохода OpenAI поступает от предприятий, создающих собственные приложения на основе технологии OpenAI.
По данным Reuters, OpenAI прогнозирует, что выручка компании в следующем году вырастет до 11,6 млрд долларов США по сравнению с предполагаемыми 3,7 млрд долларов США в 2024 году.
Журнал: ИИ уже может потреблять больше энергии, чем биткоин, и это ставит под угрозу майнинг биткоинов

Новые обновления OpenAI расширяют возможности голоса и зрения ИИ

Другие публикации автора

Последние новости

Новые обновления OpenAI расширяют возможности голоса и зрения ИИ

Другие публикации автора

Последние новости

Популярные статьи