Podle Cointelegraphu, vývojář umělé inteligence OpenAI představil na začátku října několik aktualizací svých modelů, jejichž cílem je zlepšit konverzační schopnosti a rozpoznávání obrázků. 1. října OpenAI oznámila čtyři nové nástroje navržené tak, aby usnadnily vývojářům stavět na jejích modelech AI.

Jednou z významných aktualizací je rozhraní Realtime API, které umožňuje vývojářům vytvářet hlasové aplikace generované umělou inteligencí pomocí jediné výzvy. Tento nástroj podporuje multimodální zážitky s nízkou latencí streamováním audio vstupů a výstupů, což umožňuje přirozené konverzace podobné pokročilému hlasovému režimu ChatGPT. Dříve museli vývojáři k dosažení těchto zkušeností kombinovat více modelů, což vedlo k vyšší latenci aplikací v reálném čase, jako jsou konverzace řeči na řeč. Díky možnosti streamování rozhraní Realtime API mohou nyní vývojáři umožnit okamžité, přirozené interakce, podobně jako hlasové asistenty. Rozhraní API funguje na GPT-4, vydaném v květnu 2024, které dokáže v reálném čase zdůvodňovat zvuk, obraz a text.

Další aktualizace obsahuje nástroj pro jemné ladění pro vývojáře, který jim umožňuje vylepšit reakce umělé inteligence generované z obrázků a textových vstupů. Jemné ladičky založené na obrázcích zlepšují schopnost umělé inteligence porozumět obrázkům, čímž zlepšují možnosti vizuálního vyhledávání a detekce objektů. Tento proces zahrnuje lidskou zpětnou vazbu, kdy jsou AI poskytovány příklady dobrých a špatných reakcí. OpenAI navíc zavedla „destilaci modelu“ a „prompt caching“, které umožňují menším modelům učit se od větších a snižují náklady a čas na vývoj opětovným použitím již zpracovaného textu.

Pokročilé možnosti modelů OpenAI jsou významným prodejním argumentem, protože podstatná část příjmů společnosti pochází z podniků, které vytvářejí své vlastní aplikace na technologii OpenAI. Podle agentury Reuters odhaduje OpenAI v příštím roce nárůst tržeb na 11,6 miliardy dolarů z odhadovaných 3,7 miliardy dolarů v roce 2024.