OpenAI vydává aktualizaci, která umožňuje uvažování v reálném čase napříč zvukem, obrazem a textem

Denní zprávy Odaily Planet OpenAI provedla v říjnu čtyři aktualizace svého modelu, aby pomohla svému modelu umělé inteligence vést lepší konverzace a zlepšit schopnosti rozpoznávání obrázků. První velkou aktualizací je rozhraní Live API, které umožňuje vývojářům vytvářet aplikace pro řeči generované umělou inteligencí pomocí jediné výzvy, což umožňuje přirozené konverzace podobné pokročilému režimu řeči ChatGPT. Dříve museli vývojáři „spojit dohromady“ více modelů, aby vytvořili tyto zážitky. Zvukový vstup je často nutné před přijetím odpovědi plně nahrát a zpracovat, což znamená vyšší latenci pro aplikace v reálném čase, jako jsou hlasové konverzace. Díky streamovacím možnostem rozhraní Realtime API mohou nyní vývojáři dosáhnout okamžitých přirozených interakcí, stejně jako hlasový asistent. Rozhraní API běží na GPT-4, vydaném v květnu 2024, a může v reálném čase provádět odvození přes zvuk, obraz a text. Další aktualizace obsahuje nástroje pro jemné doladění pro vývojáře, které jim umožňují vylepšit reakce umělé inteligence generované z obrazového a textového vstupu. Spinnery založené na obrázcích umožňují umělé inteligenci lépe porozumět obrázkům, čímž zlepšují vizuální vyhledávání a schopnosti detekce objektů. Proces zahrnuje zpětnou vazbu od lidí, kteří poskytují příklady dobrých a špatných reakcí na trénink. Kromě aktualizací řeči a vidění zavádí OpenAI také „destilaci modelu“ a „ukládání tipů do mezipaměti“, které umožňují menším modelům učit se od větších modelů a snižují náklady a čas na vývoj opětovným použitím zpracovaného textu. OpenAI očekává, že tržby příští rok vzrostou na 11,6 miliardy dolarů, z 3,7 miliardy dolarů očekávaných v roce 2024, uvedla agentura Reuters. (Cointelegraph)

OpenAI vydává aktualizaci, která umožňuje uvažování v reálném čase napříč zvukem, obrazem a textem

Prozkoumat více od tvůrce

Nejnovější zprávy