OpenAI v pondělí odhalilo svůj nejnovější vlajkový model s názvem GPT-4o („o“ pro „omni“) a zdá se, že je to nejblíže, jak jsme se dostali k inteligentnímu asistentovi jako „Jarvis“ ve filmu Iron Man.

Prodejní místo je, že ChatGPT-4o zvládne různé modality, což většina stávajících modelů AI neumí. To znamená, že GPT-4o může přijímat a generovat jakoukoli kombinaci textových, zvukových a obrazových požadavků.

Zinscenované demo prezentované týmem na X (dříve Twitter) bylo tak působivé, že to mnoho lidí vyvolalo. Jedním velkým počinem je, že GPT-4o reaguje na audio vstupy za pouhých 232 milisekund, což je podobná doba odezvy člověka během konverzace.

„Připadá mi to jako umělá inteligence z filmů; a stále mě trochu překvapuje, že je to skutečné,“ napsal v pondělí na blogu generální ředitel OpenAI Sam Altman. "Dostat se k době odezvy a expresivity na lidské úrovni se ukazuje jako velká změna."

OpenAI začala uživatelům zavádět textové a obrázkové funkce GPT-4o. V nadcházejících týdnech budou zvukové a obrazové funkce uvolněny „malé skupině důvěryhodných partnerů v API“, uvedla společnost. 

Bez ohledu na to, zde jsou některé z věcí, které můžete dělat s modelem ChatGPT-4o. 

Věci, které můžete dělat s GPT-4o

Vytvářejte obrázky s čitelnými texty

Až dosud se některé generátory obrázků AI, jako je Midjourney, stále snaží vytvářet obrázky s čitelným textem. OpenAI uvedl, že GPT-4o nyní mnohem lépe rozumí textovým popisům a dokáže vytvořit čitelné texty na obrázcích. 

Zdroj obrázku: OpenAI Real-Time Translation

V situaci, kdy je potřeba překladatel, může GPT-4o fungovat jako jeden. Ve video ukázce tým OpenAI ukázal, že GPT-4o dokáže zopakovat něco, co bylo řečeno v angličtině ve španělštině, možná v jiných jazycích, a zpět ze španělštiny do angličtiny.

Překlad v reálném čase pomocí GPT-4o pic.twitter.com/J1BsrxwYdE

— OpenAI (@OpenAI) 13. května 2024

Podívej se a řekni

Pro lidi, kteří jsou zrakově postižení, nebo jen tak pro zábavu, může ChatGPT-4o sledovat a říkat, co se děje kolem vašeho okolí prostřednictvím fotoaparátu telefonu. V jednom případě byla modelka schopna říct, že někdo má narozeninovou oslavu, když si všimla dortu a svíčky v místnosti.

@BeMyEyes s GPT-4o pic.twitter.com/nWb6sEWZlo

— OpenAI (@OpenAI) 13. května 2024

Řešení matematických úloh

GPT-4o se také může podívat na matematické problémy na listu papíru nebo na obrazovce a dát na ně odpověď. Nejen to, může vás také učit a vést vás, abyste se naučili, jak problém vyřešit.

Matematické úlohy s GPT-4o a @khanacademy pic.twitter.com/RfKaYx5pTJ

— OpenAI (@OpenAI) 13. května 2024

AI ve Visual Meeting

GPT-4o se může připojit k vizuálním setkáním a pořádat konzervace s účastníky. Může také pomoci uživatelům připravit se na pracovní pohovory. 

Setkání AI s GPT-4o pic.twitter.com/rHkQ316MYj

— OpenAI (@OpenAI) 13. května 2024