Schopnost simulovat svět (World Model) je některými odborníky považována za další velký krok k tomu, aby AI mohla "vnímat" a reprodukovat fyzický svět.

Některé společnosti nebo laboratoře se snaží posílit schopnost modelování světa pro AI. Mezi nimi laboratoř World Labs profesora Fei-Fei Li, jedné z pionýrek AI, vybrala 230 milionů USD na výstavbu "velkého modelu světa". Google DeepMind také najal Tima Brookse, vedoucího týmu Sora, a dalšího odborníka Williama Peeblese, aby vyvinuli "simulátor světa."

"Obraz světa kolem nás, který máme v hlavě, jsou pouze modely. Nikdo v hlavě nemůže představit celý svět, vládu nebo zemi. Lidé vybírají pouze koncepty a vztahy mezi nimi a používají je k reprezentaci skutečného systému," podle definice Mentálního modelu uvedené v knize Chování proti intuici sociálních systémů, kterou napsal Jay Wright Forrester, americký počítačový inženýr, teoretik managementu a systémový vědec v roce 1971.

Ilustrace "světa AI". Foto: Novita

World Model je považován za nástupce Mentálního modelu, oba vycházejí z lidského mozku. Mozek získává abstraktní reprezentace ze smyslů, čímž formuje konkrétní porozumění světu kolem nás. Predikce, které mozek vytváří, ovlivňují, jak člověk vnímá svět.

Dva výzkumníci David Ha a Jürgen Schmidhuber uvádějí příklad toho, jak baseballoví hráči hrají. Tito lidé mají pouze zlomek sekundy na rozhodnutí, jak máchnout pálkou, a tento čas je kratší než doba potřebná k přenesení signálu z vnímání do mozku. Aby to dokázali, musí předpovědět, jak bude míč hozen a jakým směrem, než míč dorazí.

"Tohle je aspekt, který umožní AI dosáhnout úrovně člověka, pokud se aplikuje World Model," napsali Ha a Schmidhuber ve společné zprávě publikované na GitHubu.


Podle odborníků AI generující videa z textu, jako je Sora, spadá do takzvaného "divného údolí". To znamená, že videa generovaná AI mají stále spoustu chyb, zejména při rychlém pohybu, částečně kvůli tomu, že algoritmus nemůže předpovědět "následující model", jako to dělá lidský mozek.

Podle TechCrunch současné AI nástroje pro vytváření videí dokážou přesně předpovědět, jak se odrazí basketbalový míč, ale ve skutečnosti neví, proč. Podobně jazykové modely také skutečně nerozumí konceptům za slovy a frázemi.

Nicméně, World Model pomáhá AI skutečně inteligentní tím, že "rozumí" důvodům, proč se míč odráží. Aby získal toto hluboké porozumění, musí být World Model trénován na různých typech dat, jako jsou obrázky, zvuky, videa a texty, s cílem vytvářet vnitřní uvažování o tom, jak svět funguje a schopnost vysvětlit výsledky akcí.

"Diváci očekávají, že to, co vidí, bude fungovat stejně jako v realitě," řekl Alex Mashrabov, bývalý ředitel AI společnosti Snap a generální ředitel společnosti Higgsfield, která modeluje svět, TechCrunch. "Nástroj spouštějící World Model dostatečně silný pochopí, jak se objekty pohybují, aniž by musel čekat, až je tvůrce 'nakreslí' cestu, kterou se má pohybovat."

Ale vytváření lepších videí je pouze částí uplatnění World Model. Přední AI výzkumníci, jako Yann LeCun, ředitel AI Meta, předpovídají, že jednoho dne by mohly být použity k předpovídání a sofistikovanému plánování v digitálním i fyzickém prostoru.



Na začátku tohoto roku LeCun popsal, jak může World Model pomoci AI systému dosáhnout požadovaného cíle prostřednictvím uvažování. Model představuje počáteční příběh, například video o špinavém pokoji, dává mu cíl, kterým je čistý pokoj, a řetězec akcí k dosažení tohoto cíle, jako je nasazení vysavače k úklidu, mytí nádobí, vynášení odpadků. Během tohoto procesu AI nejen rozpoznává pomocí kamery a senzorů, ale také „ví“ na hlubší úrovni, jak přejít ze špinavého na čisté.

"Potřebujeme stroj, který rozumí světu, který si může pamatovat všechno, má intuici, má zdravý rozum - něco, co může uvažovat a plánovat na úrovni člověka," řekl LeCun. "Současné AI systémy nemají schopnost udělat nic z toho. Možná za deset let se to objeví."

OpenAI uvedla, že Sora může být považována za primitivní World Model, když simuluje akce, například když umělec zanechá tah štětce na plátně. Přesto společnost také uznává, že bude trvat ještě dlouho, než bude funkce dokončena.


Přestože má velký potenciál, výstavba World Model je nákladná, protože vyžaduje obrovskou výpočetní sílu ve srovnání s tím, co máme nyní. Odhaduje se, že i malý nástroj by mohl potřebovat tisíce nejvýkonnějších GPU na trénink.

Kromě toho je množství vstupních dat pro World Model několikanásobně větší než pro současné velké jazykové modely. "Tréninková data pro model musí být dostatečně široká, aby pokryla rozmanité scénáře, ale musí být také velmi specifická, aby AI hluboce rozuměla nuancím daného scénáře," komentoval Mashrabov z Higgsfield. "Nedostatek dat zpomaluje pokrok."

Cristóbal Valenzuela, generální ředitel Runway AI, také tvrdí, že data jsou největší překážkou na cestě k budování World Model. "Modely potřebují spoustu dat a techniky k vytvoření konzistentní mapy prostředí, schopnosti navigace a interakce v tomto prostředí," napsal Valenzuela na blogu.



Nicméně, Mashrabov věří, že pokud překonají všechny tyto překážky, World Model bude "silnější" v propojení AI se skutečným světem, zejména ve spojení s roboty.

"Dnešní roboti jsou omezeni v schopnosti vykonávat úkoly, protože si neuvědomují své okolí. World Model jim může poskytnout tuto schopnost," řekl. "S pokročilým modelem může AI vyvinout osobní porozumění jakémukoli scénáři, do kterého je umístěna, a začít uvažovat o možných řešeních."



$FET $NEAR $SOL