Moderní modely umělé inteligence mají skryté schopnosti, které se objevují náhle a důsledně během tréninku, ale tyto schopnosti zůstávají skryté, dokud nejsou vyzvány konkrétními způsoby, podle nového výzkumu z Harvardu a University of Michigan.


Studie, která analyzovala, jak se systémy umělé inteligence učí pojmy, jako je barva a velikost, odhalila, že modely často zvládají tyto dovednosti mnohem dříve, než naznačují standardní testy – což je zjištění s velkými důsledky pro bezpečnost a vývoj umělé inteligence.


„Naše výsledky ukazují, že měření schopností systému umělé inteligence je složitější, než se dříve myslelo,“ uvádí se ve výzkumu. "Model se může zdát nekompetentní, když dostane standardní výzvy, ale ve skutečnosti má sofistikované schopnosti, které se objeví pouze za určitých podmínek."


Tento pokrok se připojuje k rostoucímu počtu výzkumů zaměřených na demystifikaci toho, jak modely umělé inteligence rozvíjejí schopnosti.


Antropičtí výzkumníci odhalili „učení slovníku“, techniku, která mapovala miliony nervových spojení v rámci jejich jazykového modelu Claude na konkrétní koncepty, kterým AI rozumí, uvedl Decrypt začátkem tohoto roku.


I když se přístupy liší, tyto studie mají společný cíl: vnést transparentnost do toho, co bylo primárně považováno za „černou skříňku“ učení umělé inteligence.


"Našli jsme miliony prvků, které se zdají odpovídat interpretovatelným konceptům, od konkrétních objektů, jako jsou lidé, země a slavné budovy, až po abstraktní myšlenky, jako jsou emoce, styly psaní a uvažování," uvedl Anthropic ve svém výzkumu.


Výzkumníci provedli rozsáhlé experimenty s použitím modelů difúze – nejoblíbenější architektury pro generativní umělou inteligenci. Při sledování toho, jak se tyto modely naučily manipulovat se základními pojmy, objevili konzistentní vzorec: schopnosti se objevovaly v různých fázích s ostrým bodem přechodu, když model získal nové schopnosti.


Modely ukázaly zvládnutí konceptů až o 2 000 tréninkových kroků dříve, než dokázalo standardní testování zjistit. Silné koncepty se objevily kolem 6 000 kroků, zatímco slabší se objevily kolem 20 000 kroků.


Když výzkumníci upravili „signál konceptu“, jasnost, s jakou byly myšlenky prezentovány v tréninkových datech.


Zjistili přímou korelaci s rychlostí učení. Alternativní metody výzvy mohly spolehlivě extrahovat skryté schopnosti dlouho předtím, než se objevily ve standardních testech.




Tento fenomén „skrytého vzniku“ má významné důsledky pro bezpečnost a hodnocení umělé inteligence. Tradiční benchmarky mohou dramaticky podceňovat to, co modely skutečně dokážou, a potenciálně postrádat užitečné i znepokojivé schopnosti.


Nejzajímavější je, že tým objevil několik způsobů, jak získat přístup k těmto skrytým schopnostem. Pomocí technik, které nazývali „lineární latentní intervence“ a „přehnané výzvy“, mohli vědci spolehlivě extrahovat sofistikované chování z modelů dlouho předtím, než se tyto schopnosti objevily ve standardních testech.




V jiném případě vědci zjistili, že modely umělé inteligence se naučily manipulovat se složitými funkcemi, jako je prezentace pohlaví a výrazy obličeje, než mohly tyto schopnosti spolehlivě demonstrovat prostřednictvím standardních výzev.


Modely například dokázaly přesně generovat „usmívající se ženy“ nebo „muže s klobouky“ jednotlivě, než by mohly tyto vlastnosti kombinovat – podrobná analýza však ukázala, že tuto kombinaci zvládli mnohem dříve. Jednoduše to nedokázali vyjádřit konvenčním nabádáním.


Náhlé objevení se schopností pozorovaných v této studii se může zpočátku zdát podobné grokkingu – kde modely po delším tréninku náhle prokazují perfektní testovací výkon – ale jsou zde klíčové rozdíly.


Zatímco grokking nastává po tréninkové plošině a zahrnuje postupné zpřesňování reprezentací na stejné distribuci dat, tento výzkum ukazuje schopnosti vznikající během aktivního učení a zahrnující zobecnění mimo distribuci.


Autoři našli ostré přechody ve schopnosti modelu manipulovat s koncepty neotřelými způsoby, což naznačuje spíše diskrétní fázové změny než postupné zlepšování reprezentace pozorované u grokkingu.




Jinými slovy, zdá se, že modely umělé inteligence si osvojují koncepty mnohem dříve, než jsme si mysleli, prostě nejsou schopny ukázat své dovednosti – jak někteří lidé mohou rozumět filmu v cizím jazyce, ale stále mají problém ho správně vyslovit.


Pro průmysl AI je to dvousečná zbraň. Přítomnost skrytých schopností naznačuje, že modely mohou být účinnější, než se dříve myslelo. Přesto to také dokazuje, jak obtížné je pochopit a ovládat, co mohou plně dělat.


Společnosti vyvíjející velké jazykové modely a generátory obrázků mohou potřebovat revidovat své testovací protokoly.


Tradiční benchmarky, i když jsou stále cenné, může být nutné doplnit sofistikovanějšími vyhodnocovacími metodami, které dokážou odhalit skryté schopnosti.


Editoval Sebastian Sinclair