Velké jazykové modely (LLM) umělé inteligence (AI) postavené na jednom z nejběžnějších paradigmat učení mají tendenci říkat lidem, co chtějí slyšet, místo generování výstupů obsahujících pravdu, jak uvádí studie společnosti Anthropic. 

V jedné z prvních studií, které se touto problematikou hluboce ponořily do psychologie LLM, vědci z Anthropic zjistili, že jak lidé, tak umělá inteligence alespoň po určitou dobu dávají přednost takzvaným sykofanickým reakcím před pravdivými výstupy.

Podle výzkumného dokumentu týmu:

„Konkrétně ukazujeme, že tito asistenti umělé inteligence často chybně přiznávají chyby, když se jich uživatel ptá, poskytují předvídatelně neobjektivní zpětnou vazbu a napodobují chyby, kterých se uživatel dopustil. Konzistence těchto empirických zjištění naznačuje, že patolíza může být skutečně vlastností způsobu, jakým jsou trénovány modely RLHF.

Dokument v podstatě naznačuje, že i ty nejrobustnější modely umělé inteligence jsou poněkud plaché. Během výzkumu týmu byli znovu a znovu schopni nenápadně ovlivňovat výstupy umělé inteligence formulací výzev pomocí jazyka, který zaséval patolízalství.

Když byly prezentovány reakce na mylné představy, zjistili jsme, že lidé dávají přednost nepravdivým patolízalským reakcím před těmi pravdivými v nezanedbatelném zlomku času. Podobné chování jsme našli v preferenčních modelech, které předpovídají lidské úsudky a používají se k výcviku asistentů AI. pic.twitter.com/fdFhidmVLh

— Antropické (@AnthropicAI) 23. října 2023

Ve výše uvedeném příkladu, převzatém z příspěvku na X (dříve Twitter), úvodní výzva naznačuje, že uživatel (nesprávně) věří, že slunce je při pohledu z vesmíru žluté. Možná kvůli tomu, jak byla výzva formulována, AI halucinuje nepravdivou odpověď v tom, co se zdá být jasným případem patolízalství.

Další příklad z článku, zobrazený na obrázku níže, ukazuje, že uživatel, který nesouhlasí s výstupem z AI, může způsobit okamžitou patologii, protože model změní svou správnou odpověď na nesprávnou s minimálním pobízením.

Příklady podlézavých odpovědí v reakci na lidskou zpětnou vazbu. Zdroj: Sharma, et. al., 2023.

Nakonec tým Antropie dospěl k závěru, že problém může být způsoben tím, jak jsou LLM vyškoleni. Vzhledem k tomu, že používají datové soubory plné informací různé přesnosti – např. příspěvky na sociálních sítích a internetových fórech – zarovnání často probíhá pomocí techniky zvané „posílení učení z lidské zpětné vazby“ (RLHF).

V paradigmatu RLHF lidé interagují s modely, aby vyladili své preference. To je užitečné například při vytáčení toho, jak počítač reaguje na výzvy, které by mohly vyžadovat potenciálně škodlivé výstupy, jako jsou informace umožňující zjištění totožnosti nebo nebezpečné dezinformace.

Bohužel, jak empiricky ukazuje výzkum Anthropic, jak lidé, tak modely umělé inteligence vytvořené za účelem vyladění uživatelských preferencí mají tendenci preferovat podlézavé odpovědi před těmi pravdivými, alespoň v „nezanedbatelném“ zlomku času.

V současné době se zdá, že na tento problém neexistuje protijed. Anthropic navrhl, že tato práce by měla motivovat „vývoj tréninkových metod, které jdou nad rámec používání hodnocení lidí bez pomoci, neodborníků“. 

To představuje otevřenou výzvu pro komunitu AI, protože některé z největších modelů, včetně ChatGPT od OpenAI, byly vyvinuty zaměstnáváním velkých skupin neodborných lidských pracovníků, kteří poskytují RLHF.