Naukowcy znaleźli dowody na to, że modele sztucznej inteligencji wolą kłamać, niż przyznać się do wstydu, że czegoś nie wiedzą. To zachowanie wydaje się być bardziej widoczne, im bardziej rosną pod względem wielkości i złożoności.


Nowe badanie opublikowane w czasopiśmie Nature wykazało, że im więksi są LLM-owie, tym mniej wiarygodni stają się w konkretnych zadaniach. To nie jest dokładnie kłamstwo w taki sam sposób, w jaki postrzegamy to słowo, ale mają tendencję do odpowiadania z pewnością siebie, nawet jeśli odpowiedź nie jest prawidłowa pod względem faktycznym, ponieważ są szkoleni, aby wierzyć, że tak jest.


To zjawisko, które naukowcy nazwali „ultra-crepidarian” – XIX-wieczne słowo oznaczające zasadniczo wyrażanie opinii na temat czegoś, o czym nic nie wiesz – opisuje LLM-ów, którzy wychodzą daleko poza swoją bazę wiedzy, aby udzielić odpowiedzi. „[LLM-owie] zawodzą proporcjonalnie częściej, gdy nie wiedzą, ale nadal odpowiadają” – zauważono w badaniu. Innymi słowy, modele nie są świadome swojej własnej ignorancji.


Badanie, w którym przeanalizowano wydajność kilku rodzin LLM, w tym serii GPT firmy OpenAI, modeli LLaMA firmy Meta i pakietu BLOOM firmy BigScience, wykazało rozdźwięk między rosnącymi możliwościami modeli a niezawodną wydajnością w warunkach rzeczywistych.


Podczas gdy większe LLM-y generalnie wykazują lepszą wydajność w przypadku złożonych zadań, ta poprawa niekoniecznie przekłada się na stałą dokładność, zwłaszcza w przypadku prostszych zadań. Ta „niezgodność trudności” — zjawisko, w którym LLM-y zawodzą w przypadku zadań, które ludzie postrzegają jako łatwe — podważa ideę niezawodnego obszaru operacyjnego dla tych modeli. Nawet przy coraz bardziej wyrafinowanych metodach szkolenia, w tym skalowaniu rozmiaru modelu i wolumenu danych oraz kształtowaniu modeli z ludzkim sprzężeniem zwrotnym, badacze nie znaleźli jeszcze gwarantowanego sposobu na wyeliminowanie tej niezgodności.


Wyniki badania przeczą powszechnie przyjętym poglądom na temat rozwoju AI. Tradycyjnie uważano, że zwiększanie rozmiaru modelu, wolumenu danych i mocy obliczeniowej prowadzi do dokładniejszych i bardziej wiarygodnych wyników. Jednak badania sugerują, że skalowanie może w rzeczywistości zaostrzyć problemy z niezawodnością.


Większe modele wykazują wyraźny spadek unikania zadań, co oznacza, że ​​rzadziej unikają trudnych pytań. Choć na pierwszy rzut oka może się to wydawać pozytywnym zjawiskiem, ma ono jednak poważną wadę: te modele są również bardziej podatne na udzielanie nieprawidłowych odpowiedzi. Na poniższym wykresie łatwo zobaczyć, jak modele generują nieprawidłowe wyniki (czerwony) zamiast unikać zadania (jasnoniebieski). Prawidłowe odpowiedzi pojawiają się na ciemnoniebieskim.




„Skalowanie i kształtowanie obecnie zamieniają unikanie na większą niepoprawność” — zauważyli badacze, ale naprawienie tego problemu nie jest tak proste, jak wytrenowanie modelu, aby był bardziej ostrożny. „Unikanie jest wyraźnie o wiele niższe w przypadku modeli kształtowanych, ale niepoprawność jest o wiele wyższa” — stwierdzili badacze. Jednak model, który jest trenowany, aby unikać wykonywania zadań, może stać się leniwszy lub osłabiony — jak zauważyli użytkownicy w różnych wysoko ocenianych LLM-ach, takich jak ChatGPT lub Claude.


Naukowcy odkryli, że zjawisko to nie wynika z tego, że więksi LLM-owie nie są w stanie wykazywać się doskonałością w prostych zadaniach, ale są szkoleni, aby być bardziej biegli w złożonych zadaniach. To tak, jakby osoba, która przyzwyczaiła się do jedzenia tylko wykwintnych dań, nagle miała problem z przygotowaniem domowego grilla lub tradycyjnego ciasta. Modele AI trenowane na rozległych, złożonych zbiorach danych są bardziej podatne na pomijanie podstawowych umiejętności.


Problem pogłębia pozorna pewność siebie modeli. Użytkownicy często mają trudności z rozróżnieniem, kiedy AI dostarcza dokładnych informacji, a kiedy pewnie podaje błędne informacje. Ta nadmierna pewność siebie może prowadzić do niebezpiecznego nadmiernego polegania na wynikach AI, szczególnie w tak ważnych dziedzinach jak opieka zdrowotna czy porady prawne.



Naukowcy zauważyli również, że niezawodność skalowanych modeli waha się w różnych domenach. Podczas gdy wydajność może się poprawić w jednym obszarze, może jednocześnie pogorszyć się w innym, tworząc efekt whack-a-mole, który utrudnia ustalenie jakichkolwiek „bezpiecznych” obszarów działania. „Odsetek odpowiedzi unikających rzadko rośnie szybciej niż odsetek odpowiedzi błędnych. Odczyt jest jasny: błędy nadal stają się częstsze. To oznacza inwolucję niezawodności” – napisali naukowcy.


Badanie podkreśla ograniczenia obecnych metod szkolenia AI. Techniki takie jak uczenie przez wzmacnianie z ludzkim sprzężeniem zwrotnym (RLHF), mające na celu kształtowanie zachowań AI, mogą w rzeczywistości zaostrzać problem. Podejścia te wydają się zmniejszać tendencję modeli do unikania zadań, do których nie są przygotowane — pamiętasz niesławne „jako model języka AI nie mogę?” — nieświadomie zachęcając do częstszych błędów.



Szybka inżynieria, sztuka tworzenia skutecznych zapytań dla systemów AI, wydaje się być kluczową umiejętnością w walce z tymi problemami. Nawet wysoce zaawansowane modele, takie jak GPT-4, wykazują wrażliwość na sposób formułowania pytań, a niewielkie różnice mogą potencjalnie prowadzić do drastycznie różnych wyników.


Łatwiej to zauważyć, porównując różne rodziny LLM: Na przykład Claude 3.5 Sonnet wymaga zupełnie innego stylu podpowiedzi niż OpenAI o1, aby osiągnąć najlepsze wyniki. Niewłaściwe podpowiedzi mogą sprawić, że model będzie bardziej lub mniej podatny na halucynacje.


Ludzki nadzór, od dawna uważany za zabezpieczenie przed błędami AI, może nie być wystarczający, aby rozwiązać te problemy. Badanie wykazało, że użytkownicy często mają trudności z korygowaniem nieprawidłowych wyników modelu, nawet w stosunkowo prostych domenach, więc poleganie na ludzkiej ocenie jako zabezpieczeniu przed awariami może nie być ostatecznym rozwiązaniem dla prawidłowego szkolenia modelu. „Użytkownicy potrafią rozpoznać te trudne przypadki, ale nadal popełniają częste błędy nadzoru, które są niepoprawne do skorygowania” — zauważyli badacze.


Wyniki badania podważają obecną trajektorię rozwoju AI. Podczas gdy nacisk na większe, bardziej wydajne modele trwa, badania te sugerują, że większe nie zawsze oznacza lepsze, jeśli chodzi o niezawodność AI.


A obecnie firmy skupiają się na lepszej jakości danych niż na ich ilości. Na przykład najnowsze modele Llama 3.2 firmy Meta osiągają lepsze wyniki niż poprzednie generacje trenowane na większej liczbie parametrów. Na szczęście czyni je to mniej ludzkimi, więc mogą przyznać się do porażki, gdy zapytasz je o najbardziej podstawową rzecz na świecie, aby wyszły na głupie.