Modele sztucznej inteligencji (AI) posiadają pewne możliwości na długo przed tym, jak je zaprezentują podczas treningu, pokazują nowe badania. Zgodnie z badaniami przeprowadzonymi przez Havard i Uniwersytet Michigan, modele nie pokazują tych umiejętności, dopóki nie zajdzie taka potrzeba w ten czy inny sposób.

Badanie jest jednym z wielu, które zostały przeprowadzone, aby zrozumieć, jak modele AI budują swoje możliwości, zanim je zaprezentują.

Badanie analizowało, jak modele AI uczą się podstawowych koncepcji, takich jak wielkość i kolor, ujawniając, że opanowują umiejętności wcześniej, niż sugerują to większość testów. Badanie dostarczyło również wglądu w złożoność mierzenia możliwości AI. „Model może wydawać się niekompetentny, gdy dostaje standardowe polecenia, podczas gdy w rzeczywistości posiada zaawansowane umiejętności, które ujawniają się tylko w określonych warunkach” - czytamy w artykule.

Badania pokazują, że modele AI internalizują koncepcje

Havard i Uniwersytet Michigan nie są pierwszymi, którzy próbują zrozumieć możliwości modeli AI, a badacze w Anthropic ujawnili artykuł zatytułowany „uczenie się słownika”. Artykuł omawia mapowanie połączeń w ich języku Claude z konkretnymi koncepcjami, które rozumie. Chociaż większość z tych badań miała różne podejścia, w zasadzie mają one na celu zrozumienie modeli AI.

Anthropic ujawniło, że znalazło cechy, które mogą być związane z różnymi interpretowalnymi koncepcjami. „Znaleźliśmy miliony cech, które wydają się odpowiadać interpretowalnym koncepcjom, od konkretnych obiektów, takich jak ludzie, kraje i znane budynki, po abstrakcyjne idee, takie jak emocje, style pisania i kroki rozumowania” - ujawniło badanie.

Podczas swoich badań, badacze przeprowadzili kilka eksperymentów przy użyciu modelu dyfuzji, jednej z najpopularniejszych architektur dla AI. Podczas eksperymentu zdali sobie sprawę, że modele miały różne sposoby manipulowania podstawowymi koncepcjami. Wzory były spójne, gdy modele AI pokazywały nowe możliwości w różnych fazach oraz ostry punkt przejścia sygnalizujący, kiedy nabywana jest nowa umiejętność.

Podczas szkolenia modele pokazały, że opanowały koncepcje około 2000 kroków wcześniej, niż wykryłby to standardowy test. Silne koncepcje pojawiły się około 6000 kroków, a słabsze były widoczne około 20000 kroków. Po dostosowaniu sygnałów koncepcyjnych odkryli bezpośrednią korelację z prędkością uczenia się.

Badacze ujawniają metody dostępu do ukrytych możliwości

Badacze użyli alternatywnych metod podpowiedzi, aby ujawnić ukryte możliwości, zanim zostały one zaprezentowane w standardowych testach. Rozpowszechniona natura ukrytego pojawiania się ma wpływ na ocenę AI i bezpieczeństwo. Na przykład tradycyjne benchmarki mogą pominąć pewne możliwości modeli AI, przez co pomijają zarówno te korzystne, jak i niepokojące.

Podczas badań zespół opracował pewne metody dostępu do ukrytych możliwości modeli AI. Badanie określiło te metody jako interwencje liniowe latentne i nadmierne podpowiadanie, ponieważ badacze sprawili, że modele wykazywały złożone zachowania, zanim pokazały je w standardowych testach. Badacze odkryli również, że modele AI manipulowały pewnymi złożonymi cechami, zanim mogły je pokazać za pomocą standardowych podpowiedzi.

Na przykład modele mogłyby być podpowiedzią do generowania „uśmiechniętych kobiet” lub „mężczyzn w kapeluszach” z powodzeniem, zanim poproszono je o ich połączenie. Jednak badania pokazały, że nauczyły się łączyć to wcześniej, ale nie będą w stanie tego zaprezentować za pomocą konwencjonalnych podpowiedzi. Modele pokazujące możliwości można określić jako grokking, sytuację, w której modele wykazują doskonałe wyniki testowe po długotrwałym treningu. Jednak badacze stwierdzili, że istnieją kluczowe różnice między obiema sytuacjami.

Podczas gdy grokking występuje po kilku sesjach treningowych i obejmuje doskonalenie różnych rozkładów tych samych zestawów danych, badania pokazują, że te możliwości pojawiają się podczas aktywnego uczenia. Badacze zauważyli, że modele znalazły nowe sposoby manipulacji koncepcjami poprzez zmiany w fazach, a nie stopniowe poprawy reprezentacji w grokkingu.

Zgodnie z badaniami, pokazuje to, że modele AI znają te koncepcje, po prostu nie są w stanie ich zaprezentować. Jest to podobne do ludzi oglądających i rozumiejących zagraniczny film, ale nie mówiących w tym języku. To pokazuje, że większość modeli ma więcej możliwości, niż pokazują, a także pokazuje trudności w zrozumieniu i kontrolowaniu ich możliwości.

Od Zera do Web3 Pro: Twój 90-dniowy plan rozwoju kariery