Według Cointelegraph zespół naukowców z Uniwersytetu Północnej Karoliny w Chapel Hill opublikował niedawno badania nad sztuczną inteligencją (AI) przed drukiem, które podkreślają trudności w usuwaniu wrażliwych danych z dużych modeli językowych (LLM), takich jak ChatGPT OpenAI i Bard Google. . Naukowcy odkryli, że chociaż możliwe jest usunięcie informacji z LLM, sprawdzenie, czy informacje zostały usunięte, jest równie trudne, jak sam proces usuwania.
Trudność ta wynika ze sposobu, w jaki LLM są konstruowane i szkolone. Są wstępnie szkoleni w oparciu o bazy danych, a następnie dostrajani w celu generowania spójnych wyników. Po wyszkoleniu modelu jego twórcy nie mogą wrócić do bazy danych i usunąć określonych plików, aby uniemożliwić modelowi generowanie powiązanych wyników. To jest „czarna skrzynka” sztucznej inteligencji. Problemy pojawiają się, gdy LLM przeszkoleni w zakresie ogromnych zbiorów danych generują wrażliwe informacje, takie jak dane osobowe lub dokumentacja finansowa.
Aby rozwiązać ten problem, twórcy sztucznej inteligencji korzystają z barier ochronnych, takich jak zakodowane na stałe podpowiedzi, które hamują określone zachowania lub uczenie się przez wzmacnianie na podstawie informacji zwrotnych od ludzi (RLHF). Jednak badacze z UNC argumentują, że metoda ta polega na tym, że ludzie znajdują wszystkie wady, jakie może wykazywać model, a nawet jeśli się powiedzie, nadal nie „usuwa” informacji z modelu. Badacze doszli do wniosku, że nawet najnowocześniejsze metody edycji modeli, takie jak Rank-One Model Editing (ROME), nie usuwają w pełni informacji faktycznych z LLM, ponieważ fakty nadal można wyodrębnić w 38% przypadków za pomocą ataków typu whitebox i w 29% przypadków ataki typu blackbox.
Naukowcom udało się opracować nowe metody obrony, aby chronić LLM przed niektórymi „atakami ekstrakcyjnymi” — celowymi próbami stosowania przez złych aktorów podpowiedzi w celu obejścia barier ochronnych modelu w celu wygenerowania przez niego poufnych informacji. Zauważyli jednak, że problem usuwania poufnych informacji może polegać na tym, że metody obrony zawsze nadrabiają zaległości w stosunku do nowych metod ataku.