За даними Cointelegraph, група вчених з Університету Північної Кароліни, Чапел-Хілл, нещодавно опублікувала дослідження штучного інтелекту (AI) перед друком, яке підкреслює складність видалення конфіденційних даних із великих мовних моделей (LLM), таких як ChatGPT OpenAI і Bard Google. . Дослідники виявили, що, незважаючи на те, що можна видалити інформацію з LLM, перевірити, чи видалено інформацію, так само складно, як і сам процес видалення.
Ця складність виникає через те, як розроблено та підготовлено магістри права. Вони попередньо навчаються на базі даних, а потім налаштовуються для створення узгоджених результатів. Після навчання моделі її творці не можуть повернутися до бази даних і видалити певні файли, щоб модель не виводила пов’язані результати. Це «чорна скринька» ШІ. Проблеми виникають, коли LLM, навчені на масивних наборах даних, видають конфіденційну інформацію, таку як ідентифікаційна інформація чи фінансові записи.
Щоб вирішити цю проблему, розробники штучного інтелекту використовують запобіжні засоби, такі як жорстко закодовані підказки, які перешкоджають конкретній поведінці або підкріплююче навчання за допомогою зворотного зв’язку людини (RLHF). Однак дослідники UNC стверджують, що цей метод покладається на те, що люди знайдуть усі недоліки моделі, і, навіть якщо це вдасться, він все одно не «видаляє» інформацію з моделі. Дослідники прийшли до висновку, що навіть найсучасніші методи редагування моделі, такі як Rank-One Model Editing (ROME), не можуть повністю видалити фактичну інформацію з LLM, оскільки факти все ще можуть бути витягнуті 38% часу атаками whitebox. і 29% часу через атаки на чорну скриньку.
Дослідники змогли розробити нові методи захисту для захисту LLM від деяких «атак вилучення» — цілеспрямованих спроб зловмисників використовувати підказки, щоб обійти поручні моделі, щоб змусити її виводити конфіденційну інформацію. Однак вони відзначили, що проблема видалення конфіденційної інформації може виникнути там, де методи захисту завжди наздоганяють нові методи атак.