По данным Cointelegraph, группа ученых из Университета Северной Каролины в Чапел-Хилл недавно опубликовала предварительную версию исследования искусственного интеллекта (ИИ), в которой подчеркивается сложность удаления конфиденциальных данных из больших языковых моделей (LLM), таких как ChatGPT от OpenAI и Bard от Google. . Исследователи обнаружили, что, хотя удалить информацию из LLM можно, проверить, что информация была удалена, так же сложно, как и сам процесс удаления.

Эта трудность возникает из-за того, как LLM проектируются и обучаются. Они предварительно обучаются работе с базами данных, а затем настраиваются для получения последовательных результатов. После обучения модели ее создатели не могут вернуться в базу данных и удалить определенные файлы, чтобы модель не выдавала соответствующие результаты. Это «черный ящик» ИИ. Проблемы возникают, когда специалисты LLM, обученные работе с огромными наборами данных, выдают конфиденциальную информацию, например личную информацию или финансовые записи.

Чтобы решить эту проблему, разработчики ИИ используют ограждения, такие как жестко запрограммированные подсказки, которые запрещают определенное поведение, или обучение с подкреплением на основе обратной связи с человеком (RLHF). Однако исследователи UNC утверждают, что этот метод основан на том, что люди находят все недостатки модели, и даже в случае успеха он все равно не «удаляет» информацию из модели. Исследователи пришли к выводу, что даже самые современные методы редактирования моделей, такие как редактирование моделей первого ранга (ROME), не могут полностью удалить фактическую информацию из LLM, поскольку факты все еще можно извлечь в 38% случаев с помощью атак «белого ящика». и в 29% случаев — атаками «черного ящика».

Исследователи смогли разработать новые методы защиты LLM от некоторых «атак извлечения» — целенаправленных попыток злоумышленников использовать подсказки, чтобы обойти ограничения модели и заставить ее выводить конфиденциальную информацию. Однако они отметили, что проблема удаления конфиденциальной информации может заключаться в том, что методы защиты всегда догоняют новые методы атак.