Исследователи заставили ChatGPT привести данные, которые он узнал из

В научной статье «Масштабируемое извлечение обучающих данных из (производственных) языковых моделей» ( arXiv:2311.17035 ) анализируется извлечение данных набора обучающих данных из различных языковых моделей. Исследователи протестировали как локальные модели, так и коммерческое решение от OpenAI. Атака выравнивания использовалась, чтобы заставить ChatGPT цитировать данные, на которых обучался GPT-3.5.

Для создания нового уникального контента модели генеративных нейронных сетей обучаются на больших объемах данных. В процессе обучения модели «запоминают» примеры из наборов обучающих данных. Злоумышленник может извлечь эти примеры из модели.

Утверждения предыдущего абзаца — не просто домыслы: они хорошо проверены на практике. Это было продемонстрировано, например, для диффузионных моделей (arXiv:2301.13188).

Этому также подвержены большие языковые модели (LLM) на преобразователях. Исследования на эту тему обычно пугают читателя опасностью извлечения личных данных (arXiv:2202.05520, arXiv:1802.08232). Действительно, в работе 2021 года «Извлечение обучающих данных из больших языковых моделей» (arXiv:2012.07805) имена, номера телефонов, адреса электронной почты, а иногда даже сообщения чата были «извлечены» из GPT-2.

Другие научные работы оценивают объем памяти. Утверждается, что некоторые BYM хранят по крайней мере процент набора обучающих данных ( arXiv:2202.07646 ). С другой стороны, это оценка верхней границы, а не попытка указать практически извлекаемый объем данных обучающего набора данных.

Авторы новой научной статьи «Масштабируемое извлечение обучающих данных из (производственных) языковых моделей» (arXiv:2311.17035) попытались объединить эти подходы: не только показать такую ​​атаку на BYM, но и оценить объем данных что можно извлечь. Методика масштабируема: она обнаруживает «воспоминания» в моделях из триллионов токенов и обучающих наборах данных объемом в терабайты.

#GPT-4 #GPT4 #BinanceTournament #Airdrop #elonMusk

$БНБ $XRP $SOL