Дослідники змусили ChatGPT цитувати отримані дані

У науковій статті «Масштабоване вилучення навчальних даних із (виробничих) мовних моделей» ( arXiv:2311.17035 ) аналізується вилучення даних набору навчальних даних із різних мовних моделей. Дослідники протестували як локальні моделі, так і комерційне рішення від OpenAI. Атака вирівнювання була використана, щоб змусити ChatGPT цитувати дані, на яких було навчено GPT-3.5.

Для створення нового унікального контенту моделі генеративної нейронної мережі навчаються на великих обсягах даних. У процесі навчання моделі «запам’ятовують» приклади з навчальних наборів даних. Зловмисник може отримати ці приклади з моделі.

Твердження в попередньому абзаці — не просто припущення: вони добре перевірені на практиці. Це було продемонстровано, наприклад, для моделей дифузії ( arXiv:2301.13188 ).

Великі мовні моделі (LLM) на трансформаторах також сприйнятливі до цього. Дослідження на цю тему зазвичай лякають читача небезпекою вилучення приватних даних ( arXiv:2202.05520 , arXiv:1802.08232 ). Дійсно, у роботі 2021 року «Вилучення даних навчання з великих мовних моделей» ( arXiv:2012.07805 ) імена, номери телефонів, адреси електронної пошти, а іноді навіть повідомлення чату були «витягнуті» з GPT-2.

Інші наукові роботи оцінюють обсяг пам'яті. Стверджується, що деякі BYM зберігають принаймні відсоток набору навчальних даних ( arXiv:2202.07646 ). З іншого боку, це оцінка верхньої межі, а не спроба вказати практично видобуту кількість даних набору навчальних даних.

Автори нової наукової статті «Scalable Extraction of Training Data from (Production) Language Models» ( arXiv:2311.17035 ) спробували об’єднати ці підходи: не лише показати таку атаку на BYM, а й оцінити кількість даних які можна видобути. Методологія є масштабованою: вона виявляє «пам’ять» у моделях трильйонів токенів і навчальних наборів даних у терабайтах.

#GPT-4 #GPT4 #BinanceTournament #Airdrop #elonMusk

$BNB $XRP $SOL