Menurut Cointelegraph, tim ilmuwan dari Universitas North Carolina, Chapel Hill, baru-baru ini menerbitkan penelitian kecerdasan buatan (AI) pra-cetak yang menyoroti kesulitan menghapus data sensitif dari model bahasa besar (LLM) seperti ChatGPT OpenAI dan Bard Google . Para peneliti menemukan bahwa meskipun dimungkinkan untuk menghapus informasi dari LLM, memverifikasi bahwa informasi tersebut telah dihapus sama sulitnya dengan proses penghapusan itu sendiri.

Kesulitan ini muncul dari cara LLM direkayasa dan dilatih. Mereka telah dilatih sebelumnya tentang database dan kemudian disesuaikan untuk menghasilkan keluaran yang koheren. Setelah model dilatih, pembuatnya tidak dapat kembali ke database dan menghapus file tertentu untuk mencegah model mengeluarkan hasil terkait. Ini adalah 'kotak hitam' AI. Masalah terjadi ketika LLM yang dilatih pada kumpulan data besar mengeluarkan informasi sensitif, seperti informasi identitas pribadi atau catatan keuangan.

Untuk mengatasi masalah ini, pengembang AI menggunakan pagar pembatas, seperti perintah hard-code yang menghambat perilaku tertentu atau pembelajaran penguatan dari umpan balik manusia (RLHF). Namun, para peneliti UNC berpendapat bahwa metode ini bergantung pada manusia untuk menemukan semua kekurangan yang mungkin ditunjukkan oleh suatu model dan, meskipun berhasil, metode ini tetap tidak 'menghapus' informasi dari model tersebut. Para peneliti menyimpulkan bahwa bahkan metode pengeditan model yang canggih, seperti Rank-One Model Editing (ROME), gagal menghapus sepenuhnya informasi faktual dari LLM, karena 38% fakta masih dapat diekstraksi melalui serangan whitebox. dan 29% kasusnya disebabkan oleh serangan blackbox.

Para peneliti mampu mengembangkan metode pertahanan baru untuk melindungi LLM dari beberapa 'serangan ekstraksi' - upaya yang disengaja oleh pelaku kejahatan untuk menggunakan dorongan untuk menghindari pagar model agar menghasilkan informasi sensitif. Namun, mereka mencatat bahwa masalah penghapusan informasi sensitif mungkin terjadi ketika metode pertahanan selalu mengejar metode serangan baru.