Anthropic dan banyak raksasa teknologi lainnya membentuk "Tim Merah" untuk menambal kelemahan keamanan dan mencegah risiko model dieksploitasi untuk tujuan yang buruk.

Selama seminggu, Anthropic merilis panduan “tim merah”, bergabung dengan grup vendor seperti Google, Microsoft, NIST, NVIDIA dan OpenAI yang juga telah merilis kerangka kerja serupa. Tujuan dari kerangka kerja ini adalah untuk mengidentifikasi dan memulihkan kerentanan keamanan yang semakin meningkat dalam model kecerdasan buatan (AI).

Pendekatan “tim merah” terbukti efektif dalam mendeteksi kerentanan keamanan yang tidak dapat dilihat oleh metode keamanan lain, sehingga membantu perusahaan AI menghindari model mereka digunakan untuk menghasilkan konten yang tidak diinginkan.

Tujuan dan pentingnya strategi "tim merah" di bidang AI

Kekhawatiran terhadap risiko keamanan dari model AI semakin meningkat, sehingga mendorong para pembuat kebijakan untuk mencari solusi bagi platform AI yang aman dan tepercaya. Perintah Eksekutif (EO) tentang AI yang Aman, Terjamin, dan Tepercaya (14110), yang ditandatangani oleh Presiden Biden pada tanggal 30 Oktober 2018, mengarahkan NIST untuk menetapkan pedoman dan proses yang sesuai untuk memungkinkan pengembang AI, terutama dengan model platform penggunaan tertutup, melakukan tindakan "Pengujian model AI" - juga merupakan opsi "tim merah" AI, untuk menerapkan sistem AI yang aman dan andal.

NIST merilis dua draf publikasi pada akhir April untuk membantu mengelola risiko AI generatif. Dokumen-dokumen ini merupakan sumber daya pelengkap untuk AI Risk Management Framework (AI RMF) dan Secure Software Development Framework (SSDF).

Kantor Federal Jerman untuk Keamanan Informasi (BSI) menawarkan strategi “tim merah” sebagai bagian dari kerangka IT-Grundschutz mereka yang lebih luas. Australia, Kanada, Uni Eropa, Jepang, Belanda dan Singapura juga memiliki kerangka kerja yang menonjol. Parlemen Eropa mengesahkan Undang-Undang Kecerdasan Buatan Uni Eropa pada bulan Maret tahun ini.

Konsep AI “tim merah”.

Faktanya, model tim merah telah ada sejak tahun 1960an, ketika serangan permusuhan diciptakan dalam bentuk simulasi untuk memastikan sistem komputer beroperasi dengan stabil. “Di komputer, tidak ada konsep 'keamanan'. Sebaliknya, apa yang bisa dikatakan oleh para insinyur adalah: kami telah mencoba tetapi kami tidak dapat menggagalkannya," kata Bruce Schneier, pakar keamanan dan rekan di Berkman Klein Research Center di Universitas Harvard. .

Saat ini, “red teaming” juga dikenal sebagai teknik pengujian model AI dengan menyimulasikan serangan yang beragam dan tidak dapat diprediksi, untuk menentukan kekuatan dan kelemahannya. Karena model AI generatif dilatih di gudang data yang besar, metode keamanan tradisional sulit menemukan kerentanan.

Namun seperti perangkat lunak komputer lainnya, model-model ini masih memiliki kerentanan dunia maya yang sama: mereka dapat diserang oleh pihak-pihak jahat untuk mencapai berbagai tujuan, termasuk mengajukan pertanyaan berbahaya, konten pornografi, penggunaan materi berhak cipta secara ilegal, atau pengungkapan informasi pribadi seperti nama, alamat dan nomor telepon. Tujuan dari strategi ini adalah untuk mendorong pola dalam merespons dan mengatakan hal-hal yang belum diprogram, termasuk mengungkap bias.

Secara khusus, anggota "tim merah" akan menggunakan model bahasa besar (LLM) untuk mengotomatiskan pembuatan perintah dan skrip serangan guna menemukan dan memperbaiki kelemahan model AI yang dihasilkan di lapangan.

Misalnya, Google menggunakan tim merah untuk melindungi model AI dari ancaman seperti serangan injeksi cepat, serangan peracunan data, dan pintu belakang. Setelah kerentanan tersebut teridentifikasi, mereka dapat mempersempit kesalahan dalam perangkat lunak dan memperbaikinya.

Nilai dari strategi “tim merah” dalam meningkatkan keamanan model AI terus ditunjukkan dalam kompetisi di seluruh industri. Tahun lalu, DEF CON – konferensi hacker terbesar di dunia – menyelenggarakan kompetisi Generative Red Team (GRT) pertama, yang dianggap sebagai salah satu keberhasilan besar dalam penggunaan teknik crowdsourcing.

Model disediakan oleh Anthropic, Cohere, Google, Hugging Face, Meta, Nvidia, OpenAI dan Stability. Peserta menguji model pada platform evaluasi yang dikembangkan oleh Scale AI.

Strategi "tim merah" AI Anthropic

Dalam mempublikasikan metodenya, Anthropic menekankan perlunya prosedur pengujian yang terstandardisasi dan sistematis. Menurut perusahaan, kurangnya standar umum merupakan hambatan utama dalam pengujian model AI di seluruh industri

Anthropic juga mengusulkan empat metode pengujian utama: pengujian oleh pakar domain, penggunaan model bahasa untuk pengujian, pengujian dengan metode baru, dan pengujian terbuka umum.

Poin penting dalam pendekatan Anthropic adalah kombinasi sempurna antara pemahaman manusia yang mendalam dan hasil kuantitatif dari teknik pengujian. Biasanya, Anthropic berfokus pada peran sekelompok ahli berdasarkan bidangnya, dan memprioritaskan penerapan Pengujian Kerentanan Kebijakan (PVT) - sebuah teknik kualitatif yang membantu mengidentifikasi dan menerapkan langkah-langkah perlindungan keamanan, terutama di area sensitif yang mudah dieksploitasi seperti campur tangan pemilu, hasutan kebencian, pornografi,...

Seperti banyak perusahaan teknologi lainnya, Anthropic bertujuan untuk mengotomatiskan proses pengujian dengan menggunakan model AI untuk melakukan simulasi serangan acak, sehingga mendeteksi kerentanan. “Kami percaya bahwa semakin kuat model AI, semakin efektif model tersebut dapat mendukung manusia dalam pengujian dan mengotomatiskan proses pengujian,” Anthropic berbagi.

Berdasarkan model grup merah/grup biru, Anthropic menggunakan model serangan, "memprovokasi" model AI target untuk melakukan perilaku yang diinginkan, sehingga mengumpulkan data dan menyesuaikan serta memperkuat sistem.

Salah satu bidang utama dan menantang yang sedang dilakukan Anthropic adalah pengujian multi-modalitas. Menguji model AI dengan gambar dan suara jauh lebih rumit dibandingkan dengan teks, karena penyerang dapat sepenuhnya "menyamarkan" kode berbahaya dalam gambar dan suara, melewati sistem keamanan. Buktinya, lini model Claude 3 milik Anthropic, sebelum diluncurkan, harus melalui proses pengujian yang ketat terkait kemampuannya dalam mengolah informasi multimedia, untuk meminimalkan potensi risiko seperti penipuan dan hasutan permusuhan, atau mengancam keselamatan anak.

Menyimpulkan

Dapat dikatakan bahwa pengujian model AI secara bertahap menunjukkan posisinya sebagai perisai penting, melindungi pembangunan berkelanjutan industri AI. Partisipasi perusahaan teknologi terkemuka dan lembaga pemerintah menunjukkan upaya bersama untuk menciptakan kerangka hukum dan teknis yang kuat, membuka masa depan bagi AI untuk mencapai kesejahteraan sambil tetap memastikan integritas dan tanggung jawab.