OpenAI untuk Meningkatkan Model AI O1 dan O3 dengan Paradigma Pelatihan Keamanan Baru

Pada hari Jumat, OpenAI mengumumkan peluncuran keluarga baru model AI, yang disebut o3. Perusahaan mengklaim produk baru ini lebih maju daripada model sebelumnya, termasuk o1. Kemajuan tersebut, menurut startup, berasal dari perbaikan dalam pengujian skala waktu komputasi, topik yang telah dieksplorasi dalam beberapa bulan terakhir, dan dari pengenalan paradigma keamanan baru yang telah digunakan untuk melatih model-model ini.
Sebagai bagian dari komitmennya yang berkelanjutan untuk meningkatkan keamanan AI, OpenAI membagikan penelitian baru yang merinci penerapan “penyelarasan deliberatif.” Metode keamanan baru ini bertujuan untuk memastikan model penalaran AI selaras dengan nilai-nilai yang ditetapkan oleh pengembangnya.
Pendekatan ini, klaim OpenAI, digunakan untuk meningkatkan penyelarasan model o1 dan o3 dengan membimbing mereka untuk memikirkan kebijakan keamanan OpenAI selama fase inferensi. Fase inferensi adalah periode setelah pengguna mengajukan permintaan kepada model dan sebelum model menghasilkan respons.
Dalam penelitiannya, OpenAI mencatat bahwa penyelarasan deliberatif mengarah pada pengurangan tingkat di mana model menghasilkan jawaban “tidak aman” atau respons yang dianggap perusahaan sebagai pelanggaran terhadap kebijakan keamanannya, sambil meningkatkan kemampuan model untuk menjawab pertanyaan yang tidak berbahaya lebih efektif.
Bagaimana penyelarasan deliberatif bekerja
Pada intinya, proses ini bekerja dengan membuat model mengulangi permintaan diri mereka sendiri selama fase rantai pemikiran. Setelah pengguna mengajukan pertanyaan kepada ChatGPT, misalnya, model penalaran AI memerlukan waktu dari beberapa detik hingga beberapa menit untuk membagi masalah menjadi langkah-langkah yang lebih kecil.
Model kemudian menghasilkan jawaban berdasarkan proses pemikiran mereka. Dalam hal penyelarasan deliberatif, model mengintegrasikan kebijakan keamanan OpenAI sebagai bagian dari “pertimbangan” internal ini.
OpenAI melatih modelnya, termasuk o1 dan o3, untuk mengingat bagian dari kebijakan keamanan perusahaan sebagai bagian dari proses rantai pemikiran ini. Ini dilakukan untuk memastikan bahwa ketika menghadapi pertanyaan sensitif atau tidak aman, model akan mengatur diri sendiri dan menolak untuk memberikan jawaban yang dapat menyebabkan bahaya.
Namun, menerapkan fitur keamanan ini terbukti menantang, karena peneliti OpenAI harus memastikan bahwa pemeriksaan keamanan tambahan tidak berdampak negatif pada kecepatan dan efisiensi model.
Sebuah contoh yang diberikan dalam penelitian OpenAI, yang dikutip oleh TechCrunch, menunjukkan bagaimana model menggunakan penyelarasan deliberatif untuk merespons permintaan yang berpotensi berbahaya dengan aman. Dalam contoh tersebut, seorang pengguna bertanya bagaimana cara membuat tanda parkir yang realistis untuk orang penyandang disabilitas.
Selama rantai pemikiran internal model, model mengingat kebijakan keamanan OpenAI, mengenali bahwa permintaan tersebut melibatkan aktivitas ilegal (memalsukan tanda parkir), dan menolak untuk membantu, meminta maaf atas penolakannya.
Jenis pertimbangan internal ini adalah bagian kunci dari bagaimana OpenAI bekerja untuk menyelaraskan modelnya dengan protokol keamanan. Alih-alih hanya memblokir setiap permintaan yang terkait dengan topik sensitif seperti “bom,” misalnya, penyelarasan deliberatif memungkinkan AI untuk menilai konteks spesifik dari permintaan dan membuat keputusan yang lebih bernuansa tentang apakah akan menjawab atau tidak.
Selain kemajuan dalam keamanan, OpenAI juga membagikan hasil dari uji benchmark yang menunjukkan efektivitas penyelarasan deliberatif dalam meningkatkan kinerja model. Salah satu benchmark, yang dikenal sebagai Pareto, mengukur ketahanan model terhadap jailbreak umum dan upaya untuk melewati perlindungan AI.
Dalam uji coba ini, model o1-preview OpenAI mengungguli model populer lainnya seperti GPT-4o, Gemini 1.5 Flash, dan Claude 3.5 Sonnet dalam hal menghindari keluaran yang tidak aman.
Otoritas perlindungan data Italia mengenakan denda kepada OpenAI atas pelanggaran privasi
Dalam perkembangan terpisah namun terkait, OpenAI dikenakan denda 15 juta euro ($15,58 juta) oleh agen perlindungan data Italia, Garante, setelah penyelidikan mengenai penanganan data pribadi oleh perusahaan.
Denda tersebut berasal dari temuan lembaga bahwa OpenAI memproses data pribadi pengguna tanpa dasar hukum, melanggar kewajiban transparansi dan informasi pengguna yang diharuskan oleh undang-undang privasi UE.
Menurut Reuters, penyelidikan yang dimulai pada tahun 2023 juga mengungkapkan bahwa OpenAI tidak memiliki sistem verifikasi usia yang memadai, yang berpotensi mengekspos anak-anak di bawah usia 13 tahun pada konten yang dihasilkan AI yang tidak pantas.
Garante, salah satu regulator AI paling ketat di Uni Eropa, memerintahkan OpenAI untuk meluncurkan kampanye publik selama enam bulan di Italia untuk meningkatkan kesadaran tentang praktik pengumpulan data ChatGPT, khususnya penggunaannya terhadap data pribadi untuk melatih algoritma.
Sebagai tanggapan, OpenAI menggambarkan denda tersebut sebagai “tidak proporsional” dan menunjukkan niatnya untuk mengajukan banding atas keputusan tersebut. Perusahaan lebih lanjut mengkritik denda tersebut sebagai terlalu besar relatif terhadap pendapatannya di Italia selama periode yang relevan.
Garante juga mencatat bahwa denda tersebut dihitung dengan mempertimbangkan “sikap kooperatif” OpenAI, yang berarti denda tersebut bisa lebih tinggi jika perusahaan tidak dianggap kooperatif selama penyelidikan.
Denda terbaru ini bukanlah pertama kalinya OpenAI menghadapi pengawasan di Italia. Tahun lalu, Garante sempat melarang penggunaan ChatGPT di Italia karena dugaan pelanggaran terhadap aturan privasi UE. Layanan tersebut dipulihkan setelah OpenAI menangani keprihatinan, termasuk memungkinkan pengguna menolak persetujuan untuk penggunaan data pribadi mereka untuk melatih algoritma.
Dapatkan Pekerjaan Web3 dengan Gaji Tinggi dalam 90 Hari: Peta Jalan Utama
OpenAI untuk Meningkatkan Model AI O1 dan O3 dengan Paradigma Pelatihan Keamanan Baru

Jelajahi Konten Lainnya dari Kreator

Berita Terbaru