ChatGPT, yang sangat populer, sangat membutuhkan "rem kepatuhan"

Judul asli: "ChatGPT, yang sangat populer, sangat membutuhkan" rem kepatuhan "" Penulis asli: tim hukum Xiao Sa Kiat inti: ChatGPT dan AI obrolan lainnya berdasarkan teknologi pemrosesan bahasa alami memiliki masalah kepatuhan hukum yang mendesak yang memerlukan yang harus diselesaikan dalam jangka pendek Ada tiga masalah utama: Pertama, masalah hak kekayaan intelektual dalam tanggapan yang diberikan oleh obrolan AI Masalah kepatuhan yang paling penting adalah apakah tanggapan yang dihasilkan oleh obrolan AI menghasilkan hak kekayaan intelektual yang sesuai? Apakah otorisasi kekayaan intelektual diperlukan? Kedua, apakah proses penambangan data dan pelatihan AI obrolan pada sejumlah besar teks pemrosesan bahasa alami (umumnya disebut korpus) memerlukan otorisasi kekayaan intelektual yang sesuai? Ketiga, salah satu mekanisme chat AI seperti ChatGPT adalah melakukan statistik matematis pada sejumlah besar teks bahasa alami yang ada untuk mendapatkan model bahasa berdasarkan statistik. Mekanisme ini membuat chat AI cenderung "berbicara omong kosong secara serius". Paths", yang pada gilirannya menimbulkan risiko hukum dalam penyebaran informasi palsu. Dengan latar belakang teknis ini, bagaimana cara mengurangi risiko penyebaran informasi palsu di chat AI sebanyak mungkin? Secara umum, undang-undang kecerdasan buatan di negara saya masih dalam tahap pra-penelitian, dan belum ada rencana legislatif formal atau rancangan mosi yang relevan. Departemen terkait sangat berhati-hati dalam mengawasi bidang kecerdasan buatan. Dengan perkembangan kecerdasan buatan secara bertahap, masalah kepatuhan hukum semakin meningkat. 1. ChatGPT bukanlah “teknologi kecerdasan buatan lintas era.” ChatGPT pada dasarnya adalah produk pengembangan teknologi pemrosesan bahasa alami, dan pada dasarnya masih berupa model bahasa. Di awal tahun 2023, investasi besar-besaran dari raksasa teknologi global Microsoft menjadikan ChatGPT menjadi "kelas atas" di bidang teknologi dan berhasil keluar dari lingkaran tersebut. Dengan maraknya konsep ChatGPT di pasar modal, banyak juga perusahaan teknologi dalam negeri yang mulai terjun di bidang ini.Sementara konsep ChatGPT sedang diminati di pasar modal, sebagai praktisi hukum mau tak mau harus mengevaluasi apa itu keamanan hukum. ChatGPT sendiri mungkin membawa risiko dan jalur kepatuhan hukum? Sebelum membahas risiko hukum dan jalur kepatuhan ChatGPT, pertama-tama kita harus memeriksa prinsip-prinsip teknis ChatGPT - dapatkah ChatGPT, seperti diberitakan dalam berita, memberikan pertanyaan apa pun yang diinginkan si penanya?Dari sudut pandang tim Sajie, ChatGPT tampaknya tidak terlalu "ajaib" dibandingkan beberapa berita yang dipromosikan - dalam satu kalimat, ini hanyalah integrasi teknologi pemrosesan bahasa alami seperti Transformer dan GPT, dan pada dasarnya masih merupakan bahasa yang berbasis pada jaringan saraf. Sebuah model, bukan “kemajuan AI generasi.” Seperti yang telah disebutkan sebelumnya, ChatGPT merupakan produk pengembangan teknologi pemrosesan bahasa alami, dilihat dari sejarah perkembangan teknologi ini, secara kasar telah melalui tiga tahap: model bahasa berbasis tata bahasa - model bahasa berbasis statistik - berbasis jaringan saraf model bahasa., tahap yang dilalui ChatGPT adalah tahap model bahasa berdasarkan jaringan saraf. Jika ingin memahami lebih langsung prinsip kerja ChatGPT dan risiko hukum yang mungkin ditimbulkan oleh prinsip ini, Anda harus memperjelas terlebih dahulu pendahulunya. model bahasa berdasarkan jaringan saraf—— Cara kerja model bahasa berbasis statistik. Pada tahap model bahasa berdasarkan statistik, insinyur AI melakukan statistik pada sejumlah besar teks bahasa alami untuk menentukan kemungkinan hubungan berurutan antar kata. Saat orang mengajukan pertanyaan, AI mulai menganalisis lingkungan bahasa yang terdiri dari kata-kata yang membentuknya. pertanyaannya Selanjutnya, kombinasi kata mana yang memiliki probabilitas tinggi, dan kemudian digabungkan bersama kata-kata yang memiliki probabilitas tinggi tersebut untuk menghasilkan jawaban berdasarkan statistik. Dapat dikatakan bahwa prinsip ini telah meresap ke dalam perkembangan teknologi pemrosesan bahasa alami sejak kemunculannya.Dalam arti tertentu, model bahasa berbasis jaringan saraf berikutnya juga merupakan modifikasi dari model bahasa berbasis statistik. Untuk memberikan contoh yang mudah dipahami, tim Sister Sa memasukkan pertanyaan “Tempat wisata apa saja yang ada di Dalian?” di kotak chat ChatGPT, seperti terlihat pada gambar di bawah ini: Langkah pertama AI akan menganalisis morfem dasar pada soal “Dalian, yang mana, tempat wisata” , kemudian cari kumpulan teks bahasa alami yang letak morfem tersebut pada korpus yang ada, cari kolokasi dengan probabilitas kemunculan tertinggi pada kumpulan ini, lalu gabungkan kolokasi tersebut menjadi membentuk jawaban akhir. Misalnya, AI akan menemukan bahwa kata "Taman Zhongshan" termasuk dalam kumpulan tiga kata "Dalian, pariwisata, resor" dengan kemungkinan kemunculan yang tinggi, sehingga akan mengembalikan "Taman Zhongshan". Contoh lain adalah bahwa kata "taman" diasosiasikan dengan taman. Kata-kata seperti danau, air mancur, dan patung memiliki kemungkinan kecocokan paling tinggi, sehingga selanjutnya akan kembali ke "Ini adalah taman bersejarah dengan taman, danau, air mancur, dan patung yang indah ."Dengan kata lain, seluruh proses didasarkan pada statistik probabilitas berdasarkan informasi teks bahasa alami (korpus) yang ada di belakang AI, sehingga jawaban yang dikembalikan juga merupakan “hasil statistik”, yang membuat ChatGPT menjadi “serius” dalam banyak masalah. omong kosong". Sama seperti jawaban atas pertanyaan “Tempat wisata apa saja yang ada di Dalian?”, meskipun Dalian memiliki Taman Zhongshan, namun tidak ada danau, air mancur, dan patung di Taman Zhongshan. Dalian memang memiliki "Stalin Square" dalam sejarahnya, tetapi Stalin Square tidak pernah menjadi alun-alun komersial dari awal hingga akhir, dan tidak memiliki pusat perbelanjaan, restoran, atau tempat hiburan. Tampaknya informasi yang dikembalikan oleh ChatGPT salah. 2. ChatGPT saat ini merupakan skenario penerapan yang paling sesuai untuk model bahasa. Meskipun kelemahan model bahasa berbasis statistik telah kami jelaskan secara lugas di bagian sebelumnya, ChatGPT adalah model berbasis jaringan saraf yang telah sangat meningkatkan kemampuan berbasis statistik. model bahasa. Model bahasa ChatGPT, yang dasar teknisnya Transformer dan GPT, keduanya merupakan model bahasa generasi terbaru. ChatGPT pada dasarnya menggabungkan data besar dengan model Transformer dengan kemampuan ekspresif yang kuat, sehingga melakukan pemodelan bahasa alami yang sangat mendalam. Kembali Meskipun kalimatnya terkadang "omong kosong", sekilas masih terlihat seperti "respon manusia". Oleh karena itu, teknologi ini memiliki skenario penerapan yang luas dalam skenario yang memerlukan interaksi manusia-komputer secara masif. Saat ini, ada tiga skenario seperti itu: pertama, mesin pencari; kedua, mekanisme interaksi manusia-komputer di bank, firma hukum, berbagai perantara, pusat perbelanjaan, rumah sakit, dan platform layanan pemerintah, seperti yang ada di tempat-tempat di atas. Sistem pengaduan pelanggan , bimbingan dan navigasi medis, sistem konsultasi pemerintah; ketiga, mekanisme interaksi mobil pintar, rumah pintar (seperti speaker pintar, lampu pintar), dll. Mesin pencari yang menggabungkan teknologi obrolan AI seperti ChatGPT kemungkinan akan menggunakan pendekatan berbasis mesin pencari tradisional yang dilengkapi dengan model bahasa berbasis jaringan saraf. Saat ini, raksasa pencarian tradisional seperti Google dan Baidu memiliki akumulasi mendalam dalam teknologi model bahasa berdasarkan jaringan saraf. Misalnya, Google memiliki Sparrow dan Lamda yang sebanding dengan ChatGPT. Dengan berkah model bahasa ini, mesin pencari akan lebih banyak lagi. "Memanusiakan".Penerapan teknologi obrolan AI seperti ChatGPT dalam sistem pengaduan pelanggan, navigasi panduan di rumah sakit dan pusat perbelanjaan, serta sistem konsultasi pemerintah pada lembaga pemerintah akan secara signifikan mengurangi biaya sumber daya manusia di unit terkait dan menghemat waktu komunikasi. jawaban berdasarkan statistik mungkin Menghasilkan balasan konten yang sepenuhnya salah, risiko pengendalian risiko yang diakibatkannya mungkin memerlukan evaluasi lebih lanjut. Dibandingkan dengan dua skenario penerapan di atas, risiko hukum penerapan ChatGPT menjadi mekanisme interaksi manusia-komputer untuk perangkat yang disebutkan di atas di bidang seperti mobil pintar dan rumah pintar jauh lebih kecil, karena lingkungan aplikasi di bidang tersebut relatif bersifat pribadi. dan konten kesalahan umpan balik AI tidak menyebabkan risiko hukum yang besar, skenario jenis ini tidak memiliki persyaratan yang tinggi untuk keakuratan konten dan model bisnisnya lebih matang. 3. Eksplorasi awal mengenai risiko hukum dan jalur kepatuhan ChatGPT. Pertama, keseluruhan lanskap peraturan kecerdasan buatan di negara saya sama dengan banyak teknologi baru lainnya. Teknologi pemrosesan bahasa alami yang diwakili oleh ChatGPT juga menghadapi “dilema Collingridge.” Dilema ini mencakup dilema informasi dan dilema pengendalian. Yang disebut dilema informasi berarti bahwa konsekuensi sosial dari teknologi yang sedang berkembang tidak dapat diantisipasi pada tahap awal teknologi tersebut; yang disebut dilema pengendalian berarti ketika sebuah teknologi baru muncul. Ketika dampak sosial yang merugikan ditemukan, teknologi sering kali menjadi bagian dari keseluruhan struktur sosial dan ekonomi, sehingga tidak mungkin mengendalikan dampak sosial yang merugikan secara efektif. Saat ini, bidang kecerdasan buatan, khususnya bidang teknologi pemrosesan bahasa alami, sedang dalam tahap perkembangan yang pesat. Teknologi ini kemungkinan besar akan jatuh ke dalam apa yang disebut "Dilema Collingridge", dan tampaknya tidak ada pengawasan hukum yang terkait. untuk "mengikuti kecepatan." . Saat ini tidak ada undang-undang industri kecerdasan buatan tingkat nasional di negara kita, namun terdapat upaya legislatif lokal yang relevan. Bulan September lalu, Shenzhen mengumumkan undang-undang khusus nasional untuk industri kecerdasan buatan, "Peraturan Promosi Industri Kecerdasan Buatan Zona Ekonomi Khusus Shenzhen", dan kemudian Shanghai juga mengesahkan "Peraturan Shanghai tentang Mempromosikan Pengembangan Industri Kecerdasan Buatan". I Saya percaya bahwa dalam waktu dekat, berbagai tempat akan memperkenalkan undang-undang serupa untuk industri kecerdasan buatan. Dalam hal regulasi etika kecerdasan buatan, Komite Profesional Tata Kelola Kecerdasan Buatan Generasi Baru Nasional juga merilis "Kode Etik Kecerdasan Buatan Generasi Baru" pada tahun 2021, mengusulkan untuk mengintegrasikan etika dan moralitas ke dalam siklus hidup penuh penelitian dan pengembangan kecerdasan buatan dan Mungkin dalam waktu dekat Di masa depan, "Tiga Hukum Robotika" yang mirip dengan novel Asimov akan menjadi hukum besi yang mengatur bidang kecerdasan buatan.Kedua, risiko hukum atas informasi palsu yang ditimbulkan oleh ChatGPT telah mengalihkan fokus dari makro ke mikro. Dengan mengesampingkan keseluruhan lanskap peraturan industri kecerdasan buatan dan peraturan etika kecerdasan buatan, masalah kepatuhan praktis yang ada di yayasan obrolan AI seperti ChatGPT juga memerlukan perhatian segera. Masalah yang lebih meresahkan adalah informasi palsu yang dibalas ChatGPT. Seperti disebutkan di bagian kedua artikel ini, prinsip kerja ChatGPT berarti bahwa balasannya mungkin sepenuhnya "omong kosong yang serius". Informasi palsu semacam ini yang tampaknya benar adalah sebenarnya keterlaluan. Sangat menyesatkan. Tentu saja, respons palsu terhadap pertanyaan seperti "Tempat wisata apa saja yang ada di Dalian?" mungkin tidak menimbulkan konsekuensi serius, namun jika ChatGPT diterapkan pada mesin telusur, sistem keluhan pelanggan, dll., informasi palsu yang dibalasnya dapat menimbulkan konsekuensi yang sangat serius. risiko hukum.. Faktanya, risiko hukum tersebut sudah muncul. Galactica, model bahasa untuk bidang penelitian ilmiah layanan Meta, yang diluncurkan hampir bersamaan dengan ChatGPT pada November 2022, ditutup oleh pengguna setelah hanya 3 hari pengujian. karena masalah dengan campuran jawaban benar dan salah. Dengan asumsi bahwa prinsip-prinsip teknis tidak dapat ditembus dalam waktu singkat, jika ChatGPT dan model bahasa serupa diterapkan pada mesin pencari, sistem keluhan pelanggan, dan bidang lainnya, maka model tersebut harus diubah agar dapat dipatuhi. Ketika terdeteksi bahwa pengguna mungkin mengajukan pertanyaan profesional, pengguna harus dibimbing untuk berkonsultasi dengan profesional terkait alih-alih mencari jawaban dari kecerdasan buatan. Pada saat yang sama, pengguna harus diingatkan dengan jelas bahwa keaslian pertanyaan dikembalikan melalui obrolan, AI mungkin memerlukan verifikasi lebih lanjut untuk meminimalkan risiko risiko kepatuhan terkait. Ketiga, masalah kepatuhan kekayaan intelektual yang disebabkan oleh ChatGPT. Ketika kita mengalihkan perhatian kita dari makro ke mikro, selain keaslian pesan balasan AI, masalah kekayaan intelektual chat AI, terutama model bahasa besar seperti ChatGPT, juga harus juga menyebabkan masalah kepatuhan Perhatian personel. Masalah kepatuhan pertama adalah apakah “penambangan data teks” memerlukan otorisasi kekayaan intelektual yang sesuai. Seperti yang ditunjukkan di atas, prinsip kerja ChatGPT bergantung pada sejumlah besar teks bahasa alami (atau korpora ucapan). ChatGPT perlu menggali dan melatih data dalam korpus. ChatGPT perlu menyalin konten korpus ke dalam basis datanya sendiri. Perilaku terkait biasanya disebut "penambangan data teks" di bidang pemrosesan bahasa alami.Masih menjadi kontroversi apakah penambangan data teks melanggar hak reproduksi ketika data teks yang bersangkutan mungkin merupakan sebuah karya. Di bidang hukum komparatif, Jepang dan Uni Eropa telah memperluas cakupan penggunaan wajar dalam undang-undang hak cipta mereka, dengan menambahkan "penambangan data teks" di AI sebagai situasi penggunaan wajar yang baru. Meskipun beberapa pakar menganjurkan perubahan sistem penggunaan wajar di negara saya dari "tertutup" menjadi "terbuka" selama revisi Undang-Undang Hak Cipta negara saya pada tahun 2020, gagasan ini pada akhirnya tidak diadopsi. Saat ini, undang-undang hak cipta negara saya masih mempertahankan penggunaan wajar sistem. Ditetapkan secara ketat, hanya tiga belas situasi yang diatur dalam Pasal 24 Undang-Undang Hak Cipta yang dapat diakui sebagai penggunaan wajar. Dengan kata lain, Undang-undang Hak Cipta negara saya saat ini tidak memasukkan "penambangan data teks" di AI dalam lingkup penerapan yang wajar. Penambangan data teks masih memerlukan otorisasi kekayaan intelektual yang sesuai di negara saya. Tantangan kepatuhan kedua adalah, apakah tanggapan yang dihasilkan oleh ChatGPT asli? Mengenai pertanyaan apakah karya yang dihasilkan oleh AI itu asli, tim Sajie berpendapat bahwa kriteria penilaian tidak boleh berbeda dengan kriteria penilaian yang ada. Dengan kata lain, apakah suatu jawaban diselesaikan oleh AI atau oleh manusia, harus didasarkan pada standar orisinalitas yang ada. Faktanya, dibalik pertanyaan ini ada pertanyaan lain yang lebih kontroversial: Jika balasan yang dihasilkan oleh AI adalah asli, apakah pemegang hak ciptanya adalah AI? Jelasnya, berdasarkan undang-undang kekayaan intelektual di sebagian besar negara, termasuk negara kita, pencipta suatu karya hanya dapat dilakukan oleh orang perseorangan, dan AI tidak dapat menjadi pencipta ciptaan tersebut. Terakhir, jika ChatGPT menggabungkan karya pihak ketiga ke dalam balasannya, bagaimana seharusnya masalah kekayaan intelektualnya ditangani? Tim Sajie percaya bahwa jika balasan ChatGPT berisi karya berhak cipta di dalam korpus (walaupun berdasarkan prinsip kerja ChatGPT, kemungkinan terjadinya hal ini kecil), maka menurut undang-undang hak cipta Tiongkok saat ini, kecuali jika itu merupakan penggunaan wajar, jika tidak, Reproduksi adalah tidak diizinkan tanpa izin dari pemegang hak cipta.