Apakah ada pekerjaan OpenAI, Google, dan Meta, AI yang mendanai sektor industri, yang mencakup berbagai cara seperti mengumpulkan atau mengumpulkan data digital dalam jumlah besar dengan cara yang kreatif namun kontroversial, jelas bahwa kemampuan dan kemampuan otomatisasi semakin meningkat. Khususnya, upaya-upaya yang memerlukan tindakan seperti mengambil langkah-langkah yang diuraikan di atas (yaitu, mempertimbangkan batasan hukum dan kebijakan perusahaan) setara dengan sejumlah besar data yang digunakan untuk melatih sistem AI.

Inisiatif bisikan OpenAI: Menambang percakapan YouTube

Kisah Bisikan kami dimulai tahun lalu. Ada banyak sekali kekurangan teks bahasa Inggris berkualitas tinggi yang menyebabkan tertundanya penyampaian pendidikan. Whisper adalah langkah selanjutnya dari Google. Ini memahami lautan dialog YouTube dan dikembangkan sebagai teks, aplikasi text-to-speech. Alat bertenaga AI itu sendiri, yang terdiri dari lebih dari satu juta jam video YouTube yang diaudit oleh AI untuk menghasilkan teks baru (pada dasarnya, percakapan baru), telah digunakan untuk melatih model AI yang dihasilkan dari teknologi canggih. hingga GPT-4, versi terbaru chatbot ChatGPT.

Meskipun beberapa karyawan berpendapat bahwa rekaman Microsoft OpenAI akan menjiplak YouTube secara menyeluruh, etika plagiarisme masih bisa diperdebatkan; selain itu, beberapa pekerja mengakui bahwa mustahil untuk menyelaraskan dengan tujuan YouTube. Demikian pula, timbulnya keberatan dalam memproses video secara algoritmik untuk mengekstraksi konten tekstual guna memberi makan A.I. model mungkin dianggap sebagai ancaman terhadap hak cipta pembuat video sehingga menyebabkan kemarahan.

Meta, perusahaan induk Facebook dan Instagram, juga prihatin dengan penggunaan elemen berhak cipta antara lain dari penerbit seperti Simon & Schuster. Pada saat yang sama, juga dibahas akuisisi konten web umum yang berpotensi terjerat pelanggaran hak cipta.

Krisis data: Mendorong pendekatan yang tidak konvensional

Pengumpulan data yang penuh persaingan membantu mencatat posisi penting data dan mengidentifikasinya dalam pengembangan teknologi AI. Bahasa ke dalam AI memerintahkan semakin banyak kumpulan data pelatihan, termasuk Persemakmuran, yang saat ini dimanipulasi hingga Wikipedia dan Reddit dari luar sumber-sumber ini. Bagi perusahaan teknologi—terutama yang kesulitan menjangkau sumber data umum seperti penyimpanan data tradisional—membuat model yang didukung AI dapat menjadi solusi alternatif yang mungkin cukup diinginkan dalam kasus tersebut.

Perusahaan-perusahaan di bidang teknologi mengindikasikan perlunya pengumpulan data untuk pelatihan AI, sementara proses yang sama dipertanyakan secara hukum di pengadilan. Dalam pembelaannya, OpenAI dan Microsoft memenangkan tuduhan tentang penggunaan ilegal materi hak cipta terhadap mereka. Meski begitu, mereka mengatakan tindakan mereka sesuai dengan prinsip hukum penggunaan wajar. Dalam beberapa tahun terakhir, jumlah permohonan yang diajukan ke Kantor Hak Cipta AS oleh pemegang hak cipta telah melampaui angka 10.000, yang jelas menunjukkan bahwa undang-undang hak cipta di era AI adalah unik dan baru. Akibatnya, pemain utama selalu menghadapi bahaya terkait pelanggaran banyak karya dengan kedok bahwa tidak ada tujuan berlisensi untuk model yang menggunakan AI atas dasar ini.

Pentingnya kumpulan data yang sangat besar

Secara keseluruhan, karya Kaipan de Jared, ilmuwan skalanya, secara tidak sengaja telah menjadi epik dalam pengembangan AI. Konten berbasis data merupakan salah satu komponen AI yang diperlukan untuk proses pelatihan, namun tidak dapat berfungsi dengan baik tanpa model yang telah dilatih dengan baik dan beroperasi secara efektif. Dengan meningkatnya teknologi kecerdasan buatan, permintaan akan data agar berhasil di pasar meningkat dengan pesat, sehingga menimbulkan pertanyaan bagi perusahaan terkait hukum, etika, dan privasi. Oleh karena itu, algoritme kecerdasan buatan harus menggunakan kumpulan data ini agar berhasil di pasar.

Perilaku pengumpulan data V.IP dirusak untuk peningkatan AI; sumpah metodologis yang khas sedang diperkeras. Baik melalui salah satu pembicaraan di YouTube atau pembuatan data generatif sintetis, perusahaan-perusahaan ini adalah pemimpin yang memiliki misi untuk menemukan apa sebenarnya masalah hukum, etika, dan privasi.

Mereka mungkin akan menjadi lelucon di laut nanti. Karena banyaknya data yang diperlukan untuk mendorong proses inovasi, para pemimpin masyarakat diharuskan untuk berpartisipasi aktif dalam dialog konstruktif untuk mengembangkan aturan dan standar yang menyeimbangkan upaya inovasi dengan prinsip-prinsip etika hak kekayaan intelektual dan privasi.

Kisah asli dari: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html