Apple, Nvidia, dan Anthropic diketahui menggunakan subtitle YouTube untuk melatih model AI, yang melanggar kebijakan YouTube. Sebuah laporan oleh Proof News dan Wired menunjukkan bahwa perusahaan-perusahaan tersebut telah menggunakan kumpulan data transkrip dari ribuan video YouTube tanpa memperoleh lisensi yang tepat untuk melakukannya. 

Baca Juga: Pengawas Inggris meluncurkan penyelidikan terhadap akuisisi bakat AI oleh Microsoft

Studi tersebut mengungkapkan bahwa Apple, Nvidia, dan Anthropic menggunakan kumpulan data Subtitle YouTube. Kumpulan data ini terdiri dari transkrip 173.536 video YouTube dari 48.000 saluran. Video tersebut mencakup saluran pendidikan seperti Khan Academy dan MIT, saluran berita seperti The Wall Street Journal, dan pembuat konten top seperti MrBeast dan Marques Brownlee. 

YouTuber populer bereaksi terhadap eksploitasi data

Marques Brownlee, seorang YouTuber populer, mengomentari masalah ini di X. Dia berkata, “Apple telah mengumpulkan data AI dari perusahaan lain. Salah satunya mengumpulkan banyak data/transkrip dari video YouTube, termasuk milik saya. Meskipun Apple mungkin tidak menghapus data secara langsung, dan Brownlee menunjukkan bahwa masalah ini akan terus berlanjut.

Kumpulan data “Subtitel YouTube” dikembangkan oleh EleutherAI dan diterbitkan pada tahun 2020. Data tersebut berisi data sebesar 5,7 GB, yang mencakup subtitle dari video YouTube yang telah dihapus dari platform. 

Menurut syarat dan ketentuan YouTube, mengakses video dengan “cara otomatis” dilarang. Keberadaan subtitle dari video yang dihapus hanya menambah masalah, menimbulkan pertanyaan tentang privasi dan pelanggaran hak cipta.

Salesforce, sebuah organisasi yang juga terlibat dalam penyelidikan ini, juga mengakui telah menggunakan kumpulan data tersebut. 

“Dataset Pile yang dimaksud dalam makalah penelitian dilatih pada tahun 2021 untuk tujuan akademis dan penelitian. Kumpulan data tersedia untuk umum dan dirilis di bawah lisensi permisif.”

Juru bicara tenaga penjualan 

Namun penggunaan konten YouTube tanpa izin masih menjadi kontroversi hingga saat ini. Pada bulan April, CEO YouTube Neal Mohan mengatakan bahwa penggunaan video, transkrip, atau klip YouTube untuk pelatihan AI merupakan “pelanggaran nyata” terhadap kebijakan. Namun, menurut New York Times, OpenAI menggunakan jutaan jam video YouTube untuk melatih model GPT-4-nya. 

Pertarungan hukum meletus terkait penggunaan konten internet oleh perusahaan AI

Masalah perusahaan AI yang menggunakan konten dari internet tanpa izin semakin meningkat setelah peluncuran ChatGPT. Selain itu, pembuat konten menggugat Stability AI dan Midjourney karena diduga menghapus karya berhak cipta tanpa izin. Pemilik YouTube, Google, menghadapi tuntutan hukum class action mengenai klaim serupa, yang menyatakan bahwa tindakan hukum semacam ini mengancam dasar AI generatif. 

Dalam wawancara dengan The Wall Street Journal, CTO OpenAI Mira Murati tidak menjelaskan apakah perusahaan tersebut menggunakan video dari platform media sosial untuk melatih model baru ini. CEO Microsoft AI Mustafa Suleyman menyatakan bahwa konten di web terbuka telah dianggap sebagai penggunaan wajar sejak tahun 1990-an berdasarkan apa yang disebutnya “kontrak sosial”.