Apple, Nvidia ve Anthropic'in, YouTube politikalarına aykırı olarak yapay zeka modellerini eğitmek için YouTube altyazılarını kullandığı ortaya çıktı. Proof News ve Wired tarafından hazırlanan bir rapor, bu tür firmaların, gerekli lisansı almadan binlerce YouTube videosunun transkriptlerinden oluşan bir veri kümesini kullandığını gösterdi. 

Ayrıca Okuyun: Birleşik Krallık gözlemcisi Microsoft'un yapay zeka yetenek alımına ilişkin soruşturma başlattı

Çalışma, Apple, Nvidia ve Anthropic'in YouTube Altyazı veri kümesini kullandığını ortaya çıkardı. Bu veri kümesi, 48.000 kanaldaki 173.536 YouTube videosunun transkriptlerinden oluşmaktadır. Videolar arasında Khan Academy ve MIT gibi eğitim kanalları, The Wall Street Journal gibi haber kanalları ve MrBeast ve Marques Brownlee gibi en iyi içerik oluşturucular yer alıyor. 

Popüler YouTuber'lar veri istismarına tepki gösteriyor

Popüler YouTuber Marques Brownlee, X ile ilgili konuya ilişkin şu yorumu yaptı: “Apple, yapay zeka için diğer firmalardan veri topladı. İçlerinden biri, benimki de dahil olmak üzere YouTube videolarından çok sayıda veri/metin topladı. Her ne kadar Apple doğrudan verileri kazıyamamış olsa da Brownlee bu sorunun devam edeceğine dikkat çekti.

“YouTube Altyazıları” veri seti, EleutherAI tarafından geliştirilip 2020 yılında yayınlandı. Platformdan kaldırılan YouTube videolarına ait altyazıları da içeren 5,7GB veri içeriyor. 

YouTube'un şartlar ve koşullarına göre videolara "otomatik yollarla" erişim yasaktır. Kaldırılan videolarda altyazıların bulunması, sorunu daha da büyüterek gizlilik ve telif hakkı ihlaliyle ilgili soruları gündeme getiriyor.

Soruşturmaya dahil olan bir kuruluş olan Salesforce da söz konusu veri setini kullandığını itiraf etti. 

"Araştırma makalesinde adı geçen Pile veri seti 2021 yılında akademik ve araştırma amaçlı eğitildi. Veri seti kamuya açıktı ve izin verilen bir lisans altında yayınlandı."

Salesforce sözcüsü 

Ancak YouTube içeriklerinin izinsiz kullanılması bu tarihe kadar hala tartışmalıdır. Nisan ayında YouTube CEO'su Neal Mohan, YouTube videolarının, transkriptlerinin veya kliplerinin AI eğitimi için kullanılmasının politikaların "açık bir ihlali" olduğunu söyledi. Ancak New York Times'a göre OpenAI, GPT-4 modelini eğitmek için bir milyon saatlik YouTube videosu kullandı. 

Yapay zeka şirketlerinin internet içeriğini kullanması konusunda hukuki savaşlar yaşanıyor

ChatGPT'nin piyasaya sürülmesinden sonra yapay zeka şirketlerinin internetteki içeriği izinsiz kullanması sorunu arttı. Ayrıca içerik oluşturucular, telif hakkıyla korunan eserleri izinsiz olarak kazıdıkları iddiasıyla Stability AI ve Midjourney'e dava açıyor. YouTube'un sahibi Google, bu tür yasal işlemlerin üretken yapay zekanın temelini tehdit ettiğini belirterek benzer iddialarla ilgili toplu davalarla karşı karşıya kaldı. 

OpenAI'nin CTO'su Mira Murati, The Wall Street Journal'a verdiği röportajda şirketin bu yeni modeli eğitmek için sosyal medya platformlarındaki videoları kullanıp kullanmadığı konusunda ayrıntılı bilgi vermedi. Microsoft AI CEO'su Mustafa Süleyman, açık webdeki içeriğin 1990'lı yıllardan bu yana "toplum sözleşmesi" olarak adlandırdığı şeye dayanarak adil kullanım olarak kabul edildiğini belirtti.