È stato scoperto che Apple, Nvidia e Anthropic utilizzano i sottotitoli di YouTube per addestrare modelli di intelligenza artificiale, il che è contrario alle politiche di YouTube. Un rapporto di Proof News e Wired ha mostrato che tali aziende avevano utilizzato un set di dati delle trascrizioni di migliaia di video di YouTube senza acquisire adeguatamente la licenza per farlo. 

Leggi anche: Il watchdog del Regno Unito lancia un’indagine sull’acquisizione di talenti AI da parte di Microsoft

Lo studio ha rivelato che Apple, Nvidia e Anthropic hanno utilizzato il set di dati dei sottotitoli di YouTube. Questo set di dati è costituito da trascrizioni di 173.536 video di YouTube da 48.000 canali. I video includono canali educativi come Khan Academy e MIT, canali di notizie come The Wall Street Journal e creatori di spicco come MrBeast e Marques Brownlee. 

Gli YouTuber più famosi reagiscono allo sfruttamento dei dati

Marques Brownlee, un popolare YouTuber, ha commentato la questione su X. Ha detto: “Apple ha raccolto dati per l’intelligenza artificiale da altre aziende. Uno di loro ha raccolto molti dati/trascrizioni dai video di YouTube, incluso il mio. ” Anche se Apple potrebbe non aver recuperato i dati direttamente, Brownlee ha sottolineato che questo problema persisterà.

Il set di dati "Sottotitoli YouTube" è stato sviluppato da EleutherAI e pubblicato nel 2020. Contiene 5,7 GB di dati, che includono i sottotitoli dei video di YouTube che sono stati rimossi dalla piattaforma. 

Secondo i termini e le condizioni di YouTube, è vietato l’accesso ai video con “mezzi automatizzati”. L'esistenza dei sottotitoli dei video rimossi non fa altro che aggravare il problema, sollevando dubbi sulla privacy e sulla violazione del copyright.

Anche Salesforce, un'organizzazione implicata nell'indagine, ha ammesso di aver utilizzato tale set di dati. 

“Il set di dati Pile a cui si fa riferimento nel documento di ricerca è stato addestrato nel 2021 per scopi accademici e di ricerca. Il set di dati era disponibile al pubblico e rilasciato con una licenza permissiva”.

Portavoce di Salesforce 

Tuttavia, l’utilizzo dei contenuti di YouTube senza autorizzazione è ancora oggi controverso. Ad aprile, il CEO di YouTube Neal Mohan ha affermato che l'utilizzo di video, trascrizioni o clip di YouTube per la formazione sull'intelligenza artificiale è una "chiara violazione" delle politiche. Tuttavia, secondo il New York Times, OpenAI ha utilizzato un milione di ore di video di YouTube per addestrare il suo modello GPT-4. 

Scoppiano battaglie legali sull’uso dei contenuti Internet da parte delle società di intelligenza artificiale

Il problema delle società di intelligenza artificiale che utilizzano contenuti da Internet senza autorizzazione è aumentato dopo il lancio di ChatGPT. Inoltre, i creatori di contenuti hanno fatto causa a Stability AI e Midjourney per aver presumibilmente rimosso opere protette da copyright senza autorizzazione. Il proprietario di YouTube, Google, ha dovuto affrontare azioni legali collettive per affermazioni simili, affermando che azioni legali di questo tipo minacciano le basi dell’intelligenza artificiale generativa. 

In un’intervista con il Wall Street Journal, il CTO di OpenAI Mira Murati non ha spiegato se l’azienda abbia utilizzato video provenienti da piattaforme di social media per addestrare questo nuovo modello. Il CEO di Microsoft AI, Mustafa Suleyman, ha affermato che i contenuti sul web aperto sono stati considerati fair use sin dagli anni ’90 sulla base di quello che ha definito il “contratto sociale”.