Documenti trapelati ottenuti da 404 Media suggeriscono che NVIDIA ha effettuato operazioni di scraping di dati senza licenza, utilizzando filmati di film e giochi da Internet per addestrare i suoi prodotti di intelligenza artificiale.

I documenti trapelati rivelano che stavano cercando di scaricare film completi da vari canali, tra cui Netflix, e il loro interesse principale era nei video di YouTube. Dalle e-mail ottenute da 404 Media, i project manager intendevano impiegare tra 20 e 30 macchine virtuali su Amazon Web Services per ottenere 80 anni di video in un giorno.

NVIDIA difende le proprie azioni e invoca le disposizioni sul fair use

Il data scraping è la pratica di estrazione di contenuti video, testuali e audio da Internet senza il permesso dei proprietari dei contenuti per addestrare modelli di intelligenza artificiale. Questa pratica potrebbe essere vista come l'uso di contenuti da piattaforme di social media che contengono contenuti protetti da copyright.

NVIDIA ha affermato di non aver violato alcuna legge sul copyright nel processo di data scraping. L'azienda ha anche affermato che le sue attività rientrano nella dottrina del fair use perché utilizza materiale protetto da copyright per l'addestramento dell'IA.

Documenti ottenuti dalle comunicazioni interne di 404 Media indicano che alcuni dipendenti di NVIDIA hanno espresso preoccupazioni su queste attività di data scraping. Tuttavia, i project manager avrebbero minimizzato le preoccupazioni, affermando che le questioni legali, ad esempio le violazioni dei Termini di servizio di YouTube, sarebbero state affrontate in seguito.

Un dipendente ha sottolineato che gli ingegneri AI di NVIDIA hanno cercato di ottenere il maggior numero possibile di clip di gioco per arricchire il corpus di formazione. Ciò ha comportato lo streaming del gameplay sul servizio cloud GeForceNow di NVIDIA per registrare video di gameplay in alta definizione. Jim Fan, analista di ricerca senior, ha anche sottolineato in messaggi interni l'importanza di tali filmati come input per la formazione del modello AI.

L'azienda adotta misure per gestire la percezione pubblica delle pratiche sui dati

I documenti descrivono anche i tentativi di NVIDIA di limitare i danni causati dalle ripercussioni di tali pratiche. Secondo le e-mail trapelate, il vicepresidente della ricerca Ming-Yu Liu ha raccomandato all'azienda di evitare di pubblicare documenti relativi alle tecniche di data scraping per prevenire le reazioni negative del pubblico. Ha anche creato un proprio set di strumenti di data scraping di YouTube e account API per aiutare nel processo di raccolta dati.

La posizione legale relativa alle norme che regolano l'uso dell'IA nello scraping dei dati non è ancora molto chiara. Secondo Robert Mahari del MIT, può essere piuttosto complicato stabilire che lo scraping dei dati sia effettivamente avvenuto. Le organizzazioni possono trarre vantaggio dal non rivelare le fonti dei loro dati di formazione poiché diventa difficile dimostrare l'abuso in assenza di prove tangibili.

Un'altra piattaforma, Suno, una piattaforma di generazione di musica AI, è recentemente finita sotto i riflettori per aver ammesso l'uso del data scraping per addestrare modelli di intelligenza artificiale. Come precedentemente riportato da Cryptopolitan, il CEO di Reddit Steve Huffman ha dichiarato che la società continuerà a vietare a Microsoft e ad altre aziende di intelligenza artificiale di utilizzare il data scraping fino a quando non verrà effettuato il pagamento e la piattaforma non avrà acquisito il controllo su come i dati vengono utilizzati. Ha affermato che Reddit non avrebbe consentito il data scraping per l'uso nell'addestramento di modelli AI senza la licenza appropriata.