Le principali aziende tecnologiche, tra cui OpenAI, Google, Meta e Anthropic, si affidano a materiali di alta qualità e protetti da copyright provenienti da editori di spicco per addestrare i loro modelli di linguaggio di grandi dimensioni (LLM).

Questo è secondo uno studio condotto da Ziff Davis, la società madre di CNET, IGN e Mashable, che mostra il ruolo essenziale che i contenuti di alta qualità giocano nell'addestramento di questi modelli di IA. Lo studio mostra che le fonti autorevoli sono preferite per i set di dati di addestramento nelle aziende di IA per migliorare le prestazioni del modello, ma il contributo di queste fonti è spesso trascurato.

Nella ricerca, l'avvocato dell'IA di Ziff Davis, George Wukoson e il Chief Technology Officer Joey Fortuna hanno affermato che le aziende di IA scelgono i dati di addestramento in base al ranking dei siti web autorevoli con alti posizionamenti nei motori di ricerca. Siti web di alta qualità e popolari sono stati scelti per migliorare i modelli poiché hanno una buona reputazione. Una strategia che, secondo lo studio, consente agli sviluppatori di IA di perfezionare il modello linguistico.

Ziff Davis ha sottolineato che fornitori di contenuti di alto livello come Axel Springer, Future PLC, Hearst, News Corp e The New York Times, tra gli altri, hanno contribuito allo sviluppo di set di dati di addestramento. In particolare, è stato identificato che il 12,04% di OpenWebText2, utilizzato per la creazione di GPT-3 di OpenAI, proveniva da questi editori fidati.

Mark Zuckerberg ha anche commentato il dibattito in corso riguardante l'uso dei contenuti nell'addestramento dell'IA. In una recente intervista con The Verge, Zuckerberg ha riconosciuto che il data scraping per l'IA è difficile ma ha anche sottolineato che il contenuto di singoli creatori o editori potrebbe non essere così impattante. Ha dichiarato: “Penso che i singoli creatori o editori tendano a sovrastimare il valore dei loro contenuti specifici nel grande schema di questo.”

Gli editori intentano cause legali contro le aziende di IA

Il segreto attorno alle fonti dei dati di addestramento ha sollevato preoccupazioni tra editori e consumatori. Il New York Times e il Wall Street Journal hanno recentemente intentato cause legali contro le aziende di IA, affermando di aver violato le leggi sul copyright utilizzando i loro contenuti.

Mentre OpenAI ha avanzato sforzi per ottenere licenze sui contenuti da organizzazioni mediatiche come il Financial Times e DotDash Meredith, diverse aziende di intelligenza artificiale continuano a lavorare senza licenze adeguate. Il rapporto afferma ulteriormente che “i principali sviluppatori di LLM non rivelano più i loro dati di addestramento come facevano una volta.”

Mentre i valori delle aziende di IA aumentano, il divario tra i giganti della tecnologia e le aziende mediatiche convenzionali rimane vasto. I giganti tecnologici come Google e Meta, che hanno un valore stimato di $2,2 tn e $1,5 tn, rispettivamente, rimangono all'avanguardia dell'IA generativa, mentre startup come OpenAI e Anthropic sono valutate rispettivamente $157 miliardi e $40 miliardi.

D'altra parte, gli editori stanno ancora affrontando licenziamenti e ristrutturazioni, che sono evidenza della pressione finanziaria per adattarsi a un ambiente sempre più definito dall'IA. A causa della concorrenza con contenuti generati dagli utenti e basati sull'IA, numerosi editori affrontano sfide in termini di riduzione dei costi e del personale.