Il tecnologo e CEO di Synesis One, Isaac Bang, avverte contro lo scenario “estremamente pericoloso” di pochi giganti tecnologici che accumulano dati e guidano la corsa all'intelligenza artificiale (IA). Sostiene la “democratizzazione” del potere dell'IA, assicurandosi che il “vincitore” finale della corsa all'IA in corso non diventi un colosso industriale.

Secondo Bang, parte della soluzione risiede nella priorità data al crowdsourcing di dati decentralizzato piuttosto che nel fare affidamento su grandi aziende focalizzate sui dati. Come spiega Bang nelle sue risposte scritte a Bitcoin.com News, il crowdsourcing di dati decentralizzato consente alle aziende di evitare di utilizzare data scientist interni. Invece, possono “proporre lavoro” a un pool generale di lavoratori digitali o specialisti per compiti di analisi dei dati.

Questo modello, secondo Bang, è ideale per le aziende che cercano di scalare ma mancano di risorse interne. Oltre al vantaggio commerciale, il crowdsourcing di dati decentralizzato aiuta anche a combattere la sfida del bias dei dati affrontata dai giganti tecnologici centralizzati.

Mentre i governi esprimono preoccupazioni per la sicurezza pubblica riguardo alla gestione decentralizzata dei dati, Bang tuttavia avverte contro regolamenti generali che potrebbero eventualmente soffocare l'innovazione. Invece, esorta i regolatori e i legislatori a studiare come “il sourcing di dati decentralizzato può e viene utilizzato” prima di emanare politiche.

Le ulteriori risposte di Bang affrontano la concorrenza nell'industria dell'IA e i rischi intrinseci associati all'uso dell'IA. Di seguito sono riportate le risposte del CEO di Synesis One alle domande inviate.

Isaac Bang (IB): L'IA è la tecnologia chiave che segna l'inizio della quarta rivoluzione industriale, e i suoi impatti sono molto più ampi di quanto possiamo immaginare attualmente. Alcuni attori dominanti che accumulano dati e guidano la corsa all'IA sono estremamente pericolosi in molti modi. Non solo la tecnologia IA consentirà alle aziende di diventare più produttive e massimizzare il loro profitto, ma consentirà anche ai governi di migliorare le proprie capacità militari sia fisicamente che digitalmente. Il “vincitore” della corsa all'IA sarà una forza dominante, ed è fondamentale che agiamo ora per democratizzare il potere dell'IA per il bene di tutti.

IB: Tradizionalmente, le aziende raccolgono dati dai propri utenti/clienti utilizzando il prodotto o il servizio fornito. Per utilizzare i dati raccolti per l'IA, le aziende impiegano data scientist e altri specialisti per pulire e annotare i dati. I metodi tradizionali di raccolta e preparazione dei dati sono efficienti per le grandi aziende con molti utenti e molti soldi. Tuttavia, per le aziende più piccole e di medie dimensioni, scalare le proprie necessità di dati sarà difficile.

Il crowdsourcing di dati decentralizzato è la raccolta di dati grezzi o il preprocessing dei dati attraverso una vasta rete di lavoratori digitali disposti e capaci di fornire i dati o il lavoro di preprocessing. Aziende o sviluppatori possono, senza avere utenti o data scientist interni, offrire una ricompensa per compiti di dati a un pool generale di lavoratori digitali o specialisti per eseguire lavori sui dati. Questo consente alle aziende di scalare senza dover spendere un'enorme quantità di denaro e tempo per assumere personale interno.

IB: Gli esseri umani hanno la capacità di eseguire ragionamenti logici. L'IA che utilizza il machine learning oggi utilizza computazione statistica per riconoscere schemi, senza alcun ragionamento logico. Man mano che i modelli di IA migliorano, la necessità di dati di alta qualità e di dati specifici per il settore diventa sempre più preziosa. Ad esempio, un LLM generale non è adatto per l'uso in un contesto medico. L'LLM potrebbe essere ottimizzato per un campo specifico della medicina, ma farlo richiederebbe esseri umani con conoscenze esperte in quel campo. Questo concetto non si applica solo agli LLM generali, ma a qualsiasi altra applicazione IA con casi d'uso più specifici.

IB: È semplice: più diversificato è il pool di fornitori di dati e annotatori, più diversificati e rappresentativi saranno i dati. In una rete di crowdsourcing decentralizzata, i fornitori di dati grezzi e/o annotatori di dati non provengono da una sola piattaforma, azienda, rete o gruppo. Questo riduce il bias dei dati che un'azienda centralizzata potrebbe affrontare.

IB: Uno dei casi d'uso più pratici è nell'ambito del linguaggio naturale. Le aziende di oggi sono globali e questo richiede alle aziende di essere competenti nel fornire la stessa qualità di servizi e prodotti in tutte le lingue dei mercati che servono. Tuttavia, gran parte dei migliori LLM in circolazione oggi sono principalmente basati sull'inglese. Abbiamo visto aziende fare affidamento sul crowdsourcing per diverse lingue e dialetti, non solo per le necessità dell'IA, come la localizzazione dei loro prodotti.

IB: Finché tutte le transazioni di dati sono registrate on-chain, la trasparenza dovrebbe essere sufficiente per affrontare eventuali preoccupazioni di supervisione e controllo. Se i regolatori sono realmente preoccupati per la sicurezza e la protezione pubblica, dovrebbero esserci più regolamenti per la gestione e l'uso dei dati da parte delle entità centralizzate. Invece di saltare a conclusioni per paura, i legislatori dovrebbero prima informarsi sui modi in cui il sourcing di dati decentralizzato può e viene utilizzato. Se ci sono intenzioni o usi malevoli, allora dovrebbero intervenire, invece di emettere regolamenti generali che danneggiano l'innovazione.

Technologist: Decentralized Data Crowdsourcing Is Key to Countering Big Tech's Dominance

CEO di Synesis One, Isaac Bang

IB: Al momento, non abbiamo assistito a nessun uso improprio della piattaforma. È difficile vedere realmente quali possibili rischi un uso improprio potrebbe avere a livello di sicurezza nazionale. A livello di archiviazione dei dati, Synesis può lavorare sia con soluzioni di archiviazione distribuita (ad es. IPFS, Arweave) che con soluzioni centralizzate (ad es. AWS), quindi dipende dal cliente. A livello di annotazione dei dati, tutti passano attraverso una revisione tra pari e anche le revisioni tra pari possono essere specificamente ottimizzate dal cliente per prevenire comportamenti dannosi.

IB: In Synesis, puntiamo a essere la rete di lavoratori digitali specializzati e esperti di settore più grande al mondo che assistono in qualsiasi necessità di dati IA delle aziende. Stiamo già assistendo a un aumento della domanda di conoscenze a livello esperto per l'addestramento dell'IA (ad es. fine tuning, RLHF, dati grezzi) poiché l'IA viene utilizzata per sempre più casi d'uso. Vogliamo consentire a qualsiasi azienda di qualsiasi dimensione in qualsiasi settore di poter scalare le proprie necessità di dati IA attingendo alla nostra piattaforma e rete di esperti digitali in tutto il mondo. Questo non solo aiuterà le aziende a scalare, ma porterà anche nuove opportunità alle persone di tutto il mondo di guadagnare denaro fornendo le proprie conoscenze e competenze online.

IB: Sorprendentemente, ci sono molti punti critici che le aziende mainstream non hanno risolto per i propri lavoratori. Uno è legato ai pagamenti, poiché i pagamenti transfrontalieri sono spesso costosi e lenti. L'altro principale punto critico è la mancanza di trasparenza. Questo è un enorme vantaggio per noi poiché il nostro sistema di pagamento non richiede un saldo minimo, non ha commissioni ed è istantaneo. Abbiamo integrato molti lavoratori digitali frustrati che hanno utilizzato i grandi attori nel settore dell'etichettatura dei dati web2. Man mano che integreremo sempre più lavoratori digitali di ogni estrazione e svilupperemo la rete, le nostre soluzioni diventeranno sempre più attraenti per i potenziali clienti.

IB: Uno dei maggiori rischi che i nostri utenti affrontano è la discrepanza tra le conoscenze e/o le competenze necessarie per determinate campagne. Alcune campagne di dati sono tecniche, e se un utente non si comporta bene, non sarà ben ricompensato. Tutto, inclusa la reputazione di un utente, si basa sull'accuratezza del lavoro fornito dagli utenti. Alcuni compiti richiedono competenze/conoscenze tecniche, o hanno curve di apprendimento ripide. Quindi, qualsiasi nuovo utente sulla piattaforma dovrebbe aspettarsi di dedicare del tempo ad apprendere come svolgere alcune delle campagne/compiti di dati. Stiamo continuamente aggiornando e producendo nuovi materiali educativi e di formazione per nuovi ed esistenti utenti in modo da poterli guidare a svolgere meglio il loro lavoro. Questo beneficia tutti, fintanto che l'utente/i dedicano tempo a leggere e apprendere dal materiale.