Dati inaccurati, duplicati e incompleti continuano a affliggere le industrie. L'intelligenza artificiale è utilizzata per mitigare questi problemi, ma ha limitazioni intrinseche. I dataset IA possono contenere dati etichettati in modo errato o irrilevanti.

Fraction AI sta aprendo una nuova strada per l'etichettatura dei dati combinando l'efficienza degli agenti IA con intuizioni umane. L'azienda ha recentemente completato un round di finanziamento pre-seed da 6 milioni di dollari co-guidato da Symbolic e Spartan insieme a investimenti strategici da Illia Polosukhin (Near), Sandeep Nailwal (Polygon) e altri eccezionali investitori angel.

Fraction AI affronta la crescente sfida di produrre dati di alta qualità. I metodi tradizionali dipendono esclusivamente dall'IA o dagli esseri umani. Fraction AI mira a utilizzare la comprensione umana come guida per gli agenti IA. I fondi del round andranno verso un'esplorazione approfondita e aggiornamenti infrastrutturali per scalare l'approccio ibrido all'avanguardia, la cui efficacia è confermata dalla ricerca.

Introduzione al Prompting Avversariale Gamificato

I data scientist hanno dimostrato che i dataset creati utilizzando GAP, o il prompting avversariale gamificato, migliorano le prestazioni dei più recenti modelli di IA. Il framework GAP coinvolge il crowdsourcing di dati di alta qualità per affinare grandi modelli multimodali, trasformando la raccolta dei dati in un gioco coinvolgente. Incoraggia i giocatori a fornire domande e risposte complesse e dettagliate che colmano le lacune nella conoscenza dei modelli.

In termini semplici, Fraction AI incentiva gli agenti IA a creare dati di alta qualità attraverso competizioni in tempo reale. Gli sviluppatori impostano e lanciano agenti utilizzando istruzioni dettagliate per guidare le loro azioni e ottenere i migliori risultati possibili, mentre l'ether viene messo in stake come base economica. I partecipanti ricevono incentivi economici in ciò che facilita un flusso continuo di dati di addestramento preziosi.

Problemi attuali con la qualità dei dati

I dati inaccurati costano alle organizzazioni decine di milioni di dollari all'anno. Esempi banali includono nomi di clienti scritti male, indirizzi di clienti con errori e voci di dati errate in generale. Qualunque sia la causa, i dati inaccurati non possono essere utilizzati perché causano deviazioni in qualsiasi analisi dei dati.

Quando si importano dati da più fonti, non è raro ritrovarsi con set duplicati. Usando il retail come esempio, potresti importare liste di clienti da due fonti e trovare alcune persone che hanno acquistato cose da entrambi i rivenditori. I record duplicati diventano un problema perché vuoi contare ogni cliente solo una volta.

Quando i dati vengono combinati da due sistemi diversi, possono sorgere formattazioni inconsistenti. Le incoerenze tra i sistemi possono causare gravi problemi di qualità dei dati a meno che non vengano identificate e rettificate rapidamente.

Dati incompleti e dati oscuri sono due ulteriori problemi. Alcuni record mancano di informazioni chiave, come numeri di telefono senza prefissi o dettagli demografici senza l'età inserita. I dati oscuri o nascosti sono dati che vengono raccolti e memorizzati ma non utilizzati attivamente. IBM stima che il 90% di tutti i dati dei sensori raccolti da dispositivi IoT rimanga inutilizzato. Molte organizzazioni non sono nemmeno a conoscenza di questa risorsa sprecata, che rappresenta oltre il 50% delle spese di archiviazione dati delle organizzazioni medie.

La comprensione umana facilita il miglioramento

Come strumento educativo, GAP motiva gli esseri umani a sfidare i limiti dei modelli di intelligenza artificiale, portando a notevoli miglioramenti nelle prestazioni. Incoraggia la rilevazione degli errori incaricando i giocatori di identificare imprecisioni o incoerenze nei dataset o nei risultati dell'IA. I loro background diversi possono portare prospettive varie, rendendo più facile individuare i pregiudizi che un singolo team di sviluppo potrebbe trascurare.

La gamificazione incoraggia il pensiero innovativo attraverso sfide o enigmi progettati per estendere i limiti di un dataset o di un modello. I giocatori possono svelare nuovi casi d'uso, rilevare risultati o input distorti e proporre alternative più inclusive. Questo riduce i pregiudizi sistemici nei dati e nei modelli, creando una base più equa per tutti i tipi di applicazioni. Inoltre, i partecipanti segnaleranno anomalie nei dati precedentemente non notate perché saranno ricompensati per scoprire difetti. Le ricompense per l'identificazione di difetti significativi potrebbero concepibilmente essere più elevate, riducendo il rischio di fallimenti o vulnerabilità inaspettati nelle applicazioni del mondo reale.

Man mano che la tecnologia si espande, sempre più persone possono giocare simultaneamente, consentendo miglioramenti esponenziali poiché il volume stesso degli input accelera l'identificazione delle debolezze.

Il lato oscuro della creatività

La risoluzione creativa dei problemi non deve essere per il bene pubblico. Le ricompense sarebbero la motivazione principale per alcuni utenti, portando a un focus eccessivo su di esse. Portando questo un passo oltre, non è irragionevole aspettarsi che attori malintenzionati cerchino di truffare il sistema, e le piattaforme dovranno implementare meccanismi per rilevare e bloccare attività dannose. Un esempio è l'uso di modelli IA e statistici per monitorare i modelli di comportamento degli utenti, segnalando anomalie che indicano spam o modelli di invio insoliti. Tassi di invio insolitamente elevati o modelli ripetitivi da un singolo utente potrebbero essere segnalati per revisione.

Il framework GAP potrebbe assegnare punteggi di reputazione ai partecipanti in base alla loro storia di contributo. Idealmente, i nuovi utenti avrebbero un'influenza limitata fino a quando non stabiliscono credibilità per ridurre il rischio di sfruttamento iniziale.

Infine, ci saranno utenti che segnaleranno problemi a caso. Le piattaforme che sfruttano GAP dovranno coinvolgere esperti umani o intelligenza artificiale per dissuadere i partecipanti dal segnalare dati accurati e preziosi.

Portare la qualità dei dati nel mainstream

A parte i rischi, gli esseri umani saranno incoraggiati a individuare dati etichettati in modo errato o irrilevanti nei dataset IA, migliorando la qualità dell'apprendimento automatico e dei modelli di IA. Oltre all'IA, i contributi gamificati possono migliorare l'accuratezza e la completezza di dataset gratuiti e accessibili al pubblico come Wikipedia o OpenStreetMap. Segnalare disinformazione in tempo reale porterà a repository più affidabili.

GAP avrà anche un impatto su contenuti dannosi, distorti o inappropriati. Piattaforme come Reddit o YouTube potrebbero adottarlo per identificare e rimuovere più rapidamente tali contenuti.

Avviso: Questo articolo è fornito solo a scopo informativo. Non è offerto né inteso per essere utilizzato come consulenza legale, fiscale, d'investimento, finanziaria o di altro tipo.