Nepřesná, duplicitní a neúplná data nadále sužují průmysl. Umělá inteligence je využívána k zmírnění těchto problémů, ale má inherentní omezení. AI datasety mohou obsahovat špatně označená nebo irelevantní data.
Fraction AI přichází s novým přístupem k označování dat, který kombinuje efektivitu AI agentů s lidskými poznatky. Společnost nedávno dokončila kolo předseedového financování ve výši 6 milionů dolarů, které spoluviedli Symbolic a Spartan spolu se strategickými investicemi od Illia Polosukhina (Near), Sandeepa Nailwala (Polygon) a dalších vynikajících andělských investorů.
Fraction AI se snaží čelit rostoucí výzvě produkce kvalitních dat. Tradiční metody závisí pouze na AI nebo lidech. Fraction AI si klade za cíl využít lidské porozumění jako vodítko pro AI agenty. Prostředky z kola budou použity na důkladné zkoumání a vylepšení infrastruktury pro škálování špičkového hybridního přístupu, jehož efektivitu potvrzují výzkumy.
Představujeme Gamifikované Adversariální Podněcování
Data vědci prokázali, že datasety vytvořené pomocí GAP, neboli gamifikovaného adversariálního podněcování, zlepšují výkonnost nejnovějších modelů AI. Rámec GAP zahrnuje crowdsourcing kvalitních dat pro jemné doladění velkých multimodálních modelů, přičemž sběr dat se mění na zábavnou hru. Podporuje hráče, aby poskytovali složité, jemně odstupňované otázky a odpovědi, které zaplňují mezery v znalostech modelů.
Laicky řečeno, Fraction AI motivuje AI agenty k vytváření kvalitních dat prostřednictvím soutěží v reálném čase. Vývojáři nastavují a spouštějí agenty pomocí podrobných instrukcí, které řídí jejich činnosti a dosahují co nejlepších výsledků, zatímco ether je stakován jako ekonomický základ. Účastníci získávají ekonomické pobídky, což usnadňuje nepřetržitý tok cenných tréninkových dat.
Současné problémy s kvalitou dat
Nepřesná data stojí organizace desítky milionů dolarů ročně. Banalní příklady zahrnují špatně napsaná jména zákazníků, chyby v adresách zákazníků a obecně nesprávné záznamy dat. Ať už je příčina jakákoli, nepřesná data nelze použít, protože způsobují odchylky v jakékoli analýze dat.
Když se data importují z více zdrojů, není neobvyklé skončit s duplicitními sadami. Opět, pokud použijeme maloobchod jako příklad, můžete importovat seznamy zákazníků ze dvou zdrojů a najít několik lidí, kteří nakoupili od obou maloobchodníků. Duplicitní záznamy se stávají problémem, protože chcete počítat každého zákazníka pouze jednou.
Když se data kombinují ze dvou různých systémů, může vzniknout nekonzistentní formátování. Nekonzistence mezi systémy mohou způsobit vážné problémy s kvalitou dat, pokud nejsou rychle identifikovány a opraveny.
Neúplná data a temná data jsou dva další problémy. Některé záznamy postrádají klíčové informace, jako jsou telefonní čísla bez předvolby nebo demografické údaje bez zadaného věku. Temná nebo skrytá data jsou data, která jsou shromažďována a uchovávána, ale nejsou aktivně používána. IBM odhaduje, že 90 % všech senzorových dat shromážděných z IoT zařízení zůstává nevyužito. Mnoho organizací si ani není vědomo tohoto zbytečného zdroje, který představuje více než 50 % průměrných nákladů na ukládání dat organizace.
Lidské porozumění usnadňuje zlepšení
Jako vzdělávací nástroj motivuje GAP lidi k tomu, aby zpochybňovali omezení modelů AI, což vede k významným zlepšením výkonnosti. Podporuje detekci chyb tím, že hráče úkoluje, aby identifikovali nepřesnosti nebo nesrovnalosti v datech nebo výstupech AI. Jejich rozmanité zázemí může přinést různé perspektivy, což usnadňuje odhalování předsudků, které by jediný vývojový tým mohl přehlédnout.
Gamifikace podporuje inovativní myšlení prostřednictvím výzev nebo hádanek navržených tak, aby posouvaly limity datové sady nebo modelu. Hráči mohou odhalit nové případy použití, detekovat zaujaté výstupy nebo vstupy a navrhnout inkluzivnější alternativy. To snižuje systémové předsudky v datech a modelech a vytváří spravedlivější základ pro všechny druhy aplikací. Kromě toho účastníci označí dříve nezpozorované anomálie v datech, protože budou odměněni za odhalení nedostatků. Odměny za identifikaci významných nedostatků by mohly být vyšší, což snižuje riziko neočekávaných selhání nebo zranitelností v reálných aplikacích.
Jak technologie roste, stále více lidí může hrát hry současně, což umožňuje exponenciální zlepšení, protože objem vstupu urychluje identifikaci slabin.
Temná stránka kreativity
Kreativní řešení problémů nemusí být vždy pro veřejné dobro. Odměny by byly primární motivací pro některé uživatele, což by vedlo k nadměrnému zaměření na ně. Je přirozené očekávat, že se objevují zlé činy a platformy budou muset nasadit mechanismy, které detekují a blokují škodlivé aktivity. Příkladem může být použití AI a statistických modelů k monitorování vzorců chování uživatelů, které označují anomálie naznačující spamování nebo neobvyklé vzorce předkládání. Neobvykle vysoké míry předkládání nebo opakující se vzorce od jediného uživatele by mohly být označeny k přezkoumání.
Rámec GAP by mohl přiřazovat reputační skóre účastníkům na základě jejich historie příspěvků. Ideálně by noví uživatelé měli omezený vliv, dokud si nezískají důvěryhodnost, aby se snížilo riziko počátečního zneužití.
Nakonec budou uživatelé náhodně označovat problémy. Platformy využívající GAP budou muset zapojit lidské experty nebo AI, aby odradily účastníky od označování přesných a cenných dat.
Dostat kvalitu dat do mainstreamu
I přes rizika budou lidé motivováni k odhalování špatně označených nebo irelevantních dat v AI datech, což zlepší kvalitu strojového učení a modelů AI. Kromě AI mohou gamifikované příspěvky zlepšit přesnost a úplnost volně dostupných veřejných datových sad, jako je Wikipedia nebo OpenStreetMap. Označování dezinformací v reálném čase povede k spolehlivějšímu úložišti.
GAP také ovlivní škodlivý, zaujatý nebo nevhodný obsah. Platformy jako Reddit nebo YouTube by to mohly přijmout, aby rychleji identifikovaly a odstranily takový obsah.
Upozornění: Tento článek je poskytován pouze pro informační účely. Není nabízen ani určen k tomu, aby byl použit jako právní, daňová, investiční, finanční nebo jiná rada.