Des données inexactes, dupliquées et incomplètes continuent de poser problème aux industries. L'intelligence artificielle est utilisée pour atténuer ces problèmes, mais elle a des limitations inhérentes. Les ensembles de données d'IA peuvent contenir des données mal étiquetées ou non pertinentes.

Fraction AI est à l'avant-garde d'une nouvelle approche pour l'étiquetage des données en combinant l'efficacité des agents IA avec des insights humains. La société a récemment complété un tour de financement pré-sélection de 6 millions de dollars co-dirigé par Symbolic et Spartan, avec des investissements stratégiques d'Illia Polosukhin (Near), Sandeep Nailwal (Polygon) et d'autres investisseurs providentiels remarquables.

Fraction AI s'attaque au défi croissant de la production de données de haute qualité. Les méthodes traditionnelles dépendent uniquement de l'IA ou des humains. Fraction AI vise à utiliser la compréhension humaine comme guide pour les agents IA. Les fonds du tour seront consacrés à une exploration approfondie et à des mises à niveau d'infrastructure pour évoluer vers cette approche hybride de pointe, dont l'efficacité est confirmée par la recherche.

Introduction à la sollicitation d'adversaires gamifiée

Des scientifiques des données ont démontré que les ensembles de données créés à l'aide de GAP, ou de la sollicitation d'adversaires gamifiée, améliorent les performances des derniers modèles d'IA. Le cadre GAP implique le crowdsourcing de données de haute qualité pour peaufiner de grands modèles multimodaux, transformant la collecte de données en un jeu engageant. Il encourage les joueurs à fournir des questions et des réponses complexes et détaillées qui comblent les lacunes dans les connaissances des modèles.

En termes simples, Fraction AI incite les agents IA à créer des données de haute qualité grâce à des compétitions en temps réel. Les développeurs mettent en place et lancent des agents en utilisant des instructions détaillées pour guider leurs actions et atteindre les meilleurs résultats possibles, tandis que l'ether est mis en jeu comme base économique. Les participants reçoivent des incitations économiques qui facilitent un flux continu de données d'entraînement précieuses.

Problèmes actuels de qualité des données

Des données inexactes coûtent aux organisations des dizaines de millions de dollars par an. Des exemples banals incluent des noms de clients mal orthographiés, des adresses de clients avec des erreurs, et des saisies de données incorrectes en général. Quelle que soit la cause, les données inexactes ne peuvent pas être utilisées car elles provoquent des écarts dans toute analyse de données.

Lorsque l'on importe des données de plusieurs sources, il n'est pas rare de se retrouver avec des ensembles dupliqués. En utilisant le commerce de détail comme exemple, vous pourriez importer des listes de clients de deux sources et trouver quelques personnes qui ont acheté des choses chez les deux détaillants. Les enregistrements dupliqués deviennent un problème parce que vous ne voulez compter chaque client qu'une seule fois.

Lorsque les données sont combinées à partir de deux systèmes différents, des formats inconsistants peuvent apparaître. Les incohérences entre systèmes peuvent causer de graves problèmes de qualité des données à moins qu'elles ne soient identifiées et rectifiées rapidement.

Les données incomplètes et les données sombres sont deux problèmes supplémentaires. Certains enregistrements manquent d'informations clés, comme des numéros de téléphone sans indicatifs ou des détails démographiques sans âge saisi. Les données sombres ou cachées sont des données qui sont collectées et stockées mais non activement utilisées. IBM estime que 90 % de toutes les données de capteurs collectées à partir de dispositifs IoT restent inutilisées. De nombreuses organisations ne sont même pas conscientes de cette ressource gaspillée, qui représente plus de 50 % des dépenses de stockage de données d'une organisation moyenne.

La compréhension humaine facilite l'amélioration

En tant qu'outil éducatif, GAP motive les humains à remettre en question les limites des modèles d'IA, entraînant des améliorations notables de performance. Il encourage la détection d'erreurs en chargeant les joueurs d'identifier des inexactitudes ou des incohérences dans les ensembles de données ou les sorties de l'IA. Leurs parcours divers peuvent apporter des perspectives variées, facilitant la détection des biais qu'une seule équipe de développement pourrait négliger.

La gamification encourage la pensée innovante à travers des défis ou des énigmes conçus pour étendre les limites d'un ensemble de données ou d'un modèle. Les joueurs peuvent découvrir de nouveaux cas d'utilisation, détecter des sorties ou des entrées biaisées, et proposer des alternatives plus inclusives. Cela réduit les biais systémiques dans les données et les modèles, créant une base plus équitable pour tous les types d'applications. De plus, les participants signaleront des anomalies de données précédemment non remarquées parce qu'ils seront récompensés pour avoir découvert des défauts. Les récompenses pour identifier des défauts significatifs pourraient être plus élevées, réduisant le risque d'échecs inattendus ou de vulnérabilités dans les applications réelles.

À mesure que la technologie évolue, de plus en plus de personnes peuvent jouer à des jeux simultanément, permettant des améliorations exponentielles alors que le volume d'entrées accélère l'identification des faiblesses.

Le côté obscur de la créativité

La résolution créative de problèmes ne doit pas nécessairement être au service du bien public. Les récompenses seraient la principale motivation pour certains utilisateurs, entraînant un focus excessif sur celles-ci. Poussant cela un peu plus loin, il n'est pas déraisonnable de s'attendre à ce que des acteurs malveillants essaient de manipuler le système, et les plateformes devront déployer des mécanismes pour détecter et bloquer les activités nuisibles. Un exemple est l'utilisation de l'IA et de modèles statistiques pour surveiller les comportements des utilisateurs, signalant les anomalies qui indiquent du spam ou des modèles de soumission inhabituels. Des taux de soumission anormalement élevés ou des modèles répétitifs d'un seul utilisateur pourraient être signalés pour examen.

Le cadre GAP pourrait attribuer des scores de réputation aux participants en fonction de leur historique de contributions. Idéalement, les nouveaux utilisateurs auraient une influence limitée jusqu'à ce qu'ils établissent leur crédibilité pour réduire le risque d'exploitation initiale.

Enfin, il y aura des utilisateurs qui signaleront des problèmes de manière aléatoire. Les plateformes tirant parti de GAP devront impliquer des experts humains ou de l'IA pour dissuader les participants de signaler des données précises et précieuses.

Rendre la qualité des données grand public

Mis à part les risques, les humains seront encouragés à repérer des données mal étiquetées ou non pertinentes dans les ensembles de données de l'IA, améliorant ainsi la qualité des modèles d'apprentissage automatique et d'IA. Au-delà de l'IA, les contributions gamifiées peuvent améliorer l'exactitude et l'exhaustivité des ensembles de données accessibles au public comme Wikipedia ou OpenStreetMap. Signaler des informations erronées en temps réel conduira à des dépôts plus fiables.

GAP aura également un impact sur le contenu nuisible, biaisé ou inapproprié. Des plateformes comme Reddit ou YouTube pourraient l'adopter pour identifier et supprimer ce type de contenu plus rapidement.

Avertissement : Cet article est fourni à titre d'information uniquement. Il n'est pas proposé ou destiné à être utilisé comme conseil légal, fiscal, d'investissement, financier ou autre.