Datos inexactos, duplicados e incompletos continúan afectando a las industrias. Se aprovecha la inteligencia artificial para mitigar estos problemas, pero tiene limitaciones inherentes. Los conjuntos de datos de IA pueden contener datos mal etiquetados o irrelevantes.
Fraction AI está innovando un nuevo enfoque para el etiquetado de datos al combinar la eficiencia de los agentes de IA con las perspectivas humanas. La compañía completó recientemente una ronda de financiación pre-semilla de 6 millones de dólares co-liderada por Symbolic y Spartan, junto con inversiones estratégicas de Illia Polosukhin (Near), Sandeep Nailwal (Polygon) y otros destacados inversores ángel.
Fraction AI aborda el creciente desafío de producir datos de alta calidad. Los métodos tradicionales dependen únicamente de la IA o de los humanos. Fraction AI tiene como objetivo utilizar la comprensión humana como guía para los agentes de IA. Los fondos de la ronda se destinarán a la exploración en profundidad y a mejoras de infraestructura para escalar el enfoque híbrido de vanguardia, cuya efectividad está confirmada por la investigación.
Introduciendo Inducción Adversarial Gamificada
Los científicos de datos han demostrado que los conjuntos de datos creados usando GAP, o inducción adversarial gamificada, mejoran el rendimiento de los últimos modelos de IA. El marco GAP implica la creación colaborativa de datos de alta calidad para ajustar modelos multimodales grandes, convirtiendo la recopilación de datos en un juego atractivo. Fomenta que los jugadores proporcionen preguntas y respuestas complejas y detalladas que llenen los vacíos en el conocimiento de los modelos.
En términos simples, Fraction AI incentiva a los agentes de IA a crear datos de alta calidad a través de competencias en tiempo real. Los desarrolladores configuran y lanzan agentes utilizando instrucciones detalladas para guiar sus acciones y lograr los mejores resultados posibles, mientras que el ether se apuesta como la base económica. Los participantes reciben incentivos económicos en lo que facilita un flujo continuo de datos de entrenamiento valiosos.
Problemas actuales con la calidad de los datos
Los datos inexactos le cuestan a las organizaciones decenas de millones de dólares al año. Ejemplos banales incluyen nombres de clientes mal escritos, direcciones de clientes con errores y entradas de datos incorrectas en general. Cualquiera que sea la causa, los datos inexactos no se pueden utilizar porque causan desviaciones en cualquier análisis de datos.
Cuando se importan datos de múltiples fuentes, no es raro terminar con conjuntos duplicados. Usando el comercio minorista como ejemplo nuevamente, podrías importar listas de clientes de dos fuentes y encontrar algunas personas que compraron cosas de ambos minoristas. Los registros duplicados se convierten en un problema porque solo deseas contar cada cliente una vez.
Cuando los datos se combinan de dos sistemas diferentes, pueden surgir inconsistencias en el formato. Las inconsistencias entre sistemas pueden causar importantes problemas de calidad de datos a menos que se identifiquen y rectifiquen rápidamente.
Los datos incompletos y los datos oscuros son dos problemas adicionales. Algunos registros carecen de información clave, como números de teléfono sin códigos de área o detalles demográficos sin la edad ingresada. Los datos oscuros o escondidos son datos que se recopilan y almacenan pero no se utilizan activamente. IBM estima que el 90% de todos los datos de sensores recopilados de dispositivos IoT permanece sin usar. Muchas organizaciones ni siquiera son conscientes de este recurso desperdiciado, que representa más del 50% de los gastos de almacenamiento de datos de la organización promedio.
La comprensión humana facilita la mejora
Como herramienta educativa, GAP motiva a los humanos a desafiar las limitaciones de los modelos de IA, lo que lleva a mejoras notables en el rendimiento. Fomenta la detección de errores al encargar a los jugadores que identifiquen inexactitudes o inconsistencias en conjuntos de datos o salidas de IA. Sus diversos antecedentes pueden aportar perspectivas variadas, facilitando la identificación de sesgos que un solo equipo de desarrollo podría pasar por alto.
La gamificación fomenta el pensamiento innovador a través de desafíos o acertijos diseñados para estirar los límites de un conjunto de datos o modelo. Los jugadores pueden descubrir nuevos casos de uso, detectar salidas o entradas sesgadas y proponer alternativas más inclusivas. Esto reduce los sesgos sistémicos en los datos y modelos, creando una base más equitativa para todo tipo de aplicaciones. Además, los participantes señalarán anomalías en los datos previamente no notadas porque serán recompensados por descubrir fallas. Las recompensas por identificar fallas significativas podrían ser concebidamente más altas, reduciendo el riesgo de fallos inesperados o vulnerabilidades en aplicaciones del mundo real.
A medida que la tecnología escala, cada vez más personas pueden jugar juegos simultáneamente, permitiendo mejoras exponenciales a medida que el volumen de entradas acelera la identificación de debilidades.
El lado oscuro de la creatividad
La resolución creativa de problemas no tiene que ser para el bien público. Las recompensas serían la motivación principal para algunos usuarios, lo que llevaría a un enfoque excesivo en ellas. Llevando esto un paso más allá, no es irrazonable esperar que actores malintencionados intenten manipular el sistema, y las plataformas necesitarán implementar mecanismos para detectar y bloquear actividades dañinas. Un ejemplo es utilizar IA y modelos estadísticos para monitorear patrones de comportamiento de los usuarios, señalando anomalías que indiquen spam o patrones de presentación inusuales. Tasas de presentación inusualmente altas o patrones repetitivos de un solo usuario podrían ser señalados para su revisión.
El marco GAP podría asignar puntajes de reputación a los participantes basándose en su historial de contribuciones. Idealmente, los nuevos usuarios tendrían una influencia limitada hasta que establezcan credibilidad para reducir el riesgo de explotación inicial.
Finalmente, habrá usuarios señalando problemas al azar. Las plataformas que aprovechan GAP necesitarán involucrar a expertos humanos o IA para disuadir a los participantes de señalar datos precisos y valiosos.
Llevando la calidad de los datos a la corriente principal
Aparte de los riesgos, se alentará a los humanos a detectar datos mal etiquetados o irrelevantes en conjuntos de datos de IA, mejorando la calidad de los modelos de aprendizaje automático y IA. Más allá de la IA, las contribuciones gamificadas pueden mejorar la precisión y la integridad de conjuntos de datos accesibles públicamente y de forma gratuita, como Wikipedia u OpenStreetMap. Señalar información errónea en tiempo real llevará a repositorios más confiables.
GAP también impactará contenido dañino, sesgado o inapropiado. Plataformas como Reddit o YouTube podrían adoptarlo para identificar y eliminar dicho contenido más rápidamente.
Descargo de responsabilidad: Este artículo se proporciona únicamente con fines informativos. No se ofrece ni se pretende utilizar como asesoría legal, fiscal, de inversión, financiera u otra.