Autor: Li Jin, socio de Variant Fund; Traducción: Golden Finance xiaozou

Los recientes acuerdos de licencia de datos de alto perfil, como los entre OpenAI, News Corp y Reddit, han puesto de relieve la necesidad de datos de alta calidad para la inteligencia artificial (IA). Se han entrenado grandes modelos de vanguardia en la mayor parte de Internet; por ejemplo, Common Crawl indexa alrededor del 10% de las páginas web para la capacitación LLM, que contienen más de 100 billones de tokens.

Una forma de mejorar aún más los modelos de IA es ampliar y mejorar los datos que pueden utilizar para el entrenamiento. Hemos estado discutiendo mecanismos para agregar datos, específicamente de forma descentralizada. Estamos particularmente interesados ​​en explorar cómo los enfoques descentralizados pueden ayudar a generar nuevos conjuntos de datos y proporcionar recompensas financieras a los contribuyentes y creadores.

Uno de los temas de discusión en el campo del cifrado en los últimos años ha sido el concepto de datos DAO, un grupo de personas que crean, organizan y administran datos. Este tema ha sido cubierto por Multicoin y otros, pero el rápido desarrollo de la inteligencia artificial ha dado lugar a una nueva pregunta sobre los DAO de datos: "¿Por qué ahora es el momento adecuado?"

En este artículo, compartiremos nuestras opiniones sobre la DAO de datos para responder a la pregunta: ¿Cómo puede la DAO de datos acelerar el desarrollo de la inteligencia artificial?

1. Estado actual de los datos en el campo de la IA

Hoy en día, los modelos de IA se entrenan con datos públicos, ya sea a través de colaboraciones como News Corp y Reddit, o recopilando datos en la Internet abierta. Por ejemplo, Meta's Llama 3 se entrenó utilizando 15 billones de tokens de fuentes públicas. Estos métodos son eficaces para agregar rápidamente grandes cantidades de datos, pero tienen limitaciones en cuanto a qué tipo de datos recopilar y cómo recopilarlos.

En primer lugar, qué tipo de ingresos se deben recaudar: el desarrollo de la inteligencia artificial se ve obstaculizado por la calidad y cantidad de los datos. Leopold Aschenbrenner escribió una vez sobre el "muro de datos" que limita futuras mejoras de los algoritmos: "Pronto, el enfoque ingenuo de entrenar previamente modelos de lenguaje más grandes con más datos extraídos puede comenzar a encontrar serios cuellos de botella".

Una forma de derribar los muros de datos es poner a disposición nuevos conjuntos de datos. Por ejemplo, las empresas modelo no pueden extraer datos de inicio de sesión sin violar los términos de servicio de la mayoría de los sitios web y, por definición, no pueden acceder a datos que no hayan sido recopilados. Actualmente existe una gran cantidad de datos privados a los que no se puede acceder mediante la formación en IA: empresas como Google Drive y Slacks, datos personales de salud o información privada.

En segundo lugar, cómo cobrar los recibos: según el modelo actual, las empresas de recopilación de datos captan la mayor parte del valor. El S-1 de Reddit cita las licencias de datos como una importante fuente de ingresos esperada: "Esperamos que nuestra creciente ventaja en materia de datos y propiedad intelectual continúen siendo un elemento clave de la formación LLM en el futuro. Los usuarios finales que generan el contenido real no lo hacen". No recibir ningún beneficio de estas licencias. No se deriva ningún beneficio económico del protocolo o del modelo de IA en sí. Esta desalineación puede sofocar la participación: ya existen movimientos para demandar a las empresas de IA generativa o optar por no participar en conjuntos de datos de capacitación. Por no hablar del impacto socioeconómico de concentrar los ingresos en manos de empresas o plataformas modelo sin dar nada a los usuarios finales.

2. Efecto DAO de datos

Los problemas de datos anteriores tienen un hilo común: se benefician de grandes contribuciones de una muestra diversa y representativa de usuarios. El valor de cualquier punto de datos individual para el rendimiento del modelo puede ser insignificante, pero colectivamente, un gran grupo de usuarios puede agregar nuevos conjuntos de datos que son valiosos para el entrenamiento de IA. Aquí es donde entra en juego el concepto de datos DAO. Con una DAO de datos, los contribuyentes de datos pueden obtener beneficios económicos al proporcionar datos y pueden gestionar cómo se utilizan y monetizan los datos.

¿En qué aspectos pueden contribuir los datos DAO en el campo de datos actual? Aquí hay algunas ideas; tenga en cuenta que esta no es una lista exhaustiva y ciertamente existen otras oportunidades para las DAO de datos:

(1) Datos del mundo real

En el campo de la infraestructura física descentralizada (DEPIN), redes como Hivemapper tienen como objetivo recopilar datos de mapas globales actualizados de todo el mundo incentivando a los propietarios de cámaras de tablero a contribuir con sus datos e incentivando a los usuarios a contribuir a través de sus aplicaciones. (como datos sobre cierres o reparaciones de carreteras). Se puede considerar a DEPIN como una DAO de datos del mundo real, donde los conjuntos de datos se generan a partir de una red de dispositivos de hardware y/o usuarios. Estos datos tienen valor comercial para muchas empresas y los ingresos se devolverán a los contribuyentes en forma de recompensas simbólicas.

(2) Información de salud personal

El biohacking es un movimiento social en el que individuos y comunidades adoptan métodos de bricolaje para estudiar biología, a menudo realizando experimentos sobre ellos mismos. Por ejemplo, una persona podría tomar diferentes nootrópicos para mejorar el rendimiento cerebral, o probar diferentes tratamientos o cambios ambientales para mejorar el sueño, o incluso inyectarse medicamentos experimentales.

Los DAO de datos pueden aportar incentivos a estos esfuerzos de biohacking organizando a los participantes en torno a experimentos comunes y recopilando resultados sistemáticamente. Los ingresos que obtienen estos DAO de salud personal, por ejemplo de laboratorios de investigación o compañías farmacéuticas, pueden volver a los participantes que contribuyen con los resultados en forma de sus propios datos de salud personales.

(3) Utilice la retroalimentación humana para mejorar el aprendizaje.

El ajuste de los modelos de IA mediante RLHF (aprendizaje por refuerzo con retroalimentación humana) implica el uso de aportaciones humanas para mejorar el rendimiento del sistema de IA. Por lo general, se espera que los proveedores de retroalimentación sean expertos en sus respectivos campos que puedan evaluar de manera efectiva el resultado del modelo. Por ejemplo, un laboratorio podría buscar ayuda de un doctorado en matemáticas para mejorar las capacidades matemáticas de su LLM, etc. Las recompensas simbólicas pueden desempeñar un papel a la hora de encontrar y motivar a expertos a participar a través de sus ventajas especulativas, sin mencionar el acceso global que ofrece el uso de vías de pago criptográfico. Empresas como Sapien, Fraction y Sahara están trabajando en este ámbito.

(4)Datos privados

A medida que haya menos datos públicos disponibles para el entrenamiento de IA, es probable que la base de la competencia se desplace hacia conjuntos de datos propietarios, incluidos los datos privados de los usuarios. Hay una gran cantidad de datos de alta calidad que permanecen inaccesibles detrás del muro de inicio de sesión, como mensajes privados, archivos privados, etc. Estos datos no solo pueden entrenar eficazmente la IA personal, sino que también contienen información valiosa a la que no se puede acceder en la web pública.

Sin embargo, acceder y utilizar estos datos presenta importantes desafíos legales y éticos. Data DAO puede proporcionar una solución que permita a los participantes que lo deseen cargar y monetizar sus datos, y administrar cómo se utilizan los datos. Por ejemplo, Reddit Data DAO permite a los usuarios cargar sus datos de Reddit exportados desde la plataforma Reddit, que contienen comentarios, publicaciones e historial de votos, que pueden venderse o alquilarse a empresas de inteligencia artificial de manera que se preserve la privacidad. Los incentivos simbólicos permiten a los usuarios ganar no solo mediante transacciones únicas, sino también en función del valor creado por modelos de inteligencia artificial entrenados con sus datos.

3. Cuestiones abiertas y desafíos

Si bien los beneficios potenciales de las DAO de datos son enormes, también existen consideraciones y desafíos.

(1) La influencia distorsionadora de los incentivos

Una cosa que podemos ver en el historial de Crypto en el uso de incentivos simbólicos es que los incentivos externos cambiarán el comportamiento del usuario. Esto tiene implicaciones directas para aprovechar incentivos simbólicos con fines de datos: los incentivos pueden distorsionar el grupo de participantes y el tipo de datos que aportan.

La introducción de incentivos simbólicos también introduce la posibilidad de que los participantes busquen lagunas en el sistema, como enviar datos de baja calidad o fabricados para maximizar sus ganancias. Esto es importante porque las oportunidades de ingresos para estos DAO de datos dependen de la calidad de los datos. Si la contribución se desvía del objetivo, destruye el valor del conjunto de datos.

(2) Medición de datos y recompensas

La idea central de una DAO de datos es recompensar a los contribuyentes por el envío de datos a través de incentivos simbólicos, que se convertirán en los ingresos obtenidos por la DAO a largo plazo. Sin embargo, saber exactamente cuánto recompensar las distintas contribuciones de datos es un gran desafío, dada la naturaleza subjetiva del valor de los datos. En el ejemplo anterior sobre biohacking, por ejemplo: ¿Son los datos de algunos usuarios más valiosos que los de otros? En caso afirmativo, ¿cuáles son los factores determinantes? Para datos cartográficos: ¿La información cartográfica en algunas áreas es más valiosa que en otras? ¿Cómo se puede cuantificar esta diferencia? (Existen investigaciones activas sobre la medición del valor de los datos en la inteligencia artificial calculando su contribución incremental al rendimiento del modelo, pero este enfoque puede requerir un uso intensivo de computación).

Además, es fundamental establecer mecanismos sólidos para verificar la autenticidad y exactitud de los datos. Sin estas medidas, el sistema puede ser vulnerable a envíos de datos fraudulentos (como la creación de cuentas falsas) o ataques Sybil. DEPIN Network intenta resolver este problema integrándose a nivel de dispositivo de hardware, pero los DAO que dependen de otros tipos de datos aportados por el usuario pueden ser susceptibles de manipulación.

(3) Cantidad incremental de datos nuevos

La mayoría de las redes abiertas ya se utilizan con fines de capacitación, por lo que los operadores de datos DAO deben considerar si los conjuntos de datos recopilados de manera distribuida son realmente incrementales y aditivos a los datos existentes en la red abierta, y si los investigadores pueden beneficiarse de la plataforma para obtener estos datos en la red. Internet o a través de otros medios. Las ideas anteriores resaltan la importancia de recopilar nuevos datos que vayan más allá de los datos existentes, lo que lleva a las siguientes consideraciones: tamaño del impacto y oportunidades de ingresos.

(4) Evaluar las oportunidades de ingresos

En esencia, una DAO de datos está construyendo un mercado bilateral que conecta a los compradores y contribuyentes de datos. Por lo tanto, el éxito de una DAO de datos depende de su capacidad para atraer una base de clientes estable y diversa dispuesta a pagar por los datos.

Una DAO de datos necesita identificar y validar sus requisitos finales y garantizar que las oportunidades de ingresos sean lo suficientemente grandes (ya sea en función del volumen total o de cada contribuyente individual) para incentivar la cantidad y calidad de los datos necesarios. Por ejemplo, la idea de crear una DAO de datos de usuario que agregue preferencias personales y datos de navegación con fines publicitarios se ha debatido durante varios años, pero al final, los beneficios que dicha red puede transmitir a los usuarios probablemente sean mínimos. . (Como referencia, el ARPU global de Meta a finales de 2023 era de 13,12 dólares). Dado que las empresas de inteligencia artificial planean invertir billones de dólares en capacitación, los beneficios de datos brindados a cada usuario pueden ser suficientes para atraer contribuciones a gran escala, lo que aumenta el DAO de datos. una pregunta interesante: "¿Por qué ahora?"

4. Superar el muro de datos

Los DAO de datos representan un futuro potencialmente brillante para generar nuevos conjuntos de datos de alta calidad y superar los muros de datos en el campo de la inteligencia artificial. Queda por ver exactamente cómo sucederá esto, pero estamos emocionados de ver cómo se desarrolla este espacio.