Reddit data DAO y todo lo que debe saber sobre el entrenamiento del modelo Gen AI

The Cryptonomist entrevistó a Anna Kazlauskas, directora ejecutiva y cofundadora de Vana's, Reddit Data DAO, que en la primera semana vio a 140.000 usuarios registrarse con cuentas verificadas de Reddit. Anna ahora está trabajando con desarrolladores para crear DAO de datos para otras plataformas, como LinkedIn y ChatGPT. 
Además de los DAO, tienen otros medios para que los usuarios combinen sus datos en conjuntos de datos que luego pueden usarse para el entrenamiento del modelo GenAI, como la creación de retratos o avatares.
Más allá de lo que está haciendo Vana, con Anna hablamos sobre el crecimiento del espacio de la IA descentralizada, a medida que las plataformas ayudan a las personas a utilizar y monetizar sus datos para nuevas aplicaciones. 
¿Puede proporcionarnos una descripción general de Vana y su misión en el espacio de IA descentralizada?
Vana es una plataforma de inteligencia artificial propiedad del usuario impulsada por datos de propiedad del usuario. Nuestra misión es que los usuarios sean dueños de sus datos y del valor que crean a través de modelos de IA. Existe una necesidad creciente de más datos de entrenamiento para mejorar el rendimiento del modelo de IA, ya que, en última instancia, los modelos de IA son tan buenos como sus datos. 
Por ejemplo, LLaMA 3 se entrena con alrededor de 15 billones de palabras, que es aproximadamente la cantidad de datos disponibles en la Internet pública. Las empresas ahora están tratando de adquirir más datos, a veces pagando cientos de millones de dólares por ello. Las principales plataformas tecnológicas están acaparando datos valiosos de los usuarios y creando nuevas tecnologías sin tener en cuenta los permisos de los usuarios, lo que está frenando la innovación. 
En Vana, estamos liberando datos de estos jardines amurallados poniéndolos bajo el control del usuario. Permitimos a los usuarios contribuir directamente a los modelos de IA, elegir cómo se utilizan sus datos y cómo se utiliza la IA. Creemos que realmente podemos superar a los modelos líderes si podemos acceder a los mejores datos, superando el rendimiento de modelos como GPT-6 al acceder a datos que solo están disponibles directamente de los usuarios. Vana está diseñada como una cadena de bloques de capa 1 diseñada desde cero para datos privados de propiedad del usuario. 
Reddit Data DAO registró 140.000 usuarios en su primera semana. ¿Qué cree que impulsó esta rápida adopción y qué lecciones aprendió de este lanzamiento?
Reddit Data DAO fue un éxito increíble desde la perspectiva de la adopción, con más de 140.000 usuarios registrados en la primera semana. Este nivel de adopción es inusual para las DAO: ahora es la DAO de datos más grande de la historia. 
Una de las cosas que impulsó la rápida adopción es que gran parte de la historia ya se había expuesto, a medida que los usuarios son cada vez más conscientes del valor de sus datos a través de la cobertura periodística de las ventas de datos. Darte cuenta de que Reddit está vendiendo tus datos por 200 millones de dólares o que Apple está comprando datos por 50 millones de dólares te hace mucho más consciente de su valor. 
También existe un gran apetito por productos propiedad de los usuarios integrados en web3 que vayan más allá de los productos DeFi familiares hacia una nueva frontera de propiedad. Estamos viendo esta tendencia en proyectos como Farcaster, redes DePIN y DAO de datos creados en Vana, que representan una nueva ola de productos propiedad de los usuarios.
Una lección importante fue la necesidad de requisitos de prueba de contribución. Más de un millón de personas intentaron unirse a Reddit Data DAO, pero muchas no cumplieron con los criterios de tener una cuenta de Reddit que haya existido durante un tiempo determinado y que tenga una cantidad mínima de datos. Esto resalta la importancia de contar con mecanismos que aseguren contribuciones de calidad.
Mencionaste planes para crear DAO de datos para plataformas como LinkedIn y Chat GPT. ¿Qué desafíos y oportunidades únicos ve al expandirse a estas plataformas?
Vana es una red peer to peer para datos propiedad de los usuarios, y los creadores han creado varios DAO de datos como Reddit Data DAO, LinkedIn Data DAO y ChatGPT Data DAO. 
Estas diferentes fuentes de datos son increíblemente valiosas para entrenar modelos de IA, pero actualmente están encerradas en jardines amurallados. Puede resultar complicado obtener datos de cada una de estas plataformas, pero siempre es posible gracias a la regulación de datos. 
¿Cómo capacita Vana a los usuarios para monetizar sus datos y cuáles son algunos ejemplos de cómo los usuarios se han beneficiado de esto?
Nuestro objetivo es ayudar a los usuarios a monetizar y proteger sus datos simultáneamente. Por ejemplo, con Reddit Data DAO, ahora están entrenando un modelo propiedad del usuario (principalmente enfocado en publicar mierda en esta etapa, pero es un comienzo). Los usuarios reciben un pago cada vez que se utiliza el modelo, lo que crea un incentivo económico para la propiedad conjunta del modelo. 
Y los datos de los usuarios permanecen totalmente privados: en lugar de venderlos, simplemente se “alquilan” y los datos subyacentes nunca abandonan el entorno seguro. 
Con la creciente preocupación en torno a la privacidad de los datos, ¿cómo garantiza Vana que los datos de los usuarios estén seguros y se utilicen de forma ética dentro de las DAO de datos?
La privacidad de los datos ha pasado de ser sólo una cuestión ideológica o de preferencias a una cuestión económica. Si alguien tiene sus datos, potencialmente puede crear una versión de usted con inteligencia artificial que sea económicamente valiosa, genere ingresos y potencialmente compita con usted. Por eso la privacidad es tan importante y fundamental para Vana. 
Inventamos un concepto llamado "datos sin custodia", que es similar a una billetera sin custodia pero para sus datos personales. Mantiene sus datos bajo su control total, con el permiso de su clave privada. Esto permite que sus datos sean portátiles entre aplicaciones y agrega una capa financiera nativa en la parte superior, lo que permite crear cosas como DAO de datos.
¿Cómo mejoran los conjuntos de datos creados a través de los DAO de datos de Vana el entrenamiento de modelos de IA generativa y qué ventajas ofrecen sobre los conjuntos de datos tradicionales?
Por lo general, los modelos de IA se entrenan con datos extraídos de la Internet pública, datos que están disponibles sin necesidad de iniciar sesión en ningún lugar. Pero si lo piensas desde la perspectiva de enseñarle a un niño sobre el mundo, no querrás que simplemente deambule por la Internet pública al azar. Usted querrá brindarles información de alta calidad que tal vez no esté disponible públicamente, como escritos, procesos de pensamiento o mensajes de alta calidad. La IA se entrena principalmente con datos públicos, pero realmente necesita datos privados para traspasar fronteras. Esto es lo que permiten los DAO de datos: los usuarios aportan sus datos privados para crear una IA propiedad del usuario. 
Creemos que la IA debería ser creada más como un software de código abierto, por una comunidad. Nuestro objetivo es brindar a los investigadores acceso a los mejores conjuntos de datos que actualmente se encuentran cautivos dentro de jardines amurallados para ampliar las fronteras del rendimiento de la IA.
¿Qué tendencias prevé en el espacio de la IA descentralizada durante los próximos 5 a 10 años y cómo se está posicionando Vana para liderar este panorama en evolución?
El espacio de la IA descentralizada realmente se ha acelerado durante el año pasado. Por ejemplo, en EthCC este año hubo un evento de IA descentralizada casi todos los días, en comparación con ninguno el año pasado. La gente está descubriendo cómo aplicar al espacio de la IA tecnologías soberanas que han funcionado bien para las finanzas. En Vana, creemos que la base fundamental de todo esto son los datos. Para crear IA propiedad del usuario y IA soberana, se necesitan datos propiedad del usuario, por lo que nos centramos en esa pieza de datos.
En los próximos 5 a 10 años, estoy entusiasmado con algunos hitos: 1) Un modelo de fundación propiedad de los usuarios, propiedad colectiva de 100 millones de personas. 2) Agentes de IA más autónomos que puedan ganar dinero por sí solos y garantizar que esos agentes sean realmente propiedad de los usuarios que contribuyeron a su capacitación. 
A medida que la IA desempeña un papel económico cada vez más importante, garantiza que el poder se distribuya ampliamente desde una perspectiva tanto técnica como social. 
¿Puede compartir más sobre su colaboración con los desarrolladores para crear DAO de datos? ¿Cuáles son algunos de los proyectos innovadores actualmente en proceso?
Vana es una red sin permisos, por lo que cualquiera puede crear una DAO de datos. Es una cadena de bloques de capa uno diseñada desde cero para datos privados de propiedad del usuario. Actualmente, hay más de 100 DAO de datos implementados en la red de prueba de Satori. Muchos de los creadores son los primeros participantes en el ecosistema de Bittensor y comprenden profundamente la intersección de las criptomonedas y la IA. Algunos proyectos notables incluyen Twitter Data DAO, LinkedIn Data DAO y GitHub Data DAO. También nos estamos asociando con proyectos en el espacio ZK y el espacio de herramientas DAO para hacer que los DAO de datos sean aún más fáciles de crear y administrar.
¿Qué consideraciones éticas son más apremiantes en el desarrollo de la IA descentralizada y cómo aborda Vana estas cuestiones?
Creo que una de las preguntas más importantes en la IA hoy en día es quién debería poseer los modelos y decidir qué datos se incluyen en ellos. A medida que comenzamos a depender cada vez más de la IA para obtener información, se convierten en nuestra fuente de verdad. Quien decida qué se incluye en la IA, esencialmente está decidiendo la verdad. Da miedo tener una sola entidad controlando esto. Nuestra opinión en Vana es que la comunidad, no una sola empresa, debería tomar estas decisiones.
Otra pregunta que surge en la IA descentralizada es: si la IA está completamente descentralizada, ¿qué pasa si se vuelve deshonesta y no hay un botón de apagado? La forma en que abordamos esto en Vana es que los modelos de IA son, en última instancia, propiedad de los usuarios que han contribuido a ellos, por lo que siempre tienen el control total. 
¿Qué consejo le daría a los aspirantes a emprendedores que buscan ingresar al espacio de la IA descentralizada, según sus experiencias con Vana y Data DAO?
Es un buen momento para empezar a construir en el espacio de la IA descentralizada. Hay muchas oportunidades para aplicar algunas de las primitivas criptoeconómicas que han funcionado bien para DeFi a la nueva categoría emergente de datos descentralizados e inteligencia artificial. También recomendaría dedicar algo de tiempo a sumergirse en el espacio de la IA de código abierto y no criptográfico para conocer algunos de los enfoques que la gente está adoptando fuera del contexto criptográfico. Me sumergiría en algunos de los proyectos existentes para ver qué tipo de primitivas están disponibles para construir, incluida la prueba de iniciar un DAO de datos en Vana. 
Explora más de este creador

Lo más reciente

Explora más de este creador

Lo más reciente

Artículos populares