En la era de la inteligencia artificial, la importancia de los datos es evidente. Los datos sirven como base para grandes modelos de IA, y la calidad de las fuentes de datos de entrenamiento determina las capacidades de la IA y la experiencia del usuario del producto. Los gigantes de la tecnología de Internet con grandes cantidades de datos comerciales multidimensionales tienen ventajas de escenario a través de años de acumulación de datos durante el funcionamiento de la plataforma de Internet y los escenarios de uso de los usuarios existentes de la plataforma, lo que tiene como resultado una gran cantidad de datos privados. Ventajas obvias en el entrenamiento y optimización de modelos.
Después de que se lanzan los primeros productos de IA, dependen de la retroalimentación de sus propios grupos de usuarios y de las interacciones de los productos para ajustar los modelos, lo que da como resultado un efecto de volante de datos y una optimización e iteración continuas, que se convertirá en un foso para los productos de IA en el futuro. Sin embargo, las empresas emergentes en el ámbito de la IA sufren de una cantidad y calidad insuficientes de fuentes de datos para entrenar modelos. Este tipo de barreras de datos y la formación de islas de datos obstaculizarán el desarrollo de la inteligencia artificial.
VANA: Rompiendo las islas de datos, compartiendo el valor de los datos por parte de los usuarios
En los primeros días de Internet, surgieron diversas empresas que rompían los modelos operativos tradicionales, pero a medida que la industria creció, las principales empresas de tecnología de Internet comenzaron a monopolizar el mercado, controlando las entradas de tráfico y acumulando grandes cantidades de datos de usuarios. Las plataformas líderes pueden usar estos datos de usuarios para hacer recomendaciones algorítmicas y obtener valor comercial mediante préstamos de crédito. Reddit ha obtenido 200 millones de dólares al vender contenido generado por usuarios como datos de entrenamiento para IA, pero los usuarios que generan los datos no han compartido el valor y los resultados de esos datos. La aparición de VANA romperá las islas de datos, permitiendo a los usuarios poseer y compartir el valor de los datos.
VANA es un protocolo de soberanía de datos abierto y descentralizado, como un L1 compatible con EVM, que permite a los usuarios poseer sus propios datos y compartir los ingresos generados por la inteligencia artificial a partir de sus datos personales.
VANA resuelve el problema de la fuente de datos para el entrenamiento de modelos de IA
Es bien sabido que la fuente de datos de entrenamiento de los modelos de IA de las empresas de tecnología de Internet proviene principalmente de arañas web, compras pagadas y acumulación de datos a través de sus propios negocios. La ventaja de los datos de araña es su fácil obtención, pero la calidad de los datos es baja y la limpieza es difícil; los datos comprados tienen una homogeneidad severa, debido a la competencia comercial, hay pocas fuentes de datos comerciales verdaderamente valiosas, y estos datos rara vez aportan ventajas diferenciadoras a los modelos de IA; los datos acumulados a través de escenarios comerciales tienen un alto valor, pero este enfoque no es amigable para las pequeñas y medianas empresas emergentes.
Y los datos de VANA provienen de las contribuciones de los usuarios en el ecosistema, donde los usuarios que participan en el ecosistema de VANA contribuyen datos de redes sociales como X, LinkedIn o datos de IoT, que serán almacenados de manera segura fuera de la cadena. Los datos, después de ser verificados y etiquetados, se aplican al desarrollo de modelos de IA. Los usuarios que contribuyen datos pueden obtener derechos de gobernanza en el DataDAO, decidiendo sobre el uso de los datos y compartiendo el valor generado por los datos.
Ventajas del modelo VANA
Adoptando un enfoque de gobernanza descentralizada, permitiendo a los usuarios tener la propiedad de sus datos y decidir de manera autónoma sobre el uso de esos datos;
Los usuarios pueden convertir datos en activos digitales negociables a través de VANA, utilizados para aplicaciones de inteligencia artificial descentralizada;
A través del uso de pruebas de conocimiento cero (ZKP) y entornos de ejecución confiables (TEE) para garantizar la privacidad y seguridad de los datos.
Composición de la red VANA
Los participantes de VANA incluyen principalmente a los contribuyentes de datos, validadores, apostadores, consumidores de datos y DLP (Creador de Pool de Liquidez de Datos), es decir, el DataDAO.
1. Contribuyentes de datos
Los usuarios participantes pueden elegir contribuir con sus datos a un DataDAO establecido en la red VANA, los datos enviados se almacenan fuera de la cadena y se almacena la prueba de contribución en la cadena. Tomando como ejemplo el DataDAO de ChatGPT, los usuarios envían un correo electrónico a OpenAI solicitando la exportación de datos de ChatGPT, y después de recibir una respuesta por correo electrónico, suben los datos y el enlace de descarga a gptdatadao.org.
2. DataDAO
Apostar al menos 100 dólares en VANA permite crear y registrar un DataDAO. Una vez registrado, el DataDAO aparecerá en DataHub para que los contribuyentes de datos puedan elegir. Para promover el desarrollo continuo de DataDAO, VANA proporcionará recompensas a los 16 DataDAOs mejor clasificados que apuesten VANA, siendo la recompensa por apuesta del 15% del total de tokens en los primeros tres años, con un ciclo de recompensa cada 21 días, y el desbloqueo de la apuesta requiere 7 días. La cantidad de recompensas de VANA se determina por la cantidad apostada, el tiempo de apuesta y la cantidad de recompensas que recibe el DataDAO. Un DataDAO necesita apostar al menos 10,000 VANA para tener la oportunidad de recibir recompensas. El 50% de las recompensas se asigna de forma fija a los apostadores, mientras que el uso de las recompensas restantes es decidido por el DataDAO.
Actualmente se han registrado 17 DataDAOs, que incluyen Volara, centrado en datos de Twitter/X, R/DataDAO de Reddit y DLP Labs con datos de currículos de LinkedIn, con 140,000 usuarios de Reddit que se han unido a R/DataDAO, y ya se ha entrenado el primer modelo de IA propiedad de un usuario.
3. Validadores
Los validadores son responsables de la seguridad, integridad y funcionalidad de la cadena de bloques Vana Layer 1, asegurando que las transacciones de datos sean correctamente verificadas, registradas y añadidas a la cadena de bloques, incluyendo principalmente a los Validadores de L1 y los Validadores de Satya.
Los Validadores de L1 son responsables de la seguridad y consenso de VANA. Se requiere un mínimo de 35,000 VANA para convertirse en un Validador de L1, inicialmente hay 64 Validadores de L1, y posteriormente se expandirá a 128. Cada bloque obtiene 5 VANA, y se aplicará una penalización del 10% por inactividad, con las recompensas reduciéndose un 10% cada año.
Los Validadores de Satya proporcionan un entorno de ejecución confiable (TEE) para verificar los datos contribuidos por los usuarios y garantizar la seguridad y privacidad de los datos en el proceso de verificación. De este modo, se obtienen recompensas en VANA.
4. Consumidores de datos
Los desarrolladores de modelos de IA, como consumidores de datos, seleccionan y compran acceso a conjuntos de datos que se adaptan a las necesidades de desarrollo de modelos de IA, utilizando la infraestructura de Vana para el entrenamiento de IA y análisis de datos, colaborando con DataDAO para optimizar el modelo de IA.
Tomando como ejemplo el DataDAO de ChatGPT, los usuarios suben enlaces de descarga y archivos de datos que son transmitidos de manera cifrada a los Validadores de Satya. Los Validadores de Satya descifran y calculan el chequeo para asegurar la autenticidad de los datos subidos por el usuario, asegurando que no han sido alterados.
Escenarios de aplicación y modelo económico del token VANA
1. Los validadores apuestan VANA para garantizar la seguridad de la red y verificar los datos para obtener recompensas en VANA;
2. VANA actúa como GAS para la ejecución de contratos, interacciones de DataDAO y otras operaciones en la cadena;
3. Los usuarios apuestan VANA en DataDAO para obtener recompensas por la apuesta de VANA;
4. Los consumidores de datos utilizan VANA por defecto al acceder a los datos;
5. Los poseedores de VANA participan en la gobernanza y votan sobre propuestas, siendo VANA el principal par de comercio del token emitido por DataDAO.
El suministro total de VANA está limitado a 120 millones de tokens, la distribución de tokens se muestra en la imagen a continuación.
Comunidad
Principalmente incluye recompensas por contribuciones de datos de alta calidad a DataDAO, airdrops para usuarios tempranos y desarrolladores. El TGE suministrará el 20.3% de VANA, sin período de bloqueo.
Ecosistema
Principalmente incluye tokens emitidos por DataDAO, recompensas de bloques y socios, el TGE suministrará el 4.8% de VANA, sin período de bloqueo.
Inversores
Vana ha recaudado un total de 25 millones de dólares en financiamiento, que incluye 5 millones de dólares en ronda estratégica de Coinbase Ventures, 18 millones de dólares en la ronda A de Paradigm y 2 millones de dólares en la ronda semilla de Polychain.
Contribuyentes clave
En resumen, durante el TGE, la circulación total de VANA es de 30 millones, de los cuales 4.8 millones son de Binance Launchpool.
Riesgos legales si el modelo VANA existe en China
El proyecto de datos de modelos de IA descentralizados VANA aborda el problema de los datos para el entrenamiento de modelos de IA a un costo más bajo, permitiendo a los emprendedores de modelos de IA acceder a datos de entrenamiento de alta calidad, rompiendo las islas de datos creadas por grandes empresas de Internet, haciendo posible que Tencent obtenga datos de usuarios de Alibaba para entrenar modelos de IA, lo que reduce las barreras para individuos y empresas dedicadas al emprendimiento de modelos de IA, aunque esta modalidad podría conllevar riesgos de salida de datos en China.
La Administración Nacional de Ciberespacio publicó (Guía de Solicitud de Evaluación de Seguridad para la Salida de Datos (Primera Versión)) que establece claramente que las actividades de salida de datos incluyen:
(1) Los procesadores de datos transferirán y almacenarán los datos recopilados y generados en el país en el extranjero;
(2) Los datos recopilados y generados por los procesadores de datos se almacenan en el país; las instituciones, organizaciones o individuos en el extranjero pueden consultar, recuperar, descargar y exportar;
(3) Otras actividades de salida de datos establecidas por la Administración Estatal de Ciberespacio.
(Ley de Administración de Salida y Entrada de la República Popular China) El artículo 89 estipula que la salida se refiere a salir de la parte continental de China hacia otros países o regiones, desde la parte continental de China hacia la Región Administrativa Especial de Hong Kong, la Región Administrativa Especial de Macao, o desde la parte continental de China hacia la región de Taiwán. Así, se puede ver que el juicio sobre si hay salida se basa en la jurisdicción judicial.
No hay restricciones para la creación de DataDAO ni para que los usuarios contribuyan datos; los consumidores de datos no necesitan pasar por KYC, solo necesitan pagar VANA para acceder a los datos recopilados. En este caso, la participación de usuarios nacionales en varios DataDAOs contribuyendo datos de redes sociales y currículos podría implicar la salida de datos.
Definición de información personal: según el artículo 76 de la (Ley de Ciberseguridad de la República Popular China): La información personal se refiere a toda información registrada de manera electrónica u otra manera que pueda identificar la identidad de una persona natural, ya sea de manera independiente o en combinación con otra información, incluyendo, pero no limitándose a, el nombre de la persona natural, fecha de nacimiento, número de identificación personal, información biométrica personal, dirección, número de teléfono, etc.
Los datos de currículos y de salud recopilados por DataDAO pueden incluir información personal como nombres, fechas de nacimiento, números de teléfono, y hasta información personal sensible. (Ley de Protección de Información Personal de la República Popular China) Hay restricciones establecidas para el uso y la transferencia de estos datos.