Por Ed Roman, socio director de Hack VC
Compilado: 1912212.eth, Foresight News
AI+ Crypto es una de las áreas fronterizas que ha atraído mucha atención en el mercado de las criptomonedas recientemente, como el entrenamiento descentralizado de IA, GPU DePIN y modelos de IA resistentes a la censura.
Detrás de estos deslumbrantes avances, no podemos evitar preguntarnos: ¿Se trata de un avance tecnológico real o simplemente de un tema candente? Este artículo le aclarará la niebla, analizará la visión de cifrado x IA y discutirá los desafíos y oportunidades reales, y revelará cuáles son promesas vacías y cuáles son realmente factibles.
Visión n.º 1: formación descentralizada en IA
El problema con el entrenamiento de IA en cadena es que requiere comunicación y coordinación de alta velocidad entre GPU porque las redes neuronales requieren retropropagación durante el entrenamiento. Nvidia tiene dos innovaciones para ello (NVLink e InfiniBand). Estas tecnologías hacen que la comunicación de GPU sea súper rápida, pero son tecnologías solo locales que solo funcionan en clústeres de GPU (velocidades de más de 50 gigabits) ubicados dentro de un único centro de datos.
Si se introduce una red descentralizada, la velocidad se reducirá repentinamente en varios órdenes de magnitud debido al aumento de la latencia y el ancho de banda de la red. En comparación con el rendimiento que se puede obtener de la interconexión de alta velocidad de Nvidia dentro del centro de datos, esta velocidad simplemente no es posible para casos de uso de entrenamiento de IA.
Tenga en cuenta que también hay innovaciones a continuación que pueden ofrecer esperanza para el futuro:
La capacitación distribuida en InfiniBand se está llevando a cabo a escala, ya que la propia NVIDIA admite la capacitación distribuida no nativa en InfiniBand a través de la Biblioteca de comunicaciones colectivas de NVIDIA. Sin embargo, todavía se encuentra en su etapa incipiente, por lo que las métricas de adopción aún no se han determinado. El cuello de botella de la ley física a distancia todavía existe, por lo que el entrenamiento local en InfiniBand sigue siendo mucho más rápido.
Se han publicado algunas investigaciones nuevas sobre la capacitación descentralizada que requiere menos tiempo de sincronización de comunicación, lo que puede hacer que la capacitación descentralizada sea más práctica en el futuro.
La fragmentación inteligente y la programación del entrenamiento de modelos ayudan a mejorar el rendimiento. Asimismo, se pueden diseñar nuevas arquitecturas modelo específicamente para futuras infraestructuras distribuidas (Gensyn está realizando investigaciones en estas áreas).
La parte de datos de la capacitación también es un desafío. Cualquier proceso de entrenamiento de IA implica procesar grandes cantidades de datos. Normalmente, los modelos se entrenan en sistemas centralizados de almacenamiento de datos seguros con alta escalabilidad y rendimiento. Esto requiere transferir y procesar terabytes de datos, y este no es un ciclo único. Los datos suelen tener ruido y contener errores, por lo que deben limpiarse y convertirse a un formato utilizable antes de entrenar un modelo. Esta etapa implica las tareas repetitivas de estandarizar, filtrar y manejar los valores faltantes. Todos ellos enfrentan serios desafíos en un entorno descentralizado.
La parte de datos de entrenamiento también es iterativa, lo que no es compatible con Web3. OpenAI pasó por miles de iteraciones para lograr sus resultados. Los escenarios de tareas más básicos para un científico de datos en un equipo de IA incluyen definir objetivos, preparar datos, analizarlos y curarlos para extraer información importante y hacerlos adecuados para el modelado. Luego, desarrolle un modelo de aprendizaje automático para resolver el problema definido y valide su desempeño utilizando un conjunto de datos de prueba. El proceso es iterativo: si el modelo actual no funciona como se esperaba, los expertos regresan a las etapas de recopilación de datos o entrenamiento del modelo para mejorar los resultados. Imagínese que si este proceso se llevara a cabo en un entorno descentralizado, no sería fácil que los frameworks y herramientas más avanzados existentes se adaptaran en Web3.
Otro problema con el entrenamiento de modelos de IA en cadena es que este mercado es mucho menos interesante que la inferencia. Actualmente, el entrenamiento de modelos de lenguaje de IA a gran escala requiere una gran cantidad de recursos informáticos de GPU. A largo plazo, la inferencia se convertirá en el principal caso de uso de las GPU. Imagínese cuántos grandes modelos de lenguaje de IA deben entrenarse para satisfacer la demanda global. ¿Cuál es mayor en comparación con la cantidad de clientes que utilizan estos modelos?
Supuesto n.º 2: utilizar cálculos de inferencia de IA demasiado redundantes para llegar a un consenso
Otro desafío con respecto a la criptografía y la IA es verificar la precisión de la inferencia de la IA, porque no se puede confiar plenamente en una única parte centralizada para realizar operaciones de inferencia, y existe un riesgo potencial de que los nodos se comporten de manera inapropiada. Este desafío no existe en Web2 AI porque no existe un sistema de consenso descentralizado.
La solución es la informática redundante, que permite que múltiples nodos repitan las mismas operaciones de inferencia de IA, que pueden ejecutarse en un entorno sin confianza y evitar puntos únicos de falla.
El problema con este enfoque, sin embargo, es que hay una escasez extrema de chips de IA de alta gama. Los tiempos de espera de un año para los chips NVIDIA de alta gama hacen subir los precios. Si necesita volver a ejecutar la inferencia de IA varias veces en varios nodos, se vuelve exponencialmente más costosa, lo que la hace inviable para muchos proyectos.
Supuesto #3: Casos de uso de IA específicos de Web3 a corto plazo
Se ha sugerido que Web3 debería tener sus propios casos de uso de IA exclusivos dirigidos específicamente a los clientes de Web3. Esto podría ser (por ejemplo) un protocolo Web3 que utiliza IA para calificar el riesgo de los grupos DeFi, una billetera Web3 que sugiere nuevos protocolos a los usuarios en función del historial de la billetera o un juego Web3 que usa IA para controlar personajes que no son jugadores (NPC).
Por ahora, este es un mercado incipiente (a corto plazo) donde aún se están explorando casos de uso. Algunos desafíos incluyen:
Dado que la demanda del mercado aún está en su infancia, se requieren menos acuerdos potenciales de IA para los casos de uso nativos de Web3.
Hay menos clientes, órdenes de magnitud menos clientes Web3 en comparación con clientes Web2, por lo que el mercado está menos descentralizado.
Los propios clientes son menos estables porque son empresas emergentes con menos financiación y algunas pueden desaparecer con el tiempo. Y es posible que los proveedores de servicios de IA Web3 que atienden a clientes de Web3 necesiten recuperar parte de su base de clientes para reemplazar a los que han desaparecido, lo que hace que escalar su negocio sea extremadamente desafiante.
A largo plazo, somos muy optimistas sobre los casos de uso de IA nativa de Web3, especialmente a medida que los agentes de IA se vuelven más frecuentes. Imaginamos que en el futuro cualquier usuario de Web3 tendrá una gran cantidad de agentes de IA para ayudarlo a completar sus tareas.
Visión n.º 4: GPU DePIN para el consumidor
Hay muchas redes informáticas de IA descentralizadas que dependen de GPU de consumo en lugar de centros de datos. Las GPU de consumo son ideales para tareas de inferencia de IA de gama baja o casos de uso de consumo donde la latencia, el rendimiento y la confiabilidad son flexibles. Pero para casos de uso empresarial serios (que es la mayor parte del mercado lo que importa), los clientes requieren redes de mayor confiabilidad que las máquinas domésticas y, a menudo, GPU de gama alta si tienen tareas de inferencia más complejas. Los centros de datos son más adecuados para estos casos de uso de clientes más valiosos.
Tenga en cuenta que consideramos que las GPU de consumo son adecuadas para demostraciones, así como para individuos y empresas emergentes que pueden tolerar una menor confiabilidad. Pero estos clientes son menos valiosos, por lo que creemos que los DePIN, personalizados específicamente para empresas Web2, serán más valiosos a largo plazo. Como resultado, el proyecto GPU DePIN ha evolucionado desde sus inicios con hardware principalmente de consumo hasta tener A100/H100 y disponibilidad a nivel de clúster.
Realidad: casos de uso práctico de criptomonedas x IA
Ahora analizamos casos de uso que brindan beneficios reales. Estas son las verdaderas ganancias y Crypto x AI puede agregar un valor claro.
Beneficio real n.º 1: atender a los clientes de Web2
McKinsey estima que en los 63 casos de uso analizados, la IA generativa podría agregar el equivalente a entre 2,6 y 4,4 billones de dólares en ingresos anualmente, en comparación con el PIB total del Reino Unido en 2021 de 3,1 billones de dólares. Esto aumentaría el impacto de la IA entre un 15% y un 40%. Si tenemos en cuenta el impacto de la integración de la IA generativa en el software que actualmente se utiliza para tareas distintas a los casos de uso, el impacto estimado aproximadamente se duplica.
Si se hacen los cálculos basándose en las estimaciones anteriores, esto significa que el valor total del mercado global para la IA (más allá de la IA generativa) podría ser de decenas de billones de dólares. En comparación, el valor total de todas las criptomonedas (incluido Bitcoin y todas las altcoins) hoy en día es de sólo alrededor de 2,7 billones de dólares. Entonces, seamos realistas: la gran mayoría de los clientes que necesitan IA en el corto plazo serán clientes de Web2, porque los clientes de Web3 que realmente necesitan IA solo serán una pequeña porción de estos $2,7 billones (considerando que BTC es el mercado, el propio Bitcoin). no requiere/usa IA).
Los casos de uso de Web3 AI apenas están comenzando y no está claro qué tan grande será el mercado. Pero una cosa es segura: en el futuro previsible sólo representará una pequeña porción del mercado Web2. Creemos que Web3 AI todavía tiene un futuro brillante, pero eso solo significa que la aplicación más poderosa de Web3 AI en este momento está sirviendo a los clientes de Web2.
Ejemplos hipotéticos de clientes de Web2 que podrían beneficiarse de Web3 AI incluyen:
Cree una empresa de software vertical específica centrada en la IA desde cero (por ejemplo, Cedar.ai u Observe.ai)
Grandes empresas que ajustan modelos para sus propios fines (por ejemplo, Netflix)
Proveedores de IA de rápido crecimiento (por ejemplo, Anthropic)
Empresas de software que integran la IA en productos existentes (por ejemplo, Canva)
Este es un rol de cliente relativamente estable porque los clientes suelen ser grandes y valiosos. Es poco probable que cierren pronto y representan enormes clientes potenciales para los servicios de inteligencia artificial. Los servicios de Web3 AI que prestan servicios a los clientes de Web2 se beneficiarán de esta base de clientes estable.
Pero, ¿por qué los clientes de Web2 querrían utilizar una pila de Web3? El resto de este artículo explica esta situación.
Beneficio real n.º 2: menores costos de uso de GPU con GPU DePIN
GPU DePIN agrega potencia informática de GPU infrautilizada, la más confiable de las cuales proviene de los centros de datos, y la pone a disposición para la inferencia de IA. Una analogía simple con este problema es "Airbnb en GPU".
La razón por la que estamos entusiasmados con GPU DePIN es que, como se mencionó anteriormente, hay escasez de chips NVIDIA y actualmente hay ciclos de GPU desperdiciados que podrían usarse para la inferencia de IA. Estos propietarios de hardware tienen costos hundidos y equipos actualmente subutilizados, por lo que estas GPU parciales pueden estar disponibles a un costo mucho menor que el status quo porque esto en realidad "encuentra el dinero" para el propietario del hardware.
Ejemplos incluyen:
Máquina AWS. Si tuviera que alquilar un H100 de AWS hoy, tendría que comprometerse a un contrato de arrendamiento de 1 año porque la oferta del mercado es limitada. Esto genera desperdicio porque probablemente no usará la GPU los 7 días de la semana, los 365 días del año.
Hardware de minería de Filecoin. Filecoin tiene una gran oferta subsidiada pero no una gran demanda real. Filecoin nunca encontró una verdadera adecuación entre el producto y el mercado, por lo que los mineros de Filecoin corrían el riesgo de quebrar. Estas máquinas están equipadas con GPU que pueden reutilizarse para tareas de inferencia de IA de bajo nivel.
Hardware de minería ETH. Cuando Ethereum pasa de PoW a PoS, rápidamente se libera una gran cantidad de hardware que puede reutilizarse para la inferencia de IA.
Tenga en cuenta que no todo el hardware de GPU es adecuado para la inferencia de IA. Una razón obvia para esto es que las GPU más antiguas no tienen la cantidad de memoria GPU necesaria para los LLM, aunque ya existen algunas innovaciones interesantes que pueden ayudar en este sentido. Por ejemplo, la tecnología de Exabits puede cargar neuronas activas en la memoria de la GPU y neuronas inactivas en la memoria de la CPU. Predicen qué neuronas deben estar activas/inactivas. Esto permite que las GPU de gama baja manejen cargas de trabajo de IA, incluso con memoria de GPU limitada. Esto efectivamente hace que las GPU de gama baja sean más útiles para la inferencia de IA.
Web3 AI DePIN deberá evolucionar su producto con el tiempo y brindar servicios de nivel empresarial, como inicio de sesión único, cumplimiento de SOC 2, acuerdos de nivel de servicio (SLA) y más. Esto es similar a lo que los proveedores de servicios en la nube actuales ofrecen a los clientes de Web2.
Beneficio real n.° 3: modelos resistentes a la censura para evitar la autocensura de OpenAI
Se debate mucho sobre la censura de la IA. Turquía, por ejemplo, prohibió temporalmente OpenAI (luego cambiaron su enfoque cuando OpenAI mejoró el cumplimiento). Creemos que la censura a nivel nacional no es interesante porque los países necesitan adoptar la IA para seguir siendo competitivos.
OpenAI también realiza autocensura. Por ejemplo, OpenAI no manejará contenido NSFW. OpenAI tampoco predecirá las próximas elecciones presidenciales. Creemos que los casos de uso de la IA no solo son interesantes, sino que hay un mercado enorme, pero que OpenAI no tocará por razones políticas.
El código abierto es una gran solución porque los repositorios de Github no están influenciados por los accionistas ni por una junta directiva. Un ejemplo es Venice.ai, que promete privacidad y opera de manera resistente a la censura. Web3 AI puede llevarlo efectivamente al siguiente nivel al impulsar estos modelos de software de código abierto (OSS) en clústeres de GPU de menor costo para realizar inferencias. Es por estas razones que creemos que OSS + Web3 es la combinación ideal para allanar el camino hacia una IA resistente a la censura.
Beneficio real n.° 4: evite enviar información de identificación personal a OpenAI
Las grandes empresas tienen preocupaciones sobre la privacidad de sus datos internos. Para estos clientes, confiar en un tercero de OpenAI para que sea propietario de estos datos puede resultar complicado.
En Web3, puede parecer aún más preocupante (superficialmente) para estas empresas que sus datos internos aparezcan repentinamente en la web descentralizada. Sin embargo, existen innovaciones en tecnologías de mejora de la privacidad para la IA:
Entorno de ejecución confiable (TEE), como Super Protocol
Cifrado totalmente homomórfico (FHE) como Fhenix.io (una empresa de cartera de un fondo administrado por Hack VC) o Inco Network (ambas impulsadas por Zama.ai), así como PPML de Bagel.
Estas tecnologías aún están evolucionando y el rendimiento continúa mejorando con los próximos ASIC Zero Knowledge (ZK) y FHE. Pero el objetivo a largo plazo es proteger los datos empresariales mientras se ajusta el modelo. A medida que surjan estos protocolos, la Web3 puede convertirse en un lugar aún más atractivo para la informática de IA que preserva la privacidad.
Beneficio real n.º 5: aprovechar las últimas innovaciones en el modelo de código abierto
El software de código abierto ha estado consumiendo la cuota de mercado del software propietario durante las últimas décadas. Consideramos LLM como alguna forma de software propietario capaz de alterar el OSS. Ejemplos notables de retadores incluyen Llama, RWKV y Mistral.ai. Sin duda, esta lista crecerá con el tiempo (puede encontrar una lista más completa en Openrouter.ai). Al aprovechar Web3 AI (impulsada por modelos OSS), las personas pueden innovar con estas nuevas innovaciones.
Creemos que, con el tiempo, la fuerza laboral de desarrollo global del código abierto combinada con los incentivos de las criptomonedas puede impulsar una rápida innovación en los modelos de código abierto y los agentes y marcos construidos sobre ellos. Un ejemplo de protocolo de agente de IA es Theoriq. Theoriq aprovecha los modelos OSS para crear una red interconectada de agentes de IA componibles que se pueden ensamblar para crear soluciones de IA de nivel superior.
La razón por la que confiamos en esto es que en el pasado, la mayoría de las innovaciones del "software para desarrolladores" fueron superadas lentamente por el OSS con el tiempo. Microsoft alguna vez fue una empresa de software propietario y ahora es la empresa número uno que contribuye a Github. Hay una razón para ello, si nos fijamos en cómo Databricks, PostGresSQL, MongoDB y otros están alterando las bases de datos propietarias, ese es un ejemplo de cómo el OSS está alterando toda una industria, por lo que el precedente aquí es bastante convincente.
Sin embargo, hay un problema. Un aspecto complicado de los modelos de lenguajes grandes de código abierto (OSS LLM) es que OpenAI ha comenzado a celebrar acuerdos de licencia de datos pagos con algunas organizaciones, como Reddit y el New York Times. Si esta tendencia continúa, los modelos de lenguajes grandes de código abierto pueden volverse más difíciles de competir debido a las barreras financieras para adquirir datos. Nvidia puede aumentar aún más su inversión en informática confidencial como ayuda para compartir datos de forma segura. El tiempo revelará cómo se desarrolla esto.
Beneficio real n.º 6: consenso mediante muestreo aleatorio para reducir costes o mediante pruebas ZK
Uno de los desafíos de la inferencia de Web3 AI es la verificación. Se supone que los validadores tienen la oportunidad de engañar a sus resultados para ganar honorarios, por lo que validar las inferencias es una medida importante. Tenga en cuenta que este engaño aún no ha ocurrido, ya que la inferencia de la IA está en su infancia, pero es inevitable a menos que se tomen medidas para frenar este comportamiento.
El enfoque estándar de Web3 es hacer que varios validadores repitan la misma operación y comparen los resultados. Como se mencionó anteriormente, el desafío evidente en este problema es que la inferencia de IA es muy costosa debido a la actual escasez de chips Nvidia de alta gama. Dado que Web3 puede proporcionar inferencias de menor costo a través de GPU DePIN subutilizadas, el cálculo redundante debilitará gravemente la propuesta de valor de Web3.
Una solución más prometedora es realizar pruebas ZK para cálculos de inferencia de IA fuera de la cadena. En este caso, se pueden verificar pruebas ZK concisas para determinar si el modelo se entrenó correctamente o si la inferencia se ejecutó correctamente (llamado zkML). Los ejemplos incluyen Modulus Labs y ZKonduit. Dado que las operaciones de ZK son computacionalmente intensivas, el rendimiento de estas soluciones aún está en su infancia. Sin embargo, esperamos que la situación mejore con el lanzamiento de los ASIC de hardware de ZK en un futuro próximo.
Más prometedora es la idea de un método de razonamiento de IA basado en muestreo algo "optimista". En este modelo, sólo se verifica una pequeña fracción de los resultados producidos por el validador, pero el costo económico del corte se establece lo suficientemente alto como para que, si se detecta, exista un fuerte desincentivo económico para que los validadores hagan trampa. De esta manera se ahorran cálculos redundantes.
Otra idea prometedora son las soluciones de marcas de agua y huellas dactilares, como la propuesta por Bagel Network. Esto es similar al mecanismo mediante el cual Amazon Alexa proporciona garantía de calidad del modelo de IA en el dispositivo en sus millones de dispositivos.
Beneficio real n.º 7: ahorros con OSS (beneficios de OpenAI)
La próxima oportunidad que brinda Web3 a la IA es la democratización de costos. Hasta ahora, hemos hablado del ahorro de costos de GPU con DePIN. Pero Web3 también ofrece la oportunidad de ahorrar márgenes en servicios centralizados de IA Web2 (como OpenAI, que al momento de escribir este artículo tiene más de mil millones de dólares en ingresos anuales). Estos ahorros de costos provienen del hecho de que el uso de modelos OSS en lugar de modelos propietarios logra ahorros adicionales porque los creadores del modelo no intentan obtener ganancias.
Muchos modelos de OSS seguirán siendo completamente gratuitos, lo que resultará en la mejor economía para los clientes. Pero puede haber algunos modelos de OSS que también estén probando estos métodos de monetización. Considere que solo el 4% de todos los modelos de Hugging Face fueron capacitados por empresas con presupuesto para ayudar a subsidiar los modelos. El 96% restante de los modelos son capacitados por la comunidad. Este grupo (96% de Hugging Face) tiene costos reales básicos (incluidos costos de computación y costos de datos). Por lo tanto, será necesario monetizar estos modelos de alguna manera.
Existen varias propuestas para monetizar el modelo de software de código abierto. Uno de los más interesantes es el concepto de "emisión de modelo inicial", que consiste en tokenizar el modelo en sí, retener una parte de los tokens para el equipo y canalizar algunos ingresos futuros del modelo a los poseedores de tokens, aunque ciertamente hay algunos Barreras Legales y Regulatorias.
Otros modelos de OSS intentarán monetizar su uso. Tenga en cuenta que si esto se convierte en realidad, el modelo OSS puede empezar a parecerse cada vez más a su modelo de monetización Web2. Pero en realidad el mercado se dividirá en dos partes y algunos modelos quedarán completamente libres.
Beneficio real n.º 8: fuentes de datos descentralizadas
Uno de los mayores desafíos que enfrenta la IA es encontrar los datos adecuados para entrenar un modelo. Mencionamos anteriormente que la capacitación descentralizada en IA tiene sus desafíos. Pero ¿qué pasa con el uso de una red descentralizada para obtener los datos (que luego pueden usarse para capacitación en otros lugares, incluso en lugares tradicionales de Web2)?
Eso es exactamente lo que están haciendo empresas emergentes como Grass. Grass es una red descentralizada compuesta por "rascadores de datos" que aportan la potencia de procesamiento inactiva de las máquinas a las fuentes de datos para proporcionar información para el entrenamiento de modelos de IA. Hipotéticamente, a escala, esta fuente de datos podría superar los esfuerzos de fuentes de datos internas de cualquier empresa debido al poder de una gran red de nodos incentivados. Esto incluye no sólo obtener más datos, sino también obtenerlos con mayor frecuencia para que sean más relevantes y actualizados. De hecho, también es imposible detener las hordas de extracción de datos descentralizados porque están inherentemente descentralizados y no residen en una única dirección IP. También tienen una red que limpia y normaliza los datos para que sean útiles una vez extraídos.
Una vez que tenga los datos, también necesitará una ubicación para almacenarlos en la cadena, así como los LLM generados con esos datos.
Tenga en cuenta que el papel de los datos en Web3 AI puede cambiar en el futuro. El estado actual de los LLM hoy es entrenar previamente el modelo utilizando datos y perfeccionarlo con el tiempo con más datos. Sin embargo, dado que los datos en Internet cambian en tiempo real, estos modelos siempre están un poco desactualizados. Por lo tanto, las respuestas inferidas por LLM son levemente inexactas.
La dirección futura puede ser un nuevo paradigma: datos en "tiempo real". El concepto es que cuando a un modelo de lenguaje grande (LLM) se le hace una pregunta de inferencia, el LLM puede pasar sugerencias e inyectar datos que se vuelven a recopilar de Internet en tiempo real. De esta manera, LLM puede utilizar los datos más recientes. Grass está trabajando en esta parte.
Un agradecimiento especial a las siguientes personas por sus comentarios y ayuda con este artículo: Albert Castellana, Jasper Zhang, Vassilis Tziokas, Bidhan Roy, Rezo, Vincent Weisser, Shashank Yadav, Ali Husain, Nukri Basharuli, Emad Mostaque, David Minarsch, Tommy Shaughnessy, Michael Heinrich, Keccak Wong, Marc Weinstein, Phillip Bonello, Jeff Amico, Ejaaz Ahamadeen, Evan Feng, JW Wang.