Autor: Teng Yan, Cadena de Pensamiento; Traducción: Golden Finance xiaozou
Uno de mis grandes arrepentimientos que todavía me molesta es que fue sin duda la oportunidad de inversión más obvia para cualquiera que la viera, pero no puse ni un centavo en ella. No, no me refiero al próximo asesino de Solana ni a una moneda de meme de perro con un sombrero gracioso.
Pero...NVIDIA.
En sólo un año, la capitalización de mercado de NVDA se disparó de 1 billón de dólares a 3 billones de dólares, un aumento de 3 veces, superando incluso la de Bitcoin durante el mismo período.
Por supuesto, la exageración sobre la inteligencia artificial es indispensable, pero una gran parte de ella tiene una base en la realidad. NVIDIA anunció que sus ingresos para el año fiscal 2024 fueron de 60 mil millones de dólares, un aumento del 126% con respecto al año fiscal 2023, un desempeño sorprendente.
Entonces, ¿por qué me lo perdí?
Durante dos años, me he centrado en el campo del cifrado y no he mirado al mundo exterior ni he prestado atención al campo de la inteligencia artificial. Cometí un gran error que todavía hoy me persigue.
Pero no volveré a cometer el mismo error.
Hoy en día, Crypto AI se siente muy similar. Estamos al borde de una explosión de innovación. Esto se parece demasiado a la fiebre del oro de California de mediados del siglo XIX como para ignorarlo: las industrias y las ciudades surgieron de la noche a la mañana, la infraestructura se desarrolló a una velocidad vertiginosa y la riqueza fue creada por aquellos que se atrevieron a pensar y actuar.
Al igual que NVIDIA en sus inicios, Crypto AI habría sido una oportunidad obvia en retrospectiva.
En la primera parte de este artículo, explicaré por qué Crypto AI es la oportunidad más interesante para los inversores y constructores de la actualidad.
Una breve descripción general es la siguiente:
Mucha gente todavía lo considera una fantasía.
La cripto IA todavía se encuentra en sus primeras etapas y es posible que todavía falten entre 1 y 2 años para alcanzar su punto máximo.
Hay al menos más de 230 mil millones de dólares en oportunidades de crecimiento en esta área.
En esencia, Crypto AI es una IA basada en una infraestructura criptográfica. Esto significa que es más probable que siga la trayectoria de crecimiento exponencial de la inteligencia artificial que la del mercado criptográfico en general. Entonces, para no quedarse atrás, es esencial seguir las últimas investigaciones de IA en Arxiv y hablar con los fundadores que creen que están creando los próximos productos y servicios increíbles.
En la segunda parte de este artículo, profundizaré en los cuatro subcampos más prometedores de Crypto AI:
Computación descentralizada: capacitación, inferencia y el mercado de GPU
red de datos
IA verificable
Agente de IA ejecutándose en la cadena
Este artículo es la culminación de varias semanas de investigación en profundidad y conversaciones con fundadores y equipos en el espacio Crypto AI. Este artículo no aborda todas las áreas de manera exhaustiva, sino que puede considerarlo como una hoja de ruta de alto nivel diseñada para estimular su curiosidad, mejorar su nivel de investigación y guiar su pensamiento de inversión.
1. Panorama de la cripto IA
Me imagino la pila de IA descentralizada como un ecosistema con varias capas: un extremo comienza con la informática descentralizada y las redes de datos abiertos que brindan soporte para el entrenamiento del modelo de IA descentralizado.
Luego, se utiliza una combinación de criptografía, incentivos criptoeconómicos y redes de evaluación para verificar cada inferencia, tanto de entrada como de salida. Estos resultados verificados fluyen hacia agentes de inteligencia artificial que pueden ejecutarse de forma autónoma en la cadena, así como aplicaciones de inteligencia artificial para consumidores y empresas en las que los usuarios realmente pueden confiar.
La red de orquestación une todo, permitiendo una comunicación y colaboración fluidas en todo el ecosistema.
Según esta visión, cualquiera que cree inteligencia artificial puede aprovechar una o más capas de la pila, según sus necesidades específicas. Ya sea aprovechando la informática descentralizada para el entrenamiento de modelos o utilizando una red de evaluación para garantizar resultados de alta calidad, la pila ofrece una variedad de opciones.
Debido a la componibilidad inherente de blockchain, creo que naturalmente avanzaremos hacia un futuro modular. Cada capa se está volviendo altamente especializada, con protocolos optimizados para diferentes funciones en lugar de adoptar un enfoque de integración todo en uno.
Hay una gran cantidad de nuevas empresas en cada capa de la pila de IA descentralizada, la mayoría de las cuales se fundaron en los últimos 1 a 3 años. Está claro que este campo se encuentra todavía en sus primeras etapas.
Casey y su equipo mantienen el mapa de inicio de Crypto AI más completo y actualizado que he visto en topology.vc. Este es un recurso invaluable para cualquiera que siga este campo.
A medida que profundizo en el subcampo Crypto AI, sigo preguntándome: ¿Cuáles son las oportunidades? No me interesan las cosas pequeñas: busco mercados de cientos de miles de millones de dólares.
(1) Tamaño del mercado
Veamos primero el tamaño del mercado. Al evaluar un nicho, me pregunto: ¿está creando un mercado completamente nuevo o alterando uno existente?
Tomemos como ejemplo la informática descentralizada. Se trata de una categoría disruptiva cuyo potencial puede evaluarse observando el mercado de computación en la nube existente, que actualmente está valorado en aproximadamente 680 mil millones de dólares y se espera que alcance los 2,5 billones de dólares en 2032.
Los nuevos mercados sin precedentes, como los agentes de inteligencia artificial, son más difíciles de cuantificar. Sin datos históricos, su evaluación requiere conjeturas y una evaluación del problema que están resolviendo. Es importante señalar que, a veces, lo que parece un nuevo mercado es en realidad sólo un esfuerzo por encontrar una solución a un problema.
(2) Momento
El tiempo lo es todo. La tecnología tiende a mejorar y volverse menos costosa con el tiempo, pero a ritmos variables.
¿Qué tan madura es la tecnología en un segmento particular? ¿Está listo para una adopción masiva o todavía está en la fase de investigación y aún faltan varios años para que se apliquen aplicaciones prácticas? El tiempo determina si una industria merece atención inmediata o "esperar y ver".
Tomemos como ejemplo el cifrado totalmente homomórfico (FHE): su potencial es innegable, pero actualmente su desarrollo es todavía demasiado lento para ser utilizado ampliamente. Pueden pasar algunos años antes de que veamos una adopción generalizada. Al centrarme primero en áreas más cercanas a la escala, puedo dedicar mi tiempo y energía a áreas que están generando impulso y oportunidades.
Si tuviera que mapear estas categorías en un gráfico de escala versus tiempo, se vería así. Recuerde, este es un mapa conceptual, no una guía estricta. Hay muchos matices; por ejemplo, en la inferencia verificable, diferentes métodos (como zkML y opML) tienen diferentes niveles de preparación para su uso.
Dicho esto, creo que la IA será tan grande que incluso un campo que hoy parece “nicho” puede convertirse en un mercado importante.
También vale la pena señalar que el progreso tecnológico no siempre avanza en línea recta: a menudo llega a borbotones. Cuando estalle repentinamente, mi opinión sobre el momento y el tamaño del mercado cambiará.
Una vez implementado este marco, veamos cada subcampo en detalle.
2. Área 1: Computación Descentralizada
La informática descentralizada es la columna vertebral de la inteligencia artificial descentralizada.
El mercado de GPU, la formación descentralizada y la inferencia descentralizada están estrechamente vinculados.
La oferta suele provenir de centros de datos pequeños y medianos y de GPU de consumo.
La demanda es pequeña pero sigue creciendo. Hoy en día, proviene de usuarios sensibles al precio y de la latencia y de pequeñas empresas emergentes de IA.
El mayor desafío que enfrenta el mercado de GPU Web3 en este momento es lograr que funcionen correctamente.
La coordinación de GPU en una red descentralizada requiere habilidades de ingeniería avanzadas y una arquitectura de red confiable y bien diseñada.
2.1 Mercado de GPU/Red informática
Varios equipos de Crypto AI están construyendo redes descentralizadas para aprovechar la potencia informática potencial en todo el mundo en respuesta a la escasez de GPU que no pueden satisfacer la demanda.
La propuesta de valor central del mercado de GPU tiene tres aspectos:
Puede acceder a la computación a precios "90% más bajos" que AWS porque no hay intermediarios y el lado de la oferta está abierto. Básicamente, estos mercados le permiten aprovechar los costos informáticos marginales más bajos del mundo.
Mayor flexibilidad: sin contratos bloqueados, sin procesos KYC, sin tiempo de espera.
resistencia a la censura
Para resolver el problema del lado de la oferta del mercado, la potencia informática de estos mercados proviene de:
GPU de nivel empresarial (como A100, H100) para centros de datos pequeños y medianos que son difíciles de encontrar en demanda, o mineros de Bitcoin que buscan diversificación. También conozco equipos que trabajan en grandes proyectos de infraestructura financiados por el gobierno donde se han construido centros de datos como parte de planes de crecimiento tecnológico. Estos proveedores de GPU a menudo reciben incentivos para mantener su GPUT en la red, lo que les ayuda a compensar el costo amortizado de la GPU.
GPU de consumo para millones de jugadores y usuarios domésticos que conectan sus computadoras a la red a cambio de recompensas simbólicas.
Por otro lado, la demanda actual de informática descentralizada proviene de:
Usuarios sensibles al precio e insensibles a los retrasos. Este segmento prioriza el precio sobre la velocidad. Piense en investigadores que exploran nuevos campos, desarrolladores independientes de IA y otros usuarios preocupados por los costos que no requieren procesamiento en tiempo real. Debido a limitaciones presupuestarias, es posible que muchos de ellos no estén satisfechos con los servidores tradicionales de hiperescala como AWS o Azure. Debido a que están ampliamente distribuidos entre la población, el marketing dirigido es crucial para atraer a este grupo.
Las pequeñas empresas emergentes de IA enfrentan el desafío de obtener recursos informáticos flexibles y escalables sin firmar contratos a largo plazo con los principales proveedores de la nube. El desarrollo empresarial es fundamental para atraer a este segmento, ya que buscan activamente alternativas al bloqueo a hiperescala.
Las nuevas empresas de cripto IA que crean productos de inteligencia artificial descentralizados pero que no tienen su propio suministro de potencia informática necesitarán aprovechar los recursos de una de las redes.
Juegos en la nube: aunque no están impulsados directamente por la IA, los juegos en la nube exigen cada vez más recursos de GPU.
La clave para recordar es: los desarrolladores siempre priorizan el costo y la confiabilidad.
El verdadero desafío es la demanda, no la oferta.
Las empresas emergentes en este espacio a menudo señalan el tamaño de sus redes de suministro de GPU como una señal de éxito. Pero esto es engañoso; es, en el mejor de los casos, una medida de vanidad.
La verdadera limitación no es la oferta, sino la demanda. La métrica clave a seguir no es la cantidad de GPU disponibles, sino la utilización y la cantidad de GPU realmente alquiladas.
El token hace un excelente trabajo al impulsar la oferta, creando los incentivos necesarios para escalar rápidamente. Sin embargo, no resuelven esencialmente el problema de la demanda. La verdadera prueba es conseguir que el producto esté en un estado suficientemente bueno para satisfacer la demanda latente.
Haseeb Qureshi (Libélula) lo dijo bien sobre este punto:
Hacer que las redes informáticas realmente funcionen
Contrariamente a la creencia popular, el mayor obstáculo que enfrenta actualmente el mercado de GPU distribuidas web3 es lograr que funcionen correctamente.
Esta no es una pregunta trivial.
La coordinación de GPU en una red distribuida es muy compleja y presenta muchos desafíos: asignación de recursos, escalado dinámico de cargas de trabajo, equilibrio de carga entre nodos y GPU, gestión de latencia, transferencia de datos, tolerancia a fallas y manejo de hardware diverso geográficamente disperso. Podría seguir.
Lograr esto requiere una ingeniería cuidadosa y una arquitectura de red confiable y bien diseñada.
Para entender mejor, piense en Kubernetes de Google. Se considera ampliamente el estándar de oro para la orquestación de contenedores, ya que automatiza procesos como el equilibrio de carga y el escalado en entornos distribuidos, que son muy similares a los desafíos que enfrentan las redes de GPU distribuidas. El propio Kubernetes se basa en más de una década de experiencia de Google, e incluso entonces fueron necesarios años de iteración incesante para funcionar bien.
Algunos de los mercados de informática GPU que están actualmente en línea pueden manejar cargas de trabajo a pequeña escala, pero una vez que intentan escalar, surgen problemas. Sospecho que esto se debe a que sus cimientos arquitectónicos están mal diseñados.
Otro desafío/oportunidad de las redes informáticas descentralizadas es garantizar la confiabilidad: verificar que cada nodo realmente proporcione la potencia informática solicitada. Actualmente, esto depende de la reputación de la red y, en algunos casos, los proveedores de poder hash se clasifican en función de sus puntuaciones de reputación. Blockchain parece muy adecuado para un sistema de verificación sin confianza. Empresas emergentes como Gensyn y Spheron buscan resolver este problema utilizando un enfoque sin confianza.
Muchos equipos web3 todavía están lidiando con estos desafíos hoy en día, lo que significa que las puertas de las oportunidades están abiertas de par en par.
Tamaño del mercado de la informática descentralizada
¿Qué tamaño tiene el mercado de redes informáticas descentralizadas?
Hoy en día, probablemente sea sólo una pequeña parte de la industria de la computación en la nube, que oscila entre 680 mil millones y 2,5 billones de dólares. Sin embargo, a pesar de la fricción adicional para los usuarios, siempre habrá demanda siempre que el costo sea menor que el de los proveedores tradicionales.
Creo que los costos seguirán siendo bajos en el corto y mediano plazo debido a los subsidios simbólicos y al desbloqueo de suministros para usuarios insensibles al precio (por ejemplo, si puedo alquilar mi computadora portátil para juegos para ganar dinero extra, ya sea por $20 al mes o $50, Estaría feliz).
Pero el verdadero potencial de crecimiento de las redes informáticas descentralizadas (y la verdadera expansión de su TAM) surgirá cuando:
El entrenamiento descentralizado de modelos de inteligencia artificial se vuelve práctico.
La demanda de inferencia se está disparando y los centros de datos existentes no pueden satisfacerla. Esto ya está empezando a suceder. Jensen Huang dijo que la demanda de inferencia aumentará "mil millones de veces".
Se encuentran disponibles acuerdos de nivel de servicio (SLA) apropiados, lo que resuelve una barrera clave para la adopción empresarial. Actualmente, el funcionamiento de la informática descentralizada permite a los usuarios experimentar diferentes niveles de calidad del servicio (como el porcentaje de tiempo de actividad). Con los SLA, estas redes pueden proporcionar métricas de rendimiento y confiabilidad estandarizadas, lo que hace que la computación descentralizada sea una alternativa viable a los proveedores tradicionales de computación en la nube.
La informática descentralizada sin permisos es la capa fundamental del ecosistema de IA descentralizada: la infraestructura.
Aunque la cadena de suministro de GPU se está expandiendo, creo que todavía estamos en los albores de la era de la inteligencia humana. La demanda de informática será insaciable.
Es importante señalar que el punto de inflexión que puede desencadenar una recalificación de todos los mercados operativos de GPU podría llegar pronto.
Otras notas:
El mercado exclusivo de GPU está abarrotado, con una feroz competencia entre plataformas descentralizadas y el auge de los servicios en la nube emergentes de IA web2, como Vast.ai y Lambda.
Los nodos pequeños (como 4 x H100) no tienen una gran demanda debido a su uso limitado, pero buena suerte para encontrar a alguien que venda clústeres más grandes: todavía hay cierta demanda para ellos.
¿Un actor dominante agregará todos los suministros de energía hash para protocolos descentralizados o permanecerá disperso en múltiples mercados? Prefiero lo primero porque la consolidación generalmente conduce a una mayor eficiencia de la infraestructura. Pero llevará tiempo y, mientras tanto, la división y la confusión continúan.
Los desarrolladores quieren centrarse en el desarrollo de aplicaciones en lugar de ocuparse de la implementación y la configuración. Los mercados deben abstraer estas complejidades y hacer que el acceso computacional sea lo menos friccional posible.
2.2 Formación descentralizada
Si la ley de escalamiento se cumple, algún día será imposible entrenar la próxima generación de modelos de IA de vanguardia en un solo centro de datos.
Entrenar modelos de IA requiere transferir grandes cantidades de datos entre GPU. Las velocidades más bajas de transferencia de datos (interconexión) entre GPU distribuidas suelen ser el mayor obstáculo.
Los investigadores están explorando múltiples métodos simultáneamente y están logrando avances (por ejemplo, Open DiLoCo, DisTrO). Estos avances se acumularán y acelerarán el progreso en este campo.
El futuro de la capacitación descentralizada puede residir en el diseño de modelos pequeños y especializados para aplicaciones específicas, en lugar de modelos de vanguardia centrados en AGI.
Con el cambio a modelos como OpenAI o1, la demanda de inferencia se disparará, creando oportunidades para redes de inferencia descentralizadas.
Imagínese esto: un modelo masivo de inteligencia artificial que cambiará el mundo, desarrollado no en laboratorios secretos de élite sino moldeado por millones de personas comunes y corrientes. Los jugadores, cuyas GPU suelen crear explosiones tipo teatro en Call of Duty, ahora están prestando su hardware a algo mucho más grandioso: un modelo de inteligencia artificial de código abierto y de propiedad colectiva sin un guardián central.
En un futuro así, los modelos a escala básica no se limitan a los mejores laboratorios de IA.
Pero fundamentemos esta visión en la realidad actual. En la actualidad, la mayor parte del entrenamiento pesado en inteligencia artificial todavía se concentra en centros de datos centralizados, y esto puede convertirse en la norma por algún tiempo.
Empresas como OpenAI están ampliando sus clusters masivos. Elon Musk anunció recientemente que xAI está a punto de construir un centro de datos equivalente a 200.000 GPU H100.
Pero no se trata sólo de recuentos de GPU sin procesar. La utilización de FLOPS del modelo (MFU) es una métrica propuesta por Google en un artículo de investigación de PaLM de 2022 que rastrea la eficiencia con la que se utiliza la capacidad máxima de la GPU. Sorprendentemente, el MFU suele oscilar entre el 35 y el 40 %.
¿Por qué es tan bajo? Según la Ley de Moore, el rendimiento de la GPU se ha disparado repentinamente en los últimos años, pero las mejoras en la red, la memoria y el almacenamiento se han quedado muy atrás, lo que ha formado un cuello de botella. Por lo tanto, la GPU suele estar en un estado estrangulado, esperando datos.
La formación actual en IA sigue estando muy centrada en una palabra: eficiencia.
El entrenamiento de modelos grandes depende de las siguientes técnicas:
Paralelismo de datos: ejecute operaciones en paralelo en conjuntos de datos divididos en varias GPU, lo que acelera el proceso de capacitación.
Paralelismo del modelo: distribuya partes del modelo entre múltiples GPU, sin pasar por las limitaciones de memoria.
Estos métodos requieren que las GPU intercambien datos constantemente, y la velocidad de interconexión (la velocidad a la que se pueden transferir datos entre computadoras en una red) se vuelve crítica.
Cuando el costo de entrenar modelos de inteligencia artificial de vanguardia supera los mil millones de dólares, cada mejora de la eficiencia es importante.
Con interconexiones de alta velocidad, los centros de datos centralizados pueden transferir datos rápidamente entre GPU y lograr importantes ahorros de costos durante el tiempo de capacitación que las configuraciones descentralizadas no pueden igualar.
Supere las velocidades de interconexión lentas
Si habla con personas que trabajan en el campo de la inteligencia artificial, muchos le dirán que la formación descentralizada simplemente no funciona.
En una configuración descentralizada, los clústeres de GPU no coexisten físicamente, por lo que la transferencia de datos entre ellos es mucho más lenta y se convierte en un cuello de botella. El entrenamiento requiere que la GPU sincronice e intercambie datos en cada paso. Cuanto más separados estén, mayor será la latencia. Una mayor latencia significa un entrenamiento más lento y un mayor costo.
En un centro de datos centralizado puede tardar varios días, en un centro de datos descentralizado puede extenderse hasta dos semanas y el coste es mayor. Esto simplemente no es factible.
Pero eso está a punto de cambiar.
La buena noticia es que hay un aumento en el interés de la investigación en la capacitación distribuida. Los investigadores están explorando múltiples enfoques simultáneamente, como lo demuestran numerosos estudios y artículos publicados. Estos avances se acumularán y fusionarán para acelerar el progreso en el campo.
También se trata de pruebas de producción para ver hasta dónde podemos traspasar los límites.
Algunas técnicas de formación descentralizada ya pueden manejar modelos más pequeños en entornos interconectados lentos. Ahora, investigaciones de vanguardia están impulsando la aplicación de estos métodos a modelos de gran tamaño.
Por ejemplo, el artículo DiCoLo de código abierto de Prime Intellect muestra un enfoque práctico que involucra "islas" de GPU que realizan 500 pasos locales antes de la sincronización, reduciendo los requisitos de ancho de banda en un factor de 500. Lo que comenzó como una investigación de Google DeepMind sobre modelos pequeños se expandió hasta entrenar un modelo de 10 mil millones de parámetros en noviembre y ahora es completamente de código abierto.
Nous Research está elevando el listón con su marco DisTrO, que utiliza un optimizador para reducir los requisitos de comunicación entre GPU en una sorprendente cifra de 10.000 veces mientras entrena un modelo de 1,2 mil millones de parámetros.
Y el impulso continúa creciendo. En diciembre, Nous anunció el entrenamiento previo de un modelo de parámetros 15B con curvas de pérdida (cómo disminuye el error del modelo con el tiempo) y tasas de convergencia (qué tan rápido se estabiliza el rendimiento del modelo) que coinciden incluso mejor con los resultados típicos del entrenamiento centralizado. Sí, mejor que la centralización.
SWARM Parallelism y DTFMHE son otros enfoques diferentes para entrenar grandes modelos de IA en diferentes tipos de dispositivos, incluso aquellos con diferentes velocidades y niveles de conectividad.
Administrar la amplia variedad de hardware de GPU es otro desafío, incluidas las GPU de consumo con memoria limitada, típicas de las redes descentralizadas. Técnicas como el paralelismo de modelos (particionar capas de modelos entre dispositivos) pueden ayudar con esto.
El futuro de la formación descentralizada
El tamaño del modelo de los métodos de entrenamiento descentralizados actuales sigue siendo mucho menor que el de los modelos de vanguardia (según se informa, GPT-4 tiene casi un billón de parámetros, que es 100 veces mayor que el modelo 10B de Prime Intellect). Para lograr una escala real, necesitamos avances en la arquitectura del modelo, una mejor infraestructura de red y una distribución de tareas más inteligente entre dispositivos.
Podemos soñar en grande. Imagine un mundo donde la capacitación descentralizada agrega más potencia informática de GPU de la que pueden reunir incluso los centros de datos centralizados más grandes.
Pluralis Research (un equipo de élite centrado en la formación descentralizada al que vale la pena prestar atención) cree que esto no sólo es posible, sino inevitable. Si bien los centros de datos centralizados están limitados por limitaciones físicas como la disponibilidad de espacio y energía, las redes descentralizadas pueden aprovechar un conjunto verdaderamente ilimitado de recursos globales.
Incluso Jensen Huang de NVIDIA admite que la capacitación descentralizada asíncrona puede desbloquear el verdadero potencial del escalamiento de la IA. Las redes de formación distribuidas también son más tolerantes a fallos.
Por tanto, en un posible mundo futuro, los modelos de inteligencia artificial más potentes del mundo se entrenarán de forma descentralizada.
Es una perspectiva apasionante, pero todavía no estoy del todo convencido. Necesitamos pruebas más sólidas de que la capacitación descentralizada de los modelos más grandes es técnica y económicamente viable.
Veo una gran promesa en esto: lo mejor de la capacitación descentralizada puede residir en modelos pequeños y especializados de código abierto diseñados para casos de uso específicos, en lugar de competir con modelos de vanguardia muy grandes impulsados por AGI. Ciertas arquitecturas, especialmente los modelos sin transformador, han demostrado ser muy adecuadas para entornos descentralizados.
Hay otra pieza del rompecabezas: las fichas. Una vez que la capacitación descentralizada sea factible a escala, los tokens pueden desempeñar un papel clave a la hora de incentivar y recompensar a los contribuyentes, impulsando eficazmente estas redes.
El camino para hacer realidad esta visión aún es largo, pero los avances son alentadores. A medida que los modelos futuros superen la capacidad de un único centro de datos, los avances en la capacitación descentralizada beneficiarán a todos, incluso a las grandes empresas de tecnología y a los principales laboratorios de investigación de IA.
El futuro está distribuido. Cuando una tecnología tiene un potencial tan amplio, la historia demuestra que siempre funciona mejor y más rápido de lo que nadie esperaba.
2.3. Razonamiento descentralizado
Actualmente, la mayor parte de la potencia informática de la IA se centra en el entrenamiento de modelos a gran escala. Existe una competencia constante entre los principales laboratorios de inteligencia artificial para ver quién puede desarrollar los mejores modelos básicos y, en última instancia, lograr AGI.
Pero esta es mi opinión: en los próximos años, esta informática centrada en la formación pasará a la inferencia. A medida que la IA se integre cada vez más en las aplicaciones que utilizamos todos los días (desde la atención sanitaria hasta el entretenimiento), la cantidad de recursos informáticos necesarios para respaldar la inferencia será asombrosa.
Esto no es sólo una especulación. El escalamiento computacional en tiempo de inferencia es la última palabra de moda en el campo de la inteligencia artificial. OpenAI lanzó recientemente una versión preliminar/mini de su último modelo 01 (nombre en clave: Strawberry), ¿es este un gran cambio? Se necesita tiempo para pensar, primero pregúntate qué pasos debes seguir para responder a esta pregunta y luego procede paso a paso.
Este modelo está diseñado para tareas más complejas que requieren mucha planificación, como crucigramas y problemas que requieren un razonamiento más profundo. Notarás que es más lento y toma más tiempo generar respuestas, pero los resultados son más reflexivos y matizados. También es mucho más caro de ejecutar (25 veces más caro que GPT-4).
El cambio de enfoque es claro: el próximo salto en el rendimiento de la IA vendrá no sólo del entrenamiento de modelos más grandes, sino también del escalamiento de las aplicaciones computacionales durante la inferencia.
Si quieres saber más, algunos artículos de investigación muestran:
Escalar los cálculos de inferencia mediante muestreos repetidos puede generar grandes mejoras en una variedad de tareas.
También existe una ley exponencial extendida para el razonamiento.
Una vez que se entrenan modelos potentes, sus tareas de inferencia (lo que hacen los modelos) se pueden descargar a redes informáticas descentralizadas. Esto tiene sentido porque:
La inferencia requiere muchos menos recursos que la formación. Después del entrenamiento, el modelo se puede comprimir y optimizar mediante técnicas como cuantificación, poda o destilación. Incluso pueden descomponerse para ejecutarse en dispositivos de consumo cotidianos. No necesitas una GPU de alta gama para admitir la inferencia.
Esto ya sucedió. Exo Labs ha descubierto cómo ejecutar modelos Llama3 con parámetros de 450B en hardware de consumo como MacBooks y Mac Minis. Distribuya la inferencia entre múltiples dispositivos para manejar cargas de trabajo a gran escala de manera eficiente y rentable.
Mejor experiencia de usuario. Ejecutar la computación más cerca del usuario reduce la latencia, lo cual es fundamental para aplicaciones en tiempo real como juegos, AR o vehículos autónomos. Cada milisegundo cuenta.
Piense en la inferencia descentralizada como una CDN (red de entrega de contenido) para IA: en lugar de conectarse a un servidor cercano para servir un sitio web rápidamente, la inferencia descentralizada aprovecha la potencia informática local para ofrecer respuestas de IA en un tiempo récord. Al emplear la inferencia descentralizada, las aplicaciones de IA se vuelven más eficientes, receptivas y confiables.
La tendencia es clara. El nuevo chip M4 Pro de Apple compite con el RTX 3070 Ti de Nvidia, que hasta hace poco era dominio de los jugadores incondicionales. Nuestro hardware es cada vez más capaz de manejar cargas de trabajo avanzadas de IA.
El valor agregado de las criptomonedas
Para que las redes de inferencia descentralizadas tengan éxito, deben existir incentivos económicos convincentes. Los nodos de la red deben ser compensados por sus contribuciones de potencia informática. El sistema debe garantizar que las recompensas se distribuyan de manera justa y eficiente. La diversidad geográfica es necesaria para reducir la latencia en las tareas de inferencia y mejorar la tolerancia a fallos.
¿Cuál es la mejor manera de construir una red descentralizada? Cripto.
Los tokens proporcionan un mecanismo poderoso para coordinar los intereses de los participantes, asegurando que todos trabajen hacia el mismo objetivo: expandir la red y aumentar el valor de los tokens.
El token también acelera el crecimiento de la red. Ayudan a resolver el clásico problema del huevo y la gallina que ha obstaculizado el crecimiento de la mayoría de las redes al recompensar a los primeros usuarios e impulsar la participación desde el primer día.
El éxito de Bitcoin y Ethereum lo demuestra: han acumulado la mayor cantidad de potencia informática del planeta.
Las redes de inferencia descentralizadas serán las siguientes. Debido a la diversidad geográfica, reducen la latencia, aumentan la tolerancia a fallos y acercan la IA a los usuarios. Incentivados por la criptografía, escalarán más rápido y mejor que las redes tradicionales.
(Continuará, estad atentos)