IOSG: Del silicio a la inteligencia, entrenamiento en inteligencia artificial y pila de tecnología de inferencia

El rápido desarrollo de la inteligencia artificial se basa en una infraestructura compleja. La pila de tecnología de IA es una arquitectura en capas compuesta de hardware y software, que es la columna vertebral de la actual revolución de la IA. Aquí, proporcionaremos un análisis en profundidad de las principales capas de la pila tecnológica e ilustraremos la contribución de cada capa al desarrollo y la implementación de la IA. Finalmente, reflexionaremos sobre la importancia de dominar estos fundamentos, especialmente al evaluar oportunidades en la intersección de las criptomonedas y la IA, como proyectos DePIN (infraestructura física descentralizada) como las redes GPU.
1. Capa de hardware: base de silicona
En el nivel más bajo está el hardware, que proporciona la potencia informática física para la IA.
CPU (Unidad Central de Procesamiento): Es el procesador básico para la informática. Se destacan en el procesamiento de tareas secuenciales y son importantes para la informática de propósito general, incluido el preprocesamiento de datos, tareas de inteligencia artificial a pequeña escala y la coordinación de otros componentes.
GPU (Unidad de procesamiento de gráficos): originalmente diseñada para la representación de gráficos, pero se ha convertido en una parte importante de la inteligencia artificial debido a su capacidad para realizar una gran cantidad de cálculos simples simultáneamente. Esta capacidad de procesamiento paralelo hace que las GPU sean ideales para entrenar modelos de aprendizaje profundo. Sin el desarrollo de las GPU, los modelos GPT modernos no serían posibles.
Aceleradores de IA: Chips diseñados específicamente para cargas de trabajo de inteligencia artificial. Están optimizados para operaciones comunes de inteligencia artificial, proporcionando alto rendimiento y eficiencia energética para tareas de entrenamiento e inferencia.
FPGA (Lógica de matriz programable): proporciona flexibilidad con su naturaleza reprogramable. Se pueden optimizar para tareas específicas de inteligencia artificial, especialmente en escenarios de inferencia donde se requiere baja latencia.
2. Software subyacente: middleware
Esta capa en la pila de tecnología de IA es fundamental porque construye el puente entre el marco de IA de alto nivel y el hardware subyacente. Tecnologías como CUDA, ROCm, OneAPI y SNPE fortalecen la conexión entre marcos de alto nivel y arquitecturas de hardware específicas para lograr la optimización del rendimiento.
Como capa de software patentada de NVIDIA, CUDA es la piedra angular del ascenso de la empresa en el mercado de hardware de IA. La posición de liderazgo de NVIDIA no solo se debe a sus ventajas de hardware, sino que también refleja el poderoso efecto de red de su software y la integración del ecosistema.
La razón por la que CUDA tiene una influencia tan grande es que está profundamente integrada en la pila de tecnología de IA y proporciona un conjunto de bibliotecas de optimización que se han convertido en el estándar de facto en este campo. Este ecosistema de software ha creado un poderoso efecto de red: los investigadores y desarrolladores de IA competentes en CUDA difundieron su uso a la academia y la industria durante el proceso de capacitación.
El círculo virtuoso resultante fortalece el liderazgo de mercado de NVIDIA, a medida que el ecosistema de herramientas y bibliotecas basadas en CUDA se vuelve cada vez más indispensable para los profesionales de la IA.
Esta simbiosis de hardware y software no solo solidifica la posición de NVIDIA a la vanguardia de la informática de IA, sino que también le otorga a la empresa un poder de fijación de precios significativo, algo poco común en el mercado de hardware, a menudo mercantilizado.
El dominio de CUDA y la relativa oscuridad de sus competidores se pueden atribuir a una serie de factores que crean importantes barreras de entrada. La ventaja de NVIDIA como pionero en la computación acelerada por GPU permite a CUDA construir un ecosistema sólido antes de que los competidores se afiancen. Aunque competidores como AMD e Intel tienen un hardware excelente, sus capas de software carecen de las bibliotecas y herramientas necesarias y no pueden integrarse perfectamente con las pilas de tecnología existentes. Aquí es donde existe una enorme brecha entre NVIDIA/CUDA y otros competidores.
3. Compilador: Traductor
TVM (Máquina virtual tensor), MLIR (Representación intermedia multicapa) y PlaidML brindan diferentes soluciones al desafío de optimizar las cargas de trabajo de IA en múltiples arquitecturas de hardware.
TVM se originó a partir de una investigación en la Universidad de Washington y rápidamente llamó la atención por su capacidad para optimizar modelos de aprendizaje profundo para una variedad de dispositivos, desde GPU de alto rendimiento hasta dispositivos periféricos con recursos limitados. Su ventaja radica en el proceso de optimización de un extremo a otro, que es particularmente eficaz en escenarios de inferencia. Abstrae completamente las diferencias subyacentes de hardware y proveedores, lo que permite que las cargas de trabajo de inferencia se ejecuten sin problemas en diferentes hardware, ya sean dispositivos NVIDIA, AMD, Intel, etc.
Sin embargo, más allá del razonamiento, la situación se vuelve más complicada. El objetivo final de la informática reemplazable por hardware para el entrenamiento de IA sigue sin resolverse. Sin embargo, hay varias iniciativas que vale la pena mencionar al respecto.
MLIR, un proyecto de Google, adopta un enfoque más básico. Al proporcionar una representación intermedia unificada para múltiples niveles de abstracción, su objetivo es simplificar toda la infraestructura del compilador para casos de uso de inferencia y entrenamiento.
PlaidML, ahora liderada por Intel, se ha posicionado como el caballo oscuro en esta carrera. Se centra en la portabilidad entre múltiples arquitecturas de hardware, incluidas aquellas que van más allá de los aceleradores de IA tradicionales, y visualiza un futuro en el que las cargas de trabajo de IA puedan ejecutarse sin problemas en una variedad de plataformas informáticas.
Si alguno de estos compiladores puede integrarse bien en la pila de tecnología, sin afectar el rendimiento del modelo y sin requerir modificaciones adicionales por parte de los desarrolladores, lo más probable es que esto amenace el foso de CUDA. Sin embargo, actualmente MLIR y PlaidML no están lo suficientemente maduros y no se han integrado bien en la pila de tecnología de inteligencia artificial, por lo que actualmente no representan una amenaza clara para la posición de liderazgo de CUDA.
4. Computación Distribuida:Coordinador
Ray y Horovod representan dos enfoques diferentes de la computación distribuida en el campo de la IA, cada uno de los cuales aborda la necesidad crítica de procesamiento escalable en aplicaciones de IA a gran escala.
Ray, desarrollado por RISELab de UC Berkeley, es un marco informático distribuido de propósito general. Destaca por su flexibilidad, lo que permite la distribución de varios tipos de cargas de trabajo más allá del aprendizaje automático. El modelo basado en actores de Ray simplifica enormemente el proceso de paralelización del código Python, lo que lo hace especialmente adecuado para el aprendizaje por refuerzo y otras tareas de inteligencia artificial que requieren flujos de trabajo complejos y diversos.
Horovod, diseñado originalmente por Uber, se centra en la implementación distribuida de aprendizaje profundo. Proporciona una solución concisa y eficiente para escalar el proceso de capacitación de aprendizaje profundo en múltiples GPU y nodos de servidor. Lo más destacado de Horovod es su facilidad de uso y la optimización del entrenamiento paralelo de datos de redes neuronales, lo que le permite integrarse perfectamente con los principales marcos de aprendizaje profundo como TensorFlow y PyTorch, lo que permite a los desarrolladores ampliar fácilmente su código de entrenamiento existente, sin necesidad para realizar modificaciones extensas del código.
5. Conclusión: desde la perspectiva de las criptomonedas
La integración con las pilas de IA existentes es crucial para el proyecto DePin, cuyo objetivo es construir sistemas informáticos distribuidos. Esta integración garantiza la compatibilidad con las herramientas y los flujos de trabajo de IA actuales, lo que reduce la barrera para la adopción.
En el espacio de las criptomonedas, la red GPU actual, que es esencialmente una plataforma de alquiler de GPU descentralizada, marca un paso inicial hacia una infraestructura de IA distribuida más compleja. Estas plataformas operan más como mercados estilo Airbnb que como nubes distribuidas. Aunque son útiles para determinadas aplicaciones, estas plataformas no son lo suficientemente potentes como para soportar una formación verdaderamente distribuida, un requisito clave para avanzar en el desarrollo de la IA a gran escala.
Los estándares de computación distribuida actuales como Ray y Horovod no están diseñados para redes distribuidas globalmente. Para una red descentralizada que realmente funcione, necesitamos desarrollar otro marco en esta capa. Algunos escépticos incluso creen que, dado que los modelos Transformer requieren comunicación intensiva y optimización de funciones globales durante el proceso de aprendizaje, son incompatibles con los métodos de entrenamiento distribuido. Los optimistas, por otro lado, están tratando de idear nuevos marcos informáticos distribuidos que funcionen bien con hardware distribuido globalmente. Yotta es una de las startups que intenta resolver este problema.
NeuroMesh va un paso más allá. Rediseña el proceso de aprendizaje automático de una manera particularmente innovadora. Al utilizar redes de codificación predictiva (PCN) para encontrar convergencia en la minimización de errores locales, en lugar de encontrar directamente la solución óptima a la función de pérdida global, NeuroMesh resuelve un cuello de botella fundamental en el entrenamiento de IA distribuida.
Este enfoque no solo permite una paralelización sin precedentes, sino que también democratiza el entrenamiento de IA al permitir entrenar modelos en hardware GPU de consumo como el RTX 4090. Específicamente, la potencia informática de la GPU 4090 es similar a la del H100, pero debido al ancho de banda insuficiente, no se utilizan por completo durante el entrenamiento del modelo. Dado que PCN reduce la importancia del ancho de banda, lo que permite aprovechar estas GPU de gama baja, esto podría generar importantes ahorros de costos y ganancias de eficiencia.
GenSyn, otra ambiciosa startup de criptointeligencia artificial, tiene como objetivo crear un conjunto de compiladores. Los compiladores de Gensyn permiten utilizar sin problemas cualquier tipo de hardware informático para cargas de trabajo de IA. Por ejemplo, lo que TVM hace para la inferencia, GenSyn está intentando crear herramientas similares para el entrenamiento de modelos.
Si tiene éxito, puede ampliar significativamente las capacidades de las redes informáticas de IA descentralizadas para manejar tareas de IA más complejas y diversas mediante el uso eficiente de diversos hardware. Esta ambiciosa visión, aunque desafiante debido a la complejidad y los altos riesgos técnicos de la optimización en diversas arquitecturas de hardware, podría ser una tecnología que, si pueden ejecutarse, superará obstáculos como el mantenimiento de un rendimiento heterogéneo del sistema, el debilitamiento de CUDA y los fosos de NVIDIA.
En cuanto al razonamiento: el enfoque de Hyperbolic, que combina un razonamiento verificable con una red descentralizada de recursos informáticos heterogéneos, encarna una estrategia relativamente pragmática. Al aprovechar los estándares de compilación como TVM, Hyperbolic puede aprovechar una amplia gama de configuraciones de hardware manteniendo el rendimiento y la confiabilidad. Puede agregar chips de múltiples proveedores (desde NVIDIA hasta AMD, Intel, etc.), incluido hardware de consumo y hardware de alto rendimiento.
Estos desarrollos en la intersección de la cripto-IA presagian un futuro en el que la informática de IA puede volverse más distribuida, eficiente y accesible. El éxito de estos proyectos dependerá no sólo de sus méritos técnicos, sino también de su capacidad para integrarse perfectamente con los flujos de trabajo de IA existentes y abordar las preocupaciones prácticas de las empresas y los profesionales de la IA.