Título original: "Prime Intellect: Haciendo magia para escalar el entrenamiento de IA"

Autor original: Teng Yan

Traducción original: Siweiguai

Nota del traductor: Con el valor de mercado de Nvidia superando los 3 billones de dólares a mediados de año, el arrendamiento de potencia de cómputo de GPU se ha convertido en la tendencia más candente en el campo de la IA encriptada en 2024. Sin embargo, la mayoría de los proyectos solo se quedan en la etapa de agregación de recursos de potencia de cómputo y no logran resolver el problema central del entrenamiento descentralizado de IA: el entrenamiento del modelo en clústeres de GPU distribuidos. El proyecto de vanguardia Prime Intellect está tratando de romper este cuello de botella. El investigador de criptomonedas Teng Yan escribió un artículo para explorar las soluciones innovadoras de Prime Intellect y cómo se espera que lidere el futuro del entrenamiento descentralizado de IA.

La mayor parte del mercado de GPU es mediocre, a menudo se limita a repetir la misma experiencia de producto y subsidia el costo agregando solo un token.

Pero el entrenamiento descentralizado de IA es un juego completamente nuevo con potencial transformador. Prime Intellect está construyendo una infraestructura crítica para el entrenamiento descentralizado de IA a gran escala.

He aquí por qué van más allá del proyecto DePIN promedio:

El gran plan de Prime Intellect consta de cuatro partes:

1. Integrar los recursos informáticos globales

2. Desarrollar un marco de capacitación distribuido para el desarrollo de modelos colaborativos

3. Entrenar de forma colaborativa modelos de IA de código abierto

4. Permitir la propiedad colectiva de los modelos de IA

Agregador de mercado de GPU

El 1 de julio, lanzaron la primera fase con el lanzamiento del GPU Marketplace, que integra recursos informáticos de los principales proveedores de GPU centralizados y descentralizados, incluidos Akash Network, io.net, Vast.ai, Lambda Cloud y otros. El objetivo es proporcionar a los usuarios los mejores precios de alquiler mediante la agregación de recursos de proveedores y la provisión de herramientas convenientes. Los usuarios pueden utilizar directamente la plataforma Prime Intellect sin tener que visitar Akash o io.net uno por uno para comparar precios.

Su plataforma de pruebas en línea es intuitiva y fácil de usar. Los usuarios pueden crear un clúster en minutos, sin KYC. Puede elegir dónde quiere alquilar GPU y el nivel de seguridad de la red (como nube segura o nube comunitaria), y también existe una opción de "precio más bajo".

Ofrecen una variedad de opciones de GPU, desde la H100 superior hasta las series RTX3000 y 4000. El tamaño del clúster actual está limitado a 8 GPU, y Prime Intellect está trabajando para expandirlo a 16-128.

Capacitación descentralizada a gran escala

La segunda parte de su plan (desarrollar un marco de entrenamiento de IA distribuido) es la más llamativa.

La situación actual es que el entrenamiento de modelos básicos de IA a gran escala suele requerir centros de datos autoconstruidos. Esto implica redes de alta velocidad, almacenamiento de datos personalizado, protección de la privacidad y optimización de la eficiencia, que son difíciles de lograr simplemente alquilando varias GPU. Por lo tanto, no es de extrañar que gigantes como Microsoft, Google y OpenAI dominen este campo y los actores pequeños carezcan de los recursos necesarios.

Prime Intellect permitirá el entrenamiento de modelos en múltiples clústeres de GPU distribuidos.

La formación descentralizada se enfrenta a múltiples desafíos:

· Optimizar la latencia de la comunicación y el ancho de banda entre nodos de todo el mundo

· Admitir diferentes tipos de GPU en estas redes

· Tolerancia a fallos: el proceso de entrenamiento debe poder adaptarse a los cambios en la disponibilidad de los clústeres de GPU, ya que estos clústeres pueden unirse o salir en cualquier momento.

Esto requiere traducir la investigación de vanguardia en sistemas de producción reales:

· Entrenamiento distribuido de baja comunicación (DiLoCo): un método para el entrenamiento de datos en paralelo en dispositivos mal conectados que sincroniza gradientes cada 500 pasos en lugar de cada paso.

· Prime Intellect recientemente lanzó al mercado un marco que admite el desarrollo de modelos colaborativos en GPU distribuidas globalmente, poniendo el código a disposición de cualquier persona.

· Reprodujeron el experimento DiLoCo de Google DeepMind, entrenando modelos en tres países con un uso de cómputo del 90-95 %. También ampliaron hasta tres veces la escala del trabajo original, demostrando su eficacia en un modelo de mil millones de parámetros.

Si Prime Intellect puede resolver estos problemas, afectará en gran medida el método de entrenamiento del modelo y la eficiencia en la utilización de recursos.

La última característica que Prime Intellect está desarrollando es un protocolo para recompensar a los participantes que aportan potencia informática, código y fondos, y para lograr una gobernanza colectiva de los modelos de IA. Esto se ajusta al concepto de IA descentralizada y alienta a los usuarios a participar. Se espera que puedan utilizar criptomonedas como medio de transacción y propiedad.

Mi opinión

· El mercado actual de GPU está muy homogeneizado y carece de atractivo. Aunque algunos mercados han agregado la oferta a través de incentivos de tokens, la demanda sigue siendo débil debido a los desafíos del entrenamiento descentralizado.

· El mercado global de GPU descentralizadas es altamente competitivo. (A continuación, se muestra una comparación de precios de varios proveedores de GPU:)

· Si Prime Intellect puede mejorar la eficiencia del entrenamiento de IA descentralizado, abrirá la puerta a la demanda de GPU.

· Prime Intellect cuenta con el apoyo de inversores reconocidos como Clem Delangue (cofundador y CEO de Hugging Face), Erik Voorhees (fundador y CEO de Shapeshift) y Andrew Kang (cofundador y socio de Mechanism Capital).