Elon Musk ha anunciado oficialmente el inicio del entrenamiento GROK 3 en las instalaciones de supercomputadoras de Memphis, equipadas con las GPU H100 de generación actual de NVIDIA. La instalación, a la que Musk se refiere como “el grupo de entrenamiento de IA más poderoso del mundo”, comenzó a funcionar el lunes con la ayuda de 100.000 GPU H100 refrigeradas por líquido en un solo tejido RDMA.
El entrenamiento estaba programado para las 4:20 am hora local en Memphis. En su tweet posterior, Musk afirmó que la “IA más avanzada del mundo” podría desarrollarse en diciembre de este año. Musk también tuiteó sobre el logro en X y felicitó a los equipos de xAI, X y NVIDIA por su excelente trabajo.
Buen trabajo del equipo @xAI, el equipo @X, @Nvidia y las empresas de soporte para que el entrenamiento del Supercluster de Memphis comenzara a las 4:20 a. m. hora local. Con 100 000 H100 refrigerados por líquido en una sola estructura RDMA, es el clúster de entrenamiento de IA más poderoso del mundo. ¡mundo!
– Elon Musk (@elonmusk) 22 de julio de 2024
xAI cambia de estrategia y cancela el acuerdo del servidor Oracle
El anuncio se produce a raíz de la reciente cancelación de un acuerdo de servidor de 10.000 millones de dólares entre xAI y Oracle. Musk indicó que la xAI Gigafactory of Compute, que inicialmente se esperaba que estuviera operativa para el otoño de 2025, ha comenzado a operar antes de lo previsto.
xAI había subcontratado anteriormente sus chips de IA a Oracle, pero decidió desconectarse para desarrollar su propia supercomputadora avanzada. El proyecto ahora planea aprovechar el potencial de las GPU H100 de última generación, que cuestan alrededor de 30.000 dólares cada una. GROK 2 utilizó 20.000 GPU y GROK 3 necesitó cinco veces más GPU para crear un chatbot de IA más sofisticado.
Lea también: Elon Musk busca opinión pública sobre una inversión de 5 mil millones de dólares en xAI para Tesla
Esto es bastante sorprendente, especialmente porque NVIDIA acaba de anunciar el próximo lanzamiento de las GPU H200, que se basan en la arquitectura Hopper. La decisión de comenzar a entrenar con GPU H100 en lugar de esperar por la H200 o las próximas GPU B100 y B200 basadas en Blackwell. Las GPU H200, que entraron en producción en masa en el segundo trimestre, prometen importantes mejoras de rendimiento, pero el enfoque inmediato de xAI es aprovechar la infraestructura H100 existente para cumplir sus ambiciosos objetivos.
Analista cuestiona el suministro de energía para el supercúmulo de Memphis
Dylan Patel, un experto en inteligencia artificial y semiconductores, inicialmente expresó su preocupación por los problemas de energía relacionados con el funcionamiento del Supercluster de Memphis. Señaló que el suministro actual de la red de 7 megavatios sólo puede sustentar unas 4.000 GPU. Se espera que la Autoridad del Valle de Tennessee (TVA) suministre 50 MW a la instalación como acuerdo que se espera se firme el 1 de agosto. Sin embargo, la subestación que será necesaria para satisfacer toda la demanda de energía no estará terminada hasta finales de 2024.
Me inclino ante Elon, es jodidamente bueno. Se eliminó el tweet. Sí, ahora solo 8 MW de la red, 50 MW el 1 de agosto una vez que firmen el acuerdo de TVA. 200 MW al final del año, solo se necesitan 155 MW para 100 000 GPU, pero 32 000 en línea ahora y descansar en línea en el cuarto trimestre de 3 meses con 100 000 h100 los obtendrán de manera similar a la ejecución actual de GPT 5 pic.twitter.com/NQp3M5ruu8
– Dylan Patel @ ICML (@dylan522p) 23 de julio de 2024
Al analizar imágenes de satélite, Patel señaló que Musk ha empleado 14 generadores móviles VoltaGrid, que pueden producir 2,5 megavatios cada uno. En total, estos generadores producen 35 megavatios de electricidad. Además de los 8MW de la red, esto hace un total de 43MW, lo que es suficiente para alimentar alrededor de 32.000 GPU H100 con cierto límite de potencia.