イーロン・マスク氏は、NVIDIA の最新世代 H100 GPU を備えたメンフィスのスーパーコンピュータ施設で GROK 3 トレーニングを開始することを正式に発表しました。マスク氏が「世界で最も強力な AI トレーニング クラスター」と呼ぶこの施設は、単一の RDMA ファブリック上の 10 万個の液冷式 H100 GPU の支援を受けて、月曜日に稼働を開始しました。
訓練はメンフィス現地時間の午前4時20分に予定されていた。マスク氏はその後のツイートで、世界で「最も先進的なAI」は今年12月までに開発できると述べた。マスク氏はまた、Xでの成果についてもツイートし、xAI、X、NVIDIAのチームの素晴らしい仕事に祝意を表した。
@xAI チーム、@X チーム、@Nvidia およびサポート企業による素晴らしい取り組みにより、現地時間午前 4 時 20 分頃にメンフィス スーパークラスターのトレーニングが開始されました。単一の RDMA ファブリック上に 10 万台の液冷式 H100 を搭載した、世界で最も強力な AI トレーニング クラスターです。
— イーロン・マスク(@elonmusk)2024年7月22日
xAI が戦略を転換し、Oracle サーバー契約をキャンセル
この発表は、xAIとオラクルの100億ドルのサーバー契約が最近キャンセルされたことを受けて行われた。マスク氏は、当初2025年秋までに稼働開始が予定されていたxAIのギガファクトリー・オブ・コンピューティングが予定より早く稼働を開始したと示唆した。
xAI は以前、AI チップを Oracle から外注していたが、独自の高度なスーパーコンピューターを開発するために撤退することを決定した。このプロジェクトでは現在、1 基あたり約 3 万ドルの最先端の H100 GPU の潜在能力を活用することを計画している。GROK 2 では 2 万個の GPU が使用され、GROK 3 ではより高度な AI チャットボットを構築するために 5 倍の GPU が必要だった。
関連記事:イーロン・マスク、テスラへの50億ドルのxAI投資について世論調査
これは非常に驚くべきことです。特に、NVIDIA は最近、Hopper アーキテクチャに基づく H200 GPU のリリースを発表したばかりだからです。H200 や、今後登場する Blackwell ベースの B100 および B200 GPU を待つのではなく、H100 GPU でトレーニングを開始するという決定です。第 2 四半期に量産に入った H200 GPU は、大幅なパフォーマンスの向上を約束していますが、xAI の当面の焦点は、既存の H100 インフラストラクチャを活用して、その野心的な目標を達成することにあります。
アナリストがメンフィス・スーパークラスターの電力供給に疑問
AIと半導体の専門家であるディラン・パテル氏は、メンフィス・スーパークラスターの運営における電力問題に当初懸念を表明した。同氏は、現在の7メガワットの電力供給では、約4,000台のGPUしか維持できないと指摘した。テネシー川流域開発公社(TVA)は、8月1日までに締結される予定の契約に基づき、この施設に50MWを供給する予定である。しかし、電力需要を完全に満たすために必要な変電所は、2024年後半にようやく完成する予定である。
イーロンに頭が下がるよ。彼は本当に素晴らしい。ツイートを削除しました。はい、今はグリッドから 8MW しかなく、TVA 契約に署名したら 8 月 1 日に 50MW になります。年末までに 200MW、100k GPU に必要なのは 155MW だけですが、32k が現在オンライン、残りは第 4 四半期にオンラインになります。100k h100 で 3 か月で、現在の GPT 5 の実行と同等になります。pic.twitter.com/NQp3M5ruu8
— ディラン・パテル @ ICML (@dylan522p) 2024年7月23日
パテル氏は衛星画像を分析して、マスク氏が VoltaGrid モバイル発電機を 14 台導入しており、各発電機は 2.5 メガワットの電力を生成できると指摘した。これらの発電機は合計で 35 メガワットの電力を生産する。送電網からの 8 メガワットと合わせて合計 43 メガワットとなり、ある程度の電力制限を課せば H100 GPU 約 32,000 台に電力を供給するのに十分な量となる。