Elon Musk đã chính thức tuyên bố bắt đầu đào tạo GROK 3 tại cơ sở siêu máy tính Memphis, được trang bị GPU H100 thế hệ hiện tại của NVIDIA. Cơ sở mà Musk gọi là “cụm đào tạo AI mạnh mẽ nhất trên thế giới” đã bắt đầu hoạt động vào thứ Hai với sự hỗ trợ của 100.000 GPU H100 làm mát bằng chất lỏng trên một kết cấu RDMA duy nhất.

Buổi huấn luyện dự kiến ​​diễn ra vào lúc 4h20 sáng giờ địa phương ở Memphis. Trong dòng tweet tiếp theo của mình, Musk tuyên bố rằng “AI tiên tiến nhất thế giới” có thể được phát triển vào tháng 12 năm nay. Musk cũng đã tweet về thành tích của X và chúc mừng các nhóm từ xAI, X và NVIDIA vì công việc xuất sắc của họ. 

Nhóm @xAI, nhóm @X, @Nvidia và các công ty hỗ trợ đào tạo Memphis Supercluster đã bắt đầu lúc ~ 4:20 sáng giờ địa phương. Với 100 nghìn H100 làm mát bằng chất lỏng trên một loại vải RDMA duy nhất, đây là cụm đào tạo AI mạnh mẽ nhất trong thế giới!

– Elon Musk (@elonmusk) Ngày 22 tháng 7 năm 2024

xAI thay đổi chiến lược và hủy hợp đồng máy chủ Oracle

Thông báo này được đưa ra sau khi gần đây có sự hủy bỏ hợp đồng máy chủ trị giá 10 tỷ USD giữa xAI và Oracle. Musk chỉ ra rằng xAI Gigafactory of Computing, ban đầu dự kiến ​​​​sẽ hoạt động vào mùa thu năm 2025, đã bắt đầu hoạt động trước thời hạn.

xAI trước đó đã thuê chip AI của mình từ Oracle nhưng đã quyết định ngừng hoạt động để phát triển siêu máy tính tiên tiến của riêng mình. Dự án hiện có kế hoạch khai thác tiềm năng của GPU H100 hiện đại có giá khoảng 30.000 USD mỗi chiếc. GROK 2 đã sử dụng 20.000 GPU và GROK 3 cần số GPU gấp 5 lần để xây dựng một chatbot AI phức tạp hơn. 

Cũng đọc:Elon Musk tìm kiếm ý kiến ​​​​công chúng về khoản đầu tư xAI trị giá 5 tỷ USD cho Tesla

Điều này khá bất ngờ, đặc biệt là vì NVIDIA vừa mới công bố sắp phát hành GPU H200 dựa trên kiến ​​trúc Hopper. Quyết định bắt đầu đào tạo với GPU H100 thay vì chờ đợi H200 hoặc GPU B100 và B200 dựa trên Blackwell sắp ra mắt. GPU H200, được đưa vào sản xuất hàng loạt trong Quý 2, hứa hẹn sẽ cải thiện hiệu suất đáng kể, nhưng trọng tâm trước mắt của xAI là tận dụng cơ sở hạ tầng H100 hiện có để đáp ứng các mục tiêu đầy tham vọng của mình.

Nhà phân tích đặt câu hỏi về nguồn điện cho Memphis Supercluster

Dylan Patel, một chuyên gia về AI và chất bán dẫn, ban đầu nêu lên mối lo ngại về vấn đề năng lượng khi vận hành Siêu đám Memphis. Ông chỉ ra rằng nguồn cung cấp lưới điện 7 megawatt hiện tại chỉ có thể duy trì khoảng 4.000 GPU. Cơ quan Quản lý Thung lũng Tennessee (TVA) dự kiến ​​​​sẽ cung cấp 50MW cho cơ sở này theo một thỏa thuận dự kiến ​​​​sẽ được ký kết vào ngày 1 tháng 8. Tuy nhiên, trạm biến áp cần thiết để đáp ứng toàn bộ nhu cầu điện sẽ chỉ được hoàn thành vào cuối năm 2024. 

Tôi cúi đầu trước Elon, anh ấy thật tuyệt vời. Đã xóa dòng tweet. Hiện chỉ còn 8MW từ lưới điện, 50MW vào ngày 1 tháng 8 sau khi họ ký thỏa thuận TVA. 200MW theo EOY, chỉ cần 155MW cho GPU 100k nhưng 32k trực tuyến ngay bây giờ và nghỉ trực tuyến trong Q4.3 tháng với 100k h100 sẽ giúp chúng tương tự như chạy GPT 5 hiện tại pic.twitter.com/NQp3M5ruu8

- Dylan Patel @ ICML (@dylan522p) Ngày 23 tháng 7 năm 2024

Khi phân tích hình ảnh vệ tinh, Patel lưu ý rằng Musk đã sử dụng 14 máy phát điện di động VoltaGrid, mỗi máy có thể sản xuất 2,5 megawatt. Tổng cộng, những máy phát điện này tạo ra 35 megawatt điện. Ngoài 8MW từ lưới điện, tổng công suất này là 43MW, đủ để cung cấp năng lượng cho khoảng 32.000 GPU H100 với một số giới hạn công suất.