- Elon Musk Rencana AI Hitung sama dengan 50 juta H100 GPU hanya dalam lima tahun
- Target pelatihan XAI sama dengan 50 exaflops, tetapi itu tidak berarti 50 juta GPU literal
- Mencapai 50 exaflops dengan H100 akan menuntut energi yang sama dengan 35 pembangkit listrik tenaga nuklir
Elon Musk telah berbagi tonggak baru yang berani untuk XAI, yang akan menggunakan setara dengan 50 juta GPU kelas H100 pada tahun 2030.
Dibingkai sebagai ukuran kinerja pelatihan AI, klaim mengacu pada kapasitas komputasi, bukan jumlah unit literal.
Namun, bahkan dengan kemajuan berkelanjutan dalam perangkat keras AI Accelerator, tujuan ini menyiratkan komitmen infrastruktur yang luar biasa, terutama dalam kekuasaan dan modal.
Lompatan besar dalam skala komputasi, dengan GPU lebih sedikit daripada kedengarannya
Dalam sebuah posting di X, Musk menyatakan, “Tujuan XAI adalah 50 juta dalam unit komputasi AI setara H100 (tetapi efisiensi daya yang jauh lebih baik) secara online dalam waktu 5 tahun.”
Setiap GPU AI NVIDIA H100 dapat memberikan sekitar 1.000 TFLOP di FP16 atau BF16, format umum untuk pelatihan AI – dan mencapai 50 exaflop menggunakan baseline itu secara teoritis membutuhkan 50 juta H100.
Meskipun arsitektur yang lebih baru seperti Blackwell dan Rubin secara dramatis meningkatkan kinerja per chip.
Menurut proyeksi kinerja, hanya sekitar 650.000 GPU menggunakan arsitektur Feynman Ultra di masa depan mungkin diperlukan untuk mencapai target.
Perusahaan telah mulai menskalakan secara agresif, dan cluster Colossus 1 saat ini ditenagai oleh 200.000 H100 dan H200 GPU berbasis Hopper, ditambah 30.000 chip GB200 yang berbasis di Blackwell.
Cluster baru, Colossus 2, dijadwalkan akan segera online dengan lebih dari 1 juta unit GPU, menggabungkan 550.000 node GB200 dan GB300.
Ini menempatkan XAI di antara pengadopsi paling cepat dari penulis AI canggih dan teknologi pelatihan model.
Perusahaan mungkin memilih H100 daripada H200 yang lebih baru karena yang pertama tetap menjadi titik referensi yang dipahami dengan baik dalam komunitas AI, secara luas dibandingkan dan digunakan dalam penyebaran besar.
Throughput FP16 dan BF16 yang konsisten membuatnya menjadi unit ukuran yang jelas untuk perencanaan jangka panjang.
Tapi mungkin masalah yang paling mendesak adalah energi. Cluster AI 50 exaflops yang ditenagai oleh H100 GPU akan membutuhkan 35GW, cukup untuk 35 pembangkit listrik tenaga nuklir.
Bahkan menggunakan GPU yang paling efisien, seperti Feynman Ultra, cluster 50 exaflops dapat membutuhkan daya hingga 4,685GW.
Itu lebih dari tiga kali lipat penggunaan daya rolossus 2 yang akan datang dari Xai. Bahkan dengan kemajuan dalam efisiensi, penskalaan pasokan energi tetap menjadi ketidakpastian utama.
Selain itu, biayanya juga akan menjadi masalah. Berdasarkan harga saat ini, satu NVIDIA H100 tunggal biaya lebih dari $ 25.000.
Menggunakan 650.000 GPU Gen berikutnya sebagai gantinya masih bisa berjumlah puluhan miliar dolar hanya dalam perangkat keras, tidak termasuk interkoneksi, pendinginan, fasilitas, dan infrastruktur energi.
Pada akhirnya, rencana Musk untuk XAI secara teknis masuk akal tetapi secara finansial dan logistik menakutkan.
Melalui Tomshardware