Elon Musks xAI hat in seiner neuen Einrichtung in Memphis, Tennessee, einen neuen Supercomputer mit 100.000 Nvidia H100-Grafikprozessoren in Betrieb genommen.
Der Supercomputer ist für das Training von KI-Modellen bei xAI unter der Leitung von Elon Musk bestimmt. Entsprechend den ehrgeizigen Plänen des Start-ups, den Supercomputer bis Ende 2025 in Betrieb zu nehmen, wurde die erste Phase in nur vier Monaten abgeschlossen.
This weekend, the @xAI team brought our Colossus 100k H100 training cluster online. From start to finish, it was done in 122 days.
Colossus is the most powerful AI training system in the world. Moreover, it will double in size to 200k (50k H200s) in a few months.
Excellent…
— Elon Musk (@elonmusk) September 2, 2024
Der Supercomputer trägt den Namen „Colossus“, benannt nach einem Supercomputer aus dem Hollywood-Science-Fiction-Klassiker “Colossus: The Forbin Project” aus den 1970er Jahren. Er besteht aus einem Cluster von 100.000 Nvidia H100-Grafikprozessoren, wie Musk Anfang dieser Woche in einem Beitrag auf X ankündigte. Das Projekt befindet sich in Memphis, Tennessee, in einer Fabrik, die früher Electrolux gehörte. Dort plant Musk den Bau einer „Gigafactory of Compute“, wie The Information bereits berichtete.
Colossus soll über eine der größten Flotten von Grafikprozessoren in einem einzigen Cluster verfügen. Musk plant, den Cluster auf die doppelte Größe mit 200.000 GPUs zu erweitern, darunter 50.000 zusätzliche Nvidia H200, die neuer sind und mehr Rechenspeicher bieten. Der Tech-Mogul hatte sich zuvor dazu bekannt, 3 bis 4 Milliarden US-Dollar für den Kauf von GPUs auszugeben.
Of the roughly $10B in AI-related expenditures I said Tesla would make this year, about half is internal, primarily the Tesla-designed AI inference computer and sensors present in all of our cars, plus Dojo.
For building the AI training superclusters, NVidia hardware is about…
— Elon Musk (@elonmusk) June 4, 2024
Kein Wunder, dass diese GPUs derzeit zu den begehrtesten Technologieprodukten gehören. Die steigende Nachfrage hat die Marktkapitalisierung von Nvidia in die Höhe getrieben und das Unternehmen Anfang des Jahres zum wertvollsten Unternehmen der Welt gemacht.
Die Beschaffung dieser GPUs kann jedoch eine Herausforderung darstellen, da die führenden Technologiegiganten, darunter Meta, Google, Amazon und Microsoft, alle um die Siliziumchips von Nvidia konkurrieren. xAI umging diese Herausforderung, indem es sich die erste Charge von GPUs sicherte, die ursprünglich an Tesla geliefert wurden.
Der unmittelbarste Anwendungsfall für den neuen Supercomputer von xAI ist das Training der nächsten Version von Grok, einem KI-Chatbot, der den Abonnenten des sozialen Netzwerks X, das Musk gehört, zur Verfügung steht.
Während xAI Grok-2 im August in einer Betaversion veröffentlichte, hat Musk bereits bestätigt, dass Grok 3 bis Ende 2024 verfügbar sein und mit 100.000 Nvidia-Grafikprozessoren trainiert werden wird. Diese Rechenanforderungen erfüllt Colossus.
Grok 3 end of year after training on 100k H100s should be really something special
— Elon Musk (@elonmusk) July 1, 2024
Die Kombination von hunderttausenden GPUs soll das Lernen von Grok erheblich beschleunigen. Es gibt jedoch keine Garantie dafür, dass die Fähigkeiten von KI-Modellen anderer Unternehmen übertroffen werden, zumal Unternehmen wie Meta planen, ihr GPU-Portfolio erheblich auszubauen. Neben Grok wird der Supercomputer voraussichtlich auch die zugrundeliegenden KI-Modelle trainieren, die den Roboter Tesla Optimus antreiben werden.