Nvidia GB200 NVL72 ist noch nicht bereit für das Training fortschrittlicher KI-Modelle
15:21, 26.08.2025
Die Analyseagentur SemiAnalysis hat eine Analyse von Serverlösungen für das Training künstlicher Intelligenz veröffentlicht und ist zu dem Schluss gekommen, dass die Beschleuniger Nvidia H100 und H200 sowie die TPUs von Google derzeit besser für das Training fortschrittlicher Modelle geeignet sind. GB200 NVL72-Server-Racks mit den neuesten Nvidia-GPUs haben Probleme aufgrund der Kupfer-NVLink-Schalttafel und unvollständiger Diagnose- und Debugging-Tools, was zu Ausfallzeiten führt.
Warum das Training noch nicht möglich ist
Theoretisch ist der Ausfall eines einzelnen Chips nicht kritisch. Der NVL72 empfiehlt, KI auf 64 GB200-GPUs zu trainieren und 8 weitere in Reserve zu halten. Um sie jedoch anzuschließen, muss der Fehler schnell lokalisiert werden, was aufgrund der begrenzten Diagnosetools derzeit schwierig ist. Infolgedessen wird der Trainingsprozess angehalten, Checkpoints werden zurückgesetzt und Reparaturen verzögern sich. SemiAnalysis stellt fest, dass es derzeit keine bekannten Beispiele für ein auf GB200 NVL72 abgeschlossenes Training fortgeschrittener Modelle gibt.
Empfehlungen der Analysten und Fokus von Nvidia
Derzeit raten Analysten dazu, GB200 NVL72 in erster Linie für die Inferenz zu verwenden und bereits trainierte Modelle auszuführen. Auch Nvidia betont in seinen neuesten Materialien die Inferenz, obwohl frühe Ankündigungen auf eine parallele Arbeit an Training und Ausführung von Modellen hindeuteten.
Zukunftsaussichten und wirtschaftliche Überlegungen
SemiAnalysis geht davon aus, dass Nvidia die Probleme mit NVLink und der Software bis Ende des Jahres lösen kann. Die Betriebskosten für eine einzelne GB200-GPU sind jedoch 1,6- bis 1,7-mal höher als für die H100. Um die Investition in neue Beschleuniger zu rechtfertigen, müssen sie bei ähnlichen Ausfallzeiten eine mindestens 1,6-mal höhere Leistung aufweisen.