Nvidia GB200 NVL72 ist noch nicht bereit für das Training fortschrittlicher KI-Modelle

watch 1m, 21s
views 2

15:21, 26.08.2025

Artikel Inhalt
arrow

  • Warum das Training noch nicht möglich ist
  • Zukunftsaussichten und wirtschaftliche Überlegungen

Die Analyseagentur SemiAnalysis hat eine Analyse von Serverlösungen für das Training künstlicher Intelligenz veröffentlicht und ist zu dem Schluss gekommen, dass die Beschleuniger Nvidia H100 und H200 sowie die TPUs von Google derzeit besser für das Training fortschrittlicher Modelle geeignet sind. GB200 NVL72-Server-Racks mit den neuesten Nvidia-GPUs haben Probleme aufgrund der Kupfer-NVLink-Schalttafel und unvollständiger Diagnose- und Debugging-Tools, was zu Ausfallzeiten führt.

Warum das Training noch nicht möglich ist

Theoretisch ist der Ausfall eines einzelnen Chips nicht kritisch. Der NVL72 empfiehlt, KI auf 64 GB200-GPUs zu trainieren und 8 weitere in Reserve zu halten. Um sie jedoch anzuschließen, muss der Fehler schnell lokalisiert werden, was aufgrund der begrenzten Diagnosetools derzeit schwierig ist. Infolgedessen wird der Trainingsprozess angehalten, Checkpoints werden zurückgesetzt und Reparaturen verzögern sich. SemiAnalysis stellt fest, dass es derzeit keine bekannten Beispiele für ein auf GB200 NVL72 abgeschlossenes Training fortgeschrittener Modelle gibt.

Empfehlungen der Analysten und Fokus von Nvidia

Derzeit raten Analysten dazu, GB200 NVL72 in erster Linie für die Inferenz zu verwenden und bereits trainierte Modelle auszuführen. Auch Nvidia betont in seinen neuesten Materialien die Inferenz, obwohl frühe Ankündigungen auf eine parallele Arbeit an Training und Ausführung von Modellen hindeuteten.

Zukunftsaussichten und wirtschaftliche Überlegungen

SemiAnalysis geht davon aus, dass Nvidia die Probleme mit NVLink und der Software bis Ende des Jahres lösen kann. Die Betriebskosten für eine einzelne GB200-GPU sind jedoch 1,6- bis 1,7-mal höher als für die H100. Um die Investition in neue Beschleuniger zu rechtfertigen, müssen sie bei ähnlichen Ausfallzeiten eine mindestens 1,6-mal höhere Leistung aufweisen.

Teilen

War dieser Artikel für Sie hilfreich?

VPS beliebte Angebote

Weitere Artikel zu diesem Thema

cookie

Cookies und Datenschutz akzeptieren?

Wir verwenden Cookies, um sicherzustellen, dass wir Ihnen die beste Erfahrung auf unserer Website bieten. Wenn Sie fortfahren, ohne Ihre Einstellungen zu ändern, gehen wir davon aus, dass Sie mit dem Empfang aller Cookies auf der HostZealot-Website einverstanden sind.