Nvidia GB200 NVL72 ist noch nicht bereit für das Training fortschrittlicher KI-Modelle

1m, 21s

15:21, 26.08.2025

Artikel Inhalt

Warum das Training noch nicht möglich ist
Zukunftsaussichten und wirtschaftliche Überlegungen

Die Analyseagentur SemiAnalysis hat eine Analyse von Serverlösungen für das Training künstlicher Intelligenz veröffentlicht und ist zu dem Schluss gekommen, dass die Beschleuniger Nvidia H100 und H200 sowie die TPUs von Google derzeit besser für das Training fortschrittlicher Modelle geeignet sind. GB200 NVL72-Server-Racks mit den neuesten Nvidia-GPUs haben Probleme aufgrund der Kupfer-NVLink-Schalttafel und unvollständiger Diagnose- und Debugging-Tools, was zu Ausfallzeiten führt.

Warum das Training noch nicht möglich ist

Theoretisch ist der Ausfall eines einzelnen Chips nicht kritisch. Der NVL72 empfiehlt, KI auf 64 GB200-GPUs zu trainieren und 8 weitere in Reserve zu halten. Um sie jedoch anzuschließen, muss der Fehler schnell lokalisiert werden, was aufgrund der begrenzten Diagnosetools derzeit schwierig ist. Infolgedessen wird der Trainingsprozess angehalten, Checkpoints werden zurückgesetzt und Reparaturen verzögern sich. SemiAnalysis stellt fest, dass es derzeit keine bekannten Beispiele für ein auf GB200 NVL72 abgeschlossenes Training fortgeschrittener Modelle gibt.

Empfehlungen der Analysten und Fokus von Nvidia

Derzeit raten Analysten dazu, GB200 NVL72 in erster Linie für die Inferenz zu verwenden und bereits trainierte Modelle auszuführen. Auch Nvidia betont in seinen neuesten Materialien die Inferenz, obwohl frühe Ankündigungen auf eine parallele Arbeit an Training und Ausführung von Modellen hindeuteten.

Zukunftsaussichten und wirtschaftliche Überlegungen

SemiAnalysis geht davon aus, dass Nvidia die Probleme mit NVLink und der Software bis Ende des Jahres lösen kann. Die Betriebskosten für eine einzelne GB200-GPU sind jedoch 1,6- bis 1,7-mal höher als für die H100. Um die Investition in neue Beschleuniger zu rechtfertigen, müssen sie bei ähnlichen Ausfallzeiten eine mindestens 1,6-mal höhere Leistung aufweisen.

War dieser Artikel für Sie hilfreich?

VPS beliebte Angebote

Alle Produkte ansehen

wKVM-SSD 4096 Metered

-18.6%

€

/mo

€ 38 /mo

Alle 12 Monate abgerechnet

CPU

4 Xeon Cores

RAM

4 GB

Space

100 GB SSD

Bandwidth

4 TB
wKVM-SSD 2048 HK

-21.5%

€

/mo

€ 26 /mo

Alle 12 Monate abgerechnet

CPU

2 Xeon Cores

RAM

2 GB

Space

75 GB SSD

Bandwidth

300 GB
DDoS Protected SSD-KVM 8192

-15.5%

€

/mo

€ 95 /mo

Alle 12 Monate abgerechnet

CPU

6 Xeon Cores

RAM

8 GB

Space

100 GB SSD

Bandwidth

80 Mbps
KVM-SSD 1024 Metered

-26.7%

€

/mo

€ 10 /mo

Alle 12 Monate abgerechnet

CPU

3 Xeon Cores

RAM

1 GB

Space

20 GB SSD

Bandwidth

1 TB
KVM-NVMe 8192

-10%

€

/mo

€ 36.3 /mo

Alle 12 Monate abgerechnet

CPU

6 Epyc Cores

RAM

8 GB

Space

100 GB NVMe

Bandwidth

Unlimited
KVM-NVMe 65536

-10%

€

/mo

€ 187 /mo

Alle 12 Monate abgerechnet

CPU

10 Epyc Cores

RAM

64 GB

Space

400 GB NVMe

Bandwidth

Unlimited
KVM-SSD 4096 HK

-22.2%

€

/mo

€ 33 /mo

Alle 12 Monate abgerechnet

CPU

4 Xeon Cores

RAM

4 GB

Space

50 GB SSD

Bandwidth

300 GB
wKVM-HDD HK 16384

-8.8%

€

/mo

€ 45.9 /mo

Alle 12 Monate abgerechnet

CPU

6 Xeon Cores

RAM

16 GB

Space

400 GB HDD

Bandwidth

300 Gb
KVM-HDD HK 2048

-10%

€

/mo

€ 6.3 /mo

Alle 12 Monate abgerechnet

CPU

4 Xeon Cores

RAM

2 GB

Space

60 GB HDD

Bandwidth

300 Gb
DDoS Protected SSD-wKVM 4096

-15.4%

€

/mo

€ 73 /mo

Alle 12 Monate abgerechnet

CPU

4 Xeon Cores

RAM

4 GB

Space

100 GB SSD

Bandwidth

60 Mbps

Nvidia GB200 NVL72 ist noch nicht bereit für das Training fortschrittlicher KI-Modelle

Warum das Training noch nicht möglich ist

Zukunftsaussichten und wirtschaftliche Überlegungen

War dieser Artikel für Sie hilfreich?

VPS beliebte Angebote

Weitere Artikel zu diesem Thema