英伟达面临火热挑战:Blackwell GPU过热引爆发货延迟危机

· 快讯

英伟达(NVDA.O)Blackwell GPU正式上市前是否遇到了新的障碍?据The Information报道,继几个月前的产量问题后,这家人工智能巨头的Blackwell处理器在高容量服务器架中安装时遭遇过热问题。

报告指出,这些挑战已导致设计修改和延迟,引起包括谷歌(GOOGL.O)Meta Platforms(META.O)和微软(MSFT.O)等主要客户对Blackwell服务器及时部署的担忧。

报道中提到,知情人士告诉The Information,用AI和高性能计算(HPC)的Blackwell GPU在容纳72个处理器的服务器中面临过热问题,这些服务器每个架子可能需要高达120kW的功率。

因此,英伟达据报道已多次修改其服务器架设计,因为过热不仅妨碍GPU性能,还可能损坏硬件。

鉴于像谷歌、Meta和微软这样的客户依赖这些GPU来训练他们最先进的大型语言模型,英伟达的一位发言人告诉路透社,该公司正在与云服务提供商密切合作,并将设计调整描述为开发过程中的常规部分。

值得注意的是,据Toms Hardware报道,尽管此类调整在大规模技术推广中很常见,但它们已导致延误,可能会进一步推迟预期的发货时间表

Toms Hardware指出,Blackwell的最终修订版仅在10月底进入大规模生产,预计发货将在1月底开始。最新的过热问题是否会进一步延迟Blackwell的发货,尚待观察。

这绝非英伟达首次在Blackwell上遇到问题。几个月前,据报道GPU因设计缺陷影响处理器产量,这与台积电(TSM.N)CoWoS高级封装有关,但最终通过更改GPU的掩模得以解决。

然而,英伟达首席执行官黄仁勋在10月驳斥了台积电应受责备的传言,强调台积电帮助解决了问题,并以“难以置信的速度”恢复了制造。他还形容对Blackwell的需求“疯狂”。