成长的阵痛
有迹象表明,英伟达已从此次的部署难题中吸取了经验教训。公司不仅对现有 Grace Blackwell 系统进行了优化,还针对今年晚些时候即将推出的、基于 Vera Rubin 新一代芯片的服务器开展了改进工作。
据两名参与芯片设计的人士透露,英伟达去年推出了性能更强劲的 Grace Blackwell 芯片升级版,以确保其运行稳定性优于初代产品。他们表示,这款名为 GB300 的升级版芯片,在散热能力、核心材料及连接器品质上均实现了提升。
一名了解具体情况的Meta员工称,曾遭遇初代 Grace Blackwell 系统技术故障的Meta工程师发现,新款芯片的组联难度大幅降低。另一名为 OpenAI 提供服务的英伟达员工则透露,OpenAI 等部分客户已对尚未到货的 Grace Blackwell 芯片订单进行调整,转而增订这款升级版产品。
去年秋季,英伟达曾向投资者透露,其 Blackwell 系列芯片的大部分营收已来自经优化的 Grace Blackwell 服务器,公司计划在今年实现该款服务器的大批量交付。
深度依赖英伟达芯片的埃隆・马斯克旗下 xAI 公司,在 Grace Blackwell 服务器的落地应用上似乎走在了行业前列。去年 10 月,该公司已在孟菲斯的数据中心完成了约 10 万颗该款芯片的部署并投入运行,目前尚不清楚这一部署策略是否带来了更优的效果。
先搭建,后测试
英伟达研发 Blackwell 芯片的目标十分明确:帮助客户以远优于前代人工智能芯片的规模和成本效益,开展人工智能模型的训练工作。
在英伟达的前代服务器中,客户最多只能将 8 颗芯片进行组联,且芯片间的通信速度较慢。而 Blackwell 系列芯片的设计核心,是通过在单台服务器内组联 72 颗 Grace Blackwell 芯片,减少不同服务器间的数据传输量,从而释放数据中心的网络资源,支撑更大规模人工智能模型的训练与运行。
据一名曾参与芯片集群搭建的甲骨文员工透露,通过该种方式搭建大规模芯片集群,还能提升基于其训练的人工智能模型的质量,该系统的设计初衷便是减少模型训练过程中常见的硬件故障。
然而,英伟达的这一新设计本身也存在漏洞。将大量芯片高度集成组联,意味着单颗芯片的故障都可能引发连锁反应,导致由数千颗芯片组成的整个集群瘫痪或运行中断。据三名亲历过此类故障的人士透露,企业若要从最近的保存节点重启中断的训练流程,所需成本从数千美元到数百万美元不等。
英伟达 Grace Blackwell 系统的落地从一开始便波折不断。2024 年夏季,芯片设计缺陷导致量产推迟,各类问题开始显现。一年前,首批 Blackwell 芯片交付客户后,服务器机柜又接连出现过热、连接故障等问题,致使微软、亚马逊云科技、谷歌、Meta等核心客户纷纷削减订单,转而采购前代芯片。
多家订购了 Grace Blackwell 芯片的云服务商员工表示,他们认为英伟达在相关软硬件尚未完全调试到位的情况下,便向客户进行了交付。
但英伟达一名前高管为公司的这一策略进行了辩护,称 72 芯组联的 Grace Blackwell 服务器遭遇的这些成长阵痛,恰恰体现了黄仁勋勇于突破技术边界、而非追求稳妥的经营理念。英伟达现任及前任员工均认为,指望英伟达能精准预判 OpenAI、Meta等客户的规模化部署场景下的芯片性能,本身并不现实。
且有迹象表明,OpenAI 目前已实现英伟达 72 芯组联服务器的规模化使用。本周四,OpenAI 宣布,公司最新的人工智能代码模型 GPT-5.3-Codex 的研发,全程 “由该款专属系统联合设计、提供训练算力并支撑部署运行”。
营收兑现遇阻
据两家云服务商的高管透露,去年全年,芯片部署的延迟令 OpenAI 的部分云服务合作伙伴蒙受了损失 —— 这些企业曾为 Grace Blackwell 芯片投入巨额资金,原本期望芯片能快速上线并收回成本,而云服务商只有在客户开始使用芯片后,才能获得相关收入。
据一名参与相关协商的云服务商高管透露,为缓解资金压力,部分云服务商去年与英伟达协商达成了折扣协议,得以按实际使用量的较小比例支付芯片费用。
另据一名英伟达员工及一名英伟达制造合作伙伴的工作人员透露,英伟达还为部分退回服务器的客户办理了退款。
云服务商推出新技术时,往往需要先承担相关成本,待客户开始使用硬件后才能获得收入,因此这一阶段的利润率通常较低。一份文件显示,在截至去年 8 月的三个月里,甲骨文公司因出租 Blackwell 系列芯片亏损近 1 亿美元,究其原因,是甲骨文完成服务器调试并向客户交付的时间,与 OpenAI 等客户开始使用并支付租金的时间存在明显滞后。
这份为甲骨文云业务高管准备的内部演示文件指出,Grace Blackwell 芯片租赁业务毛利率为负,主要是受 OpenAI 位于得克萨斯州阿比林市的数据中心相关芯片部署问题,以及客户验收周期滞后的影响。
甲骨文此后曾向投资者表示,其人工智能云业务最终将实现 30% 至 40% 的毛利率,这一预期已涵盖数据中心上线前的投入期。
甲骨文的发言人则拒绝就此置评。

