Oracle和CoreWeave等头部云服务商开始部署英伟达Vera Rubin NVL72

Source
英伟达新一代 AI 计算平台 Vera Rubin 时代正式拉开帷幕,这一被称为目前全球最快的 AI 平台,已率先交付给多家顶级云服务提供商,用于测试与验证,为下一阶段的大模型和 Agentic AI 训练部署铺路。

据报道,Vera Rubin 平台已进入量产阶段,而首批整机系统已送抵各大 AI 云厂商机房,其中包括 Oracle 和 CoreWeave 等公司。在此之前,英伟达已于上月向多家头部 AI 企业交付了首批 Vera CPU,为这一新平台的生态奠定基础。

Oracle 云基础设施部门执行副总裁 Mahesh Thiagarajan 在社交平台上首次公开了 Vera Rubin NVL72 机架系统的实物照片,展示了这套由 72 颗 Rubin GPU 与 36 颗 Vera CPU 组成的庞大机柜集群。官方将其定位为当前面向 AI 工作负载的顶级 GPU 与 CPU 组合,目标是在 Grace Blackwell 之后,成为英伟达 AI 产品线的又一里程碑级平台。

HKfY-0LaAAAeCwL.jpgHKfY-0ObYAATmc4.jpg

Thiagarajan 表示,Oracle 是首批在云端引入 Vera Rubin NVL72 系统并开展验证测试的云提供商之一,双方将紧密协作,在大规模云环境中向企业客户提供新一代加速计算能力。从现场图片来看,NVL72 机柜体积庞大、布线与冷却结构复杂,凸显其面向超大规模数据中心的设计取向。

除 Oracle 外,云计算公司 CoreWeave 也宣布完成首套 Vera Rubin NVL72 系统的上架安装,并公开了整机从运输车辆卸载到机房部署的完整视频。从画面显示,单一机柜的安装即需要 3 至 4 名工程师协同操作,这在一定程度上体现出该系统在体积与重量上的“数据中心级”规格,也暗示着未来在 AI 数据中心中,类似机柜可能会成百上千地部署。

CoreWeave 同时强调,自己不仅是首批引入 Vera Rubin NVL72 的云服务商之一,更率先完成了软硬件全栈的联调和验证工作。该公司为此打造了自家的软件定义液冷系统与统一机柜控制方案,分别命名为 Valvey 与 Racky,用于对整柜 Vera Rubin 平台进行液冷管理与统一调度,并通过“CoreWeave Mission Control”实现对机柜集群级别的运营监控。

在英伟达 CEO 黄仁勋提出的“AI 是一块五层蛋糕”的架构观中,Vera Rubin NVL72 只是其中的硬件一层,其背后还依赖包括供电、散热、互连、网络等在内的精密基础设施,以及构建多年的软件栈支持。英伟达以 CUDA 及面向 AI 工作负载的 CUDA-X 生态为核心,通过软硬件一体化,使得竞品厂商至今仍难以在生态成熟度和广泛采用程度上形成正面竞争。

性能方面,报道指出,Vera Rubin 平台在专家混合(MoE)模型训练场景中,仅使用四分之一数量的 GPU,即可达到与上一代 Blackwell 系统一样的训练速度,同时在推理阶段的每 Token 成本则可降至 Blackwell 的十分之一。这意味着在大规模模型与 Agentic AI 工厂级别部署时,Vera Rubin 有望在算力密度与能效比上带来显著优势,为云厂商控制成本和扩展规模提供关键支撑。

目前,Vera Rubin 平台已进入全面量产阶段,英伟达计划在今年第三季度正式启动首批面向客户的生产性运行任务。随着 Oracle、CoreWeave 等头部云服务商率先完成上架和验证,行业普遍预期 Vera Rubin 将很快成为新一代 AI 数据中心基础设施的核心构件之一,推动“Agentic AI 工厂”和更复杂大模型应用的落地。