全球内存和其他硬件组件价格在过去一段时间持续上涨,即便是拥有庞大采购能力的大型科技公司,也开始寻求更高效的方式来控制资本性支出,Meta 的这一做法正是在此环境下产生的尝试。
按照 Meta 的现行运维周期,其服务器通常每三到五年就会被替换,但其中的内存模组实际寿命通常可达七到十年,这导致在服务器退役时,仍然完好可用的 DDR4 内存条不得不一并下线,形成大量浪费。 为解决这一“寿命错配”问题,Meta 设计了 Vistara 芯片,使旧内存能够在新平台上继续服役,实现硬件生命周期的延长和整体 TCO 的优化。
根据披露给业界会议 ISCA 的技术论文信息,Vistara 是一颗定制的 ASIC 芯片,通过 CXL 2.0/1.1 接口在 PCIe Gen5 x16 总线上,将 DDR4 内存与新一代处理器连接起来。 在具体部署中,Meta 会从退役服务器中拆出 DDR4 内存条,并将它们安装到专门的单元中,这类单元在内部被称为“MemServer”。 每台 MemServer 配置约 768GB DDR5 内存,并搭配约 256GB 回收而来的 DDR4 内存,操作系统将这些 DDR4 视作额外的内存节点,当主用 DDR5 资源趋紧时,系统即可调度并使用这部分扩展内存。
Meta 表示,现成的 CXL 硬件方案无法满足这一需求,因为市面上常见的 CXL 接口通常将控制器与自带内存封装在一起,难以插入来自不同来源、已退役的 DDR4 条子。 Vistara 的设计则刻意将控制器与内存解耦,让控制器单独存在,从而允许 Meta 按需插入手头现有的 DDR4 内存资源,实现高度灵活的内存复用架构。
在规模层面,Meta 计划将这一新架构部署到其数百万台服务器组成的超大规模基础设施中,尤其是支撑人工智能业务的数据中心。 随着公司在生成式 AI 等领域的持续加码,包括广泛部署具备推理与多模态能力的新模型 Muse Spark 等,这些 AI 数据中心的内存与算力需求呈现持续增长趋势,通过重复利用 DDR4 内存有望在保障性能的同时提升整体效率。
需要指出的是,Meta 并不会完全依赖“回收”内存,新购 DDR5 以及其他硬件仍将在其基础设施中扮演重要角色。 不过,在超大规模数据中心场景下,哪怕只是部分工作负载使用重复利用的 DDR4 内存条,也足以在长期运营中带来可观的成本节约,并减少硬件报废所造成的资源浪费。