ACE的核心目标很直接:让x86芯片的矩阵乘法性能实现数量级跃升。
矩阵乘法是神经网络和大语言模型的基础运算单元,现有的AVX10等SIMD指令集虽然能完成矩阵运算,但在计算密度和扩展性上存在明显瓶颈。
ACE通过引入基于外积运算的矩阵加速机制,在消耗相同输入向量的前提下,计算密度达到等效AVX10乘累加操作的16倍。
在数据格式支持方面,ACE原生覆盖了当前AI领域的主流精度标准,包括INT8、OCP FP8、OCP MXFP8、OCP MXINT8和BF16。
作为AVX10的扩展指令集,ACE的软件生态适配已在推进中,Deep Learning和HPC底层库、NumPy、SciPy等Python科学计算库,以及PyTorch和TensorFlow等主流机器学习框架均已启动集成工作。
AMD和Intel在白皮书中强调,ACE的设计理念是低摩擦、广覆盖,从笔记本到超级计算机,开发者无需针对不同硬件平台重写代码。
这与将AI计算迁移到专用加速器的方案形成鲜明对比,后者往往需要额外的代码适配和迁移成本。