Google发布TurboQuant算法，突破高维向量压缩瓶颈

Source

品玩3月27日讯，Google近期提出名为TurboQuant的新型压缩算法，旨在解决AI模型中高维向量带来的内存瓶颈问题。该技术结合Quantized Johnson-Lindenstrauss（QJL）与PolarQuant方法，可在不损失精度的前提下显著减小向量规模，有效缓解键值缓存压力并加速向量检索。

PolarQuant通过坐标系转换简化数据几何结构，降低传统量化方法所需的额外内存开销；QJL则利用数学变换实现零开销的1比特压缩，精准保留数据间的关键关系。二者协同使TurboQuant在保持模型性能的同时大幅提升效率。

实验表明，TurboQuant在LongBench、Needle In A Haystack等多项基准测试中表现优异，对键值缓存进行3比特量化时仍无精度损失，且运行速度优于原始大语言模型。该技术对提升语义搜索与大规模AI系统的效率具有重要意义。