品玩3月27日讯,Google近期提出名为TurboQuant的新型压缩算法,旨在解决AI模型中高维向量带来的内存瓶颈问题。该技术结合Quantized Johnson-Lindenstrauss(QJL)与PolarQuant方法,可在不损失精度的前提下显著减小向量规模,有效缓解键值缓存压力并加速向量检索。
PolarQuant通过坐标系转换简化数据几何结构,降低传统量化方法所需的额外内存开销;QJL则利用数学变换实现零开销的1比特压缩,精准保留数据间的关键关系。二者协同使TurboQuant在保持模型性能的同时大幅提升效率。
实验表明,TurboQuant在LongBench、Needle In A Haystack等多项基准测试中表现优异,对键值缓存进行3比特量化时仍无精度损失,且运行速度优于原始大语言模型。该技术对提升语义搜索与大规模AI系统的效率具有重要意义。