Google发布Gemini Embedding 2，实现多模态内容统一向量化

Source

品玩3月13日讯，Google近日正式推出Gemini Embedding 2，这是其首个原生支持多模态的嵌入模型，可将文本、图像、视频、音频及PDF文档映射至同一向量空间，显著简化多模态AI系统构建流程。

该模型支持高达8192个token的上下文窗口，并原生处理交错输入（如图文混合内容），在单次API调用中生成融合语义的统一向量。其采用“俄罗斯套娃”表示学习（Matryoshka Representation Learning）技术，输出维度可灵活配置——开发者可先用768维向量快速粗筛，再以3072维向量精排，兼顾效率与精度。

Google表示，Gemini Embedding 2在MTEB基准测试中全面超越前代，在跨模态检索与专业领域零样本任务中表现尤为突出。模型已通过Gemini API和Vertex AI开放公测，LangChain、LlamaIndex、Weaviate等主流框架均已集成支持。

此举标志着嵌入模型正从文本专用工具演进为“万物统一表示层”，为RAG、智能搜索及多模态应用提供高性价比基础设施升级路径。