品玩3月13日讯,Google近日正式推出Gemini Embedding 2,这是其首个原生支持多模态的嵌入模型,可将文本、图像、视频、音频及PDF文档映射至同一向量空间,显著简化多模态AI系统构建流程。
该模型支持高达8192个token的上下文窗口,并原生处理交错输入(如图文混合内容),在单次API调用中生成融合语义的统一向量。其采用“俄罗斯套娃”表示学习(Matryoshka Representation Learning)技术,输出维度可灵活配置——开发者可先用768维向量快速粗筛,再以3072维向量精排,兼顾效率与精度。
Google表示,Gemini Embedding 2在MTEB基准测试中全面超越前代,在跨模态检索与专业领域零样本任务中表现尤为突出。模型已通过Gemini API和Vertex AI开放公测,LangChain、LlamaIndex、Weaviate等主流框架均已集成支持。
此举标志着嵌入模型正从文本专用工具演进为“万物统一表示层”,为RAG、智能搜索及多模态应用提供高性价比基础设施升级路径。