品玩1月29日讯,谷歌近日在Gemini 3 Flash模型中正式上线“Agentic Vision”(智能体视觉)功能,将传统静态图像识别升级为主动调查式视觉理解。该技术通过“思考—行动—观察”闭环,结合视觉推理与Python代码执行,使模型能自主裁剪、旋转或标注图像,从而基于像素级证据生成答案。
在多项视觉基准测试中,启用代码执行后,Gemini 3 Flash的准确率稳定提升5%至10%。典型应用包括建筑图纸细节校验、图像标注计数及可视化数学计算等,有效缓解大模型在复杂视觉任务中的“幻觉”问题。
目前,Agentic Vision已通过Google AI Studio和Vertex AI开放API调用,并逐步集成至Gemini移动端“Thinking”模式,未来将扩展至更多模型尺寸及工具能力。