谷歌推出Agentic Vision，Gemini 3 Flash实现主动式视觉推理

Source

品玩1月29日讯，谷歌近日在Gemini 3 Flash模型中正式上线“Agentic Vision”（智能体视觉）功能，将传统静态图像识别升级为主动调查式视觉理解。该技术通过“思考—行动—观察”闭环，结合视觉推理与Python代码执行，使模型能自主裁剪、旋转或标注图像，从而基于像素级证据生成答案。

在多项视觉基准测试中，启用代码执行后，Gemini 3 Flash的准确率稳定提升5%至10%。典型应用包括建筑图纸细节校验、图像标注计数及可视化数学计算等，有效缓解大模型在复杂视觉任务中的“幻觉”问题。

目前，Agentic Vision已通过Google AI Studio和Vertex AI开放API调用，并逐步集成至Gemini移动端“Thinking”模式，未来将扩展至更多模型尺寸及工具能力。