品玩11月11日讯,百度文心正式发布并开源多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking。该模型基于ERNIE-4.5-VL-28B-A3B架构,仅激活3B参数,在视觉语言理解、跨模态推理等任务中表现优异,媲美顶级大模型性能。
模型通过中期训练引入海量高质量视觉-语言数据,强化跨模态语义对齐能力,并结合大规模多模态强化学习策略提升推理稳定性。其新增的视觉定位与“图像思考”功能,支持工具调用与复杂场景交互,在文档解析、学科计算、视频分析等场景中实现突破。
模型以Apache 2.0协议开源,提供预训练权重、推理代码及全流程部署工具,已登陆Hugging Face、GitHub等平台,助力多模态智能应用开发。