蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0

Source

品玩2月11日讯，据界面新闻报道，蚂蚁集团今日正式开源发布其全模态大模型Ming-Flash-Omni 2.0。该模型在多项公开测试中，于视觉理解、语音生成及图像编辑等关键能力上表现突出。

该模型是业界首个全场景音频统一生成模型，能够根据用户简单的自然语言指令，在同一条音轨中同步生成语音、环境音效与背景音乐，并可精细控制音色、语速乃至方言情绪等参数。

在视觉与图像方面，模型增强了对复杂细微物体的识别精度。其图像编辑功能也更为稳定，支持光影调整、场景替换等复杂操作，并能在动态修改中保持画面连贯。

目前，模型权重与代码已在主流开源社区发布，用户也可通过官方平台在线体验。