品玩2月11日讯,据界面新闻报道,蚂蚁集团今日正式开源发布其全模态大模型Ming-Flash-Omni 2.0。该模型在多项公开测试中,于视觉理解、语音生成及图像编辑等关键能力上表现突出。
该模型是业界首个全场景音频统一生成模型,能够根据用户简单的自然语言指令,在同一条音轨中同步生成语音、环境音效与背景音乐,并可精细控制音色、语速乃至方言情绪等参数。
在视觉与图像方面,模型增强了对复杂细微物体的识别精度。其图像编辑功能也更为稳定,支持光影调整、场景替换等复杂操作,并能在动态修改中保持画面连贯。
目前,模型权重与代码已在主流开源社区发布,用户也可通过官方平台在线体验。