品玩3月24日讯,上海创智学院刘鹏飞团队与Sand.ai联合宣布,正式开源全球首个、号称最“懂人”的音视频联合生成基座模型——daVinci-MagiHuman。该模型旨在通过技术帮助普通人将内心的情感与故事转化为音视频作品。
现有开源音视频模型存在跨模态同步难、架构扩展难、生成速度慢的局限。daVinci-MagiHuman采用纯自注意力架构,由一个150亿参数的Transformer统一建模文本、视频、音频三种模态,摒弃了跨注意力与模态分支,实现了真正的模态无关。模型还采用修正流匹配训练及专为低延迟设计的级联流水线,兼顾生成质量与效率。
在与开源先进模型LTX-2.3和Ovi 1.1的对比评测中,daVinci-MagiHuman在画面质量、文本一致性、音频清晰度上均表现优异,整体效果均衡。模型支持多步与少步两种推理模式,可在消费级GPU上实现近实时生成。目前,其全部模型权重与推理代码已在GitHub与Hugging Face平台开源。