品玩3月1日讯,据pandaily 报道,昆仑万维正式发布多模态视频基础模型SkyReels-V4。该模型支持1080p分辨率、32帧/秒及最长15秒的影院级音视频同步输出,成为全球首个同时支持多模态输入、音视频联合生成与统一编创任务的视频大模型。
据独立评测机构Artificial Analysis最新榜单,SkyReels-V4在文本到视频(含音频)活跃模型中位列全球第二,历史总榜排名第四,性能超越Veo 3.1、Sora 2、Vidu Q3及Wan 2.6等主流模型。其“全模态参考”能力可接收文本、图像、视频片段、遮罩及音频等多种指令,在单一架构内完成从创意构思到专业级编辑的端到端创作。
技术上,模型采用对称双流MMDiT架构,通过双向交叉注意力实现音视频深度耦合,并引入RoPE频域缩放与可训练视频稀疏注意力机制(VSA),显著降低计算开销。训练采用多阶段渐进范式,最终基于500万条多模态数据精调。
SkyReels-V4是昆仑万维AI生态中视频板块的核心拼图,未来将支持超60秒生成、实时交互编辑及开放API,协同Skywork、Mureka与Matrix Game三大模型家族构建全模态内容生产体系。