昆仑万维SkyReels-V4登全球视频生成模型第二

Source

品玩3月1日讯，据pandaily 报道，昆仑万维正式发布多模态视频基础模型SkyReels-V4。该模型支持1080p分辨率、32帧/秒及最长15秒的影院级音视频同步输出，成为全球首个同时支持多模态输入、音视频联合生成与统一编创任务的视频大模型。

据独立评测机构Artificial Analysis最新榜单，SkyReels-V4在文本到视频（含音频）活跃模型中位列全球第二，历史总榜排名第四，性能超越Veo 3.1、Sora 2、Vidu Q3及Wan 2.6等主流模型。其“全模态参考”能力可接收文本、图像、视频片段、遮罩及音频等多种指令，在单一架构内完成从创意构思到专业级编辑的端到端创作。

技术上，模型采用对称双流MMDiT架构，通过双向交叉注意力实现音视频深度耦合，并引入RoPE频域缩放与可训练视频稀疏注意力机制（VSA），显著降低计算开销。训练采用多阶段渐进范式，最终基于500万条多模态数据精调。

SkyReels-V4是昆仑万维AI生态中视频板块的核心拼图，未来将支持超60秒生成、实时交互编辑及开放API，协同Skywork、Mureka与Matrix Game三大模型家族构建全模态内容生产体系。