昆仑万维发布SkyReels-A3模型

Source

转自：中国证券报·中证网

中证报中证网讯（王珞）8月11日，昆仑万维正式发布SkyReels-A3模型。该模型基于“DiT（Diffusion Transformer）视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”，能实现任意时长的全模态音频驱动数字人创作。

据公司介绍，作为音频驱动（audio-driven）人像视频生成模型，SkyReels-A3就像给任意照片或视频装上“AI声带”，能够实现让一张照片“活”起来、创作一段新的视频、给现有视频“改台词”。

同时，公司基于对实际应用场景（如广告、直播带货等）的分析，发现这些场景不仅需要更长的一致性视频，在特定交互动作上的自然度和清晰度也有待加强，因此构造了针对线上直播等场景的数据，对于此类场景中的视频生成进行了特定优化。

为了让镜头语言更加灵动，昆仑万维构造了一种基于ControlNet结构的镜头控制模块，通过精细化镜头参数的输入，实现帧级别精准运镜控制。具体来说，镜头控制模块提取参考图的深度信息，配合相机参数，渲染目标运镜轨迹的参考视频，该参考视频随后作为显式运动先验，引导模型逐帧复现精准的运镜效果，生成带有运镜效果的数字人视频。当前预设了8种常见的运镜参数，用户可以根据需要选择相应运镜，并且每个运镜的强度可0-100%连续调节，满足不同需求，生成专业的运镜效果。

昆仑万维表示，SkyReels-A3正在把“让影像随声而动”这件事变成人人可上手操作的工具，不需要专业影棚、不需要昂贵设备，只要一段声音和一张照片，人人都能创造无限时长、无限可能的数字内容。

让静态照片开口说话、让现有视频改词不换脸、让数字人直播永不掉帧，SkyReels-A3为电影制作、虚拟直播、游戏开发与教育内容创作沟通提供了低门槛、低成本、高保真的AI技术制作方案，让个性化、交互式内容的创作前所未有的高效与便捷。