品玩12月19日讯,据龙猫LongCat公众号报道,美团LongCat团队正式发布并开源了其最新的虚拟人视频生成模型LongCat-Video-Avatar。该模型在动作拟真度、长视频稳定性与身份一致性三个关键维度上实现显著突破,在多项权威评测中达到开源领域的SOTA(最先进)领先水平。
LongCat-Video-Avatar模型基于团队此前开源的LongCat-Video基座打造,延续了一个模型支持多任务的核心设计,原生支持音画同步视频生成等核心功能。针对虚拟人技术中常见的动作僵硬、静音段表现不自然以及生成长视频时画质退化、身份漂移等痛点,该模型通过底层架构的全面创新予以解决。
在具体技术上,团队通过创新的解耦无条件引导方法,让虚拟人在说话的间歇也能自然眨眼、调整姿态;同时,其首创的跨片段隐空间拼接技术则从根本上避免了传统视频续写方式导致的质量累积损耗,使得模型在生成长达5分钟的视频时仍能保持稳定的色彩与清晰细节。
定量评测结果显示,在HDTF、CelebV-HQ等公开数据集上,LongCat-Video-Avatar在唇音同步精度和视频一致性指标上均表现出色。基于大规模人工主观评测也证实,该模型在自然度与真实感上优于包括InfiniteTalk、HeyGen在内的主流开源与商业模型。美团表示,此次开源旨在为数字人相关应用的开发者提供一个进化的、可用的强大技术基座。