字节跳动发布Vidi2多模态大模型，重塑视频编辑范式

Source

品玩12月1日讯，字节跳动近日推出120亿参数的多模态大语言模型Vidi2，专注于视频理解与生成。该模型支持数小时长视频处理，可自动梳理叙事逻辑、生成短视频或电影片段，并实现精准时空定位——直接输出特定物体或人物的时间戳与边界框。

Vidi2具备三大技术优势：高精度时空定位（STG）、文本-视觉-音频联合理解，以及在超长视频检索与问答任务中显著领先商业模型（IoU指标提升17.5%）。目前，其能力已集成至TikTok产品，如Smart Split智能剪辑与AI Outline剧本生成。

依托TikTok十亿级用户数据闭环，Vidi2有望加速AI对专业视频创作流程的重构，并推动实时生成与复杂场景理解等方向发展。