品玩12月1日讯,字节跳动近日推出120亿参数的多模态大语言模型Vidi2,专注于视频理解与生成。该模型支持数小时长视频处理,可自动梳理叙事逻辑、生成短视频或电影片段,并实现精准时空定位——直接输出特定物体或人物的时间戳与边界框。
Vidi2具备三大技术优势:高精度时空定位(STG)、文本-视觉-音频联合理解,以及在超长视频检索与问答任务中显著领先商业模型(IoU指标提升17.5%)。目前,其能力已集成至TikTok产品,如Smart Split智能剪辑与AI Outline剧本生成。
依托TikTok十亿级用户数据闭环,Vidi2有望加速AI对专业视频创作流程的重构,并推动实时生成与复杂场景理解等方向发展。