品玩10月21日讯,据AIBASE 报道,上海人工智能实验室联合浙江大学推出全球首个视频转网页评测基准IWR-Bench,填补AI前端开发动态交互评测空白。
该基准要求模型通过“视频+静态资源”重建网页交互,覆盖2048游戏、机票预订等场景,以视觉保真度(VFS)和交互功能正确性(IFS)评估。其匿名化静态资源、自动化测试设计贴近真实开发。
对28款主流模型评测显示,GPT-5综合得分仅36.35分:VFS达64.25%,IFS仅24.39%。视频优化模型表现不及通用模型,“思考”机制提升有限。该基准将推动技术融合,未来或降低前端开发门槛。
