品玩1月30日讯,据飞桨官微消息,新一代文档解析模型PaddleOCR-VL-1.5正式发布并开源,系全球首个实现“异形框定位”能力的OCR模型,可精准识别倾斜、弯折、拍照畸变等不规则文档。
模型架构仅0.9B,整体精度达94.5%,获全球SOTA。在文档解析评测集OmniDocBench V1.5中综合性能第一,自然场景评估集Real5-OmniDocBench指标全面领先。其“异形框定位”能力解决了移动拍照、扫描件变形等场景中传统OCR识别失败问题,可应用于金融票据处理、档案数字化等领域。
对比同类,模型在表格结构理解、阅读顺序预测两项核心指标位列第一,版面逻辑解析错误率仅为其他模型约一半,合同、财报等复杂场景可用性更高。较上代,新增印章识别、多语种支持等功能,优化特殊符号、古籍等复杂结构识别,支持跨页表格合并与段落标题识别,解决长文档结构断裂问题。
目前模型已开源,可通过GitHub、HuggingFace获取,官网支持在线体验,并与多家硬件厂商及平台集成,方便多环境使用。