读光 · 体验中心

文字识别OCR

OCR文档自学习，是面向“无算法基础”的企业与个人开发者用户，通过全流程可视化操作，支持用户完成模板配置、数据处理&标注、模型构建&训练、部署发布等操作的一站式工具平台。采用少样本训练、智能预标注，视觉-语义联合学习等前沿AI技术，支持客户低成本实现个性化场景的文档数字化和信息化业务。为用户提供可靠的定制化工具！

自定义KV模板
自定义表格模板
单据票证信息抽取
表格信息抽取
长文档信息抽取

功能简介

单据票证信息抽取（固定版式）是基于深度学习的信息抽取自学习模型任务，可对版式相对固定的单据、证件、凭证等类型数据有较好的效果，支持用户自定义抽取字段，通过平台可视化引导，完成数据标注和模型训练。

在图像质量较好情况下，通过100+训练样本标注，调优后模型识别准确率可超95%+。

同时工具箱中还提供分类器管理工具与字段类型管理工具，支持用户通过同一接口完成不同类型数据的自动分类路由与高精度识别。

功能优势

高精度

基于阿里云强大的预训练模型，经过调优训练的多版式模型识别准确率可达95%以上

少样本

仅需标注少量数据即可完成模型优化迭代，且模型具有泛化性

低门槛

无需代码开发，开箱即用，可自主配置规则，交互友好可控

高效率

提供智能预标注能力，多人协同标注耗时短

应用场景

适用于版式相对固定或可枚举（不超过50种），需要结构化抽取Key-Value信息的图片或单页PDF文件

PDF文件

模型有持续优化的需求，且有较多的数据样本可用于模型训练进行效果优化的单据票证类数据。如营业执照、医疗发票等财税报销，资质审核，业务内部单据结构化识别等场景

医疗发票

操作指南

创建「单据票证信息抽取」流程如下图，需要超过20张图片进行训练才可完成模型创建。更多信息及操作详见操作指南

操作指南

操作视频