OCR文档自学习,是面向“无算法基础”的企业与个人开发者用户,通过全流程可视化操作,支持用户完成模板配置、数据处理&标注、模型构建&训练、部署发布等操作的一站式工具平台。采用少样本训练、智能预标注,视觉-语义联合学习等前沿AI技术,支持客户低成本实现个性化场景的文档数字化和信息化业务。为用户提供可靠的定制化工具!
基于阿里云强大的预训练模型,经过调优训练的多版式模型识别准确率可达95%以上
仅需标注少量数据即可完成模型优化迭代,且模型具有泛化性
无需代码开发,开箱即用,可自主配置规则,交互友好可控
提供智能预标注能力,多人协同标注耗时短
适用于版式相对固定或可枚举(不超过50种),需要结构化抽取Key-Value信息的图片或单页PDF文件
模型有持续优化的需求,且有较多的数据样本可用于模型训练进行效果优化的单据票证类数据。如营业执照、医疗发票等财税报销,资质审核,业务内部单据结构化识别等场景
创建「单据票证信息抽取」流程如下图,需要超过20张图片进行训练才可完成模型创建。更多信息及操作详见操作指南
操作视频