• 自定义KV模板
  • 自定义表格模板
  • 单据票证信息抽取
  • 表格信息抽取
  • 长文档信息抽取
功能简介
表格信息抽取是基于深度学习的信息抽取自学习模型任务,可对版式相对固定的表格、表单的等类型数据有较好的效果,支持用户自定义抽取字段,通过平台可视化引导,完成数据标注和模型训练。
在图像质量较好情况下,通过100+训练样本标注,调优后模型识别准确率可超95%+。
同时工具箱中还提供分类器管理工具与字段类型管理工具,支持用户通过同一接口完成不同类型数据的自动分类路由与高精度识别。
功能优势
高精度

基于阿里云强大的预训练模型,经过调优训练的多版式模型识别准确率可达95%以上

少样本

仅需标注少量数据即可完成模型优化迭代,且模型具有泛化性

低门槛

无需代码开发,开箱即用,可自主配置规则,交互友好可控

高效率

提供智能预标注能力,多人协同标注耗时短

应用场景

支持列表(List)型表格和键值对(KV)型表格,适用于版式少量变化或可枚举的有线表格,半框表格,无框表格,需要结构化信息抽取的图片或单页PDF文件

表格

    模型有持续优化的需求,且有较多的数据样本可用于模型训练进行效果优化的表格表单数据,例如财税报销,资质审核,业务内部单据结构化识别等场景

    财税报销
      操作指南

      创建「表格信息抽取」流程如下图,开始模型训练需要至少20个训练数据。更多信息及操作详见操作指南

      操作指南

      操作视频