OCR图文结构技术架构和实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上线:自动评测发布,实现批量调用
身份证 姓名:潘* 住址:浙江省** >>> 火车票 出发站:上海南站 票价:66.88 >>>
…
通用kv模板:提取各式卡证结构
读光广泛应用于集团各种业务场景 在云上我们服务了政府、金融、海关等各行业的用户
谢谢!
火车票 出租票 发票
…
身份证 行驶
…
营业执照 许可证
…
增值税发票
火车票
…
2. 自动卡证分类器
类型:增值税发票 金额:294.0 发票代码:4300181130 发票号码:02857254 售票方税号:13894927246239 售票方名称:深圳市中兴新云服务有限公司 发票详情:『服务名称: *住宿服务*; 金额: 318.45; …』类 …型…:火车票 出发站:株洲西站 到达站:广州南站 车次:G1127 开车时间:2018年11月15日17:01开 座位号:06车13C号 票价:294.0 ……
输出的数字串是什么? 用户有设定的问题: • 姓名是? •…
识别并不是最终用户需求
结合空间和语义关系的结构理解
身份证 姓名:潘* 住址:浙江省** 身份证号码:510* 生日:* 性别: * 民族:*
解答用户问题
卡证/表单的样式非常多,有常规通用性和自定义的 单个卡证也存在打印错位、噪声干扰、拍摄扭曲等问题
图片输入 高拍仪采集录入
客户端
政务应用系统(查看、检索、对比…)
各式纸质or图片文档
一体机服务器
读光OCR文档服务引擎
电子文档
印章 标题 文字
表格
段落
文档中文本、表格、标题等元素和结构提取 实现文档内容还原
文件图片搜索
文件系统 批量文件
元素提取&校对
标题一致 ?
段落一致 ?
印章一致 ?
…
人工确认
印章: 忽略 文字: 忽略
…
文件搜索、元素提取&校对、人机交互 实现文档集间交叉对比
定额发票
火车票
出租车票
各式报销材料
读光OCR票据服务引擎
机票行程单 机动车发票
增值税发票
2. 调用OCR并读取识别结果
1.输入 财务RPA系统
3. 自动录入报销系统
数据录入
报销/报帐系统 4. 自动进行发票验真与报税
OCRபைடு நூலகம்文结构技术架构和实践
01
Contents
目录
02
03
01
OCR
官员养廉
可复制
可查询
个人信息表
姓名: 生日: 地址:
身份证号码: 银行卡卡号:
可录入
02
表格 文字
印章
信息
元素(表格、图案、文字…)检测
检测
户口登记机关
户:0.52 口:0.87 专:0.90 用:0.92
KV输出
户主姓名:王永* 户号:509023** 住址:杭州市西湖区**
…
识别
结构理 解
旧凝结卞1l/旦 日一l
精准检测
少量像素误差可能导致错误识别
招聘
搬砖工: 1 产品经理: 1 领导: 2
公司介绍:下海登山亲轻而易举,上天入地无所不能。
尺度变化大
长边跨度1-2000,端边跨度5-200
各种干扰
遮挡、倾斜、弯曲、粘连、背景等
精准检测
真实场景中的文字检测案例
常用印刷字体有几百种 古籍、手写字体多,上亿
照片资料输入
申请材料
手机拍照
STEP2 审批人员根据拍 照材料进行识别并初审
在线初审 人工初审
审批通过
STEP3 申请人将原材料提交至柜台 ,工作人员对材料进行扫描
现场录入
高拍仪采集录入
拒绝,补充材料
STEP4 放贷过程比对照片材料与扫 描材料异同判断是否如期放款
人工审核
用户痛点:每份审批材料包含200多张图片,需要进行乱序比对,人工核对量大,误操作高
类型:火车票 出发站:株洲西站 到达站:广州南站 车次:G1127 开车时间:2018年11月15日17:01开 座位号:06车13C号 票价:294.0 类型:增值税发票 …… 金额:294.0 纳税人识别号:13894927246239 发票号码:3210494 ……
验真、报税系统
1.票据 框检测
GCN-图匹配网络
GEMR-图实体聚合识别模型
结构理解(结合空间&语义关系)
03
版面分析
内容/顺序/…
OCR
图转文字
结构理解
kv/表格/…
智能模板
kv结构自学平台
识别产品 文档产品 卡证kv产品 模板产品
duguang.aliyun.com
STEP1 用户在APP中申请信 贷,并通过手机拍照上传材料
背景、噪声、扭曲、光照等风格变化
字体&风格
常用汉字 3700 个,覆盖 99% 书面资料
记录汉字
9100 0
个,常用姓名、地名 21000 个
8000 0
个生僻字
相似字&生僻字是汉字特有的学术难题
一部书即一种字体 10w以上字类,且类间差异小 破损、印记、签注 。。。
真实场景中的文字识别案例
5101321986***
输入图
4
5
1
2
3
5
5
3
输出
元素输出
文本:内容、位置 表格:位置、还原 印章:位置、类型 二维码:位置、信息
KV输出
户主姓名:王永* 户号:509023*** 住址:杭州市** 签发日期:2016年**
文字等元素检测
文字识别
node: 广义字段: 通用图实体 狭义字段:文本embedding
edge: node的空间距离
…
3. 智能模板
人工分类
个人资质
企业资质
分类管理器可以实现数据归档 同时是数据结构化的基础
银行单据
办理贷款、算蚂蚁积分、司法诉讼等都会提供大量卡证表单信息 卡证分类是一个基础需求
个人征信核验 工商信息查询 银行流水对账
用户输入: 100-200张标注样本 端到端的低成本标注方案
自学习:自动数据增强和模型训练 结合空间和语义的结构理解