基于OCR技术的图片表格识别方法[发明专利]
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专利名称:基于OCR技术的图片表格识别方法专利类型:发明专利
发明人:吴信朝,李开宇,翟恩荣
申请号:CN201910558402.6
申请日:20190626
公开号:CN110263739A
公开日:
20190920
专利内容由知识产权出版社提供
摘要:本发明涉及基于OCR技术的图片表格识别方法,包括:A.通过OCR技术对图片内容进行行切分,判断图片内容中是否含有表格,如果有则继续,否则结束;B.对行切分图进行OCR技术的膨胀操作和腐蚀操作,分别得到表格的行线和列线,计算行线和列线的交点坐标;C.根据所述的交点坐标进行切图,得到单元格集;D.迭代单元格集中的单元格,对每个图片形式的单元格进行行切分得到各单元格中图片形式的文本行;E.通过OCR技术识别所有图片形式的文本行中的字符文本,并根据每个文本行的定位将其对应的字符文本组合成完整的结构化文本。
本发明能够实现表格识别100%的正确率,并且不需要预先制定表格模板,能够适用于更广泛的应用领域,并且资源消耗少。
申请人:四川新网银行股份有限公司
地址:610094 四川省成都市成都高新区吉泰三路8号1栋1单元26楼1-8号
国籍:CN
代理机构:成都智言知识产权代理有限公司
代理人:濮云杉
更多信息请下载全文后查看。