ocr技术调研及进展汇报ppt

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

OCR技术调研及进展汇报
-
OCR介绍
OCR识别技术通过对图片中的文字进行提取识别，转换成可检索的数据。OCR基于汉字的识别最早见于20世纪60年代，采用基于模版匹配的方法，由IBM公司的Casey和Nagy于1966年提出。我们国家开始于70年代，到了90年代，中文OCR技术慢慢走商业市场，开始在实际中应用。
护
-
Tesseract的技术优势
基于项目选型的几点要求：开源、免费、识别率高；所以选择了Tesseract的OCR引擎。 •开源 Tesseract的OCR引擎已作为开源项目发布在Google Project，是完全开源的。
•多语言支持通过不同的语言训练库可以支持多种语言(包括中文、日文)。 •多平台支持该项目目前支持Windows、Linux和Mac OS 等主流平台。 •支持样本训练可以通过jTessBoxEditor工具对样本- 进行训练，而生成语言文件供
-
Tesseract识别过程图
-
Tesseract识别关键技术
-
传统方法和深度学习方法对比
-
Tesseract训练
• 下载工具jTessBoxEditor • 1、自己扫描获取样本图像 • 2、合并样本图像 • 3、生成Box File文件 • 4、手工矫正生成语言库文件 • 5、使用训练后的语言库进行识别
• OCRopy —— 基于训练的OCR引擎，项目比Tesseract更年轻 Python工程 • Microsoft OCR Library —— 有中文版 Windows8.1之后的版本内置OCR引擎，可用于桌面
windows app 不知道效果如何 • GNU Ocrad —— 命令行工具。有JS移植，可用于前端 • GOCR —— 命令行工具。有JS移植，可用于前端 • Cuneiform for Linux —— 本来是个Windows软件，这是Linux的移植，2011年4月已经停止维
算法，干净容易移植。其中 Stroke Width Transfor 尤其有用。 • lswms —— 分行检测。 • OCRopus —— 基于神经学习网络算法的布局分析库。 • TiRG —— 文字区域检测库 • unpaper —— 检测文字和旋转，用的是 Hough transform 算法。
输入图像
图像预处理
特征提取和降维
分类器源自文库
分类得到识别结果
后处理纠正
输出
-
图像预处理
• 图像增强
• 锐化、去雾、修复
• 图像二值化
• 黑白化
-
图像预处理
• OpenCV —— 图像处理老大哥。OpenCV3中有Scene Text Detection值得一用。 • Libccv —— 现代图像处理库，被很多人推荐。实现了精选的若干个图像处理
-
汉王效果
{"code":0,"result":"云计算、人工智能等技术，探索构建可灵活扩展的网站架构，创\u000a新服务模式，打造智慧型政府网站。\u000a 5.集约节约。加强统筹规划和顶层设计，优化技术、资金、\u000a人员等要素配置，避免重复建设，以集中共享的资源库为基础、\u000a安全可控的云平台为依托，打造协同联动、规范高效的政府网站\u000a集群。 \u000a 二、职责分工\u000a (一)管理职责。\u000a 国务院办公厅是全国政府网站的主管单位，负责推进、指\u000a导、监督全国政府网站建设和发展。各省（区、市）人民政府办\u000a公厅、国务院各部门办公厅（室）是本地区、本部门政府网站的\u000a主管单位，实行全系统垂直管理的国务院部门办公厅（室）是本\u000a系统网站的主管单位。主管单位负责对政府网站进行统筹规划和\u000a监督考核，做好开办整合、安全管理、考核评价和督查问责等管\u000a理工作。地市级和县级人民政府办公厅（室）承担本地区政府网\u000a站的管理职责。\u000a 中央网信办统筹协调全国政府网站安全管理工作。中央编\u000a办、工业和信息化部、公安部是全国政府网站的协同监管单位，\u000a共同做好网站标识管理、域名管理和ICP备案、网络安全等级\u000a保护、打击网络犯罪等工作。\u000a (二)办站职责。 \u000a 1.政府网站的主办单位一般是政府办公厅（室）或部门办"}
-
Tesseract支持增量训练
• 通过输入小数据集进行优化，将不同的训练文件合在一起，可小幅度提升效果
-
后处理语义纠正
• 利用语义模型对一些错误识别进行纠正 • 大树据-》大数据 • 仼小二 -》王小二
-
Tesseract效果
{meta={code=200, message=识别成功}, data={result=云计算、人工智能等技术, 探索构建可灵活扩展的网站架构, 创新服务模式, 打造智慧型政府网站 u 5' 集约节约。加强统筹规划和顶层设计, 优化技术、资金、人员等要素配置, 避免重复建设, 以集中共享的资源库为基础、安全可控的云平台为依托, 打造协同联动、规范高效的政府网站集群。二、职贵分工(一) 管理职贵。国务院办公厅是全国政府网站的主管单位, 负责推进、指导、监督全国政府网站建设和发展。各省 (区、市> 人民政府办公厅、国务院各部门办公厅 (室) 是本地区、本部门政府网站的主管单位, 实行全系统垂直管理的国务院部门办公厅 (室) 是本系统网站的主管单位。主管单位负责对政府网站进行统筹规划和监督考核, 做好开办整合、安全管理、考核评价和督查问贵等管理工作。地市级和县级人民政府办公厅 (室) 承担本地区政府网站的管理职责。中央网信办统筹协调全国政府网站安全管理工作u 中央编办、工业和信息化部、公安部是全国政府网站的协同监管单位,共同做好网站标识管理、域名管理和ICP备案、网络安全等级保护、打击网络犯罪等工作。(二) 办站职贵 u 1. 政府网站的主办单位一般是政府办公厅 (室) 或部门办_ 4 _}}
-
OCR商业产品
目前国内水平较高的有清华文通、汉王、尚书，国外是 ABBYY和IRIS，其产品各有千秋，但是都价值不菲。效果基本都能够达到95%，扫描清晰的话正确率可以达到99%以上，腾讯云ocr据说已经达到99.99%
-
OCR选型
• Tesseract —— 开源OCR引擎，也有命令行工具。HP开发Google接手。3.0之后支持训练，4.0 以后开始支持深度学习训练 C++ 工程
移动端OCR开源工程
• tess-two ，Tesseract的安卓移植 • microblink ，免费的移动OCR-SDK
-
OCR问题分类
•简单文本图片业界能做到比较好效果
•复杂图文
复杂图文的文字检测和识别压力很大，非常具有挑战性
•结构化图文
不光是ocr，需要结合其他方法定位
-
OCR流程