ocr技术调研及进展汇报ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
OCR技术调研及进展汇报
-
OCR介绍
OCR识别技术通过对图片中的文字进行提取识别,转换成可 检索的数据。OCR基于汉字的识别最早见于20世纪60年代,采用基 于模版匹配的方法,由IBM公司的Casey和Nagy于1966年提出。我 们国家开始于70年代,到了90年代,中文OCR技术慢慢走商业市场, 开始在实际中应用。
护
-
Tesseract的技术优势
基于项目选型的几点要求:开源、免费、识别率高;所以选择 了Tesseract的OCR引擎。 •开源 Tesseract的OCR引擎已作为开源项目发布在Google Project,是完全 开源的。
•多语言支持 通过不同的语言训练库可以支持多种语言(包括中文、日文)。 •多平台支持 该项目目前支持Windows、Linux和Mac OS 等主流平台。 •支持样本训练 可以通过jTessBoxEditor工具对样本- 进行训练,而生成语言文件供
-
Tesseract识别过程图
-
Tesseract识别关键技术
-
传统方法和深度学习方法对比
-
Tesseract训练
• 下载工具jTessBoxEditor • 1、自己扫描获取样本图像 • 2、合并样本图像 • 3、生成Box File文件 • 4、手工矫正生成语言库文件 • 5、使用训练后的语言库进行识别
• OCRopy —— 基于训练的OCR引擎,项目比Tesseract更年轻 Python工程 • Microsoft OCR Library —— 有中文版 Windows8.1之后的版本内置OCR引擎,可用于桌面
windows app 不知道效果如何 • GNU Ocrad —— 命令行工具。有JS移植,可用于前端 • GOCR —— 命令行工具。有JS移植,可用于前端 • Cuneiform for Linux —— 本来是个Windows软件,这是Linux的移植,2011年4月已经停止维
算法,干净容易移植。其中 Stroke Width Transfor 尤其有用。 • lswms —— 分行检测。 • OCRopus —— 基于神经学习网络算法的布局分析库。 • TiRG —— 文字区域检测库 • unpaper —— 检测文字和旋转,用的是 Hough transform 算法。
输入图像
图像预处 理
特征提取 和降维
分类器源自文库
分类得到 识别结果
后处理 纠正
输出
-
图像预处理
• 图像增强
• 锐化、去雾、修复
• 图像二值化
• 黑白化
-
图像预处理
• OpenCV —— 图像处理老大哥。OpenCV3中有Scene Text Detection值得一用。 • Libccv —— 现代图像处理库,被很多人推荐。实现了精选的若干个图像处理
-
汉王效果
{"code":0,"result":"云计算、人工智能等技术,探索构建可灵活扩展的网 站架构,创\u000a新服务模式,打造智慧型政府网站。\u000a 5.集约 节约。加强统筹规划和顶层设计,优化技术、资金、\u000a人员等要 素配置,避免重复建设,以集中共享的资源库为基础、\u000a安全可 控的云平台为依托,打造协同联动、规范高效的政府网站\u000a集群。 \u000a 二、职责分工\u000a (一)管理职责。\u000a 国务院办公 厅是全国政府网站的主管单位,负责推进、指\u000a导、监督全国政 府网站建设和发展。各省(区、市)人民政府办\u000a公厅、国务院 各部门办公厅(室)是本地区、本部门政府网站的\u000a主管单位, 实行全系统垂直管理的国务院部门办公厅(室)是本\u000a系统网站 的主管单位。主管单位负责对政府网站进行统筹规划和\u000a监督考 核,做好开办整合、安全管理、考核评价和督查问责等管\u000a理工 作。地市级和县级人民政府办公厅(室)承担本地区政府网\u000a站 的管理职责。\u000a 中央网信办统筹协调全国政府网站安全管理工 作。中央编\u000a办、工业和信息化部、公安部是全国政府网站的协 同监管单位,\u000a共同做好网站标识管理、域名管理和ICP备案、网 络安全等级\u000a保护、打击网络犯罪等工作。\u000a (二)办站职责。 \u000a 1.政府网站的主办单位一般是政府办公厅(室)或部门办"}
-
Tesseract支持增量训练
• 通过输入小数据集进行优化, 将不同的训练文件合在一起,可小 幅度提升效果
-
后处理语义纠正
• 利用语义模型对一些错误识别进行纠正 • 大树据-》大数据 • 仼小二 -》王小二
-
Tesseract效果
{meta={code=200, message=识别成功}, data={result=云计算、 人工智能等技术, 探索构建可灵活扩展的网站架构, 创新服 务模式, 打造智慧型政府网站 u 5' 集约节约。 加强统筹规 划和顶层设计, 优化技术、 资金、人员等要素配置, 避免 重复建设, 以集中共享的资源库为基础、安全可控的云平 台为依托, 打造协同联动、 规范高效的政府网站集群。二、 职贵分工(一) 管理职贵。国务院办公厅是全国政府网站的 主管单位, 负责推进、 指导、 监督全国政府网站建设和发 展。 各省 (区、 市> 人民政府办公厅、 国务院各部门办公 厅 (室) 是本地区、 本部门政府网站的主管单位, 实行全系 统垂直管理的国务院部门办公厅 (室) 是本系统网站的主 管单位。 主管单位负责对政府网站进行统筹规划和监督 考核, 做好开办整合、 安全管理、 考核评价和督查问贵等 管理工作。 地市级和县级人民政府办公厅 (室) 承担本地 区政府网站的管理职责。中央网信办统筹协调全国政府网 站安全管理工作u 中央编办、 工业和信息化部、 公安部 是全国政府网站的协同监管单位,共同做好网站标识管理、 域名管理和ICP备案、 网络安全等级保护、 打击网络犯罪 等工作。(二) 办站职贵 u 1. 政府网站的主办单位一般是政 府办公厅 (室) 或部门办_ 4 _}}
-
OCR商业产品
目前国内水平较高的有清华文通、汉王、尚书,国外是 ABBYY和IRIS,其产品各有千秋,但是都价值不菲。效果基本都能 够达到95%,扫描清晰的话正确率可以达到99%以上,腾讯云ocr据 说已经达到99.99%
-
OCR选型
• Tesseract —— 开源OCR引擎,也有命令行工具。HP开发Google接手。3.0之后支持训练,4.0 以后开始支持深度学习训练 C++ 工程
移动端OCR开源工程
• tess-two ,Tesseract的安卓移植 • microblink ,免费的移动OCR-SDK
-
OCR问题分类
•简单文本图片 业界能做到比较好效果
•复杂图文
复杂图文的文字检测和识别压力很大,非常具有挑战性
•结构化图文
不光是ocr,需要结合其他方法定位
-
OCR流程
-
OCR介绍
OCR识别技术通过对图片中的文字进行提取识别,转换成可 检索的数据。OCR基于汉字的识别最早见于20世纪60年代,采用基 于模版匹配的方法,由IBM公司的Casey和Nagy于1966年提出。我 们国家开始于70年代,到了90年代,中文OCR技术慢慢走商业市场, 开始在实际中应用。
护
-
Tesseract的技术优势
基于项目选型的几点要求:开源、免费、识别率高;所以选择 了Tesseract的OCR引擎。 •开源 Tesseract的OCR引擎已作为开源项目发布在Google Project,是完全 开源的。
•多语言支持 通过不同的语言训练库可以支持多种语言(包括中文、日文)。 •多平台支持 该项目目前支持Windows、Linux和Mac OS 等主流平台。 •支持样本训练 可以通过jTessBoxEditor工具对样本- 进行训练,而生成语言文件供
-
Tesseract识别过程图
-
Tesseract识别关键技术
-
传统方法和深度学习方法对比
-
Tesseract训练
• 下载工具jTessBoxEditor • 1、自己扫描获取样本图像 • 2、合并样本图像 • 3、生成Box File文件 • 4、手工矫正生成语言库文件 • 5、使用训练后的语言库进行识别
• OCRopy —— 基于训练的OCR引擎,项目比Tesseract更年轻 Python工程 • Microsoft OCR Library —— 有中文版 Windows8.1之后的版本内置OCR引擎,可用于桌面
windows app 不知道效果如何 • GNU Ocrad —— 命令行工具。有JS移植,可用于前端 • GOCR —— 命令行工具。有JS移植,可用于前端 • Cuneiform for Linux —— 本来是个Windows软件,这是Linux的移植,2011年4月已经停止维
算法,干净容易移植。其中 Stroke Width Transfor 尤其有用。 • lswms —— 分行检测。 • OCRopus —— 基于神经学习网络算法的布局分析库。 • TiRG —— 文字区域检测库 • unpaper —— 检测文字和旋转,用的是 Hough transform 算法。
输入图像
图像预处 理
特征提取 和降维
分类器源自文库
分类得到 识别结果
后处理 纠正
输出
-
图像预处理
• 图像增强
• 锐化、去雾、修复
• 图像二值化
• 黑白化
-
图像预处理
• OpenCV —— 图像处理老大哥。OpenCV3中有Scene Text Detection值得一用。 • Libccv —— 现代图像处理库,被很多人推荐。实现了精选的若干个图像处理
-
汉王效果
{"code":0,"result":"云计算、人工智能等技术,探索构建可灵活扩展的网 站架构,创\u000a新服务模式,打造智慧型政府网站。\u000a 5.集约 节约。加强统筹规划和顶层设计,优化技术、资金、\u000a人员等要 素配置,避免重复建设,以集中共享的资源库为基础、\u000a安全可 控的云平台为依托,打造协同联动、规范高效的政府网站\u000a集群。 \u000a 二、职责分工\u000a (一)管理职责。\u000a 国务院办公 厅是全国政府网站的主管单位,负责推进、指\u000a导、监督全国政 府网站建设和发展。各省(区、市)人民政府办\u000a公厅、国务院 各部门办公厅(室)是本地区、本部门政府网站的\u000a主管单位, 实行全系统垂直管理的国务院部门办公厅(室)是本\u000a系统网站 的主管单位。主管单位负责对政府网站进行统筹规划和\u000a监督考 核,做好开办整合、安全管理、考核评价和督查问责等管\u000a理工 作。地市级和县级人民政府办公厅(室)承担本地区政府网\u000a站 的管理职责。\u000a 中央网信办统筹协调全国政府网站安全管理工 作。中央编\u000a办、工业和信息化部、公安部是全国政府网站的协 同监管单位,\u000a共同做好网站标识管理、域名管理和ICP备案、网 络安全等级\u000a保护、打击网络犯罪等工作。\u000a (二)办站职责。 \u000a 1.政府网站的主办单位一般是政府办公厅(室)或部门办"}
-
Tesseract支持增量训练
• 通过输入小数据集进行优化, 将不同的训练文件合在一起,可小 幅度提升效果
-
后处理语义纠正
• 利用语义模型对一些错误识别进行纠正 • 大树据-》大数据 • 仼小二 -》王小二
-
Tesseract效果
{meta={code=200, message=识别成功}, data={result=云计算、 人工智能等技术, 探索构建可灵活扩展的网站架构, 创新服 务模式, 打造智慧型政府网站 u 5' 集约节约。 加强统筹规 划和顶层设计, 优化技术、 资金、人员等要素配置, 避免 重复建设, 以集中共享的资源库为基础、安全可控的云平 台为依托, 打造协同联动、 规范高效的政府网站集群。二、 职贵分工(一) 管理职贵。国务院办公厅是全国政府网站的 主管单位, 负责推进、 指导、 监督全国政府网站建设和发 展。 各省 (区、 市> 人民政府办公厅、 国务院各部门办公 厅 (室) 是本地区、 本部门政府网站的主管单位, 实行全系 统垂直管理的国务院部门办公厅 (室) 是本系统网站的主 管单位。 主管单位负责对政府网站进行统筹规划和监督 考核, 做好开办整合、 安全管理、 考核评价和督查问贵等 管理工作。 地市级和县级人民政府办公厅 (室) 承担本地 区政府网站的管理职责。中央网信办统筹协调全国政府网 站安全管理工作u 中央编办、 工业和信息化部、 公安部 是全国政府网站的协同监管单位,共同做好网站标识管理、 域名管理和ICP备案、 网络安全等级保护、 打击网络犯罪 等工作。(二) 办站职贵 u 1. 政府网站的主办单位一般是政 府办公厅 (室) 或部门办_ 4 _}}
-
OCR商业产品
目前国内水平较高的有清华文通、汉王、尚书,国外是 ABBYY和IRIS,其产品各有千秋,但是都价值不菲。效果基本都能 够达到95%,扫描清晰的话正确率可以达到99%以上,腾讯云ocr据 说已经达到99.99%
-
OCR选型
• Tesseract —— 开源OCR引擎,也有命令行工具。HP开发Google接手。3.0之后支持训练,4.0 以后开始支持深度学习训练 C++ 工程
移动端OCR开源工程
• tess-two ,Tesseract的安卓移植 • microblink ,免费的移动OCR-SDK
-
OCR问题分类
•简单文本图片 业界能做到比较好效果
•复杂图文
复杂图文的文字检测和识别压力很大,非常具有挑战性
•结构化图文
不光是ocr,需要结合其他方法定位
-
OCR流程