ocr技术调研及进展汇报
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hale Waihona Puke BaiduOCR技术调研及进展汇报
OCR介绍
OCR识别技术通过对图片中的文字进行提取识别,转换成可 检索的数据。OCR基于汉字的识别最早见于20世纪60年代,采用基 于模版匹配的方法,由IBM公司的Casey和Nagy于1966年提出。我 们国家开始于70年代,到了90年代,中文OCR技术慢慢走商业市场, 开始在实际中应用。
Tesseract的技术优势
基于项目选型的几点要求:开源、免费、识别率高;所以选择 了Tesseract的OCR引擎。
• 开源 Tesseract的OCR引擎已作为开源项目发布在Google Project,是完全开源 的。 • 多语言支持 通过不同的语言训练库可以支持多种语言(包括中文、日文)。 • 多平台支持 该项目目前支持Windows、Linux和Mac OS 等主流平台。 • 支持样本训练 可以通过jTessBoxEditor工具对样本进行训练,而生成语言文件供 Tesseract使用,从而提高识别精确度。
Tesseract识别过程图
Tesseract识别关键技术
传统方法和深度学习方法对比
Tesseract训练
• 下载工具jTessBoxEditor • 1、自己扫描获取样本图像 • 2、合并样本图像 • 3、生成Box File文件 • 4、手工矫正生成语言库文件 • 5、使用训练后的语言库进行识别
汉王效果
{ "code":0,"result":"云计算、人工智能等技术,探索构建可灵活扩展的 网站架构,创\u000a新服务模式,打造智慧型政府网站。\u000a 5. 集约节约。加强统筹规划和顶层设计,优化技术、资金、\u000a人员 等要素配置,避免重复建设,以集中共享的资源库为基础、\u000a安 全可控的云平台为依托,打造协同联动、规范高效的政府网站\u000a 集群。\u000a 二、职责分工\u000a (一)管理职责。\u000a 国务 院办公厅是全国政府网站的主管单位,负责推进、指\u000a导、监督 全国政府网站建设和发展。各省(区、市)人民政府办\u000a公厅、 国务院各部门办公厅(室)是本地区、本部门政府网站的\u000a主管 单位,实行全系统垂直管理的国务院部门办公厅(室)是本\u000a系 统网站的主管单位。主管单位负责对政府网站进行统筹规划和\u000a 监督考核,做好开办整合、安全管理、考核评价和督查问责等管 \u000a理工作。地市级和县级人民政府办公厅(室)承担本地区政府 网\u000a站的管理职责。\u000a 中央网信办统筹协调全国政府网站 安全管理工作。中央编\u000a办、工业和信息化部、公安部是全国政 府网站的协同监管单位,\u000a共同做好网站标识管理、域名管理和 ICP备案、网络安全等级\u000a保护、打击网络犯罪等工作。 \u000a (二)办站职责。\u000a 1.政府网站的主办单位一般是政府办 公厅(室)或部门办"}
输入图像
图像预处 理
特征提取 和降维
分类器
分类得到 识别结果
后处理 纠正
输出
图像预处理
• 图像增强
• 锐化、去雾、修复
• 图像二值化
• 黑白化
图像预处理
• OpenCV —— 图像处理老大哥。OpenCV3中有Scene Text Detection值得一用。 • Libccv —— 现代图像处理库,被很多人推荐。实现了精选的若干个图像处理 算法,干净容易移植。其中 Stroke Width Transfor 尤其有用。 • lswms —— 分行检测。 • OCRopus —— 基于神经学习网络算法的布局分析库。 • TiRG —— 文字区域检测库 • unpaper —— 检测文字和旋转,用的是 Hough transform 算法。
OCR商业产品
目前国内水平较高的有清华文通、汉王、尚书,国外是 ABBYY和IRIS,其产品各有千秋,但是都价值不菲。效果基本都能 够达到95%,扫描清晰的话正确率可以达到99%以上,腾讯云ocr据 说已经达到99.99%
OCR选型
• Tesseract —— 开源OCR引擎,也有命令行工具。HP开发Google接手。3.0之后支持训练,4.0 以后开始支持深度学习训练 C++ 工程
Tesseract支持增量训练
• 通过输入小数据集进行优化, 将不同的训练文件合在一起,可小 幅度提升效果
后处理语义纠正
• 利用语义模型对一些错误识别进行纠正 • 大树据-》大数据 • 仼小二 -》王小二
Tesseract效果
{meta={code=200, message=识别成功}, data={result=云计算 、 人工智能等技术, 探索构建可灵活扩展的网站架构, 创 新服务模式, 打造智慧型政府网站 u 5' 集约节约。 加强统 筹规划和顶层设计, 优化技术、 资金、人员等要素配置, 避免重复建设, 以集中共享的资源库为基础、安全可控的 云平台为依托, 打造协同联动、 规范高效的政府网站集群 。二、 职贵分工(一) 管理职贵。国务院办公厅是全国政 府网站的主管单位, 负责推进、 指导、 监督全国政府网站 建设和发展。 各省 (区、 市> 人民政府办公厅、 国务院各 部门办公厅 (室) 是本地区、 本部门政府网站的主管单位, 实行全系统垂直管理的国务院部门办公厅 (室) 是本系统 网站的主管单位。 主管单位负责对政府网站进行统筹规 划和监督考核, 做好开办整合、 安全管理、 考核评价和督 查问贵等管理工作。 地市级和县级人民政府办公厅 (室) 承担本地区政府网站的管理职责。中央网信办统筹协调全 国政府网站安全管理工作u 中央编办、 工业和信息化部、 公安部是全国政府网站的协同监管单位,共同做好网站标 识管理、 域名管理和ICP备案、 网络安全等级保护、 打击 网络犯罪等工作。(二) 办站职贵 u 1. 政府网站的主办单位 一般是政府办公厅 (室) 或部门办_ 4 _}}
• OCRopy —— 基于训练的OCR引擎,项目比Tesseract更年轻 Python工程
• Microsoft OCR Library —— 有中文版 Windows8.1之后的版本内置OCR引擎,可用于桌面 windows app 不知道效果如何 • GNU Ocrad —— 命令行工具。有JS移植,可用于前端 • GOCR —— 命令行工具。有JS移植,可用于前端 • Cuneiform for Linux —— 本来是个Windows软件,这是Linux的移植,2011年4月已经停止维 护
后期工作
• 本周可以完成产品应用ocr服务接口 • 增量训练 完成增量训练优化 一个月 • 图像预处理 • 场景做定制化 复杂图片识别和结构化识别 三个月 • 目标效果达到90%
总结
• 使用开源工具标注数据,支持增量训练,可以做一个baseline • 前面的图像预处理很重要, • 后面需要针对场景做定制化优化 • 使用深度学习训练达到更好的效果
移动端OCR开源工程
• tess-two ,Tesseract的安卓移植 • microblink ,免费的移动OCR-SDK
OCR问题分类
• 简单文本图片 业界能做到比较好效果 • 复杂图文
复杂图文的文字检测和识别压力很大,非常具有挑战性
• 结构化图文
不光是ocr,需要结合其他方法定位
OCR流程
OCR介绍
OCR识别技术通过对图片中的文字进行提取识别,转换成可 检索的数据。OCR基于汉字的识别最早见于20世纪60年代,采用基 于模版匹配的方法,由IBM公司的Casey和Nagy于1966年提出。我 们国家开始于70年代,到了90年代,中文OCR技术慢慢走商业市场, 开始在实际中应用。
Tesseract的技术优势
基于项目选型的几点要求:开源、免费、识别率高;所以选择 了Tesseract的OCR引擎。
• 开源 Tesseract的OCR引擎已作为开源项目发布在Google Project,是完全开源 的。 • 多语言支持 通过不同的语言训练库可以支持多种语言(包括中文、日文)。 • 多平台支持 该项目目前支持Windows、Linux和Mac OS 等主流平台。 • 支持样本训练 可以通过jTessBoxEditor工具对样本进行训练,而生成语言文件供 Tesseract使用,从而提高识别精确度。
Tesseract识别过程图
Tesseract识别关键技术
传统方法和深度学习方法对比
Tesseract训练
• 下载工具jTessBoxEditor • 1、自己扫描获取样本图像 • 2、合并样本图像 • 3、生成Box File文件 • 4、手工矫正生成语言库文件 • 5、使用训练后的语言库进行识别
汉王效果
{ "code":0,"result":"云计算、人工智能等技术,探索构建可灵活扩展的 网站架构,创\u000a新服务模式,打造智慧型政府网站。\u000a 5. 集约节约。加强统筹规划和顶层设计,优化技术、资金、\u000a人员 等要素配置,避免重复建设,以集中共享的资源库为基础、\u000a安 全可控的云平台为依托,打造协同联动、规范高效的政府网站\u000a 集群。\u000a 二、职责分工\u000a (一)管理职责。\u000a 国务 院办公厅是全国政府网站的主管单位,负责推进、指\u000a导、监督 全国政府网站建设和发展。各省(区、市)人民政府办\u000a公厅、 国务院各部门办公厅(室)是本地区、本部门政府网站的\u000a主管 单位,实行全系统垂直管理的国务院部门办公厅(室)是本\u000a系 统网站的主管单位。主管单位负责对政府网站进行统筹规划和\u000a 监督考核,做好开办整合、安全管理、考核评价和督查问责等管 \u000a理工作。地市级和县级人民政府办公厅(室)承担本地区政府 网\u000a站的管理职责。\u000a 中央网信办统筹协调全国政府网站 安全管理工作。中央编\u000a办、工业和信息化部、公安部是全国政 府网站的协同监管单位,\u000a共同做好网站标识管理、域名管理和 ICP备案、网络安全等级\u000a保护、打击网络犯罪等工作。 \u000a (二)办站职责。\u000a 1.政府网站的主办单位一般是政府办 公厅(室)或部门办"}
输入图像
图像预处 理
特征提取 和降维
分类器
分类得到 识别结果
后处理 纠正
输出
图像预处理
• 图像增强
• 锐化、去雾、修复
• 图像二值化
• 黑白化
图像预处理
• OpenCV —— 图像处理老大哥。OpenCV3中有Scene Text Detection值得一用。 • Libccv —— 现代图像处理库,被很多人推荐。实现了精选的若干个图像处理 算法,干净容易移植。其中 Stroke Width Transfor 尤其有用。 • lswms —— 分行检测。 • OCRopus —— 基于神经学习网络算法的布局分析库。 • TiRG —— 文字区域检测库 • unpaper —— 检测文字和旋转,用的是 Hough transform 算法。
OCR商业产品
目前国内水平较高的有清华文通、汉王、尚书,国外是 ABBYY和IRIS,其产品各有千秋,但是都价值不菲。效果基本都能 够达到95%,扫描清晰的话正确率可以达到99%以上,腾讯云ocr据 说已经达到99.99%
OCR选型
• Tesseract —— 开源OCR引擎,也有命令行工具。HP开发Google接手。3.0之后支持训练,4.0 以后开始支持深度学习训练 C++ 工程
Tesseract支持增量训练
• 通过输入小数据集进行优化, 将不同的训练文件合在一起,可小 幅度提升效果
后处理语义纠正
• 利用语义模型对一些错误识别进行纠正 • 大树据-》大数据 • 仼小二 -》王小二
Tesseract效果
{meta={code=200, message=识别成功}, data={result=云计算 、 人工智能等技术, 探索构建可灵活扩展的网站架构, 创 新服务模式, 打造智慧型政府网站 u 5' 集约节约。 加强统 筹规划和顶层设计, 优化技术、 资金、人员等要素配置, 避免重复建设, 以集中共享的资源库为基础、安全可控的 云平台为依托, 打造协同联动、 规范高效的政府网站集群 。二、 职贵分工(一) 管理职贵。国务院办公厅是全国政 府网站的主管单位, 负责推进、 指导、 监督全国政府网站 建设和发展。 各省 (区、 市> 人民政府办公厅、 国务院各 部门办公厅 (室) 是本地区、 本部门政府网站的主管单位, 实行全系统垂直管理的国务院部门办公厅 (室) 是本系统 网站的主管单位。 主管单位负责对政府网站进行统筹规 划和监督考核, 做好开办整合、 安全管理、 考核评价和督 查问贵等管理工作。 地市级和县级人民政府办公厅 (室) 承担本地区政府网站的管理职责。中央网信办统筹协调全 国政府网站安全管理工作u 中央编办、 工业和信息化部、 公安部是全国政府网站的协同监管单位,共同做好网站标 识管理、 域名管理和ICP备案、 网络安全等级保护、 打击 网络犯罪等工作。(二) 办站职贵 u 1. 政府网站的主办单位 一般是政府办公厅 (室) 或部门办_ 4 _}}
• OCRopy —— 基于训练的OCR引擎,项目比Tesseract更年轻 Python工程
• Microsoft OCR Library —— 有中文版 Windows8.1之后的版本内置OCR引擎,可用于桌面 windows app 不知道效果如何 • GNU Ocrad —— 命令行工具。有JS移植,可用于前端 • GOCR —— 命令行工具。有JS移植,可用于前端 • Cuneiform for Linux —— 本来是个Windows软件,这是Linux的移植,2011年4月已经停止维 护
后期工作
• 本周可以完成产品应用ocr服务接口 • 增量训练 完成增量训练优化 一个月 • 图像预处理 • 场景做定制化 复杂图片识别和结构化识别 三个月 • 目标效果达到90%
总结
• 使用开源工具标注数据,支持增量训练,可以做一个baseline • 前面的图像预处理很重要, • 后面需要针对场景做定制化优化 • 使用深度学习训练达到更好的效果
移动端OCR开源工程
• tess-two ,Tesseract的安卓移植 • microblink ,免费的移动OCR-SDK
OCR问题分类
• 简单文本图片 业界能做到比较好效果 • 复杂图文
复杂图文的文字检测和识别压力很大,非常具有挑战性
• 结构化图文
不光是ocr,需要结合其他方法定位
OCR流程