OCR技术调研 - 360文档中心

合集下载

相关主题

ocr技术

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

OCR技术调研

1. 调研目的 (1)

2. 技术选型 (1)

3. 技术介绍 (1)

4. 调研结论 (1)

1.调研目的

目前外购数据文档中，及爬取数据中都会带有大量图片数据，这类数据不容易存储及检索，这就对图像文件进行分析处理，获取文字信息，放入全文索引库，丰富大数据知识库。对OCR光学字符识别技术调研，就是为了找到一种合适的技术来实现这个需求。

2.技术选型

关于中文OCR，目前国内水平较高的有清华文通、汉王、尚书，其产品各有千秋，但是都价值不菲。基于项目选型的几点要求：开源、免费、识别率高；所以选择了Tesseract的OCR引擎。

3.技术介绍

Tesseract的OCR引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR 业内最准确的三款识别引擎之一。然而，HP不久便决定放弃OCR业务，Tesseract也从此尘封。数年以后，HP意识到，与其将Tesseract束之高阁，不如贡献给开源软件业，让其重焕新生－－2005年，Tesseract由美国内华达州信息技术研究所获得，并求诸于Google对Tesseract进行改进、消除Bug、优化工作。其通过不同的语言训练库可以支持多种语言(包括中文、日文)。

Tesseract目前已作为开源项目发布在Google Project，其项目主页在这里查看，其最新版本3.0已经支持中文OCR，并提供了一个命令行工具。

4.调研结论

4.1.技术优势

开源

Tesseract的OCR引擎已作为开源项目发布在Google Project，是完全开源的。

●多语言支持

通过不同的语言训练库可以支持多种语言(包括中文、日文)。

●多平台支持

该项目目前支持Windows、Linux和Mac OS 等主流平台。

●支持样本训练

可以通过jTessBoxEditor工具对样本进行训练，而生成语言文件供Tesseract使用，从而提高识别精确度。

4.1.技术缺陷

●中文识别精度有限

Tesseract早期版本是不支持中文识别的，3.0版本之后开始支持中文，行距，字体等因素都会影响设别度。可以进行样本训练来提升精确度。

●不支持API调用

作为一个引擎，Tesseract只提供命令行工具，只能通过命令行来调用，无法直接使用java调用API。