OCR技术调研

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

OCR技术调研

目录

1. 调研目的 (1)

2. 技术选型 (1)

3. 技术介绍 (1)

4. 调研结论 (1)

1.调研目的

目前外购数据文档中,及爬取数据中都会带有大量图片数据,这类数据不容易存储及检索,这就对图像文件进行分析处理,获取文字信息,放入全文索引库,丰富大数据知识库。对OCR光学字符识别技术调研,就是为了找到一种合适的技术来实现这个需求。

2.技术选型

关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,但是都价值不菲。基于项目选型的几点要求:开源、免费、识别率高;所以选择了Tesseract的OCR引擎。

3.技术介绍

Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR 业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。其通过不同的语言训练库可以支持多种语言(包括中文、日文)。

Tesseract目前已作为开源项目发布在Google Project,其项目主页在这里查看,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具。

4.调研结论

4.1.技术优势

开源

Tesseract的OCR引擎已作为开源项目发布在Google Project,是完全开源的。

●多语言支持

通过不同的语言训练库可以支持多种语言(包括中文、日文)。

●多平台支持

该项目目前支持Windows、Linux和Mac OS 等主流平台。

●支持样本训练

可以通过jTessBoxEditor工具对样本进行训练,而生成语言文件供Tesseract使用,从而提高识别精确度。

4.1.技术缺陷

●中文识别精度有限

Tesseract早期版本是不支持中文识别的,3.0版本之后开始支持中文,行距,字体等因素都会影响设别度。可以进行样本训练来提升精确度。

●不支持API调用

作为一个引擎,Tesseract只提供命令行工具,只能通过命令行来调用,无法直接使用java调用API。

相关文档
最新文档