易度文档管理系统OCR使用说明

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

易度文档管理系统OCR使用说明

关于OCR

OCR是让系统识别出图片中包含的文字,方便对图片进行搜索。

主要特性

支持多种扫描文件格式,包括pdf文件和图片(tiff/jpg/bmp/png/gif/ppm)

支持英文、简体、繁体三种语言,支持数字的识别

支持宋体、仿宋、楷体、黑体、圆体、隶变等字体,部分支持粗圆体、魏碑、隶书

支持中英文混排识别

可识别黑白和彩色图片

通过设定文件夹OCR转换规则,上传的时候按需自动OCR识别

可对已经上传的文件,手工发起OCR识别

可手工修复识别结果中不正确的内容

安装方法

1.要求按照易度文档管理系统V4.2以上,企业版以上

2.需要在服务器上安装Tesseract,易度底层采用这个开源的OCR识别引擎。对于

Widnows版本:

V3.0的下载地址:

/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-

3.00.exe&can=2&q=

安装的时候,需要选择语言包:简体中文,繁体中文

安装完成后需要下载一个补丁包,下载解压后,复制到Tersseract安装目录,覆盖相关文件即可

/p/tesseract-ocr/downloads/detail?name=tesseract-

3.00.1.exe.zip&can=2&q=

更多的下载安装信息参看:

/p/tesseract-ocr/downloads/list

3.进入易度控制台,激活Tesseract转换服务

4.安装易度OCR支持扩展软件包

进入易度扩展软件包,找到“OCR初始化包”,点击安装,并完成部署

OCR的使用

上传文件自动OCR,是通过文件夹的规则定义来实现的。具体操作如下:

1.在任何一个文件夹下,点击规则,可看到“英文OCR”、“简体OCR”、“繁体OCR”三

个选项

目前只能为每一个文件指定一种语言识别,如果你的图片或者pdf 内用的是简体中文的字体,就需要用简体中文识别

2.比如选择选择添加“简体OCR”规则,可将这个规则应用到整个子文件夹,如下图:

3.在文件夹中,上传需要识别的文件, 你会看到文件多了一个拓展属性(OCR文本),

里面可以对OCR结果查看和操作

如何让从前上传的文档也支持OCR?

操作如下:

1.到某一个需要OCR的文件预览界面

2.点击“新增属性栏”,选择 “OCR文本“

3.进入新添加的“OCR文本”属性栏

a)如果需要,选择正确的语言(默认是“简体中文”),并保存。

b)点击“重新识别”链接

一些限制

暂不支持行楷、手写字体

不支持繁简混合

OCR是一个非常耗时的过程,目前仅仅对文档的前50页进行OCR处理

对于纯英文的扫描件,建议采用英文OCR,这样速度会快很多

扫描件越清晰,识别率越高,在300dpi(像素每英寸)以上的图片,基本可完整无误的识别

黑白效果最好,彩色次之

如果有背景图片,需要文字和背景的色差比较大。如下图可以识别:

关于双层PDF生成

双层PDF是一种PDF制作方法,将OCR识别出的文字作为独立的层,放入PDF文件中,但是隐藏起来不予显示。

双层PDF的制作,属于文档OCR加工制作的领域,有专门的软件进行处理,有专门的公司负责类似的加工服务。

易度自身不提供制作双层PDF的功能,但是将加工完成的双层PDF存档到易度中,易度可以提供对这些双层PDF进行文字。对双层PDF的搜索,无需启用易度的OCR识别服务。

Linux版本tesseract的安装

如果您使用的是Linux版本,tesseract安装方法如下:

1.安装前准备

安装以下的依赖包:

sudo apt-get install libpng12-dev

sudo apt-get install libjpeg62-dev

sudo apt-get install libtiff4-dev

sudo apt-get install zlibg-dev

sudo apt-get install leptonica-dev

以上的包都是属于开发版,有dev后缀的,不要安装普通版

2.安装

下载tesseract的主程序包,解压,进入目录下执行:

./configure

make

sudo make install

执行完 configure和 make 后,可以打开config_auth.h 文件,查看类似这些行看依赖包是否确认安装了,# define HA VE_LIBLEPT 1 , 1代表已经安装了。类似的还有HA VE_LIBTIFF, HA VE_LIBPNG, HA VE_LIBZ, HA VE_LIBJPEG等.

3.导入语言包

在某个地方创建放语言的目录。例如:/home/edo/tessdata, 将英文,简体,繁体等语言包放到这里目录中,然后修改~/.bashrc 加入以下这一行:

export TESSDATA_PREFIX=/home/edo/tessdata

最后执行这一个命令:

相关文档
最新文档