易度文档管理系统OCR使用说明
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
易度文档管理系统OCR使用说明
关于OCR
OCR是让系统识别出图片中包含的文字,方便对图片进行搜索。
主要特性
支持多种扫描文件格式,包括pdf文件和图片(tiff/jpg/bmp/png/gif/ppm)
支持英文、简体、繁体三种语言,支持数字的识别
支持宋体、仿宋、楷体、黑体、圆体、隶变等字体,部分支持粗圆体、魏碑、隶书
支持中英文混排识别
可识别黑白和彩色图片
通过设定文件夹OCR转换规则,上传的时候按需自动OCR识别
可对已经上传的文件,手工发起OCR识别
可手工修复识别结果中不正确的内容
安装方法
1.要求按照易度文档管理系统V4.2以上,企业版以上
2.需要在服务器上安装Tesseract,易度底层采用这个开源的OCR识别引擎。对于
Widnows版本:
V3.0的下载地址:
/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-
3.00.exe&can=2&q=
安装的时候,需要选择语言包:简体中文,繁体中文
安装完成后需要下载一个补丁包,下载解压后,复制到Tersseract安装目录,覆盖相关文件即可
/p/tesseract-ocr/downloads/detail?name=tesseract-
3.00.1.exe.zip&can=2&q=
更多的下载安装信息参看:
/p/tesseract-ocr/downloads/list
3.进入易度控制台,激活Tesseract转换服务
4.安装易度OCR支持扩展软件包
进入易度扩展软件包,找到“OCR初始化包”,点击安装,并完成部署
OCR的使用
上传文件自动OCR,是通过文件夹的规则定义来实现的。具体操作如下:
1.在任何一个文件夹下,点击规则,可看到“英文OCR”、“简体OCR”、“繁体OCR”三
个选项
目前只能为每一个文件指定一种语言识别,如果你的图片或者pdf 内用的是简体中文的字体,就需要用简体中文识别
2.比如选择选择添加“简体OCR”规则,可将这个规则应用到整个子文件夹,如下图:
3.在文件夹中,上传需要识别的文件, 你会看到文件多了一个拓展属性(OCR文本),
里面可以对OCR结果查看和操作
如何让从前上传的文档也支持OCR?
操作如下:
1.到某一个需要OCR的文件预览界面
2.点击“新增属性栏”,选择 “OCR文本“
3.进入新添加的“OCR文本”属性栏
a)如果需要,选择正确的语言(默认是“简体中文”),并保存。
b)点击“重新识别”链接
一些限制
暂不支持行楷、手写字体
不支持繁简混合
OCR是一个非常耗时的过程,目前仅仅对文档的前50页进行OCR处理
对于纯英文的扫描件,建议采用英文OCR,这样速度会快很多
扫描件越清晰,识别率越高,在300dpi(像素每英寸)以上的图片,基本可完整无误的识别
黑白效果最好,彩色次之
如果有背景图片,需要文字和背景的色差比较大。如下图可以识别:
关于双层PDF生成
双层PDF是一种PDF制作方法,将OCR识别出的文字作为独立的层,放入PDF文件中,但是隐藏起来不予显示。
双层PDF的制作,属于文档OCR加工制作的领域,有专门的软件进行处理,有专门的公司负责类似的加工服务。
易度自身不提供制作双层PDF的功能,但是将加工完成的双层PDF存档到易度中,易度可以提供对这些双层PDF进行文字。对双层PDF的搜索,无需启用易度的OCR识别服务。
Linux版本tesseract的安装
如果您使用的是Linux版本,tesseract安装方法如下:
1.安装前准备
安装以下的依赖包:
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlibg-dev
sudo apt-get install leptonica-dev
以上的包都是属于开发版,有dev后缀的,不要安装普通版
2.安装
下载tesseract的主程序包,解压,进入目录下执行:
./configure
make
sudo make install
执行完 configure和 make 后,可以打开config_auth.h 文件,查看类似这些行看依赖包是否确认安装了,# define HA VE_LIBLEPT 1 , 1代表已经安装了。类似的还有HA VE_LIBTIFF, HA VE_LIBPNG, HA VE_LIBZ, HA VE_LIBJPEG等.
3.导入语言包
在某个地方创建放语言的目录。例如:/home/edo/tessdata, 将英文,简体,繁体等语言包放到这里目录中,然后修改~/.bashrc 加入以下这一行:
export TESSDATA_PREFIX=/home/edo/tessdata
最后执行这一个命令: