光学字符识别OCR
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对比识别
字词后处理 输出
图像预处理
1、二值化(灰度平局值值法、百分比阈值(P-Tile法)、基于谷底最小值的阈值、基于双峰平均值的阈值、
迭代最佳阈值、OSTU大律法、一维最大熵、力矩保持法、基于模糊集理论的阈值、ISODATA(也叫做 intermeans法)、Shanbhag 法、Yen法)
图像的二值化,就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明 显的只有黑和白的视觉效果。
光学字符识别OCR
OCR光学字符识别
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机) 检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算 机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图 像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
CNN(卷积神经网络) 卷积神经网络是人工神经网络的一种,已成为当前图像识别领域的主流模型. 它通过 局部感知野 和 权值共 享 方法,降低了网络模型的复杂度,减少了权值的数量,在网络结构上更类似于生物神经网络,这也预示 着它必然具有更优秀的效果. 事实上,我们选择卷积神经网络的主要原因有: 1. 对原始图像自动提取特征 卷积神经网络模型可以直接将原始图像进行输入,免除了传统模型的人工提取 特征这一比较困难的核心部分; 2. 比传统模型更高的精度 比如在MNIST手写数字识别任务中,可以达到99%以上的精度,这远高于传统模 型的精度; 3. 比传统模型更好的泛化能力 这意味着图像本身的形变(伸缩、旋转)以及图像上的噪音对识别的结果影响 不明显,这正是一个良好的OCR系统所必需的。
文字特征抽取
三、特征提取
对比识别
训练
样本库 采集 网上下载字体库
Tesseract-OCR
识别:直观上,我们会有这样一个思路,就是这张待识别的图片,最像样本库中的某张图片,那么我们就将它当作那张图片,将它识别为样
本库中那张图片事先指定的字符。 在我们眼睛里,判断一张图片和另一张图片是否相似很简单,但对于电脑来说,就很难判断了。我们前面已经将图片数值化为一个个维度一 样的矢量,电脑是怎样判断一个矢量与另一个矢量相似的呢? 这里需要计算一个矢量与另一个矢量间的距离。这个距离越短,则认为这两个矢量越相似。 有些字符变形很严重,有的字符连在一起互相交叉,有的字符被掩盖在一堆噪音海之中。对这类字符的识别需要用上特殊的手段。 (1) 切线距离 (Tangent Distance):可用于处理字符的各种变形,OCR的核心技术之一。 (2) 霍夫变换(Hough Transform):对噪音极其不敏感,常用于从图片中提取各种形状。图像识别中最基本的方法之一。 (3) 形状上下文(Shape Context):将特征高维化,对形变不很敏感,对噪音也不很敏感。新世纪出现的新方法。
图像预处理
2、去噪(中值滤波、均值滤波、Wiener维纳滤波) 椒盐噪声是黑白相间随机分布的亮暗点噪声,通常产生于图像传感器,传 输信道,解码处理等情况中。噪声给图像处理带来诸多不便,对分割图像、提 取特征、识别图像等都会带来负面影响。因此,对椒盐噪声去噪显得很有必要。 均值滤波 维纳滤波 3种滤波比较
如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。 衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产Biblioteka Baidu 的稳定性,易用性及可行性等。
OCR处理过程
图像预处理 文字特征抽取
②自底而上(游程码平滑切分、K近邻聚类方法、连通域提取算法切分)
③综合法(基于组件的中文版面分析算法、基于背景空白的版面切分算法) ④基于膨胀算法的版面分析技术
文字特征抽取
二、字符切割提取(基于opencv)
1.轮廓检测(只获取最外层的) 2.遍历所有检测到的轮廓,用cvBoundingRect()得 到每一个轮廓的外接矩形
找到的轮廓
抠它们出来,这步在上面的遍历中直接通过setROI 方法进行提取。
文字特征抽取
三、特征提取
文字特征对 OCR 识别来说非常重要,文字特征区分一般为两类: 其一 利用统计的特征,例如文字块的黑、白像素点的比例,通过将文字块几何 的分成好几个小块时,形成特征向量,向量是通过每个单独划分的几何区域黑、 白点数比例组合起来的,在匹配时,可以利用简单的距离公式或者相似度进行 最优匹配。 其二 从文字的结构入手,比如图片内的文字块通过细化算法细化后,计算交叉点之数量及位 置,同时统计字的笔划数量及位置,或配合模版的匹配方法,进行匹配。
图像预处理
3、倾斜校正处理(Hough 变换、Hough 变换、Hough 变换、Fourier 变换、最近临簇法、 最近临簇法)
由于拍摄的图片可能产生倾斜角度,对字符识别带来困扰,所以需将图片倾斜矫正处理。
文字特征抽取
一、版面分析
版面分析将图像切分为不同区域,再把其划分为不同的类型,如图片块、 文本块和线条等。虽然名片图像的版面构造多种多样,仍能够将它划分成三类 图像组合: 文字块:完全由字符构成,它包含中文、字母、数字以及各种标点符号等。 线条块:有些名片图像中含有线条,用来醒目单位名称以及有关信息等,通常位于姓 名与单位名称间或单位名称与地址之间。 图形图片块:由各种线条构成的图案,如单位的标识等。有时,图片块中包含字符或 线条,本文将其与图形块和线条分开处理,因为图片块中的信息是偶尔也是有用的。 1、方法 ①自顶而下(投影二分法、循环x-y切分)
OCR后处理