汉字图像预处理算法的研究及实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

法分为两大类 ,即线性归一化方法和非线性归一化方法 。
( 1) 线性归一化 。是将汉字图像的笔画按比例线性放
大或缩小到规定尺寸的图像 。线性归一化仅与原始汉字 图像和归一化后图像的大小有关系 , 为了描述算法的方 便 ,首先定义以下函数 。 特征投影函数 :
H ( i) = 1 , V ( j) = 1 ( 1)
输入 : 原始汉字图像 P 输出 : 位置归一化后的汉字图像 P P
Step1 : PP. CL S / / 清空图像 P P 所占区域 Step2 : 位置归一化
FOR i = 1 TO P. WID TH FOR j = 1 TO P. HEI GHT IF P(i ,j) = 1 THEN / / 原始像素点为黑点 将图像 P P 中的像素点 (i - Left Edge + 1 , j Up Edge + 1) 设置为黑色 / / 此处用到了
・55 ・
( 2) 非线性归一化 。线性归一化的变换函数为线性函
数 ,不能解决汉字图像的变形问题 , 故提出了非线性归一 化的方法 。非线性归一化是通过密度均衡的方法实现大 小归一化 ,这方面日本学者提出了几种具体方法 , 以消除 输入模式的各种变形 , 从而易于抽取到较为稳定的特征 , 这些方法大致分为以下三类 : ① 点密度均衡的方法 ( Dot Density Equalization) ; ② 线密度均衡的方法 (Line Density Equalization) ; ③ 笔画穿透数均衡方法 ( Crossing Line Number) 。 其中 ,线密度均衡方法又分为基于内嵌圆 ( Inscribed
112 找边框
找汉字图像边框的目的就是在整个汉字图像中 ,找到 汉字图像本身所占用的区域范围 ,以后在处理汉字图像时 仅对该区域进行处理 , 以便节省存储空间和提高处理速 度 。经过该算法处理后的汉字图像见图 2 , 算法描述如 下:
源自文库
1 算法介绍
111 汉字图像的二值化和图像坐标系
汉字图像在处理前一般需进行二值化 ,二值化的目的 就是把灰度图像转换为二值图像 。汉字图像的二值化算 法比较简单 ,只要选择合适的二值化阈值即可得到二值的 汉字图像 ,二值化后图像中的像素点不是 1 ( 黑点) 就是 0
0 引 言
为把大量的印刷体和手写体汉字自动录入计算机中 , 提出了汉字的计算机识别问题 。汉字识别是模式识别的 一个分支 , 由于汉字数量大 ( GB2312 - 80 一级汉字 3 755 个 ,二级汉字 3 008 个 ,两级汉字共 6 763 个 , 再加上繁体 字等共逾万个) ,字形 、 字体繁多 ,相似字多等原因 ,故汉字 识别属于超多类模式识别问题 ,被公认为模式识别领域最 困难的问题之一 。汉字识别[ 1~4 ] 系统主要包括 : 汉字图像 模式的获取 ,图像去噪 ,二值化 ,归一化 ,特征提取 ,汉字识 别 ,识别结果输出和后处理等功能 。笔者仅对汉字识别前 的一些预处理算法进行研究 ,主要包括找边框 、 归一化 、 空 心化等 ,并着重研究了大小归一化算法 。
将式 ( 1) 代入式 ( 2) 即可得到简化的归一化公式 ( 3) 。
M I N n = j × J m = i × ( 3)
有了以上公式 , 即可得到线性归一化算法 , 图 5 和图 6 分别是经该算法处理前后的楷体汉字图像 , 线性归一化算 法可如下描述 :
图3 位置归一化前的 图4 位置归一化后的 宋体汉字图像 宋体汉字图像 图5 线性归一化前的楷体 图6 线性归一化后的楷体 汉字图像 ( 120 × 120) 汉字图像 ( 64 × 64)
Circle) 和基于笔画间隔 (Line Interval) 两种 ,这几类方法的
图7 非线性归一化前 图8 非线性归一化后 的手写体汉字图像
其中 , H ( i ) , V ( j ) 分别表示水平和垂直方向的投影 , i =
1 , 2 , …, I , j = 1 , 2 , …, J 。
Step 2 : 找 右 边 界 、 上边界和下边界 , 原理同上 , 用 Right Edge 、 Up Edge 和 DownEdge 分别表示之 。 Step3 : 根据四个边界值画出四个边框 。 113 归一化
归一化函数 :
m =
k =1
6 6
j
i
H ( k) × V ( l) ×
6 6
M
1
k =1
H ( k)
( 2)
汉字图像的归一化包括位置 、 大小 、 旋转和倾斜归一 化 ,本文中主要研究位置和大小归一化 。
11311 位置归一化
m =
N
J l =1
j =1
V ( k)
其中 , i = 1 , 2 , …, I , j = 1 , 2 , …J 。 m = 1 , 2 , …,
输入 : 位置归一化后汉字图像 P 输出 : 线性归一化后的汉字图像 P P
Step1 : PP. CL S / / 清空图像 P P 所占区域 。 Step2 : 确定归一化比例 。
/ / 本算法将原始汉字图像归一化为 64 × 64 点阵大小 , 即式 (3) 中 M = 64 ,N = 64 / / I ,J 分别为汉字图像的真正宽度和高度 , 即 I = Right Edge - Left Edge ,J = Down Edgr - Upedge
摘 要 : 汉字图像处理技术在汉字识别过程中占有重要地位 , 文中研究了汉字图像预处理的几个算法 , 特别是对大小归一 化算法进行了深入研究 ,并给出了实验结果 。实验结果表明 ,这些算法有效可行 ,为汉字图像后续处理打下了坚实基础 。 关键词 : 汉字图像 ; 二值化 ; 归一化 ; 密度均衡 中图分类号 : TP391 文献标识码 :A 文章编号 : 1005 - 3751 (2003) 0053 - 03
由于汉字字形 、 字体繁多 , 同一汉字的特征也因此而 不同 ,为了便于统一描述和提取同一汉字的特征 , 对不同 字形 、 字体汉字均能识别 ,为汉字识别工作打好基础 ,在汉 字特征提取前还需对汉字图像进行大小归一化的操作 。 所谓大小归一化就是指对不同大小的汉字图像做变换 ,使 之成为同一尺寸大小的文字 。汉字图像的大小归一化方
( 白点) 。 为便于描述 , 可把汉字二值图像看作一矩阵 P ,
其中任一元素 p ( i , j ) 的值如下定义 :
0 , 像素点为白 另外 , 为了不发生误解 , 给出本文中汉字图像坐标系
P ( i , j) =
1 , 像素点为黑
的定义 。 原点位于汉字图像 P 的左上角 , i , j 坐标轴分别 为横轴和纵轴 , 如图 1 所示 。
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
5 微 机 发 展 第 13 卷 ・ 4 ・ Step1 : 找左边界 。
Abstract : The processing technology of Chinese characters images plays an important role in its recognition process. Here studies several al2 gorit hms for Chinese Characters image’ s preprocessing ,especially pays more attention to t he size binarization and gives all experimental re2 sults. The results indicate t hat t he proposed algorit hms not only are efficient and available but also build stable basis for t he subsequent pro2 cessing. Key words :Chinese character image ;binarization ;normalization ; densit y equalization
FORi = 1 TO P. WID TH / / P. WID TH 为汉字图像宽度 FOR j = 1 TO P. HEI GHT / / P. HEI GHT 为汉字图像 高度 IF P(i ,j) = 1 THEN / / 当前像素点为黑点 Left Edge = i / / Left Edge 为最左像素点的横坐 标值 退出两层循环 ENDIF
找边框算法中的 Left Edge 和 Up Edge ENDIF
水平比例 H-prop = M/ I ,垂直比例 V - prop = N/ J
113. 2 大小归一化
Step3 : 线性归一化 。
FOR i = 1 TO I FOR j = 1 TO J IF P(i ,j) = 1 THEN / / 当前像素点为黑点 k = 式 (3) 中的 m l = 式 (3) 中的 n FOR ii = (i - 1) 3 H- prop To k FOR jj = (j - 1) 3 V-prop To l
收稿日期 :2002 - 09 - 05
) ,男 ,河北人 ,讲师 ,博士生 ,主要研究方向 作者简介 : 张世辉 (1973 —
图1 汉字图像 P 的坐标系 图2 找边框后的汉字图像
输入 : 原始汉字图像 输出 : 画出边框的汉字图像
http://www.cnki.net
为智能信息处理 、 计算机视觉和模式识别 。
M , n = 1 , 2 , …, N 。 ( m , n ) 为与原始图像中坐标点 ( i , j ) 对应的归一化后图像中的坐标点 。
找到汉字图像区域后 ,为了消除汉字点阵位置上的偏 差和方便汉字特征描述 、 提取 , 还需对汉字图像进行位置 归一化 ,所谓位置归一化就是把任何一个汉字图像都放到 某一固定的位置 。位置归一化前后的宋体汉字图像分别 见图 3 和图 4 ( 图中以汉字图像外围框的左上角作为归一 化的基准位置) ,位置归一化算法描述如下 :
第 13 卷 第4期 微 机 发 展 Vol. 13 No. 4 2003 年 4 月 Microcomputer Development Apr. 2003
汉字图像预处理算法的研究及实现
张世辉
( 燕山大学 计算机系 ,河北 秦皇岛 066004)
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
http://www.cnki.net
第 4 期 张世辉 : 汉字图像预处理算法的研究及实现
将图像 PP 中的像素点 (ii ,jj) 设置为黑色 / / 将此语句放入内 两层循环中的目的是为了保证原始汉字图像小于 64 ×64 点阵 时也能得到较好的效果 。 ENDIF
Study and Realization of Algorithms f or Chinese Characters Image’ s Preprocessing
ZHAN G Shi2hui
( Dept . of Computer , Yanshan University ,Qinhuangdao HB 066004 ,China)
相关文档
最新文档