基于连通区域矩阵的文本图像识别方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上 的差 异 , 本 图像灰 度单 一且 分 布 比较 集 中 , 非文 本 图像 灰 度层 次 丰 富变 化 平 缓 , 用 图像 信 息 度量 文 而 利 来 衡量 这种 差异 , 从而 实 现文 本 图像 的识 别 。文献 [ ] 2 利用 图像 的纹 理 特 征 , 通过 计 算 图像 的 共生 灰 度 矩阵 , 然后计 算 灰度共 生 矩 阵不 同区域 概率 之 和 , 过与 设定 阈值 比较 来 判 断 图像 类 型 , 通 阈值 是 依 据 经 验 来 设定 的。文献 [ ] 3 等利 用不 同 图像 二值 化 前 后 的差 异 大 小 , 过计 算 图像 广义 直 方 图在二 值 化 前 后 交 通
郭晓 宇, 西建 , 平 周 林
( 息 工 程 大 学 信 息 工 程 学 院 , 南 郑 州 4 00 ) 信 河 5 0 2
摘要 : 何从 海 量 的 图像 里将 文本 图像 挑选 出来是 网络 图像 处 理 领 域 的研 究热 点 。为 了达 到 如 更好 的文本 图像 识别 效果 , 章从 文本 图像 的 文字特 征 出发 , 出 了一种基 于连 通 区域 矩 阵的 文 提 文本 图像 识 别方 法。 首先 对 图像 进 行 二值化 , 算 二值 化后 图像 的连通 区域矩 阵 , 计 然后根 据连 通 区域 矩 阵提 取 出图像 的 8维 特 征值 , 后使 用 B 最 P神 经 网络 来 对 图像 进 行 训 练 和 识别 。 实 验证 实 , 方法在 保证 较 高识别 率 的 同 时, 显 降低 了误 识 率。 该 明 关键 词 : 文本 图像 识别 ; 图像分 类 ; 通 区域 矩 阵 ; P神 经 网络 连 B
叉 熵 的大小 来 判断 图像 变化 的程 度 , 而 实现识 别 。文献 [ ] 从 4 对基 于灰 度 共 生矩 阵 的方 法 进行 了改 进 ,
利 用 图像 的灰 度共 生矩 阵和矩 形 框直方 图联合识 别 的方法 进 行识 别 , 取 了 图像 的 1 提 5维特 征 , 原 方 在
收 稿 日期 :0 10 - 修 回 日期 :0 2 4 2 2 1 -9 3 0: 2 1 - .0 0
பைடு நூலகம்
作者简介 : 郭晓宇 (94一 , , 18 )男 硕士生 , 主要研究方 向为图像信 息处理 、 文本 图像 分析 与处理 、 隐写分析 。
30 3
信 息 工 程 大 学 学 报
法 的基 础上 降低 了误 识 率 。文献 [ ] 用文 字笔 画主 要分 布在 竖 直 、 平 和 倾斜 方 向 , 用不 对 称 滤波 的 5利 水 采 方 法将 这几 个 方 向的黑 色像 素过 滤掉 , 据滤波 后 黑像 素 的 比例 进行 文 本 图像 的识 别 。此外 还有 基 于 根 小 波 变换 和基 于联 合 的方法 。这 些 方 法一 般 是建 立 在文 本 图像 是 黑 色 字体 白 色背 景 这 一 基 础 上 , 并 且认 为 非文 本 图像 灰 度层 次 比较丰 富 。 当文 本 图像背 景并 不单 一或 者具 有一 定灰 度值 以及 文字 颜 色色 彩 丰 富时 , 出现漏 报 ; 当图像 前景颜 色 单一 、 景简单 而 内容却 不 是文本 图像 时 , 产 生 虚报 。以 图 1 会 而 背 会 ( ) 例 , 灰度 层次 单一 , 彩为 黑 白色 ; 图 1 b 包 含 的文字 及 图像 是 彩 色 的 , 献 [ ] 文献 [ ] a为 其 色 而 () 文 1及 3 的
方法 对这 两类 图像 均会 错误 分类 。另外这 些 方法有 些 还需 要 人 工设 置 一些 经 验 参数 , 往往 限制 了算 法 的
适 用 性 。
Pla e 1 O es. 0
“}
呻 t s… hi
白 fy0 …
u
H
m “ m h 0 t 0 E “ 憎 r 1 h
经过 扫描 、 照等方 式 转化 而来 的 , 类 图像 通常 被定 义为 文本 图像 。文本 图像 所携 带 的文字 包含 较 大 的 拍 这
信息 量 , 有重 要 的应用 价值 。但文 本 图像通 常 和大量 的非文 本 图像混 杂在 一起 , 常采 用人 工 的方法 将 具 通
文本 图像 挑选 出来 , 这种 方法 不 仅费 时 费力 , 而且 由于 理解 不 同容易 出现错误 分类 。因此 在 图像 数 量 巨大
所示 。令集 合 是 灰度 值 子集 , 如果 像素 q位 于 N ( ) 中 , 两 P 集 且
f
,
\ f /
P
个像 素 P和 q灰度值 均 在 集合 中 , P和 q是 4邻 接 的 。同 理 则 还存 在 8邻 接和 m 邻接 。
J
() a
/ J \
中 图分类 号 : P 9 . T 3 11 文 献标 识码 : A 文章 编号 :6 1 0 7 ( 0 2 0 . 3 9 0 17 . 6 3 2 1 )3 0 2. 5
D o um e t I a e Re o nii n Ba e n Co e t d Re i n M a rc s c n m g c g to s d o nn c e g o t ie
的情 况下 , 需要 利用 计算 机 自动 地将 文本 图像从 非 文本 图像 中识 别 出来 。 目前 的研究 主 要集 中在 利用 文本 图像 与非 文 本 图像 在 颜 色 与纹 理 上 的差 异 来 进 行识 别 , 多文 献 提 许
出 了有效 的分类 方 法 。文献 [ ] 出了基 于信 息 度 量 的文 本 图像 分类 方 法 ]这 种 方 法 利用 图像 在 灰 度 1提 ,
A b t a t Ho t c u o u e ti g sfo m o n a n fi a e a e o o p ti e - s r c : w opik o td c m n ma e r m u t i so m g s h s b c me a h ts o n n t wo k i g r c s ig.To r c g iedo u e ti g sm o e e ce t r ma ep o e sn e o n z c m n ma e r f i nl i y,by a ay i g t et x h r c n lzn h e tc a a - t rsis o o u e ti g s,a n w eh d b s d o o n ce e i n marx i r p s d Fisl e it fd c m n ma e c e m t o a e n c n e t d r go ti s p o o e . r t y, t e c n e t d r go ti ft e b n r m a e i b an d b ma e t r s o d n . Se o d y,eg t h o n ce e i n marx o h i a y i g so ti e y i g h e h l i g cn l ih— d m e so a h r c e itc r x r ce r m h o n ce e in r c a g efa e ma rx o h m — i n i n lc a a trsi sa e e ta t d fo te c n e t d rg o e tn l rm ti ft e i a e. Fi ly, a BP a tfca n u a n t r i e o e o n z o u n ma e . Ex e i e t g nal ri i l e r l ewok s us d t r c g ie d c me t i g s i p rm n s d mo sr t h sm eh d la s t e uc d r c g ii n er r. e n ta e t i t o e d o r d e e o n to ro s Ke y wor ds: c me ti a e i e i c to do u n m g d nt a in;i g l siia in;c n c e e i n m arx;BP a t - i f ma e ca sfc to o ne td r go ti ri i f
r b、
两个 像 素之 间 的通 路 ( 曲线 ) 满 足 一 定 邻 接 性 将 两个 像 或 是
素连 接 起来 的特 定 的像 素序 列 , 照不 同 的邻 接 类 型可 以定 义 4 按 通 路 、 路 以及 m通 路 。 8通
图 2 像 素 邻 域 示 意 图
令 S代 表一 幅图像 中像 素 的子集 , 如果 在 J s中全部 像素 之 间存在 一个 通路 , 可 以说 P和 q S中是 则 在 连 通 的 。对 于 s中的任 何像 素 P, S中连通 到该 像素 的像 素 集 叫做 s的连通 分 量 , 如果 s仅 有 一 个 连 通 分
( 灰度层 次 单一 的非文 本 图像 a )
() b灰度 层次 丰富 的文本 图像
图 1 易 误 识 的 图 像
针 对传 统 方法 的不 足 , 虑 到文本 图像 包含 的一 定 数量 的文字 是 文本 图像 与 非文 本 图像 最本 质上 的 考 区别 , 本文 提 出 了一 种基 于 连通 区域矩 阵 的文 本 图像 识 别 方法 。文本 图像 中包 含 的文 字 , 然笔 画 、 状 虽 形 不尽相同, 但其 长度 、 度具 有一 定 的一致 性 , 宽 另外 文本 图像 的连 通 区域 主要 是 一 个个 字符 或 者 是 字 符 的
第1 3卷 第 3期 21 0 2年 6月
DOI 1 . 9 9 j is . 6 1 0 7 . 0 2 0 . 1 : 0 3 6 / .sn 1 7 - 6 3 2 1 . 3 0 5
Vo . 3 NO 3 11 .
J n 2 l u .02
基 于 连 通 区域 矩 阵 的文 本 图像 识 别 方 法
c a e a ewo k iln ur】n t r
0 引 言
随着 多媒 体技 术 和互联 网技术 的快 速发 展 , 数字 图像 的数 量 以惊人 的速度 增长 , 各种 类 型及 内容 的 图 像 随处可 见 。在这 些 图像 中有 一类是 以文字 、 格等 为主 要 内容 的 图像 , 些 图像是 记 录在纸 张 上 的文 字 表 这
G a —u,PNG Xiin,Z UO Xioy I -a j HOU Ln i
( nt u f nom t nE gn ei , fr a o n ie r g U i r t ,h n z o 5 0 2 C ia Is tt o Ifr ai n ie r g I om t nE g e n nv s y Z e gh u4 0 0 , hn ) i e o n n i n i ei
一
部 分 , 些连 通 区域 大小 也有一 定 的相 似性 , 这 而非 文本 图像 则不 具有 这样 的特 征 。提取 二 者在 这一 特征
上 的 差异 可 以实现 对文 本 图像 的识别 。
1 连 通 区 域 概 念
像 素 P有 4个水平 和垂直 的相 邻像 素 , 这个像 素 集称 为 P的 4 邻域 , N ( ) 用 4 P 表示 , 图 2 a 所 示 。像 素 P的 4个 对 角 邻像 素 如 () 与 4个邻 域 点一 起被 称为 P的 8邻 域 , N P) 示 , 图 2 b 用 ( 表 如 ()