基于连通区域和统计特征的图像文本定位

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于连通区域和统计特征的图像文本定位
刘亚亚;于凤芹;陈莹
【摘要】文本定位是图像中文本提取的前提与基础.针对场景图像中背景复杂和光照影响,提出一种由粗略到精确的文本定位算法.该算法首先在边缘图像上利用连通区域分析进行粗略定位得到文本候选区域,然后提取候选区域的方向梯度直方图特征和改进的局部二值模式特征进行分类,去除虚假文本达到精确定位.仿真实验结果表明,该算法能够有效地降低背景复杂与光照不均的影响,在场景图像中准确地定位文本区域.
【期刊名称】《计算机工程与应用》
【年(卷),期】2016(052)005
【总页数】5页(P165-168,208)
【关键词】文本定位;连通区域分析;方向梯度直方图特征;局部二值模式特征
【作者】刘亚亚;于凤芹;陈莹
【作者单位】江南大学物联网工程学院,江苏无锡214122;江南大学物联网工程学院,江苏无锡214122;江南大学物联网工程学院,江苏无锡214122
【正文语种】中文
【中图分类】TN911.73
图像中文本信息是描绘和理解图像内容的重要信息,文本区域的定位是文本提取非常重要的步骤与基础,准确的文本区域的定位才能保证文本信息提取的有效性。

然而,由于背景复杂、光照变换、字体大小和方向的多变等原因,自然场景图像中的
文本定位具有更多的不确定性和难度,是目前研究的难点。

文本定位的方法通常分为基于连通区域、基于边缘检测和基于纹理特征的三类算法[1]。

基于连通区域的算法是利用图像中的文本颜色相似并与背景颜色相差较大的
特征进行文本定位的,但是对光照和颜色比较敏感,对背景复杂的图像效果不理想;Pan等[2]设计一个文本区域探测器生成文本置信图,然后利用条件随机域模型进
行连通域分析,得到文本区域;Shivakumara等[3]首先通过傅里叶-拉普拉斯变
换对图像进行滤波,然后基于最大差值用K-means聚类得到文本区域,可检测非水平方向上的文本;Hinnerk Becker等[4]首先采用一种自适应二值化的算法在图像中提取字母,然后利用几何约束的方法将字母连接成文本行。

基于边缘检测的算法是利用文本区域与背景对比度较强的特性检测文本,但是当背景复杂、边缘较多时容易形成虚假文本;Boris Epshtein等[5]提出笔画宽度变换的概念,经过笔画
宽度变化对图像进行聚类得到文本区域,再分割成单独的文字以实现文本信息的提取;Yi等[6]利用边缘检测的图像计算图像的颜色直方图来进行聚类分组,得到文
本字符候选,再根据文本字符共同的结构特征进行文本行分组。

基于纹理的算法是将文本看成一种特殊的纹理,提取文本明显的纹理特征进行文本定位,比如局部二值模式(Local Binary Patterns,LBP)[7-8]、灰度共生矩阵[9]、Gabor滤波[10]和小波变换[11]等纹理特征,这种算法的鲁棒性较好,但是复杂性较高。

本文针对场景图像的复杂背景和光照条件的影响,提出一种由粗略到精确的文本定位算法。

在粗略定位阶段,首先对输入图像进行边缘检测,在边缘图像上进行连通区域分析,通过启发式规则的过滤和形态学处理得到文本候选区域;然后提取候选区域的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征和改进的LBP特征,利用SVM分类器进行分类,将非文本区域去除达到精确定位。

2.1 连通区域分析
图像中的文本区域会具有比较明显的边缘特征,在边缘图像上进行连通域分析能降
低光照的影响,可以更加准确地定位文本。

本文采用Sobel检测算子,在RGB空间三个通道分别对图像进行边缘检测,再结合起来得到边缘图像,这样在不均匀的光照下可保留更多的边缘信息。

这里考虑到文本的方向性,在每个通道都采用0°、45°、90°和135°四个方向的Sobel算子分别进行检测[12],进行合并后得到该通道的边缘图像,再将三个通道的边缘图像求和得到比较完整的边缘图像。

在边缘图像上首先进行基于启发式规则的过滤,将一些明显不是文本的区域过滤掉,可很好地减少文本候选区域的个数。

这里采用区域形状大小、纵横比与区域占有率三种启发式规则:区域形状大小包括区域面积A、区域高度h与长度l;纵横比为
d=h/l,是指区域高度与长度的比值;区域占有率为c=A/Ar,其中A是指连通区域的面积,Ar是指连通区域最小外接矩形的面积。

其次通过形态学处理将相邻的文字连接成文本行,形成候选的文本区域,先对图像进行膨胀操作,然后进行开运算以达到边缘轮廓的光滑和噪声的过滤。

形态学处理的基础运算是膨胀与腐蚀[13],使用结构元素b对图像 f的膨胀记为f⊕b,定义为:其中,Db是b的定义域,f(x,y)在 f的定义域外假设为-∞。

而腐蚀作为膨胀的
对偶运算,结构元素b对图像 f的腐蚀记为fΘb,定义为:
其中,Db是b的定义域,f(x,y)在 f的定义域外假设为+∞。

而结构元素b对图
像 f的开运算记为 fob,定义为fob=(fΘb)⊕b,即结构元素b对图像 f的先腐蚀
后膨胀为开运算。

膨胀运算具有扩大边界,填补空洞的作用,而开运算可用来消除小噪声点,断开物体连接,平滑目标边界的同时不明显改变其面积。

2.2 HOG特征
HOG是Dalal提出的一种图像处理中的特征描述算子[14],通过统计和计算图像
局部区域的梯度方向直方图来构成特征,具有较好的图像几何和光学形变的不变性。

图像中文本区域的边缘信息丰富,梯度幅值较大,而且在各个方向上梯度的幅值相差不大,具有较明显的梯度特征,因此HOG特征可以有效地描述文本区域的特征。

在提取HOG特征的过程中,首先要采用Gamma校正法对输入图像进行颜色归
一化,目的是为了减少噪声的干扰,降低局部的阴影和光照变化对特征提取造成的影响。

然后计算每个像素的梯度幅值和梯度方向,得到图像的轮廓信息,同时也进一步弱化光照的影响,像素点(x,y)的梯度幅值和方向分别为:
其中,H(x,y)是像素点(x,y)的像素值,G(x,y)和α(x,y)分别表示梯度的幅值
与方向。

将输入图像分为若干个单元(cell),统计每个单元的梯度直方图,这里将梯度方向分为9个通道(bin),则每个单元直方图可表示为一个9维的特征向量。

将前面的单元合并成块(block),再利用L2-Hys范式进行归一化处理,以
消除光照变化的影响,将图像中的所有block的HOG特征串联起来即得到图像的HOG特征。

L2-Hys范式的计算公式为:,其中ε取较小值,为了防止分母为零。

2.3 LBP特征
LBP是一种有效的纹理描述算子[15],可用来描述文字笔划固有的纹理特征。

LBP 算子是一个固定为3×3大小的矩阵元,对应9个灰度值,将周边的8个像素灰度值与中心像素灰度值比较大小,大于或等于中心像素值的像素点置为1,否则置为0,按照逆时针或顺时针方向读取8个二进制值作为特征值,其特征的计算公式是:其中,gc为中心像素值,gp为周边的8个像素值。

Jun等人[7]采用周边像素值
和中心像素值的差值大小来对s(g)进行重新定义,取得了更好的效果,即其中θ
是阈值,由实验测试得出。

本文采用LBP的统一模式进行特征提取以达到降维的
目的,并采用文献[5]中的LBP特征提取方法。

LBP的统一模式是指在LBP编码中所形成的二进制串中,只包含两次或两次以内
的由0到1或由1到0的跳变,统一性的度量用U表示:
其中,gp=g0。

U≤2的模式就是统一模式,共有58种LBP统一模式,但是可以
表达将近90%的纹理特征,而其他所有非统一模式作为1维特征,这样就可以大
大地减少特征的维数。

文献[7]中提取LBP特征的阈值是由实验测试得到的,并不具有自适应性,因为阈
值的选取不仅要容忍文字笔画的灰度变换,而且应该能够有效地分辨文字与背景间的灰度变换,因此本文中的阈值θ采用下列公式:
其中,gray(gc)为中心像素值,gray(i)为周边像素值。

基于连通区域分析和统计特征分类的场景图像文本定位的算法流程图如图1所示,其中粗略检测是利用连通域分析找出图像中所有可能含有文本的区域,精确定位是提取特征对文本候选区域进行二分类,剔除非文本区域。

具体步骤如下:
(1)对输入的场景图像进行RGB三个通道的Sobel边缘检测,求和后得到边缘
图像。

(2)对边缘图像进行启发式规则的过滤,取值为区域面积 A=20,区域高度
h=10、长度l=10,纵横比d∊(0.1,9),区域占有率为c∊(0.1,0.9)。

(3)然后经过先膨胀后开运算的形态学处理形成文本候选区域,这里结构元素b
的高度为hd,长度为ld,取值为hd=0.1hc,ld=0.5hc,其中hc是连通区域的
高度,开运算结构元素的高度与长度分别取1.5hd与1.5ld。

(4)将文本候选区域标准化为128×64后提取HOG特征,这里每个单元大小为16×16,而2×2个单元组成一个block,则每个候选区域含有8个block,每个block 有36维HOG特征向量,因此文本候选区域的HOG特征就有36×8=288维。

(5)在提取LBP特征时,将所有非统一模式作为1维特征,加上58种LBP统一模式,因此文本候选区域的LBP特征有59维特征。

(6)提取288+59=347维特征送入SVM分类器进行文本与非文本的二分类,将非文本区域去除后,得到的即为所要的文本区域。

4.1 仿真实验步骤
仿真实验所用的数据图库是文档分析与识别国际会议(International Conference
on Document Analysis and Recognition,ICDAR)所用的场景图像文本定位图库,分类器为台湾大学林智仁教授等开发设计的LIBSVM。

图2(a)为输入图像,图2(b)为其边缘图像,在边缘图像上进行连通域分析得到图2(c),则可得到文本候选区域,即图2(d)所示,对候选区域进行分类将虚假文本移除后得到文
本区域,即图2(e),用矩形框将文本区域圈出。

4.2 结果分析与举例
仿真实验结果分析采用ICDAR2005场景文字定位竞赛的算法评价方法进行算法评估,包括准确率P (Precision)与召回率R(Recall)以及标准量度 f,计算公式为:
其中α代表P与R两者相关的权重,这里按照ICDAR竞赛算法取α=0.5。

表1
是仿真实验结果与ICDAR竞赛算法H.Becker[4]和Yi[10]的比较,比较结果表明
本文提出的算法在准确率、召回率与标准度量上皆有提升。

图3是本文算法在图像库中一些正确的检测结果,其中前6幅图像是背景复杂的
图像,后6幅图像是光照不均的图像。

由图3可看出所提出的算法对油画、告示
牌和电视画面等背景复杂的图像能够较好地定位文本;对光照不均的图像可以很好地降低光照影响,准确地检测出文本。

仿真实验结果表明本文算法能够有效地降低背景复杂和光照不均的影响。

图4是一些错误检测的结果,其中图4(a)与图4(b)中的文本与背景的对比度较低,图4(c)中的文本与背景有较多的边缘交叉,检测结果表明在文本与背景
图像对比度较低或者有较多的边缘交叉的情况下,算法的检测结果不够理想。

本文提出了一种由粗略到精确定位的场景图像文本定位算法。

该算法首先在边缘图像上进行连通域分析,经过基于启发式规则的过滤和形态学处理,粗略定位得到文本候选区域,然后根据HOG特征和LBP特征对候选区域进行分类,去除虚假文本。

实验结果表明,该算法相比于ICDAR竞赛算法在准确率和召回率上皆有提升,
能够较好地降低场景图像中背景复杂和光照不均的影响,准确定位文本区域。

但是,当文本与背景图像对比度较低或者边缘交叉较多时,本文算法易受背景图像影响,今后需要进一步的研究。

【相关文献】
[1]Jung K,Kim K I,Jain A K.Text information extraction in images and video:a
survey[J].Pattern Recognition,2004,37(5):977-997.
[2]Pan Y F,Hou X,Liu C L.Text localization in natural scene images based on conditional random field[C]//Proceedings of IEEE 10th International Conference on Document Analysis and Recognition(ICDAR),2009:6-10.
[3]Shivakumara P,Phan T Q,Tan C L.A Laplacian approach to multi-oriented text detection in video[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(2):412-419.
[4]Lucas S M.ICDAR 2005 text locating competition results[C]// Proceedings of the International Conference on Document Analysis and Recognition(ICDAR),2005:80-84.
[5]Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR),2010:2963-2970.
[6]Yi C C,Tian Y L.Text string detection from natural scenes by structure-based partition and grouping[J].IEEE Transactions on Image Processing,2011,20(9):2594-2605. [7]Ye J,Huang L L,Hao X L.Neural network based text detection in videos using local binary patterns[C]//IEEE Chinese Conferenceon Pattern Recognition(CCPR),2009:1-5.
[8]刘晓佩,卢朝阳,李静.结合WTLBP特征和SVM的复杂场景文本定位方法[J].西安电子科技大
学学报,2012,39(4):103-108.
[9]Hanif S M,Prevost L.Text detection in natural scene images using spatial
histograms[C]//Proceedings of the 2ndWorkshoponCameraBasedDocument Analysis and Recognition(CBDAR),2007:122-129.
[10]Yi C C,Tian Y L.Text detection in natural scene images by stroke gabor
words[C]//Proceedings of the IEEE International Conference on Document Analysis and Recognition(ICDAR),2011:177-181.
[11]李念永,梁艳梅,张舒,等.基于BP神经网络的复杂彩色图像文本定位[J].光子学报,2009,
38(10):2712-2716.
[12]Liu C,Wang C,Dai R.Text detection in images based on unsupervised classification of edge-based features[C]// Proceedings of the International Conference on Document Analysis and Recognition(ICDAR),2005:610-614.
[13]Gonzalez R C.数字图像处理(MATLAB版)[M].阮秋琦,译.北京:电子工业出版社,2005.
[14]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR),2005:886-893.
[15]Ojala T,Pietikainen M,Maenpaa T.Multiresolution grayscale and rotation invariant texture classification with localbinary patterns[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,2002,24(7):971-987.。

相关文档
最新文档