视频与图像处理-文字特征提取
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图像文本提取算法研究
摘要: 根据图像中文字与背景区城的形态特征,提出了一种基于形态运算和连通域标记的复杂背景图像文档提取算法。实验结果表明,即使在图像分辨率不高以及文字布局较复杂的情况下,该算法仍然较快较准确地提取出复杂背景图像中的文字。关键词: Ostu,二值化,形态学,连通域
1 引言
近年来,随着计算机和网络技术的发展,网页上的数字化图像和视频呈现爆炸式增长。而随着移动数码摄像设备的普及,用户也可以方便地使用移动设备拍摄自然场景中的数字化图像。同时,传统的图书馆为了满足用户对多媒体内容的查询需求,也开始收藏图像和音视频等内容。多样的信息给人们的生产和生活带来了巨大便利的同时,也使如何能让用户准确迅速地找到自己所需的多媒体内容成为日益突出和紧迫的需求,因而也需要有效的方法来组织和检索这些多媒体内容。
以往的文档分析与识别领域,主要着眼于对一些布局较有规律的二值文档进行字符/图形分割与识别。目前,随着WWW页面中图片的大量使用,以及图像、视频数据库的广泛应用,使得图像成为另一种重要的信息载体。Loprest指出,互联网上相当一部分文字是嵌入在图像中的,而且其中大部分文字并没有在HTML页面的其他地方重复出现[1]。Wong则认为视频图像中的文字可为我们提供关于该视频产品的丰富语义信息图。不幸的是,目前大多数的搜索引擎都无法直接对嵌人在图像中的文字内容进行检索。因此,如何在复杂的图像背景下快速、准确地分割与提取文字将具有广泛的应用前景和研究价值。文献[1]~文献[6]分别在Web图像及视频图像的文字分割领域进行了相关研究。
经大量观察后我们发现,WWW图片、Video图像及杂志封面图片一般具有以下特点:
(1)图像中包含色彩较为丰富的文字与背景;
(2)图像背景可能由一些具有较多灰度变化的复杂图案构成;
(3)图像中文字的分辨率一般不高,这是由于在生成文字时使用了图像处理软件中的反锯齿效果(Anti-Aliased)而造成的;
(4)图像中文字布局的随意性较大,而且文字与背景的层次关系可能很复杂。
我们称这类图像为包含复杂背景及文字的图像。本文将讨论如何在这一类图像中提取文字。2 算法描述
本文设计用于实现文本的提取的方法,改方法主要分为三个步骤:
第一步:阈值分割,通过Ostu法计算图像的阈值,并对图像进行二值化,实现目标和背景的分离;
第二步:形态学处理,二值化的图像进行膨胀、腐蚀、开、闭运算,实现文字区域的连通,便于文字区域的提取;
第三步:连通域标记,处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记,再对每个连通域画矩形框从而实现文档的提取。
2.1 阈值分割
2.1.1 阈值分割方法
为了便于对文字的识别,我们需要将检测到的文字进行二值化。图像二值化的方法主要分为局部阈值二值化和全局阈值二值化两种[7],全局阈值二值化是整幅图像都用同一个阈值进行二值化的方法,其计算简单,但是适合背景简单,灰度直方图只有连个明显的波峰的图像。对于背景复杂、噪声严重或者图像光照分布不均时全局阈值二值化的效果就会很差,造成很多虚景或者造成目标的丢失[8]。局部阈值的方法是将图像分块,对每块使用不同的阈值进行二值化。局部阈值能很好的克服全局阈值所面临的问题,但是局部阈值计算相对较为复杂,对图像的分块方式不同会影响二值化的效果[9]。
图像阈值分割技术的关键在于如何选取阈值。根据其对像素的处理方式,主要分为三类:
(1)全局阈值法:是指在二值化过程中只使用一个全局阈值T的方法。它将图像的每个像素的灰度值与T进行比较,若大于T,则取为前景色(白色);否则,取为背景色(黑色)。
设图像的灰度函数为f(x,y),则二值化算法的表达式:
255(,)
(,)
f x y T
f x y
>
⎧
=⎨
⎩其他
(1)
全局阈值法主要适合于质量较好、目标和背景对比度较大,且直方图呈现双峰的图像。典型的全局阈值法有Ostu 法[10]、最大熵方法等。
(2)局部阈值法:由当前像素灰度值与该像素周围点局部灰度特征来确定像素的阈值。例如可以将原图像划分为一些不相交的小块,将各块图像的灰度均值作为该部块图像的阈值,局部采用全局阈值法。典型的局部阈值法有Bernsen 法。
(3)动态阈值法:它的阈值选择不仅取决于该像素及周围像素的灰度值,而且还与该像素的坐标位置有关。例如我们可以在局部上统计该区域灰度值分布特征,根据统计结果来确定不同的局部阈值。 在下面的小节中我们主要讨论本实验使用的ostu 法的原理和特点。 2.1.2 OSTU 法
在众多阈值分割算法中,1979年由Otsu 提出的基于类间方差最大化的分割算法一直被认为是分割阈值自动选取的最优方法。它将图像分为背景与目标两类,通过搜索计算类间方差最大值,得到最优阈值。
图像中像素值0-T 的均值为:
0()()k T
u T k p k ≤≤=
∑
(2)
式中()p k 为图像中像素值为K 的概率。
图像中像素值0-T 的概率和为:
0()()k T
w T p k ≤≤=
∑
(3)
图像总的均值为:
0255
()k u k p k ≤≤=
∑
(4)
图像背景和目标两类像素的类间方差定义为:
2
(()())()()(1())
u w T u T G T w T w T -=- (5)
在Ostu 方法中,图像最佳阈值g 则为max(G(T))下的T 值。根据阈值g ,整幅图像可以分为背景和目标两部分。由于方差是衡量图像中像素灰度分布均匀性的一个度量,方差值越大,说明组成图像的背景和目标两部分的差别越大。当部分背景被错误地划分为目标或者部分目标被错误地划分为背景时,会导致两部分的差别变小。因此,Ostu 方法实际上是以错分概率最小作为分割阈值的选取准则的。以下是采用Ostu 方法二值化和固定阈值二值化的比较图。
图1 原图效果
图2 Ostu 二值化效果 图3 固定阈值二值化效果 原图中比较灰暗的文字如果当做文档来提取增
加了文档提取的难度,所以当做背景来处理。从效果图比较可以看出采用Ostu 法二值化效果较好,适应性较强。本实验中要对20幅图像进行处理,采用固定阈值二值化对于不知道背景和目标像素区别的情况下,效果不好。而Ostu 对于这种情况较好。 2.2 图像形态学处理 2.2.1 基本原理
原理:在特殊领域运算形式——结构元素(Sturcture Element ),在每个像素位置上与二值图像对应的区域进行特定的逻辑运算。运算结构是输出图像的相应像素。运算效果取决于结构元素大小内容以及逻辑运算性质。
结构元素:膨胀和腐蚀操作的最基本组成部分,用于测试输出图像,通常要比待处理的图像小还很多。二维平面结构元素由一个数值为0或1的矩阵组成。结构元素的原点指定了图像中需要处理的像素范围,结构元素中数值为1的点决定结构元素的邻域像素在进行膨胀或腐蚀操作时是否需要参与计算。
先来定义一些基本符号和关系。 1. 元素
设有一幅图象X ,若点a 在X 的区域以内,则称a 为X 的元素,记作a ∈X ,如图4所示。
2. B 包含于X