数字视频中文字分割算法的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
万罡周洞汝崔永毅傅华胜
(武汉大学计算机信息学院,武汉<#""=!)
摘要文章对三种文字分割算法,包括基于阈值的二值化算法、基于分裂/ 合并的算法和基于纹理的算法,进行了分析、实验与评价,最后提出一种边缘检测—
—投影—
—局部区域二值化的文字分割算法,并给出与前面一些算法的比较。关键词文字分割阈值分裂/ 合并边缘检测
文章编号0""!6>##06(!""#)"!6"0"#6"#文献标识码? 中图分类号@A#B0
!"#$%&’"()*+,&-."(/&0 1)2"!),/)’"3".&’.’4.,."3+5.$)&
63’73’,8(&’,-#9#. :&’,%.;#<#3=()’,
(C)D’:,&)+,.E F.&D G,):*H-)+H),I G8’+J+-K):;-,L,I G8’+<#""=!)
*>="-3?":%+,8-;,8);-;,,8:))M-EE):)+,’5(.:-,8&.E,)N,;)(&)+,’,-.+,-+H5G M-+(,8:);8.5M6O’;)M’5(.:-,8&,;D5-,,-+(/ &):(-+(O’;)M’5(.:-,8&’+M,)N,G:)O’;)M’5(.:-,8&,’:)’+’5L P)M’+M)K’5G)M,,8)+,,8)’G,8.:;O:-+(’+)EE-H-)+,,)N, ;)(&)+,’,-.+’5(.:-,8&’;E.55.Q,E-:;,,’+)M()M),)H,-.+ R D:.S)H,-.+O’;)M&),8.M-;G;)M,.(),,)N,:)(-.+;,;)H.+M,,)N,:)(-.+;’:);)(&)+,)M OL ,8:);8.5M6O’;)M&),8.M$
@)%A&-$=:@)N,;)(&)+,’,-.+,@8:);8.5M,*D5-,,-+(/ &):(-+(,T M()M),)H,-.+
文字分割的本质是图像分割(%&’()*)(&)+,’,-.+)。图像分割是计算机视觉领域中极为重要的内容之一,是实现自动图像分析时首先需要完成的操作。它是根据图像的某些特征或特征集合的相似性准则,对图像像素进行分组聚类,把图像平面划分为一系列“有意义”的区域,使其后的图像分析、识别等高级处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。尽管对图像分割算法的研究已有几十年的历史,依据各种理论,至今已提出了上千种类型的分割算法,但是它们大都是针对具体问题的,目前还没有通用的分割理论和算法。下面将对三种文字分割算法,包括基于阈值的二值化算法、基于分裂/ 合并的算法和基于纹理的算法,进行分析、实验与评价,并提出一种边缘检测—
—投影—
—局部区域二值化的文字分割算法。有关,则所得的阈值是与坐标相关的(即动态阈值,前两种阈值对应可称为固定阈值)。
以上对阈值分割方法的分类思想是通用的。近年来,许多取阈值分割方法借用了神经网络、模糊数学、遗传算法、信息论等工具,但这些方法仍可归纳到以上三种方法类型中。
0$0阈值的灰度图像二值化
在利用单阈值方法来分割灰度图像时一般都对图像有一定的假设。最常用的模型可描述如下:假设图像由具有单峰灰度分布的目标和背景组成,且目标和背景象素在灰度值上有很大的差别。对于这类图像,它们的灰度直方图基本上可看作是由分别对应目标和背景的两个单峰直方图混合而成,可以把双峰之间的谷点作为阈值!,对图象作以下二值化处理:
’(#,$)3!0 若%(#,$)!!(!
" 若%(#,$)"!
0 基于阈值的二值化算法
在基于阈值的灰度图像分割算法中,确定阈值是关键。阈值一般可写成如下形式:
对于某些新闻视频中的标题新闻、影视片名或演员表等它们的背景一般比较简单,可以采用单阈值分割方法。但是,大多数视频中的文字都有较复杂的背景,反映在其灰度直方图上
!"!1#,$,%(#,$),&(#,$)2(0)将出现多个峰谷,此时若采用单阈值的分割方法则无法将文字
其中%(#,$)是在象素点(#,$)对处的灰度值,&(#,$)是该点邻域的某种局部性质。换句话说,!在一般情况下可以是(#,$),%(#,$)和&(#,$)的函数。借助式(0),可以将阈值分割方法分成如下三类:
(0)如果仅根据%(#,$)来选取阈值,所得的阈值仅与各个图像象素的本身性质相关(即全局阈值);
(!)如果阈值是根据%(#,$)和&(#,$)来选取的,所得的阈值就是与(局部)区域性质相关的(即局部阈值)。
(#)如果阈值除根据%(#,$)和&(#,$)来选取外,还与(#,$)从背景中分离出来。为此,作者尝试采用多阈值方法将所有的峰都分离出来,如果灰度图像中的文字所占的象素的灰度值相近且与图像中其他目标的灰度值不同,则必然有一个被分离出来的峰对应于图像中的文字目标。
基于局部阈值的二值化算法
0$!
基于局部阈值的方法通过定义考察点的领域,并由邻域计算模板来实现考察点灰度与邻域点的比较,较全局阈值方法有更广泛的应用。其中典型的局部比较方法有4’&)5678’.算法和9):+;)+算法等。与4’&)5678’.算法相比,9):+;)+算法的
作者简介:万罡,男,0B=U年生,湖北荆州人,硕士研究生,主要研究方向:图形图像处理及多媒体技术。周洞汝,0B#B年生,教授,博士生导师,主要研究方向:图形图象视频压缩,V%*应用技术等。
/
$(!,")%"$12!345+(!,),",*).36-+(!,),",*)"9A B C D!视频压缩标准的低级(相当于E F<或9A B C D/,#1!2
!GG)。通过分析大量这种视频源中的字符(德文、英文等西欧字
符)可以发现,它们的高度绝大多数在/"H1"像素之间,为了增
强鲁棒性,可以将最小尺寸定为 1 个像素,最大尺寸定为I" 或
J" 个像素。采用了尺寸限制的措施后,大块的非文字区域基本
已经没有了,但仍然有一些小的区域无法去除。为了进一步去
除这些非文字的小块区域,:46-+,;6+-&4,)和<,4-=>)?@+,采
用了以下两种方法:
(/)填充率(<6KK L4M)’,)和宽高比(N6O)&D)’D&+6%&),4)6’)限
制:对英文等西欧语言,填充率和宽高比都只能针对单词而不
能针对单个字符。因为对单个字符而言,填充率和宽高比的差
(#)
&’(),*(’&’(),*(’
(!)如果+(!,")-$(!,"),则.(!,")7/,否则.(!,")7/
另外,上海交大的叶芗芸等针对*+,-(+-算法的伪影现象
还提出了一种改进措施,其基本思想是对阈值曲面进行光滑处
理。然而,基于局部阈值的二值化算法同样只对简单背景之上
的文字分割比较有效,往往用于扫描文档的二值化或车辆牌照
识别中的字符分割。
总之,对于复杂背景之上的文字分割,单纯采用阈值分割
的方法是无法实现的。然而,实验中发现,仅对划定的某块文字
区域采用基于阈值(特别是局部阈值)的二值化算法的效果还
是比较好的。这是因为就文字所在的局部区域而言,其背景相
对简单,文字与背景的差别较大,分割环境与车辆牌照识别中
的字符分割相当。因此,作者提出这样一个思想:首先通过某种
算法确定各行文字所在的区域,然后采用基于局部阈值的二值
化算法对各个文字区域进行分割。
相邻大区,就应计算几次/0,选择其中/0为最小者与1 小
区合并。
别太大,如“F”、“K”与“N”、“3”等。因此,要采用这项过滤方法,
必须首先确定单词(P’,O()所处的区域。由于每个单词的各个
字符之间的间距比较小,可以设想,如果将单个字符的各个像
素按照一定的半径加宽,每个单词的各个字符所占的区域会发
生连接,从而形成一个区域,将区域划定在一个矩形中,则称为
一个*K’M=。一旦*K’M=确定,填充率和宽高比限制的实现就比
较简单了,主要的问题只是如何确定合适的填充率和宽高比。
在:46-+,;6+-&4,)和<,4-=>)?@+,针对德文、英文的实验中,!基于分裂8 合并算法的文字分割
德国94--&+63大学的:46-+,;6+-&4,)和<,4-=>)?@+,基
于分裂8 合并算法实验对视频帧中的文字进行分割。出于处理
上的方便和速度上的原因,他们首先将原始视频帧灰度化,如
图/ 所示,然后采用分裂8 合并算法对灰度图像进行分割处理。
这里采用标准的分裂和合并准则,即:小区内各象元之最大灰
度与最小灰度之差小于门限值$ 就合并,而一区内最大最小灰
取:
"$#Q7<6KK L4M)’,Q7"$J
"Q N6O)&D)’D&+6%&),4)6’Q7I
(!)对比度分析(E’-),4()4-4K R(6()::46-+,;6+-&4,)和<,4-=
>)?@+,认为,通常视频帧中的后期文本与其背景或其自身的阴
影的灰度有较大区别。因此,可以通过对比度分析来进一步去
除一些较小的非文本区域。具体实现采用以下步骤:首先通过
一个取较大阈值的坎尼(E4--R)边缘检测算子检出强边缘,然
后对边缘进行加宽,如果前一步骤中分割出来的区域与加宽的
边缘不相交则将该区域去除。
通过实验来看,第一种方法的效果比较明显。因此,这两种
方法可以同时采用,也可以只采用第一种方法。
上述算法和实验主要是针对德文等西欧语言。作者采用同
样的方法对复杂背景之上的汉字分割进行了实验,虽然文字所
处的区域基本已经分割出来,但是分割效果并不理想,有许多
笔划丢失。通过仔细分析和多次实验,作者认为造成分割效果
不好的主要原因有以下几点:
(/)德文、英文等西欧文字由字母组成,而每个字母的笔划
都是连通的,即通过分裂8 合并算法后,每个字母都将形成一个
独立的区域。而汉字是由偏旁部首组成,大部分的汉字都有不
连接的笔划,例如“心”、“小”、“汉”等等。这些小的笔划在经过
分裂8 合并算法后,会形成许多非常小的区域,这些小区域在经度之差大于该门限就应分裂。图! 是采用分裂8 合并算法
$7#")分割后的图像。
(取
图/原始帧的灰度化图像
过尺寸限制后往往会被去除或与周围的大区(背景区域)合并,/"S!""#$!计算机工程与应用