数字视频中文字分割算法的研究

合集下载

电视视频字幕文字提取应用方法分析

电视视频字幕文字提取应用方法分析

电视视频字幕文字提取应用方法分析摘要随着网络的发展,电视的智能化、数字化也不断的提高,快速、便捷地为人们提供大量的信息。

在提供各类媒体信息的同时,也出现了电视视频内容安全等问题。

为了及时给人们提供准确、原汁原味的信息,我们采取一种提取电视视频字幕文字的方法,使电视内容在播放过程中,不会发生任何变化,让人们放心的观看自己喜欢的节目。

关键词电视视频;文字;提取方法中图分类号tn94 文献标识码a 文章编号 1674-6708(2013)88-0003-021根据角点检测原理的字幕文字提取方法角点是图像边界上曲率很高的点,是图像纹理的一个重要特征。

图像信息里含有很多的角点,在使用原图进行计算的前提下,角点计算不但可以够保留原有信息而且还可以提高计算的效率。

本方法就是利用角点这个纹理特征来进行文字区域的检测。

根据图像边缘的方法要对图像边缘进行编码,图像的分割和边缘提取决定了这种角点检测效果的好与坏,由于该操作方法操作难度和计算量都比较大,所以检测效果不是太令人满意。

通过计算点的曲率及梯度来检测角点的方法叫做图像灰度。

harris角点检测算法是通过微积分的运算方法和自相关矩阵的方法来进行角点的检测,进一步提高文字的提取效率。

为了抑制噪声的产生,harris检测算法是把高斯函数作为检测窗口,平滑滤波是对图像的第一步处理,图像中角点检测是对图像的进一步处理,本文提出了一种视频字幕检测算法其依据是角点检测。

在视频图像中,背景留下的一些角点也可能被看成是文字区域的角点。

为了提高文字区域检测的准确率,降低提取结果中的噪声,应先将角点分布图中孤立的角点滤除。

因为大量的角点存在于视频图像中的文字区域,所以从角点分布图中来看,角点分布密度很大的情况就是文字区域,而在视频图像中的某些背景区域虽然也含有不够密集的角点,但是文字区域构成的最小外接矩阵特征与背景区域角点构成的最小外接矩阵特征相差较大。

可以利用这些对角点分布图进行过滤,检测找出文字区域。

基于聚类和多神经网络的中文视频文字识别

基于聚类和多神经网络的中文视频文字识别

基于聚类和多神经网络的中文视频文字识别黄轩【摘要】通过研究视频汉字识别问题,提出了关于视频中汉字跟踪及分割算法。

首先,提取视频样本特征,采用 K 均值算法进行聚类作为第 I 次分类,之后,采用多个 BP(back propagation)神经网络进一步细分一次分类后的结果作为二次分类。

最后,对以上算法进行了实验验证,结果证明这些算法是有效的,多层分类器较单一的 BP 神经网络分类器识别率更高。

%In this paper we study the problem of Chinese character recognition in video. We propose a series of algorithms on Chinese character division, tracking. Based on them we design a multi-level sorter. Firstly we extract the features of some samples and employ K-means clustering algorithm to carry on I level classification. Secondly, we employ the algorithm of multi-back propagation neural network (MBPNN) to classify every category once again and we call it II level classification. Finally, we carry on the experiment and the testing result proves that these algorithms are effectively and recognition rate is higher than conventional back propagation neural network.【期刊名称】《漳州职业技术学院学报》【年(卷),期】2013(000)001【总页数】5页(P7-11)【关键词】汉字分割;汉字跟踪;k均值聚类;BP神经网络【作者】黄轩【作者单位】漳州职业技术学院经济管理系,福建漳州 363000【正文语种】中文【中图分类】TP441.4;TP1831 引言随着计算机硬件速度的不断提升,视频在许多领域得到了广泛的应用,视频提取也变得十分重要的研究课题。

视频图像中的文字提取技术论文

视频图像中的文字提取技术论文
上海交通大学硕士学位论文
摘要
视频图像中的文字提取技术研究
摘 要
视频中的文本为描述视频内容提供了十分有用的信息, 对于构建 基于内容的多媒体检索系统具有重要作用。因此,有效地提取和识别 这些文字对于图像理解、视频内容分析、基于内容的图像和视频检索 等领域具有重要意义。 目前商业的OCR技术对于二值图像中文字的提取识别已经趋于成 熟,但视频中的文字具有分辨率低、背景复杂、文字形态差异大等特 点,这给视频中文字的有效提取带来了极大的挑战,限制了OCR技术 的成功应用。针对这些问题,本文主要围绕如何充分利用文字的各种 特性,更鲁棒地从复杂背景图像中提取出文字进行了研究,具体研究 了文字区域检测、文字恢复、文字分割这三部分的算法。 在视频文字检测方面, 本文提出了一种基于线条分类的视频文字 检测算法。首先利用 Canny 算子对图像进行边缘检测,然后根据文字 边缘线条的特征,过滤非字符的边缘线条,并利用文字线条区域的相 似性,设置综合阈值,得到最终的文字区域。该算法在边缘检测的基 础上, 有效地利用了文字本身的结构特征和文字笔画的线条特征对文 字区域进行判别,在获得较高查全率的同时大大降低了虚警,而且对 不规则排列及发生形变的文字也能够准确定位,并对光照、阴影等条
1

义。例如,在新闻视频中检测到的字幕文字,不仅可以为新闻故事单元切分提供 时间标志,还能够为新闻事件内容的理解提供直接的语义特征;在体育视频中, 比赛中出现的比分、运动员号码等文字信息对于自动体育视频内容分析,精彩事 件检测也具有重要的作用。因此,若能准确地将这些文字信息检测出来,并进行 处理,使之能够被传统的 OCR 软件识别并被转化成为机器内码,这样就可以用类 似文本检索的“关键字”查询方法,对视频片断进行快速有效的查询,并对其内 容 进 行 理 解 和 分 析 。 图 像 文 字 提 取 与 识 别 (image text extraction and recognition)就是将这些文字提取出来,经过识别转化为纯文本的过程[3]。 图像文字的识别可以借助于现有的 OCR 技术。OCR 技术以自动识别二维点阵 字符并将其转换为纯文本为目标,经过数十年的发展己经相当成熟,被广泛用于 文档扫描。然而,与文档不同的是,嵌入在图像和视频中的文字通常都带有复杂 的背景,而且文字出现的位置未知,在没有去除背景和二值化之前,现有的 OCR 系统难以识别出字符, 因而在提交给 OCR 系统之前都必不可少地需要一个文字提 取(text extraction)的过程[4]。这样,如何从复杂背景中提取出图像文字就成 为以文字为线索来理解和检索图像和视频内容的一个关键任务。

基于图像处理的手写汉字识别技术研究

基于图像处理的手写汉字识别技术研究

基于图像处理的手写汉字识别技术研究手写汉字识别技术,是指通过数字图像处理技术实现对中文手写汉字的自动识别和转化。

随着人工智能技术的发展,手写汉字识别技术不断创新,其应用领域也越来越广泛。

一、手写汉字识别技术的研究背景手写汉字是中文书写传统之一,然而,手写汉字的识别是一项非常困难的任务。

之前的手写汉字识别技术大多采用人工制作特征向量或模板匹配方法,存在着低效、低准确率等缺陷。

随着计算机技术和模式识别技术的发展,通过数字图像处理技术进行手写汉字识别成为了可能。

二、手写汉字识别技术的研究现状目前,手写汉字识别技术主要分为离线和在线两种情况。

离线也即离线手写汉字识别,是指将已经绘制完毕的汉字图片传入计算机进行识别。

典型的离线手写汉字识别技术包括基于梯度、灰度共生矩阵、哈里小波、支持向量机(SVM)等的算法。

离线手写汉字识别技术的缺点是无法处理手写汉字的时序信息,其优点是比较简单,计算速度快。

在线手写汉字识别指的是在写字过程中即时识别所写的汉字。

在线手写汉字识别技术又分为笔迹跟踪识别和手势识别两种方式。

笔迹跟踪识别技术利用触控板或其他电子笔绘制,曲线的时序信息丰富,这种方法可以实现实时识别和纠正错误。

手势识别技术是利用摄像头或其他传感器采集手势图像,再经过处理和分析,完成手写汉字的识别任务。

在线手写汉字识别技术的优点是能够处理汉字的时序信息,但其缺点是算法更加复杂。

三、数字图像处理在手写汉字识别中的应用数字图像处理是指从数字图像的角度进行图像处理。

其主要任务是去噪、增强、分割和特征提取等。

在手写汉字识别中,数字图像处理技术可以通过分割字符、去除噪声、特征提取等方式来提高识别准确率。

1. 图像去噪手写汉字图像的质量很容易受到笔画数量、笔画形态、字体等因素的影响,常常存在噪声影响。

图像去噪是首要任务,常用的方法有中值滤波法、小波变换法、自适应中值滤波法等。

2. 字符分割字符分割是指将整个手写汉字图像分割成汉字的各个笔画或构件。

云计算平台上两种中文分词算法的实现对比研究

云计算平台上两种中文分词算法的实现对比研究

人工智能及识别技术本栏目责任编辑:唐一东云计算平台上两种中文分词算法的实现对比研究周寅,龙广富(武汉船舶职业技术学院,湖北武汉430050)摘要:现如今,常用的中文分词算法为IKAnalyzer (简称为:IK )和ICTCLAS (简称为:IC )两种,这两种算法也可以说是如今的主流中文分词算法,为了能够更好的研究两种算法的性能,本文首先利用理论对两种算法在单机环境下的性能进行分析,而后通过Hadoop 分布式文件管理系统(简称为:HDFS )、Hadoop 集群和并行处理大数据集的MapReduce 所共同组成的系统框架,并将算法优化后,通过开展大量的实践性实验对两种不同算法在分布式环境下对大数据集进行处理后的表现进行比较,而后得出具体的分析结果,希望能够为相关人士带来帮助。

关键词:云计算;IKAnalyzer ;ICTCLAS ;Hadoop ;比较中图分类号:TP3文献标识码:A文章编号:1009-3044(2021)09-0191-02开放科学(资源服务)标识码(OSID ):对于中文分词法来说,该方法最初被北京航空航天大学的梁南元教授所提出,属于一种在查字典分析方法基础上的分词方法,近些年来,由于我国经济水平和社会发展的速度越来越快,中文在整个世界舞台中所占据的地位也越来越重要,并且吸引了更多学者加入中文分词法的研究中,现如今已经实现了基于多种词典和概率统计的中文分词算法,而在面对这些大量的中文信息时,必须要确保文本分词结果,在满足本身词义的基础上,尽可能延长词组长度,而现如今的中文分词算法种类非常多,但是可以将其大致分为三种,分别为基于字符串匹配的分词、基于理解的分词以及基于统计的分词,在这种情况下也出现了多种分词算法产品,比如SCWS 、HTTPCWS.IKAnalyz⁃er 2012、FudanNLP 、ICTCLAS 等,而这些分词算法均不能算作为开源,而考虑到虽然IKAnalyzer 2012、ICTCLAS 等算法属于开源,但是这些算法却大多应用在单机环境下,考虑这一前提条件,可以将这两种算法引入到云计算平台上,进而使其能够与更多应用进行结合。

视频中藏文文本的检测方法研究

视频中藏文文本的检测方法研究

视频中藏文文本的检测方法研究作者:索朗曲珍高定国李婧怡白玛旺久来源:《电脑知识与技术》2023年第35期摘要:随着各种视频的增多,对于大量视频中文字的提取与监测等方面提出了更高的要求,研究视频中文字的文本检测和识别对语音文本的收集、视频监测等有重要的意义。

目前视频中藏文文本的检测、识别研究还处于起步阶段,该文采用DBNet、DBNet++、PSENet、EAST、FCENet等5种基于分割的深度学习文字检测算法对视频中藏文字幕进行了检测,对比分析了5种检测算法对视频中藏文字符的检测性能。

实验表明,在文字检测阶段采用的渐进式扩展算法PSENet在测试集上具有更好的检测性能,其在测试集上的准确率、召回率、F1值分别达到了0.996、0.995、0.998。

关键词:视频;藏文文本;检测中图分类号:TP391 文献标识码:A文章编号:1009-3044(2023)35-0001-05开放科学(资源服务)标识码(OSID)0 引言基于深度学习的视频文字检测是指检测定位连续的视频帧中包含文字区域的位置。

视频字幕中所包含的文字信息有助于理解视频,是对视频内容的解释说明。

通过对视频中的文字进行检测识别来监管确保其内容积极健康,如视频画面中是否含有反动宣言等,在快速传播的信息化时代下对维护国家安全、社会稳定和推动藏文信息处理的发展具有重要意义。

目前视频中文字的检测与识别研究主要集中在英文和中文,并取得了较好的成果,但视频中藏文的检测与识别研究仍处于起步阶段,以往的研究主要针对现代印刷体、木刻版藏文古籍文本以及自然场景下的藏文进行检测和识别。

视频中藏文的检测识别与自然场景下藏文的检测识别相似,但存在着一定的差异。

视频中的藏文字分为场景文字和人工添加文字,人工文本虽然比自然场景中的文字更加稳定,但由于视频背景和文字实时变化、字体多样且文字的位置和大小不固定,使得文字的检测定位存在困难,于是有必要研究视频中的藏文检测与识别。

基于K均值聚类的文字分割算法研究与实现

基于K均值聚类的文字分割算法研究与实现

基于K均值聚类的文字分割算法研究与实现作者:朱亚平鲁永杰李华来源:《计算机光盘软件与应用》2013年第02期摘要:多数图像因为背景复杂,文字的结构、颜色、灰度值不确定,导致文字分割困难,复杂背景图像的文字分割近些年受到大量的关注与研究,但多数都是基于某些特定条件进行文字分割或者需要手动设置参数,适用范围具有很大的局限性。

针对以上问题提出了一个计算效率高,适应性强而且无监督实现的算法:基于均值聚类的复杂背景图像的文字分割算法。

算法针对文字的笔画特征使用增强的算子响应度作为判决与反馈条件,自适应的决定出最佳聚类数的值,分割出最佳的文字图像。

实验结果表明,对具有复杂背景的文字图像,算法具有较准确的分割效果与实时的分割速度,抗噪声能力也具有一定的优越性。

关键词:文字分割;无监督;均值聚类;算子;反馈中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2013) 02-0000-051 引言视频与图片中经常包含大量的文字信息,这些文字具有较高的指向性,文字的提取对于我们检索以及理解视频的内容并做进一步的处理具有重要意义。

但由于图像的背景复杂,干扰较多,文字本身的结构信息,颜色,笔画粗细,灰度值都具有不确定性,现有的技术难以直接识别,将文字从复杂背景中分割出来具有较大的难度。

常用的文字分割算法主要有基于阈值的算法、基于连通域的算法、基于学习的算法。

基于阈值的算法是使用较为广泛也是比较经典的算法,主要分为全局阈值法,局部阈值法,基于熵的算法。

Otsu[1],Watanabe Y等[2]使用了全局阈值算法分割文字;Niblack[3]提出的局部阈值法主要是对图像进行分区,并且不同的分区使用不同的阈值,较全局阈值具有更强的适用性。

后来Sauvola[4]又对局部阈值算法作了改进。

局部阈值算法较全局阈值而言虽然能处理更多的退化图像,但是依然主要适用于灰度图像或者单一颜色通道的图像。

基于熵的算法是根据不同灰度层之间的熵信息进行文字分割,这种算法也是主要适用于单个颜色通道上的图像或者灰度图像。

图像视频复杂场景中文字检测识别方法研究

图像视频复杂场景中文字检测识别方法研究

图像视频复杂场景中文字检测识别方法研究图像视频复杂场景中文字检测识别方法研究摘要:随着社会的发展和智能设备的普及,图像和视频中的文字检测和识别成为一项重要的研究领域。

然而,复杂的场景中文字的检测和识别仍然具有挑战性,因为存在背景复杂、字符变形、遮挡等问题。

本文详细介绍了图像视频复杂场景中的文字检测和识别方法的研究进展,并探讨了当前方法在解决复杂场景中的文字识别问题上的优势和不足之处。

通过总结研究现状和存在的问题,提出了未来研究的方向和可能的解决方案。

1. 引言随着数字图像和视频的广泛应用,自动文字检测和识别技术在各个领域中起着重要作用。

例如,在智能交通系统中,可以自动识别道路标志和交通信号灯上的文字;在监控系统中,可以从图像或视频中提取文字信息以便更好地进行安全管理。

然而,由于图像和视频中的文字通常被噪声、背景复杂、遮挡等因素所影响,使得文字检测和识别成为一个困难的问题。

2. 图像文字检测方法图像文字检测是指从图像中提取出文字区域的过程。

根据研究的方法和策略,可以将图像文字检测方法分为基于连通区域的方法、基于特征的方法和基于深度学习的方法等三类。

2.1 基于连通区域的方法基于连通区域的方法是通过图像的形态特征提取和连通区域分析来检测文字区域。

首先,对图像进行预处理,如灰度化、二值化、滤波等。

然后,利用形态学运算,如腐蚀、膨胀、开操作等,减少噪声并增强文字区域。

最后,通过连通区域分析,提取出连通区域,从中筛选出文字区域。

尽管这种方法在简单场景中具有较好的效果,但在复杂场景中面临着字符变形、遮挡等问题,检测效果较差。

2.2 基于特征的方法基于特征的方法是通过对文字和非文字区域的特征进行分析来检测文字区域。

常用的特征包括颜色、纹理、形状、边缘等。

首先,对图像进行预处理,如颜色空间转换、边缘检测等。

然后,提取出文字和非文字区域的特征,并通过分类算法来对特征进行判别。

最后,根据判别结果提取出文字区域。

这种方法在复杂场景中具有一定的鲁棒性,但对于字符变形、遮挡等问题仍然存在局限性。

基于CDF9-7小波和自适应Otsu算法的视频字幕分割

基于CDF9-7小波和自适应Otsu算法的视频字幕分割

基于CDF9-7小波和自适应Otsu算法的视频字幕分割黄同;邵思飞【摘要】提出了一种基于CDF9-7小波和自适应Otsu算法的视频图像字幕分割算法。

首先从视频中截取视频图像,并对其进行灰度化等预处理,其次对预处理后的图像进行CDF9-7小波变换,获取其水平和垂直的高频分量HH,然后使用自适应Otsu算法分割出该高频分量图像中的字幕区域。

实验表明,该算法分割效果良好,具有一定的鲁棒性和自适应性。

以这些区域为基础,可以进一步完成诸如视频字幕识别等图像分析、理解和识别操作。

%A video image subtitle segmentation algorithm based on CDF9-7 wavelet and adaptive Otsu algorithm is proposed in this paper. First,a video image is extracted from the video stream,its pretreatment such as graying is made,the pretreated image′s horizontal and vertical hi gh-frequency component HH is obtained by CDF9-7 wavelet transformation,and then the image subtitle regions in the high frequency component image are segmented by using adaptive Otsu algorithm. Experiments show that the method works well and has a certain robustness and adaptability. Based on these regions,further image analysis,understand-ing and recognition tasks such as video subtitle recognition can be achieved.【期刊名称】《现代电子技术》【年(卷),期】2014(000)009【总页数】3页(P50-52)【关键词】CDF9-7小波;自适应Otsu算法;视频字幕;图像分割【作者】黄同;邵思飞【作者单位】延安大学西安创新学院,陕西西安710100;延安大学西安创新学院,陕西西安 710100; 延安大学物理与电子信息学院,陕西延安 716000【正文语种】中文【中图分类】TN911.73-34;TP391.10 引言视频是依据人眼视觉暂留原理,存储的看上去平滑连续而实际上动态捕捉的一系列的静态照片,已经成为互联网上除文字、声音之外最重要的媒体形式,对其自动分析与理解已经成为当前网络监管的重要研究内容。

非压缩域数字视频中文字的检测与提取

非压缩域数字视频中文字的检测与提取

中国体视学与图像分析 2004年第9卷第4期CHI NESE JOURNAL OF STEREOLOGYAND I MAGE ANALYSIS Vol19No14Sept12004文章编号:1007-1482(2004)04-0244-05・综述・非压缩域数字视频中文字的检测与提取高平利,任金昌,赵荣椿(西北工业大学计算机学院,西安710072)【摘要】:作为一种高级语义特征,视频中的文字信息对视频内容的理解、索引和检索具有重要意义。

本文针对非压缩域中视频文字的检测与提取技术做了详尽的分析和讨论,涉及的内容包括:文字事件的检测、帧图像中文字区域的检测与分割以及视频文字识别(Video OCR)等。

对于不同的典型算法,分析了其理论基础和应用特点,并且通过对比指出其不足和应用的局限。

最后,本文还展望了该技术未来发展的方向。

【关键词】:非压缩域;文字事件检测;文字分割与识别;视频索引与检索【中图分类号】:TP391143 【文献标识码】:AT ext Detection and Extraction in U ncompressed Digital VideosGao Ping2li,Ren Jin2chang,Zhao Rong2chun(School of Computer Science,Northwestern Polytechnical University,Xi’an710072)【ABSTRACT】:As a high-level semantic feature,text information of videos is very important for un2derstanding,indexing and retrieval of video contents.In this paper,comprehensive analysis and dis2cussions are given on detection and extraction of texts from videos in uncompressed domain,in whichseveral topics are involved:text event detection,text region detection and segmentation in videoframes as well as video OCR,etc.As for different typical algorithms,their theoretical basis and ap2plications are discussed,along with shortcomings and limitations in applications are pointed outthrough comparisons.Finally,some relevant prospects are also proposed.【KE YWOR DS】:uncompressed domain;text event detection;text segmentation and recognition;video indexing and retrieval1 引言随着Internet网络应用的普及和图像、视频等多媒体数据的迅速增长,基于内容的视频索引和检索(Content-based Indexing and Retrieval,CB IR)已经成为人们的研究热点。

图像与视频的内容分析与理解方法研究

图像与视频的内容分析与理解方法研究

图像与视频的内容分析与理解方法研究随着互联网和数字媒体内容的快速发展,我们每天都会面临大量的图像和视频信息。

如何高效地对这些数据进行内容分析和理解成为了一个非常重要的研究领域。

本文将深入探讨图像与视频的内容分析与理解方法,并介绍一些相关的研究成果。

一、图像与视频的内容分析方法1. 特征提取方法为了实现对图像与视频内容的分析与理解,首先需要提取其中的关键特征。

传统的特征提取方法包括颜色直方图、纹理特征、形状特征等。

近年来,深度学习技术的发展也为图像与视频的内容分析提供了新的思路,通过卷积神经网络(CNN)等深度学习模型可以自动学习到更加鲁棒和语义化的特征表示。

2. 目标检测与识别方法在图像与视频的内容分析中,目标检测与识别是一个重要的任务。

传统的目标检测方法包括滑动窗口法和基于特征的分类器方法,但这些方法通常存在着计算复杂度高、准确率低等问题。

而基于深度学习的目标检测方法,如基于卷积神经网络的物体检测(如Faster R-CNN和YOLO),能够在准确率和速度上取得更好的平衡。

3. 图像与视频的语义分割方法与目标检测不同,语义分割的目标是对图像中每一个像素进行分类,将其标记为属于某个类别。

传统的语义分割方法主要基于图像的低级特征和像素级分类模型,但由于信息量较低,结果往往不够准确。

而基于深度学习的语义分割算法,如全卷积神经网络(FCN)和编码解码网络(Encoder-Decoder),能够更好地利用图像中的上下文信息,提高分割效果。

二、图像与视频的内容理解方法1. 图像与视频的场景理解图像与视频的内容理解的一个重要方面是对场景的理解。

场景理解的目标是从图像和视频中推断出场景的语义信息,如室内、户外、街景等。

传统的方法主要基于低级特征、目标检测与识别等技术,但这些方法往往对场景的语义信息理解不够准确。

基于深度学习的场景理解方法通过学习大量的图像和视频数据,能够更好地捕捉场景的语义信息。

2. 图像与视频的情感分析除了理解场景,图像与视频的内容理解还包括对其中蕴含的情感信息的分析。

08-基于梯度增强的新闻字幕分割算法

08-基于梯度增强的新闻字幕分割算法

Si > A@ S Max
( 2)
和宽高比规则
ARi > B
( 3)
过滤掉一些噪声区域, 那么剩下的就是标题字幕区
域. 其中, Si , A Ri 分别是 第 i 个区域的面积 和宽高
比; S Max 是最大区域面积; A和 B 均是经验值, 实验中
A= 0. 05, B= 1.
2 基于梯度增强的文本分割算法
王一丁
蒋小森
( 北方工业大学信息工程学院 北京 100144)
( w angyd1985@ yahoo. cn)
摘 要 新闻字幕的分割在基于语义的新闻视 频检索系 统中具 有重要 的意义, 为此 提出一 种基于 梯度增 强的新 闻 字幕分割算法. 该算法使用图像多方向梯度的加权 和代替图像的标准方差, 通过 各方向权值 的调节加强 某些方向 的 边缘信息, 以提高分割效果. 与一些经典的自适应阈值分割算法相比, 该算 法不仅能够 保留大部 分笔画, 也能有效 地 减少断笔问题. 基于光学文字识别的实验 结果证明了文中算法的有效性.
算法的直接实验数据. 新闻视频图像中字幕数量比 较多, 且具有复杂多变的背景, 这样不仅为算法的评 测提供了充足的实验数据, 也有利于检测算法在复 杂背景下分割效果; 其次, 将各种算法的分割结果送 入汉王 OCR 识别引擎, 用最终的文本 识别正确率 作为算法分割效果好坏的评判标准[ 10-12] .
1 新闻标题字幕的检测
从视频中检测和提取字幕是新闻字幕分割的重
收稿日期: 2008- 09- 02; 修回日期: 2008- 12- 31. 基金项目: 北京市属市管高 等学校人才强 教计划. 王一丁, 男, 1967 年生, 博士, 教 授, CFF 高级会员, 主要研究方向为视频和图像分析、网络信 息安全、遥感 图像处理 与应用、射 频无线电 定位与识 别. 蒋小森, 男, 1982 年生, 硕士研 究 生, 主要研究方向为视频和图像分析、文本信息处理.

农业科教视频中文字信息提取算法

农业科教视频中文字信息提取算法

129收稿日期:2018-05-30作者简介:赵洁(1996—),女,汉族,山东枣庄人,本科,研究方向:计算机视觉。

通讯作者:耿耀君(1982—),男,汉族,山东潍坊人,研究生,讲师,研究方向:机器学习。

图1 农业科教视频文本提取示意图1 引言随着互联网和多媒体技术的发展,越来越多的农业科教视频出现在互联网上,但农户如何从海量视频中快速找到感兴趣内容是一个非常值得研究的问题。

视频中的文字与视频的语义有着密切的关系,提取视频中的文字对视频内容的快速查找有着重要的意义[1]。

近年来,视频中文字的提取受到了越来越多关注,很多国内外学者已经在这方面做了研究。

主流方法均包括五个步骤,分别是:文字检测、文字定位、文字增强、文字分割和文字识别。

A.Jain等提出了一种基于文字纹理的页面分割算法[2],可以根据色调等信息很好的分割出包含文字块的页面;Smith等人提出可以检测到某一范围内的文字的算法,具有一定的尺度约束[3]。

Li等人通过使用前向神经网络来定位视频中的文字,并使用块匹配方法跟踪文字,达到了很好的效果[4]。

国内学者在视频文字提取方面也有了很大的突破,宋砚等人提出了一种基于聚类的视频字幕提取方法,该方法对于网络视频敏感词语的检测具有很好的效果,中文识别结果可以达到83.11%[5]。

本文提出了一个农业科教视频中的文字信息提取算法,实验证明该算法的文本信息提取精度较高,具有一定的鲁棒性。

本论文的组成结构如下:第二部分对所采用的农业科教视频及方法进行了详细介绍;第三部分对实验结果进行了图表展示以及详细的分析;最后对本文工作进行总结和展望。

2 文字提取方法农业科教视频中的文字包含大量的语义信息,如图1所示。

从图中可知农业科教视频中的文字大多嵌在复杂的背景中,增加了农业科教视频中文字提取的难度。

针对农业科教视频的特点,本文提出了一种农业科技视频中文字的提取算法,具体步骤包括:视频解码、文本区域定位、投影分割以及Tesseract文字识别。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

万罡周洞汝崔永毅傅华胜(武汉大学计算机信息学院,武汉<#""=!)摘要文章对三种文字分割算法,包括基于阈值的二值化算法、基于分裂/ 合并的算法和基于纹理的算法,进行了分析、实验与评价,最后提出一种边缘检测——投影——局部区域二值化的文字分割算法,并给出与前面一些算法的比较。

关键词文字分割阈值分裂/ 合并边缘检测文章编号0""!6>##06(!""#)"!6"0"#6"#文献标识码? 中图分类号@A#B0!"#$%&’"()*+,&-."(/&0 1)2"!),/)’"3".&’.’4.,."3+5.$)&63’73’,8(&#4&’,-#9#. :&’,%.;#<#3=()’,(C)D’:,&)+,.E F.&D G,):*H-)+H),I G8’+J+-K):;-,L,I G8’+<#""=!)*>="-3?":%+,8-;,8);-;,,8:))M-EE):)+,’5(.:-,8&.E,)N,;)(&)+,’,-.+,-+H5G M-+(,8:);8.5M6O’;)M’5(.:-,8&,;D5-,,-+(/ &):(-+(O’;)M’5(.:-,8&’+M,)N,G:)O’;)M’5(.:-,8&,’:)’+’5L P)M’+M)K’5G)M,,8)+,,8)’G,8.:;O:-+(’+)EE-H-)+,,)N, ;)(&)+,’,-.+’5(.:-,8&’;E.55.Q,E-:;,,’+)M()M),)H,-.+ R D:.S)H,-.+O’;)M&),8.M-;G;)M,.(),,)N,:)(-.+;,;)H.+M,,)N,:)(-.+;’:);)(&)+,)M OL ,8:);8.5M6O’;)M&),8.M$@)%A&-$=:@)N,;)(&)+,’,-.+,@8:);8.5M,*D5-,,-+(/ &):(-+(,T M()M),)H,-.+文字分割的本质是图像分割(%&’()*)(&)+,’,-.+)。

图像分割是计算机视觉领域中极为重要的内容之一,是实现自动图像分析时首先需要完成的操作。

它是根据图像的某些特征或特征集合的相似性准则,对图像像素进行分组聚类,把图像平面划分为一系列“有意义”的区域,使其后的图像分析、识别等高级处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。

尽管对图像分割算法的研究已有几十年的历史,依据各种理论,至今已提出了上千种类型的分割算法,但是它们大都是针对具体问题的,目前还没有通用的分割理论和算法。

下面将对三种文字分割算法,包括基于阈值的二值化算法、基于分裂/ 合并的算法和基于纹理的算法,进行分析、实验与评价,并提出一种边缘检测——投影——局部区域二值化的文字分割算法。

有关,则所得的阈值是与坐标相关的(即动态阈值,前两种阈值对应可称为固定阈值)。

以上对阈值分割方法的分类思想是通用的。

近年来,许多取阈值分割方法借用了神经网络、模糊数学、遗传算法、信息论等工具,但这些方法仍可归纳到以上三种方法类型中。

0$0阈值的灰度图像二值化在利用单阈值方法来分割灰度图像时一般都对图像有一定的假设。

最常用的模型可描述如下:假设图像由具有单峰灰度分布的目标和背景组成,且目标和背景象素在灰度值上有很大的差别。

对于这类图像,它们的灰度直方图基本上可看作是由分别对应目标和背景的两个单峰直方图混合而成,可以把双峰之间的谷点作为阈值!,对图象作以下二值化处理:’(#,$)3!0 若%(#,$)!!(!" 若%(#,$)"!0 基于阈值的二值化算法在基于阈值的灰度图像分割算法中,确定阈值是关键。

阈值一般可写成如下形式:对于某些新闻视频中的标题新闻、影视片名或演员表等它们的背景一般比较简单,可以采用单阈值分割方法。

但是,大多数视频中的文字都有较复杂的背景,反映在其灰度直方图上!"!1#,$,%(#,$),&(#,$)2(0)将出现多个峰谷,此时若采用单阈值的分割方法则无法将文字其中%(#,$)是在象素点(#,$)对处的灰度值,&(#,$)是该点邻域的某种局部性质。

换句话说,!在一般情况下可以是(#,$),%(#,$)和&(#,$)的函数。

借助式(0),可以将阈值分割方法分成如下三类:(0)如果仅根据%(#,$)来选取阈值,所得的阈值仅与各个图像象素的本身性质相关(即全局阈值);(!)如果阈值是根据%(#,$)和&(#,$)来选取的,所得的阈值就是与(局部)区域性质相关的(即局部阈值)。

(#)如果阈值除根据%(#,$)和&(#,$)来选取外,还与(#,$)从背景中分离出来。

为此,作者尝试采用多阈值方法将所有的峰都分离出来,如果灰度图像中的文字所占的象素的灰度值相近且与图像中其他目标的灰度值不同,则必然有一个被分离出来的峰对应于图像中的文字目标。

基于局部阈值的二值化算法0$!基于局部阈值的方法通过定义考察点的领域,并由邻域计算模板来实现考察点灰度与邻域点的比较,较全局阈值方法有更广泛的应用。

其中典型的局部比较方法有4’&)5678’.算法和9):+;)+算法等。

与4’&)5678’.算法相比,9):+;)+算法的作者简介:万罡,男,0B=U年生,湖北荆州人,硕士研究生,主要研究方向:图形图像处理及多媒体技术。

周洞汝,0B#B年生,教授,博士生导师,主要研究方向:图形图象视频压缩,V%*应用技术等。

/$(!,")%"$12!345+(!,),",*).36-+(!,),",*)"9A B C D!视频压缩标准的低级(相当于E F<或9A B C D/,#1!2!GG)。

通过分析大量这种视频源中的字符(德文、英文等西欧字符)可以发现,它们的高度绝大多数在/"H1"像素之间,为了增强鲁棒性,可以将最小尺寸定为 1 个像素,最大尺寸定为I" 或J" 个像素。

采用了尺寸限制的措施后,大块的非文字区域基本已经没有了,但仍然有一些小的区域无法去除。

为了进一步去除这些非文字的小块区域,:46-+,;6+-&4,)和<,4-=>)?@+,采用了以下两种方法:(/)填充率(<6KK L4M)’,)和宽高比(N6O)&D)’D&+6%&),4)6’)限制:对英文等西欧语言,填充率和宽高比都只能针对单词而不能针对单个字符。

因为对单个字符而言,填充率和宽高比的差(#)&’(),*(’&’(),*(’(!)如果+(!,")-$(!,"),则.(!,")7/,否则.(!,")7/另外,上海交大的叶芗芸等针对*+,-(+-算法的伪影现象还提出了一种改进措施,其基本思想是对阈值曲面进行光滑处理。

然而,基于局部阈值的二值化算法同样只对简单背景之上的文字分割比较有效,往往用于扫描文档的二值化或车辆牌照识别中的字符分割。

总之,对于复杂背景之上的文字分割,单纯采用阈值分割的方法是无法实现的。

然而,实验中发现,仅对划定的某块文字区域采用基于阈值(特别是局部阈值)的二值化算法的效果还是比较好的。

这是因为就文字所在的局部区域而言,其背景相对简单,文字与背景的差别较大,分割环境与车辆牌照识别中的字符分割相当。

因此,作者提出这样一个思想:首先通过某种算法确定各行文字所在的区域,然后采用基于局部阈值的二值化算法对各个文字区域进行分割。

相邻大区,就应计算几次/0,选择其中/0为最小者与1 小区合并。

别太大,如“F”、“K”与“N”、“3”等。

因此,要采用这项过滤方法,必须首先确定单词(P’,O()所处的区域。

由于每个单词的各个字符之间的间距比较小,可以设想,如果将单个字符的各个像素按照一定的半径加宽,每个单词的各个字符所占的区域会发生连接,从而形成一个区域,将区域划定在一个矩形中,则称为一个*K’M=。

一旦*K’M=确定,填充率和宽高比限制的实现就比较简单了,主要的问题只是如何确定合适的填充率和宽高比。

在:46-+,;6+-&4,)和<,4-=>)?@+,针对德文、英文的实验中,!基于分裂8 合并算法的文字分割德国94--&+63大学的:46-+,;6+-&4,)和<,4-=>)?@+,基于分裂8 合并算法实验对视频帧中的文字进行分割。

出于处理上的方便和速度上的原因,他们首先将原始视频帧灰度化,如图/ 所示,然后采用分裂8 合并算法对灰度图像进行分割处理。

这里采用标准的分裂和合并准则,即:小区内各象元之最大灰度与最小灰度之差小于门限值$ 就合并,而一区内最大最小灰取:"$#Q7<6KK L4M)’,Q7"$J"Q N6O)&D)’D&+6%&),4)6’Q7I(!)对比度分析(E’-),4()4-4K R(6()::46-+,;6+-&4,)和<,4-=>)?@+,认为,通常视频帧中的后期文本与其背景或其自身的阴影的灰度有较大区别。

因此,可以通过对比度分析来进一步去除一些较小的非文本区域。

具体实现采用以下步骤:首先通过一个取较大阈值的坎尼(E4--R)边缘检测算子检出强边缘,然后对边缘进行加宽,如果前一步骤中分割出来的区域与加宽的边缘不相交则将该区域去除。

通过实验来看,第一种方法的效果比较明显。

因此,这两种方法可以同时采用,也可以只采用第一种方法。

上述算法和实验主要是针对德文等西欧语言。

作者采用同样的方法对复杂背景之上的汉字分割进行了实验,虽然文字所处的区域基本已经分割出来,但是分割效果并不理想,有许多笔划丢失。

通过仔细分析和多次实验,作者认为造成分割效果不好的主要原因有以下几点:(/)德文、英文等西欧文字由字母组成,而每个字母的笔划都是连通的,即通过分裂8 合并算法后,每个字母都将形成一个独立的区域。

而汉字是由偏旁部首组成,大部分的汉字都有不连接的笔划,例如“心”、“小”、“汉”等等。

这些小的笔划在经过分裂8 合并算法后,会形成许多非常小的区域,这些小区域在经度之差大于该门限就应分裂。

相关文档
最新文档