视频字幕检测与提取研究
视频图像中的文字提取技术论文
摘要
视频图像中的文字提取技术研究
摘 要
视频中的文本为描述视频内容提供了十分有用的信息, 对于构建 基于内容的多媒体检索系统具有重要作用。因此,有效地提取和识别 这些文字对于图像理解、视频内容分析、基于内容的图像和视频检索 等领域具有重要意义。 目前商业的OCR技术对于二值图像中文字的提取识别已经趋于成 熟,但视频中的文字具有分辨率低、背景复杂、文字形态差异大等特 点,这给视频中文字的有效提取带来了极大的挑战,限制了OCR技术 的成功应用。针对这些问题,本文主要围绕如何充分利用文字的各种 特性,更鲁棒地从复杂背景图像中提取出文字进行了研究,具体研究 了文字区域检测、文字恢复、文字分割这三部分的算法。 在视频文字检测方面, 本文提出了一种基于线条分类的视频文字 检测算法。首先利用 Canny 算子对图像进行边缘检测,然后根据文字 边缘线条的特征,过滤非字符的边缘线条,并利用文字线条区域的相 似性,设置综合阈值,得到最终的文字区域。该算法在边缘检测的基 础上, 有效地利用了文字本身的结构特征和文字笔画的线条特征对文 字区域进行判别,在获得较高查全率的同时大大降低了虚警,而且对 不规则排列及发生形变的文字也能够准确定位,并对光照、阴影等条
1
义。例如,在新闻视频中检测到的字幕文字,不仅可以为新闻故事单元切分提供 时间标志,还能够为新闻事件内容的理解提供直接的语义特征;在体育视频中, 比赛中出现的比分、运动员号码等文字信息对于自动体育视频内容分析,精彩事 件检测也具有重要的作用。因此,若能准确地将这些文字信息检测出来,并进行 处理,使之能够被传统的 OCR 软件识别并被转化成为机器内码,这样就可以用类 似文本检索的“关键字”查询方法,对视频片断进行快速有效的查询,并对其内 容 进 行 理 解 和 分 析 。 图 像 文 字 提 取 与 识 别 (image text extraction and recognition)就是将这些文字提取出来,经过识别转化为纯文本的过程[3]。 图像文字的识别可以借助于现有的 OCR 技术。OCR 技术以自动识别二维点阵 字符并将其转换为纯文本为目标,经过数十年的发展己经相当成熟,被广泛用于 文档扫描。然而,与文档不同的是,嵌入在图像和视频中的文字通常都带有复杂 的背景,而且文字出现的位置未知,在没有去除背景和二值化之前,现有的 OCR 系统难以识别出字符, 因而在提交给 OCR 系统之前都必不可少地需要一个文字提 取(text extraction)的过程[4]。这样,如何从复杂背景中提取出图像文字就成 为以文字为线索来理解和检索图像和视频内容的一个关键任务。
视频图像中文本检测和提取技术研究
视频图像中文本检测和提取技术研究作者:姜啸来源:《科学与财富》2016年第09期摘要:近年来,随着宽带网络技术、新型多媒体技术和信息通信技术的飞快发展,我们步入了一个崭新的互联网时代。
面对日益增长的视频和图像资源数据,如何有效快速的在海量的数据中检索和访问到我们所需要的信息变得十分有意义。
视频资源中包含丰富的语义信息和视频关键内容,为此,对视频图像中文本检测和提取成为本文研究主题。
关键词:数学形态学;文本定位;自适应阈值分割;字符识别;模板匹配一. 引言近些年来,科学技术的更新速度不断加快,科学方法日益创新。
与此同时,多媒体数据库和多媒体信息检索的发展使得视频、音频和图像在我们的生活中扮演着越来越重要的角色。
面对海量的视频和图像资源,有效快速的在海量的数据中检索和访问[1]到我们所需要的信息变得十分有意义。
正在此背景下,解决上述问题产生的视频图像文本检测成为热点,因此本文开始对此展开研究。
二. 视频图像中文本分类视频图像中的文本根据是否进行过后期制作所嵌入的文本或者根据图像的层次和维数可将其分为场景文本和人工文本(也称叠加文本或图形文本)两大类。
场景文本是被摄影机或摄像机随当时场景捕获到的文本,场景文本存在于场景中,是场景的一部分。
如汽车车牌、交通路标、商店名称、街道指示牌等等。
人工文本是在后期制作嵌入的文本图形,在编辑阶段被整合到视频图像中。
这类文本主要有新闻视频中标题纲要和时间,影视作品中的人物对白字幕、旁白字幕、片头和片尾;广告宣传和体育赛事中直播的比分信息等等。
三. 视频图像中文本的特点通过分析我们得知视频图像有如下几个方面的特性:1.几何特性:(1)字体大小:视频图像中字体大小不一,但在理想过程中,视频图像内的文本不会超过屏幕的一半范围。
视频中的文本,由于背景的动态干扰和时间的局限,文本大小一般不会太小。
(2)排列方式:文本可以出现在视频帧图像的各个地方,可以按任意方式排列,但通常都是水平或竖直方向排列,而且还会集中在某一部分,例如像新闻电视的标题等。
如何快速提取短视频中的文字
如何快速提取短视频中的文字随着短视频的兴起,短视频中的文字已经成为了一种重要的信息传递方式。
很多时候,我们需要从短视频中提取文字作为关键词,以便于更好的理解视频内容或进行相关研究。
但是,手动提取文字是非常费时费力的,因此,如何快速提取短视频中的文字就成为了一个热门话题。
下面我们将介绍一些快速提取短视频中的文字的方法。
1. 使用OCR技术OCR(Optical Character Recognition)技术是一种将图像中的文字转换为可编辑的文本的技术。
使用OCR技术可以快速识别短视频中的文字,并将其转换为可编辑的文本。
目前市面上有很多OCR工具,如ABBYY FineReader、Adobe Acrobat、Readiris等。
这些工具可以将短视频中的文字转换为电子文档,以便于我们更好地管理和处理。
2. 使用AI技术随着人工智能技术的发展,越来越多的智能化工具可以帮助我们快速提取短视频中的文字。
比如,微软的VideoOCR技术可以自动提取短视频中的文字,识别率可以达到90%以上。
此外,谷歌的Cloud Video Intelligence API也可以提供类似的功能,可以自动提取视频中的文本信息,并将其转换为可编辑的文本。
3. 使用专业软件除了OCR和AI技术之外,还有一些专业的软件可以帮助我们快速提取短视频中的文字。
比如,ABBYY Recognition Server可以帮助我们自动提取视频中的文本信息,并将其转换为可编辑的文本。
此外,还有一些其他的专业软件,如Adobe Premiere Pro、Final Cut Pro等,这些软件可以帮助我们快速编辑和处理视频中的文本信息。
4. 手动提取虽然手动提取短视频中的文字是一种费时费力的方式,但是在一些特定的场景下,手动提取仍然是最有效的方法。
比如,在一些低质量的视频中,自动识别和提取文字的效果可能会受到很大的影响,此时手动提取就成为了一种更加可靠的方式。
视频中藏文文本的检测方法研究
视频中藏文文本的检测方法研究作者:索朗曲珍高定国李婧怡白玛旺久来源:《电脑知识与技术》2023年第35期摘要:随着各种视频的增多,对于大量视频中文字的提取与监测等方面提出了更高的要求,研究视频中文字的文本检测和识别对语音文本的收集、视频监测等有重要的意义。
目前视频中藏文文本的检测、识别研究还处于起步阶段,该文采用DBNet、DBNet++、PSENet、EAST、FCENet等5种基于分割的深度学习文字检测算法对视频中藏文字幕进行了检测,对比分析了5种检测算法对视频中藏文字符的检测性能。
实验表明,在文字检测阶段采用的渐进式扩展算法PSENet在测试集上具有更好的检测性能,其在测试集上的准确率、召回率、F1值分别达到了0.996、0.995、0.998。
关键词:视频;藏文文本;检测中图分类号:TP391 文献标识码:A文章编号:1009-3044(2023)35-0001-05开放科学(资源服务)标识码(OSID)0 引言基于深度学习的视频文字检测是指检测定位连续的视频帧中包含文字区域的位置。
视频字幕中所包含的文字信息有助于理解视频,是对视频内容的解释说明。
通过对视频中的文字进行检测识别来监管确保其内容积极健康,如视频画面中是否含有反动宣言等,在快速传播的信息化时代下对维护国家安全、社会稳定和推动藏文信息处理的发展具有重要意义。
目前视频中文字的检测与识别研究主要集中在英文和中文,并取得了较好的成果,但视频中藏文的检测与识别研究仍处于起步阶段,以往的研究主要针对现代印刷体、木刻版藏文古籍文本以及自然场景下的藏文进行检测和识别。
视频中藏文的检测识别与自然场景下藏文的检测识别相似,但存在着一定的差异。
视频中的藏文字分为场景文字和人工添加文字,人工文本虽然比自然场景中的文字更加稳定,但由于视频背景和文字实时变化、字体多样且文字的位置和大小不固定,使得文字的检测定位存在困难,于是有必要研究视频中的藏文检测与识别。
网络视频字幕中关键词的提取与检索技术研究
网络视频字幕中关键词的提取与检索技术研究随着互联网的广泛应用,网络视频的使用越来越普遍。
然而,网络视频中的字幕内容往往是用户获取信息的重要途径之一。
为了提高用户对字幕内容的查找效率,研究人员开始关注网络视频字幕中关键词的提取与检索技术。
首先,关键词的提取是网络视频字幕中的重要步骤。
由于字幕内容的多样性和复杂性,传统的基于文本的关键词提取方法往往不能很好地适应网络视频字幕的特点。
因此,研究人员提出了一种基于语义的关键词提取方法。
该方法利用自然语言处理技术对字幕内容进行分析,识别出其中的实体、主题和动作等关键信息,并将其作为关键词进行提取。
这种方法不仅能够提高关键词的准确性,还能够提高关键词的多样性,使用户能够更全面地了解字幕内容。
其次,关键词的检索是用户查找字幕内容的重要手段。
传统的基于文本的检索方法往往只能通过关键词的匹配来进行检索,忽略了字幕内容的语义信息。
为了解决这个问题,研究人员提出了一种基于语义的关键词检索方法。
该方法利用自然语言处理技术对用户查询进行分析,并将其与字幕内容进行语义匹配,从而提高检索的准确性和效率。
此外,研究人员还提出了一种基于用户反馈的关键词检索方法。
该方法通过分析用户的点击行为和评分行为,自动学习用户的偏好,并根据用户的偏好对字幕内容进行个性化的推荐,提高用户的满意度。
综上所述,网络视频字幕中关键词的提取与检索技术是提高用户对字幕内容获取效率的重要手段。
通过研究和应用基于语义的关键词提取与检索方法,可以提高关键词的准确性和多样性,使用户能够更全面地了解字幕内容。
此外,通过研究和应用基于用户反馈的关键词检索方法,可以提高检索的准确性和效率,提高用户的满意度。
相信随着相关技术的不断发展和应用,网络视频字幕中关键词的提取与检索技术将会得到进一步的完善和推广,为用户提供更好的字幕内容获取体验。
电视视频字幕文字提取应用方法分析
电视视频字幕文字提取应用方法分析摘要随着网络的发展,电视的智能化、数字化也不断的提高,快速、便捷地为人们提供大量的信息。
在提供各类媒体信息的同时,也出现了电视视频内容安全等问题。
为了及时给人们提供准确、原汁原味的信息,我们采取一种提取电视视频字幕文字的方法,使电视内容在播放过程中,不会发生任何变化,让人们放心的观看自己喜欢的节目。
关键词电视视频;文字;提取方法1根据角点检测原理的字幕文字提取方法角点是图像边界上曲率很高的点,是图像纹理的一个重要特征。
图像信息里含有很多的角点,在使用原图进行计算的前提下,角点计算不但可以够保留原有信息而且还可以提高计算的效率。
本方法就是利用角点这个纹理特征来进行文字区域的检测。
根据图像边缘的方法要对图像边缘进行编码,图像的分割和边缘提取决定了这种角点检测效果的好与坏,由于该操作方法操作难度和计算量都比较大,所以检测效果不是太令人满意。
通过计算点的曲率及梯度来检测角点的方法叫做图像灰度。
Harris角点检测算法是通过微积分的运算方法和自相关矩阵的方法来进行角点的检测,进一步提高文字的提取效率。
为了抑制噪声的产生,Harris检测算法是把高斯函数作为检测窗口,平滑滤波是对图像的第一步处理,图像中角点检测是对图像的进一步处理,本文提出了一种视频字幕检测算法其依据是角点检测。
在视频图像中,背景留下的一些角点也可能被看成是文字区域的角点。
为了提高文字区域检测的准确率,降低提取结果中的噪声,应先将角点分布图中孤立的角点滤除。
因为大量的角点存在于视频图像中的文字区域,所以从角点分布图中来看,角点分布密度很大的情况就是文字区域,而在视频图像中的某些背景区域虽然也含有不够密集的角点,但是文字区域构成的最小外接矩阵特征与背景区域角点构成的最小外接矩阵特征相差较大。
可以利用这些对角点分布图进行过滤,检测找出文字区域。
本文总结了根据启发式规则和角点分布密度的文字区域检测、根据角点聚类的文字区域检测以及根据角点匹配的文字区域检测这三种文字区域检测的方法。
剪映 提取字幕 原理
剪映提取字幕原理
剪映是一款流行的视频编辑软件,其提取字幕的原理主要基于对视频中语音的识别和处理。
具体来说,剪映通过以下步骤实现了提取字幕的功能:
1.语音识别:剪映使用先进的语音识别技术,将视频中的语音转化为文字,
这一过程依赖于深度学习和自然语言处理技术。
2.时间戳标记:在语音识别过程中,剪映还利用技术手段对每个字或词出现
的时间点进行精确的标记,这样就可以将文字与视频中的时间线对应起来。
3.字幕生成:基于识别出的文字和时间戳标记,剪映会自动生成字幕,用户
可以根据需要对其进行编辑和调整,包括字体、颜色、大小、位置等。
4.同步校对:在生成字幕后,剪映还会进行同步校对,确保字幕与视频中的
语音内容准确对应,避免出现时间上的偏差或错别字等问题。
总之,剪映提取字幕的原理基于先进的语音识别技术和文字处理技术,通过这些技术将视频中的语音转化为文字,并生成与视频内容同步的字幕。
用户可以通过简单的编辑和调整,轻松完成字幕的创建和提取工作。
电视视频字幕文字的提取方法研究
2007,25(4)
从总体上看,数字电视技术标准可分为3个,即欧洲DVB-T标准、美国ATSC标准、日本ISDB-T标准.而我国的数字电视技术标准不同于此.我国在其标准制定中不可能完全照搬国外的系统和技术,但应该借鉴目前世界上已存在的数字电视标准,规划我国的数字电视.
中国科学技术大学
硕士学位论文
电视视频字幕文字的提取方法研究
姓名:***
申请学位级别:硕士
专:信息安全
指导教师:***
20090501
电视视频字幕文字的提取方法研究
作者:张洋
学位授予单位:中国科学技术大学
5.期刊论文陈致烽.CHEN Zhi-feng数字电视催生广告专业频道——基于电视数字化的新思考-湖南文理学院学报
(社会科学版)2008,33(3)
数字电视取代模拟电视是必然趋势,数字化带来的是电视频道更加专业化、受众信息消费的细分化,在频道资源丰富、互动性强、受众掌握着收视主导权的数字电视语境下,电视媒体经营单位可设置广告专业频道以顺应电视频道专业化的趋势,构筑"碎片化"的消费受众重聚平台,回归广告传递信息的本源.
1.会议论文张寅生.沈云秋数字电视与中国的电视数字化进程2000
数字音视频编码压缩技术的迅速发展与实用化,正引发出一场消费电子产品从模拟技术转化为数字技术的革命.1995年,美国高级电视制式委员会(ATSC)以ADTV大联盟开发的制式为基础,向联邦通信委员会(FCC)提出了美国数字电视标准的建议.1996年12月,FCC通过了"ATSC数字电视标准",1997年4月,FCC为全美1650个电视台指派了用于数字电视广播的频道,并公布了到2006年所有电视台全部实现数字播出,彻底停止现行模拟广播的日程表.在美国的带动下,欧洲、亚洲、澳洲等也纷纷为开展数字广播积极做准备,形成一股全球化的数字浪潮.本文介绍了数字电视与中国的电视数字化进程.
基于字幕的视频检索方法的研究与应用
《中国有线电视》2006(07)CH I N A DI GI TAL CABLE TV#技术交流#中图分类号:TN948.6文献标识码:B文章编号:1007-7022(2006)07-0657-02基于字幕的视频检索方法的研究与应用t申嵛峰(济南广电信息网络有限责任公司,山东济南250014)摘要:随着视频节目数量不断增加,检索特定视频片段越来越困难,因此研究现有的视频检索方法,并在这些方法的基础上,探讨基于字幕的视频检索技术的原理以及应用前景。
关键词:字幕;视频检索;数据库;研究Research and Application of t he V ideo I ndexM ethod Based on t he Subtitlet SHEN Yu-feng(Jinan Te lev ision and B roadcast I nfor m ation Net w or k Co m pany,Shandong Jinan250014,Ch i n a)A bstract:W ith the increase m ent of t h e v i d eo pr ogra m,it beco m esm ore and m ore difficult to search one p ieceo f special vedio.So w e research a m et h od to find the v ideo wh ich they w an.t The author tries to find a m ethod ca lled t'h e v i d eo i n dex based on t h e subtitle,wh ich is m ore rapid and m ore precise.K ey words:subtitle;v i d eo index;database;research1概述随着视频节目的制作和积累,节目数量急剧增加,人们要想在所有节目中寻找自己感兴趣的视频片段变得越来越困难,因此人们迫切需要一种视频搜索技术,以便从大量的视频节目资源中查询自己感兴趣的节目,例如足球比赛中的射门镜头、一个演员的所有作品等,这就是视频检索。
基于边缘检测的视频文字提取方法的研究与实现的开题报告
基于边缘检测的视频文字提取方法的研究与实现的开题报告一、选题背景及研究意义随着社会的不断发展和科技的不断进步,视频成为了人们日常生活不可或缺的一部分。
在视频中,文字作为一种表述和传递信息的方式,在其中发挥着重要作用。
但是,由于视频中存在各种复杂的场景和干扰因素,如光照、噪声、运动模糊等问题,使得视频中的文字提取任务变得非常具有挑战性。
因此,本研究旨在基于边缘检测的视频文字提取方法,通过对视频中文字的特征提取和运动跟踪等技术手段的应用,实现对视频中文字的准确快速提取,为视频信息处理和应用提供技术支持。
二、研究内容及方法本研究主要包括以下内容:1. 对视频中的文字进行特征提取,从而实现文字和非文字的区分。
2. 基于运动跟踪技术实现对视频中文字的准确提取。
3. 实现视频文字的识别和文本信息提取功能,进一步丰富视频信息。
实验将使用Python语言编写程序,主要采用基于OpenCV的图像处理算法和相关工具。
首先,对视频进行预处理,包括降噪、亮度调整等操作;然后,利用Sobel算子等技术进行边缘检测,提取视频中文字的轮廓特征;最后,利用运动学提取文字的空间位置和运动轨迹信息,实现对视频中文字的准确提取。
三、预期成果及研究价值预期的成果包括:①基于边缘检测的视频文字提取方法;②实现相应的文字识别和文本信息提取功能;③设计相关应用案例,与市场需求对接。
本研究的价值在于:一方面,实现视频中文字的准确快速提取,为视频信息处理和应用提供技术支持;另一方面,进一步丰富了图像处理和智能视觉识别等领域技术的应用范围。
同时,本研究的成果还可应用于自动驾驶、安防监控、智能物联网等领域的技术创新。
数字视频中标题文字的检测与提取
Research on Detection and Processing of Textual Information in Digital Video
作者: 李雪龙;封化民;刘飚;焦黎冰
作者机构: 西安电子科技大学,通信工程学院,陕西西安,710071 西安电子科技大学,通信工程学院,陕西西安,710071;北京电子科技学院,北京,100070 北京电子科技学院,北京,100070北京电子科技学院,北京,100070
出版物刊名: 北京电子科技学院学报
页码: 23-27页
主题词: 文字检测;新闻视频;多帧结合;sobel边缘;文字识别
摘要:视频中的文字信息为视频语义的理解提供了重要的信息,本文提出一种改进的视频标题文字检测方法,该方法不仅能检测视频中文字出现位置,而且能检测到标题文字出现的时间边界.对数小时的视频标题检测实验表明,该方法是有效的,总有效性可达到80%左右.。
基于SVM的视频中文本检测与提取方法研究的开题报告
基于SVM的视频中文本检测与提取方法研究的开题报告一、研究背景和意义随着社交媒体平台和网络视频的普及,越来越多的视听资讯被插入到日常生活中,给人们带来了更加丰富的娱乐和信息传递方式。
然而,在大量的视频信息中,存在着大量的中文信息,如电影片名、字幕、广告衬底等,这些文本信息对于视频信息的理解和管理具有非常重要的作用。
因此,视频中文本检测和提取技术的研究具有非常重要的意义。
传统的视频中文本检测和提取方法主要基于像素值的变化,如边缘、颜色等,这些方法在一定程度上存在着局限性,如对光照、噪声等环境因素的依赖性较强,同时对高分辨率图像的处理速度也较慢。
基于机器学习的视频中文本检测和提取方法应运而生,并得到了广泛的关注和研究。
其中,支持向量机(SVM)作为一种强大的分类器,在视频中文本检测和提取方法中具有着较为广泛的应用。
本文将探讨基于SVM的视频中文本检测和提取方法,以提高视频信息的管理和检索的效率和准确性。
二、研究内容和方法本文将重点研究基于SVM的视频中文本检测和提取方法,主要研究内容包括以下几个方面:1.数据集获取:获取并整理视频数据集,为算法的训练和验证提供数据基础。
2.文本检测算法:设计适合视频中文本检测的算法,以提高文本的检测准确率和鲁棒性。
3.特征提取:设计适合文本检测的特征提取方法,以提高文本检测的准确性。
4.模型训练:基于已设计的文本检测算法和特征提取方法,利用SVM对模型进行训练和优化。
5.检测结果输出:将训练好的模型应用于视频中文本检测和提取中,并输出检测结果。
本文将采用实验和理论相结合的方法进行研究,其中实验采用公开的视频数据集进行测试和验证,理论部分将探究基于SVM的视频中文本检测和提取的原理和算法,为实验提供理论支持。
三、预期成果和意义在本文的研究中,将建立基于SVM的视频中文本检测和提取模型,提高了文本检测和提取的准确率和效率。
研究成果将具有以下几个方面的意义:1.提高了视频信息的管理和检索效率和准确性,可以满足人们对于视频信息管理和检索的需求。
数字视频中的语义提取分析与研究的开题报告
数字视频中的语义提取分析与研究的开题报告一、选题背景及意义随着数字视频的快速发展,数字视频中的数据量不断增大,导致视频处理和分析变得异常困难。
无论是如何从视频中获取语义信息,都需要研究和发展符合需求的技术。
视频语义提取主要是指将数字视频中的图像信息转化为描述视频内容的语义信息,以便进行各种视频处理和分析。
为了实现视频语义提取,需要进行更深层次的分析和研究,从中发掘和提取出更多图像和语义信息。
因此,探索数字视频中的语义提取技术是非常重要的,并具有重要的研究意义。
二、研究内容及方法针对数字视频中的语义提取技术,本研究将探讨以下内容:1. 首先,对于数字视频中的语义提取技术进行分类和概述,并对每种技术的优点和不足进行分析。
2. 基于纹理特征、颜色统计和卷积神经网络等技术方法,对数字视频中的语义提取进行探讨和分析。
3. 然后,通过对视频分析和处理中的方法进行研究,对特殊情况进行分析,从而提高数字视频中的语义提取效率。
4. 最后,针对上述的研究内容,本研究将结合实验进行验证,并进行实际应用和测试。
三、预期成果及意义本研究预期的成果包括:1. 对当前数字视频中语义提取技术进行了全面的梳理和分类,为后续研究提供了完整的研究框架。
2.在数字视频语义提取方面,本研究探索并实验了几种不同的方案,得出不同方案的优缺点,为优化语义提取技术提供了有价值的结果。
3. 结合实际应用和测试的结果,对一些特定情况进行了深入分析和探讨,为提高数字视频中的语义提取效率提供了有价值的实战经验。
本研究的意义在于:优化数字视频中的语义提取技术,为多媒体应用和数据挖掘等领域融合提供更好的数据模型,提升数字视频的应用价值和智能化程度。
非压缩域数字视频中文字的检测与提取
中国体视学与图像分析 2004年第9卷第4期CHI NESE JOURNAL OF STEREOLOGYAND I MAGE ANALYSIS Vol19No14Sept12004文章编号:1007-1482(2004)04-0244-05・综述・非压缩域数字视频中文字的检测与提取高平利,任金昌,赵荣椿(西北工业大学计算机学院,西安710072)【摘要】:作为一种高级语义特征,视频中的文字信息对视频内容的理解、索引和检索具有重要意义。
本文针对非压缩域中视频文字的检测与提取技术做了详尽的分析和讨论,涉及的内容包括:文字事件的检测、帧图像中文字区域的检测与分割以及视频文字识别(Video OCR)等。
对于不同的典型算法,分析了其理论基础和应用特点,并且通过对比指出其不足和应用的局限。
最后,本文还展望了该技术未来发展的方向。
【关键词】:非压缩域;文字事件检测;文字分割与识别;视频索引与检索【中图分类号】:TP391143 【文献标识码】:AT ext Detection and Extraction in U ncompressed Digital VideosGao Ping2li,Ren Jin2chang,Zhao Rong2chun(School of Computer Science,Northwestern Polytechnical University,Xi’an710072)【ABSTRACT】:As a high-level semantic feature,text information of videos is very important for un2derstanding,indexing and retrieval of video contents.In this paper,comprehensive analysis and dis2cussions are given on detection and extraction of texts from videos in uncompressed domain,in whichseveral topics are involved:text event detection,text region detection and segmentation in videoframes as well as video OCR,etc.As for different typical algorithms,their theoretical basis and ap2plications are discussed,along with shortcomings and limitations in applications are pointed outthrough comparisons.Finally,some relevant prospects are also proposed.【KE YWOR DS】:uncompressed domain;text event detection;text segmentation and recognition;video indexing and retrieval1 引言随着Internet网络应用的普及和图像、视频等多媒体数据的迅速增长,基于内容的视频索引和检索(Content-based Indexing and Retrieval,CB IR)已经成为人们的研究热点。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关键 词:字幕定位 , 字幕提取 , 立分量分析 , 字塔模 型 , 向量机 独 金 支持
中图分类号 :P 9 .1 T 31 4 文献标 识码 :A 文章编号 :6 15 9 (0 10 — 07 0 17 — 93 2 1)2 0 5 — 3
一
、
选 择 , 造 学 习机 及其 步 骤 构
所 以本文 提 出了一种 结合使 用独立 分量 分析( d— I e n
p netC m oetA a s 。 A ̄ 支 持 向量 机 ( p ed n o pn n nl i I )1 ys C S — u
pr V c rM c i ,V )的方法来 实现在小样本情 o et ah eS M t o n
专 业 研 究 与技 术 实 践
视 频字 幕 检 测 与 提 取研 究
2 1年 第 2期 01
个 样 本对 于 i个 特 征 向量 基 的坐 标 , n 最后 一 行表 示 第
实际 处理 中 .这 两 步 是 通过 核 函 数 一步 来 实 现 的 , 核 函数 满足 : Kx ) ( c 中 ( ) (y 中。 ・ y ,= ) )
能保证视频字幕和非视频字幕 的线性 可分。而 S M V
表示 , R =P R 即 m x m,m是 H m矩 阵, x 其第 1 行表示第 1
收稿 日期: 0 10 — 0 2 1 - 5 3 作者简介: 袁丈风 ( 9 ) 女, 1 8一 , 河南用 口 , 3 人 周口职业技 术学院机 电系讲 师。 ・ 57・
应 用 快 速定 点 I A 算法 , 以得 到 C _ 2
S M 使 用 结 构 风 险最 小 化 ( rc rlRs ii V Sut a i Mn t u k — m zt n S M 准 则 ) 理 构 造 决 策 超 平 面 . 每 一 类 i i .R ao 原 使
视频字幕检测与提取研 究
袁文凤 , 齐俊 平
(. 1 周口职业技 术学院 机 电工程 系, 河南 周 口 4 6 0 ; . 口职业技术学院 机 电工程 系, 6 02 周 0 河南 周 口 4 6 0 ) 6 0 0
摘
要 :为将 图像 字幕原始 图象帧分割成 N N大小子块 , × 同时将每个子块标注 为字幕块和非 字幕 块
况 下 ,提 取 尽 量相 互 独 立 的视 频 字 幕 特 征 的方法 , 从 而 使 S M 对 提 取 视 频 字 幕 具 有 良好 的识 别 分类 推 广 V
能力。 ( ) VM 原 理 [ 一 S
() 2 由于 P m含有 m个与最大特征值对应 的特征
向量 , 因此 用 P 的转 置矩 阵 代替 重构 式 1 的 X m 中 ,
H个样本对于 m个特征 向量基 的坐标 . 可使用最小平
方误 差法 求 x 的逼 近 值 X s. 且将 式 2代入 . m e并 得
X = P T X Rm m= rX m — =PW l y 3
其中 , K是核 函数 , 是高维非线性 映射 ,是 内 ・
通 过 核 函数 把 训 练 样 本 中 的低 维 数 据 映射 到 高 维 特 征 空 间 ,然 后 在 高 维 特 征 空 间构 造 一 个 最 佳 分类 平
视频字幕 定位就是构造一个学 习机 . 实现视 频中 对 字幕与非字幕进行分类 。在模式分类中 , 要综合考 虑三 点因素 :1 训练样本的多少 。 () 样本过 多会造成过
其 中 。 的每 一 行 代表 一 个 独 立视 频 字 幕 基 .  ̄ Y mm
数据之间 的分类 间隔( a i) m r n最大 。由于视频字幕 出 g
现 的非确定性和 多样性 . 即使 提 取 的特 征 良好 , 不 也
矩阵 w 可在训练中得到 :
( ) 于 每 个 训练 库 样 本 可 以用 特 征 向量 基 坐 标 3对
2 1年 6月 01 第十卷 第 2 期
滁 州 职 业 技 术 学 院 学 报
JU N L F H Z O O A N L&T C NC L O LG 0 R A U H UV C ̄O A OC E H IA LE E C
J n2 1 u .0 l
V0 _ 0 No2 ll .
两类 , 并且从每个子块提取 能够保持相 互 高阶独立的独立分量特征去训 练支持 向量机分 类器, 再结合金 字
塔模 型去 噪方法, 用训练好 的支持 向量机 来实现对视频字幕 区域 自动定位提取 。这种 方法在样本不是很 多 的情况下, 具有 良好 的分类推 广能力以及能使独立成分特征之 间彼此保持 高阶独 立性 , 所以该算法具有 明
面。 在实验 中, 只需指定特定的核 函数 K 而无需指定 ,
原 始 图像 特 征 到 高 维特 征 的映 射 函数 。 ( ) A提 取 特征 的 方法 二 I C 1独 立 视 频 基 的 IA特 征 : 、 C
学习问题 , 样本过少则难 以取得好 的识别效果 ;2 从 ()
样 本 中提 取 分 类 对 象 的 哪些 个 特 征 . 这 些 特 征 能 够 使
表 征分类物体 ;3 基于样本 的这些特征 , () 找到一种分 类机制 , 能对测试样本和实 际未知数据都达到 良好的
分 类 目的 , 有 不错 的 学 习推 广 能 力 。 具
提取独立视频字幕基 IA特征[ C 2 1 的具体步骤下 :
( ) 算 的 协 方 差 矩 阵 C 的特 征 向量 和 特 征 1计
根, 并将特征值按从 大到小进 行排 序 . 然后选取前面 m个特征值所对应 的特征向量 P il mP 是 N l i( …一 , = i x
列 向量) 组成 N行 m 列矩 阵 P 这 一步 也 就 是标 准 的 m。 P A算 法 . C
p P,b …・ 0 l 1 P P ・ P 1