基于边缘检测的视频字幕自动定位方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

１．３形态学处理
值，通用性差的缺点，提出一种结合图像预处理及最佳阀值分割的视频字幕检
测算法。１字幕区域提取方法描述１１字幕提取流程
形态学是一种非线性信号处理和分析的工具，应用在图像上，它可将图像
储开宇江伟
保定０７１００３）（华北电力大学机械工程系
［摘要］视频中的字幕蕴含丰富的语义信息，字幕检测方法对视频检索就尤为重要。因此，提出了一种高效率的方法对视频中的字幕完成自动检测与定位。对输入的图像进行锐化预处理，突出字幕区域的信息，求取经锐化处理后图像的最佳分割阀值，结合最佳分割阀值进行边缘检测得到二值图，很好的分离了字幕区域与背景区域运用形态学处理使文字连接成块，最后依据文字的先验特征去除干扰区域实验证明，该方法复杂程度低，能准确的定位字幕区域。
字。
本文中使用五次闭运算，两次开运算，三次膨胀运算可有效的将边缘图像连接成候选的连通区域。
１４字幕区域粗筛选在经过形态学处理后，在通过文字区域的启发性规则就能剔除虚假的文本区域，得到精确的文本区域。其中主要用到字幕区域的宽度、面积、中心、宽高比、饱和度［７１。
误差法求阈值。求得增强后图像？（ｘ，ｙ）的最佳分割阈值为Ｔ。
为不可或缺的一部分。迫切地需要一种有效的方法对视频进行管理、索引和检索。由于这种需求，基于图像、声音等各种视频信息检索的方法被大量提出，其中，视频中的字幕信息对于视频的检索有着十分重要的意义。
得到图像的边缘图与图像的最佳分割阈值t比较大于t值逻辑值1输出小于t的点赋值0输出最后生成二值图13形态学处理形态学是一种非线性信号处理和分析的工具应用在图像上它可将图像信号与其几何形状联系起来利用一定形态的结构元素度量和提取图像中的对应形状和结构可以简化图像
科学论坛
啊
Ｉ
基于边缘检测的视频字幕自动定位方法
本文针对运用边缘算法提取视频字幕生成二值图像时，需要设定经验阈
本文使用ｓｏｂｅｌ边缘检测算子。Ｓｏｔ：￣ｌ算子两个模板组成，分别用来检测图像中的垂直边缘和水平边缘。将两个模板与图像卷积得到的最大值作为该点的边缘响应值输出。得到图像的边缘图，与图像的最佳分割阈值Ｔ比较，大于Ｔ的点赋值逻辑值１输出，小于Ｔ的点赋值０输出，最后生成二值图像。
［关键词］视频字幕；字幕检测；边缘检测；数学形态学；中图分类号：ＴＰ３９１．４１文献标识码：Ａ
文章编号：１００９ — ９１４Ｘ（２０１４）４１ — ０１３９ —０ｌ
随着多媒体技术在互联网上的高速发展，视频在人们的日常生活中己经成
正是基于以上特征，本研究计了一种方法来检测视频中的文本区域，步
骤如下：
（１）输人彩色图像，做灰度化处理；（２准用二阶拉普拉斯算子做锐化处理；（３）用最小误差法求图像的分割阀值Ｔ；（４）用ｓｏｂｅｌ算子结合阀值Ｔ敲边缘检测；（５）将边缘图用数学形态学连通为区域；（６）文字区域进行粗筛选；（７）文字区域进行细筛选，确定文字区域；１．２输入图像的预处理在处理彩色图像前先把彩色图像转化为灰度图像，一般常用的有Ｒ、Ｇ、Ｂ三色等权和不等权两种变换，本方法采用不等权策略。由于拉普拉斯算子是微分操作符，对输入的灰度图像滤波，可以突出灰度值快速变化的区域，可以使图像锐化。对于文字提取来说，边缘图像的二值化至关重要阀值过大，会减少文字的边缘信息。阀值过小，会使保留较多的非文字边缘，使误检增多。本文采用最小
饱和度：连通域内已填充像素数占最小外接矩形的比例。设嚣饱和度阈值
信号与其几何形状联系起来，利用一定形态的结构元素度量和提取图像中的对
应形状和结构，可以简化图像。基本概念是腐蚀、膨胀、开、闭运算。
为了便于人眼识别，视频中后期制作加入的文字一般具有下述特性：文字
颜色与背景有较大差别，具有比较丰富的边缘信息ｔ文字均具有一定规格尺寸；文字的分布比较集中且多为水平方向排列；任意一个文字区域都包含多个文
宽度：为了清晰显示，提出的高度标准是边界窗的高度必须高于ｌＯ个像素。面积：字幕连通域的面积大于一个经验阈值１．５０中心：连通域最小外接矩形的中心。中心大于二分之一倍宽度。宽高比：最小外接矩形宽度和高度的比例，宽高比大于ｌ而小于５Ｏ。