基于边缘检测的视频字幕自动定位方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 . 3 形 态学处 理
值, 通 用性 差 的缺 点 , 提 出一 种结 合 图像预 处理及 最 佳阀值 分 割的视 频 字幕检
测 算法 。 1字幕 区域 提 取 方法描 述 1 1 字幕提 取 流程
形态学 是一 种非 线性信 号处理 和 分析 的工具 , 应用在 图像 上 , 它可将 图像
储开 宇 江 伟
保定 0 7 1 0 0 3 ) ( 华北 电 力大 学 机 械工 程 系
[ 摘 要] 视频 中的字 幕蕴 含 丰富 的语 义信 息 , 字 幕检 测方 法 对视 频检 索就 尤为 重要 。 因此 , 提 出了一 种高 效率 的 方法对 视 频 中的字 幕 完成 自动 检测 与定位 。 对 输入 的图像 进行 锐化 预处理 , 突出字 幕 区域的 信息 , 求取 经锐 化处 理后 图像 的最佳 分割 阀值 , 结合 最佳 分割 阀值进 行边 缘检 测得 到二值 图 , 很好 的分 离了字 幕 区 域 与背 景 区域 运 用形 态学 处理 使 文字 连接 成块 , 最后 依据 文字 的 先验特 征 去除干 扰 区域 实验证 明 , 该 方法 复杂 程度 低 , 能准确 的 定位 字幕 区域 。
字。
本 文 中使 用 五次 闭运算 , 两 次开 运算 , 三 次膨 胀运算 可有 效的 将边缘 图像 连接 成候 选 的连 通区域 。
1 4 字幕 区域 粗筛 选 在 经过形 态学处理 后 , 在通过 文字 区域的启 发性规 则就能剔 除虚假 的文 本 区域 , 得 到 精 确的 文本 区域 。 其 中主 要用 到字 幕 区域 的宽 度 、 面积、 中心 、 宽 高 比、 饱 和 度[ 7 1 。
误差 法 求阈值 。 求得 增 强后 图像 ? ( x , y ) 的最 佳分 割 阈值 为T 。
为不可 或缺 的一 部分 。 迫 切地 需要 一种有 效 的方法 对 视频进 行管 理 、 索 引和检 索。 由于 这种需 求 , 基 于图像 、 声 音等 各种 视频 信息 检索 的方法 被 大量提 出, 其 中, 视 频 中的 字幕 信息 对于 视 频的 检索 有着 十分 重要 的 意 义。
得到图像的边缘图与图像的最佳分割阈值t比较大于t值逻辑值1输出小于t的点赋值0输出最后生成二值图13形态学处理形态学是一种非线性信号处理和分析的工具应用在图像上它可将图像信号与其几何形状联系起来利用一定形态的结构元素度量和提取图像中的对应形状和结构可以简化图像
科 学 论 坛


基 于 边 缘 检 测 的 视 频 字 幕 自动 定 位 方 法
本 文针 对运 用边 缘 算法 提取 视频 字 幕生 成二 值 图像 时 , 需要 设定 经验 阈
本文使用 s o b e l 边缘检 测算 子。 S o t :  ̄ l 算子两个 模板 组成 , 分 别用 来检 测 图像 中的垂 直边缘 和水 平边缘 。 将两 个模 板与 图像 卷积 得到 的最大值 作为该 点的 边 缘响 应值 输 出。 得 到 图像 的边 缘 图 , 与图像 的最 佳 分割 阈值T比较 , 大于T 的 点 赋值 逻辑 值 1 输出, 小 于T 的 点赋 值0 输 出, 最 后生 成二 值 图像 。
[ 关键 词] 视 频 字幕 ; 字 幕检 测 ; 边缘 检测 ; 数 学 形 态学 ; 中 图分 类号 : T P 3 9 1 . 4 1 文 献标 识码 : A
文 章编 号 : 1 0 0 9 — 9 1 4 X ( 2 0 1 4 ) 4 1 — 0 1 3 9 —0 l
随着 多媒体 技术在 互联 网上的高速 发展 , 视频 在人们 的 日常 生活 中己经成
正是 基 于以上 特征 , 本 研究 计 了一种 方法 来检 测视频 中的文本 区域 , 步
骤如下:
( 1 ) 输人彩 色 图像 , 做 灰度 化处 理 ; ( 2 准 用二 阶拉 普拉 斯算 子做 锐化 处理 ; ( 3 ) 用最 小 误差法 求 图像 的 分割 阀值 T; ( 4 ) 用s o b e l 算子 结合 阀 值T敲边缘 检测 ; ( 5 ) 将边 缘 图用 数学 形态 学连 通为 区域 ; ( 6 ) 文字 区域 进行 粗 筛选 ; ( 7 )文字 区域 进 行细 筛 选 , 确 定文 字 区域 ; 1 . 2 输入 图像 的预 处理 在 处理 彩 色图 像前 先把 彩 色图像 转化 为 灰度 图像 , 一般 常用 的 有R、 G、 B 三 色等 权 和不 等权 两种 变换 , 本方 法采 用 不等权 策 略 。 由于 拉普 拉斯 算 子是微 分操作 符 , 对 输入 的灰度 图像 滤波 , 可 以突 出灰 度 值 快速 变 化 的区域 , 可 以使 图像锐 化 。 对 于文字提 取来 说 , 边 缘图像 的二值 化至 关重要 阀值 过大 , 会减 少文字 的 边缘信 息 。 阀值 过 小 , 会使保 留较多 的非 文字边 缘 , 使误 检增 多 。 本 文采 用最 小
饱和度 : 连通域 内 已填充像 素数 占最 小外 接矩 形的 比例 。 设 嚣饱和 度 阈值
信号 与其几何 形状联 系起 来 , 利 用一 定形态 的结构 元素度 量和提 取 图像 中的对
应形 状 和结构 , 可 以简化 图像 。 基 本 概念 是腐 蚀 、 膨胀、 开、 闭运算 。
为 了便于 人 眼识别 , 视 频中后 期 制作加 入 的文字 一般具 有 下述特 性 : 文字
颜 色与背 景有 较大差 别 , 具有 比较丰富 的边缘 信息 t 文字 均具 有一 定规 格尺 寸 ; 文字的 分 布 比较集 中且多 为水 平方 向排列 ; 任意 一 个文 字 区域都 包 含多 个 文
宽度 : 为 了清 晰显示 , 提 出的高 度标 准是边界 窗的高 度必 须高于 l O 个像 素 。 面积 : 字 幕连 通域 的 面积 大于 一 个经验 阈值 1 . 5 0 中心 : 连 通域 最 小外接 矩 形的 中心 。 中心 大于二 分 之一 倍 宽度 。 宽高 比 : 最小 外 接矩 形宽 度和 高度 的 比例 , 宽 高 比大于 l 而小 于5 O 。
相关文档
最新文档