网络不良视频信息过滤系统的研究与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络不良视频信息过滤系统的研究与实现
谢志扬 史 萍
(中国传媒大学 信息工程学院 , 北京 100024)
摘要 : 时下盛行网页视频点播 ( VOD ), 视频内容良莠不齐 。 为保 证未成年 人的健 康上网 、 安全 上网 , 本文提 出并设 计了一个网络不良视频信息的过 滤系统 。 该系统通过检测网页视频数据以及监控网 页页面来过 滤网络不良 信息 。 仿真结果表明这个过滤 系统可以较好地对网络不良视频信息进行过滤 。 关键词 : 视频点播 ; 肤色检测 ; 不良信息 ; 内 容过滤 中图分类号 : TN919 8 文献标识码 : A 文章编号 : 1673- 4793( 2009) 04- 0067- 05
的检测会更准确。下图所示为本文提出的过滤系统 模块框图。该系统能实现对传统网页页面的过滤检 测, 也能实现对含有视频点播页面的过滤检测。系 统还有个附加功能 , 监视本机上视频播放器和图片 浏览器等应用程序的使用情况, 有涉及不健康的电 影或图片也会被本系统强制关闭。
图 1 过滤 系统模块框图
该系统分为五大模块 , 分别为 : 系统数据库模 块、 预判断模块、 分析决策模块、 肤色检测模块以及 附加功能模块。下面我们将对各个模块作进一步的 介绍。 2 2 系统数据库模块 本文采用的是 SQL Server 2000数据库
作者简介 : 谢志扬 ( 1986- ), 男 ( 汉族 ), 福建莆田人 , 中国传媒大学 信息工程学院硕士研究生。 E- m a i:l xzy_cuc @ 163 co m
68
中国传媒大学学报自然科学版
第 16 期
2 系统设计与实现
2 1 系统模块框图 针对传统网络过滤软件只能用网页上文字和图 片进行过滤检测的情况 , 本文设计的是一个可以及 时捕捉页面上视频内容的过滤系统, 采用基于内容
第 4期 2 3 预判断模块
谢志扬等: 网络不良视频信息过滤系统的研究与实现
69
另外 , 目前一些视频的开头都带有 5- 15 秒的 广告 , 广告播完之后才会出现视频缓冲画面 , 为了解 决这类问题, 本系统的思路是 : 在页面播广告的时间内, 系统先下载视频的片 段。对下载下来的视 频片段, 系统会用 D irectShow 解出视频帧, 接着把解出来的视频帧送入肤色检测 模块中做判断。若该视频段中累计出现一定量的不 健康图片 , 那么系统将判断该视频为不健康视频 , 并 把该页面判定为不健康页面。若系统判断该视频段 是健康的 , 那么系统还将会对视频段以后的视频内 容进行抓拍监控, 把抓拍 下来的图片保存下来 ( 记 录上网情况 ), 同时送入肤色检测模块中进行检测。 2 5 肤色检测模块 肤色检测模块的输入是: 传统网页上抓取下来 的图片、 用 D irectS how
Abstract : V ideo on dem and ( VOD ) through internet has becom e so preva lent now adays , w hile the content o f v ideos is uneven In order to pro tect ju veniles from unhealthy Internet env ironm en,t a bad Internet v ideo in fo r m ation f ilterin g system is designed and presented in th is paper T he system w ill filter ob je ctionab le Internet v id eo infor m ation not on ly by detectin g W eb v id eo data but also monitorin g W eb pages T he si m ulation results show that the f ilter syste m can in tercept th e bad In ternet videos in form ation in real t i me K ey w ord s : v ideo on de m and ; skin co lor detection ; ob je ctionable in form ation ; content filtering 容进行过滤, 其原 理是通过检测 网址、 网页 中的文
[ 2]
对下载的网页视频 片段解
出来的视频帧 ( 保存为 bm p格式 ) 、 隔时抓拍的图片 等。其输出为 : 图片是否为不健康 , 并记录不健康图 片的数量。 2 5 1 肤色点检测算法 为了尽量 减少 误判, 系 统将 在多 个颜 色空 间 ( RGB、 YUV、 Y IQ 等 ) 下实现联合检测。通过大量的 数据统计工作 , 我们发现如下规律 : 在 RGB 颜色空间中, 皮肤像素点的 r 、 g 、 b 值一 般为 : r > 95&& g> 40 && b> 20 && r> g && r> b && | r- b | > 15 在 YUV 颜色模型中 Y U = V 0 299 - 0 147 0 615
70 Y I = Q 0 299 0 596 0 211 0 587 - 0 274 - 0 523
中国传媒大学学报自然科学版 0 114 0 322 - 0 312 R G B 2 6 系统附加功能
第 16 期
( 3)
过滤系统的附加功能: 只要过滤系统在运行 , 那 么不管用户有没有上网, 隔时抓拍功能片等, 系统的隔时抓拍功能将抓拍、 记录、 进行肤 色检测, 发现涉及不健康内容时, 系统会强制关闭播 放器、 图片浏览器等 , 使用户无法观看。
,并
UV 平面上 , 人的肤色色调介于红、 黄之间 , YI Q 空间 息量最小 :
[ 5- 6]
记录用户正在观看页面的网址 ; 接着 , 分析该网络地 址的页面源文件 , 判断该页面是否含有视频点播; 最 后 , 根据网络视频保护协议找到视频的真实地址。
范围具有规范性, 基本上在 [ 100 , 150] 之间。 表示法的原则是使信号的冗余信
1 引言
随着计算机与信息技术的发展 , 网络已经不可 或缺地成为我们日常生活中的一部分。在我国 , 从 小孩到老人 , 各个年龄段的人几乎都成了网民。但 网络上的内容有好有坏。如何保证未成年人健康上 网、 安全上网早已成为一个很棘手的问题 , 吸引了社 会的广泛关注。 目前, 很多用来限制未成年人接触不健康、 非法 网页内容的网络过滤软件已投入使用。这些过滤软 件大多只能对传统页面 ( 不含视频点播的 页面 ) 内
The R esearch and I m ple m entation of Objectionable Internet V ideo Infor m ation F iltering Syste m
XIE Zh i yang , SH I P ing
( Info r ma tion Eng ineer ing Schoo,l Communication U nivers ity of Ch ina , Beijing 100024, China)
, 数据
库结构设计如下 : 数据库里有三张表 , 它们是并列的 关系, 分别存放网址白名单、 网址黑名单、 不良词汇 列表。 网址白名单 : 存放信任度高的网络地址。用户 若输入白名单中的某一个网址 , 过滤系统将不对其 做检测工作。 网址黑名单 : 存放信任度低的网络地址。用户 若输入黑名单中的某一个网址 , 过滤系统将弹出警 告 , 并立即强制关闭该网页 , 使用户无法观看。 不良词 汇列 表: 存放人 为 定义 的一 些不 健康 ( 黄色 ) 词汇 , 比如: 性爱、 激 情视频等, 以便系统去
[ 3]
过滤系统是在后台运行的, 不会去影响用户正 常使用电脑 , 只有当用户去接触不健康网络内容的 时候, 那么系统便会及时做出相应的操作来限制用 户观看。 当用户打开浏览器 ( 比如 : IE、 遨游等 ) 时 , 过滤 系统会捕获用户输入的网址信息, 把它先与黑名单 中的信息作比对 , 若在黑名单中 , 则系统将弹出警告 并强制关闭该页面。如果不在黑名单中, 那么系统 再去把该网址与白名单中的信息做比对, 若在白名 单中, 则系统将不对这个页面做检测 , 若不在白名单 中 , 系统就会对这个页面做检测工作。 2 4 分析决策模块 针对用户输入的网址均不在白、 黑名单中的情 况 , 系统会做分析决策工作 , 通过查看用户打开的网 页页面的源文件 , 判断这个网页中是否含有视频点 播。在对大量土豆、 优酷、 新浪视频点播网等的视频 网页做了分析后 , 我们得到一个规律 , 如果网页源文 件中含有 iid = xxxxxxxx ( 8 位数字, 它定义的是 页面上该 段 视频 在 公司 视 频服 务 器中 的 视 频编 号 ) , 那么该页面上就含有视频点播的片段, 反之则 没有。 如果页面中不含有点播视频, 我们就称其为传 统的文字图片页面, 这时系统将统计页面上出现的 文字中有没有含有以及含有多少的不良词汇, 同时 , 若页面上有图片 , 系统会下载该页面上的一些图片 并保存到指定文件夹中 , 接着用肤色检测模块去判 断这些图片是否为不健康图片。最后, 通过两者结 合来判断该页面是否 为不健康页面。若是健康页 面 , 则把该页面地址添加到数据库的白名单中 ; 若是 不健康页面 , 则弹出警告并强制关闭并把地址添加 到数据库的黑名单中。 如果页面中含有点播视频, 那么系统将分析该 视频的真实地址 , 并下载该视频的前面片段。 分析并下载视频片段的方法也是本文的创新点 之一。 首先, 过滤系统找到当前观看的 IE 窗口
[ 1]
和用户观看页面上的文字作比对和统计。如果用户 打开的某个网页页面中含有大量的不良词汇, 那么 系统会将该网页判断为不健康网页 , 之后强制关闭 该页面。 数据库可以自动更新, 也可以人为升级。 自动更新: 当用户输入的网址既不在白名单也 不在黑名单中 , 那么在用户浏览这个页面的同时 , 过 滤系统将对这个新的网页进行检测。最后, 如果系 统判定其为不健康网页, 那么在强制关闭该网页的 同时会把该地址添加到数据库的黑名单中; 如果系 统判定其为健康网页 , 那么系统会在不影响用户观 看的情况下, 把该网址添加到数据库的白名单中。 人为升级: 系统不可避免会存在错判误判的情 况, 为了纠正系统误判的结果 , 数据库管理员可以核 查被系统放入白 /黑 名单中的网址是否合理 , 从而优 化系统。此外 , 不良词汇列表也刻意人为去更新和 维护。
[ 4]
( 1) , Y 表示亮度, U 和 V 为 0 114 0 436 - 0 100 R G ( 2) B
色度信号 , Y、 U、 V 值表示为: 0 587 - 0 289 - 0 515
色度信号 ( 即 U 与 V 之和 )是一个二维矢量 , 也 称之为色度信号矢量。每一种颜色对应一个色度信 号矢量, 它的饱和度由模值 Ch 表示, 色调由相位角 表示 : = tan- 1( |V | / |U | ) 。根据对大量包含 的变化 人体肤色区域的彩色图像统计发现 , 在 YUV 空间的
收稿日期 : 2009- 09- 25
字、 网页中的图片标题等 , 看其是否含有大量敏感词 汇 ( 黄色词汇 ) , 从而来判断该网页是否适合未成年 人浏览。但是 , 针对最近几年兴起的含有视频点播 的页面内容, 这些过滤软件则显得有些力不从心了。 针对以上情况 , 本文提出并设计了一个网络内容过 滤系统, 目的就是既实现对传统页面内容的检测过 滤, 又实现对时下盛行的含有视频点播的页面内容 的及时检测过滤, 为未成年人营造一个健康和安全 的网络环境。本文的第二节将详细介绍系统的设计 与实现, 第三节是系统的实验结果和分析, 第四节给 出了结论。
相关文档
最新文档