信息内容安全复习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、 信息内容安全:如何利用计算机从包含海量信息且迅速变化的网络中,对与特定安全主
题相关信息进行自动地获取和分析的技术。 2、 信息类型:文字、音频、图像/视频
3、 内容安全的范畴:舆情监测;信息过滤;内容分级;信息隐藏
4、 网络信息获取:
(1)主动获取技术:通过向网络发出请求来获取信息,特点是接入方式简单,能够获取更广泛的信息内容,但会对网络造成额外的负担。——————————网络媒体信息获取 (2)被动获取技术则在网络出入口上通过例如旁路侦听方式获取网络信息,特点是接入需要网络管理者的协作,获取的内容仅限于进出本地网络的数据流,但不会对网络造成额外流量。 ——————————————————网络通信信息获取
5、 网络媒体形态:广播式媒体、交互式媒体
6、发布信息类型:文字、音频、图像/视频 6、 信息发布方式:匿名浏览、需要身份认证
7、 网页具体形态:
(1)静态网页:页面内容事先由设计人员写好,内容是固定不变的;
静态网页每个网页都有一个固定的URL ,且网页URL 以.htm 、.html 、等常见形式为后缀,而不含有“?”和参数;
(2)动态网页:页面内容由后台服务器根据对请求的处理结果自动生成,请求不同,生成的结果就不同;动态网页常见后缀,.php 、.asp 、.jsp 等
(3)共同处:不论静态页面或动态页面,它们到达浏览器后的表现形式都一样,即HTML 文档;
判断:(1)动态网页的网页上有各种动画、滚动字幕等视觉效果。 ( X )
(2)采用动态网页技术的网站可以实现更多的功能,如用户注册、用户登录、 在 线调查、用户管理、订单管理等等。 ( Y ) (3)采用Javascript 脚本语言实现网页动态效果的页面是动态页面。 ( X ) 8、 媒体信息的特征表达:是将媒体信息表示成计算机能够高效计算的形式。
9、 信息内容识别:是指以特征表达为基础,对信息内容进行识别、分类,确定其是否为
所需要的目标内容,识别的准确度和速度是重要指标。分类:文字、音频、图像/视频。 10、 搜索引擎:是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对
信息进行组织和处理后,为用户提供检索服务的系统。
广播式:新闻网站、论坛(BBS )
交互式:视频、音频点播
11、 网络媒体信息获取分类:
(1)全网信息获取:信息获取范围涉及整个国际互联网内所有网络媒体信息,保证信息全面性,耗时长,本地存储信息量大。
(2)定点信息获取:信息获取范围限制在一定范围内,更加注重实效性。
(3)基于主题的信息获取:面向某些特定话题,在信息获取过程中增加话题匹配环节,本地存储信息量小。
12、 网络媒体信息获取方法:
(1)重构网络交互过程,实现网络媒体信息获取。 ● 需身份认证静态媒体发布信息获取
● 基于Cookie 机制实现认证
● 基于网络交互重构实现信息获取
搜索引擎功能组件:
用户接口、搜索器 、索引器 、检索器四个部分组成。
内容安全领域网络媒体信息与搜索引擎技术相通、目标不同。
URL 判重: 在信息采集操作启动前进行 内容摘要判重:在采集信息存储时进行
Cookie 是您访问网站时该网站发送到您计算机中的小文件。
网站依靠 Cookie 来记住您的用户名密码等访问信息。
如何查看:缓存-查看cookie 信息
●内嵌脚本语言片段的动态网页信息获取
●利用HTML DOM树提取动态网页内的脚本语言片段
●基于Rhino实现JavaScript动态网页信息提取
(2)利用开源浏览器实现网络媒体信息获取。
●基于浏览器模拟实现网络媒体信息获取
13、网络蜘蛛:是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
(1)工作原理:网络爬虫是通过网页的链接地址来寻找网页,从网站某一个网页(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
(2)分类:1)传统爬虫:从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统
的一定停止条件。
2)聚焦爬虫:需要根据一定的网页分析算法过滤与主题无关的链接,将有用的链接放入等待抓取的URL队列,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
14、网页搜索策略:(1)广度优先策略:在抓取过程中,在完成当前层次的搜索后,才进
行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。(2)深度优先策略
(3)最佳优先方法:按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是,很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。
15、跨站广告:
Cookie,是网站在客户端上存放的一小块数据。他们都由某个域存放,只能被这个域访问。他们的区别其实并不是技术上的区别,而是使用方式上的区别。
一般,网站自身的Cookie被称为第一方Cookie,而来自他站的Cookie生成或者访问被称为第三方Cookie。而淘宝跨站广告的本质是第三方Cookie。
16、特征:指某一物质自身所具备的特殊性质,是区别于其他物质的基本征象和标志
一幅图像的特征:能够充分表达该幅图像所描述的内容,以区别于其他图像或其他不同
类型图像
计算机提取的图像特征:可计算、可高效计算
特征类型:颜色、纹理、形状、空间关系
17、特征描述-就是用一组数值(特征向量、空间点)或符号,即特征描述子(descriptor),
来表征图像、物体或图像局部区域等的某些特征。
18、应用:基于图像内容的检索;基于图像内容的分类;目标物分割;图像填补、修复;
图像拼接
19、数字图像的表示方法:灰度图像(256级颜色,uint8):每个像素可以是0~255之间
的任何一个值;二值图像(黑白两色, logical/boolean):图中的每个像素的像素值用1位存储,它的值只有“0”或者“1”。