[doc]WebSpam技术研究综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Web Spam技术研究综述
第7期(总117期)情报探索2Oo7年7月
WebSpam技术研究综述
蒋涛张彬
(衡阳师范学院计算机科学系湖南421008)
摘要讨论了Sparn的基本概念和影响,详细分析了”-3前各种Spamming技术,包括TermSpaming,
LinkSpamming和隐藏技术三种类型,这对于开发恰当的反击措施是非常有用的..
关键词Webspamming链接分析PagetLankHITS
1引言
随着电子商务的进一步发展以及商业利益的驱
使,最近几年Intemet出现了越来越多的Spare(垃圾)
页面.Spam已经极大地影响我们的工作和生活.具有
相当大的危害.当前搜索引擎应对Spam的方法大多仍
是手工的方法,仍然缺乏完全有效的工具.为了有效地
抗击spalTI,我们有必要对spalTI的工作机制和原理及
其相关技术有一个正确的,全面的理解.同时这也有助
于引导我们开发出恰当的反击措施.
2Spare基本概念及对搜索引擎的影响
2.1基本概念
Spaming通常是指任何故意误导搜索引擎的行为.
以此来为某些网页获得一个不公正的相关性和重要性.Spare指所有的Web对象,包括页面中的内容条目或链接,它是某种形式Spamming的结果.WebSpam是指出于增加自身或其隶属页面的排序值的目的,但却不利于浏览者的冲浪.由手工或机器自动生成的页面. 执行Sp~nming的人们被称为Spammers.Spare的出现来源于SEO(SearchEngineOptimizer).SEO的目的是
帮助人们创建结构良好的,高质量的网页,然而大部分的SEO却实际上在从事Spananing活动.因此,所有故意夸大排序值却不能提高页面真正价值的行为被称为Spamming.
2.2Spare对搜索引擎的影响
第二代搜索引擎采用的主要搜索算法是PageRank
和HITS.PageRank算法是一种与查询无关的,针对全球Web页面排序的,最早应用链接分析技术的算法.由Kleinberg提出的HITS算法是一种查询相关算法.其模型由权威性网页(Authority)和中心网页(Hub)组成,并且Authority和Hub具有相互强化的关系:即一个好的中心性网页应该指向很多好的权威性网页.而一个好的权威性网页则应该被很多好的中心性网页所指向.
随着spalTI的到来,搜索引擎的算法PageRank和HITS开始遭受TKC(TightlyKnitCommunity)问题的困扰.Spam大大地降低了搜索引擎的搜索质量和效率. 在PageRank中.Spammer可以利用大量排序值很低的页面链接指向某些spalTI页面,从而使得它们的排序值很高.在HIrI‟s中,可以利用许多页面互相链接,设置许多重复页面以及稠密链接集等方式.其中有一些是权威页面,而大部分是spam页面,从而使得一些Spam页面的排序值很高.针对于Spam,相对来说HITS比PageRank更脆弱,更易受攻击.
3$0am分类及其相关技术
3.1LinkSpamming
除了基于文本的相关性度量外,搜索引擎也依靠
链接信息来决定Web页面的重要性.因此,Spammer经常创建链接结构来增加他们页面的重要性.链接Spamming指Spammer设置互相链接的页面集一链接馆的发展中将显得越来越重要.因此,建立一个科学
的图书馆网络与信息安全体系,对于促进图书馆网
络与信息安全建设,保障图书馆网络与信息的安全,
无疑具有重要的意义.同时,网络安全也是一个综合
体系,并不是若干网络安全产品的简单集成.而目前
在我国图书馆信息安全整体解决方案的重要性和迫
切性还没有得到应有的重视,很多单位都只是采取
了一部分防护措施.导致这一现象,除了因为经费,
人才等客观因素制约以外,主要还由于国内没有足
够完善的方案可供选择,有些安全产品技术性能上
还不太成熟,从而缺乏一套完整的信息安全标准体
系.因此,亟需建立一套完整,完善的图书馆网络安
66
全防护体系,使图书馆网络形成多层的安全防护,进
一
步保障图书馆文献信息服务的正常运转.
参考文献
1肖军模.网络信息安全与对抗.北京:解放军出版社,
2003
2雪晓.网络安全黑客&病毒.电脑维护与应用,2004
(4)
3戴晓翔.张文德.当前网络安全现状与电子图书馆安
全对策.现代情报.2O05(2)
4刘建伟.网络安全浅析.信息安全与通信保密.2003
(3)
(责任编辑:姜雪榕)
2007年7月蒋涛等:WebSpam技术研究综述第7期(总117期)
Spam农场(Farm),以获得基于链接的夸大的排序值,
更经常的是一少部分目标页面的PageRank值的案例. 最常见的链接Spamming技术的链接结构如图1所示: 左边是N个支持页面.中间是目标页面t,这两部分的
页面由Spammer控制且相互链接,右边是指向目标页面t的M个普通页面.并且是部分受Spammer控制可访问的页面.这种结构可以使得Spam页面组取得最大的PageRank值.假设某页面组A的总排序值为PR (A),根据公式PR(A)=PRstatic(A)+PRin(A)一
PRout(A)一PRsink(A),其中PRstatic指由于随机跳转获得的分数,PRin指来自外部链接指向的入链接收的分数,PRout指通过出链离开页面组A指向外部页面的分数,PRsink是指页面组中没有出链的页面丢失的分数.很显然当保持极少的从页面组A的出链的情况下, PRout和PRsink将接近于0,从而使得PR(A)保持最大.这说明在面对这种链接农场(LinkFarm)的情况下,
仅仅依靠原始的PageRank算法也是难于抵御Spam页面的干扰.对于HITS算法来说,其实Spammer通过使Spam页面指向大量的权威页面的方法来获得很高的中心分数(Hub),进一步再通过其它的方法也能获得很高的权威分数(Authority),从而更容易被Spamming攻击. 支
持
页
面
(N)
普
通
页
面
(M)
图1针对PageRank的Spam链接结构
链接Spamming技术可以分为两种情形,一种是通
过添加大量的出链到一个流行页面的方式,另一种是聚集大量的入链指向一个单一的目标页面或组页面. 前者Spammer可以手工添加大量的链接指向着名页面,以期增加页面的中心分数.其中一个最流行的方法是可以创建大量出链的目录克隆,可以使用开放的目录如或Y ahoo目录等.后者采用的主要策略有:(1)创建一个提供一些有用的资源且同时隐藏了
指向目标Spam页面的链接的HoneyPot.(2)对一些
没有严格控制的Web目录进行渗透.以使得目录页面的链接指向Spam目标页面.(3)在网络社区的Blog, 消息公告牌,GuestBooks或Wikis等网络媒体上张贴
指向Spam页面的链接.这种方式主要是一种评论(Comment)Spamming,类似于EmailSpamming.(4)其
它的方式:链接交换,购买过期的域名以及创建自己的Spam农场等.
出于相互的利益和经济协定Spammer之间可能把
自己的链接农场相互链接起来,形成由单一的链接农场模型构建起来的链接同盟.其中,链接农场模型包括下列规则:(1)每个Spam农场包含了一个单一的目标页面和许多为了提高目标页面排序值的夸大页面;(2) Spammer可能通过诸如在一个Web目录或网络社区的电子公告牌中插入Spam链接的链接劫持方式积累链接.对于两个链接农场的情形:一种是链接农场A的目标页面a0与链接农场B及自身的支持页面互相链接, 同时链接农场B的目标页面与链接农场A及自身
的支持页面互相链接,如图2所示;另一种为链接农场A和B的支持页面a,a2,…a和b,b2,…bm分别指向
各自的目标页面ao和,而a0和互相链接,如图3
所示.对于三个链接农场的情形:链接农场的目标页面之问形成环的链接结构(分单环和双环两种),而各自
的支持页面分别指向自己的目标页面.
bo
al02akblb2I
图2两个链接农场形成的链接同盟(形式一)
口l
口2
bl
b2
图3两个链接农场形成的链接同盟(形式二)
3.2TermSpamming
TermSpamming是指为了使Spam页面与一些查
询相关而定制文本字段内容的相关技术,它依赖改变文本内容来提高页面的排序值.两种方式可以被Spammer利用来提高排序值:一种方式是集中在一个小关键词集合中,想方设法提高此关键字集的相关性: 另一种是努力增加被搜索引擎察觉的文档关键词的数目.这两种方式都是源于搜索引擎使用文本抽取方法TFIDF的缘故.该方法用公式表示如下:
,
TFIDF(p,q)=TF(t)?IDF(t),其中TF(t)指
I-,I●■
关键词t在某一文档中占总关键词数目的比例,IDF(t) 指包含关键词t的文档数目占总文档数目的比例的倒数.当前的搜索引擎一般完全忽略IDF分数,故这类Spam技术主要通过增加一个页面中的特定文本字段
的关键词的频率.
2007年7月情报探索第7期(总117期) TermSpamming技术根据Spamming发生的文本字
段的类型可以分为主体(Body)Spam,标题(Title)Spam, 元标记(Metatag)Spam,锚文本(Anchortext)Spam,URL Spam等类型,这些类型的一个共同特征都是在对应的文本字段中增加Spam关键词.而如果按照添加到文本字段中关键词的方式,又可以分成以下几种:(1)重复
一
个或几个特定的关键词.此方式只能针对部分的查
询关键词.(2)堆放大量不相关的关键词,经常甚至是
整个词典.这种方式可以使一个页面保持与许多的页面相关,哪怕该Spam页面的相关性或重要性很低都可能出现在顶部的结果之中.(3)把Spam关键词编织进拷贝的内容中.这种技术在原始真实文本的主题很稀少且仅有很少的相关页面存在的情形下是非常有效的.(4)组合短语来快速创建页面内容.这种方法需要
把来自不同源的句子或短语粘连在一起,它能够匹配任何原始句子主题的查询.
3.3页面隐藏Spam
隐藏技术不同于前面两种可见的Spamming技术,
它把Spam页面某些内容或链接通过某种方式隐藏起
来,以使访问用户和搜索引擎不可见或不能察觉.此种
技术包含比较广泛,当前主要包括以下几种:
(1)内容隐藏.这种方式一种最常见的方式是使
用恰当的颜色方案.例如:可以把Spam文本内容的颜
色和背景颜色设置成相同.具体形式如下:<body background=“white
<fontcolor=“white>hiddentext</font>
</body>
也可以在一个不可见的微小图像(如lxl像素)下
隐藏Spam链接,例如:<ahref=“target.html><imgsrc=“tinyimg.g<,a>.其它也能使用脚本以隐藏页面中某
些可视元素.
(2)隐藏Cloaking.如果Spammer能够识别网页爬
虫客户端,他们就可以采用Cloaking技术:在给定的
URL的情况下,SpamWeb服务器返回一个特定的
HTML文档给Web浏览器,而把一个不同的文档送给Web爬虫器.在这种方式下,Spammer可以把Spam页
面的内容呈现给用户,而让搜索引擎对Spam文档索
引.识别网页爬虫包括两种方式:一种是使用搜索引擎
的IP列表来匹配网页爬虫的IP;另一种是Web服务
器能够识别基于H1-IP请求报文中的user—agent字段
的应用请求.Cloaking通常包括两种类型:语法(Syn. tactic)Cloaking和语义(Semantic)Cloaking.前者体现
在发送给Web爬虫和用户内容的不同,后者是前者的
子集体现在发送给Web爬虫和用户含义的不同,因而
后者比前者更恶毒.
(3)重定向(Redirection).这是另一种隐藏Spam
页面内容的方式,是一旦某个页面的内容被装入的时
候自动重定向浏览器到另一个URL以指向Spam目标站点或页面.这种方式初始页面仍然被搜索引擎索引,
但是用户却不能看到初始页面,而只能看见Spammer
导向到他们站点的页面.重定向可以利用HTML文档
中头部字段的refresh元标签来实现,例如:设置刷新时
间到0且刷新URL为目标页面,<metahttp—equiv=“re. fresh”content=;url=target.html,>.
4结束语
随着网络技术的不断发展,新种类的Spam方式不
断出现,Spam技术变得越来越复杂.例如:最新出现的
两种Spam技术TrackBack和Clickspamming到目前就还没有好的解决办法.在深入了解Spam技术的基础上,如何识别并抗击Spam是今后研究的重点.一方面
需识别各种Spam实例,这可以通过各种自动的和半自动的方法结合一些常见的侦测算法来实现,然后把
Spam页面从搜索引擎中的索引中移去:另一方面是阻
止Spamming,使得特定的Spamming技术不能使用.实
际上.当前已经出现了许多成熟的抗击Spam页面的方
法和技术.然而,由于经济利益的驱使,抗击Spam就像
反病毒一样是一个敌对的过程,它将是一个长期而不
断变化的过程.因此,我们仍然有必要对各种Spam技
术进行深入的研究.以期发现它们的共同特征或局部
特征,以此来作为反Spam技术的理论依据.
参考文献
1LPage,SBrin,RMotwanieta1.ThePageRankcitation ranking:BringingordertotheWeb.Technicalreport,Stanford UniversityDatabaseGroup,1998.
2KleinbergJ.Authoritativesourcesinahyperlinked environment.Proceedingsofthe9thACM-SIAMSymposiumon DiscreteAlgorithms.NewOrleans:ACMPress,1997
3R.Lempelands.Moran.Thestochasticapproachfor
link-structureanalysis(SAI.SA)puter Networks,33(1-6),2000
4Z.Gyongyi,H.Garcia-Molina.Linkspamalliances.In Procofthe31stVLDBConf,Trondheim,Norway,2005
5B.Wu.B.D.Davison.Cloakingandredirection:A preliminarystudy.InProceedingsoftheFirstInternational
WorkshoponAdversarialInformationRetrievalontheWeb (AIRWeb),May2005
6PaulGerecht.RobMcDonald,DanSandlereta1.Taking TrackBackBack(fromSpare).http:/pmj/ trackback/papers/taking-trackback-back.pdC2006-01-06
7I.Drost.T.Scheffer.Thwartingthenesritude ultramarine:Learningtoidentifylinkspam.InProceedingsof EuropeanConferenceonMachineLearning,Oct.2005
…(责任编辑:姜雪榕)
作者简介:蒋涛(1973一),男,硕士,讲师,主要研究方向:分布式计算技术,计算机网络;张彬(1978一),女,硕士,讲师,主要研究方向:Web挖掘技术.。