Pagerank算法与网页排序方法的建模
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Pagerank 算法与网页排序方法的建模
摘要
随着互联网的飞速发展,各种杂乱无章的信息充斥其中,如何对数以亿记的相关网页进行排序成为搜索引擎的核心问题。针对这个现象本文根据题目要求建立了两个模型:
模型一:结合Google 的Pagerank 算法,建立了网上冲浪模型,得到Pagerank 算法定义:
n
i i 1
i PR(T )PR(A )(1d )d C(T )
==-+∑
用迭代算法通过MATLAB 编程计算出网页的PR 值;
模型二:由于传统PR 值算法仅考虑网页的外链和内链数量,偏重于旧网页;另外,传统算法不能区分网页中的链接与网页的主题是否相关,容易产生主题漂移现象;考虑其算法存在的缺陷,在此基础上为给出对搜索网页进行排序的方法,着重考虑搜索出的网页以下几个方面:外链,内链,时间反馈因子和相关度,对PR 值进行改进,得到以下公式:
Wt
V
VT sim VT V sim T PR d d p PR k
i m
j j
i i P i +⨯+-=∑
∑==1
1
,
,)
()
()()1()(
以PR 值的高低来对搜索网页进行排序;
对于如何使新网站在搜索引擎中排名靠前,从影响网页的PR 值的因素:內链、外链、时间反馈因子和相关度出发对提高网页的PR 值以使其在搜索引擎中排名靠前给出了稳健的建议。
关键词 Pagerank 迭代算法 MATLAB 时间反馈因子 相关度
一、问题重述
随着互联网的发展,面对众多杂乱无章的信息,如何对数以亿计的相关网页进行排序成为搜索引擎算法的核心问题。一个搜索引擎的算法,要考虑很多的方面。主要是“域
名、密度、内链、外链、相关度、服务器稳定、内容更新、域名时间、内容数量”这些方面。不同的搜索引擎侧重点也不同,比如Google,它对收录的网站有一个重要性排名的指数,被称为Pagerank,作为对搜索网页排序的重要参数。
根据搜索引擎与Pagerank,考虑如下问题:
1.考察Google的Pagerank算法,建立数学模型,给出合理的Pagerank的计算方法;
2.如果你是搜索引擎的建设者,请考虑你会侧重考虑搜索网页的那些方面,给出你对搜索网页进行排序的方法;
3.如果你是某新网站的建设者,请考虑使你的网站在第2题中你建立的搜索引擎中排名靠前的方法。
二、问题分析
互联网的迅速发展,使现有的搜索引擎面临着巨大的挑战,面对众多杂乱无章的信息,如何对数以亿计的相关网页进行排序成为搜索引擎算法的核心问题,因此,搜索引擎排序算法也就称为众多搜索引擎关注的关键问题之一。
对于问题1,根据题目要求,结合Google的Pagerank算法,PageRank算法的基本思想是:页面的重要程度用PageRank值来衡量,PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。若B网页设置有连接A网页的链接(B为A的导入链接时),说明B认为A有链接价值,是一个“重要”的网页。当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别(重要性),并平均分配给A网页上的导出链接,由此建立了网上冲浪模型,用迭代算法计算出网页的PR值。
对于问题2,经过对Google的Pagerank算法的分析,发现该算法仅考虑了搜索出的网页的外链和内链的数量,以此来确定网页的PR值偏重于旧网页,即越旧的网页排名越靠前;对一个刚放到网上不久的新网页,指向它的网页就很少,通过计算后的PR 值就很低,在搜索结果中也就被排在了靠后的位置。然而在有些时候,比如新闻类网页和商务性信息,用户当然是希望先看到新的网页,因此我们在计算PR值时考虑加入时间反馈因子,使得在网络上存在时间比较长的网页被沉下去,在搜索结果中被排在靠后的位置;存在时间短的网页就会浮上来,在搜索结果中被排在较靠前的位置,方便用户查看。时间反馈因子利用搜索引擎的搜索周期来表征,即如果一个网页存在时间较长,它将在每个搜索周期中都能被搜到,对网页采取在同一个周期里不管搜到该网页几次,都算一次处理的方法,网页的存在时间正比于搜索引擎搜到该网页的次数,时间反馈因子与网页的存在时间成反比关系。
另外,Google的Pagerank算法是基于网页链接结构进行分析的算法,不能区分网页中的链接与网页的主题是否相关,这样就容易出现搜索引擎排序结果中大量与查询主题无关的网页的现象,即产生主题漂移现象。为解决这个问题,引入主题相关度这个概念。主题相关度就是搜索出的网页与其链入和链出网页的相似度,可用余弦相似度来度量计算。
在加入了时间反馈因子和相关性因素后,改进网页的PR值的算法,以PR值高低的来对搜索的网页进行排序。
对于问题三,主要通过模型二的结果,加强有力的因素,避免不利的方面
三、模型假设与符号说明
3.1 模型假设
3.1.1 问题1的模型假设
(1)假设网页集合的主体之间有相关性,并且体现在他们的相互链接上;
(2)假设用户一开始随机访问网页集合中的一个网页,以后跟随网页的外向连接向前浏览网页,不考虑他们后退的情况;
(3)假设用户的大部分浏览具有相关性,或者说连贯性,当然也不排除用户直接跳转到无关网页的可能性;
(4)假设用户顺序浏览网页,不考虑他们在网页上驻留的时间。(实际上如果用户在一个页面驻留时间长,那应该付给这个页面更大的权值,不过很难找到方法度量)。
3.1.2 问题2的模型假设
(1)服务器的速度在正常范围之内,稳定性很好,质量很高;
(2)每个页面的title 和meta 标签都不同,并且要与该页面的内容相符合; (3)title 和meta 标签中的关键词密度适当,核心关键词合理出现4次左右; (4)网页的排版满足用户的要求;
(5)直接采用包含关键词的域名,文件名采用关键词; (6)导航结构清晰明了;
(7)用户浏览网页的行为是和用户查询的主题相关的;
(8)某一兴趣分类下的查询所获得的文档大都与该兴趣分类相关。
3.2 符号说明
3.2.1 问题1的符号说明 (1)PR(A):网页A 的级别;
(2)i PR T ():网页i T 的级别,页面i T 链向页面A ; (3)i C(T ):网页i T 的外链数量。
(4)d :阻尼系数,0d 1<<;n
i i 1i
PR(T )d C(T )=∑表示在随机模型中网页将自身d 的
份额的PR 值平均分给每个外链。
3.2.2 问题2的符号说明 (1)
t W :时间反馈因子;
(2)T :网页被搜索引擎搜索到的周期数次数; (3)e :常数,取值受到阻尼系数d 的影响。