网页排序算法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两台主机,如果满足下列条件之一或两
确定专家页面后,在该页面上找出所有包含
热门关键词中术语或者差1到2个术语的短语将 这些短语分为三个等级分。分别为全部包含 S0、差1--S1、差2—S2分别计算等级分
这三个等级相差很大 依次为2^32 2^16和1 而短语得分取决于这个短语在页面中的位置,
分数从高到低--标题 、头部、 锚文本等等 等级分是对各个等级中所有短语得分的和。 然后综合计算这三个等级得分就得到专家分 更倾向于完全匹配
•Expert_Score = 232 * S0 + 216 * S1 + S2
•Si = SUM{key phrases p with k - i query terms} LevelScore(p) * FullnessFactor(p,
。
H i M * Ai - 1
H i M * M T H i -1
Ai M * H i-1
T
Ai M * M * Ai -1
T
M
1 0 1
1 1 0 1 1 0
1 T M 1 1
0 1 0 1 1 0
先计算一个与用户查询主题最相关的“专家文档”页 面列表,然后通过专家页面找到目标页面,目标页面 按照指向他们的非附属专家文档的数量和相关性进行 排名 若没有找到搜索引擎认为足够的“专家文档”(要求 至少两个),则该算法失效即结果返回为零 对于高度明确化的查询条件,此算法的结果很可能为0
专家页面的搜索和确定对算法起关键作用;而其质量 和公平难以保证 Hilltop忽略了大多数非专家页面的影响 专家页面只占到整个页面的1.79%,不能全面反映民意 Hilltop也是在线运行的,势必会影响查询响应时间, 随着专家页面集合的增大,算法的可伸缩性存在不足 之处
M
2 T M 2 1
3 1 2 2 1 2 1 M T M 1 1 0 2 0 2 1 2
Iteration 0
1 H 1 1
Y
1
6 2 4 5 5 4
者都满足,则这两台主机是有从属关系的: 1. 他们拥有相同的前3段IP地址 2. 主机名最右边的特殊标记相同.
例如:比较""和"ibm.co.mx",分别忽略它 们的类别后缀"com”和"co.mx",最右边得到的标记都 是”ibm".因此它们被认为有从属关系. 从属关系是具有传递性的:如果A和B有从属关系并且B 和C也有从属关系,那么即使A和C没有明显的直接联系, 也会 被认为有从属关系
TrustRank 是近年来比较受关注的基于链接关系的排 名算法。TrustRank 中文可以翻译为信任指数。 TrustRank 算法最初来自于2004 年斯坦福大学和雅虎 的一项联合研究,用来检测垃圾网站,并且于2006 年 申请专利。
网站TrustRank的计算采用人工和机器连接分析相结合 的方式。通过Google或其他一些检索机构的专家,可 以先确定一批站点的TR值,在通过机器的连接结构分 析来确定互联网上其他站点TrustRank值,然后以TR 值的高低来做为网页排名的一个重要依据。 跟PR值原理类似,如果其他站点获得了来自高Tr值站 点的连接也将获得更高的TR值。Google TrustRank应 该是以站点而不是页面为单位的。 。
Google TrustRank对于网站排名有种非常重要的影响: 1。 站点内的页面在其他情况参数接近的情况 下。高TR值的站点内页面将获得比其他站点页面更高 的排名。 2。 高TR值站点的页面收录速度加快。因为 Google对它认为重要的站点会频繁访问。 3。 获得足够的TR值的站点可以避免Sandbox。 4。 如果一个站点的信任指数太低,google将 可能会将其进行惩罚,包括进入sandbox等 5。如果一个站点的信任指数太低,即使其他参 数非常理想,在较热门关键词上,也很难获得好的排 名表现。
Page A 1
1*0.85/2
Page B 1 1*0.85 1*0.85 Page D 1
1*0.85/2
1*0.85 Page C 1
经过20 次迭代:
Page A 1.490
Page B 0.783
Page C 1.577
Page D 0.15
PageRank算法中对于向外链接的权值贡献是平均的, 不考虑不同链接的重要性。 1.有些链接具有注释性,也有些链接是起导航或广告 作用。有注释性的链接才用于权威判断。 2.基于商业或竞争因素考虑,很少有WEB网页指向其 竞争领域的权威网页。
Hilltop算法的指导思想和PageRank一致,都是通过网页 被链接的数量和质量来确定搜索结果的排序权。但 hilltop认为只计算来自具有相同主题的相关文档链接对 于权重计算的贡献比主题不相关的链接价值要更高。
Bharat称这种对主题有影响的文档为“专家”文档,从 这些专家文档页面到目标文档页面的链接决定被链接网 页的权重值
PageRank
PageRank的大小取决于三个因素: 链入网页数 链入网页的质量 链入网页的链出网页数
PageRank
PageRank的大小取决于三个因素: 链入网页数 链入网页的质量 链入网页的链出网页数
页面的重要性由链向它的页面的重要性决定
页面i的重要性
1 xi x j jBi N j
1.根据查询寻找“专家网页”。计算专家页面得 分。 2.给顶部专家网页链向的目标网页打分,这个过 程综合了它与所有相关专家网页的链接关系 基于“专家”文档的Hilltop算法最大的难点是第 一次“专家文档”的筛选。目前Google首先给 了.edu,.gov和.org站点很高的优先级。
搜索引擎根据用户查询日志发现热门关键词后, 开始针对这些热门关键词寻找专家页面 成为专家页面的2个必要因素 必须存在足够多而且不存在隶属关系的出链(检 测k个出链的URL是否指向k个无从属关系的独立主 机) 至少存在一个短语包含该热门关键词的所有术语
A. Paglltop D. TrustRank
硕0032班 3110082019 董向瑜
pagerank对网页的重要性进行客观的测定。PageRank
会将网页 A 上指向网页 B 的链接解释为由网页 A 对 网页 B 所投的一票,而不是计算直接的链接数。 PageRank 也会考虑发出投票的每个网页的重要性,也 就是某些网页的投票具有的价值较大,为该链接的页面 赋予的价值因而也就较大。 重要的网页会得到较高的 PageRank,并出现在搜索结果的顶部。 Google 的技术是利用网络中的综合信息来确定网页的 重要性。 因为没有人工干涉,也不对结果进行操纵, 所以用户一直信任 Google 是一个不会因付费而影响排 名的客观信息来源。
FullnessFactor(p,q)的计算公式为: If m<=2, FullnessFactor(p,q)=1 If m>2, FullnessFactor(p,q)=1-(m-2)/plen
由排名前N个(至少两个)非隶属的专家页面指向的页面称为
目标页面。 目标页面的分数通过以下三步计算: 1. 对每一个专家页面E指向目标页面T画边Edge(E,T)对每一个 查询关键词w,设occ(w,T)是专家文档E中包含w且修饰 Edge(E,T)的关键短语的数量。
X
Z
1 A 1 1
1 1 2
3 3 is most authoritative
HITS 算法的最大缺点是,它是在查询阶段进行计算, 而不是在抓取或预处理阶段。以牺牲查询排名响应时间 为代价的。不过HITS 算法的思想很可能融入到搜索引 擎的索引阶段,也就是根据链接关系找出具有hub特征 或authority特征的页面。 HITS 算法还存在主题漂移的问题,如果在集合T中有少 数与查询主题无关的网页,但是他们是紧密链接的, HITS算法的结果可能就偏离了原来的查询主题
2
28 8 20 24 24 18
3
132 36 96 114 114 84
…
2 3 1 1 3
X is the best hub
网页中一些无关的链接影响A,H值的计算
PageRank
查询之前就计算了所 有数据库中网页的权威 值 只计算权威值 迭代计算量大,计算 速度快
HITS
每次只检索跟查询有关的 网页 计算两个值,内容权威值 (authority)链接权威值 (hub) 计算简单,在线实时计算 耗时多
HillTop ,是一项搜索引擎结果排序的专利,是Google的 一个工程师Bharat在2001年获得的专利。
通过向S中加入被S引用的网页和引用S的网页将S扩展 成一个更大的集合T(base set).
基集上的迭代算法: 内容权威值(authority weights )a(p) 链接权威值(hub weights) h(p) 所有的网页初始化a(p) = 1,h(p) = 1 重复下面两步并且规范化处理直到权威值收敛:
HITS是英文Hyperlink-Induced Topic Search 的缩 写意译为超链引导主题搜索。HITS 算法由Jon Kleinberg 于1997 年提出,并申请了专利。 其基本思想是利用页面之间的引用链来挖掘隐含在 其中的有用信息。具有计算简单且高效的特点。 Hits算法认为对每一个页面应该将其内容权威度 (authority)和链接权威度(hub)分开考虑,在对 网页内容权威度做出评价的基础上再对页面链接权 威度进行评价,然后给出该页面的综合评价。
链接权威度(hub)指的是页面上所有导出链接指向页面的 内容权威值之和。 内容权威度(authority)指的是所有导入链接所在页面的 链接权威度之和
对于一个给定的查询,每个页面都被赋予了一个特定的链 接权威度(hub)和内容权威度(authority) 结果就是高权威度的页面
HITS算法的求解过程如下:
q)
LevelScore(p)是定义好的关键短语p的类型得分,在HillTop算法
中名称短语(title)的是16,标题(head)是6,锚文本(anchor)是1
完整性因子FullnessFactor(p,q)是对q中关键词覆盖了p中关键词的
数 量的度量。
设plen是P的长度,m是在p中而不在q中出现的术语的数量,
If occ=0 Edgescore=0 else Edgescore=Expertscore* SUM{query
keywords w}
occ(w,t)
2.检查指向同一页面的专家页面的从属性,若存属性相同则删 去min{edgescore} 3.targetscore=sum{edgescore}
1、得出根集页面. 2、将所有页面(根集页面)的A和H赋予初值。 3、计算新一轮的H和A的值。 4、规范化结果 5、重复3、4, 直到结果收敛。
将查询q提交给传统的基于关键字匹配的搜索引擎.搜 索引擎返回很多网页,从中取前n个网页作为根集(root set),用S表示。S满足如下3个条件:
1.S中网页数量相对较小 2.S中网页大多数是与查询q相关的网页 3.S中网页包含较多的权威网页。
指向页面i的页面集
页面j的重要性 页面j的出链
PR(A)=(1-d) + d*(PR(T1)/C(T1)+…+ PR(Tn)/C(Tn))
d: 阻尼系数, 通常设置为0.85.
一个用户不用通过键入URL地址 ,而是点击链接的概率
T1, …, Tn: 指向页面A的页面集 PR(A): 页面A的权威值. PR(Ti): 页面Ti的权威值. C(Ti): 页面Ti的出链.