搜索引擎算法思想介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、排名算法
一个网页的“排名”究竟取决于什么?真 正的问题不是“这个网页和查询匹配 吗?”,而是“这个网页和查询相关吗?”
• PageRank算法,Google创始人佩奇和布林在
1998年的一篇学术论文《解析大规模超文本网络 搜索引擎》发表了这一算法。
排名-超链接把戏
• 什么是超链接?超链接是网页上的一个短语,当你点击它
时,你将被带入另一个页面上。
• 超链接也是一个古老的思想,早在1945年就被提出来了, 当时叫关联索引,它是PageRank的基础。
排名-权重把戏
• 来自专家的推荐肯定比菜鸟的推荐更具有代表性。
排名-随机访问把戏
• 访问者随机从万维网上的一个网页开始访问,然后检 查该网页上的所有超链接,之后随机挑选出其中一个 超链接进行点击,然后再检查新打开的网页的超链接,
Baidu Nhomakorabea
随机选择一个进入,每一个网页都是通过随机选择前
一个网页的链接打开的。
排名-随机访问把戏
• 将网页访问权重值定义为一名随机访问者花在访问该网 页的时间比例。 • 随机访问者模型天生能同时跟超链接把戏和权重把戏相
结合。
实际中的PageRank
• 侦测和消除不同类型的网络垃圾; • PageRank值的计算; • 判定排名的算法:有超过200个信号被用于评估一个
网页的重要性;
• ……
“通过超链接向网页传输权重”是 PageRank算法的核心思想。
Q&A
搜索引擎算法介绍
XXXXX 鲁鹏 2015.05.21
搜索引擎
Google
Yahoo
MSN
搜索引擎的生死由其排名系统的质量决定。
搜索引擎
• •
网络搜索的两个阶段:匹配和排名。 第一阶段后可能会出现成千上万个匹配结果,而这些结果必须要 按照相关度在第二阶段进行排序。
一、匹配算法
• AltaVista:第一个互联网级别的匹配算法
索引
匹配-索引
The cat sat on the mat
The dog stood on the mat
The cat stood while a dog sat
匹配-词把戏
• 索引应该不单单存储页码,还要存储页面内的位置。
匹配-元词把戏
• 元词把戏的发明,使得AltaVista搜索引擎在20世纪90 年代晚期迅速成为搜索行业的领头羊。
相关文档
最新文档