对Google搜索引擎PageRank算法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

模式识别论文

题目:对Google搜索引擎PageRank算法研究

姓名:

学号:

学院:国际软件学院

指导老师:教授

2011年12月

摘要

随着网络技术的迅猛发展,WWW 已成为信息发布、交互及获取的主要工具,它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。Web 具有四个特点:庞大性、动态性、异构性、半结构化的数据结构环境。此外,Web还包含丰富和动态的超链接资源。面对Web 这些固有特点,人们要从这些海量的数据中查找数据和信息,使用最多的就是搜索引擎技术。搜索引擎技术的发展是随着电子技术不断进步的信息数字化和数据网络化的必然产物,网页排序算法一直是搜索引擎的核心技术之一。Google 搜索引擎依靠其PageRank机制及收敛算法一直处于该领域的领先地位。

本文首先说明了国内外搜索引擎排名算法的研究背景、发展现状,然后分析了搜索引擎的工作原理和关键技术。然后,剖析了传统PageRaak算法和已改进的PageRank算法,分析了它们存在的优、缺点,为我们进一步改进PageRank算法提供了可能性。

关键词Google 搜索引擎 PageRank算法

目录

第 1 章绪论 (4)

1.1 引言 (4)

1.2 研究背景 (5)

1.3 国内外研究现状 (6)

第 2 章搜索引擎的相关知识 (7)

2.1 搜索引擎发展历史 (7)

2.2 搜索引擎工作原理 (8)

第 3 章经典搜索引擎PageRank算法研究 (10)

2.1 PageRank的基本概念 (10)

2.2 PagPank算法的分析 (11)

2.1 PagPank算法的原理 (14)

2.2 PagPank算法的评价及现有改进方法 (16)

第 4 章展望和总结 (16)

2.1 展望 (16)

2.2 总结 (17)

一、绪论

1.1、引言

当前因特网上有大量站点正在不断地从广大用户当中搜索

数据,并利用机器学习和统计方法从中获得需要的信息。Google 搜索引擎作为其中的佼佼者,它不仅可以利用网络链接对网页进行排名,而且当其广告被不同的用户选定时,它会持续搜集信息,这使得Google能够更加有效地进行广告定位。它目前被公认为是全球规模最大的搜索引擎,它提供了简便人性化的各种免费服务,用户可以在很短的时间内得到相关的搜索结果。一个优秀的搜索引擎应该及时向用户提供所需要的最重要最有价值的网页信息

并将其排在前面,然而这种及时,高效,高质量的显示结果必然需要一个强大的搜索算法给予支持。大家普遍相信,Google从一个研究型项目迅速崛起为世界范围内最受欢迎的搜索引擎,这在很大程度上归功于它的RageRank网页排名机制及其收敛加速算

法的进一步发展。这种基于链的网页排名的巧妙之处在于它把整个互联网当作了一个整体的结构来看待,这无意识的符合了系统论和整体的观点。Google搜索引擎在信息采集上处于领先地位,其得到的庞大索引数据库不单纯追求网页链接的数量,同时采取了一些很有力的筛选和过滤措施。这也使得基于链分析的网页排序(PageRank)受人为控制因素大为减少或者说是微不足道的,并且响应速度快同时也不影响网页排名的质量。在学术界, 这个网

页排序算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程的教程。因此,对网页排序算法(PageRank算法)的分析、探索、研究和应用具有重大的现实意义。

1.2、研究背景

随着信息技术的快速发展,互联网已成为人们工作、学习最重要的知识来源和信息来源。根据中国互联网络信息中心2010年1月发布的《第25次中国互联网络发展状况统计报告》,截止到2009年12月,我国上网用户规模达到3.84亿人,互联网普及率达到28.996。互联网之所以有如此多的网民,主要在于互联网上的信息几乎包容人类发展过程中的所有知识,并且还在以几何级的速度在增长。互联网在给人们带来大量信息的同时,也出现了一些问题,比如,在众多杂乱的信息中如何迅速检索到有效信息,

以及搜索结果不能达到用户需要等问题。因此,搜索引擎已成为互联网的重要组成部分,对互联网的进一步普及产生着巨大的影响。由于互联网的迅速发展,互联网上的信息呈现着信息量大且分散,自治性强,资源多样的特点。因此,现有搜索引擎搜索出来的结果有时存在不一致和不完整,出现这种问题的原因,可以总结为以下几个方面:

1.互联网上存在一些信息量很少、价值很一般的网页。

2.互联网还存在着一词多义,同一个词在不同主题,不同

领域,有其特殊的含义。当用户在查询时,搜索引擎就会将各种情况都糅合在一起提交给用户。

3.重复页面多。由于常用文档的广泛传播和著名网页被其它站点的引用,互联网上有许多的重复页面。研究表明,互联网上有60%的页面是重复页面。

4.大多数搜索引擎采用基于关键词的检索算法。因此,有一些人或公司就专门针对这方面进行研究,为了提高自己网页的检索排名,采用一些不正当的手段。这样搜索引擎在搜索时就会优先搜索出质量一般的网页提交给用户。

面对互联网的种种问题,如何快速、准确地从互联网上获取有价值的信息,就成为评价搜索引擎的重要指标,搜索引擎的排序算法也就成为了人们关注的主题。

1.3、国内外研究现状

PageRank算法是1998年由Sergey Brin和Lawrence Page[31提出的基于链接分析的网页排序算法。同年,J.Kleinberg提出了HITS算法,接着相继出现了,如ARC、SALSA、PHITS等基于链接分析的页面分级算法。这些算法在实际的应用和使用中,取得了很好的效果。Google是目前世界上很受欢迎的搜索引擎之一,它提供了较高的准确率和快速搜索速度,这主要因为是Google

使用了复杂的文本匹配算法和PageRank算法相结合的技术。在PageRank算法的基础上,很多学者相继提出了改进后的一些

相关文档
最新文档