百度谷歌雅虎三大搜索引擎比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络搜索引擎的比较研究
届别 2012届
系别数学系
专业信息与计算科学
姓名李小青
指导教师王仲华
二○一二年五月
网络搜索引擎的比较研究
学生姓名: 李小青指导教师: 王仲华
摘要: 搜索引擎已成为中国互联网用户获取网络信息的主要工具,利用搜索引擎查询网上信息资源已成为解决网络资源利用的有效方式, 信息界亦掀起了搜索引擎研究的热潮. 文中简单介绍了搜索引擎
及其在全球与中国的现状, 并以目前国内外排名靠前的搜索引擎Google、百度和雅虎为研究对象, 从
界面、内容、问答、用户结构、经营等多个角度进行比较, 旨在挖掘3者各自的特殊, 为搜索引擎的个
性化比较研究提供依据. 最后作出总结并提出了搜索引擎的未来发展趋势及本文不足之处.
关键词: 搜索引擎; Google;百度;雅虎; 比较研究
引言
Internet 与全球电信的迅猛发展使信息资源的“生产”、“传播”与“消费”出现了新的格局. 信
息资源如雨后春笋, 信息在网络上的传播速度跨数量级的提升, 使得上网用户获取真正有用的信息越
来越难. 如何在网上快速、有效地获取信息资源, 已经成为信息查询者的一大难题, 因此网络搜索引擎
应运而生.
搜索引擎已成为中国互联网用户获取网络信息的主要工具, 它对迅速筛选所需信息起到很重要的
作用. 如今世界上的搜索引擎数以万计, 因此, 选择合适的搜索引擎就成为重中之重. Google、百度和
雅虎中国是目前比较有影响力的三种著名的搜索引擎, 本文将对其主要的性能指标进行分析比较, 以
期抛砖引玉, 使现有的中文搜索引擎发展得更快更好.
1网络搜索引擎的含义及分类
网络搜索引擎又称为网络检索引擎, 其英文译名为Search Engine. 广义上是指一种基于Internet
的信息查询系统, 包括信息抓取、信息管理和信息检索; 狭义上是指一种为搜集Internet上的网页而
设计的检索软件. 现有的网络搜索引擎基本上分为3 类:
(1)独立搜索引擎(Single search engine). 其特点是仅在搜索引擎的本身数据库中查询, 如我们
经常使用的Google、百度、雅虎等.
(2)元搜索引擎(Meta search engine). 所谓元搜索引擎是对分布于网络的各种检索工具的全局控
制机制, 它通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检
索操作. 其特点是对查询得到的结果进行不同程度的处理, 如:删除重复结果、检验连接、结果按相关
度排序等. 元搜索引擎本身按照其工作方式的不同又分为并行处理引擎和串行处理引擎.
(3)网络搜索软件(Net search software). 其特点是网络用户可将相应的搜索软件下载至本地计算
机上安装查询, 是一种具有网络查询功能的离线浏览器.
2网络搜索引擎的搜索原理
1
网络搜索引擎实际上是个专用的WWW服务器, 它存有庞大的索引数据库, 收集了全世界上百万甚至上千万个WWW 主页的文字信息. 为了收集这些信息, 有个自动检索程序(Robots)沿着WWW 的超文本链经常搜索整个WWW 上的主页, 然后为这些主页上的每个文字建立索引并送加集中管理的索引数据库. 索引信息包括文档的WWW 地址、每个文档中单词出现的频率和位置等. 使用WWW 搜索引擎时, 可以根据用户输入的关键词, 在自己的数据库中查询相关信息, 然后将结果( 网址) 提供给用户.
3三大搜索引擎简介
3.1 Google()简介
Google 是由斯坦福大学计算机科学系Larry Page 和Sergey Brine 博士于1998 年创建. 支持30 多种语言检索, 包括中文简体和繁体, 并有中文Google网页. 当输入检索词后, Google 每次可以检索30 多亿个网页, 从众多的网页中选取与检索式匹配的链接, 检索效率极高. Google 富于创新的搜索技术和典雅的用户截面设计, 使Google 从当今的第一代搜索引擎中脱颖而出. 2000 年9 月, Google 开启中文搜索服务, 2004 年8 月在纳斯达克上市, 开创了第二代搜索引擎技术. 许多权威机构都将其评为最佳搜索引擎. Google利用“蜘蛛程序”在互联网上抓取各个网站的网页,对网页内容进行分词处理, 并对抓取到的网络进行超链接分析.
Google是一个功能强大、网络信息资源非常丰富的搜索引擎, 包括35个国家和地区的语言资源, 占有全球搜索市场的80%. Google原意是表示1后面带有100个零的数字, 使用这个词代表公司想征服网上无穷无尽资料的雄心.正如其所期望, 许多权威机构都将其评为最佳搜索引擎, 全世界平均每天上网人次高达1.5亿. Google在中国搜索市场的市场份额突破30%, 并且增长速度迅猛, 在中文搜索市场有举足轻重的作用. 公司产品Google是全世界最受欢迎的搜索引擎, 使用一种自创的称为PageRank TM(网页级别)技术来索引网页, 索引是由程序“Google bot”执行的, 它会定期地请求访问已知的网页新拷贝. 页面更新愈快, Google bot访问得也愈多, 再通过在这些已知网页上的链接来发现新页面, 并加入到数据库. 索引数据库和网页缓存大小是以兆兆字节(terabyte)来衡量的.
3.2 百度()简介
百度是中国的两位海外留学生李彦宏和徐勇博士创建的中文搜索引擎, 它拥有目前世界上最大的中文信息库, 总量达到1 亿2 千万页以上, 并且还在以每天几十万页的速度快速增长. 2000年1月, 百度公司在中国成立了他的全资子公司百度网络技术( 北京) 有限公司, 随后于同年10月成立了深圳分公司, 2001年6月又在上海成立了上海办事处. 2005年百度在美国纳斯达克上市, 成为当年全球资本市场上最为引人注目的上市公司, 百度由此进入一个崭新的发展阶段.
百度搜索引擎()的起名源于“众里寻她千百度”和突破“事儿做到九十九度就是做到头”的西方说法, 百度就是想要力争做到一百度, 做到顶上开花的境界.
百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点, 能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要的信息, 因此深受网民的喜爱.
百度是目前全球最优秀的中文信息检索与传递技术供应商. 它在中文互联网拥有天然优势, 目前收录中文网页已超过12亿个, 这些网页的数量每天正以千万级的速度在增长; 同时, 百度在中国各地分布的服务器, 能直接从最近的服务器上把所搜索信息返回给当地用户, 使用户享受极快的搜索传输速度. 目前, 中国所有提供搜索引擎的门户网站中, 超过80%以上都由百度提供搜索引擎技术支持.
3.3 雅虎(/)简介
雅虎中国是网站分类目录导航的领头军, 它以分类目录、网站检索为主, 附带网页全文检索, 也是目前最重要的搜索服务网站. 雅虎有中文、英文等10余种语言版本, 每一版的内容互不一样. 可以说, 2