百度谷歌雅虎三大搜索引擎比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络搜索引的比较研究课题
论文(报告、案例分析)
院系信息学院
专业电子商务
班级电子商务1班
学生姓名王烁晨薛越洋
学号 2010211013 2010211190 任课教师师鸣若
2013年 1月 19日
网络搜索引擎的比较研究
学生姓名: 王烁晨 2010211013 薛越洋2010211190 摘要: 搜索引擎已成为中国互联网用户获取网络信息的主要工具,利用搜索引擎查询网上信息资源已
成为解决网络资源利用的有效方式, 信息界亦掀起了搜索引擎研究的热潮. 文中简单介绍了搜索引擎
及其在全球与中国的现状, 并以目前国内外排名靠前的搜索引擎Google、百度和雅虎为研究对象, 从
界面、内容、问答、用户结构、经营等多个角度进行比较, 旨在挖掘3者各自的特殊, 为搜索引擎的个
性化比较研究提供依据. 最后作出总结并提出了搜索引擎的未来发展趋势及本文不足之处.
关键词: 搜索引擎; Google;百度;雅虎; 比较研究
引言
Internet 与全球电信的迅猛发展使信息资源的“生产”、“传播”与“消费”出现了新的格局. 信
息资源如雨后春笋, 信息在网络上的传播速度跨数量级的提升, 使得上网用户获取真正有用的信息越
来越难. 如何在网上快速、有效地获取信息资源, 已经成为信息查询者的一大难题, 因此网络搜索引擎
应运而生.
搜索引擎已成为中国互联网用户获取网络信息的主要工具, 它对迅速筛选所需信息起到很重要的
作用. 如今世界上的搜索引擎数以万计, 因此, 选择合适的搜索引擎就成为重中之重. Google、百度和
雅虎中国是目前比较有影响力的三种著名的搜索引擎, 本文将对其主要的性能指标进行分析比较, 以
期抛砖引玉, 使现有的中文搜索引擎发展得更快更好.
1网络搜索引擎的含义及分类
网络搜索引擎又称为网络检索引擎, 其英文译名为Search Engine. 广义上是指一种基于Internet
的信息查询系统, 包括信息抓取、信息管理和信息检索; 狭义上是指一种为搜集Internet上的网页而
设计的检索软件. 现有的网络搜索引擎基本上分为3 类:
(1)独立搜索引擎(Single search engine). 其特点是仅在搜索引擎的本身数据库中查询, 如我们
经常使用的Google、百度、雅虎等.
(2)元搜索引擎(Meta search engine). 所谓元搜索引擎是对分布于网络的各种检索工具的全局控
制机制, 它通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检
索操作. 其特点是对查询得到的结果进行不同程度的处理, 如:删除重复结果、检验连接、结果按相关
1
度排序等. 元搜索引擎本身按照其工作方式的不同又分为并行处理引擎和串行处理引擎.
(3)网络搜索软件(Net search software). 其特点是网络用户可将相应的搜索软件下载至本地计算机上安装查询, 是一种具有网络查询功能的离线浏览器.
2网络搜索引擎的搜索原理
网络搜索引擎实际上是个专用的WWW服务器, 它存有庞大的索引数据库, 收集了全世界上百万甚至上千万个WWW 主页的文字信息. 为了收集这些信息, 有个自动检索程序(Robots)沿着WWW 的超文本链经常搜索整个WWW 上的主页, 然后为这些主页上的每个文字建立索引并送加集中管理的索引数据库. 索引信息包括文档的WWW 地址、每个文档中单词出现的频率和位置等. 使用WWW 搜索引擎时, 可以根据用户输入的关键词, 在自己的数据库中查询相关信息, 然后将结果( 网址) 提供给用户.
3三大搜索引擎简介
3.1 Google()简介
Google 是由斯坦福大学计算机科学系Larry Page 和Sergey Brine 博士于1998 年创建. 支持30 多种语言检索, 包括中文简体和繁体, 并有中文Google网页. 当输入检索词后, Google 每次可以检索30 多亿个网页, 从众多的网页中选取与检索式匹配的链接, 检索效率极高. Google 富于创新的搜索技术和典雅的用户截面设计, 使Google 从当今的第一代搜索引擎中脱颖而出. 2000 年9 月, Google 开启中文搜索服务, 2004 年8 月在纳斯达克上市, 开创了第二代搜索引擎技术. 许多权威机构都将其评为最佳搜索引擎. Google利用“蜘蛛程序”在互联网上抓取各个网站的网页,对网页内容进行分词处理, 并对抓取到的网络进行超链接分析.
Google是一个功能强大、网络信息资源非常丰富的搜索引擎, 包括35个国家和地区的语言资源, 占有全球搜索市场的80%. Google原意是表示1后面带有100个零的数字, 使用这个词代表公司想征服网上无穷无尽资料的雄心.正如其所期望, 许多权威机构都将其评为最佳搜索引擎, 全世界平均每天上网人次高达1.5亿. Google在中国搜索市场的市场份额突破30%, 并且增长速度迅猛, 在中文搜索市场有举足轻重的作用. 公司产品Google是全世界最受欢迎的搜索引擎, 使用一种自创的称为PageRank TM(网页级别)技术来索引网页, 索引是由程序“Google bot”执行的, 它会定期地请求访问已知的网页新拷贝. 页面更新愈快, Google bot访问得也愈多, 再通过在这些已知网页上的链接来发现新页面, 并加入到数据库. 索引数据库和网页缓存大小是以兆兆字节(terabyte)来衡量的.
3.2 百度()简介
百度是中国的两位海外留学生李彦宏和徐勇博士创建的中文搜索引擎, 它拥有目前世界上最大的中文信息库, 总量达到1 亿2 千万页以上, 并且还在以每天几十万页的速度快速增长. 2000年1月, 百度公司在中国成立了他的全资子公司百度网络技术( 北京) 有限公司, 随后于同年10月成立了深圳分公司, 2001年6月又在上海成立了上海办事处. 2005年百度在美国纳斯达克上市, 成为当年全球资本市场上最为引人注目的上市公司, 百度由此进入一个崭新的发展阶段.
百度搜索引擎()的起名源于“众里寻她千百度”和突破“事儿做到九十九度就是做到头”的西方说法, 百度就是想要力争做到一百度, 做到顶上开花的境界.
百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点, 能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要的信息, 因此深受网民的喜爱.
百度是目前全球最优秀的中文信息检索与传递技术供应商. 它在中文互联网拥有天然优势, 目前2
3
收录中文网页已超过12亿个, 这些网页的数量每天正以千万级的速度在增长; 同时, 百度在中国各地分布的服务器, 能直接从最近的服务器上把所搜索信息返回给当地用户, 使用户享受极快的搜索传输速度. 目前, 中国所有提供搜索引擎的门户网站中, 超过80%以上都由百度提供搜索引擎技术支持. 3.3 雅虎(/)简介
雅虎中国是网站分类目录导航的领头军, 它以分类目录、网站检索为主, 附带网页全文检索, 也是目前最重要的搜索服务网站. 雅虎有中文、英文等10余种语言版本, 每一版的内容互不一样. 可以说, 每一种不同的版本都是一种不同的、相对独立的搜索引擎.
雅虎是最知名、最流行的互联网门户网站之一. 它最初只是一个主题目录, 现如今已集搜索引擎、目录和门户网站于一身. 想进入雅虎门户网站和主入口点, 只要输. 要想直接使用该搜索引擎, 请输入; 要想使用目录, 请输入. “ 雅虎” 中规中矩, 网页搜索表现不错,但死链率较高而且缺少一些应有的高级搜索功能. 另外, 该搜索的易用性有待提高, 虽然升级后改善了网页的界面,严格控制搜索页面中的排名广告, 规定每次搜索结果中的广告数量不能超过5个, 但用户打开雅虎中国的首页时还是要受到一些影响. 而且, 对搜索结果的描述和在用户搜索过程中的提示说明也不太清晰明了, 离雅虎“关注用户体验”这一宣传口号, 还有一定的距离.
4 Google 、百度和中国雅虎的对比
衡量一个搜索引擎质量的优劣主要看其检准率和检全率. 这既是搜索引擎要实现的目标, 也是它发展的动力. 检准率是指搜索到的信息与所需信息相关度高, 检全率是揩搜索到的有用信息尽可能全面, 因此搜索引擎的融合也可看成检全率与检准率的融合. 具体还可从以下6 个方面进行考虑: 4.1三大搜索引擎检索界面比较
首页是搜索引擎的“门脸”, 也是其展现特色的一个地方. 雅虎引擎在打开速度上略逊于Google, Google 又略逊于百度. 如以下图片是2012年5月1日百度、Google 搜索引擎的首页, 百度和Google 都体现出该天为“五一劳动节”, 只有中国雅虎未体现,从这一点上可以看出百度和Google 搜索引擎对于实时性的关注程度是非常大的.
Google 图片搜索引擎的界面简单、清晰. 在Google 的首页上点击“图片”链接就进入了Google 的图片搜索界面. 在关键字栏内输入想要搜索图片内容的关键字, 如“世博会中国馆壁纸”就可以搜索到大量与世博会中国馆相关的图片. 此外, 在界面上还提供“高级图片搜索”“使用偏好”“图片搜索帮助”3个辅助链接, 方便使用者根据自己的使用习惯调整和加强检索性能
.
百度图片搜索引擎的界面也十分简单、易用. 在百度的首页上点击“图片”链接就进入了百度的图片搜索界面. 同样在关键字栏内输入图片内容的关键字后就可以搜索到大量相关的图片. 百度提供的图片范围有“新闻图片”“全部图片”“壁纸”“表情”“头像”, 用户可以根据所要图片的大小和用途来缩小检索范围; 同时百度还提供分类浏览目录, 方便用户从类别上进行搜索.
雅虎图片搜索引擎的界面非常简洁. 在雅虎的首页上点击“图片”链接就进入了百度的图片搜索界面. 同样在关键字栏内输入图片内容的关键字后就可以搜索到大量相关的图片. 雅虎为注册用户提供了个人图片存储中心, 可以将查到的图片存入雅虎相册. 雅虎图片搜索使用了图片过滤器, 雅虎会自动过滤掉不符合相关法律法规的图片网页等.
4.2 三大搜索引擎内容比较
Google 的检索结果按相关性由大到小排序输出, 其相关性判断依据的是检索词在网页中的出现词频、位置, 另外一个重要的依据是通过与该网页链接的网页与检索词的匹配程度来判断其相关度大小.
百度采用了词频统计、超链分析和竞价排名相结合的方式对网页进行相关性评价, 能够比较客观地分析网页所包含的信息, 从而在一定程度上保证了检索结果的相关性.
雅虎检索结果的相关性按其相关度计算, 一般的检索工具是通过计算检索词在每个结果中出现次数和出现位置来计算相关度的. 对用户来说, 只要把网页本身优化好, 就能在雅虎中取得很好的排名。
4.3三大搜索引擎的搜索侧重点比较
(1) Google的搜索侧重点
Google把搜索重点放在信息上, 它在不断扩大信息源的同时, 也提供用户想要的信息. 在广告排序上, Google并不是简单地让出价最高的排在最上面, 还要考虑用户点击的因素, 用户点击越多的会越往上排, Google特有的匹配度技术、网页相关度分析技术、PageRank网页评级技术等对收录的网页进行分析评级, 检查整个网络链接结构, 并确定哪些网页重要性最高, 然后进行超文本匹配分析, 以确定哪些网页与正在执行的特定搜索相关.
在综合考虑整体重要性以及与特定查询的相关性之后, 为用户提供更准确的信息, 因此Google在搜索结果上显得更客观, 尤其在搜索技术性文章的时候, 结果更加精准.
(2) 百度的搜索侧重点
百度更侧重于中国网民的搜索习惯, 网站优化服务搜索结果更加大众化. 百度将广告和搜索结果混在一起, 百度搜索结果的公正性正在受到质疑, 很多时候搜索结果完全不具相关性. 百度一向以市场和经济利益为导向, 灵活多变, 取得了发展的先机.
(3) 雅虎的搜索侧重点
雅虎的业务侧重点来看不同于Google和百度, Google注重的是全球搜索服务, 而百度已经明确表示, 百度将继续侧重于立足于中国的中文信息搜索. 马云表示雅虎将专注于搜索, 并且雅虎搜索要做的是做一个中国人自己做的面向全世界范围的中文搜索. 搜索引擎主要的收入来源是竞价排名广告. 雅虎搜索与阿里巴巴的优势电子商务结合, 相互渗透, 很可能作为电子商务中有效的基石.
4.4三大搜索引擎的更新速度比较
(1) Google的更新时间
Google每7天更新一次(排名影响小);大更新时间: 每月更新一次(排名影响大), PR数值3个月更新一次, 因为存在不同服务器更新, 总时间为一周.
(2) 百度的更新时间
据统计, 百度收录内容的大更新时间是每月11号和26号, 小更新时间为每周四. 更新时刻都在凌晨4时. 一般凌晨4时更新, 也有在早上9时以后更新的. 百度更新时间大致为1个月2次.
4
(3) 雅虎的更新时间
雅虎的每天更新时间是早上6:00-7:00. 大概一到两个月左右更新一次, 动静比较大. 雅虎收录:一般时间是1个月左右, 但是如果你的站架构好, 代码符合w3c并且内容原创的话10天内肯定就会被收录, 同google.
4.5三大搜索引擎搜索用户首选比较
4.6三大搜索引擎首选用户结构比较
4.6.1 搜索引擎使用人群文化水平比较
5
(2) 4.6.2 搜索引擎使用人群职业比较
Google适用群体: 外贸企业、小型企业、个人
百度适用群体: 国内生产厂商、贸易商
雅虎使用群体: 垂直销售商家、个人
4.7三大搜索引擎中的特色比较
(1) 提问功能
点击谷歌的“问答”, 会直接进入知名论坛天涯中的“天涯问答”, 利用该论坛庞大的用户量以获得更大的信息量. 雅虎学堂的咨询性丰富, 除了网友的疑问外, 其主页当中还有近期热门的世界趣闻、生活知识、万年历, 甚至包括淘宝网上的销售信息.
(2) 生活资讯
雅虎在这该项功能上做得较为出色, 点击进入雅虎“黄页”, 便会进入雅虎口碑网, 它是一个生活资讯网站, 餐饮美食、优惠打折、电器维修、旅游票务信息一应俱全, 还有网友的评分以及评价以供参考. 谷歌有该项功能, 但信息没有雅虎的全面和精准, 并且查找起来要费一点工夫.
(3) 地图功能
在地图搜索功能方面, 谷歌地图精准、信息丰富. 在使用定位查找功能的过程中, 雅虎地图提供的功能比较单一, 地图显示的信息量也不够谷歌的多. 不过, 雅虎在地点搜索中添加了不少生活资讯, 例如搜索“白云山”, 在雅虎地图上能同时显示白云山风景区的门票、网友评论等内容.
(4) 论坛
谷歌的论坛名为“来吧”, 与“问答”一样, 属于最近新增的功能. 点击“来吧”进入的也是“天涯来吧”论坛, 人气绝对有保证, 只不过是“借他人之力”. 雅虎的论坛功能在其搜索引擎的首页并没有链接显示, 要进入雅虎中国主页后才能找到.
(5) 移动搜索功能
6
谷歌利用其地图功能方面的优势, 针对手机开发谷歌地图, “谷歌搜索引擎+谷歌地图”为手机带来方便的移动搜索功能. 最新版本的手机谷歌地图的功能已不是简单地查询道路、设定车辆行驶路线等等, 当中更具备你所在地附近的生活资讯信息, 对于经常外出旅行或者工作的用户来说, 十分便利. 而雅虎目前尚未有手机移动地图项目.
(6) 翻译功能
日常工作中我们常常会遇到国外站点, 要是英文好咱就啥话甭说, 可如果不好呢? 还是依赖搜索引擎为我们提供的翻译服务吧. 从测试结果来看, 谷歌提供了网页一键翻译功能, 只要检测到搜索结果中存在全英文网站, 便会在标题右侧弹出一个“翻译”按钮. 而且谷歌的这项翻译并不仅限于英文, 包括法语、日语、韩语等其他语种网站同样可以实现快速翻译, 相比百度, Google更胜一筹!
(7) 搜索引擎的优化SEO
搜说引擎在广泛的被人们是通的同时,但其实很多人都不能准确的搜到有效地资料,一方面因为检索的关键词选取,另一方面则是对搜索引擎的优化的未知,百度作为最大的中文搜索引擎有着他的口令,其中以下口令应用较广
1. site指令:
查询某个特定网站收录情况
比如查询seo147论坛收录格式即为:site:
2: link指令:
查询某个网站的外部链接,外部链接是获取排名和权重的重要因素,尤其对于谷歌来说。
除百度外其他主要搜索引擎的查询格式为:link:你的域名(在百度查询本站的格式
为:domain:),yahoo站长工具查询外部链接是最精准的。
3. info指令:
查询指定网站的收录信息,最近的cache,相似网页,站点链接,网站内部链接,包含域名的网页等
格式为:info:你的域名
4. cache指令:
获取上一次搜索引擎收录你的网站的情况,输入站点的某个页面,就能发现蜘蛛最近收录的日期和版本。
比如想知道本站seo入门基础版块cache信息则应该:cache:
5. allinurl: or inurl:指令
检索网页URL(网页地址)标题包含的特定内容。
6. allintitle: or intitle: 指令
获取所有网页标题中包含指定文字的网页。
7. allinanchor: or inanchor: 指令
在链接中包含指定anchor的所有网页。
8 allintext: 指令
显示在文档里涵括这些文字的所有网页。
在seo中,用于发现相关站点和潜在的链接,经常用于查询竞争对手的情况。
9. define: 指令
这个高级功能用得非常的少,不过在seo还是很有它的价值的,相当于一部辞典。
10. related: 指令
查询与某网页特别相关的网页。
7
格式为:related:你的域名
在google中搜徐特定词组你会发现比百度更精确。
5结束语
综上所述: 我们可以看出, 这三大中文搜索引擎各具千秋, 如Google 的检索功能强大、灵活, 尤其是支持多种字段检索以及网页推荐功能, 并可以按用户的习惯设置检索界面; 百度收录的中文信息覆盖面广、数量大, 更新快; 注重服务的本地化; 雅虎作为指南型分类检索工具, 在相对查全率方面具有优势. 我们可以根据各自的生活、工作、学习的需要, 选择一种适合自己的搜索引擎, 但是现有的搜索引擎也不是尽善尽美, 它们也或多或少的存在些问题, 希望它们能互相取长补短、不断丰富、完善, 更好地满足用户个性化的多元检索需求.
课程论文评分表
9。