搜索引擎设计的三大要素
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎设计的三大要素:
1、资讯的获取,也就是通过搜索引擎派出去的网络蜘蛛(即WEB Spider)在网海之中有计划地对散存在各处的网页完成对网页内容的抓取,由他决定了那些资讯可进入搜索引擎的数据库中,其主要指标为:抓取的速度、抓取的深度和抓取的广度。
2、资讯的处理:抓来的海量资讯如何排序?按什么原则?用什么方法?如何分类?
3、向搜索引擎用户提供反馈结果,按关键词和排序算法把结果按一定规则形成的优先级在网页上显示用户查询结果,这里也涉及效率问题,即用快速检索算法,用最短的时间让用户看到结果。衡量一个搜索引擎的好坏主要是搜索精度指标和数据处理的效率,让用户用最短的时间,最便捷的方式获得他所需要的最新的资讯。
在传统的第二代WEB搜索引擎领域里,Google是最先在中国出现第二代搜索引擎,百度,这个第二代搜索引擎的后起之秀,面对着强大的Google,采用了差异化的战略,百度研究发现,当时的中文搜索引擎包括Google在内都普遍地存在着一个重大的技术缺陷,中文的机器自动分词技术严重不足,那怕是已经成为世界搜索引擎霸主的Google在中文搜索领域里也是如此,这一发现不禁让作为后来者的百度喜出望外。
以上为笔者今天在Google上搜索关键词“争食3G手机浏览器奶酪”时,只有第五条结果是正确的,其余四条结果显然与要找的内容毫无关系,这是现在中文分词概念已经引入搜索引擎几年后今天Google的分词技术实例,可想而知当年Google的分词状态有多糟了,像诸如此类的现象,在搜索引擎的搜索结果中比比皆是;是什么原因造成这样的偏差呢?答案是,中文分词技术的不成熟,造成了电脑对目标“理解”上的错误,在错误的“理解”的指导之下,得出错误的结果,自然也就不足为奇了,大量的错误结果,是造成搜索精度不足的重要原因之一,往往在搜索引擎给出的结果中,这类错误的结果占到总结果的50%以上。
搜索引擎的搜索精度,是搜索引擎的命脉,没有那一位用户喜欢从一大堆垃圾资讯中寻找自己想要的结果,这个关键的情况,终于被百度发现并加以利用了,百度于是决定以中文分词技术作为突破口,以高超的中文分词技术为基础,不足部分再以人工修正为辅助,这一方案大大提高了百度搜索在分词上的准确性,使得用户在使用百度进行关键词搜索时,百度搜索引擎所返回的其垃圾资讯大为减少,百度以此为主攻突击方向,向Google发起了全面进攻,果然不出百度之所料,迎合用户的需求,就是成功的基础,百度很快的就突破了Google的防线,在百度的中文分词突击集群的攻势面前,Google则是束手无策、溃不成军,结果,在中文搜索领域里,百度凭着其优良的中文分词效果一举击败了不可一世的Google,百度并趁势扩大战果,以MP3搜索等辅助垂直搜索为领域,建立起了自己的一个防御体系并乘胜追击以扩大战果,中国互联网络信息中心(CN NIC)公布的北京地区《2005年中国搜索引擎市场调查报告》,报告显示在北京的搜索引擎用户中,百度在学生市场中称雄、总体占有率为51.5%;Google在高端商务人群中占优、总体份额为32.9%,百度对Google的优势达到了2 :1,打得不可一世的Google中国是满地找牙。
内事不决问百度,外事不决问Google。对于作为世界搜索引擎霸主的Google,也决非浪得虚名之辈,Google除了中文分词技术方面技不如人之外,其对网页的抓取技术、数据的处理技术的确是天下独步。
由于这些优势,Google无论在资讯的质和量上,都要远远超过百度,很多在百度上找不到的资讯,在Google处就能找到,造成这种状况主要有两个原因,一个是网络蜘蛛抓取的能力和效率以及后方数据库处理的速度,这里涉及了搜索结果的实时性,笔者近日连续几天对百度和Google的实时性进行测试,一般来说,对于蜘蛛每天都去查阅更新的大网站,如IT专家网,他所发布的网页在半小时之内从Google处就能搜索到(以完成匹配的关键词对网页标题进行搜索),而在百度,以同样的条件进行搜索对大约要4小时候才能搜索到,除此之外,还实测了赛迪网和CSDN,结果几乎相同;另一个就是深度和广度的问题,很多能在Google找到的搜索结果在百度上根本找不到,其原因是百度的网络蜘蛛的能力明显不如Google,从而造成所要检索的目标根本没有作为百度蜘蛛抓取的结果进入百度的数据库,所以,一般从事技术性工作的人士大都喜欢使用Google而不用百度,就是这个原因。
搜索引擎是网络时代应用最广,作用最大的应用软件之一,是资讯来源的主要通道,搜索引擎是网络的主要交汇点,网站的网页所包含的资讯和服务是构成网络海洋的水滴,一滴滴不计其数的水滴由搜索引擎这个主要交汇点、通过浏览器这个管道汇聚成为网络的海洋。随着网络应用的比重的不断高速增长,浏览器的应用大有起出桌面应用之势,微软首席软件设计师Ray Ozzie周二给其员工一份备忘录中表示,该公司正在接受一种新的认知。“在过去10年中,PC时代已
经让位给另一个时代,WEB时代。不仅可以通过浏览器获得WEB体验,通过其他不同的设备也可以获得WEB体验,例如电脑、电话、媒体播放器、游戏机、机顶盒和电视、汽车等等。”在备忘录中,Ozzie描述了三项原则,以指引该公司进入这个新的时代。其中的主要概念是,“WEB是我们的社会网格和设备网络的枢纽”。
随着3G手机网络时代的到来,手机网络时代让手机搜索成为了搜索领域的重心,Google预言3年后手机搜索将超计算机搜索,由于与中国移动结成了联盟,到2011年,它处理的来自中国手机用户的搜索请求将超过计算机用户,Google中国区总裁李开复在接受彭博电视(Bloomberg Television)采访时表示,在一些季度中,我们的手机搜索次数会翻一番,而PC搜索次数翻一番通常需要一年时间。他说:在未来3年后,手机搜索将超过计算机搜索,在获得中国移动客户搜索请求的独家处理权后,Google在中国手机搜索市场上跑在了百度前面。Google通过计算机搜索获得的收入不到百度的一半儿。事实上,Google近日宣布将着重手机搜索市场的布局,而其为Nokia、BlackBerry和Windows Mobile 手机设计的专用搜索功能,号称可让手机搜索速度加快40%,Google也宣称,新软件已增加20%的手机上网比率。
而百度对Google的回答是:百度将开发手机搜索应用,以迎击Google的手机计划,据报道,百度将同多家中国主要电信运营商合作,共同为即将在中国推出的3G服务开发手机搜索应用,以此迎击Google的手机计划。用户可以通过百度WAP门户()访问一系列服务,包括网络搜索、新闻、手机博客、地图、图片、字典、以及股票信息等等。在中国互联网搜索市场,百度已经占据了绝对的领先优势,遥遥领先于Google。百度在中国手机搜索领域,得益于两年半之前通过WAP系统推出的数据服务,百度同样是市场领先者,虽然在Google 与中国移动客户搜索形成的强制性使用Google后数量上落后,但在模式和内容的多样性上百度还是居于领先地位。用户可以通过百度WAP门户()访问一系列服务,包括网络搜索、新闻、手机博客、地图、图片、字典、以及股票信息等等。由此可见,WAP门户在百度3G计划中占据了十分重要的位置。
至此,百度VS Google 的手机搜索前哨战已经打响,可以说是互有胜负,各有所得,未来战局将如何发展呢?
我们先来分析百度,作为位于第一中文搜索引擎,百度的战略方向的重点,移向了多元化发展,百度现在可以说是同时四处出击,全面开花,与实时通霸主腾讯QQ争霸于实时通讯之巅,事实上百度是在攻击微软曾经努力攻击,却无可奈何地败退下来的牢固无比的QQ堡垒;与C2C老大淘宝网逐鹿C2C于中原之上,试图把已经与阿里巴巴形成倚角之势并且把实力雄厚的易趣网三振出局的淘宝网斩于马下;与各门户网站决雌于网海之间,以一种事实上涉嫌侵权的方式把搜索结果当成内容来提供给读者,剑尖所指,居然是整体所有的内容提供网站,一但打起官司来只怕百度是后患无穷,而这些所作所为,为的只是倾力把打造百度打造成为世界最大的IT百货大楼,各个战略目标之间既没有内在的关联也没有形成一条战线的可能性,胜了,不过是多占了点地盘,而对这些无法整合的地盘的管理,本来就是一件今人头痛的事情,败了,其结果可想而知,百度的这些行径很明显犯了兵家的大忌,并且从目前各个战役的力量对比来说,百度在这些战场上取胜的机会显然极为眇茫,从另一个角度来说,百度的所作所为不难得出结论:百度的重点还是放在电脑网络领域之上,而对于手机搜索领域,在概念上仍然抱着WAP观点没有转变,并没有意识到手机网络将是WEB网络的时代,也没能