搜索引擎设计的三大要素

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索引擎设计的三大要素:
1、资讯的获取,也就是通过搜索引擎派出去的网络蜘蛛(即WEB Spider)在网海之中有计划地对散存在各处的网页完成对网页内容的抓取,由他决定了那些资讯可进入搜索引擎的数据库中,其主要指标为:抓取的速度、抓取的深度和抓取的广度。

2、资讯的处理:抓来的海量资讯如何排序?按什么原则?用什么方法?如何分类?
3、向搜索引擎用户提供反馈结果,按关键词和排序算法把结果按一定规则形成的优先级在网页上显示用户查询结果,这里也涉及效率问题,即用快速检索算法,用最短的时间让用户看到结果。

衡量一个搜索引擎的好坏主要是搜索精度指标和数据处理的效率,让用户用最短的时间,最便捷的方式获得他所需要的最新的资讯。

在传统的第二代WEB搜索引擎领域里,Google是最先在中国出现第二代搜索引擎,百度,这个第二代搜索引擎的后起之秀,面对着强大的Google,采用了差异化的战略,百度研究发现,当时的中文搜索引擎包括Google在内都普遍地存在着一个重大的技术缺陷,中文的机器自动分词技术严重不足,那怕是已经成为世界搜索引擎霸主的Google在中文搜索领域里也是如此,这一发现不禁让作为后来者的百度喜出望外。

以上为笔者今天在Google上搜索关键词“争食3G手机浏览器奶酪”时,只有第五条结果是正确的,其余四条结果显然与要找的内容毫无关系,这是现在中文分词概念已经引入搜索引擎几年后今天Google的分词技术实例,可想而知当年Google的分词状态有多糟了,像诸如此类的现象,在搜索引擎的搜索结果中比比皆是;是什么原因造成这样的偏差呢?答案是,中文分词技术的不成熟,造成了电脑对目标“理解”上的错误,在错误的“理解”的指导之下,得出错误的结果,自然也就不足为奇了,大量的错误结果,是造成搜索精度不足的重要原因之一,往往在搜索引擎给出的结果中,这类错误的结果占到总结果的50%以上。

搜索引擎的搜索精度,是搜索引擎的命脉,没有那一位用户喜欢从一大堆垃圾资讯中寻找自己想要的结果,这个关键的情况,终于被百度发现并加以利用了,百度于是决定以中文分词技术作为突破口,以高超的中文分词技术为基础,不足部分再以人工修正为辅助,这一方案大大提高了百度搜索在分词上的准确性,使得用户在使用百度进行关键词搜索时,百度搜索引擎所返回的其垃圾资讯大为减少,百度以此为主攻突击方向,向Google发起了全面进攻,果然不出百度之所料,迎合用户的需求,就是成功的基础,百度很快的就突破了Google的防线,在百度的中文分词突击集群的攻势面前,Google则是束手无策、溃不成军,结果,在中文搜索领域里,百度凭着其优良的中文分词效果一举击败了不可一世的Google,百度并趁势扩大战果,以MP3搜索等辅助垂直搜索为领域,建立起了自己的一个防御体系并乘胜追击以扩大战果,中国互联网络信息中心(CN NIC)公布的北京地区《2005年中国搜索引擎市场调查报告》,报告显示在北京的搜索引擎用户中,百度在学生市场中称雄、总体占有率为51.5%;Google在高端商务人群中占优、总体份额为32.9%,百度对Google的优势达到了2 :1,打得不可一世的Google中国是满地找牙。

内事不决问百度,外事不决问Google。

对于作为世界搜索引擎霸主的Google,也决非浪得虚名之辈,Google除了中文分词技术方面技不如人之外,其对网页的抓取技术、数据的处理技术的确是天下独步。

由于这些优势,Google无论在资讯的质和量上,都要远远超过百度,很多在百度上找不到的资讯,在Google处就能找到,造成这种状况主要有两个原因,一个是网络蜘蛛抓取的能力和效率以及后方数据库处理的速度,这里涉及了搜索结果的实时性,笔者近日连续几天对百度和Google的实时性进行测试,一般来说,对于蜘蛛每天都去查阅更新的大网站,如IT专家网,他所发布的网页在半小时之内从Google处就能搜索到(以完成匹配的关键词对网页标题进行搜索),而在百度,以同样的条件进行搜索对大约要4小时候才能搜索到,除此之外,还实测了赛迪网和CSDN,结果几乎相同;另一个就是深度和广度的问题,很多能在Google找到的搜索结果在百度上根本找不到,其原因是百度的网络蜘蛛的能力明显不如Google,从而造成所要检索的目标根本没有作为百度蜘蛛抓取的结果进入百度的数据库,所以,一般从事技术性工作的人士大都喜欢使用Google而不用百度,就是这个原因。

搜索引擎是网络时代应用最广,作用最大的应用软件之一,是资讯来源的主要通道,搜索引擎是网络的主要交汇点,网站的网页所包含的资讯和服务是构成网络海洋的水滴,一滴滴不计其数的水滴由搜索引擎这个主要交汇点、通过浏览器这个管道汇聚成为网络的海洋。

随着网络应用的比重的不断高速增长,浏览器的应用大有起出桌面应用之势,微软首席软件设计师Ray Ozzie周二给其员工一份备忘录中表示,该公司正在接受一种新的认知。

“在过去10年中,PC时代已
经让位给另一个时代,WEB时代。

不仅可以通过浏览器获得WEB体验,通过其他不同的设备也可以获得WEB体验,例如电脑、电话、媒体播放器、游戏机、机顶盒和电视、汽车等等。

”在备忘录中,Ozzie描述了三项原则,以指引该公司进入这个新的时代。

其中的主要概念是,“WEB是我们的社会网格和设备网络的枢纽”。

随着3G手机网络时代的到来,手机网络时代让手机搜索成为了搜索领域的重心,Google预言3年后手机搜索将超计算机搜索,由于与中国移动结成了联盟,到2011年,它处理的来自中国手机用户的搜索请求将超过计算机用户,Google中国区总裁李开复在接受彭博电视(Bloomberg Television)采访时表示,在一些季度中,我们的手机搜索次数会翻一番,而PC搜索次数翻一番通常需要一年时间。

他说:在未来3年后,手机搜索将超过计算机搜索,在获得中国移动客户搜索请求的独家处理权后,Google在中国手机搜索市场上跑在了百度前面。

Google通过计算机搜索获得的收入不到百度的一半儿。

事实上,Google近日宣布将着重手机搜索市场的布局,而其为Nokia、BlackBerry和Windows Mobile 手机设计的专用搜索功能,号称可让手机搜索速度加快40%,Google也宣称,新软件已增加20%的手机上网比率。

而百度对Google的回答是:百度将开发手机搜索应用,以迎击Google的手机计划,据报道,百度将同多家中国主要电信运营商合作,共同为即将在中国推出的3G服务开发手机搜索应用,以此迎击Google的手机计划。

用户可以通过百度WAP门户()访问一系列服务,包括网络搜索、新闻、手机博客、地图、图片、字典、以及股票信息等等。

在中国互联网搜索市场,百度已经占据了绝对的领先优势,遥遥领先于Google。

百度在中国手机搜索领域,得益于两年半之前通过WAP系统推出的数据服务,百度同样是市场领先者,虽然在Google 与中国移动客户搜索形成的强制性使用Google后数量上落后,但在模式和内容的多样性上百度还是居于领先地位。

用户可以通过百度WAP门户()访问一系列服务,包括网络搜索、新闻、手机博客、地图、图片、字典、以及股票信息等等。

由此可见,WAP门户在百度3G计划中占据了十分重要的位置。

至此,百度VS Google 的手机搜索前哨战已经打响,可以说是互有胜负,各有所得,未来战局将如何发展呢?
我们先来分析百度,作为位于第一中文搜索引擎,百度的战略方向的重点,移向了多元化发展,百度现在可以说是同时四处出击,全面开花,与实时通霸主腾讯QQ争霸于实时通讯之巅,事实上百度是在攻击微软曾经努力攻击,却无可奈何地败退下来的牢固无比的QQ堡垒;与C2C老大淘宝网逐鹿C2C于中原之上,试图把已经与阿里巴巴形成倚角之势并且把实力雄厚的易趣网三振出局的淘宝网斩于马下;与各门户网站决雌于网海之间,以一种事实上涉嫌侵权的方式把搜索结果当成内容来提供给读者,剑尖所指,居然是整体所有的内容提供网站,一但打起官司来只怕百度是后患无穷,而这些所作所为,为的只是倾力把打造百度打造成为世界最大的IT百货大楼,各个战略目标之间既没有内在的关联也没有形成一条战线的可能性,胜了,不过是多占了点地盘,而对这些无法整合的地盘的管理,本来就是一件今人头痛的事情,败了,其结果可想而知,百度的这些行径很明显犯了兵家的大忌,并且从目前各个战役的力量对比来说,百度在这些战场上取胜的机会显然极为眇茫,从另一个角度来说,百度的所作所为不难得出结论:百度的重点还是放在电脑网络领域之上,而对于手机搜索领域,在概念上仍然抱着WAP观点没有转变,并没有意识到手机网络将是WEB网络的时代,也没能
意识到手机搜索领域是整个搜索领域的生命线,至此,百步在手机搜索领域仅有的优势就是残存不多的中文分词技术的领先程度、先走一步的时间差优势,更为要命的是,百度对此似乎是毫不在意,在正大摇大摆的没事找事,到处惹事生非,四处乱打无把握之战。

Google,这个WEB的巨无霸,明显意识到了电脑网络时代向手机网络时代转向的趋势,这两年来几乎是全力布局手机网络,从李复开的话语间不难看出,对于手机网络向WEB转向的理解明显优于百度,李开复:我们的整合搜索就是这样的目的,整合搜索的概念就是将各种不同的信息的来源无论是图片还是地图、餐馆的信息还是网页进行很好的排序,当您喜欢看一个图片的时候,例如搜索“鸟巢”的时候,图片在前面,周杰伦的时候,歌曲在前面,搜长江七号的时候影评信息排在前面。

移动搜索和整合搜索都是可以搜索整个互联网的,并不是局限于一部分的,他们的排序会根据用户的习惯不同,所以也许,在移动搜索中,地图或者是找寻商店、餐馆是移动用户有兴趣的,他们会被自动的排在前面,今天移动搜索的内容和使用率不是最高,有的排序做的不是很完美的,用户继续使用,我们的排序越做越好的前提之下,我们相信移动搜索和PC搜索有同样广大的潜在的结果,会根据你个人或者是地理位置或过去的习惯做更加合理的排序,长期来说,移动搜索有更大精确排序的空间,因为移动搜索知道你的地理位置也知道过去的习惯存在手机上,当未来有一天可以利用这些信息的时候,可以针对性的将很好的准确的结果推荐给你,例如在广州的某一条街上搜索午餐,就会将附近的餐厅进行排序,例如知道你喜欢吃粤菜还是四川菜,就会长期的将你喜欢吃的菜排在前面。

请注意这一段话“移动搜索和整合搜索都是可以搜索整个互联网的,并不是局限于一部分的,”这就是Google手机搜索的WEB观,可以说,在对于手机搜索引擎这个概念的理解,Google远远领先于百度。

在机搜索这个战场之上,百度现在只有一个支撑点,Google却是由点和线构筑成面,不仅仅是形成一两条战线,并且已经发展到了立体结构,在手机网络领域里武装到了牙齿的Google帝国将凭借着其四大基础武器――新型的开放性手机操作系统――Android手机软件平台、从未露面的Google手机浏览器、作为看家本领的Google手机搜索引擎和不知效果如何的Google手机拼音输入法,外加一把令人生畏的飞刀――免费的Google手机,Google在手机网络领域里的竞争中优势凛然,作为飞刀的免费Google手机以其无比的打击能力,对地面各战区提供实时的空中支援。

双方对比分析:
对于网络发展趋势的理解――电脑网络时代将向手机网络时代过渡,对这个问题的理解Google大大地领先于百度。

对于手机网络发展趋势的理解――WAP网络时代将向WEB手机网络时代过渡,WAP网络只是过渡期的一个过渡产品;对这个问题的理解Google同样大大地领先于百度。

对于手机搜索引擎的理解,Google大大地领先于百度。

在手机搜索引擎之战的战争准备上,Google已经完成了他对整个3G时代的布局,而百度则尚沉醉于电脑网络时代的优势之上睡大觉,所以,Google远比百度充分。

在技术上,互有优势,Google为总体水平领先较多,百度为中文分词技术微强(两者之间在中文分词技术上的差距明显比几年前要小得多)。

在市场上,双方各有优势,百度介入得较早(用户对百度的认可程度较高),Google通过与电信的结盟在用户数量上后来居上(但这是强制性的用户,不能说明用户对Google手机搜索引擎的认可程度)。

在继承性上,原来电脑搜索引擎的领域里,百度的用户远远多于Google,所以,百度在这方面以大比分胜出。

在结构上,Google形成了以四大武器相辅相成的立体结构加上绝对的制空权,这是百度无法与之相提并论的。

在重视程度上,Google是志在必得,百度则是高枕无忧、四处沾花惹草,不务正业,手忙脚乱。

综合上述现象进行分析,有理由认为:百度与Google在将要进行的手机搜索引擎大战中,百度将会是凶多吉少。

相关文档
最新文档