搜索引擎去重算法的研究与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎去重算法的研究与实现
一.什么是无效信息
搜索引擎作为一项网络应用,已经成为人们查询信息的重要工具之一,它可以使人们从Intemet大量纷杂的信息中,找到与主题相关的信息,为人们查询信息提供了方便。但是由于中文自身的特点,目前的搜索引擎存在着很多的问题,它只解决了信息查询的问题,而从信息资源覆盖面、检索精度、信息的输出方式等许多方面来看,检索结果的查全率和查准率不是很高,将Web挖掘技术应用到搜索引擎领域,将会给用户提供一个高效、准确的Web检索工具。目前,Web用户主要是使用搜索引擎在互联网上检索信息,但目前的搜索引擎往往返回给用户成千上万个检索到的页面,且其中很大一部分是重复的或与用户检索要求不相关的内容。这些内容被认为是无效信息。
二.搜索引擎的分类
结合互联网信息的特点,搜索引擎形成了三个不同的类型:
1、全文检索搜索引擎:全文搜索引擎是名副其实的搜索引擎,国外具代表
性的有Google(http://www.google.com)、yahoo(http://search.yahoo.tom)、AllTheWeb(http://www.alltheweb.tom)等,国内著名的有百度(http://www.Baidu.com)、中搜(http://www.zhongsou.com)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。
2、目录搜索引擎:目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而己。用户完全可以不用进行关键分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有yahoo(http://www.yahoo.com)Open Directory Project(DMOZ)(http://www.dmoz.tom/)、LookSmart(http://www.100ksmart.com)等。国内的搜狐(http://www.sohu.com)、新浪(http://www.sina.com)、网易(http://www.163.com)搜索也都具有这一类功能。
3、元搜索引擎:元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有Dogpile(http://www.dogpile.corn)、Vivisimo(http://www.vivisimo.com)等,国内元搜索引擎中具代表性的有搜星搜索引擎(http://www.soseen.corn/),优客搜索(http://www.yok.com)。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
4、其他的像新浪(http://search.sina.corn.cn)、网易(http://search.163.com)、A9(http://www.A9.com)等搜索引擎都是调用其它全文检索搜索引擎,或者在其搜索结果的基础上做了二次开发。
三.搜索引擎的缺陷
据MORI民意调查,只有18%的用户表示总能在网上查到需要的信息,68%的用户对搜索引擎很失望,28%的用户表示还可以,4%的用户不知道。总之,搜索引擎在准、全、新、快等方面还存在着严重的缺陷和问题,需要加以完善。
目前搜索引擎存在的缺陷或者说问题,可以归纳为以下几个方面:
1、从信息的完备性来看
目前搜索引擎的数据库规模和覆盖面是极其有限的。美国科学期]:lJNature 的一篇报告中指出,最大的搜索引擎也只能覆盖现在网页资源的16%,美国NEC 研究所的SreveLawrence和C1LeeCiles两位博士研究表明,现在的搜索引擎漏掉大约84%的网页信息。在这一方面存在的主要问题是:①搜索引擎之间缺乏协作和联合。各个搜索引擎都有自己一套的分类体系、标引方法、索引方法、数据库结构和检索界面,缺乏统一的规范性的控制,因此,各搜索引擎之间的数据资源的兼容性和互操作性差,缺乏资源共享的基础。同时又由于各搜索引擎之间没有分工合作,因此,各搜索引擎的数据资源交叉重复现象严重。②缺乏大型、集成、综合性的元搜索引擎,而垂直搜索引擎发展不快,许多专业性的搜索引擎对搜索目标、服务对象、主题范围及类型等定位模糊。③许多有实力的大型的搜索引擎(女IGoogle和百度等)仍在盲目追求数据库规模,提供的信息服务都很大众化,缺乏深度以及个性化,查准率不高。④忽视对tEWeb信息资源的收集。2、从查全率和查准率来看
据权威机构统计,因特网上约有100多亿个网页,而世界上目前搜索量最大
的Google也只能搜索33亿网页,就是说再大的搜索引擎也不可能使查全率达到100%。而且据excite统计,只有不到1%的用户会看200条以后的结果,几乎100%的用户不会查看超过1000条的结果[71。就是说对于大多数用户来说,查全率是次要的,而查准率则更具有意义。在这一方面存在的主要问题是:①对于多数检索课题而言,不是输出的检索结果过载,记录数量达到成千上万条,给用户的相关性判断带来困难:就是零输出或输出量太少,造成过分的漏检。②由于网站或网页的标引类型、标引深度、索引方法等的不规范,多数搜索引擎又不支持概念检索,因而直接影响检索词的选择、匹配和检索结果的输出格式,从而影响了查准率。③由于目前各种搜索引擎是按即定的相关度对检索结果进行排序的,而各种检索引擎对相关度参数的选择、计量和算法又各异,这就难免不与用户的检索目标相冲突,因而会人为地影响到查全率和查准率。④在检索功能方面的主要缺陷是关键词检索和主题分类检索不能有机的结合起来,多数搜索引擎不提供概念检索(即主题检索),对自然语言理解力差,而检索式的构造难度大,更难提供多媒体检索。总之,这一切都影响着搜索引擎的检索效率和效果。
3、从信息的输出方式来看
据专家测评,目前主要的搜索引擎返回的相关结果其比率不足45%。据估计,当键入1个关键词后,在百度搜索的结果中总会有70%"-'80%的无用信息,有时是100%的无用【引。在这一方面存在的主要问题是:①关键词检索输出的结果相关度排序方式单一,不能根据用户需要来选择信息输出的排序方法。②主题分类检索输出的往往只是网站,而不能快速准确地提供网页信息。用户登录到相关网站后又往往找不到所需要的信息无功而返。③不论是关键词检索,还是主题分类检索,信息输出的结果显示格式简单,不能向用户提供相关的更好的途径和信息。④数据更新速度慢,更新周期长,对于网上已不存在的网页不能及时删除,因而出现死链较多,而且也不加以说明,浪费用户的宝贵时间。⑤网站、网页经常处于动态的变化之中,新的页面不断涌现,旧的页面不断消亡,如果不及时维护,那么索引库中就会存留着许多无用的信息,就会导致成千上万条没有经过筛选与排序的记录被输出。
4、从界面的友好性来看