搜索引擎的应用及研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎的应用及研究
internet是一个由不同类型和规模的独立自主运行和管理的计算机网络组成的全球范围的计算机网络,它的前身是1969年美国国防部高级研究计划署组建的实验性网络arpanet,随着计算机网络和通信技术的发展,各个国家和组织的网络的不断加入,internet已成为一个规模巨大、自治性强、发展变化快、用户访问频繁的全球最大的国际互联网络,截至1996年7月,internet已连接了134346个网络,入网的国家和地区超过150个,主机1228万台,用户人数以亿计。
internet又是一个无穷无尽的信息源泉,它已深入到人们生产、生活的各个领域,向人们提供着巨大的并且还在不断增长的信息资源和服务,越来越多的公司、企业通过网页宣传自己,越来越多的科研机关和学校通过网页交流科研成果,越来越多的组织和个人拥有了自己的主页,越来越多的报刊、杂志加入了internet的大家庭,足不出户而知天下事已不再是神话。据不完全统计,1996年internet上的网页数已达到1900万,时至今日,这个数目决不会少于4亿。
为了让用户能够在如此庞大、杂乱、瞬息万变的信息海洋中,方便、快捷地找到自己感兴趣的信息,而不是茫然不知所措,仅靠网页上的超文本链是远远不够的,提供www信息导航服务的搜索引擎(search engine)是解决这个问题的一个途径。传统的spider式搜索引擎通过被称为spider的程序自动地在网上循着超文本链递
归地访问、收集www网页,分析页面的内容,生成索引和摘要,并向用户提供www查询页面,根据用户的查询请求在索引库中查找相关信息在网上的位置,最后将查询结果按照相关度排序后返回,帮助用户尽快地找到所需的信息,给用户带来了极大的便利。这类搜索引擎的代表有infoseek和alta vista基于人工分类的目录式搜索引擎稍后出现,它在人工的参与下建立分类目录,对收集的网页按主题或者学科进行分类,编写摘要,用户可以沿着分类目录的层次结构,进入自己感兴趣的主题,进而找到所需的信息。这类搜索引擎的代表是yahoo和sohoo。
比较这两种搜索引擎,spider式搜索引擎自动地收集、分析和处理网页,因而它索引的网页数多,信息量大,并且能定期重新收集网页,更新索引库的内容,向用户提供最新的导航信息,但由于它只提供基于关键词或全文的检索,用户只有确切地知道自己想查什么,自己感兴趣的网页应当含有哪些关键词时,查询的效果才比较理想,否则,返回的结果很可能和用户的实际需要相距甚远;目录式搜索引擎在对网页的分类和网页内容的理解上引进了人工干预的机制,因而在查询的准确性方面要优于spider式搜索引擎。它支持基于分类目录的查询,当用户对某个领域感兴趣但并不熟悉这个领域的关键词时,这种查询方式能很好地为用户提供服务,而此时spider式搜索引擎则基本上无能为力。由于人工分类和摘要编写的效率低,网页更新困难,目录式搜索引擎在索引的网页的数量上受到了很大的限制,维护管理工作量大,infoseek,alta vista
等spider式搜索引擎索引的网页数早以突破千万,而yahoo则还停留在百万级的水平。
信息量大是spider式搜索引擎的一大优点,但这也常常使得返回的查询结果成千上万,用户经常需要在一大堆不感兴趣的信息中费很大力气才能找到自己感兴趣的网页,有时甚至还会一无所获,无功而返。如果搜索引擎能够对收集的网页按学科或者主题进行分类,用户可以选择只在自己感兴趣的领域内查询,这样就能将许多无关网页排除在返回结果之外,极大地提高查询结果的准确性,方便用户的使用。目前,支持分类目录是spider式搜索引擎发展的趋势,alta vista在查询页面上增加了分类目录,当用户基于分类目录进行查询时,系统实际上是使用目录式搜索引擎人工处理的数据提供服务。除了采用人工的方法对网页分类之外,还可以人工建立分类目录,利用人工智能领域研究的一些技术对网页自动分类。搜索引擎大家庭中的后起之秀northern light采用的就是这种方法,它参照美国国会图书馆图书分类的方法,人工建立基于主题的分类目录,然后通过spider在网上自动地收集网页,采用离线的方式,应用文档自动分类技术对网页自动分类,建立索引,向用户提供导航服务。
所谓文档自动分类就是指定文档和预先定义好的一些类之间的类属关系,分类的工作由计算机自动完成。从分类的准确性来看,文档人工分类要优于自动分类,但这并不说明自动分类就没有存在的价值。首先,自动分类在速度和效率上要大大优于人工分类,它
能节省大量的人力、物力和资金;其次,对于人工分类,如果分类人员的素质不够高,或者面对不熟悉的领域,分类的准确性很难保证,在这个时候,自动分类系统可以作为人工分类的辅助工具,分类人员可以参考自动分类的结果,作出正确的判断,提高分类的准确性。
采用文档自动分类技术,对收集的网页自动分类,实现对分类目录的支持既保持了传统的spider式搜索引擎索引网页多、信息量大的特点,又保证了分类的效率,同时,在文档自动分类领域的研究成果保证了分类的准确性。
1994年,我国正式加入internet,经过几年的迅猛发展,至1998年底已经形成了以cstnet,chinanet,cernet,chinagbn四大网为主干,遍布全国的互联网络,注册域名18396个,直连主机11.7万台,拨号上网的计算机63万台,www站点超过8000个,上网用户210万人,1999年3月,用户人数已突破300万。为了方便日益增多的国内用户,促进internet上尤其是cernet上中文信息的交流,增强全世界华人的凝聚力,cernet在“九五”攻关项目“计算机信息网络及其应用关键技术研究”中设立了“中文编码和分布式中英文信息发现”子专题。