搜索引擎的现状与分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络搜索引擎的现状及发展研究
级:专业:姓名:
摘要:
搜索引擎的科学研究价值不仅仅体现在其高技术挑战性,而且表现在其对于整个互联网络乃至民生提供的便捷性和信息高速传达方式,对整个社会的高度的经济促进作用。
从2000年开始在国内的缓慢发展,到目前国内百度,谷歌,搜搜,搜狗,有道等搜索引擎林立,搜索引擎的研究还只是刚刚的开始,如何在web信息中寻找最符合用户需求的信息展示出来,这不仅在尺度上是空前巨大,而且规范条件也是非常的不确定。及其的系统往往是很难判别出用户真正需要的是什么信息的,己想要的信息,所以系统得到的输入是
一个笼统的模糊的概念,而这种笼统的不确定性的而目前乃至以后,用户总是希望以最简短的搜索约束范围(即用户输入的关键字)搜索到自约束范围,和海量数据的处理,已经将
搜索引擎研究技术乃至整个科学研究技术带入了一个真正的高度。
1.引言:
1990年以前,没有任何人能搜索互联网。1990年诞生的Archie 是一个可以用文件名自动索引互联网上匿名FTP网站文件的程序,它实现了搜索,但还不是真正的搜索引擎。现代意义上的搜索引擎出现于1994年7月,当时Michael Mauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycosa。1995年末,Altavista永远改变了搜索引擎的定义,AItavista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎。1998年,Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文
档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。现阶段,出现Ask Jeeves, , ,MySimon,Dito等内容类别不同的搜索引擎。从出现第一个搜索引擎至今,搜索引擎技术已获得了飞速的发展,现在的搜索引擎功能越来越强大,提供的服务也越来越全面,它们的目标不仅仅是提供单纯的查询功能,而是把自己发展成为用户首选的Internet入口
站点。
一、搜索引擎的概念简述
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。现在国内外出名的搜索引擎有:百度、搜搜、酷狗、谷歌等等。
目前的搜索引擎主要有以下几个主要特点:
1.多样化和个性化的服务。现在绝大多数搜索引擎都提供多样化的服务,以吸引更多的用户,商业搜索引擎尤其注重这一点。
2.强大的查询功能与最早的搜索引擎相比,现在的搜索引擎在查询功能方面已有了很大的改进。除了简单的AND、OR和NOT逻辑外,不少搜索引擎还支持相似查询。
3.目录和基于Robot的搜索引擎相互结合目录和基于Robot的搜索引擎都具有自己的特点,在当前的技术条件下,最好的选择是将两种技术进行结合,同时为用户提供这两种类型的服务。
二、搜索引擎的工作原理
根据搜索引擎基本结构,其基本工作原理是:数据采集机制按照一定规律和方式对网络上的各种信息资源进行搜索,并将搜索到的页面信息存入到一个临时数据库中;数据分类索引机制对临时数据库中的页面信息进行索引,经过整理形成各种倒排文档,相应地建立起索引数据库;用户查询接口则提供友好的查询界面,接受用户提交的查询任务,并根据要求访问相应的索引数据库,将符合要求的结果按一定规则排序输出。
三、搜索引擎的现状
(一)按照数据采集、分类索引的方法和服务提供方式的不同分类。
1.基于目录的搜索引擎:它的特点是所有分类、索引工作都由人工编辑完成。
2.基于Robot 的搜索引擎:Robot有时也称为蜘蛛(Spider)、漫游者( Wanderer)、爬虫(Crawler) 和蠕虫(Worm),是一种能够利用Web文档内的超链接递归地访问新文档的软件程序。
3.Meta搜索引擎:即元搜索引擎、也叫做Multiple SearchEngine。
(二)按照搜索引擎的检索内容、服务对象的不同分类
1. 综合性搜索引擎:面向所有潜在的用户而设计,数据库容量非常大,收集了各方面、各学科、各行业数以千万、甚至以亿计算的网页内容。
2.专业性搜索引擎:它是为了专门收录某一行业、某一主题和某一领域的信息而建立,这种搜索引擎专注于自己的特长和核心技术,保证了对该领域信息的完全收录与及时更新。
(三)按照检索方式的不同分类
1.全文检索搜索引擎:全文检索搜索引擎索引网站的全部页面,能够对网站的每篇文章的每个词进行搜索。
2.目录式分类搜索引擎:目录式搜索引擎并不索引网站上的全部信息,而是首先把该网站划归某个类目,再记录网站的概述性介绍。
(四)按照搜索引擎检索资源的类型分类
1.万维网搜索引擎:万维网搜索引擎主要检索万维网上的信息资源,一般的搜索引擎都是万维网搜索引擎。
2.非万维网搜索引擎:非万维网搜索引擎主要是对Internet上万维网之外的信息资源进行检索。
四、搜索引擎存在的问题
虽然搜索引擎技术在当今应用如此广泛,但是还是存在着许多局限的问题阻碍其发展的,其主要有:
1.搜索引擎的体验还存在很多的欠缺,用户经常变换搜索引擎。比如说我们的无效链结太多,重复结果太多,还有就是所搜到的内容不能真正解决用户的问题。他说,搜索引擎作
为重要互联网的用户,他的黏性是非常低的,搜索引擎的用户当他们发现找不到相关的信息的时候,大概有将近40%的人会选择换用搜索引擎,这种换用的过程是很频繁发生的,用户的黏性比较低
2.企业用户对搜索引擎的认知率是在不断提高,但不满意程度日益提高。这些满意包括,推广的效果不太稳定,花了钱并没有得到效果,相关的营销服务,比如说我花了钱在一些相关的关键字上,什么关键字能够给我带来相关的流量并不清楚。
3. 渠道的运作问题。很多的企业用户在抱怨,搜索引擎关键字的竞价排名的预算花得很快,往往一两个月就完全花掉,这可能不仅仅是营销服务不完善的问题,也存在渠道的暗箱操作产生不良的后果。
五、搜索引擎未来发展的建议
搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。另外搜索引擎有大量的用户及很好的经济价值,因此引起了世界各国计算机科学和信息产业界的高度关注。
(一)提高信息查询结果的精度、提高检索的有效性
用户在搜索引擎上进行信息查询时,并不希望返回结果过多,而是看结果是否符合自己的需求。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前有以下几种方法:1. 通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型,使用相关度反馈机制,使用户告诉哪些搜索引擎文档和自己的需求相关,哪些不相关,通过多次交互逐步求精。2.用正文分类(TextCategorization)技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。3.进行站点类聚或内容类聚,减少信息的总量。
(二)基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型、用户模型知识进行信息搜集、索引、过滤,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。
(三)采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但当系统规模到达一定程度时,必然要采用某种分布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。
(四)重视交叉语言检索的研究和开发
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。近年来,网络发展迅猛,如何提供对网上信息的高效、智能的检索机制已经成为计算机网络领域内的一个研究热点。
搜索引擎是一个集多种学科技术于一体的综合技术,在搜索引擎的技术上还有许多方面需要