搜索技术在人工智能领域的实际应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索技术在人工智能领域的实际应用

摘要:介绍了搜索引擎的分类、工作原理,并具体分析了搜索引擎的体系结构,包括信息的搜集系统、索引系统以及查询接口。基于现在人工智能技术的迅速发展,对于在搜索引擎中运用的人工智能技术进行了研究,且着重分析了搜索引擎重要模块: Robot的智能化、智能代理技术以及查询接口的智能化,有力地描述了搜索引擎发展的智能化方向与方法,对智能型搜索引擎所面临的挑战以及未来发展进行了展望。

关键字:人工智能;搜索技术;应用;

The practical application of search technology in artificial intelligence field

Liao Yongqi

(institution of Mechanical Engineering and shanghai institution of technology and shanghai)Abstracts:The classification and operating principles of the search engine are introduced in this paper,and its systematic structure is analyzed concretely, including the systems of collection and index andthe input of inquiries. The application ofArtificial Intelligence(AI) technology to search engine isstudied, especially the intelligentization of the importantmodules of the search engine such asRobot,agents, and the input of inquires, and the direction and means of the intelligentization are described.The future development of the intelligent search engine and the challenges are also discussed.

Key Words:Artificial intelligence; search technology; application;

0 引言

随着Internet的发展,网络已经是信息发布和传输的重要方式,Web已经发展成为拥有几亿页面的分布式信息空间,而且仍以每120~240d翻一倍的速度增加。虽然Internet上蕴藏着巨大的信息资源,但是要从这个信息海洋中准确快速地找到并获得自己所需的信息,往往比较困难。为了解决这个问题,人们开发了各种检索工具,以期望能提供这种信息服务。随着各种技术的日渐成熟,网络搜索引擎开始迅速发展起来。网络搜索引擎是以一定的策略在互联网中搜集和发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的作用。

1搜索引擎技术

1. 1搜索引擎的分类

1. 1. 1目录式搜索引擎

目录式搜索引擎的特点是以人工方式或半自动方式搜集信息,编辑人员在访问了某个Web站点后形成信息摘要,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的

URL和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。目录式搜索引擎的优点是信息准确、导航质量高。以Yahoo为主要代表。这类搜索引擎的缺点也是显而易见的,由于人工的介入,使得费用增加,而且维护量大、信息量少、信息更新不及时。

1. 1. 2基于Robot的搜索引擎

这类搜索引擎的特点是由一个称为Robot(也叫做Spider、Web Crawler或Web Wanderer)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引系统为搜集到的信息建立索引,由查询接口根据用户的查询输入检索索引库,并将查询结果返回给用户。它的一个重要特征是,搜索引擎要定期访问大多数以前搜集的网页,刷新索引,以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结果中。基于Robot的搜索引擎的优点是信息量大、更新及时、毋需人工干预。现在的许多搜索引擎都属于此类,例如Google, AltaVista等。它的缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。

1. 1. 3Meta搜索引擎

Meta搜索引擎也叫做元搜索引擎(Multiple Search Engine),它的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,并把搜索引擎返回的结果进行重复排除、重新排序等处理后再返回给用户。在目前所存在的搜索引擎中,没有一个搜索引擎能够覆盖所有的WWW资源,大部分的搜索引擎都只能涉及到整个资源的一小部分,并且各类搜索引擎的信息来源差异较大,因此集成多个搜索引擎而产生的Meta搜索引擎具有比传统引擎覆盖面大,搜索效果更好且具有可扩展性等优点。它的缺点是有一定的局限性,不能够充分使用所使用搜索引擎的功能。

1. 2搜索引擎的工作原理与主要技术

搜索引擎的工作原理是:由一个Robot尽可能多地收集WWW上的网页,按照每个网页的文本内容建立单词到网页的反向索引,用户在查询感兴趣的主题时,输入该主题的关键字作为查询条件,搜索引擎利用事先建立好的网页库和单词索引,检索出符合条件的网页返回给用户。搜索引擎一般由3个部分组成,如图1所示。

图1搜索引擎组成示意图

1. 2. 1信息搜集系统

信息搜集系统是通过Robot来自动完成的, Robot在Internet中漫游,尽可能多、尽可能快地搜集各种类型的新信息。由于Internet上的信息量十分巨大,而且更新很快,因此,为了保证搜索引擎上的信息的完整性和时效性,就要求Robot具有理想的搜索策略和很高的搜索效率。目前主要有2种搜集信息的策略:

(1)从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优先或发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些非常流行、包含很多链接的站点(如Yahoo! )。

(2)将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。

1. 2. 2索引系统

Robot搜集信息后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。一个搜索引擎的有效性在很大程度上取决于索引的质量。

1. 2. 3查询接口

当用户提出查询要求时,搜索引擎根据用户的查询在索引数据库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。查询接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。

2人工智能技术的应用研究

Internet迅速的发展,使得网上的信息呈现指数级增长, Internet的问题已经从“提供信息”

相关文档
最新文档