第三代搜索引擎:智能搜索引擎

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三代搜索引擎:智能搜索引擎
作者:迷宗腿提交日期:2005-8-10 10:29:00
最近一直在看有关这方面的文章,在这里介绍一下,并提出自己的几个疑问,请路过的高手给与指点,不胜感激!
现在已经步入信息高速时代,可是要获取自己想要的资源,通过传统的搜索引擎已经很难办到,如何快速提供具有个性化的信息,已经成为下一代搜索引擎研究的焦点,在这里我们把人工智能中Agent(代理)的概念与搜索引擎结合来提供具有个性化信息。

1、引言:现有传统搜索引擎的不足:(1)单一的搜索引擎不能覆盖整个Internet资源(2)搜索引擎没有进行综合处理,用户只能从大量的反馈信息中提取自己的所需信息(3)现有的搜索引擎使用不同的索引技术、信息和关键字查询语法技术,使得他们各自搜索的信息资源在很大程度有相当大的差异,同时给用户查询带来很大的不便。

(4)现在搜索引擎不能针对用户满足用户个性化的要求。

问题的分析及相应的解决方法:上述问题的产生主要是由于传统搜索引擎本身发展的局限性而带来的,它的局限性限制了资源的更有效的获取。

针对以上问题,可以了解到要从internet上获取有价值的个性化的信息,提出了一个基于Agent的元搜索引擎。

所谓元搜索引擎(集成搜索引擎)是将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息转换为多个成员搜索引擎所能识别的格式,然后按照成员搜索引擎的调度算法,把规范的查询分送到成员搜索引擎,由这些搜索引擎完成实际的信息检索操作,最后元搜索引擎再以一定的格式返回给用户。

对于元搜索引擎来说,不象传统的搜索引擎那样有独立的网源采集标引机制和相应的数据库,有局部数据模式和自己的检索指令。

元搜索引擎没有自己独立的数据库和索引机制,而是在其它搜索引擎的大型数据库上实现其检索;它提供给用户一个全局外部模式,接受用户的输入请求;在存储设备上比传统的搜索引擎要小得多。

况且,
元搜索引擎可支持多个成员搜索引擎的检索语法,方便了用户的使用,同时,信息的查全率和查准率都将大大提高。

再者,由于该模型基于Agent技术,可以利用Agent的自治性和Agent之间的协作来完成元搜索引擎上用户的兴趣学习、信息搜索、结果处理等工作。

因此,面对现有传统搜索引擎的不足,解决的方案就是采用基于Agent技术的元搜索引擎技术。

2、相关技术介绍:
1、 Agent技术介绍
Agent是一个应用范围极广的术语,一般被用来指具有感知能力、问题求解能力及与外界进行通讯能力的一个实体。

它的定义如下:Agent 是一定环境下的计算机系统,它能够对所在的环境进行灵活的自治动作,以满足其设计的目标,。

一般说来Agent 的基本必备特性,如下:
自治(主)性:Agent能自行控制其状态和行为,能在没有人或其他程序介入时操作和运行。

通信能力:Agent能用某种通信语言与其它实体交换信息和互补利用。

感知能力和反应能力:Agent可以感知环境并及时地做出反应,他们的行为通常触发规则或执行与定义的计划;更新Agent 事实库,并发送消息给环境中的其他 Agent。

能(主)动性:Agent主动表现出目标驱动的行为,能自行选择合适时机采取适宜动作。

持续性:Agent是持续或连续运行的过程,其状态在运行过
程中应保持一致。

模型采用 Agent技术的原因:
(1) Agent技术实现帮助用户查找资源的导航作用。

(2)利用Agent技术实现决策支持,即对用户的个性化搜索、成员搜索引擎的调度给于支持。

(3)利用Agent技术实现信息过滤,即按照用户的指定的条件,
从流向用户的大量信息中筛选出符合条件的信息提交给用户。

(4)利用Agent技术实现信息的动态更新,搜索引擎本身的信息索引库在不断更新,利用Agent技术可维护元搜索引擎的信息库不断的动态更新。

2、搜索引擎调度技术介绍
元搜索引擎下的每个成员搜索引擎都有自己的由一系列文档所组成的文本数据库,成员搜索引擎调度技术就是为每个查询提供最可能包含有用文档的成员搜索引擎,这对元搜索引擎的执行效率是至关重要的。

现有的搜索引擎调度技术有:
朴素算法:这个方法没有衡量成员搜索引擎的有用性,用户查询请求被简单的送到每个成员搜索引擎上,当成员搜索引擎较少时这种方法比较有效,但当成员搜索引擎数量较大时,将查询送到每个成员搜索引擎的策略就不合理了,因为大多数的成员搜索引擎对查询毫无用处。

定性的方法:根据一定的评分函数对给定的查询预测每个成员搜索引擎的质量,起评分或质量衡量往往不易理解。

基于学习的方法:根据以往检索成员搜索引擎的经验来预测个引擎对信查询的有用性。

需要较长的时间才能收集到成员搜索引擎选择程序有用的信息;反馈过程不严格,很可能导致对于有用成员搜索引擎的错误判断。

定量的方法:根据一些比定性方法使用的衡量标准更容易理解的标准来衡量成员搜索引擎的有用性。

定量方法使用根据给定查询计算出的数据的有用性,相对定性方法而言更加直接和明晰。

3、搜索引擎反馈结果合并技术:结果合并技术划分为两类:(1)通过局部相似度的调整:根据成员搜索引擎的文档相似度值归一化到一个较为统一的值域,再进行比较和排序(2)通过全局相似度的估计:计算或估计各个返回文档的全局相似度。

3、系统研究与设计
1、系统结构框架
2、用户Agent:负责与用户交互,主要由输入接口、历史库、推
理机、用户模型和输出接口构成。

3、信息检索Agent:主要由三个功能模块组成,即查询请求分析模块、成员搜索引擎调度机制模块和查询参数转换模块。

4、查询结果处理Agent:主要有两个功能:(1)负责吧各个成员搜索引擎返回的查询结果根据策略库中的信息,去掉无链接的页面,去掉重复的冗余的信息。

(2)计算和估计成员搜索引擎的各项相关性能的评价信息,然后修改信息库中的内容。

4、系统设计与实现中的关键问题
1、基于用户个人喜好的成员搜索引擎算法:响应时间最快,返回文档数最多,返回质量最好的策略
2、多Agent协同工作
以下本人有几个问题,请高手赐教:
(1)如何把要搜索的内容转换为各个搜索引擎接收的格式:比如我要查找java,如何把这个查询送到google上,或者其他搜索引擎上,有没有什么固定的格式?
(2)如何获取个搜索引擎的关于网页的page rank,全局相似度,局部相似度。

(3)在显示给用户的时候,这些如何排序,按照什么标准来排序,这种标准如何在多个搜索引擎的返回页面中来统一。

PS:有没有懂得元搜索引擎的,可以与我交流,e-mail:***********************,其待共同提高。

相关文档
最新文档