智能搜索引擎
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现处理Agent对用户检索提问的预处理;同时领域知识模 型可以存储相关领域的成功搜索案例。
用户知识模型中的信息则是有关系统用户的信息,如
用户的知识背景、兴趣爱好等个性描述信息。搜索引擎 通过和用户进行交互操作,对用户的信息进行收集、学
习等方式,建立用户的用户知识模型和领域知识模型,
并及时发现用户信息的变化以更新用户知识模型,适应 用户需求的动态变化。
户后,学习Agent对用户Agent收集的用户的相关反 馈信息进行学习,以存储相关结果,如成功搜索案
例,并依据用户的反馈信息进行自学习,完善自身
功能,如调整由系统设定的相关性阈值等。
(7)相关信息的主动推荐:根据用户模型库记录的
用户的相关信息,当用户完成一次检索后,按
照用户设定的推送服务周期,智能搜索引擎能 主动依据用户需求完成( 1)至( 6)步信息搜
1993 年 底 , NASA , Repository-Based Software Engineering (RBSE) spider——第一个索引 Html 文件 正文的搜索引擎,第一个使用关键词串匹配的引擎; 1994年7月,Michael Mauldin,Lycos——第一个现代 意义上的搜索引擎; 1994年,David Filo和杨致远,Yahoo——成功地使网 络信息搜索的概念深入人心,揭开了搜索引擎大发展
问记录、用户兴趣偏好、用户访问行为等用户信息。
智能搜索引擎内部共设有语义理解、指令组织、访问登记、兴
趣识别、信息过滤、信息加工、页面定制七大功能模块。在具体 的搜索过程中,语义理解模块依据知识库提供的资源标识,对用
户提问进行分析、推理,然后由指令组织模块发出Http请求的搜
索指令,同时由访问登记模块对用户提问、定题需求等进行用户 角色与信息行为登记,将用户的访问记录、兴趣爱好等信息传递
能搜索引擎还支持多语言检索,允许用户用中文输入查
询英文或其他语言的信息。
④ 人工/机编混合型目录
它呈两种形式:人工进行质量控制的机编目录和
运用智能技术检索的手编目录。这种混合型目录能 够弥补机编目录和手编目录的缺憾,提高了网页索
引覆盖率。
(2)检索结果处理的智能化
① 保存和利用用户的使用记录,分析检索结果的相关度
借助自然语言理解技术,智能搜索引擎能够实现基于
知识(或概念)层面的检索,并且对知识有一定的理解 与处理能力,能够实现分词技术、同义词技术、概念搜 索、短语识别以及机器翻译技术等。因而智能搜索引擎
具有信息服务的智能化、人性化特征,允许用户采用自
然语言进行信息检索,并能为用户提供更方便、更确切 的搜索服务。
② 检索结果的转换过滤
根据一定条件对检索结果进行优化过滤的过程,
如信息格式的支持与转换
采用信息过滤技术可减少重复信息和垃圾信息
应用聚类技术对检索结果进行联机聚类等,从
而“精简”检索结果。
③ 检索结果的知识提取
搜索程序具有机械性及其对网络用户的透明性,而
网络用户缺乏搜索程序所规定的概念和语词符号,这 就使得用户的检索具有一定的模糊性,进而降低检索
的序幕。
第一代 搜索引擎
第二代 搜索引擎
元搜索引擎
索引量少, 极少重新搜 集网页并刷新索引, 检索速 目录式搜索引擎依靠 1998年前 度慢; 实现技术上基本沿用 专业人员对信息进行甄别 以Lycos 较为成熟的信息检索、网络、和分类,信息准确、导航 为代表 数据库等技术; 质量高,但不能深入网站 的内部细节,容易导致信 索引数据库规模有所扩 息丢失,并且由于人工编 大; 开始出现主体搜索和地 辑能力有限,常导致网站 1998年起 域搜索等; 对检索结果展开 信息陈旧、数据库更新不 如谷歌、 相关度评价;开始使用自动 及时等问题; 百度 分类技术; 极大提高了搜索 采用全文检索技术的 的质量和效率; 搜索引擎信息量大,更新 返回的检索结果信息量 及时,毋需人工干预,但 更大、更全,但用户需要做 由于不能区分同行异义以 1995年 更多筛选; 在一定程度上解 及不能联想到关键字,容 出现 决了独立搜索引擎对于某些 易导致返回大量夹杂冗余 检索请求的查询结果不够全 信息的检索结果,且检准 面、准确的现状,但不能从 率低,用户必须从结果中 本质上克服原有搜索引擎所 进行筛选。 固有的弊端;
只有理解查询词的含义范围,理论上将检索范围缩小 到一个适当的相关范围,检索才能精确。同时,试图
理解用户的意图,并相应地将检索结果分类编排,便
于用户的选择利用。智能搜索引擎的智能化包括:个 性化服务、主动性、智能辅助、人机接口智能化。
二、 网络智能搜索引擎的结构原理
(一) 智能搜索引擎总体框架模型及功能
例如访问量排序和基于超链接的排序。
• 搜索引擎记录其所搜索到的Web页面的被点击次数
(即访问量),从而判断该Web页面被访问的频率。 这是一种由公众集体确认网站重要性的方法,具有一 定的客观性与公众性。
• 而基于超链接的排序则是利用Web页面之间的引用
关系,综合考虑Web页面被引用次数以及所引用页面 的相关度来判断本页面的重要性。
信息抽取与组织
兴 趣 库
领域知识库 原始网页数据库
网络爬虫
网站提交
图 信息搜集与处理模块
(二) 智能搜索引擎系统的工作流程
(1)用户提交检索请求:用户Agent接收用户提交的检 索请求,对其进行细化,然后把初步处理后的结 果交给学习Agent。 ( 2 )用户模型库的建立或更新:若该用户是初次检索, 则学习Agent通过分析、学习其检索行为建立用户 模型库;若用户不是初次检索,则学习Agent根据
索过程,而其检索提问及检索提问的修改由系
统自动进行,一旦检索到相关信息,则以一定 方式推荐给用户。
三、网络智能搜索机理
智能搜索引擎进行搜索时要构设知识库和用户档案库。
• 知识库是对信息综合、提取、概括与分析后产生的知
识集合,它提供智能搜索引擎理解、处理用户提问的资 源标识。
• 用户档案库则用来存储用户注册的基本资料、用户访
搜索模块进行交互,是其功能实现的依据和保障。
① 智能搜索模块
智能搜索模块由各种Agent及共享知识库、本体库、信息库构成。
用户Agent
学习Agent 本体库
处理Agent
本地信息库 检索Agent
控制Agent
搜索Agent
图 智能搜索模块
② 用户模型库
用户模型库包括用户知识模型和领域知识模型。 领域知识模型主要包含有关领域的知识,可以帮助实
网络智能搜索引擎
1
主要内容
网络智能搜索引擎概述 网络智能搜索引擎的结构原理 网络智能搜索机理 网络智能搜索策略 网络智能搜索引擎的关键技术 网络智能搜索引擎实例分析
一、 网络智能搜索引擎概述
(一) 搜索引擎发展简况
搜索引擎 : 是指通过网络搜索软件或网站登陆等方式,
以一定的策略在互联网上搜集和发现信息,并将Web上 大量网站的页面收集到本地,经过加工处理和组织,从 而能够对用户提出的各种查询做出响应,提供用户所需 的信息。
② 语义检索及自然语言理解技术
语义检索是一种建立在文献概念相关关系基础上的检
索。通过抽取能够描述文献内容的概念(如用文中的关 键词或与之相应的主题词)建立一种语义索引,而用户
在系统的辅助下选用合适的词语表示自己的信息需求,
然后在两者之间执行概念匹配,匹配在语义上相同、相 近、相包含的词语,从而实现信息的深度检索
(二)搜索引擎的智能行为分析
1、影响搜索引擎性能的最关键因素:
(1)信息的采集。 搜索过程应在一定条件下选择最优路径沿 着具有相关主题的链接进行搜索,这要求搜索 引擎能够识别相应的网站和网页信息资源,是 一种智能性的体现。
( 2 )信息的加工处理与组织。当采用合适的算法和策 略从网络信息资源中获取到原始超文本信息后,还
结果的满意度。因此,智能搜索引擎通过对用户需求
进行分析研究,跟踪用户的兴趣爱好,建立用户模型 库,利用用户知识对检索结果进行一定程度上的知识
提取,完成检索结果的集成。
(3)检索服务的智能化
在检索服务方面,检索质量的提高依赖于对网络用
户信息需求的分析与挖掘,最基本的在于确定提问词
中隐含的“意义范围”,即词语在不同领域的含义。
智能搜索引擎模型采用扩展式的客户端 / 服务器
结构,包括表示层、应用层和数据层三层应用服
务
用 户 界 面
客户
端
表示
层
智 能 搜 索 模 块 应用层 服务 信息搜集与处理模
用 户 模 型 库
器
块
数据层
Internet
图 智能搜索引擎体系结构
Baidu Nhomakorabea
(1)表示层
给用户提供一个友好的人机界面,管理和实
智能搜索引擎的设计网络蜘蛛能遍历整个因持网,
自动完成在线信息的索引,还能通过启发式学习采
取最有效的搜索策略,选择最佳时机获取从 Internet 上自动收集、整理过的信息。同时,它能
够对网页内容的相关性及该网页所包含的链接质量
等做出判断,质量较差或内容不大相关的网页将不 被选取,从而保证信息来源的质量,提高检索效果。
递给搜索Agent,搜索Agent到远端进行搜索。
最后搜索Agent将检索结果返回到处理Agent。
( 5 )检索结果的处理:根据用户的个性化需求,处理 Agent 对返回的检索结果进行分析、过滤,并将结
果推荐给用户。若检索结果来自远端搜索,则处理
Agent还要将检索结果存入本地信息库。
(6)用户反馈信息的学习:应用层将检索结果提交给用
•
若找到相关信息则直接将结果返回处理 Agent ,比 如需求相同的不同用户提出相同检索任务,则后来 用户的检索提问可以“照搬”先前用户的检索结果
,即在本地信息库进行搜索,从而提高检索效率。
•
若检索 Agent 在本地信息库没有检索到相关信息, 或者搜索到的信息的相关性低于指定阈值(阈值可
由用户或系统设定),则处理 Agent 将检索提问传
(3)数据层
数据层主要由信息搜集与处理模块构成。
数据层能够实现对 Internet 上的信息的“先”处理,即将
数据“归类”,以简化搜索 Agent 的搜索过程,并利用兴趣 库及领域知识库,结合用户的兴趣,以便实现主动推送服务 及专题信息的搜索。
网 页 索 引 数 据 库 … 新闻 娱乐 体育
学习到的内容对用户模型库进行更新。
(3)规范化检索提问:
处理Agent接收到检索提问后,参照用户模型库中的类似 成功检索案例,以形成全面有效的检索提问进行检索;若 用户模型库中无类似成功检索案例,则依据本体库中知识 对检索提问进行规范化处理,找出出现该关键字的各个领 域及在该领域下的关键字的含义。
现用户和系统的交互,将用户提交的检索请求传
递给应用层和数据层所在的服务器,同时负责接 收服务器端的检索结果,并显示给用户。
(2)应用层
应用层是实现智能搜索的主要应用逻辑,由智能搜
索模块与用户模型库两部分组成。其智能搜索模块能实现
对用户搜索的“代理”,“理解”用户的提问,主动获取 满足用户需求的信息并推荐给用户。用户模型库能与智能
需要从中抽取出有价值的信息内容进行索引存储,
构建信息数据库。 (3)信息检索。信息检索查询为用户提供直接服务, 它根据用户的信息需求,完成对数据库的查找过 程,并以一定的方式向用户提供查询结果。信息 检索是搜索引擎最终的价值体现,是影响搜索引
擎性能的关键环节。
2、搜索引擎的智能性分析:
(1)检索技术的智能化 ① 机灵的网络蜘蛛
③ 检索对象形式的多样性
智能搜索引擎具有跨平台工作和处理多种混合文档结
构 的 能 力 , 能 处 理 HTML(HyperText Markup
Language , 超 文 本 标 志 语 言 ) 、 SGML(Standard for General Markup Language , 通 用 标 志 语 言 标 准 ) 、 XML(eXtended Marked Language ,扩展标志语言 ) 文 档以及其他类型的文档,如Word、WPS等。另外,智
然后处理 Agent 将处理后的检索提问返回到用户 Agent , 由用户根据自己需求选择或确认处理后的检索提问,并再 次依序往下传递检索提问。用户也可以设定无需将处理结 果返回,而由系统全权代理。
(4)检索信息:
处理 Agent 先将检索提问传递给检索 Agent ,进行本地 信息库的就近搜索