智能搜索引擎资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
更大、更全,但用户需要做 由于不能区分同行异义以
更多筛选; 在一定程度上解 及不能联想到关键字,容
决了独立搜索引擎对于某些 易导致返回大量夹杂冗余
检索请求的查询结果不够全 信息的检索结果,且检准
面、准确的现状,但不能从 率低,用户必须从结果中
本质上克服原有搜索引擎所 进行筛选。
固有的弊端;
源自文库
(二)搜索引擎的智能行为分析
(3)信息检索。信息检索查询为用户提供直接服务, 它根据用户的信息需求,完成对数据库的查找过 程,并以一定的方式向用户提供查询结果。信息 检索是搜索引擎最终的价值体现,是影响搜索引 擎性能的关键环节。
2、搜索引擎的智能性分析: (1)检索技术的智能化
① 机灵的网络蜘蛛
❖智能搜索引擎的设计网络蜘蛛能遍历整个因持网, 自动完成在线信息的索引,还能通过启发式学习采 取最有效的搜索策略,选择最佳时机获取从 Internet上自动收集、整理过的信息。同时,它能 够对网页内容的相关性及该网页所包含的链接质量 等做出判断,质量较差或内容不大相关的网页将不 被选取,从而保证信息来源的质量,提高检索效果。
第一代 搜索引擎
第二代 搜索引擎
元搜索引擎
1998年前 以Lycos 为代表
1998年起 如谷歌、
百度
1995年 出现
索引量少, 极少重新搜
集网页并刷新索引, 检索速
目录式搜索引擎依靠
度慢; 实现技术上基本沿用 专业人员对信息进行甄别
较为成熟的信息检索、网络、和分类,信息准确、导航
数据库等技术;
质量高,但不能深入网站
④ 人工/机编混合型目录
❖它呈两种形式:人工进行质量控制的机编目录和 运用智能技术检索的手编目录。这种混合型目录能 够弥补机编目录和手编目录的缺憾,提高了网页索 引覆盖率。
(2)检索结果处理的智能化
① 保存和利用用户的使用记录,分析检索结果的相关度
例如访问量排序和基于超链接的排序。 • 搜索引擎记录其所搜索到的Web页面的被点击次数 (即访问量),从而判断该Web页面被访问的频率。 这是一种由公众集体确认网站重要性的方法,具有一 定的客观性与公众性。 • 而基于超链接的排序则是利用Web页面之间的引用 关系,综合考虑Web页面被引用次数以及所引用页面 的相关度来判断本页面的重要性。
1、影响搜索引擎性能的最关键因素:
(1)信息的采集。 搜索过程应在一定条件下选择最优路径沿
着具有相关主题的链接进行搜索,这要求搜索 引擎能够识别相应的网站和网页信息资源,是 一种智能性的体现。
(2)信息的加工处理与组织。当采用合适的算法和策 略从网络信息资源中获取到原始超文本信息后,还 需要从中抽取出有价值的信息内容进行索引存储, 构建信息数据库。
❖借助自然语言理解技术,智能搜索引擎能够实现基于 知识(或概念)层面的检索,并且对知识有一定的理解 与处理能力,能够实现分词技术、同义词技术、概念搜 索、短语识别以及机器翻译技术等。因而智能搜索引擎 具有信息服务的智能化、人性化特征,允许用户采用自 然语言进行信息检索,并能为用户提供更方便、更确切 的搜索服务。
1993 年 底 , NASA , Repository-Based Software Engineering (RBSE) spider——第一个索引Html文件 正文的搜索引擎,第一个使用关键词串匹配的引擎;
1994年7月,Michael Mauldin,Lycos——第一个现代 意义上的搜索引擎; 1994年,David Filo和杨致远,Yahoo——成功地使网 络信息搜索的概念深入人心,揭开了搜索引擎大发展 的序幕。
索引数据库规模有所扩
大; 开始出现主体搜索和地 域搜索等; 对检索结果展开 相关度评价;开始使用自动 分类技术; 极大提高了搜索 的质量和效率;
的内部细节,容易导致信 息丢失,并且由于人工编 辑能力有限,常导致网站 信息陈旧、数据库更新不 及时等问题;
采用全文检索技术的
搜索引擎信息量大,更新
返回的检索结果信息量 及时,毋需人工干预,但
网络智能搜索引擎
1
主要内容
❖ 网络智能搜索引擎概述 ➢ 网络智能搜索引擎的结构原理 ➢ 网络智能搜索机理 ➢ 网络智能搜索策略 ➢ 网络智能搜索引擎的关键技术 ➢ 网络智能搜索引擎实例分析
一、 网络智能搜索引擎概述
(一) 搜索引擎发展简况
搜索引擎:是指通过网络搜索软件或网站登陆等方式, 以一定的策略在互联网上搜集和发现信息,并将Web上 大量网站的页面收集到本地,经过加工处理和组织,从 而能够对用户提出的各种查询做出响应,提供用户所需 的信息。
③ 检索对象形式的多样性
❖智能搜索引擎具有跨平台工作和处理多种混合文档结 构 的 能 力 , 能 处 理 HTML(HyperText Markup Language , 超 文 本 标 志 语 言 ) 、 SGML(Standard for General Markup Language , 通 用 标 志 语 言 标 准 ) 、 XML(eXtended Marked Language,扩展标志语言)文 档以及其他类型的文档,如Word、WPS等。另外,智 能搜索引擎还支持多语言检索,允许用户用中文输入查 询英文或其他语言的信息。
② 语义检索及自然语言理解技术
❖语义检索是一种建立在文献概念相关关系基础上的检 索。通过抽取能够描述文献内容的概念(如用文中的关 键词或与之相应的主题词)建立一种语义索引,而用户 在系统的辅助下选用合适的词语表示自己的信息需求, 然后在两者之间执行概念匹配,匹配在语义上相同、相 近、相包含的词语,从而实现信息的深度检索
② 检索结果的转换过滤
❖根据一定条件对检索结果进行优化过滤的过程, 如信息格式的支持与转换 ❖采用信息过滤技术可减少重复信息和垃圾信息 ❖应 用 聚 类 技 术 对 检 索 结 果 进 行 联 机 聚 类 等 , 从 而“精简”检索结果。
③ 检索结果的知识提取
❖搜索程序具有机械性及其对网络用户的透明性,而 网络用户缺乏搜索程序所规定的概念和语词符号,这 就使得用户的检索具有一定的模糊性,进而降低检索 结果的满意度。因此,智能搜索引擎通过对用户需求 进行分析研究,跟踪用户的兴趣爱好,建立用户模型 库,利用用户知识对检索结果进行一定程度上的知识 提取,完成检索结果的集成。