第二章 搜索(2)
合集下载
第二章 文献信息检索基本知识(2).概要
(大学生or本科生or研究生)-(大专生or高职生) and 就业
(2)截词检索表达式
用截词符号“*”、“?”或“$”加在检索词 的前后或中间,以检索一组概念相关或同一词根 的词。 按截断的位置可分为:
前截断、中间截断、后截断 按截断的字符数量可分为: 有限截断(?)、无限截断(*)
如:输入检索式“Comput*”,将检出包含 Computer、Computing、Computed、 Computerization 等词汇的结果。
第二章 信息检索基础知识
2.3 文献信息检索的工具
1、文献信息检索工具概述 检索工具是将大量分散无序的文献资料经过加 工整理,按照一定的规则和方法编制起来,用来 报道、存储和查找文献的工具,是附有检索标识
的某一范围文献条目的集合。
传统的检索工具是人们利用手工方法编制的
工具书,有字典、词典、目录、百科全书、名录、 类书、政书、表谱、图录等。这些工具书是人们
题录示例
(3)索引(引得) 索引是将书刊内容中所论及的篇名、语词、主 题等项目,按照一定的排检方法加以编制,注明出 处,供读者查检使用的检索工具。 索引与目录的根本区别就在于著录的对象不同, 目录所著录的是一个完整的出版单位,索引所著录 的则是完整的出版物的某一部分、某一观点、某一 知识单元,提高文献检索的深度和检索效率。
完全一致(精确匹配)、任意一致(模糊匹配)
等。
讨论1: 我馆书目查询系统共有多少种检索方式?其基 本检索有多少个检索字段?
讨论2: “中国学术期刊网络出版总库”有哪些检索方式?
?
? ? 中国科技期刊数据库初级检索界面
2、 信息检索方法
(1)常用法 ①顺查法 ②倒查法 ③抽查法 (2)回溯法 (3)循环法
(2)截词检索表达式
用截词符号“*”、“?”或“$”加在检索词 的前后或中间,以检索一组概念相关或同一词根 的词。 按截断的位置可分为:
前截断、中间截断、后截断 按截断的字符数量可分为: 有限截断(?)、无限截断(*)
如:输入检索式“Comput*”,将检出包含 Computer、Computing、Computed、 Computerization 等词汇的结果。
第二章 信息检索基础知识
2.3 文献信息检索的工具
1、文献信息检索工具概述 检索工具是将大量分散无序的文献资料经过加 工整理,按照一定的规则和方法编制起来,用来 报道、存储和查找文献的工具,是附有检索标识
的某一范围文献条目的集合。
传统的检索工具是人们利用手工方法编制的
工具书,有字典、词典、目录、百科全书、名录、 类书、政书、表谱、图录等。这些工具书是人们
题录示例
(3)索引(引得) 索引是将书刊内容中所论及的篇名、语词、主 题等项目,按照一定的排检方法加以编制,注明出 处,供读者查检使用的检索工具。 索引与目录的根本区别就在于著录的对象不同, 目录所著录的是一个完整的出版单位,索引所著录 的则是完整的出版物的某一部分、某一观点、某一 知识单元,提高文献检索的深度和检索效率。
完全一致(精确匹配)、任意一致(模糊匹配)
等。
讨论1: 我馆书目查询系统共有多少种检索方式?其基 本检索有多少个检索字段?
讨论2: “中国学术期刊网络出版总库”有哪些检索方式?
?
? ? 中国科技期刊数据库初级检索界面
2、 信息检索方法
(1)常用法 ①顺查法 ②倒查法 ③抽查法 (2)回溯法 (3)循环法
第二章 人工智能搜索
搜索法中的问题表示
• 对问题进行形式化描述,便于计算机处理。 • 描叙方法对搜索效率有很大的影响。 • 一般用状态空间来表示待求解的问题。
状态空间法(1)
• 找到一个数,该数大于等于13548并且能够被
• • •
13547整除。 问题的论域为【13548,+∞】,为了计算机处 理,可以选择一个足够大的数。 因此,问题的状态空间可以定义为【13548, 1E20】。所有的状态空间构成一个连续自然数序 列。 用状态空间表示法描叙问题时,要定义状态空间, 表示问题的全部可能状态和相互关系。
能找到 • 搜索的效率,避免生成或扩展无用的点。 • 控制开销。即控制策略的开销要尽可能小。
• 几个目标之间有冲突,在以上几个目标中
寻求平衡。
1.1 回溯策略
• 例:皇后问题
Q Q Q Q
()
Q ()
((1,1))
Q () Q
((1,1))
((1,1) (2,3))
Q ()
((1,1))
((1,1) (2,3))
搜索图与搜索树的比较
• 如果采用广度优先搜索算法,优点为实现
简单,但是有可能需要重复处理多次。 • 如果采用深度优先搜索算法,有可能陷入 死循环。需要采用一定的策略避免。 • 图搜索需要额外的计算去检查下一个节点 是否已经生成过。(可以使用广度或深度 优先来遍历图产生生成树)
搜索算法的衡量标准
• 搜索算法的完备性,即只要有解,就一定
– 盲目搜索 – 启发式搜索
• 关键问题:
如何利用知识,尽可能有效地找到问题 的解(最佳解)。
搜索问题(续2)
• 讨论的问题:
– 有哪些常用的搜索算法。 – 问题有解时能否找到解。 – 找到的解是最佳的吗? – 什么情况下可以找到最佳解? – 求解的效率如何。
人工智能导论-第二章对抗搜索
上限置信区间算法在MCTS中应用
上限置信区间(UCB)算法
UCB算法是一种多臂赌博机问题的解决方法,用于在探索和利用之间找到平衡。 在MCTS中,UCB算法被用于指导节点的选择过程。
应用方式
在MCTS的选择阶段,使用UCB算法计算每个子节点的得分,并选择得分最高 的子节点进行扩展和模拟。通过不断调整UCB公式中的参数,可以控制探索和 利用的权衡程度。
优化策略
为了进一步提高Alpha-Beta剪枝算法的效率,可以采用 一些优化策略,如启发式排序、迭代深化搜索等。其中 ,启发式排序是一种基于评估函数的节点排序方法,将 更有可能导致最优解的节点排在前面,从而提前找到最 优解并终止搜索;迭代深化搜索则是一种逐步增加搜索 深度的搜索方法,可以在有限的搜索深度内找到较好的 解。
常见剪枝技术
常见的剪枝技术包括深度优先剪枝、广度优先剪枝、启发式剪枝等。其中,启发 式剪枝是一种基于评估函数的剪枝方法,通过计算每个节点的评估值,提前排除 一些评估值较差的节点,从而减少搜索空间。
Alpha-Beta剪枝算法优化策略
Alpha-Beta剪枝原理
Alpha-Beta剪枝算法是一种基于极大极小值搜索的优化算 法,通过引入两个参数alpha和beta来限制搜索范围,从 而减少搜索空间。在搜索过程中ቤተ መጻሕፍቲ ባይዱ如果发现当前节点的值 已经小于或等于alpha(对于极大值节点)或大于或等于 beta(对于极小值节点),则可以提前终止对该节点的搜 索。
非零和博弈是指博弈中各方的收益和损失总和不为零的情况 。这种博弈更为普遍,因为现实生活中的许多情况都是非零 和的。非零和博弈算法需要考虑到博弈各方的可能合作,以 及利益分配的问题。
完全信息与非完全信息博弈算法
第二章-网络信息资源的检索与利用 第二,三节
A.互联网上的国内期刊信息
• 查找国内期刊,可以从以下站点入手: • 一、中国期刊网: • 二、维普科技期刊网: 或 / • 三、万方数据资源系统的数字化期刊: /qikan/ind ex.jsp • 四、学科导航信息
●
图片搜索
二.常用网络信息资源的检索
• • • • • • • 1. 网络检索--- 图书 2. 网络检索----期刊 3. 网络检索----报纸 4. 网络检索----人物,机构 等信息 5. 网络检索----专利, 标准, 科技报告, 统计数据等信息
怎样查找互联网上的图书信息?
网络信息资源 检索﹠利 用
• 网络信息资源与常用中英文搜索引擎
• 常用网络信息资源的检索利用(学术) • 网络信息资源的检索策略与技巧
第二节
• 常用网络信息资源的检索利用(学术)
一.重要的学术搜索简介
二.常用网络信息资源的检索利用
一.重要的学术搜索简介
• 1. Google scholar(Google学术搜索 ) • 2. Scirus(科学搜索)是目前网上最全面、 综合性最强的科技文献搜索引擎之一 • 3.一些专业专题搜索引擎。
•
Directory of Open Access Journals
• DOAJ( Directory of Open Access Journals)由 由Lund University建立,它提供有质量控制的可 免费获取的网上电子期刊资源,它的目标是建成一 个无学科、无语言限制的综合性的科学期刊系统, 方便科研人员使用,并可提升期刊的显示度。 • 目前该网站已收集了482种期刊,并把这些期刊分 成了15个大类,53个小类,其中包括农业、生命科 学、化学、数学、物理、天文学、工程技术、环境 科学DOAJ( Directory of Open Access Journals 、社会科学等。
第二章人工智能搜索问题
65 S6
8 3 283
214 714
765 6 5
S13
S14
83 214 765
S21
813 24 765
S22
23 184 765
S7
23 184 765
S8
28 143 765
S9
283 145 76
S10
123 84
765 S15
234 18 765
S16
28 143 765
S17
283 145 76
缺点:
不完备,也不最优
1
2
6
12
4
7
13
9 58
10 1····1
回溯搜索策略
回溯策略属于深度优先 搜索的一种变形
与深度优先搜索的区别:
扩展一个节点时,每次
只产生一个后继节点,
而不是全部后继
3
回溯策略只保存单一的 解路径,占用内存空间 很少,只需要一张表即 可完成搜索
1
2
6
12
4
7
13
9 58
它并不考虑结果的可能位置,彻底地搜索整张 图,直到找到结果为止。
宽度优先搜索
广度优先搜索算法:
步1 把初始节点S0放入OPEN 步2 若OPEN表为空, 则搜索失败,退出。 步3 取OPEN表中前面第一个节点N放在CLOSED表中, 并冠以
顺序编号n 步4 若目标节点Sg= N,则搜索成功, 结束。 步5 若N不可扩展, 则转步2 步6 扩展N, 将其所有子节点配上指向N的指针依次放入OPEN
人工智能
第二章 搜索问题
本章的内容与目标
搜索与搜索问题 搜索问题的求解步骤 无信息(盲目)搜索 有信息(启发式)搜索
8 3 283
214 714
765 6 5
S13
S14
83 214 765
S21
813 24 765
S22
23 184 765
S7
23 184 765
S8
28 143 765
S9
283 145 76
S10
123 84
765 S15
234 18 765
S16
28 143 765
S17
283 145 76
缺点:
不完备,也不最优
1
2
6
12
4
7
13
9 58
10 1····1
回溯搜索策略
回溯策略属于深度优先 搜索的一种变形
与深度优先搜索的区别:
扩展一个节点时,每次
只产生一个后继节点,
而不是全部后继
3
回溯策略只保存单一的 解路径,占用内存空间 很少,只需要一张表即 可完成搜索
1
2
6
12
4
7
13
9 58
它并不考虑结果的可能位置,彻底地搜索整张 图,直到找到结果为止。
宽度优先搜索
广度优先搜索算法:
步1 把初始节点S0放入OPEN 步2 若OPEN表为空, 则搜索失败,退出。 步3 取OPEN表中前面第一个节点N放在CLOSED表中, 并冠以
顺序编号n 步4 若目标节点Sg= N,则搜索成功, 结束。 步5 若N不可扩展, 则转步2 步6 扩展N, 将其所有子节点配上指向N的指针依次放入OPEN
人工智能
第二章 搜索问题
本章的内容与目标
搜索与搜索问题 搜索问题的求解步骤 无信息(盲目)搜索 有信息(启发式)搜索
文献检索,信息检索(2)第二章 信息检索原理
优点:可以检索到某学科或专业的所有文献,有较高 的查全率。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
2检索原理和搜索引擎
26
搜索引擎的工作原理就像超市
因 特 网
爬行器 蜘蛛) (蜘蛛)
索引生成器 网页数据库) (网页数据库)
27
查询检索器 (用户查询) 用户查询)
第一步: 第一步:从互联网上抓取网页
利用能够从互联网上自动收 集网页的Spider系统程序,自 系统程序, 集网页的 系统程序 动访问互联网, 动访问互联网,并沿着任何网页 中的所有URL(统一资源定位器, 统一资源定位器, 中的所有 统一资源定位器 俗称“网址” 爬到其它网页, 俗称“网址”)爬到其它网页,重 复这过程, 复这过程,并把爬过的所有网页 收集回来。 收集回来。
10
检索语言的类型 分类语言 描述文献内 容特征 检索语言 描述文献外 部特征 主题语言 关键词语言 单元词语言 标题词语言 叙词语言
题名 著者/团体作者名 著者 团体作者名 出版事项 代码/序号 代码 序号
11
6、信息检索的要领 、
What? 信息需求 Where?信息源 How?检索技术
12
17
2、网络信息资源的特点 、
信息量大、 信息量大、传播广泛 信息类型多样、 信息类型多样、内容丰富 信息时效性强、 信息时效性强、变化频繁 信息分散无序、 信息分散无序、但关联程度高 信息缺乏管理、 信息缺乏管理、良莠不齐 所以在网络信息检索中, 所以在网络信息检索中,我们常常要借助于 搜索引擎来帮助我们“大海里捞针” 搜索引擎来帮助我们“大海里捞针”。 来帮助我们
23
第三代搜索: 第三代搜索:网页搜索
它们都属于网页自动搜索 引擎, 引擎,有的还带有智能分 析或FTP P2P搜索功能 FTP、 析或FTP、P2P搜索功能
24
5、搜索引擎的工作原理 、
第2章信息检索基本知识
2、引文法:又称为扩展法,追溯法。是指不
利用一般的检索工具,而是利用已经掌握的文 献末尾所列的参考文献和引用文献,进行逐一 查找的一种最简便的扩大情报来源的方法。一 般在没有适用的检索工具或已知的文献线索很 少的情况下使用。
“顺藤摸瓜”
3、循环法:又称分段法、交替法,它是把上
述两种方法加以综合运用的方法。
检索途径-分类途径
这是一种按学科分类体系来查找文献的途径,使用 的检索语言是分类语言。使用的检索工具有“分类目 录”、“分类索引”等。分类法反映事物之间的隶属、 派生和平行等关系,体现了知识的系统性,它能把同 一学科的文献集中在一起,能较好地满足族性检索的 要求。当研究课题较大,需要全面了解某一学科及其 相关知识的时候,或者难于判定研究课题所属主题范 围的时候,通常利用分类索引,从分类的途径来查找 文献。
2、三者提供的资料不同: 目录提供某一方面较成熟系统的知识,索引、文摘提供相对分散 的资料线索。
3、三者在使用方式上不同: 目录、索引不提供文献内容特征,文摘提供文献的内容特征。
• 按检索方式分: 印刷型检索工具和机器检索工具;
• 按出版形式分: 期刊式检索工具、书本式检索工具、卡片式 检索工具、缩微式检索工具、机读式检索工 具等;
2、现代信息检索
现代信息检索即计算机信息检索,是指利用计算机和 网络来处理和查找文献信息的检索方式。
三、 信息检索工具
检索工具:
是人们用来存储、报道和查找各类信息的工具。它 是通过对信息进行搜集整理、特征分析和组织加工后的 产物。
主要包括二次、三次印刷型手工检索工具,面向计 算机和网络的各种数据库检索系统以及搜索引擎等各种 网络检索工具。
选择输出(打印、拷贝或发送至电子邮箱)
第二章-搜索引擎的架构PPT课件
分布式
排序以分布式形式
将多个用户查询分派给不同的处理器,并负责将各处理
器返回的结果合在一起
.
27
2.3.4查询处理(Cont.)
日志
调整和改善搜索引擎系统的效果和效率
用户的查询日志可以用于拼写检查、相关查询词推荐、查询 缓存及其他任务
排序分析
对于大量的查询-文档对,给定日志数据和显示的相关性判定, 可以对排序算法的效果进行评估
- 使用tag定义文档元素,E.g. , <h2> Overview </h2>
- 文档解析器使用标记语言的句法知识识别文档的结构
.
16
2.3.2文本转换(Cont.)
停用词去除
不具有实际意义的功能词,去除后不影响搜索效果 - e.g., “and”, “or”, “the”, “in”
根据实际应用确定停用词表 - 避免“to be or not to be”
新的页面
- 能够高效处理互联网上大量出现的新网页 - 抓取任务可以限制在一个单独的站点 - 主题爬虫采用分类技术限制所访问的网页是同一 主题
.
10
2.3.1文本采集(Cont.)
爬虫(Cont.)
及时、高效的收集数量尽可能多的有用的万维网 页面,以及建立它们之间的超链接关系
侧重用户需求:及时、数量多、有用 侧重搜索引擎系统需求:高效 收集的内容:网页、链接关系
强调文档中的重要词和段落
对输出结果聚类以找到文档相关的类别
在结果显示中增加相应的广告
在涉及多语言的应用系统中,结果可能被翻译成 同一种语言
.
25
2.3.4查询处理(Cont.)
排序--打分机制
使用排序算法计算文档的分值
第二章 搜索(1)—基于状态空间的搜索
要求把这两个金片全部移到另一根钢针上,而且规 定每次只能移动一个金片,任何时刻都不能使大片 位于小片的上面。 如何将A、B两个金片移到2号或三号钢针上面?
A B
A B
A B
1
2
3
1
2
3
1
2
3
第二章 - 19
用以搜索状态空间的结构与策略
2.2 问题状态空间的表示
解:
① 状态:Sk={Sk0, Sk1}
问题求解程序从问题的给定事实和改变状态的合法移动和规 则的集合入手。 然后把规则应用到事实产生新的事实,接下来新的事实又被 规则用来产生更多新的事实,搜索如此进行下去,直到产生 满足目标条件的一条路径。
第二章 - 33
用以搜索状态空间的结构与策略
Portion of the state space graph of the farmer, wolf, goat, and cabbage problem, including unsafe states.
第二章 - 34
用以搜索状态空间的结构与策略
第二章 - 2
用以搜索状态空间的结构与策略
内容
2.0 2.1 2.2 2.3 2.4 2.5
简介 图论 问题状态空间的表示 状态空间搜索的方向 一般图搜索 常见的盲目式搜索技术
第二章 - 3
用以搜索状态空间的结构与策略
2.0 简介
什么是问题?
2 8 3 7 10 5 14 1
15 9 6 4 11 14 12
目标:G={S4,S8}
A B
A B
1 2 3 S0=(1, 1)
第二章 图书信息检索
2. A or B
3.A not B
① 逻辑与(逻辑乘) 用关系词AND或“*”表示,表示它所连接的两 个检索词必须同时出现在结果中才满足检索条件。
逻辑与用来缩小文献检索范围,提高查准率,是具有 概念交叉和限定关系的一种组配。
② 逻辑或(逻辑加) 用关系词 OR 或“ +” 表示,表示它所连接的 两个检索词中任意一个出现在结果中就满足检索条件。
• Author(作者) • Publisher(出版者) • Artery(流通渠道) • Buyer(即购买者) • Internet(网络) 收录:相关专业教参书 年度:1973-2007年 完全数字化的出版。
矿业工程数字图书
• 中国煤炭工业协会科技 文献信息咨询专业委员 会 • 煤炭行业(中国矿大) • 超星数字图书馆合作 • 收录全面 收录年度:1949年至今
电子图书
• 发展历程:Electronic Book、E-Book、eBook 20世纪40年代,科幻小说; 1968年,松下电器开始了电子照片液体显影液的研究 电泳 液晶; 1971年,古腾堡工程: 迈克尔哈特(伊利诺伊大学) 扫描和光学文字识别 约翰内斯古腾堡,德国15世纪 印刷商 卡内基梅隆大学; 1997年Eink(电子墨水)公司 化学、电子和物理 麻省剑桥; 亚马逊Kindle、OPPO公司Enjoy、汉王公司 20世纪80年代 国内电子图书开始生产; 2000年10月,世界上第一台阅读不耗电电子图书在天津问世; 2009年,Barnes & Noble推出Nook:墨水电子屏+液晶触摸屏; 彩色显示问题 2010年开始,美国苹果公司IPad、IPad2.。。。。; 2011年Google iriver,外观和技术与Kindle相似。
2第二章 网络信息检索技术与搜索引擎
检索式的编制,直接影响到检索质量、检索 效率和检索费用。要注意概念的分析,算符使用 正确但不能达到应有检索效果的例子很多。
例如,一个查找欧洲投资流向的题目,在列 出检索词时就存在整体与部分的关系,如果用 EUROPE AND INVESTMENTS去检索,就会有大量文 献漏检,原因在于“欧洲”指一个整体地理概念, 无法代表通常意义上的英、法等各发达国家,而 后者往其他国家和地区投资的情况正是我们所需 要 的 。 因 此 , 检 索 时 应 用 : ( EUROPE OR BRITAIN OR FRANCE OR ITALY OR SPAIN OR… ) AND INVESTMENTS。
二、网络信息高级检索技术
1 加权检索
加权检索的侧重点不在判定检索词或字符 串是否在文献记录中存在以及与其他的检索词 或字符串的关系,而在于判定检索词或字符串 在满足检索逻辑后对文献命中与否的影响程度, 它根据用户的检索需求来确定检索词,再根据 每个词在检索要求中的重要程度不同,分别给 予一定的数值(权重)加以区别,同时给出检 索命中界限进行限制。
如果用一个以上的代码,则用逗号隔开, 下面是较复杂的例子:
(business information/DE,TI OR business intelligence/ID,TI) AND PY=199? AND LA =English
各代码之间的关系可看作是“逻辑或”, 只要把字段代码加到检索词中,计算机就在 被指定的字段中进行查找,并将命中文献检 出。
采用“AND”(“ *”)算符时,检索式 写作 A AND B (即 A * B ),表明数据库中 同时有检索词 A 和 B 的记录才为命中记录。 逻辑与可增强检索的专指性,缩小检索范 围。 如“plant AND ecology”表示要求检 索出同时包含plant和 ecology的文献。
第二章 信息检索的基本知识
2.1.2 信息检索的类型
1.根据检索对象划分 根据检索对象的不同,早期的信息检索分为以下几种。 (1) 文献检索:以文献为检索对象。凡是查找某一课题、 某一著者、某一地域、某一机构、某一事物的有关文献的 出处和收藏单位等,均属于文献检索。这是一种相关性检 索,它提供的是与用户信息需求的相关文献的线索或原文。 (2) 事实检索:以特定的事实为检索对象如查找某一 事物发生的时间、地点与过程,某类产品哪些厂家生产、 哪个牌号最好等,均属事实检索。属确定性检索。 (3)数据检索:以数据为对象的检索。如查找某一数学公 式、数据、图表,某一种材料的成分、性能都属于数据检 索的范畴。属确定性检索
2.1 信息检索概述
2.1.1信息检索的含义
信息检索(Information Retrieval)是指 将信息按一定的方式组织和存储起来,并根据用 户的需要找出有关信息的过程,又叫信息储存与 检索(Information storage and Retrieval), 这是广义的信息检索,如图2-1所示。狭义的信息 检索则是仅指该过程的后半部分,即从信息集合 中找出所需信息的过程。
(2)关键词语言 以关键词作为文献内容标识和检索依据的一种 主题语言。关键词选自文献题目、文摘乃至正文 中具有实质意义的词语,是未经规范化处理的自 由词汇,关键词语言是不受词表控制的非规范化 语言。如美国《化学文摘》(Chemical Abstracts, CA)的关键词索引(是CA各种索引中 使用较多的一种 )。
中国图书馆分类法简介: 中国图书馆分类法(第四版)将图书资料划 分为五大部类序列,具体如下: ◎马克思主义、列宁主义、毛泽东思想 ◎哲学 ◎社会科学 ◎自然科学 ◎综合性图书 由于社会科学与自然科学这两个科学部门的 内容很多,发展很快,又各自展开为若干大类, 最后在五个基本部类的基础上,组成22个大类分 类号采用汉语拼音字母与数字混合编号制度。
第二章 信息检索的基本原理与方法
可见,信息检索的全过程应包括两个主要方面: 可见, 信息标引和存储过程。标引是用检索语言和分类号、 (1)、信息标引和存储过程。标引是用检索语言和分类号、主题词等标识符号 来表示信息,通过对大量无序的信息资源进行标引处理,使之有序化, 来表示信息,通过对大量无序的信息资源进行标引处理,使之有序化,并按 科学的方法存储起来,并组成检索工具或检索文档——组织检索系统的过程; 组织检索系统的过程; 科学的方法存储起来,并组成检索工具或检索文档 组织检索系统的过程 (2)、信息的需求分析和检索过程。分析用户的信息需求, (2)、信息的需求分析和检索过程。分析用户的信息需求,利用组织好的检索 系统,按照系统提供的检索方法和途径检索有关信息 系统,按照系统提供的检索方法和途径检索有关信息——检索系统的应用过 检索系统的应用过 程。
3、信息检索的类型 、
作或过程。
(一)、按检索对象划分,信息检索可以分为:文献检索 、数据检索 、事实检索 )、按检索对象划分,信息检索可以分为: 按检索对象划分 (1)、文献检索:文献检索的概念就是信息检索的概念。 )、文献检索: 文献检索
(2)、数据检索(data retrieval):是从文件、数据库或存储装置中查找和选取所需数据的操 (3)、事实检索:是情报检索的一种类型。广义的事实检索既包括数值数据的检索、算术运
计算机检索的特点: 检索方便快捷; 检索 功能强大; 获得信息类型多; 检索范围广 泛。 其中现在发展比较迅速的计算机检索是 “网络信息检索”,也即网络信息搜索,是 指互联网用户在网络终端,通过特定的网络 搜索工具或是通过浏览的方式,查找并获取 信息的行为。
4、检索的基本原理 、
信息检索基本原理的核心是用户信息需求与文献信息集合的 信息检索基本原理的核心是用户信息需求与文献信息集合的 比较和选择, 是两者匹配(match)的过程。 (match)的过程 比较和选择, 是两者匹配(match)的过程。 一方面是用户的信息需求, 一方面是组织有序的文献信息集 合,检索就是从用户特定的信息需求出发,对特定的信息集 合采用一定的方法、技术手段,根据一定的线索与规则从中 找出(search, locate, hit) 相关的信息。 匹配有其匹配标准,这里涉及到两者一致性、相关度等问题, 按一定的标准筛选出符合要求的信息。
第二章 搜索与问题求解
Step3从端顶点开始,逐级向上回溯,标注各顶点为可解顶点或不可解顶点,直到标注原始顶点为可解顶点或不可解顶点为止。
Step4当原始顶点被确定为可解顶点时,输出相应解图为问题的解。
下面通过例2-2对与或图问题表示及其求解步骤作进一步的说明。
例2-2三阶梵塔问题。如图2-4所示,有A、B、C三个金片及1、2、3三根钢针,三个金片按自下而上从大到小的顺序穿在1号钢针上,要求把它们全部移到3号钢针上。每次只能移动一个金片,且任何时刻都不能把大的金片压在小的金片上。
本章介绍关于搜索的基本知识,叙述问题求解的状态空间表示法和与或图表示法,阐述用于问题求解的主要启发式算法,并在此基础上说明计算机博弈中的搜索方法。
2.1
人们希望能在最短的时间内搜索到最好的解。但解的最优性和求解的计算复杂性之间是一对矛盾。在搜索算法不变的情况下,为了获得更好的解,需要更大的时间和空间开销。对于复杂问题,难以同时满足解的最优性和计算的可行性,须在二者之间进行权衡和折衷,一般从以下三个方面来考虑:
(a) (b) (c)
图2-1二阶梵塔问题
(a)初始状态;(b)目标状态1;(c)目标状态2。
解:
(1)用 表示问题的第 个状态。其中, 表示金片A所在的钢针号, 表示金片B所在的钢针号。问题的全部可能状态共有以下9种:
.
显然, 为初始状态, 或 为目标状态。
(2)只能通过移动金片A或B来解决问题。因此,定义操作符 和 。 表示把金片A从第i号钢针移到j号钢针上; 表示把金片B从第i号钢针移到j号钢针上。这样,共有12种能促使状态发生转换的操作,分别是:
2.2.1
一个问题对应的状态空间是一个五元组:
, (2-1)
其中, 是状态的集合, 是用于状态转换的操作符的集合, 是状态转换代价的集合, 是初始状态的集合, 是目标状态的集合。
Step4当原始顶点被确定为可解顶点时,输出相应解图为问题的解。
下面通过例2-2对与或图问题表示及其求解步骤作进一步的说明。
例2-2三阶梵塔问题。如图2-4所示,有A、B、C三个金片及1、2、3三根钢针,三个金片按自下而上从大到小的顺序穿在1号钢针上,要求把它们全部移到3号钢针上。每次只能移动一个金片,且任何时刻都不能把大的金片压在小的金片上。
本章介绍关于搜索的基本知识,叙述问题求解的状态空间表示法和与或图表示法,阐述用于问题求解的主要启发式算法,并在此基础上说明计算机博弈中的搜索方法。
2.1
人们希望能在最短的时间内搜索到最好的解。但解的最优性和求解的计算复杂性之间是一对矛盾。在搜索算法不变的情况下,为了获得更好的解,需要更大的时间和空间开销。对于复杂问题,难以同时满足解的最优性和计算的可行性,须在二者之间进行权衡和折衷,一般从以下三个方面来考虑:
(a) (b) (c)
图2-1二阶梵塔问题
(a)初始状态;(b)目标状态1;(c)目标状态2。
解:
(1)用 表示问题的第 个状态。其中, 表示金片A所在的钢针号, 表示金片B所在的钢针号。问题的全部可能状态共有以下9种:
.
显然, 为初始状态, 或 为目标状态。
(2)只能通过移动金片A或B来解决问题。因此,定义操作符 和 。 表示把金片A从第i号钢针移到j号钢针上; 表示把金片B从第i号钢针移到j号钢针上。这样,共有12种能促使状态发生转换的操作,分别是:
2.2.1
一个问题对应的状态空间是一个五元组:
, (2-1)
其中, 是状态的集合, 是用于状态转换的操作符的集合, 是状态转换代价的集合, 是初始状态的集合, 是目标状态的集合。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
4
5
6
3
2
4
5
第二章 - 20
用以搜索状态空间的结构与策略
2.4.2 一般图搜索的过程
第二章 - 21
小结一 般 图 搜 索 过 程
开始
把S放入OPEN表
OPEN为空表 否
把第一个节点(n)从 OPEN移至CLOSE表
用以搜索状态空间的结构与策略 是
失败
是 n为目标节点?
否
把n的后继节点放入OPEN表, 提供返回节点n的指针
(6)针对M中子节点的不同情况,分别作如下处理:
第二章 - 18
用以搜索状态空间的结构与策略
2.4.2 一般图搜索的过程
(6)针对M中子节点的不同情况,分别作如下处理: ① 对那些没有在G中出现过的M成员设置一个指向其父 节点(即节点n)的指针,并把它放入 Open表。 ② 对那些原来已在G中出现过,但还没有被扩展的M成 员,确定是否需要修改它指向父节点的指针。 ③ 对于那些先前已在G中出现过,并已经扩展了的M成 员,确定是否需要修改其后继节点指向父节点的指 针。
反向追索(backward chaining) 从求解的目标着手。先分析怎样使用合法的移动来产生这个 目标,并求出要应用这些移动必须具备的条件。这些条件成 为要搜索的新目标(子目标)。
然后继续反向追溯相继的子目标,直至返回到问题中的事 实。这样便找到了从问题到目标的移动会规则链。
第二章 - 4
搜索算法作指针设置和修改工作(并将虚线改为实线)。
4
正向追索(forward chaining) 问题求解程序从问题的给定事实和改变状态的合法移动和规 则的集合入手。
然后把规则应用到事实产生新的事实,接下来新的事实又被 规则用来产生更多新的事实,搜索如此进行下去,直到产生 满足目标条件的一条路径。
目标驱动搜索(goal-driven search)
问题求解程序必须穿越空间的不同路径直到找到目标。
回溯:
系统试验地穿越状态空间的所有路径的一种技术。
回溯搜索:
从起始状态出发沿一条路径前进要么达到目标,要 么到达一个“死端”。 如果发现目标,退出搜索并返回解路径;如果到达一个 死端,那么便回溯到路径上含有未分析过兄弟的最近节 点,并沿这个分支继续下去。
所谓对一个节点进行“扩展”是指对该节点用某个可用 操作进行作用,生成该节点的一组子节点。
第二章 - 16
用以搜索状态空间的结构与策略
2.4.2 一般图搜索的过程
数据结构 Open表:
用于存放刚生成的节点,由于这些节点还没有进行扩 展,因此 Open表也称为“未扩展节点表”。
Closed表: 用于存放已经扩展或将要扩展的节点,因此Closed表也 称为“已扩展节点表”。
第二章 - 6
内容
用以搜索状态空间的结构与策略
2.0 简介 2.1 图论 2.2 问题状态空间的表示 2.3 状态空间搜索的方向 2.4 一般图搜索 2.5 常见的盲目式搜索技术
1
第二章 - 7
用以搜索状态空间的结构与策略
2.4.1 一般图搜索的实现
图搜索问题(Question) 问题求解程序能否被赋予可靠的机制(不犯任何错 误)穿越状态空间达到预期的目标状态,并建立解 路径?
第二章 - 11
用以搜索状态空间的结构与策略
2
第二章 - 13
用以搜索状态空间的结构与策略
思考题
动态跟踪回溯算法。从状态A开始,目标状态为 G。记录NSL、SL、CS等的逐项值。
第二章 - 14
用以搜索状态空间的结构与策略
2.4.2 一般图搜索的过程
状态空间搜索的基本思想:
初始状态集
S0
问题状态空间
符号 S0:问题的初始状态。 G: 搜索过程所得到的搜索图。 M: 当前扩展节点新生成的且不为自己先辈的子节点集
第二章 - 17
用以搜索状态空间的结构与策略
2.4.2 一般图搜索的过程
状态空间的一般图搜索过程为:
(1)把初始节点S0放入Open表,并建立目前仅包含S0的图 G;
第二章 - 2
内容
用以搜索状态空间的结构与策略
2.0 简介 2.1 图论 2.2 问题状态空间的表示 2.3 状态空间搜索的方向 2.4 一般图搜索 2.5 常见的盲目式搜索技术
第二章 - 3
用以搜索状态空间的结构与策略
2.3 状态空间搜索的方向
数据驱动搜索(data-driven search)
(7)按某种策略对Open表中的节点进行排序。 (8)转第(2)步。
3
第二章 - 19
用以搜索状态空间的结构与策略
2.4.2 一般图搜索的过程
例如:扩展过程中某时刻的搜索图。 黄色的节点位于Closed表中; 紫色的节点位于Open表中; 每条边的代价为1;
S0
S0
1
1
6
3
(2)检查Open表是否为空,若为空,则问题无解,失败退 出;
(3)把 Open表的第一个节点取出放入Closed表,并记该节 点为节点n;
(4)考察节点n是否为目标节点。若是则得到了问题的解, 成功退出;
(5)扩展节点n,生成一组子节点。把这些子节点中不是节 点n先辈的那部分子节点记入集合M,并把这些子节点 作为节点n的子节点加人G中。
成功
修改指针方向 重排OPEN表
第二章 - 22
用以搜索状态空间的结构与策略
2.4.2 一般图搜索的过程
思考题:
①理解一般图搜索算法,OPEN表和CLOSE表的作用是什么?为何 要标记从子节点到父节点的指针?举例说明对三类子节点处理方 式的差异。
②某扩展中的搜索图如图所示,已被扩展的节点涂黑,待扩展的 节点表示为空心圆圈,当前被扩展节点表示为双圆圈,并以虚线 连到其生成的后继节点;设相邻节点间路径等长,请依据一般图
NSL:新状态列表,含有等待评估的节点,也就是其 后代还没有被产生和搜索的节点。
DE:用来记录死端,列出已经发现其后代不包含目 标的状态。如果再次遇到这些状态,它们会被检测 为是DE中的元素并立即不再考虑。
注意:
在定义可用于一般情况(图而不是树)的回溯算法时, 必须探测任何状态的多次出现以便不会再次进入这种状 态而导致“死”循环。(如何实现?)
第二章 - 8
用以搜索状态空间的结构与策略
2.4.1 一般图搜索的实现
第二章 - 9
用以搜索状态空间的结构与策略
2.4.1 一般图搜索的实现
对假想状态空间的回溯搜索
第二章 - 10
用以搜索状态空间的结构与策略
2.4.1 一般图搜索的实现
回溯搜索算法
SL:状态列表,列出当前正在试验路径的状态。如 果发现目标,那么SL便包含了解路径上状态的有序 列表。
用以搜索状态空间的结构与策略
2.3 状态空间搜索的方向
使用哪种搜索策略取决于问题本身的结构。
目标导向的搜索有效地裁减了无关的搜索路径
第二章 - 5
用以搜索状态空间的结构与策略
2.3 状态空间搜索的方向
使用哪种搜索策略取决于问题本身的结构。
数据导向的搜索把无关的数据和它们的结论裁减,然后从很多可能的目标中确定一个目标
搜索空间 解答路径目标状态集 NhomakorabeaSg
第二章 - 15
用以搜索状态空间的结构与策略
2.4.2 一般图搜索的过程
状态空间搜索的基本思想: ①先把问题的初始状态作为当前扩展节点对其进行 扩展,生成一组子节点; ②检查问题的目标状态是否出现在这些子节点中。 若出现,则搜索成功,找到了该问题的解; ③若没出现,则再按照某种搜索策略从已生成的子 节点中选择一个节点作为当前扩展节点。 ④重复上述过程,直到目标状态出现在子节点中或 者没有可供扩展的节点为止。