第四讲 信息检索技术 4.2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
environment (A1)、surroundings (A2) • 检索式:A1 or A2
检索系统信息集合
A1
A2
2014/11/12
7
逻辑非检索
• 检索对象:没有蕾丝的连衣裙 • 检索概念:连衣裙-A,蕾丝-B • 检索式:A not B
检索系统信息集合
AB
2014/11/12
8
一、布尔检索
索标识中保留相同的部分,用相应的截词 符代替可变化部分。 • 截词符号
– 不同检索系统规定了不同的截词符号
2014/11/12
30
二、截词检索
2. 截词检索技术的基本类型
– 按截断字符数的多少
• 有限截断,用?表示,即在检索词后后截几个有限的字符, 如名词的单复数,动词的词尾变化等。如 输入stud???表示截 断处有0-3个字符变化,可检出study,studies,studied,studing.
计算机内存开辟三个工作区: 1)结果保留区(逆波兰输出区) 2)算符保留栈(算符栈) 3)检索词表存储区(检索词表)
提问的逆波兰变换规则
(a) 先从左到右逐个扫描提 问式字符,予以适当转移
(b) 遇检索词, 将其置入检索词表中, 词表地址送入逆波兰输出区
(c) 遇运算符, 若其优先级高于栈顶 运算符, 则压入栈内; 不高于则取出 栈顶运算符送入逆波兰输出区.依此 类推, 直到遇到高于栈顶运算符
2014/11/12
wn 或者within是EI
规定的字段检索符号
40
(2)二次检索
2014/11/12
41
三、限制检索
3. 限制检索的主要功能
– 限定检索结果在命中信息中的出现位置, 提高查准率
– 本质上是更为严格的受限布尔检索
2014/11/12
42
第三节 信息检索技术
一、布尔检索 二、截词检索 三、限制检索 四、位置检索 五、聚类检索 六、加权检索 七、多媒体检索
2014/11/12
10
逻辑算符的运算顺序
以DIALOG系统为例:
A1 or A2 or A3 and (B1 or B2) not C
4
5
2014/11/12
1 2
3
11
善用or
• 检索课题:环境污染问题 • 检索策略
– 检索词选择 • 环境:空气+水体+土壤 + …… • 污染:公害+破坏 + ……
2014/11/12
39
(1)字段限制检索
• 在DIALOG系统中
– 检索式
• (Microcomputer/DE,TI or personal computer/DE,TI) and PY>=2000
• 在EI系统中
– 检索式Baidu Nhomakorabea
• (Microcomputer or personal computer) wn DE or (Microcomputer or personal computer) wn TI and (>=2000) wn PY
2014/11/12
45
(1)邻接检索(proximity search)
• 邻接检索概念
– 以原始记录中的词间位置为对象的检索 – 最严格的位置检索
• 词位置检索的类型
– (W)算符和(nW)算符
• Word 或With,检出结果必须同检索式完全相同, 词序不能调换
2.布尔检索的基本类型
– 逻辑与检索 – 逻辑或检索 – 逻辑非检索
2014/11/12
5
逻辑与检索
• 检索课题:信息生态 • 检索概念:信息-A,生态—B • 检索式: A and B
检索系统信息集合
A
B
2014/11/12
6
逻辑或检索
• 检索课题:环境问题 • 检索概念:概念环境有多种表现形式,如
Browsing or Browsings or …
2014/11/12
35
第三节 信息检索技术
一、布尔检索 二、截词检索 三、限制检索 四、位置检索 五、聚类检索 六、加权检索 七、多媒体检索
2014/11/12
36
三、限制检索
1.限制检索的概念
– 即将检索范围限制在一定范围内的检索
2.限制检索的主要类型
第三节 信息检索技术
一、布尔检索 二、截词检索 三、限制检索 四、位置检索 五、聚类检索 六、加权检索 七、多媒体检索
2014/11/12
29
二、截词检索
1.截词检索的概念 • 截词(word truncation)
检索者将检索词汇在合适的地方截断 • 截词检索(word truncation) ,是指在检
1、了解和掌握各种文本信息检索的相关技 术 2、掌握信息检索非文本信息的检索技术 (图像、视频、声音)
第四讲 信息检索技术
一、布尔检索 二、截词检索 三、限制检索 四、位置检索 五、聚类检索 六、加权检索 七、多媒体检索
2014/11/12
4
一、布尔检索
1.布尔检索的概念
– 运用布尔算符联接各检索项组成表达用户信息 需求的检索式并将检索式与倒排档进行匹配与 比较的方法和技术
题 题 作者 作者 词1 键
2,…
词2
… … … … …… … ……
… … … … …… … ……
… … … … …… … ……
¾同记录检索:要求2个检索词出现在同一记录下 ¾同字段检索:要求2个检索词出现在记录的同一字段下 ¾同句检索:要求2个检索词出现在记录的同一个句子或短语中 ¾邻接检索:要求2个检索词具备一定邻接关系
检索指令表的生成
将逆波兰表达式加工成适当的可用于倒排文档检索的一系列检索指令。 逆波兰输出区、检索词表、检索指令表 工作区、工作区管理表
准波兰转换
这个方法是对福岛法的优化。它通过对逆波兰式的改 写,得到一个所需工作区最少的后缀表达式,而这种 最节省工作区的后缀式被称为“准波兰式”。
准波兰变换法
3.布尔检索的主要特点
– 优点
• 符合人类逻辑思维习惯 • 便于用户准确表达检索要求和便于系统实现
– 局限
• 对于某些检索要求仅使用布尔检索技术难以 准确表达,或虽可表达但形式上非常繁琐
2014/11/12
9
一、布尔检索
4.应用布尔检索应注意的问题
– 逻辑运算符的运算顺序 – 善用or – 慎用not
提问式 (A+B)*C+(D+E)*(F+G)
化为析取范式为
(A*C)+(B*C)+(D*F)+(D*G)+(E*F)+(E*G)
工作区使用情况:
(A*C)+(B*C)+(D*F)+(D*G)+(E*F)+(E*G)
① ② ①② ②③ ①③ ②③ ①③
③
④
④
④
④
④
① ② ①
② ①
提问化为范式法
优点:这种方法通过适当改变提问逻辑式的写法,采用逐 字扫描提问式的检索处理,不仅比福岛法减少了内存工作 区,而且处理速度也较快。将提问逻辑式化成析取(合取) 范式的工作可以让计算机自动完成。 缺点:提问式化为范式后,范式中同一检索项可能多次重 复出现,这样在检索时,访问倒排文档的次数也就随之增 加,从而增加了检索次数,给集合的逻辑运算带来多余的 负担。
(d) 遇”(”,无条件置入栈内
(e) 遇”)”, 则将栈内与其对应的左 括号之间的运算符盘出, 送入逆波 兰输出区.清除这对括号
(f) 遇” ·”, 栈内算子依后进先出顺 序出栈送入逆波兰输出区
课堂练习:将下列逻辑提问式进行逆波兰变换
A * B + C * (D + E ) AB*CDE+*+
(A + B)*(C +(D *(E + F *(G + H)))) . AB+CDEFGH+*+*+*
– 字段限制检索
• 限定检索词仅在某一字段中出现
– 二次检索
• 在检索结果中进行再次检索
2014/11/12
37
EI的字段符号
2014/11/12
38
(1)字段限制检索
• 字段限制符类型
– 主题字段:AB,TI ,DE ,CC,ID – 非主题字段:AU,CS,DT,JN,LA,PY等
• 例子
– 课题:查寻2000年以后有关个人计算机的文献 – 要求:主题词只出现在叙词与题名中
2014/11/12
43
四、位置检索
1.位置检索的概念
– 以原始自然语言文本中的词与词的特定位置 关系为对象的检索,又称全文检索、原文检 索和自由文本检索。
2.原文检索的主要类型
– 邻接检索 – 同句检索 – 同字段检索 – 同记录检索
2014/11/12
44
篇名
作者
关键词
摘要
标 副标 第一 第二 … 关键 关 … 句子1,句子
第四讲 信息检索技术
课程体系结构
用户需求 信 需求状态 息 状态转换 用 提问分析 户
匹匹 检 检 配配 索 索 框函 策 技 架数 略 术
检索服务与评价
检 系统描述
索 系 界面功能
统 界面设计
(工 具)
数据库
基本概念、基本理论、基本历史、基本方法与实例系统
基本信息环境
2014/11/12
2
主要内容
任何一个逻辑式都可以化成逻辑二叉树,其 中,逻辑式中的运算项为逻辑二叉树的树叶, 而运算符则为逻辑二叉树的根或子树的根。
准波兰转换
①A+B*(C-D) ②(A+B)*(C+D) ③(A+B)*C+(D+E)*(F+G)
+ A*
BCD
①
*
+
-
A BC D
②
+
*
*
+ C ++
AB
D EFG
③
准波兰变换法
– 检索式 (环境 OR 空气 OR 水体 OR 土壤OR……)AND (污染 OR 公害 OR 破坏OR……)
2014/11/12
12
慎用not
• 检索课题:计算机软件 • 检索策略
– 检索词选择
• Computer system = software + hardware
– 检索式 ((Computer or computers or computing or …)
– 按截断的位置
• 后截断(单复数、年代、作者、同根词) • 前截断 • 中间截断
2014/11/12
32
截词例子
• 例1:检索20世纪90年代有关物理方面 的文献
– 检索式:physic﹡×199?
• 例2:检索物理化学、生物化学、光化 学等方面的文献
– 检索式:﹡chemitry
• 例3:检索有关硫的颜色方面的文献。
准波兰变换法
提问式:A+B*(C-D)
+ A*
BCD
逻辑二叉树
+ *A BCD
+ *A -B CD
第一次调整 第二次调整
CD-B*A+
提问化为范式法
这种方法的出发点是通过改进提问式的书写来改善工作区的使 用状态,其理论依据为“任一提问逻辑式都可化成与之等价的 析取(合取)范式”。这是数理逻辑中的一条基本定律。
上述分析,发现规律: ① 当(子)树根的两棵子树不对称时,若先
处理大的那个分枝,占用的工作区个数少。 ② 其次,具有相同个数运算项组成的逻辑式,
其对应的逻辑树层次越多,所需工作区越少, 反之亦然。
准波兰变换法
总结,可以用以下方法实现提问式的准波兰变换 : ①首先把一个中缀表达的逻辑式化成逻辑二叉树树形 式 ②然后比较该逻辑二叉树每个层次上的两枝是否对称 ③若不对称把大的一枝调到左边,小枝移到右边 ④每个层次都经过比较调整之后,采用后序遍历法周 游该树,得到的后缀式即为准波兰式。
and software) NOT hardware
2014/11/12
13
提问的逆波兰变换
表达式
中缀表达式 前缀表达式
后缀表达式
特点
运算符在运算项中间 运算符在运算项前面
运算符在运算项后面
共同点
1)运算符个数一致 2)运算项个数一致,
且前后次序不变 3)前、后缀表达式
无括号,更简洁
提问的逆波兰变换
• 无限截断,用*表示,表示该词后可加任意个字符。使用无 限截词,所截词根不能太短,否则会输出许多无关文献,造 成误检。 如:computer *可检出 computers,computering,computered,computerization.
2014/11/12
31
二、截词检索
2.截词检索技术的基本类型
析取范式一般形式: (P11∧P12 ∧ … )∨ (P21∧P22 ∧ … ) ∨ … ∨ (Pn1∧Pn2 ∧ … ) 合取范式一般形式: (P11 ∨ P12∨ … )∧(P21 ∨ P22 ∨ … )∧ … ∧ (Pn1∨ Pn2 ∨ …)
提问化为范式法
运用这种方法,只需要在内存开辟4个工作区, 其中一个用来存放前次运算的中间结果,一个存 放当前运算的结果,另外两个存放当前的运算项。 由于中间结果能够立即投入下次运算,4个工作 区足够使用。
– 检索式:sul??ur ×corl?r
2014/11/12
33
截词例子
http://lib.uibe.edu.cn/tsg/Default.aspx
2014/11/12
34
二、截词检索
3.截词检索的主要功能
– 本质上相当于逻辑或运算,提高查全率 – 例:截词检索式brows* – 相当于:Browse or Browser or Browsers or
检索系统信息集合
A1
A2
2014/11/12
7
逻辑非检索
• 检索对象:没有蕾丝的连衣裙 • 检索概念:连衣裙-A,蕾丝-B • 检索式:A not B
检索系统信息集合
AB
2014/11/12
8
一、布尔检索
索标识中保留相同的部分,用相应的截词 符代替可变化部分。 • 截词符号
– 不同检索系统规定了不同的截词符号
2014/11/12
30
二、截词检索
2. 截词检索技术的基本类型
– 按截断字符数的多少
• 有限截断,用?表示,即在检索词后后截几个有限的字符, 如名词的单复数,动词的词尾变化等。如 输入stud???表示截 断处有0-3个字符变化,可检出study,studies,studied,studing.
计算机内存开辟三个工作区: 1)结果保留区(逆波兰输出区) 2)算符保留栈(算符栈) 3)检索词表存储区(检索词表)
提问的逆波兰变换规则
(a) 先从左到右逐个扫描提 问式字符,予以适当转移
(b) 遇检索词, 将其置入检索词表中, 词表地址送入逆波兰输出区
(c) 遇运算符, 若其优先级高于栈顶 运算符, 则压入栈内; 不高于则取出 栈顶运算符送入逆波兰输出区.依此 类推, 直到遇到高于栈顶运算符
2014/11/12
wn 或者within是EI
规定的字段检索符号
40
(2)二次检索
2014/11/12
41
三、限制检索
3. 限制检索的主要功能
– 限定检索结果在命中信息中的出现位置, 提高查准率
– 本质上是更为严格的受限布尔检索
2014/11/12
42
第三节 信息检索技术
一、布尔检索 二、截词检索 三、限制检索 四、位置检索 五、聚类检索 六、加权检索 七、多媒体检索
2014/11/12
10
逻辑算符的运算顺序
以DIALOG系统为例:
A1 or A2 or A3 and (B1 or B2) not C
4
5
2014/11/12
1 2
3
11
善用or
• 检索课题:环境污染问题 • 检索策略
– 检索词选择 • 环境:空气+水体+土壤 + …… • 污染:公害+破坏 + ……
2014/11/12
39
(1)字段限制检索
• 在DIALOG系统中
– 检索式
• (Microcomputer/DE,TI or personal computer/DE,TI) and PY>=2000
• 在EI系统中
– 检索式Baidu Nhomakorabea
• (Microcomputer or personal computer) wn DE or (Microcomputer or personal computer) wn TI and (>=2000) wn PY
2014/11/12
45
(1)邻接检索(proximity search)
• 邻接检索概念
– 以原始记录中的词间位置为对象的检索 – 最严格的位置检索
• 词位置检索的类型
– (W)算符和(nW)算符
• Word 或With,检出结果必须同检索式完全相同, 词序不能调换
2.布尔检索的基本类型
– 逻辑与检索 – 逻辑或检索 – 逻辑非检索
2014/11/12
5
逻辑与检索
• 检索课题:信息生态 • 检索概念:信息-A,生态—B • 检索式: A and B
检索系统信息集合
A
B
2014/11/12
6
逻辑或检索
• 检索课题:环境问题 • 检索概念:概念环境有多种表现形式,如
Browsing or Browsings or …
2014/11/12
35
第三节 信息检索技术
一、布尔检索 二、截词检索 三、限制检索 四、位置检索 五、聚类检索 六、加权检索 七、多媒体检索
2014/11/12
36
三、限制检索
1.限制检索的概念
– 即将检索范围限制在一定范围内的检索
2.限制检索的主要类型
第三节 信息检索技术
一、布尔检索 二、截词检索 三、限制检索 四、位置检索 五、聚类检索 六、加权检索 七、多媒体检索
2014/11/12
29
二、截词检索
1.截词检索的概念 • 截词(word truncation)
检索者将检索词汇在合适的地方截断 • 截词检索(word truncation) ,是指在检
1、了解和掌握各种文本信息检索的相关技 术 2、掌握信息检索非文本信息的检索技术 (图像、视频、声音)
第四讲 信息检索技术
一、布尔检索 二、截词检索 三、限制检索 四、位置检索 五、聚类检索 六、加权检索 七、多媒体检索
2014/11/12
4
一、布尔检索
1.布尔检索的概念
– 运用布尔算符联接各检索项组成表达用户信息 需求的检索式并将检索式与倒排档进行匹配与 比较的方法和技术
题 题 作者 作者 词1 键
2,…
词2
… … … … …… … ……
… … … … …… … ……
… … … … …… … ……
¾同记录检索:要求2个检索词出现在同一记录下 ¾同字段检索:要求2个检索词出现在记录的同一字段下 ¾同句检索:要求2个检索词出现在记录的同一个句子或短语中 ¾邻接检索:要求2个检索词具备一定邻接关系
检索指令表的生成
将逆波兰表达式加工成适当的可用于倒排文档检索的一系列检索指令。 逆波兰输出区、检索词表、检索指令表 工作区、工作区管理表
准波兰转换
这个方法是对福岛法的优化。它通过对逆波兰式的改 写,得到一个所需工作区最少的后缀表达式,而这种 最节省工作区的后缀式被称为“准波兰式”。
准波兰变换法
3.布尔检索的主要特点
– 优点
• 符合人类逻辑思维习惯 • 便于用户准确表达检索要求和便于系统实现
– 局限
• 对于某些检索要求仅使用布尔检索技术难以 准确表达,或虽可表达但形式上非常繁琐
2014/11/12
9
一、布尔检索
4.应用布尔检索应注意的问题
– 逻辑运算符的运算顺序 – 善用or – 慎用not
提问式 (A+B)*C+(D+E)*(F+G)
化为析取范式为
(A*C)+(B*C)+(D*F)+(D*G)+(E*F)+(E*G)
工作区使用情况:
(A*C)+(B*C)+(D*F)+(D*G)+(E*F)+(E*G)
① ② ①② ②③ ①③ ②③ ①③
③
④
④
④
④
④
① ② ①
② ①
提问化为范式法
优点:这种方法通过适当改变提问逻辑式的写法,采用逐 字扫描提问式的检索处理,不仅比福岛法减少了内存工作 区,而且处理速度也较快。将提问逻辑式化成析取(合取) 范式的工作可以让计算机自动完成。 缺点:提问式化为范式后,范式中同一检索项可能多次重 复出现,这样在检索时,访问倒排文档的次数也就随之增 加,从而增加了检索次数,给集合的逻辑运算带来多余的 负担。
(d) 遇”(”,无条件置入栈内
(e) 遇”)”, 则将栈内与其对应的左 括号之间的运算符盘出, 送入逆波 兰输出区.清除这对括号
(f) 遇” ·”, 栈内算子依后进先出顺 序出栈送入逆波兰输出区
课堂练习:将下列逻辑提问式进行逆波兰变换
A * B + C * (D + E ) AB*CDE+*+
(A + B)*(C +(D *(E + F *(G + H)))) . AB+CDEFGH+*+*+*
– 字段限制检索
• 限定检索词仅在某一字段中出现
– 二次检索
• 在检索结果中进行再次检索
2014/11/12
37
EI的字段符号
2014/11/12
38
(1)字段限制检索
• 字段限制符类型
– 主题字段:AB,TI ,DE ,CC,ID – 非主题字段:AU,CS,DT,JN,LA,PY等
• 例子
– 课题:查寻2000年以后有关个人计算机的文献 – 要求:主题词只出现在叙词与题名中
2014/11/12
43
四、位置检索
1.位置检索的概念
– 以原始自然语言文本中的词与词的特定位置 关系为对象的检索,又称全文检索、原文检 索和自由文本检索。
2.原文检索的主要类型
– 邻接检索 – 同句检索 – 同字段检索 – 同记录检索
2014/11/12
44
篇名
作者
关键词
摘要
标 副标 第一 第二 … 关键 关 … 句子1,句子
第四讲 信息检索技术
课程体系结构
用户需求 信 需求状态 息 状态转换 用 提问分析 户
匹匹 检 检 配配 索 索 框函 策 技 架数 略 术
检索服务与评价
检 系统描述
索 系 界面功能
统 界面设计
(工 具)
数据库
基本概念、基本理论、基本历史、基本方法与实例系统
基本信息环境
2014/11/12
2
主要内容
任何一个逻辑式都可以化成逻辑二叉树,其 中,逻辑式中的运算项为逻辑二叉树的树叶, 而运算符则为逻辑二叉树的根或子树的根。
准波兰转换
①A+B*(C-D) ②(A+B)*(C+D) ③(A+B)*C+(D+E)*(F+G)
+ A*
BCD
①
*
+
-
A BC D
②
+
*
*
+ C ++
AB
D EFG
③
准波兰变换法
– 检索式 (环境 OR 空气 OR 水体 OR 土壤OR……)AND (污染 OR 公害 OR 破坏OR……)
2014/11/12
12
慎用not
• 检索课题:计算机软件 • 检索策略
– 检索词选择
• Computer system = software + hardware
– 检索式 ((Computer or computers or computing or …)
– 按截断的位置
• 后截断(单复数、年代、作者、同根词) • 前截断 • 中间截断
2014/11/12
32
截词例子
• 例1:检索20世纪90年代有关物理方面 的文献
– 检索式:physic﹡×199?
• 例2:检索物理化学、生物化学、光化 学等方面的文献
– 检索式:﹡chemitry
• 例3:检索有关硫的颜色方面的文献。
准波兰变换法
提问式:A+B*(C-D)
+ A*
BCD
逻辑二叉树
+ *A BCD
+ *A -B CD
第一次调整 第二次调整
CD-B*A+
提问化为范式法
这种方法的出发点是通过改进提问式的书写来改善工作区的使 用状态,其理论依据为“任一提问逻辑式都可化成与之等价的 析取(合取)范式”。这是数理逻辑中的一条基本定律。
上述分析,发现规律: ① 当(子)树根的两棵子树不对称时,若先
处理大的那个分枝,占用的工作区个数少。 ② 其次,具有相同个数运算项组成的逻辑式,
其对应的逻辑树层次越多,所需工作区越少, 反之亦然。
准波兰变换法
总结,可以用以下方法实现提问式的准波兰变换 : ①首先把一个中缀表达的逻辑式化成逻辑二叉树树形 式 ②然后比较该逻辑二叉树每个层次上的两枝是否对称 ③若不对称把大的一枝调到左边,小枝移到右边 ④每个层次都经过比较调整之后,采用后序遍历法周 游该树,得到的后缀式即为准波兰式。
and software) NOT hardware
2014/11/12
13
提问的逆波兰变换
表达式
中缀表达式 前缀表达式
后缀表达式
特点
运算符在运算项中间 运算符在运算项前面
运算符在运算项后面
共同点
1)运算符个数一致 2)运算项个数一致,
且前后次序不变 3)前、后缀表达式
无括号,更简洁
提问的逆波兰变换
• 无限截断,用*表示,表示该词后可加任意个字符。使用无 限截词,所截词根不能太短,否则会输出许多无关文献,造 成误检。 如:computer *可检出 computers,computering,computered,computerization.
2014/11/12
31
二、截词检索
2.截词检索技术的基本类型
析取范式一般形式: (P11∧P12 ∧ … )∨ (P21∧P22 ∧ … ) ∨ … ∨ (Pn1∧Pn2 ∧ … ) 合取范式一般形式: (P11 ∨ P12∨ … )∧(P21 ∨ P22 ∨ … )∧ … ∧ (Pn1∨ Pn2 ∨ …)
提问化为范式法
运用这种方法,只需要在内存开辟4个工作区, 其中一个用来存放前次运算的中间结果,一个存 放当前运算的结果,另外两个存放当前的运算项。 由于中间结果能够立即投入下次运算,4个工作 区足够使用。
– 检索式:sul??ur ×corl?r
2014/11/12
33
截词例子
http://lib.uibe.edu.cn/tsg/Default.aspx
2014/11/12
34
二、截词检索
3.截词检索的主要功能
– 本质上相当于逻辑或运算,提高查全率 – 例:截词检索式brows* – 相当于:Browse or Browser or Browsers or