第二讲 计算机检索技术及搜索引擎应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实质 截词检索就是用截词符号将检索词截断,用 检索词的片段进行匹配运算。 注意 在截断时,截断的词干不能太短,词干一 般应在3个字符以上,以免增加检索时间, 产生误检。
1.3 截词检索技术
截词形式
按截词的字符数量 有限截断、无限截断 按截词的位置 右截断、左截断、中间截断
1.3.1 按截词数量截断
1.2.3 其他位置逻辑检索
(C)——(Citation)
表示两侧的检索词只能出现在同一条记录 同一条记录中, 且对它们的相对位置或次序没有任何限制,作 用和布尔算符and完全相同
1.2.4 位置逻辑检索技术
(W) )
(N) )
严谨
(S) S (F)
位置逻辑算符 的优先顺序
C
宽松
返回
1.3 截词检索技术
返 回
(W)/()举例
检索式 American () Literature 命中
有关American Literature或 有关 或 American,Literature的文献 , 的文献
返 回
(nW)举例
检索式 knowledge(1W)economy 命中
有关knowledge economy或 有关 或 knowledge-based economy的文献 的文献
(W)/() ) ()
(nW)
此算符两侧的检索词必须 按输入时的前后顺序排列 ,而且所连接的词之间除 可以有一个空格或一个标 点符号或一个链接号外不 得夹有任何其他单词或字 母
举例
允许在连接的两个词之 间最多夹入n 间最多夹入n个其他单 元词, 元词,只强调插入单元 词个数没限定插入单元 词的具体范围, 词的具体范围,同时词 序不能颠倒
举例
严密性强
严密性差
1.2.1 同词位检索
(N) )
(nN)
此算符两侧的检索词必 须紧密相连, 须紧密相连,所连接的 词间不允许插入任何其 他单词或字母, 他单词或字母,但词序 可以颠倒
允许两个检索词之间最 多可以插入n个单词 个单词, 多可以插入 个单词, 且这两个检索词的词序 任意
举例
举例Baidu Nhomakorabea
(N)举例
返回
1.1.3 逻辑“非” 逻辑“
运算符:NOT 或 一种排斥关系的组配,用来从原来的检索范 检索出的记录含有检 围中排除不需要的概念。 索词A 索词A,但同时不含 表达式: 适用于排除含有某个
指定检索词的记录
A not B 或 A-B A
检索词B 检索词B
B
2.1.3 逻辑“非” 逻辑“
作用 缩小检索范围,增强检索的准确性。但使用不当, 易排除有用文献信息,从而导致漏检 举例 检索有关能源方面的文献信息,但不包括核能。 energy not nuclear 使用的注意事项 两个关系紧密的检索词不宜用not
后截断注意事项
后截断主要使用于如下几种情况:
检索词的单复数的描述; 如:book? 同根词的表达; 如:chemi*可以检索出chemical、 chemistry、chemist等同根词 年代的表达; 如:20??(21世纪),199?(20世纪90年代) 作者 如:Moyer*可以检索出所有姓Moyer的作者
返 回
2.2.2 同字段检索
举 例
表示此算符两 侧的检索词必 须同时出现在 同一字段内。 同一字段内。 如:篇名字段 、文摘字段、 文摘字段、 叙词字段等, 叙词字段等, 但两词的词序 中间插入的次 数不限。 数不限。
(F) ) (L) )
举 例
表示两个检索 词之间存在从 属关系或限制 关系。 关系。如果其 中一个为一级 主题词, 主题词,另一 个就为二级主 题词。 题词。
中截断
1.把截词 1.把截词 符号置 放在一 个检索 词的中 间; 2.中截断 2.中截断 不允许 有限截 断
举例
举例
举例 返回
后截断举例
输入: computer * 检索结果
computeracy computerise computerization computers
隐含OR运 隐含OR运 OR 算特性
检索式 chemistry(N)physics 命中
含有chemistry physics或physics 含有 或 chemistry的文献 的文献
返 回
(nN)举例
检索式 economic(2N)recovery 命中
含有economic recovery或recovery 含有 或 of the economic的文献 的文献
1.2 位置逻辑检索技术
Dialog系统中的几种位置算符
同词位检索 (W)——(With / Word)、 (nW) (N)——(NEAR)、(nN) 同字段检索 (F)——(Field) (L)——(Link) 其他位置算符 (S)——(Subfield) (C)——(Citation)
1.2.1 同词位检索
1.4.1 字段限制检索
字段种类
篇名字段、文摘字段、 篇名字段、文摘字段、叙词字 段、分类类目等
基本字段:表达文献内容特征的字段
作者、机构、文献类型、 作者、机构、文献类型 辅助字段:表达文献外表特征的字段 、语种 等
字段检索形式 1. 通过菜单选择检索字段 2. 用命令的方式输入字段限制算符
返回
含有检索词A 含有检索词A和检 索词B 索词B中的任何一 个即算命中
A or B 或 A+B A B
1.1.2 逻辑“或” 逻辑“
作用 扩大检索范围,防止漏检,提高查全率。 举例 检索“计算机” 方面的文献信息。 计算机 or 电脑 使用的注意事项 如果检索词涉及表达整体概念,要针对具体 情况分别列出每个表达部分概念的检索词,否则 将出现漏检。
返 回
前截断举例
输入: *computer 检索结果 microcomputer minicomputer
返 回
中截断举例
输入:
organi ? ation
检索结果
organization organisation
中截断主要使用于如下几种情况:
检索词的拼写方式存在美式、英式之分; 检索词在某个元音位置出现的单复数不同; 如:man与men
有限截断 指限定截去有限个字符。 截断符号 ??——截断1个字符 ??—— 1 ???——截断2个字符 依此类推。 举例 输入:product?? 结果:含有product、products的记录
1.3.1 按截词数量截断
无限截断 检索词词干可变化两个以上字符时,连续 使用若干个“ ? ”或“ * ”代替变化字符。 用法 可同时查找含有该词干的所有文献记录, 亦可用于年代的查找。
返 回
1.2.3 其他位置逻辑检索
(S)——(Subfield)
表示在此算副辆车的检索词必须出现在同一个子字段 同一个子字段 中,顺序不变,中间可插入词数不限。
举例
(basic or cobol or pascal)(S)(program* or compil*) Basic (S) program* basic (S) compil* Cobol (S) program* cobol (S) compil* Pascal (S) program* pascal (S) compil*
1.3.2 其他截断方式
1.最常用的 1.最常用的 截词检索技 术; 2.放在字符 2.放在字符 串右方, 串右方,表 示其右有限 或无限个字 符不影响该 字符串的检 索; 3.实质 实质: 3.实质:后 截断是前方 一致检索
后截断
前截断
1.将截词符 1.将截词符 号放在一 个字符串 左方, 左方,表 示其左的 有限或无 限个字符 不影响该 字符串的 检索; 检索; 2.实质 实质: 2.实质:后 方一致检 索
返回
1.1 布尔逻辑检索技术
• 布尔逻辑运算符的运算顺序
NOT
AND
OR
优先级高
优先级低
返回
1.2 位置逻辑检索技术
位置逻辑检索 利用位置逻辑算符限定检索词之间的位置,或指 定检索词在记录中某一特定位置进行检索。位置 算符又称邻接运算符。 位置逻辑检索的作用 表达各个检索词之间的顺序与相对位置关系。 与布尔逻辑检索的区别 使用布尔逻辑检索时,计算机只判断参加运算的 检索词在数据库记录中出现与否,不能确定检索 词之间的相对位置关系。而通过与位置算符配合 使用可以减少检索误差。
(L)举例
检索式 control(L)stability 命中
标题含有control和stability两 标题含有control和stability两 control 个检索词的文献记录。 个检索词的文献记录。
返 回
(F)举例
检索式 economic(F)knowledge 命中
标题为“ 标题为“the Economic Impact Knowledge-Based” of Knowledge-Based”的文献记 录。 原因: 原因: 算符两侧的检索词在同一标题字段中
1.4.2 使用限制符检索
Web检索方式通常通过菜单选择检索字段,在 联机Web高级检索中,还可以用表示语种、文 献类型、出版国家、出版年代等额字段标识符 来限制检索范围。在Dialog系统中,用专门的字 符表示不同字段。
1.4.2 使用限制符检索
前缀限制字符 查找2004 2004年出版的英文或法文的 查找2004年出版的英文或法文的 AU= 宏观经济学方面的期刊 限查特定作者 JN= 限查特定刊名 检索式: LA= 检索式: 限查特定语种 PN= (macroeconomics/de, ti, ab) AND 限查特定专利号 PY= PY=2004 AND (LA=EN OR FR) 限查特定年代 后缀限制符 DT=Serial AND /TI 限在题目中查 举例 限制字符的使用 /AB 限在文摘中查 /DE 限在叙词标引中查
A and B 或 A*B A B
词必须同时出现 在检索字段中
1.1.1 逻辑“与” 逻辑“
作用 缩小检索范围,提高查准率。 举例 检索“人口控制”或者“控制人口”方面的 文献信息。 人口 and 控制
返回
1.1.2 逻辑“或” 逻辑“
运算符:OR 或 + 用于检索词并列关系(同义词、近义词)的 检索出的记录含有检 组配,实现检索词概念范围的并集。 索词A或者检索词B 表达式: 在文献记录中只要
检索 配
检索表达式
1.2 1.1
布尔 逻辑 位置 逻辑
1.3
截词
字段 限制 其他 加权
1.4 1.5
1.6
1.1 布尔逻辑检索技术
布尔逻辑检索技术就是利用布尔逻辑算符进行 检索项的逻辑组配,用以表达检索者的提问概 念。 布尔逻辑算符指规定检索词之间相互关系的运 算符号,在检索表达式中起着逻辑组配的作用
简 单
检索词 检索词
组 配
复杂概念的 检索式
检索词
1.1 布尔逻辑检索技术
常用的布尔逻辑运算符:
逻辑“与(AND)” 逻辑“或(OR)” 逻辑“非(NOT)”
运算顺序
1.1.1 逻辑“与” 逻辑“
运算符:AND 或 * 检出同时含有检 索词A和检索词 索词 和检索词B 和检索词 用于交叉概念或限定关系的组配,实现检 的记录 索词概念范围的交集。 表达式: 两侧的检索 And两侧的检索 And
返回
1.5 加权检索技术
与其他检索技术的区别
其他检索技术 判定检索词或字符串在数据 侧重点 库中,与别的检索词或字符 串是什么关系 加权检索技术 判定检索词或字符串在满足检索 逻辑后对文献信息命中与否的影 响程度
基本方法 1. 在每个检索词后面给定表示重要程度的数值,称为权 值。 2. 检索时,查找这些检索词在数据库记录中是否存在 3. 计算存在的检索词的权值总和。 4. 权值之和达到或超过预先给定的阙值,即为命中
第二讲 计算机检索技 术及搜索引擎应用
必须找? 哪里找? 如何找?
第一节 计算机检索技术
分 子
识别
键 词
检 索
连 接 组
种 运 算
检 索 表
计算机检索的实质:匹配运算 式 、 词
检索提问
计算机检索技术
检 索
数据库 配 符 达 等 名 : 。 , 扫描、 式 扫描、匹配 检索表达式 。 称 主 把 : 、 题 检 运 分 词 索 用 类 、 词 各 号 关
作用
扩大检索范围,提高检全率,减少检索词的输入量
返 回
1.4 字段限制检索技术
在检索系统中,通常有一些缩小或约束检 索结果的方法,称为限制检索。 限制检索的方式
1 2
字段限制检索
使用限制符检索
1.4.1 字段限制检索
特点及作用 使检索出的文献信息达到一定的专指度。将检索 词限制在记录的某个特定字段内检索,不但可以 减轻机器负担,提高运算速度,还可以使检索结 果更准确。 用法 将需要检索的内容限制在相关的字段内。 如:作者姓名 关键词 作者字段 关键词或题名字段
相关文档
最新文档