第三章 计算机信息检索技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10/13/2015
计算机信息检索技术
10/13/2015
计算机信息检索技术
2.截词检索
• 在实际检索中,常遇到词干相同、词义相近的检索词,或同 一词的单、复数形式,动、名词形式,英美拼法等。 • 所谓截词检索,是指在检索标识中保留相同的部分,用相应 的截词符代替可变化部分。检索中计算机会将所有含有相同 部分标识的记录全部检索出来。常用“?”、“*”符号表示。 • 用截词符号“?”、“*”或“$”加在检索词的前后或中间, 以检索一组概念相关或同一词根的词。 • 这种检索方式可以扩大检索范围,提高查全率。 • 截词运算符号通常有两个:“?、*” 。其在不同系统中表 示的含义不同。
截词算符
*:无限截断。如:Optic* 检索结果 中包括以optic 开头后面加任意多个 字母的词optic, optics, optical 等。 $:强调语义,检索出与该词根具有同 样语意的词。如:$manage 将检出 managers, managerial 和management 等词。
CSA(剑桥 within x:表示两词之间不得多于 *:无限截断。如: “patent*”,可 以检索到 patent、patents、 科学文摘) x 个词, 词序不限。 如:
可检索到fiberfibreproquest同pqdd同pqdd4252018有关企业知识产权研究检索式检索结果表示and表示or限定篇名字段20042006企业知识产权191篇准确度最高漏检大企业知识产权404漏检率较高企业集团公司知识产权466适合综述性文献企业集团公司知识产权专利权520查全率查准率较高商标权著作权名称权企业集团公司知识产权专利权137缩小范围效果最佳商标权著作权名称权保护4252018检索词的选择逻辑算符的使用同义词近义词的扩展检索字段的选择等变化对检索结果数量的多少检索的查全和查准有很大影响4252018分析检索主题明确检索要求确定学科范畴选择数据库注意数据库所收录文献的学科文献类型回溯年代语种更新频率等选择检索字段您所输入的检索词出现的位置如
10/13/2015
计算机信息检索技术
加“”,命中8125条
10/13/2015
计算机信息检索技术
5.字段检索
• 组成数据库的最小单位是记录,一条完整记录的每个著录事 项为字段。 • 在许多检索检索系统中,为了提高查全率或者查准率,需要 将检索过程限制在特定的字段中,即字段检索。
10/13/2015
SDOL(Else vier 电子 期刊全文 库)
10/13/2015
*:无限截断。如: “patent*”,可 以检索到 patent、patents、 patented 等; ?:有限截断。如: "wom?n",可以检索到woman 和women。 “fib??”,可检索到fiber 和 fibre。
10/13/2015
计算机信息检索技术
中间截断
• 又称作“通用字符法”或“内嵌字符截断”。在检索词中间 加一个或几个?号,主要解决一些英美拼写不同,单复数形 式的不同的词的输入,可简化输入。 如:输入wom?n可检出woman,women 输入defen?e可检出defence、defense
10/13/2015
10/13/2015
计算机信息检索技术
前截断
• 将截词符号放在检索字符串的左方,以表示其左边不管截去 有限或无限个字符,只要数据库中具有与截词符后面部分字 符相同的检索词的文献, 即为命中文献。这种方式也称为后 方一致。 如:*chemistry microchemistry、macrochemistry • 目前使用较少
计算机信息检索技术
逻辑非
• 去掉一个主题中某一部分的主题,用于缩小检索范围,提高 查准率; • 用运算符号“NOT”或“-”连接两检索词 例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米-甜玉米 例2 查“国外有关数字图书馆方面”的文献 检索式=数字图书馆-国内
10/13/2015
计算机信息检索技术
10/13/2015
计算机信息检索技术
1.布尔逻辑检索
• 运用布尔逻辑算符(Boolean operators)对检索词进行逻辑组 配,表达两个概念之间的逻辑关系。 • 布尔逻辑算符主要有: AND OR NOT 在中文数据库里,布尔逻辑运算符有时用AND、OR、NOT表示, 有时用“*”、“+”及”-“ 。
计算机信息检索技术
西文数据库常用字段 中文数据库常用字段 字段名称 字段代码
Abstracts Author Corporate Source CS 、Organization、 Company Descriptor DE 、Subject Document Type AB AU CS DE DT 文摘 作者 机构名称 叙词/主题词 文献类型
137
(缩小范围效果最Байду номын сангаас)
10/13/2015
• 检索结果表明: • 检索词的选择、逻辑算符的使用、同义词近义词 的扩展、检索字段的选择等变化,对检索结果数 量的多少、检索的查全和查准有很大影响
10/13/2015
计算机检索程序与步骤 二.计算机检索程序与步骤
计算机信息检索技术
数据库
ISI Proceedings (ISI 会 议录索引)
位置算符
截词算符
SAME:同句算符,Channel same *:无限截断。如“patent*”,可 tunnel, 表示channel 和tunnel 以检索到 patent、patents、 出现在同一句子中才符合检索条件。 patented等; ?:有限截断。如 "wom?n",可以检索到woman 和 women。“fib??”可检索到fiber 和 fibre。
10/13/2015
计算机信息检索技术
无限截词
• 不限制被截断的字符数量。在检索词后加一个“*“,表示该 词后可加任意个字符。 • 使用无限截词,所截词根不能太短,否则会输出许多无关文 献,造成误检。 例如:educat* 可检出educator, educators, educated, educating, education 如:输入computer?表示可检出computer和computers. 如:输入stud? 表示可检出 study,studies,studied,studing.
10/13/2015
计算机信息检索技术
4.词组检索
• 将一个词组或短语用双引号“ ”括起作为一个独立运算单元, 进行严格匹配,以提高检索准确度。 如:“Global Positioning System”, 只检索出规定 字段中包含完整词组的记录。
10/13/2015
计算机信息检索技术
不加“”,命中13815条
同PQDD
检索示例:有关“企业知识产权研究”
检索式 检索结果
(*表示AND,+表示OR,限定篇名字段) (2004-2006)
1
2
企业知识产权
企业*知识产权
191篇(准确度最高漏检大)
404 466 520 (漏检率较高 ) (适合综述性文献) (查全率查准率较高)
3 (企业+集团+公司)* 知识产权 4 (企业+集团+公司)* (知识产权+专利权 +商标权+著作权+名称权) 5 (企业+集团+公司)* (知识产权+专利权 +商标权+著作权+名称权)* 保护
计算机信息检索技术
有限截词
• 即在检索词后截去有限的字母,如名词的单复数,动词的词 尾变化等。 例如: 输入computer??表示有0-2个字母变化,可检出 computer和computers. 输入stud???表示截断处有0-3个字母变化,可检出 study, studies, studied。
10/13/2015
计算机信息检索技术
3.位置算符SAME
• 功能:两词出现在同一自然句中,其词序与词量不受限制(nW) (SCI中专用) 表达式:Education SAME school 检索结果:Education 和school两词出现在同一句子中即 可。 特别注意事项:不是所有的检索系统都支持位置算符, 不同的检索系统对位置算符有不同的表示符,同一位置算符 在不同检索系统中指代的含义可能也不尽相同。
10/13/2015
计算机信息检索技术
• 按截断的位置分: 后截断 前截断 中间截断 • 按截词的字符数量分: 有限截词 无限截词
10/13/2015
计算机信息检索技术
后截断
• 在检索词后(右方)截断有限或无限的字母。 如:librar* library、librarian、libraries…… • 主要用于词的单复数检索、词根检索(socio*)、年代检索 (199*)
“women within 8 movement” 。 patented 等; ?:有限截断。如: "wom?n",可以检索到woman 和women。 “fib??”,可检索到fiber 和 fibre。 ADJ:表示两词相邻,词序不变, 与短语检索的结果相同; NEAR 或 NEAR(N):表示两词中间可插入 少于或等于N 个单词,词序不限, 如果不使用(N),系统默认值为 10。
计算机信息检索技术
武汉大学图书馆 理科学科馆员 欧懿
10/13/2015
本章主要内容
• 计算机信息检索技术 • 检索策略的制定与检索实施步骤 • 检索结果的评价与检索策略的调整
10/13/2015
计算机信息检索技术 一.计算机信息检索技术
• 在进行计算机检索时,有时有一些比较复杂的课题,如: “计算机信息检索”,既涉及计算机,又涉及信息检索,这 时候就要编制出满足要求的计算机检索式,它是机检的基础。 • 布尔逻辑检索 • 截词检索 • 位置检索 • 词组检索 • 字段限定检索
10/13/2015
计算机信息检索技术
逻辑或(OR 或+ )
• 乙肝病毒的研究 • 检索词: 乙肝 乙型肝炎 HBV Hepatitis B virus
• 检索式: 乙肝OR 乙型肝炎OR HBV Hepatitis B virus OR HBV
10/13/2015
计算机信息检索技术
10/13/2015
10/13/2015
计算机信息检索技术
逻辑与(逻辑乘)
• 表示概念的相交、限定,缩小检索范围,提高检准率。 • 用运算符号:AND 或* 连接检索词 • A B A AND B
10/13/2015
计算机信息检索技术
汽车与飞机发动机
A=汽车发动机
A
B
B=飞机发动机
A and B 逻辑“与”运算
10/13/2015
计算机信息检索技术
• 人类活动对群落多样性的影响 • 检索概念: 人类活动群落多样性影响 • 检索式 人类活动AND 群落多样性 人类活动AND 群落多样性AND 影响
10/13/2015
计算机信息检索技术
人类活动 and 群落多样性
10/13/2015
计算机信息检索技术
逻辑或(逻辑乘)
• 表示概念的平行、并列,用于扩大检索范围,提高查全率 • 用运算符“OR” 或“+”连接两检索词 • A B A OR B
*:无限截断。如: “patent*”, 可以检索到 patent、patents、 patented 等; ?:有限截断。如: "wom?n",可以检索到woman 和 women。“fib??”,可检索到 fiber 和 fibre。
PQDD(博硕士 W/n:表示两词之间最多可插入n 个 论文数据库) 单词且词序不限。如:Education w/5 intenet 表示education 和 internet 之间可以插入最多5 个 词 ,并且前后位置可以颠倒; Pre/n:表示两词之间最多可插入n 个单词,且词序不变。如:U.S pre/n economic policy 可检出U.S aid economic policy, 或 U.S wartime economic policy 。 ProQuest 10/13/2015 同PQDD
数据库
EI(工程 索引)
位置算符
NEAR/n:表示两词中间可插入不超 过n 个单词,词序不限。如: Solar NEAR/2 energy ONEAR/n: 表示两词中间可插入不超过n 个单 词,词序不变 。如:Avalanche ONEAR/0 diodes,将检出 Avalanche diodes
Full-text
ISSN Journal Name JN 、Publication Title Keyword KW 、Topic Language Publication Year Title
10/13/2015
FT
ISSN JN KW LA PY TI
全文
国际标准连续出版物号 期刊名称 关键词 语言 出版年 题名
AND、OR、NOT的综合应用
• 运算顺序:NOT>AND>OR • 可通过( )来改变运算的优先顺序 • 例:乙肝病毒受体的筛选 检索词: HBV、Hepatitis B virus、receptor、screen 检索式: (HBV OR Hepatitis B virus) AND receptor AND screen
计算机信息检索技术
10/13/2015
计算机信息检索技术
2.截词检索
• 在实际检索中,常遇到词干相同、词义相近的检索词,或同 一词的单、复数形式,动、名词形式,英美拼法等。 • 所谓截词检索,是指在检索标识中保留相同的部分,用相应 的截词符代替可变化部分。检索中计算机会将所有含有相同 部分标识的记录全部检索出来。常用“?”、“*”符号表示。 • 用截词符号“?”、“*”或“$”加在检索词的前后或中间, 以检索一组概念相关或同一词根的词。 • 这种检索方式可以扩大检索范围,提高查全率。 • 截词运算符号通常有两个:“?、*” 。其在不同系统中表 示的含义不同。
截词算符
*:无限截断。如:Optic* 检索结果 中包括以optic 开头后面加任意多个 字母的词optic, optics, optical 等。 $:强调语义,检索出与该词根具有同 样语意的词。如:$manage 将检出 managers, managerial 和management 等词。
CSA(剑桥 within x:表示两词之间不得多于 *:无限截断。如: “patent*”,可 以检索到 patent、patents、 科学文摘) x 个词, 词序不限。 如:
可检索到fiberfibreproquest同pqdd同pqdd4252018有关企业知识产权研究检索式检索结果表示and表示or限定篇名字段20042006企业知识产权191篇准确度最高漏检大企业知识产权404漏检率较高企业集团公司知识产权466适合综述性文献企业集团公司知识产权专利权520查全率查准率较高商标权著作权名称权企业集团公司知识产权专利权137缩小范围效果最佳商标权著作权名称权保护4252018检索词的选择逻辑算符的使用同义词近义词的扩展检索字段的选择等变化对检索结果数量的多少检索的查全和查准有很大影响4252018分析检索主题明确检索要求确定学科范畴选择数据库注意数据库所收录文献的学科文献类型回溯年代语种更新频率等选择检索字段您所输入的检索词出现的位置如
10/13/2015
计算机信息检索技术
加“”,命中8125条
10/13/2015
计算机信息检索技术
5.字段检索
• 组成数据库的最小单位是记录,一条完整记录的每个著录事 项为字段。 • 在许多检索检索系统中,为了提高查全率或者查准率,需要 将检索过程限制在特定的字段中,即字段检索。
10/13/2015
SDOL(Else vier 电子 期刊全文 库)
10/13/2015
*:无限截断。如: “patent*”,可 以检索到 patent、patents、 patented 等; ?:有限截断。如: "wom?n",可以检索到woman 和women。 “fib??”,可检索到fiber 和 fibre。
10/13/2015
计算机信息检索技术
中间截断
• 又称作“通用字符法”或“内嵌字符截断”。在检索词中间 加一个或几个?号,主要解决一些英美拼写不同,单复数形 式的不同的词的输入,可简化输入。 如:输入wom?n可检出woman,women 输入defen?e可检出defence、defense
10/13/2015
10/13/2015
计算机信息检索技术
前截断
• 将截词符号放在检索字符串的左方,以表示其左边不管截去 有限或无限个字符,只要数据库中具有与截词符后面部分字 符相同的检索词的文献, 即为命中文献。这种方式也称为后 方一致。 如:*chemistry microchemistry、macrochemistry • 目前使用较少
计算机信息检索技术
逻辑非
• 去掉一个主题中某一部分的主题,用于缩小检索范围,提高 查准率; • 用运算符号“NOT”或“-”连接两检索词 例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米-甜玉米 例2 查“国外有关数字图书馆方面”的文献 检索式=数字图书馆-国内
10/13/2015
计算机信息检索技术
10/13/2015
计算机信息检索技术
1.布尔逻辑检索
• 运用布尔逻辑算符(Boolean operators)对检索词进行逻辑组 配,表达两个概念之间的逻辑关系。 • 布尔逻辑算符主要有: AND OR NOT 在中文数据库里,布尔逻辑运算符有时用AND、OR、NOT表示, 有时用“*”、“+”及”-“ 。
计算机信息检索技术
西文数据库常用字段 中文数据库常用字段 字段名称 字段代码
Abstracts Author Corporate Source CS 、Organization、 Company Descriptor DE 、Subject Document Type AB AU CS DE DT 文摘 作者 机构名称 叙词/主题词 文献类型
137
(缩小范围效果最Байду номын сангаас)
10/13/2015
• 检索结果表明: • 检索词的选择、逻辑算符的使用、同义词近义词 的扩展、检索字段的选择等变化,对检索结果数 量的多少、检索的查全和查准有很大影响
10/13/2015
计算机检索程序与步骤 二.计算机检索程序与步骤
计算机信息检索技术
数据库
ISI Proceedings (ISI 会 议录索引)
位置算符
截词算符
SAME:同句算符,Channel same *:无限截断。如“patent*”,可 tunnel, 表示channel 和tunnel 以检索到 patent、patents、 出现在同一句子中才符合检索条件。 patented等; ?:有限截断。如 "wom?n",可以检索到woman 和 women。“fib??”可检索到fiber 和 fibre。
10/13/2015
计算机信息检索技术
无限截词
• 不限制被截断的字符数量。在检索词后加一个“*“,表示该 词后可加任意个字符。 • 使用无限截词,所截词根不能太短,否则会输出许多无关文 献,造成误检。 例如:educat* 可检出educator, educators, educated, educating, education 如:输入computer?表示可检出computer和computers. 如:输入stud? 表示可检出 study,studies,studied,studing.
10/13/2015
计算机信息检索技术
4.词组检索
• 将一个词组或短语用双引号“ ”括起作为一个独立运算单元, 进行严格匹配,以提高检索准确度。 如:“Global Positioning System”, 只检索出规定 字段中包含完整词组的记录。
10/13/2015
计算机信息检索技术
不加“”,命中13815条
同PQDD
检索示例:有关“企业知识产权研究”
检索式 检索结果
(*表示AND,+表示OR,限定篇名字段) (2004-2006)
1
2
企业知识产权
企业*知识产权
191篇(准确度最高漏检大)
404 466 520 (漏检率较高 ) (适合综述性文献) (查全率查准率较高)
3 (企业+集团+公司)* 知识产权 4 (企业+集团+公司)* (知识产权+专利权 +商标权+著作权+名称权) 5 (企业+集团+公司)* (知识产权+专利权 +商标权+著作权+名称权)* 保护
计算机信息检索技术
有限截词
• 即在检索词后截去有限的字母,如名词的单复数,动词的词 尾变化等。 例如: 输入computer??表示有0-2个字母变化,可检出 computer和computers. 输入stud???表示截断处有0-3个字母变化,可检出 study, studies, studied。
10/13/2015
计算机信息检索技术
3.位置算符SAME
• 功能:两词出现在同一自然句中,其词序与词量不受限制(nW) (SCI中专用) 表达式:Education SAME school 检索结果:Education 和school两词出现在同一句子中即 可。 特别注意事项:不是所有的检索系统都支持位置算符, 不同的检索系统对位置算符有不同的表示符,同一位置算符 在不同检索系统中指代的含义可能也不尽相同。
10/13/2015
计算机信息检索技术
• 按截断的位置分: 后截断 前截断 中间截断 • 按截词的字符数量分: 有限截词 无限截词
10/13/2015
计算机信息检索技术
后截断
• 在检索词后(右方)截断有限或无限的字母。 如:librar* library、librarian、libraries…… • 主要用于词的单复数检索、词根检索(socio*)、年代检索 (199*)
“women within 8 movement” 。 patented 等; ?:有限截断。如: "wom?n",可以检索到woman 和women。 “fib??”,可检索到fiber 和 fibre。 ADJ:表示两词相邻,词序不变, 与短语检索的结果相同; NEAR 或 NEAR(N):表示两词中间可插入 少于或等于N 个单词,词序不限, 如果不使用(N),系统默认值为 10。
计算机信息检索技术
武汉大学图书馆 理科学科馆员 欧懿
10/13/2015
本章主要内容
• 计算机信息检索技术 • 检索策略的制定与检索实施步骤 • 检索结果的评价与检索策略的调整
10/13/2015
计算机信息检索技术 一.计算机信息检索技术
• 在进行计算机检索时,有时有一些比较复杂的课题,如: “计算机信息检索”,既涉及计算机,又涉及信息检索,这 时候就要编制出满足要求的计算机检索式,它是机检的基础。 • 布尔逻辑检索 • 截词检索 • 位置检索 • 词组检索 • 字段限定检索
10/13/2015
计算机信息检索技术
逻辑或(OR 或+ )
• 乙肝病毒的研究 • 检索词: 乙肝 乙型肝炎 HBV Hepatitis B virus
• 检索式: 乙肝OR 乙型肝炎OR HBV Hepatitis B virus OR HBV
10/13/2015
计算机信息检索技术
10/13/2015
10/13/2015
计算机信息检索技术
逻辑与(逻辑乘)
• 表示概念的相交、限定,缩小检索范围,提高检准率。 • 用运算符号:AND 或* 连接检索词 • A B A AND B
10/13/2015
计算机信息检索技术
汽车与飞机发动机
A=汽车发动机
A
B
B=飞机发动机
A and B 逻辑“与”运算
10/13/2015
计算机信息检索技术
• 人类活动对群落多样性的影响 • 检索概念: 人类活动群落多样性影响 • 检索式 人类活动AND 群落多样性 人类活动AND 群落多样性AND 影响
10/13/2015
计算机信息检索技术
人类活动 and 群落多样性
10/13/2015
计算机信息检索技术
逻辑或(逻辑乘)
• 表示概念的平行、并列,用于扩大检索范围,提高查全率 • 用运算符“OR” 或“+”连接两检索词 • A B A OR B
*:无限截断。如: “patent*”, 可以检索到 patent、patents、 patented 等; ?:有限截断。如: "wom?n",可以检索到woman 和 women。“fib??”,可检索到 fiber 和 fibre。
PQDD(博硕士 W/n:表示两词之间最多可插入n 个 论文数据库) 单词且词序不限。如:Education w/5 intenet 表示education 和 internet 之间可以插入最多5 个 词 ,并且前后位置可以颠倒; Pre/n:表示两词之间最多可插入n 个单词,且词序不变。如:U.S pre/n economic policy 可检出U.S aid economic policy, 或 U.S wartime economic policy 。 ProQuest 10/13/2015 同PQDD
数据库
EI(工程 索引)
位置算符
NEAR/n:表示两词中间可插入不超 过n 个单词,词序不限。如: Solar NEAR/2 energy ONEAR/n: 表示两词中间可插入不超过n 个单 词,词序不变 。如:Avalanche ONEAR/0 diodes,将检出 Avalanche diodes
Full-text
ISSN Journal Name JN 、Publication Title Keyword KW 、Topic Language Publication Year Title
10/13/2015
FT
ISSN JN KW LA PY TI
全文
国际标准连续出版物号 期刊名称 关键词 语言 出版年 题名
AND、OR、NOT的综合应用
• 运算顺序:NOT>AND>OR • 可通过( )来改变运算的优先顺序 • 例:乙肝病毒受体的筛选 检索词: HBV、Hepatitis B virus、receptor、screen 检索式: (HBV OR Hepatitis B virus) AND receptor AND screen