信息检索工具,技术与评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 初始检索范围太大,命中文献太多,或查准率太低,需要增加查准 率的一种方法。 • 方法:选择专指性下位词;增加检索词用AND连接;增加副主题词; 增加限定条件;主题词加权检索等
信息检索工具 信息检索技术 检索效果评价
检索效果的含义与指标 检索效果评价的因素 提高检索效果的措施
• 3.1 检索效果的含义及指标
布尔逻辑运算符:非>与>或
思考:A not B or B not A 表示的是哪种情形?
实际运用中,根据数据库的不同逻辑运算符的运算级别有所 不同,例如中国知网非、与、或的级别是相同的,若想要改变 级别,可采用括号的形式。
字段限定符
字段限定符将检索词限定在具体某一字段中 检索,可缩小检索范围。 可以使用 : = [ ] 例: TI:青蒿素 AU=屠呦呦 Hypertension [tt] 限定在英文标题字段 smith j [au] 限定在作者字段 wang jn [au] 限定在作者字段
实际检索过程中,都无法达到100%,但应尽量使检索结果达 到最佳,让查准率和查全率处于最佳平衡点。 在一般知识检索、为解决难题检索等情况,偏重于检准率; 在课题论证、科技查新、专利申请等情况,偏重于检全率。
• 3.2 影响检索效果的因素
检索系统的质量——存储方面 • 全、好、快、便 检索人员的素质——检索方面 • 能否正确理解检索需求; • 检索工具、途径、检索词语的选择; • 信息检索知识与技能的掌握程度; • 对检索系统的熟悉程度; • ……
• 2.3计算机检索基本技术
布尔逻辑运算符:与 或
字段限定符:IN =
非
: [ ]
截词符(通配符) : ? % # *
其它检索技术:扩展检索、加权检索
布尔逻辑运算符:与
逻辑“与” 用于组配具有交叉和限 定关系的概念,一般用 AND或空格或*表示 。 可以缩小检索范围,提 高查准率。 如:金庸 小说 胰岛素 and 糖尿病 维生素C 副作用
通讯网络:是确保信息畅通的桥梁。 数据库:计算机存储设备上由一个或多个文档 组成的相互关联的数据集合。
数据库的构成 表 记录 字段
2.2计算机系统的构成要素
• 硬件
• 软件
• 通讯网络 • 数据库
• • • • • • 事实数据库 数值数据库 书目数据库 全文数据库 图像数据库 多媒体数据库
1.3信息检索工具的分类
• 按载体形式划分 手工检索工具
1.2检索工具的分类
• 根据载体形式分类
计算机检索工具
• 1.2 信息检索工具的类型(按加工程度划分)
物的属性特征。
1 信息检索工具
• 目录型:通常以整本书或刊名作为著录对象,主要揭示出版 图书馆书目查询系统中的图书信息 • 题录型:以单篇文献作为著录对象,揭示文献的属性特征
布尔逻辑运算符:或
逻辑“或” 用于组配具有同义或并列关 系的概念,一般用运算符号 “OR”,表示两个检索项任 一项出现在一条记录中。 可以扩大检索范围,提高查 全率。 如:big bang theory or生活大 爆炸 AIDS OR 艾滋病
布尔逻辑运算符:非
逻辑“非” 用于排除某种概念的组 配,一般用运算符号 “NOT”或“-”表示。 可以缩小检索范围,提 高查准率。 如:金庸 - 小说 关节炎 NOT 类风湿 关节炎 -类风湿
1.3 信息检索工具的评价
全:是指检索工具存储文献的存储面如何。 好:浓缩质量好和标引质量好。 快:文献报道速度快。 便:能提供多种检索手段,多种检索途径。
信息检索工具
计算机信息检索的概念 信息检索技术 计算机检索系统的构成要素
检索结果评价
计算机信息检索的基本技术 计算机信息检索的调整技术
举例
检索系统中有100篇文献,其中关于某课题的相关文献 有80篇。而在一次检索中,共检出了60篇文献,其中该课 的相关文献48篇。查准率、查全率? 查全率=48/80*100%=60% 漏检率=32/80*100%=40% 查准率=48/60*100%=80% 误检率=12/60*100%=20%
• 检索效果的含义: • 检索过程中满足用户需求全面性和准确性的有效程度。 • 理想的检索效果:无遗漏、无误差 • 评价指标 • 查全率 查准率 2个重要指标
• 漏检率
误检率
• 查全率=已检出的相关文献数/系统中应检出相关的文献数 查全率=a/(a+c) * 100%
• 查准率=检出的相关信息数/检出的信息总数 查全率与漏检率是互补关系;查准率与误检率是互 查准率=a/(a+b) * 100% 补关系 。 • 漏检率=未检出的相关文献数 / 系统中应检出的相关文献数 漏检率=c/(a+c) * 100% • 误检率=检出的非相关文献数/检出的文献总数 误检率=b/(a+b) * 100%
• 索引型:将文献的某一外表特征或内容特征按描述语言形成
标识,并按一定顺序排列,附在书刊之后,或单独编成册。
CBM中的分类索引 • 文摘型:文摘是对文献的主要内容简明扼要的描述。这类检
索工具对文献的揭示较前者更深入、更具体,参考价值大。
分:指示性文摘和报道性文摘。(化学文摘、生物学文摘) • 全文型:这类检索工具直接存储有文献的全部内容。并可以 原文中任何一个有实际意义的词作为检索词进行检索。( CNKI、VIP、万方、ProQuest等)
百度指令检索
非(-)
或(OR) 与(AND 或空格) ""
不包含特定查询词
包含所有查询词中的一个或多个 包括所有的查询词 精确检索查询词
橄榄树 -歌曲 -歌词
西红柿 OR 番茄 西红柿 番茄 "元搜索引擎的优点"
*
filetype site inurl
通配符,替代任何字符
搜索特定格式的文献,有 pdf\xls\ppt\doc\rtf\swf等格式 搜索特定网站或网域 限定在url中进行搜索
言
标引ቤተ መጻሕፍቲ ባይዱ
检索提问 检索 标识
信 息 检 索 工 具 系 统 )
输出
检 索 结 果
(
1.1 信息检索工具
1 信息检索工具定义:将大量分散无序的信息资料经过加 工整理,按照一定的规则和方法编制起来,用来存储、 检索和报道的工具。
信息检索工具
1.2 检索工具的类型
按载体形式划分 • 手工检索工具
• 计算机检索工具 按加工程度划分 • 目录型 • 题录型 • 索引型 • 文摘型 • 全文型
信息检索步骤
分析检索课题 选择检索工具 确定检索方法 确定检索途径 获取原始文献
引入案例
一名医学院的学生在写论文过程中需查找,2010-2015年间发表在 《中国医药指南》杂志上关于“阿司匹林治疗心肌梗死”的期刊全文
分析检索课题
选择检索工具
确定检索方法
确定检索途径 获取原始文献
2.1 计算机信息检索的概念
定义:用户利用计算机信息检索系统,使用检索策略
,从数据库中检索出与用户特定需求相一致的信息的过程。 提供 匹配查询
数 据 库 系 统
检索
检索系统
返回
策略
检索
结果
数据库
数据维护系统
网 络
安保系统
……
2.2计算机系统的构成要素 硬件:维持系统运行的各种设备的总称。
软件:计算机使用的各种程序的总称。
第三讲 信息检索工具、技术与评价
1.了解信息检索的步骤 2.熟悉信息检索工具的概念、类型和评价 3.掌握逻辑运算符,熟悉截词符和字段限定符的使 用,熟悉扩展和加权检索的使用 4.了解检索效果的含义、评价指标及提高检索效果 的措施
重 点
难 点
1.信息检索的步骤 2.逻辑运算符及字段限定符的使用 3.检索效果的评价指标
信息检索工具、技术与 评价
信息检索的原理
分析 信息 特征 标引 信息特征 输入 标识
存储 过程
原始 信息
检 索 语
信 息 检 索 工 具 ( 系 统 )
输出
检 索 结 果
检索 过程
检索 分析 课题
检索 提问
言
标引
检索提问 检索 标识
信息检索就是利用检索标识与存储标识进行匹配,选出 符合需要文献信息。
2.3 计算机信息检索基本技术
扩展检索:对主题词或副主题词的下位词 一起检索。 作用:可扩大检索范围,提高查全率。
上位词
主题词可能属于
多个不同的学 科,所以根据 其不同学科属 性可有多个树 状结构号,对 应有多个词树。 下位词
加权检索
• 是一种定量检索的技术。从量的方面对检索
信息检索步骤案例
检索工具、技术与评价
p28-35,p50-58
信息检索工具的概念 信息检索工具
信息检索技术
信息检索工具的类型 信息检索工具的评价
检索效果评价
1.1 信息检索工具
信息检索的原理
存储 过程
原始 信息 分析
信息 特征
检 索 语
标引
信息特征 输入 标识
检索 过程
检索 分析 课题
检索 提问
velocity * swallow
教育学原理 filetype:ppt site:hbmu.edu.cn 转专业 inurl:www.baidu.com
intitle
intext
返回页面标题中包含有指定关键词 intitle:流星雨 的页面
关键词在网页文本中出现 intext:conference education
• 相当于检索式: FT=(维生素C * 副作用) AND FT=癌症
2 信息检索技术
2.4 计算机信息检索调整技术
• 扩大检索——提高查全率
• 初始检索范围太小,命中文献不多,需扩大检索范围的方法。 • 方法:使用上位词或相关词;增加同义词OR连接;截词检索;减少 字段限定条件等
• 缩小检索——提高查准率
(1)分析检索目的: 一般的资 原则:由近到远、由方便至复杂、 料查阅工作;科研立项、成果鉴 ( 1 )根据课题分析的情况,确定 ( 1 )外表特征检索途径: 由免费到收费。 (1)浏览法:直接浏览最新期刊, 定评奖、专利申请的查新工作、 的检索工具 题名途径(标题、书名) ( 1 )本馆馆藏或数据库中获取 特别是核心期刊上的一次文献。 论文撰写 ( 2 )检索人员自身的检索素质情 著者途径(作者、创作者) ( 2 )本地其他图书馆获取 (2)追溯法:以文献后所附的参 (2)确定检索范围:学科专业范 况综合考虑选择合适的检索工具。 代码途径( ISBN) ( 3 )本地图书馆文献传递服务 考文献为线索,逐一由新向旧追 围、时间范围、文献类型(《中 (中国知网、万方等) ( 2 )内容特征检索途径: ( 4 )联系原文著者 踪。国医药指南》、2010-2015、全文) 分类途径(分类号) ( (5 3)利用搜索引擎提供的全文链 )常用法:一般有顺查法、倒 (3)明确课题的实质内容,提炼 关键词途径(自由词) 接 查法、抽查法 3种。 主题概念(阿司匹林、心肌梗死) 主题词途径(叙词、款目词)
词之间的组配关系加以限制和表示。 • 在检索时,先查找该检索词在记录中是否存 在,然后计算该检索词在该记录中出现的频 率。频率达到或超过阈值,该记录才为命中
文献。
• 可缩小检索范围,提高查准率。
二次检索
相当于将本次检索与上次检索进行逻辑“与”运算。
在“FT=在上一次检索结果的基础上,进一步筛选条件。 (维生素C * 副作用)”的结果中,继续检索“FT=癌症”的结果
上节回顾
1.信息检索的概念、原理、类型。
2.检索语言的定义、分类。 3.《中图法》分几大部几大类? 4.《医学主题词表》简介、4个组成及核心 作用。主要组成字顺表和树状结构表的使用
以及两者之间的关系,副主题词表的使用。
5.标引的概念,常见的两种标引?组配的两 种种主要类型?主题标引的一般原则、选词 原则?
截词符
在检索标识中保留相同的部分,用截词
符代替可变化的部分。检索时,计算机会将 所有含有相同部分标识的记录全部检索出来。 magnetic a. 有磁性的 使用通配符“?”或“ #”来代表匹配0 个字 electro-magnetic a. 电磁的 符或1个字符或0个字符或任意多个字符。 electromagnetic a. 电磁的 *magnetic paramagnetic a. 顺磁的 肝炎??疫苗 (有限截词符) a. 热磁的 colo?r wom?n thermo-magnetic (0-1个字符) thermomagnetic a. 热磁的 compute?? (0-2个字符) *炎疫苗 (无限截词符)
信息检索工具 信息检索技术 检索效果评价
检索效果的含义与指标 检索效果评价的因素 提高检索效果的措施
• 3.1 检索效果的含义及指标
布尔逻辑运算符:非>与>或
思考:A not B or B not A 表示的是哪种情形?
实际运用中,根据数据库的不同逻辑运算符的运算级别有所 不同,例如中国知网非、与、或的级别是相同的,若想要改变 级别,可采用括号的形式。
字段限定符
字段限定符将检索词限定在具体某一字段中 检索,可缩小检索范围。 可以使用 : = [ ] 例: TI:青蒿素 AU=屠呦呦 Hypertension [tt] 限定在英文标题字段 smith j [au] 限定在作者字段 wang jn [au] 限定在作者字段
实际检索过程中,都无法达到100%,但应尽量使检索结果达 到最佳,让查准率和查全率处于最佳平衡点。 在一般知识检索、为解决难题检索等情况,偏重于检准率; 在课题论证、科技查新、专利申请等情况,偏重于检全率。
• 3.2 影响检索效果的因素
检索系统的质量——存储方面 • 全、好、快、便 检索人员的素质——检索方面 • 能否正确理解检索需求; • 检索工具、途径、检索词语的选择; • 信息检索知识与技能的掌握程度; • 对检索系统的熟悉程度; • ……
• 2.3计算机检索基本技术
布尔逻辑运算符:与 或
字段限定符:IN =
非
: [ ]
截词符(通配符) : ? % # *
其它检索技术:扩展检索、加权检索
布尔逻辑运算符:与
逻辑“与” 用于组配具有交叉和限 定关系的概念,一般用 AND或空格或*表示 。 可以缩小检索范围,提 高查准率。 如:金庸 小说 胰岛素 and 糖尿病 维生素C 副作用
通讯网络:是确保信息畅通的桥梁。 数据库:计算机存储设备上由一个或多个文档 组成的相互关联的数据集合。
数据库的构成 表 记录 字段
2.2计算机系统的构成要素
• 硬件
• 软件
• 通讯网络 • 数据库
• • • • • • 事实数据库 数值数据库 书目数据库 全文数据库 图像数据库 多媒体数据库
1.3信息检索工具的分类
• 按载体形式划分 手工检索工具
1.2检索工具的分类
• 根据载体形式分类
计算机检索工具
• 1.2 信息检索工具的类型(按加工程度划分)
物的属性特征。
1 信息检索工具
• 目录型:通常以整本书或刊名作为著录对象,主要揭示出版 图书馆书目查询系统中的图书信息 • 题录型:以单篇文献作为著录对象,揭示文献的属性特征
布尔逻辑运算符:或
逻辑“或” 用于组配具有同义或并列关 系的概念,一般用运算符号 “OR”,表示两个检索项任 一项出现在一条记录中。 可以扩大检索范围,提高查 全率。 如:big bang theory or生活大 爆炸 AIDS OR 艾滋病
布尔逻辑运算符:非
逻辑“非” 用于排除某种概念的组 配,一般用运算符号 “NOT”或“-”表示。 可以缩小检索范围,提 高查准率。 如:金庸 - 小说 关节炎 NOT 类风湿 关节炎 -类风湿
1.3 信息检索工具的评价
全:是指检索工具存储文献的存储面如何。 好:浓缩质量好和标引质量好。 快:文献报道速度快。 便:能提供多种检索手段,多种检索途径。
信息检索工具
计算机信息检索的概念 信息检索技术 计算机检索系统的构成要素
检索结果评价
计算机信息检索的基本技术 计算机信息检索的调整技术
举例
检索系统中有100篇文献,其中关于某课题的相关文献 有80篇。而在一次检索中,共检出了60篇文献,其中该课 的相关文献48篇。查准率、查全率? 查全率=48/80*100%=60% 漏检率=32/80*100%=40% 查准率=48/60*100%=80% 误检率=12/60*100%=20%
• 检索效果的含义: • 检索过程中满足用户需求全面性和准确性的有效程度。 • 理想的检索效果:无遗漏、无误差 • 评价指标 • 查全率 查准率 2个重要指标
• 漏检率
误检率
• 查全率=已检出的相关文献数/系统中应检出相关的文献数 查全率=a/(a+c) * 100%
• 查准率=检出的相关信息数/检出的信息总数 查全率与漏检率是互补关系;查准率与误检率是互 查准率=a/(a+b) * 100% 补关系 。 • 漏检率=未检出的相关文献数 / 系统中应检出的相关文献数 漏检率=c/(a+c) * 100% • 误检率=检出的非相关文献数/检出的文献总数 误检率=b/(a+b) * 100%
• 索引型:将文献的某一外表特征或内容特征按描述语言形成
标识,并按一定顺序排列,附在书刊之后,或单独编成册。
CBM中的分类索引 • 文摘型:文摘是对文献的主要内容简明扼要的描述。这类检
索工具对文献的揭示较前者更深入、更具体,参考价值大。
分:指示性文摘和报道性文摘。(化学文摘、生物学文摘) • 全文型:这类检索工具直接存储有文献的全部内容。并可以 原文中任何一个有实际意义的词作为检索词进行检索。( CNKI、VIP、万方、ProQuest等)
百度指令检索
非(-)
或(OR) 与(AND 或空格) ""
不包含特定查询词
包含所有查询词中的一个或多个 包括所有的查询词 精确检索查询词
橄榄树 -歌曲 -歌词
西红柿 OR 番茄 西红柿 番茄 "元搜索引擎的优点"
*
filetype site inurl
通配符,替代任何字符
搜索特定格式的文献,有 pdf\xls\ppt\doc\rtf\swf等格式 搜索特定网站或网域 限定在url中进行搜索
言
标引ቤተ መጻሕፍቲ ባይዱ
检索提问 检索 标识
信 息 检 索 工 具 系 统 )
输出
检 索 结 果
(
1.1 信息检索工具
1 信息检索工具定义:将大量分散无序的信息资料经过加 工整理,按照一定的规则和方法编制起来,用来存储、 检索和报道的工具。
信息检索工具
1.2 检索工具的类型
按载体形式划分 • 手工检索工具
• 计算机检索工具 按加工程度划分 • 目录型 • 题录型 • 索引型 • 文摘型 • 全文型
信息检索步骤
分析检索课题 选择检索工具 确定检索方法 确定检索途径 获取原始文献
引入案例
一名医学院的学生在写论文过程中需查找,2010-2015年间发表在 《中国医药指南》杂志上关于“阿司匹林治疗心肌梗死”的期刊全文
分析检索课题
选择检索工具
确定检索方法
确定检索途径 获取原始文献
2.1 计算机信息检索的概念
定义:用户利用计算机信息检索系统,使用检索策略
,从数据库中检索出与用户特定需求相一致的信息的过程。 提供 匹配查询
数 据 库 系 统
检索
检索系统
返回
策略
检索
结果
数据库
数据维护系统
网 络
安保系统
……
2.2计算机系统的构成要素 硬件:维持系统运行的各种设备的总称。
软件:计算机使用的各种程序的总称。
第三讲 信息检索工具、技术与评价
1.了解信息检索的步骤 2.熟悉信息检索工具的概念、类型和评价 3.掌握逻辑运算符,熟悉截词符和字段限定符的使 用,熟悉扩展和加权检索的使用 4.了解检索效果的含义、评价指标及提高检索效果 的措施
重 点
难 点
1.信息检索的步骤 2.逻辑运算符及字段限定符的使用 3.检索效果的评价指标
信息检索工具、技术与 评价
信息检索的原理
分析 信息 特征 标引 信息特征 输入 标识
存储 过程
原始 信息
检 索 语
信 息 检 索 工 具 ( 系 统 )
输出
检 索 结 果
检索 过程
检索 分析 课题
检索 提问
言
标引
检索提问 检索 标识
信息检索就是利用检索标识与存储标识进行匹配,选出 符合需要文献信息。
2.3 计算机信息检索基本技术
扩展检索:对主题词或副主题词的下位词 一起检索。 作用:可扩大检索范围,提高查全率。
上位词
主题词可能属于
多个不同的学 科,所以根据 其不同学科属 性可有多个树 状结构号,对 应有多个词树。 下位词
加权检索
• 是一种定量检索的技术。从量的方面对检索
信息检索步骤案例
检索工具、技术与评价
p28-35,p50-58
信息检索工具的概念 信息检索工具
信息检索技术
信息检索工具的类型 信息检索工具的评价
检索效果评价
1.1 信息检索工具
信息检索的原理
存储 过程
原始 信息 分析
信息 特征
检 索 语
标引
信息特征 输入 标识
检索 过程
检索 分析 课题
检索 提问
velocity * swallow
教育学原理 filetype:ppt site:hbmu.edu.cn 转专业 inurl:www.baidu.com
intitle
intext
返回页面标题中包含有指定关键词 intitle:流星雨 的页面
关键词在网页文本中出现 intext:conference education
• 相当于检索式: FT=(维生素C * 副作用) AND FT=癌症
2 信息检索技术
2.4 计算机信息检索调整技术
• 扩大检索——提高查全率
• 初始检索范围太小,命中文献不多,需扩大检索范围的方法。 • 方法:使用上位词或相关词;增加同义词OR连接;截词检索;减少 字段限定条件等
• 缩小检索——提高查准率
(1)分析检索目的: 一般的资 原则:由近到远、由方便至复杂、 料查阅工作;科研立项、成果鉴 ( 1 )根据课题分析的情况,确定 ( 1 )外表特征检索途径: 由免费到收费。 (1)浏览法:直接浏览最新期刊, 定评奖、专利申请的查新工作、 的检索工具 题名途径(标题、书名) ( 1 )本馆馆藏或数据库中获取 特别是核心期刊上的一次文献。 论文撰写 ( 2 )检索人员自身的检索素质情 著者途径(作者、创作者) ( 2 )本地其他图书馆获取 (2)追溯法:以文献后所附的参 (2)确定检索范围:学科专业范 况综合考虑选择合适的检索工具。 代码途径( ISBN) ( 3 )本地图书馆文献传递服务 考文献为线索,逐一由新向旧追 围、时间范围、文献类型(《中 (中国知网、万方等) ( 2 )内容特征检索途径: ( 4 )联系原文著者 踪。国医药指南》、2010-2015、全文) 分类途径(分类号) ( (5 3)利用搜索引擎提供的全文链 )常用法:一般有顺查法、倒 (3)明确课题的实质内容,提炼 关键词途径(自由词) 接 查法、抽查法 3种。 主题概念(阿司匹林、心肌梗死) 主题词途径(叙词、款目词)
词之间的组配关系加以限制和表示。 • 在检索时,先查找该检索词在记录中是否存 在,然后计算该检索词在该记录中出现的频 率。频率达到或超过阈值,该记录才为命中
文献。
• 可缩小检索范围,提高查准率。
二次检索
相当于将本次检索与上次检索进行逻辑“与”运算。
在“FT=在上一次检索结果的基础上,进一步筛选条件。 (维生素C * 副作用)”的结果中,继续检索“FT=癌症”的结果
上节回顾
1.信息检索的概念、原理、类型。
2.检索语言的定义、分类。 3.《中图法》分几大部几大类? 4.《医学主题词表》简介、4个组成及核心 作用。主要组成字顺表和树状结构表的使用
以及两者之间的关系,副主题词表的使用。
5.标引的概念,常见的两种标引?组配的两 种种主要类型?主题标引的一般原则、选词 原则?
截词符
在检索标识中保留相同的部分,用截词
符代替可变化的部分。检索时,计算机会将 所有含有相同部分标识的记录全部检索出来。 magnetic a. 有磁性的 使用通配符“?”或“ #”来代表匹配0 个字 electro-magnetic a. 电磁的 符或1个字符或0个字符或任意多个字符。 electromagnetic a. 电磁的 *magnetic paramagnetic a. 顺磁的 肝炎??疫苗 (有限截词符) a. 热磁的 colo?r wom?n thermo-magnetic (0-1个字符) thermomagnetic a. 热磁的 compute?? (0-2个字符) *炎疫苗 (无限截词符)