信息检索原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
事实检索(fact) ,是以具体事项为检索内容的信 息检索,要求从检索系统存储的各种原始信息资 源中查出专门的事实材料。
如,某一人物的查找,某一事件的查找等
1.4 文献信息检索的类型:按检索手段手工检索 与检索工具直接“对话”,依靠检索者手翻、眼看、 脑子判断而进行的检索。
特点:方便灵活,判别直观,查准率高、检索效率 低,漏检现象比较严重 计算机检索 利用计算机和一定通信设备查找文献信息的检索 特点:速度快,效率高,查全率较高、成本高, 回溯年份有限,查准率不尽如人意
灵活方便、可进行各种组合检索 较多 覆盖多学科和多种文献类型,范围较大检索限制更新周期受时空限制长不受时空限制短 专业知识、计算机检索知识 查全率高,通过ቤተ መጻሕፍቲ ባይዱ辑组配可提高查准率 高 高对用户要求 专业知识、工具书使 用法 检索效果 检索费用 综合效率 查准率高 低 低
1.5 检索效果的评价 检索效果(Retrieval Effectiveness)是指 检索系统检索的有效程度,它反映了检索系统 的能力。
可用 下式表示:查全率和查准率在一定程度上成反比关系。
应根据具 体课题的要求,合理调节查全率和查准率,保证检索效果。
R90 70 60 A C D理论上,C和D之间 即检索的最佳效果40B20405090P查全率(R)和查准率(P)关系曲线图
2 信息检索系统印刷型信息检索系统: 目录、题录、文摘、索引 计算机信息检索系统: 文献信息数据的处理和维护子系统 词表和标引子系统 检索子系统
检索语言的类型:按照表达文献的特征划分表述文献外表 特征的语言 (与文献一一 对应关系) 表述文献内容 特征的语言 (与文献模糊 对应关系)题名 责任者 代码,如ISBN、ISSN等 引文 出版项 出版年检 索 语 言 的 类 型分类语言:分类法主题语言:关键词、叙词等。
文献信息的内外部特征内容特征 表达文献信息主题内容的检索标识 内容特征 文献?模糊对应外表特征 与文献主题内容没有关系或关系不大的信息 外表特征 文献?一一对应
3. 文献信息的一般检索步骤分析研究课题,明确检索要求 选择检索工具或检索系统 确定检索途径 实施检索,记录和阅读文献线索 索取原始文献
3.1 研究课题的分析分清课题性质 前沿探索性 调查研究性 面象应用性 课题背景知识的获取 利用网络搜索引擎 查阅图书馆相关馆藏,专著、工具书 询问专业人员 概念(检索词)提取 主要检索词、辅助检索词、禁用词 例如:关于中国唐诗的韵律研究 Study on the market management in China
广义:信息的检索包括信息存 储。
合并称为信息存储与检索.
信息检索(information retrieval)信息检索广义上是指将杂乱无序的信息 按一定的方式组织和存储起来,并根据信息 用户的需求找出相关信息的过程和技术,全 称是”信息存储与检索”(Information Storage and Retrieval).狭义的信息检索指的是后一过程.
全文检索(full article) ,是以文献所含的全部信息作为检索内容的文献检索。
即检索系统存贮的是整篇文章或整部图书的全部内容。
数据检索(data) ,又称数值检索,是以具有数 量性质,并以数值形式表示的数据为检索内容的 信息检索。
即检索系统中存储的是大量的数据, 包括物质的参数、电话号码、观测数据、统计数 据等,也包括图表、化学分子式、物质的各种特 性等非数字数据。
包括技术效果和经济效果。
克兰弗登(Cranfield)评价系统性能的指标:? 收录范围 ? ? ? ? ? 查全率 查准率 响应时间 用户负担 输出形式
?查全率 是指检出的相关文献量与检索系统中相关文献总量的 比率,是衡量信息检索系统检出相关文献能力的尺度。
可 用下式表示:?查准率 它是指检出的相关文献量与检出文献总量的比率 ,是衡量信息检索系统检出文献准确度的尺度。
1.3 文献信息检索一般原理存储 选择和收集文献 提取文献信息的内外部特征 标引,整理,形成检索系统(工具) 检索 分析信息需求 确定检索课题 构建检索提问式 从检索系统中查获所需信息
检索系统文 献 源 文献 选择 收集 分 析 用 户 信 息 需 求 检索 课题 文献 特征 标 识 语 言 标 引匹配数据库检 索 结 果检索 提问式反馈
1.4文献信息检索的类型:按检索内容文献检索 (相关性检索) 检索结果为文献原文或线索 全文检索 书目检索 数据检索 (确定性检索) 检索结果为数值、数据 事实检索 (确定性检索) 检索结果为事实、概念
书目检索(directory) ,是以文献线索为检索内容的文献检索。
即检索系统中存贮的是书目、索引、 文摘等二次文献,检索结果获得的是与检索课题有 关的一系列文献线索。
?1.4 按检索手段划分即手工信息检索, 是利用各种印刷型检 索工具来查找文献的 一种方法。
?传统信息检索?现代信息检索即计算机信息检索, 是指利用计算机和网络 来处理和查找文献信息 的检索方式。
手工检索与计算机检索的比较项目 手工检索 计算机检索总体特征检索速度 检索功能 检索方式 检索途径 检索范围手翻、眼看、大脑判 断较慢 简单 单一 较少 有限检索策略、机器查询、数据匹配很快 多样、可链接全文、可打印结果、可进 行定题服务等。
1.2 检索语言(Retrieval Language)是用 来描述信息源特征和进行检索的人工语言。
作用:它是沟通信息存储与信息检索两个过程的桥梁。
在信息存储过程中,用它来描 述信息的内容和外部特征,从而形成信息标 识;在检索过程中,用它来描述检索提问, 从而形成检索标识;当检索标识与信息标识 完全匹配或部分匹配时,结果即为命中文献。
信息检索原理
第三章 信息检索原理及检索步骤本章要点: 文献信息检索基本概念 文献信息一般检索步骤 检索概念的分析、提取和扩展 检索策略的构成
1. 信息检索基本概念 信息检索的定义 文献信息的内外部特征 文献信息检索的一般原理 文献信息检索的类型 检索效果评价
1.1信息检索定义狭义:从任何信息集合中查找 所需信息的活动、过程和方法。
如,某一人物的查找,某一事件的查找等
1.4 文献信息检索的类型:按检索手段手工检索 与检索工具直接“对话”,依靠检索者手翻、眼看、 脑子判断而进行的检索。
特点:方便灵活,判别直观,查准率高、检索效率 低,漏检现象比较严重 计算机检索 利用计算机和一定通信设备查找文献信息的检索 特点:速度快,效率高,查全率较高、成本高, 回溯年份有限,查准率不尽如人意
灵活方便、可进行各种组合检索 较多 覆盖多学科和多种文献类型,范围较大检索限制更新周期受时空限制长不受时空限制短 专业知识、计算机检索知识 查全率高,通过ቤተ መጻሕፍቲ ባይዱ辑组配可提高查准率 高 高对用户要求 专业知识、工具书使 用法 检索效果 检索费用 综合效率 查准率高 低 低
1.5 检索效果的评价 检索效果(Retrieval Effectiveness)是指 检索系统检索的有效程度,它反映了检索系统 的能力。
可用 下式表示:查全率和查准率在一定程度上成反比关系。
应根据具 体课题的要求,合理调节查全率和查准率,保证检索效果。
R90 70 60 A C D理论上,C和D之间 即检索的最佳效果40B20405090P查全率(R)和查准率(P)关系曲线图
2 信息检索系统印刷型信息检索系统: 目录、题录、文摘、索引 计算机信息检索系统: 文献信息数据的处理和维护子系统 词表和标引子系统 检索子系统
检索语言的类型:按照表达文献的特征划分表述文献外表 特征的语言 (与文献一一 对应关系) 表述文献内容 特征的语言 (与文献模糊 对应关系)题名 责任者 代码,如ISBN、ISSN等 引文 出版项 出版年检 索 语 言 的 类 型分类语言:分类法主题语言:关键词、叙词等。
文献信息的内外部特征内容特征 表达文献信息主题内容的检索标识 内容特征 文献?模糊对应外表特征 与文献主题内容没有关系或关系不大的信息 外表特征 文献?一一对应
3. 文献信息的一般检索步骤分析研究课题,明确检索要求 选择检索工具或检索系统 确定检索途径 实施检索,记录和阅读文献线索 索取原始文献
3.1 研究课题的分析分清课题性质 前沿探索性 调查研究性 面象应用性 课题背景知识的获取 利用网络搜索引擎 查阅图书馆相关馆藏,专著、工具书 询问专业人员 概念(检索词)提取 主要检索词、辅助检索词、禁用词 例如:关于中国唐诗的韵律研究 Study on the market management in China
广义:信息的检索包括信息存 储。
合并称为信息存储与检索.
信息检索(information retrieval)信息检索广义上是指将杂乱无序的信息 按一定的方式组织和存储起来,并根据信息 用户的需求找出相关信息的过程和技术,全 称是”信息存储与检索”(Information Storage and Retrieval).狭义的信息检索指的是后一过程.
全文检索(full article) ,是以文献所含的全部信息作为检索内容的文献检索。
即检索系统存贮的是整篇文章或整部图书的全部内容。
数据检索(data) ,又称数值检索,是以具有数 量性质,并以数值形式表示的数据为检索内容的 信息检索。
即检索系统中存储的是大量的数据, 包括物质的参数、电话号码、观测数据、统计数 据等,也包括图表、化学分子式、物质的各种特 性等非数字数据。
包括技术效果和经济效果。
克兰弗登(Cranfield)评价系统性能的指标:? 收录范围 ? ? ? ? ? 查全率 查准率 响应时间 用户负担 输出形式
?查全率 是指检出的相关文献量与检索系统中相关文献总量的 比率,是衡量信息检索系统检出相关文献能力的尺度。
可 用下式表示:?查准率 它是指检出的相关文献量与检出文献总量的比率 ,是衡量信息检索系统检出文献准确度的尺度。
1.3 文献信息检索一般原理存储 选择和收集文献 提取文献信息的内外部特征 标引,整理,形成检索系统(工具) 检索 分析信息需求 确定检索课题 构建检索提问式 从检索系统中查获所需信息
检索系统文 献 源 文献 选择 收集 分 析 用 户 信 息 需 求 检索 课题 文献 特征 标 识 语 言 标 引匹配数据库检 索 结 果检索 提问式反馈
1.4文献信息检索的类型:按检索内容文献检索 (相关性检索) 检索结果为文献原文或线索 全文检索 书目检索 数据检索 (确定性检索) 检索结果为数值、数据 事实检索 (确定性检索) 检索结果为事实、概念
书目检索(directory) ,是以文献线索为检索内容的文献检索。
即检索系统中存贮的是书目、索引、 文摘等二次文献,检索结果获得的是与检索课题有 关的一系列文献线索。
?1.4 按检索手段划分即手工信息检索, 是利用各种印刷型检 索工具来查找文献的 一种方法。
?传统信息检索?现代信息检索即计算机信息检索, 是指利用计算机和网络 来处理和查找文献信息 的检索方式。
手工检索与计算机检索的比较项目 手工检索 计算机检索总体特征检索速度 检索功能 检索方式 检索途径 检索范围手翻、眼看、大脑判 断较慢 简单 单一 较少 有限检索策略、机器查询、数据匹配很快 多样、可链接全文、可打印结果、可进 行定题服务等。
1.2 检索语言(Retrieval Language)是用 来描述信息源特征和进行检索的人工语言。
作用:它是沟通信息存储与信息检索两个过程的桥梁。
在信息存储过程中,用它来描 述信息的内容和外部特征,从而形成信息标 识;在检索过程中,用它来描述检索提问, 从而形成检索标识;当检索标识与信息标识 完全匹配或部分匹配时,结果即为命中文献。
信息检索原理
第三章 信息检索原理及检索步骤本章要点: 文献信息检索基本概念 文献信息一般检索步骤 检索概念的分析、提取和扩展 检索策略的构成
1. 信息检索基本概念 信息检索的定义 文献信息的内外部特征 文献信息检索的一般原理 文献信息检索的类型 检索效果评价
1.1信息检索定义狭义:从任何信息集合中查找 所需信息的活动、过程和方法。