信息检索第2讲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
w x
×100%
2、查准率 w 利用检索系统进行某一课题检索时,检出的相 x 关信息量 (w) 与检出的信息总量( m)的比率称为查 准率(p),用公式可表示为:
p=
w ×100% m
如何提高查全率? 选择上位词和相关词;如:查找关于孙 中山的文献,先用孙中山查,再用孙文、 国父查找。 调节检索式的网罗度,删除不必要的组 面,如and(并且); 进行族性检索(分类检索或用or连接相 关检索词);
• 由于信息检索表达式是用户需求与信息集合 之间匹配的依据,所以信息检索技术的实质 是信息检索表达式的构造技术。
• 检索表达式是运用各种逻辑运算符号、位置 逻辑算符、截词符、及其他限制符号等,把 检索词连接组配起来,确定检索词之间的关 系,准确表达检索课题的内容的算式。
2.4.1 布尔逻辑检索
• 布尔逻辑检索是用布尔逻辑算符将检索词、短语或代码 进行逻辑组配指定文献的命中条件和组配次序用以检索 出符合逻辑组配所规定条件的记录。是计算机检索系统 中最常用的一种检索方法。
三、信息检索的类型与特点 根据检索的目的和对象不同,信息检索 可以分为书目信息检索、全文信息检索、数 据信息检索和事实信息检索。 1、书目信息检索 以标题、作者、摘要、来源出处、专利 号、收藏处所等为检索的目的和对象,检索 的结果是与课题相关的一系列书目信息线索. 书目信息检索是一种相关性检索。
2、全文信息检索 以论文或专利说明书等的全文为检 索的目的和对象,检索的结果是与课题 相关的论文或专利说明书的全部文本, 检索结果也不直接解答用户提出的技术 问题本身。因此,全文信息检索也是一 种相关性检索
• ?? 后、中截二字符 如:transplant?? 可以检索出:transplant、transplanted、 transplanter
• ???后、中截三字符 如: comput??? 可以检索出:compute;computer;computing
[%] [?][*] • 后方一致(前截断): “%国庆” 将检索出所有字段为张国庆、欧 阳国庆、国庆等的记录。 • 前方一致(后截断) :
• • 三、信息检索系统 • 信息检索系统是拥有一定的存储、检索技
术设备,存储有经过加工的各类信息,并能为 信息用户检索所需信息的服务系统。 • 因此,信息检索系统具有吸收信息、加工信 息、存储信息和检索信息等功能。 • 检索系统是手工检索系统和计算机检索系统。
•
• 1、手工检索系统 •
手工检索系统又称传统检索系统, 是用人工查找信息的检索系统。其主要 类型有各种书本式的目录、题录、文摘 和各种参考工具书等。
二、信息检索的重要意义与作用 信息检索的重要意义与作用主要体现在以下两 方面: 1、充分利用信息资源,避免重复劳动 科学研究具有继承和创造两重性,科学研究的 两重性要求科研人员在探索未知或从事研究工作之 前,应该尽可能地占有与之相关的信息,即利用信 息检索的方法,充分了解国内外前人和他人对拟探 索或研究的问题已做过哪些工作、取得了什么成就、 发展动向如何等等。这样才能做到心中有数,防止 重复研究,将有限的时间和精力用于创造性的研究 中。因此,信息检索是科学研究必不可少的前期工 作。
2.3 检索语言
• 检索语言是用于描述信息系统中信息特 征和表达用户信息提问的一种专门语言, 是百度文库息存储与检索共同遵循的规则。
关键词语言
主题语言
叙词语言
检 索 语 言
标题词语言
分类语言
第二章 信息检索原理
• 一 信息检索基本原理: • 是检索者的检索提问词与存储在检索 系统中的检索标引词进行匹配对比,取 得一致即为检索命中,命中结果可从检 索系统中以各种方式输出。检索者可根 据此线索对原文进行判断、筛选,以获 取自己所需要的信息。
• 布尔逻辑组配是现行计算机检索的基本技术,主要 通过“与(and,*)”、“或(or,+)”、 “非(not,-)”将检索 词联络起来。 AND[*][&][空格] A and B 逻辑与。A和B都为真时, 结果才为真 ,即:A*B,逻辑含义用图表示是:
• OR [+][|] A or B 逻辑或。A或B中只要有一个 为真时,结果就为真,即:A+B
分析实例:
上海零售业的现状与发展趋势
上海 零售业 现状 发展趋势
上海 and 零售业 and (现状 or 发展趋势)
2.4.2 截词检索
• 截词包括后截、中截、前截等。用?作为截词 符(有些系统用*),主要包括下列情形: • 截词符? 中截一字符,后截断n个字符 • 如 wom?n 可以检索出: woman, women • 如 coumput? 可以检索出Compute, Computer, Computing, computable
用“二次检索”“条件检索”排除误检 限制检索字段,指定邻接和优先关系。
•
从检索要求来说,希望查全率和查 准率都同时达到100%,即系统中存储 的所有相关信息都被检索出(w=x=m), 这是最为理想的效果。但事实上很难达 到全部检出和全部检准的要求,而只能 达到某个百分比,总会出现一些漏检和 误检。因此,在实际检索过程中,必须 同时兼顾查全和查准,不可片面追求某 一方面。
截词检索;com*代替computer
增加检索途径。
如何提高查准率?
提高专指度(用下位词或换专指性强的自 由词)
用逻辑乘“*”(and) 或 not 相关检索项; 如查找克林顿,但不要关于莱温斯基的信 息。检索式:克林顿 not 莱温斯基
用文献外部特征限制输出结果(在中文图 书中查找);
2.1.2 信息检索的类型
数据检索:检索的结果是数据或数值。 如某种材料的电阻;某变压器的参数 ;化学分子式、数据图表等。<手册>
事实检索:检索的结果是事实结论。
查询某一事物(事件)的性质、定义、 原理以及发生的时间、地点过程等。如某产 品是哪个厂家生产,哪个牌子的最好;第一 颗人造卫星是什么时候升空的。<年鉴>
文献检索:检索的结果是文献资料。
查找相关文献的内容、出处、收藏单位 等。如系统地查找数控机床相关方面的文 献。<论文 >
文献检索是信息检索的核心部分。
从性质上说: 文献检索是一种相关性检索,检索的结果 是与课题相关的文献或文献线索,而不直 接解答用户所提出的技术问题本身; 事实检索与数据检索则是确定性检索,检 索的结果是用户所需的确切的数据或事实。
综上所述,书目信息检索是从存储有标题项、作者 项、出版项或文摘项的检索系统中获取有关的信息 线索,如利用各种目录、题录和文摘检索系统。 全文信息检索是从存储整篇论文、专利说明书乃至 整本著作的检索系统中获取全文信息,如利用各种 论文全文数据库、专利说明书全文数据库系统。 数据信息检索是从存储有大量数据、图表的检索系 统中获取数值性信息,如利用各种手册、年鉴、图 谱、表谱等检索系统。 事实信息检索是从存储有大量知识信息、事实信息 和数据信息的检索系统中获取某一事项的具体答案, 如利用各种百科全书、年鉴、名录等检索系统。
3、数据信息检索 以具有数量性质,并以数值形式表 示的数据为检索的目的和对象,检索的 结果是经测试、评价过的各种数据,可 直接用于比较分析或定量分析。因此, 数据信息检索是一种确定性检索。
4、事实信息检索 以事项为检索的目的和对象,检索 的结果是有关某一事物的具体答案。因 此,事实信息检索是一种确定性检索。
NOT[-][^][!] A not B 逻辑非。A为真、B为 假时,结果才为真,即:A-B
布尔逻辑运算符的运算次序
• 括号优先[与计算机编程中一样] (A OR B) AND C NOT D • 不同的系统次序有差别,但总的来说一般次 序为: NOT AND OR • 例A:查找有关信息检索的非英文文献 信息[information] 检索[retrieval] 英文[english] (信息 and 检索 ) not 英文 (information and retrieval) not english
2、为人们更新知识、实现终生学习提供路 径 在当代社会,人们需要终生学习,不断 更新知识,才能适应社会发展的需求。
掌握信息检索的方法与技能,是形成合理知 识和更新知识的重要手段,是做到无师自通、 不断进取的主要途径。
2.1.2 信息检索类型
信 息 检 索 类 型
文献信息检索
依检索内容划分
数据信息检索 事实信息检索
第二章
信息检索原理及方法
信息检索概述
第一节
一、信息检索的含义 信息检索通常是信息用户为处理解决各种 问题而查找、识别获取相关的事实、数据、 知识的活动及过程。完整的信息检索 , 还包括 信息的存储。由此可知,信息检索的全过程 应包括两个主要的方面:
1)信息的标引和存储过程 对大量无序的信息资源进行标引处理, 使之有序化,并按科学的方法存储,组 成检索工具或检索文档,即检索系统的 组织过程。 2)信息的需求分析和检索过程 分析用户的信息需求,利用已组织好 的检索系统,按照系统提供的方法与途 径检索有关信息,即检索系统的应用过 程。
•
• •
2、计算机检索系统
计算机检索系统又称现代化检索系统,是用计 算机技术、电子技术、远程通信技术、光盘技术、 网络技术等构成的存储和检索信息的检索系统。 • 按使用的设备和采用的通信手段,可分为联机 检索系统、光盘检索系统和网络检索系统。
2.4 计算机信息检索技术
• 计算机信息检索技术是用户信息需求和文献 信息集合之间的匹配比较技术。
• 二、信息检索效率 • 信息检索效率是研究信息检索原理的是评 价一个检索系统性能优劣的质量标准,它始终 贯穿信息检索和信息存储的全过程。衡量检索 效率的指标有查全率、查准率、漏检率、误检 率、响应时间等。目前,人们通常主要以查全 率和查准率这两个指标来衡量。
1、查全率 利用检索系统进行某一课题检索时,检索出的相 关信息量 (w)与该系统信息库中存储的相关信息量 (x) 的比率称为查全率(R),用公式可表示为: R=
如:“热电材料% ”将检索出热电材料梯度化、 热电材料及其梯度化等的记录。
•
联机检索系统主要由系统中心计算机和数据库、 通信设备、检索终端等组成,能进行实时检索,具 有灵活、不受地理限制等优点,但检索费用较高。 光盘检索系统主要由光盘数据库、光盘驱动器、计 算机等组成,具有易学易用、检索费用低的优点, 根据使用的通信设备,又可分为单机光盘检索系统 和光盘网络检索系统。网络检索系统是将若干计算 机检索系统用通信线路联结以实现资源共享的有机 体,是现代通信技术、网络技术和计算机技术结合 并高度发展的产物,它使各大型计算机信息系统变 成网络中的一个节点,每个节点又可联结很多终端 设备,依靠通信线路把每个节点联结起来,形成纵 横交错、相互利用的信息检索网络。
×100%
2、查准率 w 利用检索系统进行某一课题检索时,检出的相 x 关信息量 (w) 与检出的信息总量( m)的比率称为查 准率(p),用公式可表示为:
p=
w ×100% m
如何提高查全率? 选择上位词和相关词;如:查找关于孙 中山的文献,先用孙中山查,再用孙文、 国父查找。 调节检索式的网罗度,删除不必要的组 面,如and(并且); 进行族性检索(分类检索或用or连接相 关检索词);
• 由于信息检索表达式是用户需求与信息集合 之间匹配的依据,所以信息检索技术的实质 是信息检索表达式的构造技术。
• 检索表达式是运用各种逻辑运算符号、位置 逻辑算符、截词符、及其他限制符号等,把 检索词连接组配起来,确定检索词之间的关 系,准确表达检索课题的内容的算式。
2.4.1 布尔逻辑检索
• 布尔逻辑检索是用布尔逻辑算符将检索词、短语或代码 进行逻辑组配指定文献的命中条件和组配次序用以检索 出符合逻辑组配所规定条件的记录。是计算机检索系统 中最常用的一种检索方法。
三、信息检索的类型与特点 根据检索的目的和对象不同,信息检索 可以分为书目信息检索、全文信息检索、数 据信息检索和事实信息检索。 1、书目信息检索 以标题、作者、摘要、来源出处、专利 号、收藏处所等为检索的目的和对象,检索 的结果是与课题相关的一系列书目信息线索. 书目信息检索是一种相关性检索。
2、全文信息检索 以论文或专利说明书等的全文为检 索的目的和对象,检索的结果是与课题 相关的论文或专利说明书的全部文本, 检索结果也不直接解答用户提出的技术 问题本身。因此,全文信息检索也是一 种相关性检索
• ?? 后、中截二字符 如:transplant?? 可以检索出:transplant、transplanted、 transplanter
• ???后、中截三字符 如: comput??? 可以检索出:compute;computer;computing
[%] [?][*] • 后方一致(前截断): “%国庆” 将检索出所有字段为张国庆、欧 阳国庆、国庆等的记录。 • 前方一致(后截断) :
• • 三、信息检索系统 • 信息检索系统是拥有一定的存储、检索技
术设备,存储有经过加工的各类信息,并能为 信息用户检索所需信息的服务系统。 • 因此,信息检索系统具有吸收信息、加工信 息、存储信息和检索信息等功能。 • 检索系统是手工检索系统和计算机检索系统。
•
• 1、手工检索系统 •
手工检索系统又称传统检索系统, 是用人工查找信息的检索系统。其主要 类型有各种书本式的目录、题录、文摘 和各种参考工具书等。
二、信息检索的重要意义与作用 信息检索的重要意义与作用主要体现在以下两 方面: 1、充分利用信息资源,避免重复劳动 科学研究具有继承和创造两重性,科学研究的 两重性要求科研人员在探索未知或从事研究工作之 前,应该尽可能地占有与之相关的信息,即利用信 息检索的方法,充分了解国内外前人和他人对拟探 索或研究的问题已做过哪些工作、取得了什么成就、 发展动向如何等等。这样才能做到心中有数,防止 重复研究,将有限的时间和精力用于创造性的研究 中。因此,信息检索是科学研究必不可少的前期工 作。
2.3 检索语言
• 检索语言是用于描述信息系统中信息特 征和表达用户信息提问的一种专门语言, 是百度文库息存储与检索共同遵循的规则。
关键词语言
主题语言
叙词语言
检 索 语 言
标题词语言
分类语言
第二章 信息检索原理
• 一 信息检索基本原理: • 是检索者的检索提问词与存储在检索 系统中的检索标引词进行匹配对比,取 得一致即为检索命中,命中结果可从检 索系统中以各种方式输出。检索者可根 据此线索对原文进行判断、筛选,以获 取自己所需要的信息。
• 布尔逻辑组配是现行计算机检索的基本技术,主要 通过“与(and,*)”、“或(or,+)”、 “非(not,-)”将检索 词联络起来。 AND[*][&][空格] A and B 逻辑与。A和B都为真时, 结果才为真 ,即:A*B,逻辑含义用图表示是:
• OR [+][|] A or B 逻辑或。A或B中只要有一个 为真时,结果就为真,即:A+B
分析实例:
上海零售业的现状与发展趋势
上海 零售业 现状 发展趋势
上海 and 零售业 and (现状 or 发展趋势)
2.4.2 截词检索
• 截词包括后截、中截、前截等。用?作为截词 符(有些系统用*),主要包括下列情形: • 截词符? 中截一字符,后截断n个字符 • 如 wom?n 可以检索出: woman, women • 如 coumput? 可以检索出Compute, Computer, Computing, computable
用“二次检索”“条件检索”排除误检 限制检索字段,指定邻接和优先关系。
•
从检索要求来说,希望查全率和查 准率都同时达到100%,即系统中存储 的所有相关信息都被检索出(w=x=m), 这是最为理想的效果。但事实上很难达 到全部检出和全部检准的要求,而只能 达到某个百分比,总会出现一些漏检和 误检。因此,在实际检索过程中,必须 同时兼顾查全和查准,不可片面追求某 一方面。
截词检索;com*代替computer
增加检索途径。
如何提高查准率?
提高专指度(用下位词或换专指性强的自 由词)
用逻辑乘“*”(and) 或 not 相关检索项; 如查找克林顿,但不要关于莱温斯基的信 息。检索式:克林顿 not 莱温斯基
用文献外部特征限制输出结果(在中文图 书中查找);
2.1.2 信息检索的类型
数据检索:检索的结果是数据或数值。 如某种材料的电阻;某变压器的参数 ;化学分子式、数据图表等。<手册>
事实检索:检索的结果是事实结论。
查询某一事物(事件)的性质、定义、 原理以及发生的时间、地点过程等。如某产 品是哪个厂家生产,哪个牌子的最好;第一 颗人造卫星是什么时候升空的。<年鉴>
文献检索:检索的结果是文献资料。
查找相关文献的内容、出处、收藏单位 等。如系统地查找数控机床相关方面的文 献。<论文 >
文献检索是信息检索的核心部分。
从性质上说: 文献检索是一种相关性检索,检索的结果 是与课题相关的文献或文献线索,而不直 接解答用户所提出的技术问题本身; 事实检索与数据检索则是确定性检索,检 索的结果是用户所需的确切的数据或事实。
综上所述,书目信息检索是从存储有标题项、作者 项、出版项或文摘项的检索系统中获取有关的信息 线索,如利用各种目录、题录和文摘检索系统。 全文信息检索是从存储整篇论文、专利说明书乃至 整本著作的检索系统中获取全文信息,如利用各种 论文全文数据库、专利说明书全文数据库系统。 数据信息检索是从存储有大量数据、图表的检索系 统中获取数值性信息,如利用各种手册、年鉴、图 谱、表谱等检索系统。 事实信息检索是从存储有大量知识信息、事实信息 和数据信息的检索系统中获取某一事项的具体答案, 如利用各种百科全书、年鉴、名录等检索系统。
3、数据信息检索 以具有数量性质,并以数值形式表 示的数据为检索的目的和对象,检索的 结果是经测试、评价过的各种数据,可 直接用于比较分析或定量分析。因此, 数据信息检索是一种确定性检索。
4、事实信息检索 以事项为检索的目的和对象,检索 的结果是有关某一事物的具体答案。因 此,事实信息检索是一种确定性检索。
NOT[-][^][!] A not B 逻辑非。A为真、B为 假时,结果才为真,即:A-B
布尔逻辑运算符的运算次序
• 括号优先[与计算机编程中一样] (A OR B) AND C NOT D • 不同的系统次序有差别,但总的来说一般次 序为: NOT AND OR • 例A:查找有关信息检索的非英文文献 信息[information] 检索[retrieval] 英文[english] (信息 and 检索 ) not 英文 (information and retrieval) not english
2、为人们更新知识、实现终生学习提供路 径 在当代社会,人们需要终生学习,不断 更新知识,才能适应社会发展的需求。
掌握信息检索的方法与技能,是形成合理知 识和更新知识的重要手段,是做到无师自通、 不断进取的主要途径。
2.1.2 信息检索类型
信 息 检 索 类 型
文献信息检索
依检索内容划分
数据信息检索 事实信息检索
第二章
信息检索原理及方法
信息检索概述
第一节
一、信息检索的含义 信息检索通常是信息用户为处理解决各种 问题而查找、识别获取相关的事实、数据、 知识的活动及过程。完整的信息检索 , 还包括 信息的存储。由此可知,信息检索的全过程 应包括两个主要的方面:
1)信息的标引和存储过程 对大量无序的信息资源进行标引处理, 使之有序化,并按科学的方法存储,组 成检索工具或检索文档,即检索系统的 组织过程。 2)信息的需求分析和检索过程 分析用户的信息需求,利用已组织好 的检索系统,按照系统提供的方法与途 径检索有关信息,即检索系统的应用过 程。
•
• •
2、计算机检索系统
计算机检索系统又称现代化检索系统,是用计 算机技术、电子技术、远程通信技术、光盘技术、 网络技术等构成的存储和检索信息的检索系统。 • 按使用的设备和采用的通信手段,可分为联机 检索系统、光盘检索系统和网络检索系统。
2.4 计算机信息检索技术
• 计算机信息检索技术是用户信息需求和文献 信息集合之间的匹配比较技术。
• 二、信息检索效率 • 信息检索效率是研究信息检索原理的是评 价一个检索系统性能优劣的质量标准,它始终 贯穿信息检索和信息存储的全过程。衡量检索 效率的指标有查全率、查准率、漏检率、误检 率、响应时间等。目前,人们通常主要以查全 率和查准率这两个指标来衡量。
1、查全率 利用检索系统进行某一课题检索时,检索出的相 关信息量 (w)与该系统信息库中存储的相关信息量 (x) 的比率称为查全率(R),用公式可表示为: R=
如:“热电材料% ”将检索出热电材料梯度化、 热电材料及其梯度化等的记录。
•
联机检索系统主要由系统中心计算机和数据库、 通信设备、检索终端等组成,能进行实时检索,具 有灵活、不受地理限制等优点,但检索费用较高。 光盘检索系统主要由光盘数据库、光盘驱动器、计 算机等组成,具有易学易用、检索费用低的优点, 根据使用的通信设备,又可分为单机光盘检索系统 和光盘网络检索系统。网络检索系统是将若干计算 机检索系统用通信线路联结以实现资源共享的有机 体,是现代通信技术、网络技术和计算机技术结合 并高度发展的产物,它使各大型计算机信息系统变 成网络中的一个节点,每个节点又可联结很多终端 设备,依靠通信线路把每个节点联结起来,形成纵 横交错、相互利用的信息检索网络。