第三章:信息检索基本方法(信息检索,符绍宏)

合集下载

信息检索(符绍宏)t总结

信息检索(符绍宏)t总结

2.1.2 信息检索的相关性问题
相关性是表示检索系统中检出的信息与用户需求一致 性程度的指标。影响相关性的因素很多,要提高检索 相关性,在手检与机检两种检索环境中分别采用不同 的方法。智能检索系统是提高系统相关性的解决方案 和目前研究的热点。 本部分主要知识点: • 手工检索中的相关性 • 计算机检索中的相关性 :系统相关性 、用户相关性 • 相关性研究的热点 :智能检索系统 特点及功能
1.2.3 文献信息资源
迄今为止,文献信息资源是信息检索的主要对象和信 息资源建设和利用的主要类型。本单元知识点包括: • 文献的物质形态 :刻写型文献 、印刷型文献 、缩微型 文献 、电子型文献、视听型文献 • 印刷型文献种类:图书 、期刊 、科技报告 、会议文 献 、专利文献 、标准文献 、政府出版物 、学位论文 、 产品样本 、技术档案 • 电子型文献种类划分标准多样,与印刷型文献比有众 多不同之处。
1.2.2 信息资源的分类
按照不同的标准可以将信息资源划分为不同的种类, 常见的划分标准及其类型有: • 按信息资源所依附的载体划分:体载信息资源、实物 信息资源、文献信息资源、电子信息资源四种类型
• 按信息资源传递的范围划分:公开信息资源、半公开 信息资源和非公开信息资源三种
• 按信息资源的加工程度划分:一次信息资源、二次信 息资源和三次信息资源

• • • •

第二节:信息资源
信息及信息资源是信息检索的主要对象,本节主要介 绍信息资源的定义及其类型,并对当前信息检索的主 要检索对象——文献信息资源做较为详细的描述。本 节知识点有: • 信息资源的概念 • 信息资源的分类 • 文献信息资源
1.2.1 信息资源的概念
信息与信息资源的定义,目前仍是众说纷坛。但国内 外多数专家都认为应该从狭义和广义两种角度来认识 和理解信息资源的涵义 : • 狭义信息资源:是指人类社会经济活动中经过加工处 理的、有序化并大量累积后的有用信息的集合。 • 广义信息资源:是信息和它的生产者以及信息技术的 集合 。 本书的陈述是基于狭义信息资源概念基础上的。

科技文献检索信息检索基础

科技文献检索信息检索基础

设有6个书库:社会科学书库Ⅰ(二楼)、 社会科学书库 Ⅱ(二楼)、 社会科学书库 Ⅲ(二楼)、 自然科学书库(三楼)、 文 学 书 库 (三楼)、 工程技术书库(四楼)、

社会科学书库Ⅰ(二楼大厅北侧)
(设有阅览座位,开放借阅方式)收藏 A马列主义、毛泽东思想、邓小平理论
B哲学、宗教;D政治、法律;E军事;F经济;G文化、科学、教育、体育;Z综合 性图书。
B.用中国图书分类号H319.9-61 C.用书名“英语会话”和“大全” D.用书名“英语会话”和“词典”
2)缺点
4.分类途径的优缺点
(1)不适用于特性检索,查准率比主题词低 【例题】查找论文《活菌制剂与抗生素对仔猪饲料消化率和肠道微生物数量 的影响》若用分类途径结果会太多或不准确。 【题解】这类课题仅仅采用分类号无法准确表达课题,适宜用主题途径检索。
社会科学书库Ⅱ(二楼东侧)
收藏 K 历史、地理; J艺术;R医药、卫生。
社会科学书库Ⅲ(二楼西侧)
收藏 C社会科学总论; H语言、文字

自然科学书库
(三楼北侧)
收藏 N自然科学总论;O数理科学和化学;P天文学、地球科学;Q生物科学;
S农业科学; TP自动化技术、计算机技术;

文艺综合书库 (三楼东侧)
信息检索的基本原理
信息源 信 息 的 存 储 过 程 内容分析 主题概念 检索提问 内容分析 主题概念 信 息 的 查 找 过 程
检索语言和名称规范 标引词 信息标识 检索词
组织
信息组合 输出 所需信息
检索
检索标识
信息检索语言概念
定义:是根据检索需要而创造的一种人工语言。
作用: 1、保证不同标引人员表征文献信息的一致性, 使内容相同及相关的文献集中化。 2、保证检索提问与文献信息标引的一致性。提 高信息的查全率和查准率。

3.第三章 信息检索策略

3.第三章 信息检索策略

例:查找关于唐宋诗歌的文献
2 截词检索
截词检索就是用截断的词的一个局部 进行的检索,并认为凡满足这个词局部中 的所有字符(串)的文献,都为命中文献。 eg: market/marketable/marketing market?

常用截词符 ?、$、*
前方一致: “protect?”表示protect, protected, protecting 后方一致: “?computer”表示computer、 microcomputer、minicomputer

布尔逻辑运算符 与(AND、*)
A
B
或(OR、+)
A
B
非(NOT、-)
A
B
旅游 * 营销(旅游 AND 营销 ) 杜甫 + 杜诗 + 李杜 (杜甫 OR 杜诗 OR 李杜) 能源 - 核能(能源 not 核能)
布尔逻辑运算级别

“ - ” 优先,“ * ” 次之,“+” 最低, 即布尔逻辑的优先执行顺序是:NOT, AND,OR,但可根据需要,用括号 改变执行顺序。 在有括号的情况下, 先执行括号内的运算。
第二节 信息检索步骤与检索效果
1. 信息检索步骤 ◆分析课题 ﹡分析课题研究的意图和目的 ﹡分析课题所涉及的内容及学科范围 ﹡分析课题所需信息的类型
◆ 检索系统的选择 ◆ 检索点的确定 ◆制定检索式 例:灌溉用的橡塑多孔管 (橡胶 or 塑料 or 橡塑) and 多孔管 and 灌溉
◆查找文献线索并整理检索结果
文章)
la =Chinese (只查语种为中文的文献)

4 位置检索 位置检索是指运用位置算符表达
检索词概念之间的位置邻近关系, 也叫邻近检索。

信息检索与利用实用教程

信息检索与利用实用教程

信息检索与利用实用教程随着互联网的普及,我们可以轻松地获取到大量的信息,但是如何高效地检索和利用这些信息却是一个需要学习的技能。

本文将为大家介绍一些实用的信息检索与利用技巧,帮助大家更好地利用互联网资源。

一、信息检索1.关键词检索关键词检索是最常用的检索方式,通过输入关键词来搜索相关信息。

在使用关键词检索时,需要注意以下几点:(1)关键词的选择:关键词应该尽可能准确地描述所需信息的内容,避免使用过于笼统的词汇。

(2)关键词的组合:可以使用多个关键词组合进行检索,以提高检索结果的准确性。

(3)关键词的排除:在检索时,可以使用“-”符号排除某些关键词,以避免检索到无关信息。

2.高级检索高级检索是一种更加精细的检索方式,可以通过设置检索条件来筛选出符合要求的信息。

在使用高级检索时,需要注意以下几点:(1)检索条件的设置:需要根据所需信息的特点设置相应的检索条件,以提高检索结果的准确性。

(2)检索条件的组合:可以使用多个检索条件组合进行检索,以进一步提高检索结果的准确性。

(3)检索条件的调整:如果检索结果不理想,可以适当调整检索条件,以获得更好的结果。

3.文献检索文献检索是一种专门用于检索学术文献的方式,可以通过学术搜索引擎或学术数据库进行检索。

在使用文献检索时,需要注意以下几点:(1)选择合适的学术搜索引擎或学术数据库。

(2)使用正确的检索词语和检索语法。

(3)根据需要选择不同类型的文献,如期刊论文、会议论文、学位论文等。

二、信息利用1.信息筛选在获取到大量信息后,需要进行筛选,以找到最有价值的信息。

在信息筛选时,需要注意以下几点:(1)根据需求确定筛选标准。

(2)对信息进行分类,以便更好地进行筛选。

(3)根据筛选标准逐一筛选信息,保留最有价值的信息。

2.信息整理在筛选出有价值的信息后,需要进行整理,以便更好地利用这些信息。

在信息整理时,需要注意以下几点:(1)对信息进行分类,以便更好地进行整理。

(2)对信息进行归纳总结,以便更好地理解和记忆。

第三章 信息检索基本方法

第三章 信息检索基本方法

叙词语言的词表即为叙词表,它是将标引人员和 检索人员的自然语言转换成规范化语言的一种控制 工具。它是提供用于标引和检索的词语,并显示其 语义关系的词汇集合。叙词表通常由字顺表、范畴 表、词族表或其他附表构成。作为叙词语言规范性 文本,其主要作用有两方面:一是作为依据,指导 标引人员和检索人员用词一致,并以此组织文献和 建立检索系统;二是作为叙词语言的词典,便于叙 词的规范化管理。
叙词语言。是以表达文献主题内容的概念单元为 基础,经过规范化处理,可以进行逻辑组配的一组 主题语言。叙词是经过规范化处理的以基本概念为 基础的表达文献信息和检索提问的主题的词和词组。 叙词语言对元词语言的单词组配原理,标题语言的 词汇规范和参照系统,以及分类语言知识分类的方 法进行了继承和发展,是当代受控检索语言的主流。 叙词语言的基本原理是概念组配,与元词语言的 字面组配有着本质的区别。前者是词语概念意义的 拆分和组合,其本质是语义层次上的组合;后者是 词语字面的拆分和组合,其本质是字符层次上的组 合。
元词语言。是以元词作为主题标识,通过字面组 配来表达主题概念的。所谓元词,,是指从文献中 抽选出来,从字面上不可再分割的表达最基本的概 念单元的词汇。例如,“物理”和“贸易”就属于 元词,而“主题标引”不属于元词,可进一步分解 为“主题”、“标引”等元词。检索时,可根据提 问内容选用适当的单元词进行组配。例如,“经济 文献检索”这一主题,就必须通过“经济”、“文 献”、“检索”三个单元词进行标引和组配检索。
题内关键词索引的突出优点如下: 出版速度快,编制费用低 自动化生产,省去了标引人员和索引编辑的智 力劳动 生产过程简单,处理一致性好 索引用词与作者用词一致,能及时反映新的名 词术语 提供检索点多,且能同时显示上下文信息 程序通用性好,适用范围广 可派生出其他产品 题内关键词索引也有严重的缺陷: 索引质量依赖于题名质量,不受人的控制 缺乏词汇控制 索引版面易读性差

信息检索(符绍宏)t

信息检索(符绍宏)t

1.2.2 信息资源的分类
按照不同的标准可以将信息资源划分为不同的种类, 常见的划分标准及其类型有: • 按信息资源所依附的载体划分:体载信息资源、实物 信息资源、文献信息资源、电子信息资源四种类型
• 按信息资源传递的范围划分:公开信息资源、半公开 信息资源和非公开信息资源三种
• 按信息资源的加工程度划分:一次信息资源、二次信 息资源和三次信息资源
• • • • • •
信息检索技术的发展
目前信息检索技术正向两个方面发展,一是深度揭示 和组织信息;二是适应信息资源的多载体、网络化和 分布化特点,在广度上提高组织和检索信息的能力。 本单元主要介绍新的检索技术特点及原理: 全文检索技术的发展 :超文本信息检索、概念信息检 索 基于内容的多媒体检索技术的发展 自动标引:自动抽词标引、自动赋词标引;实现自动 标引的方法:词频统计标引法、概率标引法、句法分 析标引法、语义分析标引法、人工智能标引法 自动分类:自动聚类和自动归类
1.1.2 信息检索类型
• 根据不同的标准,信息检索可以划分为不同的类型。 按检索对象的内容区分:文献检索、数据检索及事实 检索。 按检索方式区分:手工信息检索(手检)和机器信息检 索(机检)两类。 按检索要求区分:强相关检索、弱相关检索 按检索的时间跨度区分:定题检索、回溯检索 按检索对象的形式区分:文本检索、多媒体检索 按检索对象的信息组织方式区分:全文检索、超文本 检索、超媒体检索 按检索途径的特点区分:常用法、回溯法、循环法
3.1.2 检索途径及其选择
文献信息的检索,必须依赖于检索前已经掌握的线索, 以及现有检索工具或系统的情况,有针对性地选择合 适的检索途径。通常可依据文献的特征,将信息检索 途径分为内容特征检索途径和外部特征检索途径。 本 单元主要介绍各种检索途径及其选择: • 内容特征检索途径:分类途径、主题途径和分类主题 途径三种 • 外部特征检索途径 :责任者途径 、题名途径、序号途 径、引文途径 等

信息检索基本方法及技术

信息检索基本方法及技术

TripAdvisor tripadvisor国际景点指南
2019/7h/1o8 telguide 最大的旅馆目录
时事、新闻
Google news, news.google
Yahoo news, news.Yahoo
AllTheWeb News, al1C8 NKI—中国专利数据库
标准信息的网上检索 国际标准化组织ISO Online, 中国标准服务网, cssn 国家标准化管理委员会, 中国标准咨询网chinastandard 美国国家标准学会ANSI,
2019/7/18
(五)参考信息的网上检索工具
5、数据库
(二)手工检索工具
二次文献、工具书
(三2019)/7/1线8 索检索工具、原文检索工具、馆藏检索工具
(四)各类文献的网络检索工具
1、图书信息检索工具
各地图书馆的公共检索目录(OPAC)(Online Public Access Catalog) 联合目录数据库
Worldcad: 是由OCLC及其成员图书馆共同建设联机联合目录 数据库
2019/7/18
2.引文法(跟踪法)
文献之间的引证和被引证关系揭示了文 献之间存在的某种内在联系,引文法(也有 称为跟踪法)就是利用文献后所附的参考文 献、相关书目、推荐文章和引文注释查找相 关文献的方法。这些材料指明了与用户需求 最密切的文献线索,往往包含了相似的观点、 思路、方法,具有启发意义。
三、检索语言
检索语言是根据文献检索需要创造的 一种人工语言,又称检索标识。从反映文献 特征的角度来看,那些代表了文献外表特征 的著者姓名、题名、报告号、标准号、专利 号、档案号等检索标识和代表了文献内容特 征的类号、叙词、标题词和关键词都是检索 语言。从检索标识规范化的角度来看,检索 语言可分为自然语言检索标识和规范语言检

第三章 信息检索基本方法

第三章 信息检索基本方法

假设有文献A和B,B文献在完成过程 中引用了A文献,并把它列在参考文献 中,此时就称A是B的“引文” (Citation),而B因为提供了包括文献A在 内的若干个引文,故又称为“来源文 献”(Source Item 或 Source Document)。 如果把文献A作为检索入口,就可以 检索到在它之后发表的引用了它的所 有来源文献。由于来源文献和引文之 间在内容上是相关的,所以引文就完 成了文献集中的功能。
• 后截断 将截词符号放置在一个字符串右方,以表 示其右边的有限或无限个字符不影响该字 符串的检索。 • 前截断 将截词符号放置在一个字符串左方,以表 示其左边的有限或无限个字符不影响该字 符串的检索。
• 中间截词 中间截词(embedded truncation), 是在 一词中间出现若干个?号,表示可插入若 干个字符。 如:ioni?ation 它将对ionisation和ionization进行检索。 如:cent??line 它将对centerline和centreline进行检索。
以中国期刊查阅举例说明之。
练习
1、PATENT */+/- CHINA
2、在秦岭隧道中发表的有关掘进机或TBM的文章 3、除发表的有关秦岭隧道中掘进机和TBM的文章 KEYS: 2、(掘进机+TBM)*秦岭隧道
3、(掘进机+TBM)-秦岭隧道
思考:还可以有那种形式
(w)算符With:
3.2.2 位置运算符
Example
1、 building (w) construction 2、 building (1w) construction 3、 building (n) construction Keys: 1、 building construction; building- construction 2、 building and construction; building under construction 3、 construction building; Construction- building

信息检索的方法总结

信息检索的方法总结
引文法又可分为两种一种是由远及近地搜寻即找到一篇有价值的论文后进一步查找该论文被哪些其它文献引用过以便了解后人对该论文的评论是否有人对此作过进一步研究实践结果如何最新的进展怎样等等
信息检索的方法总结
1.“拉网法”
在不了解查询某一专题信息的URL地址时,可从 提供信息总目的Web 页面开始浏览,沿着专题链接层 层查找,直至找到有关的内容为止。然后用“书签” 保存这个页面的URL,转向另一个分支。这种方法可以 迅速获得较多的相关地址,然后进行筛选。就使用引 擎而言,国外专家也建议先用链接页面多、响应时间 快的引擎。
2.引文法(跟踪法)
文献之间的引证和被引证关系揭示了文献之间存在的 某种内在联系,引文法(也有称为跟踪法)就是利用文献后所 附的参考文献、相关书目、推荐文章和引文注释查找相关文 献的方法。这些材料指明了与用户需求最密切的文献线索, 往往包含了相似的观点、思路、方法,具有启发意义。
引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价 值的论文后进一步查找该论文被哪些其它文献引用过,以便了解 后人对该论文的评论、是否有人对此作过进一步研究、实践结果 如何、最新的进展怎样等等。由远及近地追寻,越查资料越新, 研究也就越深入,但这种查法主要依靠专门的引文索引,如 《科 学引文索引》、《社会科学引文索引》 。 另一种较为普遍的查法是由近及远地追溯,这样由一变十,由 十变百地获取更多相关文献,直到满足要求为止。这种方法适合 于历史研究或对背景资料的查询, 其缺点是越查材料越旧,追溯 得到的文献与现在的研究专题越来越疏远。因此,最好是选择综 述、评论和质量较高的专著作为起点,它们所附的参考文献筛选 所谓常规法就是利用常规检索工具查找有关文献的方法,是信息 时代应掌握的最基本的信息查找方法。现在对文献的书目控制手 段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检索工 具层出不穷,有很大的挑选余地。用户应根据自己的检索知识和 条件选用一种或几种检索工具。常规法可分为顺查法、逆查法和 抽查法。 4.排除、限定和合取法 这实际上是将信息加工的方法融入检索中去。思维中使用排除这 一概念,是指对查找对象的产生和存在的状态在时间和空间上加 以外在否定。把这一方法移植到检索中,就是在时间或空间上极 大地收缩检索范围。限定法是相对于排除法而言的,指对查找对 象在时间和空间上加以内在的肯定。排除的结果必然是限定,反 之亦然。

第三章 信息检索基本方法概论

第三章 信息检索基本方法概论

第主题三语章言信—息—叙检词索语基言本方法
叙词语言的特点:
➢规范性强:叙词语言事先经过规范化处理,列于叙词表中,
标引和检索都从叙词表中选词,保证了标引和检索的一致 性。
➢利用叙词的组配,可用有限的叙词表达各种复杂的主题。 ➢叙词语言从单元概念出发提示文献内容,可准确、全面揭
示文献的主题,提高标引深度和专指度。
TG759 其它
TG751又分为:
TG751.1 车床夹具
TG751.2 钻床夹具
TG751.3 铣床夹具
TG751.4 刨床夹具
TG751.5 磨床夹具
TG751.9 其它
第分类三语章言-信中图息分检类索法 基本方法
第检索三语章言信—息—主检题索语基言本方法 主题语言: 以主题词来表达信息主题概念的语言。 是计算机信息检索语言的主流。通常又分为以下几种: (1)标题语言 (2)叙词语言 (3)关键词语言 (4)元词语言
Q 生物科学
R 医药、卫生 S 农业科学
T 工业技术
U 交通运输
V 航空、航天
X 环境科学、安全科学 Z 综合性图书
第分类三语章言-信中图息分检类索法 基本方法
简表
以T工业技术类来说明简表。 工业技术(T类)划分为: TB 一般工业技术 TE 石油、天然气工业 TG 金属学、金属工艺 TJ 武器工业 TL 原子能技术 TN 无线电电子学、电讯技术 TQ 化学工业 TU 建筑科学
1.根据结构原理划分 分类语言 指用分类号和类名来表达信息的内容主题概念, 并按知识门类的逻辑次序将信息资源系统地加以划 分和组织的语言。 分类语言主要分为等级体系型和分面组配型。 例如:下面的中图分类法就是等级体系型分类语 言。
第分三类章语言信-息中图检分索类基法本方法

信息检索基本知识

信息检索基本知识
• 与叙词一样是以较正规和正式的科学名称为基 础的一种主题法检索标识,但存在主、副标题 词固定搭配,即属于先组式检索语言。 •如:
叙词
•叙词是主题语言的高级形式。是以较正规和正式的 科学名称为基础组织而成一种主题法检索标识系统。 •由在概念上不可再分的基本概念单元词汇组成,检 索时可以利用这些单元词进行组配,以表达一个复杂 的概念。
•如课题: 太阳能热水器研究 汉语主题词表中正式主题词是太阳能利用、太阳 能加热等代替。
标题词
中国图书馆图书分类法
• 简称《中图法》,由中国图书馆图书分类法编辑委 员会编。1975年科学技术文献出版社出版第一版。 • 使用字母与数字相结合的混合号码,基本采用层累 制编号法。 • 《中图法》主要供大型图书馆图书分类使用。另外 为适应不同图书信息机构及不同类型文献分类的需 要,它还有几个配套版本:《中国图书资料分类 法》、《中国图书馆图书分类法(简本)》和 《〈中国图书馆图书分类法〉期刊分类表》等。 • 自1988年起,中国出版图书的标准书号中采用《中 图法》的大类号。
关规定和格式撰写的,能完整而真实地反映其所从事科 研活动的技术内容和经验的特种文献。具有内容翔实、 具体完整,技术含量高,实用意义大,便于交流,时效 性好等特点。做好科技报告工作可以提高科研起点,大 量减少科研工作的重复劳动,节省科研投入,加速科学 技术转化为生产力。
•会议文献:指学术会议文献。
•学位论文:是高校研究生、毕业生为获得学位进行 科学研究而写出的学术性论文中,常含有独创性的学 术性文献资料。 •专利文献:专利是与产业活动密切相关的,实用性 非常强。根据专利的技术水平和应用情况,其类型有 invention(发明)、utility patent(实用新型)、和 design patent(外观设计)等。

1 计算机信息检索的基本方法

1 计算机信息检索的基本方法

1 计算机信息检索的基本方法4.3.1 明确检索要求和检索目标计算机检索的第一步准备工作是明确检索要求和检索目标。

明确检索要求就是要搞清楚本课题属于什么学科,所需文献的类型及语种,查找文献的年代,所需文献的最佳篇数,允许支配的检索费用。

这些要求对选择数据库、构造检索策略都是十分重要的。

确定检索目标也是进行计算机信息检索前应搞清楚的准备工作。

例如:如果属于开题调研,则应尽可能地检索出与之相关的全部文献,即要求较高的查全率;以便充分地做好开题的准备工作;如果属于探索性、开创性的课题,则只需要查出一些启发性的文献,对查准率和查全率要求都不一定有很高的要求。

4.3.2 课题分析1. 课题概念的分析方法分析课题就是分析出课题所涉及的主要概念,并找出能代表这些概念的若干个词或词组,进而分析概念之间的上、下、左、右关系。

对于新学科、交叉学科和边缘学科的课题,则要搞清楚这些概念之间的关系。

概念分析的结果应以概念组为单元的词或词组的形式列出,以便下一步制订检索策略时使用。

2. 隐含概念的分析方法有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。

例如:"社会保障"包含"养老保险"、"失业保险"、"医疗保险"和"社会救济"等概念,如果要检索社会保障方面的文献,应该析出上述概念,才能保证文献的查全率。

3. 核心概念的选取有些检索词中已经含有的某些概念,在概念分析中应予以排除。

例如:课题"公司劳动奖励、职工培训和养老保险制度管理的理论和实践",如果把"劳动奖励","职工培训","养老保险","公司","制度","管理"六个概念全部组配起来,则会造成大量文献漏检。

信息检索的方法

信息检索的方法
一个匹配( 一个匹配 Match)过程 过程
2011-5-31
上海大学图书馆情报部
二. 文献信息数据库原理
机检原理: 机检原理: 输入检索提问标识 输入检索提问标识 倒排文档 与数据库标引标识进行比较匹配 文档( 标引标识进行比较匹配, →倒排文档(与数据库标引标识进行比较匹配, 给出记录篇数 记录篇数) 给出记录篇数) 顺排文档 根据记录号读取) 文档(根据记录号读取 →顺排文档 根据记录号读取 →输出结果 。 (结果不理想时要进一步修改检索提问标识 结果不理想时要进一步修改检索提问标识) 结果不理想时要进一步修改检索提问标识 p.21
2011-5-31
上海大学图书馆情报部
一.信息检索概念 信息检索概念
从狭义来讲,是指利用检索工具查找文献 从狭义来讲,是指利用检索工具查找文献 查找 的过程 从广义来讲,信息检索全程应包括信息存 从广义来讲,信息检索全程应包括信息存 检索两方面的含义 两方面的含义。 贮与检索两方面的含义。 存贮( storing) 存贮(information storing)是将信息按 一定的方式有序的组织起来, 一定的方式有序的组织起来,检索 retrieval)是根据用户特定 (information retrieval)是根据用户特定 的需求将相关信息准确的提取出来。 的需求将相关信息准确的提取出来。
2011-5-31 上海大学图书馆情报部
目录型数据库
揭示文献 外部信息: 外部信息: 封面信息 馆藏信息
2011-5-31
上海大学图书馆情报部
题录数据库
来源出处
2011-5-31
上海大学图书馆情报部
文摘型数据库
篇名
摘要
来源出处
2011-5-31

信息检索知识点

信息检索知识点

信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。

2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。

3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。

存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。

检索过程是存储过程的逆过程。

因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。

4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。

缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。

8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。

信息检索知识点

信息检索知识点

信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找;2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息;3.为什么说信息存储和检索是两个不可分割的有机体检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的;存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较;检索过程是存储过程的逆过程;因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来;4.信息检索的方法1顺查法2倒查法3抽查法4追溯法5循环法5.信息检索的途径1内部特征途径a)分类途径b)主题途径2外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:1简单,形式简洁,易于理解;2可操作性强,应用广泛;3构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;4能处理结构化提问;缺点:1表达用户复杂需求效果欠佳2准确匹配无法提供定量比较3匹配标准不尽合理7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的;8.什么是计算机信息检索所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程;实质上计算机信息系检索是利用计算机信息检索系统存储和查找信息的技术,是计算机硬件资源、系统软件、检索软件和数据库的综合;9.计算机信息检索的类型:(1)根据检索系统的工作方式,可分为:a.脱机信息检索脱机信息检索是利用单台计算机的输入装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索;b.联机信息检索联机信息检索是利用计算机终端设备,通过通信线路或网络,与世界上的信息检索系统相连,从信息检索系统的数据库中进行检索并获取信息的过程;联机检索模式是主从式,即为所有的工作都在主机上进行,主机负担重,一旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极高;c.光盘信息检索d.网络信息检索(2)根据信息的服务方式,可分为:a.定题检索计算机的存储器中,每次系统加入新的信息,系统便会按检索要求,找出用户所需的资料,并把结果分给用户,用户能及时得到最新的文献信息;具有定期性、新颖性和批处理性的特点;b.回溯检索回溯检索是追溯查找过去的信息,让用户一次检索一段时间内与某一课题有关的信息;也可以查找最新的信息,可以适应多数用户的查询需要;c.日常检索10.计算机信息检索技术初级检索6个1)布尔逻辑检索2)位置限制检索3)短语检索4)截词检索5)字段限制检索6)区分大小写检索11.计算机信息检索技术高级检索6个1)加权检索2)自然语言检索3)相关信息反馈相似检索4)概念检索5)模糊检索6)聚类检索布尔逻辑检索(2)逻辑或用“OR”或“+”表示(3)逻辑非用NOT或—表示ANOTBA当中除去B所剩下的字段名称及缩写ABabstractTItitleAUauthorJNjournalname LAlanguagePYpublicationyearSPsourcepublication分类和聚类的异同相同点:基于“类”的思想进行检索;不同点:1分类基于分类法,其类目体系主要是先组式,有系统性的;类目与文献之间具有相对独立性;而聚类则先有文献后聚类,类的性质及整体类目体系完全由系统中的文献决定;2从类目形成过程看,分类是总到分,聚类由分到总;会构建检索式主要是积木型12.计算机信息检索策略含义狭义的计算机信息检索策略是指检索提问式的构建,即运用系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式;广义的计算机信息检索策略是指在分析检索课题的实质内容和明确检索目标的基础上,选择检索工具,确定检索途径与检索用词,以及检索词之间逻辑关系与查找步骤最佳方案的一系列科学安排;13.计算机信息检索策略类型即联机检索五原则(1)最专指面优先:从最专指的概念入手(2)最低登录量面优先(3)积木型重点掌握,会构建此检索式(4)引文珠型增长14.网络信息资源的评价方法:(1)定性评价法:是指按照一定的评价标准从主观角度对网络信息资源所做的优选和评估,主要有指标体系法和调查表法;(2)定量评价法:国内外比较典型的定量评价方法有信息计量法、层次分析法和对应分析法等三种;(3)综合评价法:是定性评价和定量评价相结合的一种方法,有包括分析法、模糊综合评价法等;(4)分类方法:分为第三方评价法、用户评价法和网络计量法;15.搜索引擎的类型:(1)按检索机制划分:检索型、目录型和混合型检索工具(2)按检索内容划分:综合型、专题型和特殊型检索工具(3)按包含检索工具数量划分:单独型和集合型检索工具(4)按检索资料类型分:万维网检索工具和非万维网检索工具16.元搜索引擎的含义所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作;17.元搜索引擎的特点:(1)虚拟索引数据库(2)查全率高(3)用户界面友好(4)适宜二次加工18.元搜索引擎的工作原理19.实现跨语言信息检索的方法:1提问式翻译方法2文献翻译方法唯一结果是源语言描述 3提问式—文献翻译方法将查询语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检索相关信息,然后再把检索结果的全部或部分内容翻译成查询语言描述的信息;检索结果一般选择部分翻译,这样工作量较小,容易提高翻译的效率和质量,部分翻译一般是对结果文本的前两行、文摘或文本中重要的词进行翻译,在重要词的翻译中,如何确定重要词是决定这种方法效果的关键;4中间语种翻译方法5非翻译方法20.语义网的应用(1) Web 服务(2) 智能信息检索(3) 基于语义的网页搜索引擎(4) 企业数据管理(1)Compendex数据;数据的内容全面,主要包括:论文标题;作者;作者单位;英文文摘;论文所在期刊名称;卷,期;论文页码;分类码;主题词等等;其中:分类码;主题词需要专业人员单独给出;(2)PageOne数据:数据内容主要包括:论文标题;作者;作者单位;论文所在期刊名称;卷,期;论文页码;少数数据带有英文文摘;不需要任何专业人员再做工作;22pendex数据和PageOne数据的主要区别在于:数据中是否有分类码和主题词;有这两项内容的数据是Compendex数据,反之是PageOne数据;有没有主题词和分类号是判断论文是否被Compendex数据正式收录的唯一标志;23.主题指南按字母顺序列出与分类表中类目名称相关的主题词,并注明相关的分类号,实际上是分类表的主题索引,是从分类途径检索文献的指南;便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到文献所在页码;24.SCI科学引文索引的编制结构及检索方法(1)引文索引(2)来源索引(3)机构索引(4)轮排主题索引25.如何决定收录期刊的数量和种类1“加菲尔德文献集中定律”——确定适宜的期刊数量该定律认为:在几万种科技期刊中,最重要的期刊即核心期刊不过一千种,甚至可能在内;2“费用—效果原则”——用来选择每一种期刊,具体方法是“引用频率统计法”先计算一种期刊在一年内被引用的总次数,再计算其中每篇论文的平均引文章,其他因素对引文章的影响通过加某些修正系数来解决,引用频率越高,说明该刊质量越高;通过上述两个指标决定了收录期刊的数量和种类26.什么是专利这种受法律保护的发明就称专利;含义:专利权——法律受专利法保护的发明创造——专利技术专利说明书等专利文献——文献这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体表现;27.什么是同族专利同族专利指同一个发明为了在不同国家得到保护,而在这些国家分别申请的一系列内容相同或基本相同的专利;由于同族专利或相同专利都具有相同的优先权项,所以通过优先权项可以方便、快捷地检索出有关同一发明的全部相同专利或同族专利;28.专利的类型(1)发明专利(3)外观设计专利(4)植物性专利(5)防卫性专利知识产权:工业产权和着作产权29.学位论文的文献价值:(1)较高价值的一次文献:写作不受篇幅限制,论述详尽:从研究背景、技术线路、实验方法到数据获取、分析结论论述翔实;(2)珍贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、研究进展和最新成果,论文的使用者可以跟踪名校导师的科研进程;(3)综述性二次文献:对相应研究领域有系统深入的讨论和综述,拥有详尽的参考文献,可得到课题研究现状综述;(4)写作技巧的启发蓝本:通过对学位论文的阅读,可大致梳理出作者的写作思路和研究方法,学习学位论文的写作方法;30.信息检索评价方法(1)测试文档集合法(2)人机交互(3)用户体验日志分析法(4)自然观察法31.召回率:R=检索出的相关文献量/数据库中的全部相关文献x100%准确率:P=检索出的相关文献量/检出的文献总量x100%32.平均准确率并会计算平均准确率是一个通过所有相关文献测定系统绩效的单值指标;如果检索系统能快平均准确率是求各个相关文献准确率的平均值;因此平均准确率的计算只考虑相关文献的数量,而与检出文献的总量无关;。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二节:信息检索技术
信息检索技术主要指计算机检索的常用技术 ,本节主 要介绍常用的信息检索技术理论、特点及检索技术的 发展,知识点有: 布尔检索:布尔逻辑算符(逻辑与AND、逻辑或OR、逻 辑非NOT)、注意事项 、特点 截词检索 :后截断、前截断、中截断 限制检索:字段检索、限制符检索 原文检索 :词位置检索、同句检索、同字段检索 加权检索:词加权检索、词频加权检索 聚类检索
检索策略(续)
• 网络环境下检索策略的新特点 : 明确检索目的和要求,确定检索用词 ;选择合 适的网络检索工具;选用适当的检索方法 (分 类目录检索、关键词检索、分类目录与关键词 联合检索、多元引擎检索 );正确对待检索结 果;加快检索速度
3.3.2 检索策略
检索策略就是为实现检索目标而制定的计划或方案, 是对整个检索过程的谋划和指导。由于手工检索和计 算机检索环境各有特点,其检索策略也各有针对性, 所以我们分别加以介绍: • 手工检索策略 :分析课题、选择检索工具、选择检索 语言、选择检索途径、确定检索方法和步骤等 • 计算机检索策略 :联机检索策略(最专指面优先策略、 最低登录量面优先策略、积木型策略、引文珠形增长 策略、逐次分馏策略 );计算机检索策略的制定(选 择检索系统、确定检索词、构造检索表达式、实施检 索策略、修改检索策略 )
• • • •
信息检索技术的发展(续)
• 自动文摘:机械文摘法(统计摘录法、位置摘录法、 提示摘录法 )、人工智能文摘法 • 智能检索技术的发展 • 数据挖掘技术的发展:数据挖掘(Data Mining)就是从大 量的、不完全的、模糊的、随机的数据中,提取隐含 在其中的、人们事先不知道的、但又是潜在有用的信 息和知识的过程。还有很多和这一术语相近似的术语, 如知识发现(KDD)、数据分析、数据融合(Datafusion) 等。
3.1.2 检索途径及其选择
文献信息的检索,必须依赖于检索前已经掌握的线索, 以及现有检索工具或系统的情况,有针对性地选择合 适的检索途径。通常可依据文献的特征,将信息检索 途径分为内容特征检索途径和外部特征检索途径。 本 单元主要介绍各种检索途径及其选择: • 内容特征检索途径:分类途径、主题途径和分类主题 途径三种 • 外部特征检索途径 :责任者途径 、题名途径、序号途 径、引文途径 等
• • • • • •
信息检索技术的发展
目前信息检索技术正向两个方面发展,一是深度揭示 和组织信息;二是适应信息资源的多载体、网络化和 分布化特点,在广度上提高组织和检索信息的能力。 本单元主要介绍新的检索技术特点及原理: 全文检索技术的发展 :超文本信息检索、概念信息检 索 基于内容的多媒体检索技术的发展 自动标引:自动抽词标引、自动赋词标引;实现自动 标引的方法:词频统计标引法、概率标引法、句法分 析标引法、语义分析标引法、人工智能标引法 自动分类:自动聚类和自动归类
第三节:信息检索过程与策略
本节主要介绍信息检索步骤与检索策略,主要知识点 有:
• 信息检索一般步骤
• 检索策略
3.3.1 信息检索一般步骤
信息检索通常按以下5个步骤进行: • 分析检索课题,明确检索要求 • 选择检索工具或检索系统 • 确定检索途径、检索方法
• 查找和阅读文献线索
• 索取原始文献
第三章:信息检索基本方法
本章主要介绍信息检索语言的定义、类型及各类型检 索语言的原理、特点;检索技术及其发展;检索策略 等。知识点包含: • 信息检索语言与检索途径 • 信息检索技术 • 检索策略Leabharlann 第一节:信息检索语言与检索途径
信息检索语言是用来描述文献特征、表达主题提问的 一种专门的人工语言,是由给定领域中一切可用来描 述信息内容和信息需求的词汇或符号及其使用规则构 成的供标引和检索的工具。检索途径主要是指信息检 索的角度或渠道。 本节的主要知识点有: • 信息检索语言的类型及特点 • 检索途径及其选择
3.1.1 信息检索语言的类型及特点
不同的信息检索系统 ,通常采用不同的信息检索语言, 以适应不同的检索特性要求。即便是同一个信息检索 系统,也往往同时采用多种检索语言 。本单元主要介 绍常见的划分标准及不同检索语言的构成、特点: • 根据结构原理划分:分类语言(等级体系型分类语言 和分面组配型分类语言)、主题语言(标题语言、元 词语言、叙词语言、关键词语言 )、分类主题一体 化语言、代码语言、引文语言等 • 根据组配方式划分:先组式语言和后组式语言 • 根据规范化程度划分:规范化语言和自然语言
相关文档
最新文档