信息检索的基本知识

合集下载

信息检索的基本知识

信息检索的基本知识

⑵信息检索系统的类型 〔续〕
④索引型检索系统: 索引是根据一定的需要,把特定范围内的
某些重要文献中的有关款目或知识单元,书 名、刊名、人名、地名、语词等,按照一 定的方法编排,并指明出处,为读者提供 文献线索的一种检索系统。
索引不仅广泛存在于各种书刊等文献 中,而且更多见于作为辅助检索系统而附 在不同类型的检索工具之后,为检索工具 提供了更多的检索途径。
信息的存储过程就是按照主题词表或 分类表及使用原那么对原始信息资源
一、信息检索原理〔续〕
2、信息检索系统〔续〕
一、信息检索原理〔续〕
⑵信息检索系统的类型
按信息处理手段划分有 ①手工检索系统。又称传统检索系统 是使用人工来查找信息的检索系统。 其主要类型有各种书本式的目录、题 录、文摘和各种参考工具书等。优点: 方便、灵活、 断准确。缺点:检索速 度太慢
2、信息检索系统〔续〕
按著录和标引方式划分 ④文摘型检索系统是以简练的文字将文献
资料的主要内容准确、扼要地摘录下来, 并按照一定的著录规那么和编排方式系统 地组织起来的检索 工具。 主要包括:报道性文摘
指示性文摘 如:美国的?化学文摘?英国的?科学文摘〉
中国的〈中国数学文摘〉〈海洋文摘〉
2、信息检索系统〔续〕
按著录和标引方式划分
⑤全文型检索系统 全文检索是指在文献资料的标题、目录、作
者、内容中检索 指定的字符串。 全文检索系统是指将文章 中所有的文字处理序列 都作为检索对象进行索引,并根据需要找出包含 有欲检索词的文献的系统。
作用:它能提供快捷的数据管理工具和数据 查询手段,帮助人们进行了大量文献数据的整理 和管理工作,使人们能够快速、方便地查到想要 的任何信息。
第二章 信息检索的根本知识

第三章 信息检索的基本知识

第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,

检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。

信息检索的基本知识

信息检索的基本知识

6
—信息检索的基本知识
检索的一般程序→选择检索工具 IV
引语工具书
引语工具书的重要词语索引是一类广泛汇集名言佳句的工具书,给出引语的上下 文和出处。一般按照作者、主题、时期编排,利用这一类工具书,可以核对某一 词语,以求准确引用;可以查明某一特定引语的出处等。
字典、词典
字典、词典按编撰目的可以分为语文词典、专科词典和综合性词典(百科词典)。 一般语文词典提供词语的拼写、读音、含义、用法等;专科词典则汇集不同学科 的词汇,有的侧重语文角度对各种术语给予简略的解释,有的则偏重知识角度; 综合性词典兼有语文词典和专科词典的功能,可称为百科词典,从这类词典中既 可以查到普通的语文字词,也可以查到人、地、事等百科性内容。
F4 工业经济 F74 国际贸易 F5 交通运输经济 F75 各国对外贸易 所谓“类”是指具有共同属性的事物的集合。一类事物除了具有共同属性外,还 F6 邮电经济 F76 商品学 有许多不同的属性,可以进行多次划分,因此在体系分类法中存在上位类、下位 F7 贸易经济 类、同位类的概念。类一般使用标记符号标识,包括字母、数字等。 F8 财政经济 F761 一般性著作 F762 农产品 体系分类法具有按学科或专业集中、系统地向人们揭示文献资料内容的功能,这 对与系统系统掌握和利用某一专业范围的文献非常有用。 F763 医疗用品 F764 重工业产品 F765 建筑器材
14
—信息检索的基本知识
检索的一般程序→获取原文 II
获取原文的途径
本单位图书情报部门。这是获取原文最方便的途径,要善于利用馆藏目录、如读 者目录有缺省,应利用公务目录、典藏目录等工具; 掌握国内主要的或对口的图书情报机构的馆藏信息。利用联合目录或网络,由近 及远的查找; 从著者处获取原文; 从检索刊物出版机构获取原文;

信息检索基础知识

信息检索基础知识

TP 自动化技术、计算技术
3 计算技术、计算机
31
计算机软件
316
操作系统
.1
分时操作系统
.2
实时操作系统
.7
Windows操作系统
39
计算机的应用
… F25 物资经济 F250 物资经济理论 F252 物资流通
… F5 交通运输经济 F50 交通运输经济理论
… F53 铁路运输经济 F54 陆路、公路运输经济
匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。
精选ppt
3
信息检索一般过程
信息源
信息分析、 著录、标引
信息的表示
用户
检索语言
用户需求分析
数据库 匹配过程
输出检索结果 精选ppt
检索表达式
4
信息检索的过程往往需要一个评价反馈途径,多次比较匹配, 以获得最终的检索结果。其图示如下:
9
责任者 及其单位
中图分类号 文献标示码
关键词
正文
精选ppt
题名 摘要
10
分类语言
也属于主题语言。分类语言是按学科范畴划分而构成的一 种语言体系,它集中反映学科的系统性、反映它们的相关、 从属、派生等关系,从总体到局部分层、分面展开,形成 分类体系。由类目号码及名称作为检索语言,构成分类类 目表,如前述图书分类表、专利分类表用的都是分类语言 。
13
……
主题语言
包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同 的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词 汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语

信息检索基本知识

信息检索基本知识

T
TB TG TH TE …… TU TV
TB1
TB2
TB3
TB4
…… TB48 …… TB488
……
TB482
TB489
T—工业技术类中图法举例
以T-工业技术大类下的TP类展开下位类如下: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP39 计算机应用 TP393 计算机网络 TP393.0 一般性问题 TP393.01 计算机网络理论 TP393.02 计算机网络结构与设计
二、文献信息源类型
文献可按不同的方法分类描述,比较常见 的分类方法有如下三种: 按信息的载体形式划分(印刷、胶片、 电子文献等); 按信息加工的级别划分(四次文献); 按信息的发布形式划分(十大文献信 息源等)
1、按文献的载体形式划分
• 印刷型(Printed form):以纸张为载体 • 缩微型(Microform):以感光材料为载体:胶片 • 声像型(Audio-Visual form):以声像记录材料为 载体:磁带 • 电子型(Machine Readable form):以计算机信息 存储设备为载体 :软磁盘、光盘、硬盘等
叙词
•叙词是主题语言的高级形式。是以较正规和正式的 科学名称为基础组织而成一种主题法检索标识系统。 •由在概念上不可再分的基本概念单元词汇组成,检 索时可以利用这些单元词进行组配,以表达一个复杂 的概念。
•如课题: 太阳能热水器研究 汉语主题词表中正式主题词是太阳能利用、太阳 能加热等代替。
标题词
• 国际十进分类法(UDC: UDC(Universal Decimal Classification)
又称为通用十进制分类法。是世界上规模最大、用户 最多、影响最广泛的一部文献资料分类法。原由比利 时人P.-M.-G.奥特莱和H.-M.拉封丹在《杜威十进分类 法》第6版的基础上编成。近百年来,UDC已被世界 上几十个国家的10多万个图书馆和情报机构采用。 UDC目前已成为名符其实的国际通用文献分类法。

信息检索的基本知识.

信息检索的基本知识.

3
—信息检索的基本知识
检索的一般程序→选择检索工具 I 书目、馆藏目录 提供线索的指示型 检索工具(二次文献) 索引 文摘 工具书指南 检索工具 词典 引语工具书 百科全书、类书、政书 传记资料 手册 机构名录 地理资料 统计资料 年鉴、表谱图册 政府文献
4
提供具体信息的参考 型检索工具(三次文献)
题名
即根据已知的书名、刊名、篇名按字顺排列规则在工具书中查找所需文献的途径, 一般情况下,大多索引类工具均提供按题名排列索引机制。题名是检索工具书的 主要途径,在西文索引工具中,一般使用著者和题名混合排列的形式,甚至不提 供篇名索引。
11
—信息检索的基本知识
检索的一般程序→确定检索入口 II
著者
即以著者姓名为检索点查找文献的途径。我国索引类工具书著者途径常常是辅助 检索途径,甚至有些索引工具书不提供著者索引。西文工具书中著者索引较为完 备。
信息检索可分为: 文献检索(Documents Retrieval)和信息检索(Information Retrieval); 手工检索和计算机检索。
2
—信息检索的基本知识
检索的一般程序→分析问题
问题的分类:问题的分类有助于确定相应的检索工具。一类是查找某一特定的文 献、或与某一主题、学科内容相关的文献,一般需要考虑使用检索类工具书(二 次文献);另一类是查找具体的事实,如统计数据、人名、地址、术语等。 分析:分析已知和预知的信息。进一步确定检索工具。 分析需求的主题内容:分析所需信息的学科性质、特点和水平层次,明确检索的 学科范围,学科范围越具体、越明确、就越利于检索。 广泛利用文献类型:因为目标文献涉及的类型很多,如报纸、图书、期刊、会议 论文、专利报告等,应确定需要哪一类文献。 选择合适的文献检索时间范围:确定所需文献信息的时间范围可以使得检索过程 更对快捷、准确。因为检索过程中所使用的工具的材料收集具有一定的时间性, 如书目、年鉴、索引等。

信息检索基础知识

信息检索基础知识

第一章信息检索基础知识一.概述1.信息与文献信息知识的分类:已掌握的知识和需查询的知识。

信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。

这里有几个词组需说明:事物:泛指一切可能研究的对象(包括物质的和精神的)。

运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)运动方式:在时间上所呈现的过程和规律:运动状态:在空间上所展示的形状和态势。

信息已成为与物质、能量同样重要的三大资源之一。

信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。

文献:将知识记录并保持在一定的载体上,就形成了文献。

文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。

科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。

2.信息的特点(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;(4)共享性:信息在传播和使用的过程中,载体本身的信息并不因此而减少,信息资源的共享将极大地推进人类文明的发展;(5)可转换性:信息的物质载体形态是可以相互转移变换的;信息在一定条件下可以转化为物质、能量、时间、金钱、效益、质量等;(6)可伪性:在人们得到信息后,必须进行分析判断和筛选,以便正确享用信息。

信息检索知识点

信息检索知识点

计算机检索1.信息素养(信息素质、信息能力):作为具有IL(information literacy)能力的人,必须能够充分地认识到何时需要信息,并有能力去有效地发现、检索、评价和利用所需要的信息,从而具有终身学习的能力,总能够为任何任务和决策找到所需信息.2.信息检索广义:指将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术.包括存储和检索两个过程.狭义:从信息集合中找出所需信息的过程。

信息查找(Information Search,Information Seeking)2.1信息现状分析1)信息爆炸导致文献量急剧增加,内容相互渗透,语种增多;文献分布异常分散;文献寿命愈来愈段;2)由于条件限制,人们吸收和利用信息的能力并未得到相应的提高.3.检索的作用1)促进智力资源的开发;2)协助管理者做出正确的决策;3)帮助科研人员借鉴前人的研究成果,避免重复劳动;4)信息检索是知识更新的手段.4.数据库类型(1):作为图书馆数字资源的数据库特指为科学、教学、学习所需各种参考资料的集合,以数据库的形式管理和利用。

自建数据库:馆藏目录(OPAC),本校学位论文数据库.商业性数据库:数据库商、出版商和其他机构以商业化方式提供的各种电子资源,图书馆需要支付一定的费用购买数据库的使用权再提供给一定的读者群。

免费数据库:开放获取资源、机构典藏和其他免费的网络资源。

5.数据库类型(2)从收录文献的内容分,有综合性数据库和专业性数据库之分;从收录文献的类型分,有图书数据库、期刊数据库、学位论文数据库、报纸数据库、会议文献数据库、专利文献数据库、标准数据库等;从提供文献的形式分,有全文数据库、文摘数据库、引文数据库;各数据库举例:专业数据库:Petroleum Abstract(PA)、EnCSciFinder Schoiar(CA)综合性数据库:读秀、Scopus、EI、SCI特定文献类型,如图书、期刊、学位论文等:超星、EIsevier ScienceDirect、PQDT全文数据库:CNKI、维普、SPE摘要性数据库:EI、PA引文数据库:Web of Science、CSSCI(中文社会科学引文索引)6.Science Citation Index Expanded(SCI—E)是个什么样的数据库?它是ISI检索平台中Web of Science核心合集中的一个子库它是一个摘要型数据库它是一个引文数据库它是一个期刊数据库它收录的学科范围包括科学、技术的各学科7.查文献应该如何选择数据库?学科专业:有专业型数据库时,首选专业型数据库;数据量:选择数据量大的;文献类型:根据研究的需要。

信息检索基本知识

信息检索基本知识

查全率=—— x w 查准率=—— m
w
漏检率=1-查全率 误检率=1-查准率
如果x与m完全吻合,或者说检索工具 中所存储的有关某一课题的文献全部被 检出,这是最理想的。然而在实际上往 往达不到这个指标,而总是有一定误差 的。
五 检索途径与检索方法 一般说,所有文献的特征可分两 大类:外表特征(题名、著者、序号等) 和内容特征(分类、主题、关键词)。 所以文献检索的途径也分成两个方面。
思考题 1. 简述对信息和文献的理解。 简述对信息和文献的理解。 2. 文献的出版类型有哪些? 文献的出版类型有哪些? 3. 比较文献载体的优缺点。 比较文献载体的优缺点。 4. 一次文献、二次文献和三次文献有何 一次文献、 区别? 区别? 5. 谈谈电子信息源。 谈谈电子信息源。
6. 信息检索及其种类有哪些? 信息检索及其种类有哪些? 7. 常用的检索工具有哪些? 常用的检索工具有哪些? 8. 谈谈检索效率的评价标准。 谈谈检索效率的评价标准。 9. 简述检索途径与检索方法。 简述检索途径与检索方法。 10. 检索的一般程序步骤有哪些? 检索的一般程序步骤有哪些? 11. 何谓音译? 何谓音译?
(2) 常用法 : 利用检索工具来查找
文献的方法。它又可分为倒查法和顺查法. 倒查,就是由近及远地逆时间查找.它的 倒查 重点是放在近期文献,只需查到基本满足要 求时间为止. 顺查, 顺查,就是由远及近地顺时间查找。例 如,已知某项发明的产生年代,现在需要了 解它发展的全过程,就可以运用顺查法从最 初的年代开始,逐步往近期查找。
第一章 信息检索基本知识
第一节 信息与文献概述 一、信息的概念 二、信息的类型与特征 三、各种信息源及其特征 1 文献信息源 2 电子信息源 3 实物信息源 4 口头信息源

信息检索知识

信息检索知识

tumor(瘤)or carcinoma(癌) or neoplasm (新生物)。
A OR B
8
逻辑“非” NOT/检索式“A not B”表示包含检索词A同时不包 含检索词B的文献为命中文献。 如:查“动物的乙肝病毒(不要人的)”的文献 的检索式为hepatitis B virus(乙肝病毒)
not human(人类)。
A NOT B
9
邻近度算符 With 检索式“A with B”表示检索词A和检索词B 不仅要同时出现在一条记录中,还要同时出现 在一个字段里的文献才是命中文献. 如:“drug with abuse”检索出的是同一个字 段中同时出现这两个词的记录。
10
邻近度算符Near
Willian Henry Harrison →Harrison W H 姓前有前缀M’、Mc、Mac,在索引中一律按Mac的字顺排 在一起 姓前带 冠词 De、Della、Des、La、Van、Vanden、Von 与姓名字顺一起排列; 有等级制称号的著者排在无等级制称号的著者之后,先排 Johs W 后排Johs W jr 音译中国人著者-按汉语拼音著录;俄国人-按英俄文音译 对照表;日本人-按黑本氏英日文音译对照表对译。 学术团体,企业单位等名称按原名著录,并加国名以示区 别。
33
主题词检索
34
检索步骤: 1、点击[主题词]按钮 2、输入检索词(中文或外文),点击[浏览]按钮 3、选中所要检索的主题词,点击[主题词注释]按钮之后, 可对该词进行不扩展、扩展、加权检索及树状结构选择 4、点击[检索]按钮,选择相应的副主题词与主题词进行组 配检索
35
索引词检索
36
检索步骤: 1、点击索引词[浏览] 2、输入检索词,点击[浏览]按钮 3、通过浏览选择检索词,点击[检索]按钮 备注: 检索多个索引词时,使用[加入列表]、 [浏览列 表]和[检索列表] 按钮

信息检索-检索基本知识

信息检索-检索基本知识
·凡带有“-”,应排在该类0之前,同级号码之后。
19.6.22
排列举例:
1. H1、H12、H、H134、H2、H219、H0、 H-44、 H 2-44 2. TP311.1、F0、G624、F2、O-44、I2457 、 TN912、TP319、
F 181、O13-43 、O-62 3. I247.5/J3、 I247.5/G5、F0/L21、FO/L12
1:H、H-44、H0、H1、H12、H134、H2、H 2-44、H219、 2:F0、F 181、F2、G624、I2457 、O-44、O-62、O13-
43、 TN912、TP311.1、 TP319 3:F0/L12、F0/L21、 I247.5/G5、 I247.5/J3
19.6.22
《科图法》
早,只好用倒查法,新兴学科,起始年代不远,可 用顺查法,波浪发展的学科,可选择发展高峰,用 循环法
19.6.22
检索语言
信息检索要克服的三个语言障碍: ★自然语言障碍 ★学科专业语言障碍 ★检索语言障碍
19.6.22
又称文献存储和检索语言,是根据文献信 息存储与检索的需要而创制的一种人工语言, 是汇集、组织、存储、检索文献信息的工具和 手段。
19.6.22
★00 马列、毛泽东思想 ★10 哲学 ★20 社会科学
21 历史、历史学 … 48 艺术 49 无神论、宗教学 ★50 自然科学 51 数学 … 54 化学 65 农业科学 71 技术科学 ★90 综合性图书
以字符构建主题语言:
1.关键词:直接从文献信息的标题、摘要或内 容本身抽取出来的用于揭示信息主题内容的自 由词。
磁盘式
19.6.22
19.6.22

信息检索基本知识

信息检索基本知识
第二章 信息检索基本知识
第三节 信息检索与检索系统
第三节信息检索与检索系统
• 1、信息检索 • 2、检索系统 • 3、检索系统的组织
1. 信息检索
• 信息检索(Iformation Retrieval):将信息按一 定的方式组织和存储起来,并根据信息用户的需 要找出有关的信息的过程和技术。
了解用户的 信息需求
如何提高查全率?
• • • • • 1.优先使用最简单常用的主题词; 2.逐渐减少不重要的检索词; 3.加用多个等同词,用“或”(OR、|)语法; 4.换用上位词; 5.增加检索途径
如何提高查准率?
• • • • • 1. 换用专指性更强的主题词; 2. 逐渐加用主题词; 3. 加用辅助词; 4. 利用词和网页的外部特征限制输出结果; 5. 观察不相关检索结果的特征,使用“减”(-) 语法排除; • 6. 使用下位词
信息检索 的技术或 方法
满足信息 用户的需 求
1.2、信息检索的对象-----你找谁?
文献
• 包括题录、文摘和全文。
数据 事实
• 数值或数据(包括数据、 图表、公式等)
• 某一客观事实为检索对 象,查找某一事物发生 的时间、地点及过程
信息检索的起源
• 信息检索起源于图书馆的参考咨询和文摘索引工 作。
按检索性质区分
• 定题检索:查找有关特定主题最新信息的检索, 又称为SDI检索。
▫ 特点是:只检索最新的信息,时间跨度小。
• 回溯检索:查找一段时期内有关特定主题信息的 检索,也称为追溯检索。
二、信息检索类型
• 按检索的信息形式区分
▫ 文本检索:查找含有特定信息的文本文献的检索, 其结果以文本形式反映特定信息. ▫ 多媒体检索:查找含有特定信息的多媒体文献的检 索,其结果以多媒体形式反映。

信息检索知识点

信息检索知识点

信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。

2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。

3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。

存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。

检索过程是存储过程的逆过程。

因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。

4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。

缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。

8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。

信息检索的基本知识

信息检索的基本知识

信息检索的基本知识
信息检索是一种重要的技术,它用于从大量的数据中提取所需信息。

以下是一些信息检索的基本知识:
•索引:信息检索的首要步骤是构建索引。

索引是一个按关键字组织的数据结构,用于快速定位和访问文档。

•关键字:关键字是进行信息检索的基本单位。

它们可以是单个词或短语,根据检索目的和搜索引擎的功能来确定。

•搜索引擎:搜索引擎是信息检索的核心工具。

它利用索引和算法来找到与用户查询相关的文档,并按相关性排序。

•查询:用户通过查询向搜索引擎提供信息需求。

查询可以是简单的关键字、短语,也可以是复杂的语句。

•相关性:搜索引擎根据文档与查询的匹配程度计算相关性。

相关性分数用于确定排名,从而决定返回给用户的搜索结果顺序。

除了以上基本知识,信息检索还涉及更多高级技术:
•倒排索引:倒排索引是一种常用的索引结构,它将关键字映射到包含这些关键字的文档列表中,以支持快速的搜索。

•词频和权重:搜索引擎通常根据关键字在文档中出现的频率和位置,以及其他因素来计算关键字的权重。

•自然语言处理:信息检索利用自然语言处理技术来理解用户查询和文档内容,以提高搜索效果。

•评估和优化:为了提供更好的搜索结果,搜索引擎需要不断评估和优化算法,以适应不断变化的用户需求和文档集合。

总结起来,信息检索是一门复杂而关键的技术,它在数字化时代具有重要意义。

了解信息检索的基本知识对于学习和使用搜索引擎、开发相关应用都非常有帮助。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

18
—信息检索的基本知识
※※引文 I
引文
文献C 假设有文献A和B,B文献的作者在其文献中引用了A文献,即A是B的参考文献。A 2000 文献与B文献在内容上一定是密切相关的,此时称A为B的引文(Citation)。 文献A 参考文献 A 引文耦合 1999
B
假设来源文献A和来源文献B都引用了引文C,则称文献A和文献B为引文耦合,而 参考文献 B 文献C就是它们的引文藕。引文藕越多,其相应来源文献之间的相关性越高。
17
—信息检索的基本知识
常用的检索方法 I
广度优先法
当不了解某一专题信息的内容时,可以从提供信息总目的位置开始浏览,沿着专 题层次层层查找,直至找到有关的内容为止。
引文法(跟踪法)
文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法就是 利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找有关文献的方 法。这些材料不仅指明了与读者需求最密切的文献线索,而且往往包含了相似的 观点、思路、方法,具有一定的启发意义,利用引文法高效率的查找文献的最有 用工具是利用引文索引(Science Citation Index SCI)。
它们的优点是在表达主题内容方面具有较大的灵活性,抛弃认为的号码系统,代 之以经过规范的自然语言,并在各主题之间建立有机的参照系统,代替了等级式 起重机 的直线排列。使用组配和索引等方式,较好地满足多元检索的要求。 Cranes
D 吊车 F 臂架起重机 使用主题法查找文献,应注意: F 堆垛起重机 注意利用词表 F 浮游起重机 选择主题词要把握概念的含义 F 港口起重机 C 要利用概念之间的属种关系和相关关系增加检索线索 升船机 C 升降机
9
—信息检索的基本知识
检索的一般程序→选择检索工具 VII
表谱
传记工具书 地理资料 统计资料 类书、政书
10
—信息检索的基本知识
检索的一般程序→确定检索入口 I
一种可能包含所需要信息的检索工具确定以后,下一步应考虑怎样从中找到所需 信息。检索工具所提供的检索途径往往不止一种,使用者应根据“已知”信息特 征确定检索入口。一般来说,所有文献的特征分为两类:即外表特征(题名、著 者、序号等)和内容特征(分类、主题、关键词),因此检索入口途径也分为两 类。
ቤተ መጻሕፍቲ ባይዱ
3
—信息检索的基本知识
检索的一般程序→选择检索工具 I 书目、馆藏目录 提供线索的指示型 检索工具(二次文献) 索引 文摘 工具书指南 检索工具 词典 引语工具书 百科全书、类书、政书 传记资料 手册 机构名录 地理资料 统计资料 年鉴、表谱图册 政府文献
4
提供具体信息的参考 型检索工具(三次文献)
关键词法
通过题名或全文中的关键词为检索入口查找文献的方法。关键词法具有主题词法 的部分特征。关键词使用的是自然语言,因此被做为检索标识容易被掌握,不利 的一面是自然语言所产生的同义词、近义词、多义词容易造成歧义或误差,给选 用检索点带来困难。
13
—信息检索的基本知识
检索的一般程序→获取原文 I
掌握获取原文的必要信息
6
—信息检索的基本知识
检索的一般程序→选择检索工具 IV
引语工具书
引语工具书的重要词语索引是一类广泛汇集名言佳句的工具书,给出引语的上下 文和出处。一般按照作者、主题、时期编排,利用这一类工具书,可以核对某一 词语,以求准确引用;可以查明某一特定引语的出处等。
字典、词典
字典、词典按编撰目的可以分为语文词典、专科词典和综合性词典(百科词典)。 一般语文词典提供词语的拼写、读音、含义、用法等;专科词典则汇集不同学科 的词汇,有的侧重语文角度对各种术语给予简略的解释,有的则偏重知识角度; 综合性词典兼有语文词典和专科词典的功能,可称为百科词典,从这类词典中既 可以查到普通的语文字词,也可以查到人、地、事等百科性内容。
—信息检索的基本知识
检索的一般程序→选择检索工具 II
馆藏目录
馆藏目录是查找文献首先需要考虑的检索工具。读者目录是专供读者使用的目录, 承担着为读者揭示、识别、检索馆藏文献的任务,但只反映馆藏的一部分,读者 目录按揭示文献特征分为:题名目录、责任者目录、分类目录、主题目录等,目 前馆藏目录多以计算机目录来代替传统的卡片目录。
信息检索可分为: 文献检索(Documents Retrieval)和信息检索(Information Retrieval); 手工检索和计算机检索。
2
—信息检索的基本知识
检索的一般程序→分析问题
问题的分类:问题的分类有助于确定相应的检索工具。一类是查找某一特定的文 献、或与某一主题、学科内容相关的文献,一般需要考虑使用检索类工具书(二 次文献);另一类是查找具体的事实,如统计数据、人名、地址、术语等。 分析:分析已知和预知的信息。进一步确定检索工具。 分析需求的主题内容:分析所需信息的学科性质、特点和水平层次,明确检索的 学科范围,学科范围越具体、越明确、就越利于检索。 广泛利用文献类型:因为目标文献涉及的类型很多,如报纸、图书、期刊、会议 论文、专利报告等,应确定需要哪一类文献。 选择合适的文献检索时间范围:确定所需文献信息的时间范围可以使得检索过程 更对快捷、准确。因为检索过程中所使用的工具的材料收集具有一定的时间性, 如书目、年鉴、索引等。
—信息检索的基本知识
信息检索的基本知识
1
—信息检索的基本知识
信息检索
信息检索
信息检索是根据特定的需求,运用某种检索工具,按照一定的方法,寻找资料或 信息的过程。这种方法利用序化的信息系统和信息服务业提供的服务来满足个体 的信息需求。 从信息管理的角度来说,信息检索主要是通过分析、综合等手段进行信息加工后, 获取隐含在信息源中的知识的过程。
要正确地找出所需原文的著者姓名、题名、出版社、出版时间及详尽的出处等, 应了解所使用检索工具的著录格式。 题名(刊名):需要将简写的刊名/书名的还原成全称,此时可参考检索工具所提 供的附录或专门的题名/刊名缩写一览表。不同语种对题名/刊名的翻译也应在此时 注意校对。 文献类型:检索工具中原文的来源大多来自期刊,但也可能混有其他类型的文献, 如图书、学位论文、会议报告、专利等,应注意这些内容在著录上的差异。 论文著者的地址:要获取尚未公开发表的文章的 原文,必须获得论文著者的地址 信息,部分检索工具中款目中附有著者的工作单位,通过查询有关机构名录可联 系到著者。
F4 工业经济 F74 国际贸易 F5 交通运输经济 F75 各国对外贸易 所谓“类”是指具有共同属性的事物的集合。一类事物除了具有共同属性外,还 F6 邮电经济 F76 商品学 有许多不同的属性,可以进行多次划分,因此在体系分类法中存在上位类、下位 F7 贸易经济 类、同位类的概念。类一般使用标记符号标识,包括字母、数字等。 F8 财政经济 F761 一般性著作 F762 农产品 体系分类法具有按学科或专业集中、系统地向人们揭示文献资料内容的功能,这 对与系统系统掌握和利用某一专业范围的文献非常有用。 F763 医疗用品 F764 重工业产品 F765 建筑器材
题名
即根据已知的书名、刊名、篇名按字顺排列规则在工具书中查找所需文献的途径, 一般情况下,大多索引类工具均提供按题名排列索引机制。题名是检索工具书的 主要途径,在西文索引工具中,一般使用著者和题名混合排列的形式,甚至不提 供篇名索引。
11
—信息检索的基本知识
检索的一般程序→确定检索入口 II
著者
即以著者姓名为检索点查找文献的途径。我国索引类工具书著者途径常常是辅助 检索途径,甚至有些索引工具书不提供著者索引。西文工具书中著者索引较为完 备。
16
—信息检索的基本知识
检索语言→主题法和主题检索语言
主题检索语言是直接以代表文献内容特征和科学概念的概念词作为检索标识,并 按其外部形式(字顺)组织起来的一种检索语言。主题法最常用的有叙词法和标 题法。前者采用表示单元概念的规范化语词的组配来对文献内容进行描述,是一 种后组式词汇标识系统;后者使用一个或者一组规范化的自然语言作为检索标识 来描述文献的内容,是一种先组式的词汇标识系统。
7
—信息检索的基本知识
检索的一般程序→选择检索工具 V
年鉴
年鉴是以描述和统计的方式逐年提供某年度、某一领域信息的工具书,或者说是 相应年度内的信息汇编。年鉴包含的内容很丰富,从中可以得出专家对某一行业 的综述、分析、回顾和展望,了解最新的统计数据、企业状况、机构名录、重要 产品、大事记等。
手册
手册是汇集某一学科领域或业务部门专门知识的工具书,多是针对当前实践中的 需要,以简明扼要的方式提供具体、实用的资料,供随时翻检查阅,中文常以 “概览”、“指南”、“大全”等称呼;英文用Handbook和Manual表示。
14
—信息检索的基本知识
检索的一般程序→获取原文 II
获取原文的途径
本单位图书情报部门。这是获取原文最方便的途径,要善于利用馆藏目录、如读 者目录有缺省,应利用公务目录、典藏目录等工具; 掌握国内主要的或对口的图书情报机构的馆藏信息。利用联合目录或网络,由近 及远的查找; 从著者处获取原文; 从检索刊物出版机构获取原文;
书目
书目是指一批相关文献的记录,其基本功能是反映某一地区、某一时期在某一领 域中出版物的信息,书目可以是描述性的,提供诸如著者姓名、出版社、出版时 间、版本、价格等信息;亦可以是评论性的,对出版物的使用价值提出看法,发 挥指导阅读的作用。
5
—信息检索的基本知识
检索的一般程序→选择检索工具 III
索引
序号
即以号码顺序如报告号、专利号、标准号、入藏号查找文献的方法。这种途径多 见于专利、科技报告、政府文献、档案文献等。
分类法
即以学科分类的观点,运用概念划分与归纳的方法,在学科逻辑的、有内在联系 的知识体系中搜寻所需文献的方法。分类是区别事物及其相关联系的一种思维方 法,是人的思维活动的一种本能。按分类查找文献信息的优点是能按照学科的系 统性,从事物的派生隶属与平行关系的把握中获取所需资料。
相关文档
最新文档