第三章 信息检索基本方法
第三章 信息检索基本知识

信息论的奠基人 申农在《通信的数学 理论》中把信息定义 为:“信息是用来消 除不确定的东西。”
控制论创始人
维纳在《信息控制论》 一书中指出:“信息是 人与外界相互作用过程 中相互交换的内容和名 称。”
―信息”的定义之所以呈现多样化,主要有三方 面的原因 : 第一,信息本身的复杂性。它是一个多元化、 多层次、多功能的综合物; 第二,信息科学是一门新兴学科,是一门“大” 学科,它有许多分支学科,它的内涵与外延 不很确切,而且随着社会、经济和科学技术 的发展处于不断发展之中; 第三,人们出于不同的研究目的或使用目的, 从不同的角度或层次出发,对“信息”必然 作出不同的理解与解释。
4.从信息观的角度理解,知识是人类通过信息 对自然界、生物界、人类社会运动规律的认识 和概括,是一种特定的人类信息,它是对信息 进行提炼、深化、抽象化、系统化的结果,是 信息中最有价值的部分。知识是信息的一部分。 知识必须要有充分、可靠的经验性证据, 并且要经过理性的合理加工。
(二)知识的特性 1.实践性 社会实践是一切知识产生的基础和检验知 识的标准,科学知识对实践有重大指导作用。 2.规律性 人们对事物的认识是一个无限的过程,人 们获得的知识在一定层面上揭示了事物及运动 过程的规律性。 3.渗透性 随着知识门类增多,各种知识可以相互渗透, 形成许多新的知识门类,形成科学知识的网状 结构体系。
四、文献 (一)文献的定义 1.国际标准化组织《文献情报术语国际标准》: 文献是存储、检索、利用或传递记录信息的过 程中,可作为一个单元处理的、在载体内、载 体上或依附载体而存储有信息或数据的载体。 2.国家标准《文献著录总则》:文献是记录有知 识的一切载体。 北大教授王子舟《图书馆学是什么》:是指专门 记录、传播有知识的一切载体。 南大教授沈固朝《信息检索(多媒体)教程》: 记录有人类精神信息的、且便于存贮或传递的 人工固态附载物
信息检索的方法

信息检索的方法
1. 通过关键词检索:将用户输入的关键词与文本中的内容进行比对,找出包含这些关键词的段落或句子,作为检索结果。
2. 通过全文检索:将用户输入的关键词在整个文本中进行匹配,找出与关键词相关的段落或句子。
3. 通过索引检索:建立一个索引库,包含文本中的关键词及其所在的位置信息。
用户输入关键词后,直接在索引库中查找,减少搜索时间。
4. 通过相似度匹配:将用户输入的关键词与文本中的内容进行相似度计算,找出与输入最相似的段落或句子。
5. 通过语义分析:利用自然语言处理技术,对用户输入的关键词进行语义分析,将其转化为与文本内容相匹配的查询语句,进行检索。
6. 通过文本分类检索:对文本进行分类,用户输入关键词后首先确定查询的文本类别,再在该类别下进行检索。
7. 通过专家系统检索:建立一个专家系统,根据用户输入的关键词,系统能够根据预先设定的规则和知识库提供相关的检索结果。
8. 通过链接分析:根据文本之间的链接关系,找出与输入关键词相关联的文本内容,作为检索结果。
9. 通过用户反馈的改进:根据用户对检索结果的反馈,不断优化检索算法,提高检索效果。
10. 通过深度学习方法:利用深度学习模型,对文本内容进行分析和建模,找出与用户输入关键词相关的内容。
第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
第三章图书信息的检索

Company Logo
【期刊论文】王健等.金生宝胶囊治疗22例HIV感
染者的临床研究[J].中国中医基础医学杂志,
2000,6(7):33-35.
斜体字代表论文的篇名,“[J]”是文献类型标识符, journal代表期刊论文。该论文发表在《中国中医基础医学杂志》 上。“2000,6(7):33-35.”则表明论文所登载的卷期号和页 码,表示为:2000年出版的第6卷第7期第33-35页。
电子图书、电子期刊、学位论文检索
网络信息资源检索(搜索引擎)
前面课程回顾
信息的来源叫做【信息源】。信息源可按 不同的方法 分类描述,比较常见的分类方法
有如下【三种】:
1、按信息的【载体形式】划分(电子文献 等); 2、按信息【加工的级别】划分(四次文献); 3、按信息的【发布形式】划分(十大文献信 息源等)
有电子化)。
电子图书还有一部分只有电子版,没有纸本版,
在网上大家可以用搜索引擎找到这样的电子图 书。 电子图书正在逐步发展成为比较主要的数字信 息资源。
图书馆的电子图书资源
书生之家电子图书
超星数字图书馆
方正阿帕比电子教参书
“读秀”学术搜索
什么是读秀?
读秀是由海量全文数据及资料基本信息组成的
【优先算符】
例如:( ,在实际查 询时,真正的关键字是“知识经济”或“信息经济”。 以上四种操作符可互相结合使用,但有一定的执行先后次序,其 【优先顺序】依次为:括号、NOT、AND、OR
知识or信息)and经济
布尔逻辑(语言)检索
布尔逻辑语言的应用,是文献信息检索的一个重要方法。其【运 算符有三种】1.AND(逻辑与),指两个概念的交集;2.OR(逻 辑或),指两个概念的并集;3.NOT(逻辑非),指两个交叉概念 中去除交叉的部分。
信息检索 第3章 中文主要信息资源检索系统

轻工 纺织
建筑 建材
环境 《环境科学文摘》
《馆目:环境污染与保护》
《汽车文摘》 《公路运输文摘》 《水陆运输文摘》 《造船文摘》 《中目:船舶工程》 《外目:造船工程》 交通 《中目:公路、水陆运输》 《铁道文摘》 运输 《中目:铁路》 《专利文献通报:汽车 》 《专利文献通报:包装、搬运、储存》 《外目:航空与航天》 《航空发动机文摘》 航天 《馆目:交通运输、航空航天》
WEB版(网上包库)、镜像站版、光盘版、流量计费。
四川农业大学图馆网站简介
◆
点击
各种类型的电子文献资源: 中外文期刊、图书及特种文献
读者查询 点击:
四、中国期刊全文数据库信息检索
1. 登录检索系统
鼠标接触
点击: 外网或本地镜像
CNKI中国知识资源总库
点击
选择单一数据库 或选择多个数据库进行跨 库检索
《电工文摘》 《中目:电力电工、原子能》 水利 《外目:电力》 《中目:水利水电》 电力 《外目:水利水电》 《中文电子科学文摘》 《电子科技文摘》 电子 《中国无线电电子科技文摘》 《计算机应用文摘》 学 《国外电子科学文摘》 《专科文献通报:电子技术》 《馆目:无线电电子学与自动化技术》
计算 《专利文献通报:计算机和信息存储》 机 《计算机应用文摘》 《中国纺织文摘》 《纺织文摘》 《皮革文摘》 《造纸文摘》 《中目:轻工、纺织》 《外目:轻工业》 《外目:粮油食品》 《外目:制糖工业》 《馆目:轻工、纺织》 《专利文献通报:纺织》 《专利文献通报:生活日用》 《专利文献通报:造纸、印刷、装帧》 《建筑机械文摘》 《中目:建筑工程》 《中目:建筑材料》 《外目:建筑材料》 《外目:建筑水利工程》 《馆目:建筑水利工程》 《城市文献通报》
第三章 信息检索教程

举例:期刊2
23
期刊著录格式
24
期刊的著录
写出下面期刊文献著录:
25
小节练习1
1. 什么是文献著录? 2.文献著录的结果是—— 3. 既著录主要项目,还著录全部选择项目的著录级次称为—— 4. 既著录主要项目,还著录部分选择项目的著录级次称为——
26
3.2 机读目录与元数据
3.2.1 机读目录
43
3.2.3 都柏林核心元数据和机读目录的比较
1. 著录的对象不同
DC与 MARC的 3. 著录的主体不同 比较 4. 著录的详简程度不同
5. 标识的方法不同
2. 数据的形式不同
44
小节练习2
1、什么是机读目录,一条CNMARC机读目 录的组成? 2、头标区数据元素: 00123cbm1#2200277###52## 其中c、b、m、1分别表示什么? 3、什么是元数据?
12
图书的著录(参考文献著录规则)
13
14
图书著录中的文献类型标志
常用文献类型用单字母标识,具体如下: (1)期刊[J](journal) (2)专著[M](monograph) (3)论文集[C](collected papers) (4)学位论文[D](dissertation) (5)专利[P](patent) (6)技术标准[S](standardization) (7)报纸[N](newspaper article) (8)科技报告[R](report)
CNMARC记录
记录头标区
地址目次区
数据字段区
记录分隔符
注:各字段数据元素及其标准详细情况参见教材P83-87
33
ISO-2709的机读目录标准
第三章 文献信息检索基本原理及方法

标题词语言关键词语言单词语言叙词语言检索语言
主题语言 由于不同概念相交就会 形成一个新概念, 形成一个新概念,这个 新概念是组配前各概念的 下位概念。 电子” 下位概念。如:“电子”和 信息”组配产生电子信息。 “信息”组配产生电子信息。 同级词间不同概念并 组配结果,可提高查准率。 组配结果,可提高查准率。 列也会形成一个新概 念,这个新概念是组配 前各概念的上位概念。 前各概念的上位概念。 数字计算机” 如“数字计算机”和“模 拟计算机” 拟计算机”组培后得 到“计算机”这一新的 计算机” 是不同级词间的组配, 是不同级词间的组配,是用 上位概念。组配结果, 上位概念。组配结果, 时间、 时间、空间和学科范围某一 提高查全率。 提高查全率。 方面的属性进行限定的一种 概念关系。 建筑物” 概念关系。如:“建筑物”为 主体事物, 设计” 主体事物,“设计”为某个方 组配结果被限定为“ 面,组配结果被限定为“建 筑物设计”这个新概念, 筑物设计”这个新概念,组配 结果可使检索到的文献专指度 和查全率提高。 和查全率提高。
3.1.1 文献信息检索的基本含义 一、文献信息检索的基本含义
“检索”即“查找”之意。信息检索,是将信息按照一定的方式 检索”即“查找”之意。信息检索 信息检索,是将信息按照一定的方式 组织、存储起来,并针对用户的需要查找所需信息的过程。因此信 息检索包含了信息的存储和检索两个不可分的部分。我们通常所说 的信息检索是指狭义的信息检索,即从检索工具和检索系统中查找 所需信息的过程及其所采取的一系列方法和策略。
手工检索和计算机检索的关系:手检是基础,机检是发展方向。 手工检索和计算机检索的关系:手检是基础,机检是发展方向。
3.1.2 文献信息检索的类型 按检索要求划分: 按检索要求划分: 相关性检索——是系统不直接回答用户所提出的 相关性检索 技术问题本身,而是只提供与之相关的文献供用 户参考。 确定性检索——是以数据或事实为检索对象,系 确定性检索 统要直接问答用户提出的技术问题,即直接提供 用户需要的确切的数据或事实。
第三章 信息检索基本方法

各类型检索语言的原理、特点、应用前景策略的定义、制定和在手工、联机、因特
网检索环境下的不同特点。
3.1.1
信息检索语言的类型及特点 信息检索语言是用来描述文献特征,表达主题 提问的一种专门的人工语言,是由给定领域中一 切可用来描述语言内容和信息需求的词汇或符合, 及其使用规则构成的供标引和检索的工具。 信息检索语言又称标引语言、索引语言、情报 检索语言等,是情报检索系统的重要组成部分, 是沟通情报存储和检索两个过程,标引人员和检 索人员双方思想的桥梁。各种分类法、主题词表、 叙词表都属于信息检索语言的范畴。
1.根据结构原理划分
(1)分类语言 分类语言是用分类号和类名来表达信息的内容主题概 念,并按知识门类的逻辑次序将信息资源系统地加以划 分和组织的语言。 分类语言的使用和规范工具为分类表,它是由众多类 目按照一定的知识分类和概念逻辑次序,并考虑分类不 同信息资源的特点需要而构成的体系。长期以来,文献 信息机构常采用分类语言来组织文献信息资源,编制文 献检索工具。文献分类的意义,在于根据文献信息的内 容特征和分类表,把相同内容的文献信息集中起来,同 时,又把不同内容的文献信息区别开来,以实现相关集 中的功能。
分面组配型分类语言。分面组配分类语言是在体 系分类语言的基础之上,吸收了概念分析与综合的 方法而发展起来的。其分类标识可以进行灵活地组 合,极大地提高了分类语言标引和检索的能力。但 是在实际操作中,灵活的组配往往较难在使用上达 到很好的一致性,因此分面组配型分类语言在信息 检索的实际使用中并不多见。 分类语言的主要特点是:按学科、专业集中相 关文献信息,从知识分类的角度揭示文献信息之间 的区别和联系,提供从学科专业领域检索文献信息 的途径。
叙词的组配,按照叙词意义之间的语义关系,存 在如下几种类型: a.交叉组配:指两个或两个以上语义交叉的叙词之间 的组配。例如,“人工林”和“防护林”的组配表达 “人工防护林”的主题。 b.限定组配:指将一个表示事物的叙词与表示事物属 性、部分或方面的叙词进行组配。例如,“电子计算 机”和“存取速度”的组配表达“电子计算机的存取 速度”这一主题。 c.组合组配:又叫并列组配,是指除上述两类叙词组 配之外,任何两个或两个以上叙词之间的组配。例如, “计算机”、“应用”和“图书馆”的组配表达“计 算机在图书馆中的应用”这一主题。
信息检索的基本方法包括

信息检索的基本方法包括
信息检索的基本方法主要包括以下几种:
1.普通法:利用书目、文摘、索引等检索工具进行文献资料查找的方法。
运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角度查找。
普通法又可分为顺检法和倒检法。
2.追溯法:利用已有文献所附的参考文献不断追踪查找的方法,在没有检索工具或检索工具不全时,此法可获得针对性很强的资料,查准率较高,查全率较差。
3.分段法:追溯法和普通法的综合,它将两种方法分期、分段交替使用,直至查到所需资料为止。
4.布尔逻辑检索:利用布尔逻辑运算符号(如AND、OR、NOT)来组配检索词,确定它们之间的关系,准确表达检索课题的内容。
信息检索方法和步骤

信息检索方法和步骤一、信息检索的方法:1.关键词检索法:通过使用与需求相关的关键词在检索系统中进行检索,找到含有这些关键词的文档。
2.分类号检索法:根据各种文献分区标识,通过查找相应分类号进行检索。
3.引文检索法:根据文献之间的引用关系,通过查找引文或被引文献进行检索。
4.引题检索法:通过查找与需求相关的文献题名进行检索。
6.文摘检索法:通过查找文献的摘要进行检索。
7.题录检索法:通过查找已发表的文献目录进行检索。
8.专利检索法:通过查找专利文献进行检索。
9.数据库检索法:通过选择合适的数据库,在其中进行检索。
10.互联网检索法:通过使用互联网引擎进行检索。
二、信息检索的步骤:1.明确需求:首先要明确自己的信息需求,明确要检索的主题或关键词。
2.选择检索系统:根据需求选择合适的检索系统或数据库,选择使用哪种检索方法。
3.建立检索式:根据需求,将关键词或检索词用逻辑运算连接起来,构建检索式。
4.执行检索:根据建立的检索式,在检索系统中进行检索操作,获取相关文献列表。
5.筛选文献:根据需求的详细程度,筛选出与需求最为相关的文献。
6.阅读文献:对筛选出的文献进行阅读,获取所需的信息。
7.记录和整理:记录获取到的信息,整理成适合自己使用的形式。
8.评价信息:对获取到的信息进行评价,判断其是否满足需求,是否可信可靠。
9.更新检索:对于未满足需求的情况,根据新的需求重新进行检索。
10.保存信息:对于有用的信息,进行保存,以备后续需要使用。
三、信息检索的注意事项:1.选择合适的关键词:关键词的选择需要准确反映需求的内容,避免用词过于笼统或模糊。
2.合理使用逻辑运算符:在建立检索式时,根据需求的复杂程度,合理使用与、或、非等逻辑运算符。
3.了解检索系统和数据库:对于使用的检索系统和数据库,要了解其检索规则、操作方法和特点,以便能更有效地进行检索。
4.多渠道检索:除了使用单一的检索系统或数据库进行检索外,可以尝试在不同的渠道上进行检索,以获取更全面和多样的信息。
第三章 电子图书与书目信息检索

3.1 电子图书概述
• 3 类型
按载体材料划分:
电子图书阅读器;PC电子图书; 网络(在线)电子图书;光盘电子图书
按存储格式划分:
图像格式,文本格式,多媒体格式
常见电子图书格式
3.2 电子图书信息检索
• 典型电子图书数据库介绍
• 超星数字图书馆 • 方正Apabi电子图书 • 美星外文数字图书馆
超星数字图书馆
1 概述
• 超星数字图书馆成立于1993年,是国家“863”计划中国数字图书馆示 范工程项目,长期致力于纸张图文资料数字化技术开发及相关应用与 推广,是国内专业的数字图书馆解决方案提供商和数字图书资源提供 商。 • 超星数字图书馆有丰富的电子图书资源提供阅读,涵盖中图法22大类, 包括文学、历史、法律、军事、经济、科学、医药、工程、建筑、交 通、计算机、环保等。超星数字图书馆目前已制作完成200万种电子 图书,可供用户使用120多万种,其中2003年以后的新书近 30万种, 年加工能力为20万种(1亿页),保证每年加工适合高校使用的图书 为5~8万册,每天仍在不断的增加与更新。 • 超星电子图书采用国际领先算法和图像压缩技术,在保证图像质量的 前提下占用最小的空间,图像清晰,保证图书的原貌,文字识别正确 率达到98%以上,二次利用相对较为方便,是全国乃至全球最大的中 文图书网站。
其他重要电子图书数据库简介
• Springer-Link电子图书数据库 • 施普林格在线电子图书系列(Springer eBook Collection)是由世界著名的科技出版集团——德国施普 林格(Springer-Verlag)推出的全球最大规模,最具综 合性的电子版科技及医学(STM)图书,通过Springer LINK系统提供在线服务。Springer-Link在线电子图书系 列涵盖Springer全系列的图书产品,包括专题著作、教科 书、手册、地图、参考文献、丛书等,涉及人文、科技以 及医学领域的13个学科,并有两个特色图书馆——中国在 线科学图书馆和俄罗斯在线科学图书馆。
第三章医学文献信息检索基础

一、文献检索方法
• 2. 浏览法 • 通过定期或不定期浏览新近出版的期刊、 专著等文献来了解最新信息的方法。 • 注意选择浏览对象的范围和质量,适合于 平时的学习积累。
一、文献检索方法
• 3. 引文追踪法 • 就是从现有的文献出发,以其后所附参考 文献为线索,去追踪、查找相关文献的方 法。 • 获取的文献越来越旧,获取的信息受论文 作者的影响具有一定的主观性。优势在于 对问题的追根溯源,能够了解经典文献、 追踪科研发展轨迹。
三、文献数据库的检索途径
一、检索语言的概念 二、检索语言的类型 三、常用的医学文献检索语言
第二节 检索语言 一、检索语言的概念
检索语言(retrieval language)又称文献存储与检
索语言、标引语言等,是信息检索系统存储与检索过
程中共同使用的一种专用语言,是在文献检索领域中 用来描述文献特征和表达信息检索提问的一种专用语 言。
第二节 检索语言
二、检索语言的类型
题名 描述文献 外部特征 检 索 语 言 描述文献 内容特征 分类语言 主题语言 单元词 标题词 分类号 关键词 叙词 主题词 受 控 语 言 非 著者 专利号、档案号等 控 语 言
第二节 检索语言 三、常用的医学文献检索语言
(一)中国图书馆分类法
《中国图书馆分类法》简称《中图法》,是目前国内最常
形 目录、索引、文摘等手工检索工具 式 文献数据库、网络等计算机检索工具
信息检索系统
• 信息检索系统,是指根据人类社会对知识 信息的普遍性需要,由一定的硬件设备和 软件条件构成的,具有选择、整理、加工 存储和检索功能的有序化的信息资源集合 体。 • 信息检索系统由硬件设备、计算机软件和 数据库组成。
文 档 1
第三章信息检索的基本理论

第三章信息检索的基本理论目的要求了解信息检索系统的概念;了解手工信息检索系统的类型;熟悉手工信息检索系统的结构;掌握手工信息检索系统的著录格式和常用的手工信息检索系统的信息检索方法。
掌握计算机信息检索系统的构成和类型;掌握信息检索语言的基本类型;掌握信息检索原理。
第一节信息检索系统一、信息检索系统的概述信息检索系统是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。
简单地说,信息检索系统即信息的存贮和检索的系统。
广义:信息检索系统是包括了从信息采集到检索全过程的服务体系。
狭义:信息技术系统就是用户检索信息时所使用的检索工具。
信息检索系统具有输入功能、存贮功能、处理功能、输出功能及控制功能。
根据信息存贮和检索所设备和手段的不同,信息检索系统可分为两大类型,即:手工信息检索系统和计算机信息检索系统。
目前,信息检索系统已从传统的手工检索系统发展到计算机网络信息检索系统。
二、手工信息检索系统1、手工信息检索系统的类型书本式检索工具(期刊式检索工具、单卷式检索工具、附录式检索工具)和卡片式检索工具。
期刊式检索工具:指在一个题名之下,定期连续发行的一种检索工具。
它具有及时性、连续性和稳定性的特点。
例如各种文摘杂志、索引刊物、连续的馆藏目录等。
这种形式的检索工具,及时反映新出版、新发表、新入藏的文献信息,它随着新文献的不断出现而不断连续出版,保持与文献的平行发展关系。
因此科研工作者为了掌握和了解本学科的科研动态,定期查阅期刊式检索工具是一种非常有效的方法。
同时由于期刊式检索工具的连续性的特点,不少期刊式检索工具,每到一定时间累积后,对于回溯检索极为方便。
单卷式检索工具:这种检索工具多数是以一定的专题内容而编印的,选题一般具有独立的意义。
它专业性强,收集的文献比较集中,往往积累反映一个相当长时间的文献,并以特定范围的读者作为对象。
单卷式检索工具收录文献一般比较全面系统,排列组织比较切合专业研究的需要,因此,对于专题文献检索比较方便,使用价值较高。
信息检索的方法有哪些

信息检索的方法有哪些
信息检索的方法有以下几种:
1. 关键词检索:通过输入关键词来搜索相关信息,系统会根据关键词匹配文本中的内容进行检索。
2. 基于词袋模型的检索:将文本划分成词汇的集合,然后将其转化为向量表示,通过计算词汇之间的关联性来进行文本检索。
3. 基于向量空间模型的检索:将文档表示为向量,在向量空间中计算文档之间的相似性,然后根据相似性进行文本检索。
4. 基于语义的检索:使用自然语言处理技术,将文本转化为语义表示,通过计算语义相似性来进行文本检索。
5. 基于机器学习的检索:通过训练一个机器学习模型,学习文本之间的关系,并使用模型进行文本检索。
6. 基于推荐系统的检索:通过分析用户的历史行为和兴趣,推荐相关的信息给用户。
7. 基于知识图谱的检索:利用知识图谱中的实体关系和属性,进行文本检索和
推荐。
这些方法可以单独使用,也可以结合使用,根据具体的应用场景和需求选择合适的方法。
第三章文献信息检索的基本知识

第三章文献信息检索基本知识随着信息技术的发展,互联网的应用得到广泛普及,信息环境发生了相当大的变化,应用现代化技术手段获取各种信息、知识成为高等院校师生与广大科技工作者的一种必备知识和技能。
为此,首先就必须了解文献信息检索的基本知识。
第一节信息检索的基本原理一、信息检索的概念信息检索(Information Retrieval)全称为“信息存储与检索”(Information Storage and Retrieval),其概念有广义和狭义之分。
广义上认为,信息检索包括文献信息的存储和检索两个方面,即一个完整的信息检索系统由信息存储子系统和信息检索子系统两部分组成。
信息存储子系统:首先对一定数量的信息进行筛选,把能够描述文献信息的外部特征和内部特征进行加工、整理,使之有序化,形成信息特征标识集合,然后将之存储在某种载体上,编制成为检索工具或建立一个数据库。
信息检索子系统:根据信息用户的特定需求,对用户需求进行主题分析,利用一定的检索方法和检索技术,对存储子系统中的特征标识进行比对,把需要的文献线索或知识信息从系统中查找出来的过程,即信息检索。
这就是通常人们所说的信息检索过程,也就是狭义上的信息检索。
信息存储与信息检索是意义不同却又相互联系、相互依存、不可分割的两个过程。
信息存储是为了检索,信息检索又必须先有信息存储。
如果没有存储,检索就无法实现;没有检索,信息存储也就变得没有意义。
所以说存储是检索的前提和基础,检索是存储的目的。
信息检索系统的工作原理如图3-1所示。
图3-1 信息检索系统的工作原理二、 信息检索的类型信息检索可以按不同的划分标准划分为不同的类型。
(一)、 根据检索内容划分根据检索信息内容不同可划分为文献信息检索、事实信息检索和数据信息检索。
1、文献信息检索(document retrieval ):是以文献(包括目录、索引、文摘等二次文献或全文)为检索对象,查找有关文献的出处和收藏处等信息,都属于文献信息检索范畴。
第三章 信息检索基本方法概论

第主题三语章言信—息—叙检词索语基言本方法
叙词语言的特点:
➢规范性强:叙词语言事先经过规范化处理,列于叙词表中,
标引和检索都从叙词表中选词,保证了标引和检索的一致 性。
➢利用叙词的组配,可用有限的叙词表达各种复杂的主题。 ➢叙词语言从单元概念出发提示文献内容,可准确、全面揭
示文献的主题,提高标引深度和专指度。
TG759 其它
TG751又分为:
TG751.1 车床夹具
TG751.2 钻床夹具
TG751.3 铣床夹具
TG751.4 刨床夹具
TG751.5 磨床夹具
TG751.9 其它
第分类三语章言-信中图息分检类索法 基本方法
第检索三语章言信—息—主检题索语基言本方法 主题语言: 以主题词来表达信息主题概念的语言。 是计算机信息检索语言的主流。通常又分为以下几种: (1)标题语言 (2)叙词语言 (3)关键词语言 (4)元词语言
Q 生物科学
R 医药、卫生 S 农业科学
T 工业技术
U 交通运输
V 航空、航天
X 环境科学、安全科学 Z 综合性图书
第分类三语章言-信中图息分检类索法 基本方法
简表
以T工业技术类来说明简表。 工业技术(T类)划分为: TB 一般工业技术 TE 石油、天然气工业 TG 金属学、金属工艺 TJ 武器工业 TL 原子能技术 TN 无线电电子学、电讯技术 TQ 化学工业 TU 建筑科学
1.根据结构原理划分 分类语言 指用分类号和类名来表达信息的内容主题概念, 并按知识门类的逻辑次序将信息资源系统地加以划 分和组织的语言。 分类语言主要分为等级体系型和分面组配型。 例如:下面的中图分类法就是等级体系型分类语 言。
第分三类章语言信-息中图检分索类基法本方法
第三章 信息检索基本方法

3.2.3 截词检索
通常用“ *”表示无限阶段,用“?”表示有限阶 段。 无限截词符“*”,代表零至无数多个字母; computer* computer;computered ;computering; 有限截词符“?”,只能代表一个字母; teen? teens 例如: *chemi* chemical、chemist、chemistry、 electrochemistry、electrochemical、 physicochemical、thermochemistry
引文检索语言就是根据上述原理, 以引文为标识标引或检索文献,而 引文标识的全体就构成了引文检索 语言。 例如著名的《科学引文索引》 (SCI)、《社会科学引文索引》 (SSCI)、《艺术与人文科学引文索 引》(A&HCI)就是使用的这种引文 检索语言。
2.根据组配方式划分
先组式语言 事先用固定关系组配好,并编制在词表中, 标引人员和用户使用时必须根据词表选用 组配好的主题标识进行操作。例如体系分 类法和标题词法都属于此类。
(n)算符near:
(n)要求被连接的检索词必须紧密相连,词之间除 允许有空格、标点、连字符外,不得夹单词或字 母,词序不限; (Nn)表示两个检索词之间最多可以夹N个词(N为 自然数1、2、3…),且词序任意。 例如:information(n)retrieval
information retrieval 、 retrieval- information, economic(2n) recovery economic recovery 、 recovery from economic troubles
• •
•
引文途径
两种操作方法: 一是利用检索工具如SCI,通过被引用 文献入手,查找引用文献; 二是通过引用文献(来源文献)入手, 直接利用文献结尾所附的参考文献, 查找被引用文献。
第3章 信息检索的方法和技术

1.根据文献外部特征的检索途径 1.根据文献外部特征的检索途径
(1)著者途径:使用著者索引(或字段)检索与某个著者相关 著者途径:使用著者索引(或字段) 的信息内容。 的信息内容。 (2)题名途径:利用题名索引(或字段)查找所需信息。题 题名途径:利用题名索引(或字段)查找所需信息。 名包括信息标题名(或篇名)、书名或刊名、标准名、文档名、 名包括信息标题名(或篇名)、书名或刊名、标准名、文档名、 )、书名或刊名 数据库名等。 数据库名等。 (3)机构途径:在机构索引(或字段)中检索与特定机构名 机构途径:在机构索引(或字段) 称相关的信息。机构名称包括著者所在单位、书刊的出版发行者、 称相关的信息。机构名称包括著者所在单位、书刊的出版发行者、 数据库的研发生产者、 数据库的研发生产者、特定网络系统的维护者以及有关信息服务 单位的名称等等。 单位的名称等等。
查全率( 检中的相关信息量/ 查全率(R)= 检中的相关信息量/系统中的相关信息总量 漏检率( 漏检率(O)= 1 - 查全率 查准率( 检中的相关信息量/ 查准率(P)= 检中的相关信息量/检索出的信息总量 误检率( 误检率(F)= 1 - 查准率 检索速度(T)= 检索出的相关信息量/检索用时 检索出的相关信息量/ 检索速度( 新颖率( 新颖率(N)= 检中的在单位时间内发布的最新相关信息 量/单位时间内发布的最新相关信息总量 有效性( 用户实际利用的相关信息量/ 有效性(A)= 用户实际利用的相关信息量/检索出的相关 信息总量
3.2 信息检索途径
依据文献外部特征和内容特征的不同标识, 依据文献外部特征和内容特征的不同标识,各种信息检索途 径如图3 所示。 径如图3-2所示。 著者途径 题名途径 机构途径 文献外部特征 代码途径 信息源类型途径 检索途径 其它途径 文献内容特征 分类途径 主题途径 关键词途径
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•序号途径
如专利号索引、报告号索引、标准号索引等。
•引文途径
两种操作方法:
一是利用检索工具如SCI,通过被引用文献入手,查找引用文献;
二是通过引用文献(来源文献)入手,直接利用文献结尾所附的参考 文献,查找被引用文献。
信息检索基本方法 第三章 3.2 信息检索技术 ——布尔检索 1.布尔逻辑算符 逻辑“与”——AND或*
如果把文献A作为检索入口,就可以检索到在它之后发 表的引用了它的所有来源文献。由于来源文献和引文之间在 内容上是相关的,所以引文就完成了文献集中的功能。 引文检索语言就是根据上述原理,以引文为标识标引或 检索文献,而引文标识的全体就构成了引文检索语言。
信息检索基本方法 第三章 分类语言 ——引文语言 例如著名的《科学引文索引》(SCI)、《社会科学引文索
(2)主题语言之二:叙词语言 概念:以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻 辑组配的一种主题语言。专门有叙词表。 (有3种) A、交叉组配 例如,“人工林”和“防护林”表达为人工防护林。 B、限定组配 例如,“电子计算机”和“存储速度”的组配表达了“电子计算机的存储速度” 这一主题。
TQ 化学工业 TU 建筑科学
TP 自动化技术、计算技术
TS 轻工业 TV 水利工程
第三章 分类语言-信息检索基本方法 中图分类法
详表
以TG金属学、金属工艺类来说明详表。 金属学、金属工艺类(TG)又划分为:
TG1 金属管、热处理
TG2 铸造 TG3 金属压力加工
TG4 焊接、金属切割几粘接
信息检索基本方法 第三章 3.1.2 检索途径及其选择:内部特征 分类途径
一般是按学科体系为中心排检文献的。如《中图分类法》。
主题途径
如利用主题词索引、关键词索引、叙词索引等。
分类主题途径 上述两个途径结合。
信息检索基本方法 第三章 3.1.2 检索途径及其选择:外部特征
• 责任者途径。包括个人作者、团体作者、编者、专利权人等。 • 题名途径
信息检索基本方法 第三章 分类语言 -中图分类法 基本部类 《中图法》分为5大基本部类
马、列、毛泽东思想
哲学 社会科学 自然科学 综合性图书
信息检索基本方法 第三章 分类语言 -中图分类法
基本大类 《中图法》共分为22个基本大类,每一个大类用一个大写的英文字母来 表示。
A 马列、毛泽东思想
KEYS:
2、(掘进机+TBM)*秦岭隧道 3、(掘进机+TBM)-秦岭隧道 思考:还可以有那种形式
信息检索基本方法 第三章 3.2 信息检索技术 ——位置运算符
TG75又分为:
TG751 一般夹具 TG755 塑料夹具
TG758 电磁夹具
TG751又分为: TG751.1 车床夹具
TG759 其它
TG751.2 钻床夹具
TG751.3 铣床夹具
TG751.5 磨床夹具
TG751.4 刨床夹具
TG751.9 其它
第三章 分类语言-信息检索基本方法 中图分类法
第三章 分类语言-信息检索基本方法 中图分类法
简表
以T工业技术类来说明简表。 工业技术(T类)划分为: TB 一般工业技术 TE 石油、天然气工业 TG 金属学、金属工艺 TJ 武器工业 TL 原子能技术 TD 矿业工程 TF 冶金工业 TH 机械、仪表工业 TK 动力工程 TM 电工技术
TN 无线电电子学、电讯技术
信息检索基本方法 第三章 主题语言 ——关键词语言 (3) 主题语言之三:关键词语言 概念:关键词语言与其它主题语言的区别在于它没有经过 规范化处理,属于非受控语言。而主题词语言属于受控语 言。 关键词语言的基本原理是直接以自然语言的词语作为 表达文献和提问的标识。故不必编制专门的词表。 分为单纯关键词索引(EI常用)、题内关键词索引(美 国的《化学题录》采用)、题外关键词索引、词对式关键 词索引(SCI中的轮排主题索引属于此类)等。
引》(SSCI)、《艺术与人文科学引文索引》(A&HCI)就是
使用的这种引文检索语言。
信息检索基本方法 第三章 2.根据组配方式划分
先组式语言
事先用固定关系组配好,并编制在词表中,标引人员和用 户使用时必须根据词表选用组配好的主题标识进行操作。 例如体系分类法和标题词法都属于此类。 后组式语言 用户根据需要将不同的检索词组配在一起,来表达复杂的 主题概念。例如检索“湖泊水污染”这一主题,检索系统 中只有“湖泊”、“水污染”等单独的标引词。叙词语言 属于此类。
第三章 信息检索基本方法
第三章 信息检索基本方法 信息检索语言分类
描述文献外表特征的语言 检索语言 描述文献内容特征的语言
书名、刊名、篇名等 著者 号码(如报告号、专利号、序号等) 文献类型 文献出版事项 分类语言 关键词语言 主题语言 标题词语言 叙词语言
第三章 信息检索基本方法 3.1 信息检索语言与检索途径
• 例如,“物理”和“贸易”就属于元词,而“知识经济”
和“主题标引”不属于元词。 • 例如,“经济文献检索”这一主题,就必须通过“经济”、 “文献”和“检索”3个单元词进行标引和组配检索。 《美国化学专利单元词表索引》采用的就是单元词索引形
式。
• 早期的元词系统属于自然语言系统,一般不建立词表,后 期的元词系统有相应的词表。
利用文献之间引用与被引用的关系作为文献内容主题标 识,并以此标引和检索文献的语言。 例如文献作者在文献最后列出参考文献,这就是引文。 该作者所创作的文献完成后也将汇入知识集合中,再后来 的人又可将其作为引文加以利用和记录。文献间的这种引 证关系,不仅反映了科学技术的交流和反馈,也启发人们 通过追溯这种引证关系,找到一系列内容相关的文献。
control 设计
美国的《EI》、《CA》的主题索引均使用了多级标题形式。
主标题的构成有3种:
A、正叙式标题 如空气污染 (Air Pollution) B、倒叙式标题 例如,Bridge, Wood (木桥)。 C、并列式标题 例如,Roads and Streets
信息检索基本方法 第三章 主题语言 ——叙词语言
TG5 金属切削加工及机床 TG7 刀具、磨料、磨具、夹具、手工具 TG8 公差与技术测量及机械量仪 TG9 钳工、装配工艺
第三章 分类语言-信息检索基本方法 中图分类法
TG7又划分为:
TG71刀具 TG75夹具 TG73磨料 TG76模具 TG74磨具、研具 TG78手工具 TG753 成组夹具 TG754 组合夹具 TG756 气动夹具 TG757 液压夹具
信息检索基本方法 第三章 检索语言 ——主题语言 主题语言: 以主题词来表达信息主题概念的语言。
是计算机信息检索语言的主流。通常又分为以下几种:
(1)标题语言 (2)叙词语言 (3)关键词语言 (4)元词语言
第三章 信息检索基本方法
(1)主题语言之一:标题语言
概念: 采用经过词汇控制的自然语言,以经过规范化的名次术语 为标识,直接表达文献和提问的主题。 标题语言是最早出现的并得到广泛使用的一种语言。标
信息检索基本方法 第三章 3.根据规范化程度划分 规范化语言 又称受控语言。是一种有主题词或分类表控制的语言。包 括主题语言中的叙词、后期的元词、标题词和分类语言。 自然语言 指直接从文献或用户检索需求中抽取出来的未经规范化处 理,用来揭示信息主题概念的自由词或语句。如关键词语 言、用户提问的语句等。 两者结合的发展趋势
信息检索语言的类型及特点:
信息检索语言是用来描述文献特征,表达主题提
问的一种专门的人工语言,是由给定领域中一切可
用来描述信息内容和信息需求的词汇或符号,及其
使用规则构成的供标引和检索的工具。
如各种分类法、主题词表、叙词表都属于信息检
索语言。
第三章 信息检索基本方法 3.1 信息检索语言与检索途径
信息检索基本方法 第三章 分类语言 ——引文语言 假设有文献A和B,B文献在完成过程中引用了A文献,并把 它列在参考文献中,此时就称A是B的“引文”(Citation), 而B因为提供了包括文献A在内的若干个引文,故又称为 “来源文献”(Source Item 或 Source Document)。
信息检索基本方法 第三章 主题语言 ——元词语言 (4)主题语言之四:元词语言
为了克服标题语言的不足而发展起来的一种主题法类型。
元词: 从文献中抽选出来的,从字面上不可再分割的表达最基 本的概念单元的词汇。 元词语言:
以元词作为主题标识,通过字面组配来表达主题概念的语
言。
信息检索基本方法 第三章 分类语言 ——主题语言——元词语言
1.根据结构原理划分 分类语言
指用分类号和类名来表达信息的内容主题概念, 并按知识门类的逻辑次序将信息资源系统地加以划 分和组织的语言。
分类语言主要分为等级体系型和分面组配型。 例如:下面的中图分类法就是等级体系型分类语 言。
第三章 信息检索基本方法 分类语言 -中图分类法 《中国图书馆图书分类法》(简称为《中图法》,它包括5 个部分: 基本部类 基本大类:在基本部类的基础上, 第一次划分得到的类目, 称为一级类目。 简表:从基本大类起,再连续划分3次,得到二级、三级、 四级,组成四级类目。 详表:由全部类目组成。 辅助表
题语言的规范工具为标题表。如《美国国会标题表》就是
国内外广泛使用的标题表。标题有单级标题和多级标题两 种。
信息检索基本方法 第三章 主题语言 ——标题语言
A、单级标题。如计算机 computer
英国的《科学文摘》(SA)的主题索引采用的是单级标题形式。 B、多级标题。主标题和副标题组成。
如,machine tools 木工机床
其中的《分类号——主题词对应表》和《主题词——分