第二章信息检索基础1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

化学物质登记号(CAS registry number)检索
分子式(formula)检索 记录顺序号(accession number)检索 化合物结构图检索(structure search)检索 ……
不同检索途径常用字段名称
题名途径:题名、标题、篇名、题目、title 分类检索途径:分类号,中图分类号 主题途径:主题词、MeSH、MeSH terms、 Thesaurus、map term to subject headings 关键词途径:关键词、keywords、text words 著者途径:(第一)作者、著者、责任者、 author、first author
研、生产中的具体问题所需要的特定知识或信息。(微波炉
发明) (四)文献(Literature) 文献是记录有知识的一切载体,是知识的外在形式。
情报的基本属性
知识或信息 经过传递
经用户使用产生效益 情报的 基本属性
信息与知识、情报、文献的关系
知识源于信息,是信息的一部分 情报源于知识或信息,是激活了的知识或信息 文献是信息、知识、情报的主要载体形式
形成系统,便于检索的文献。
如:题录、书目、索引和文摘。
特征1 特征2 特征3 特征4 特征5
提取特 征
特征n
二次文献
二次文献
二次文献
2013-8-10
40
三次文献
三次文献是利用二次文献并在其指引下,对大 量的一次文献进行综合分析研究,加以浓缩和提 炼而成的文献。 包括综述、述评、进展、预测等,各类词典、 手册、年鉴、百科全书、指南等参考工具书也属 于三次文献的范畴。
一次文献、二次文献、三次文献
一次文献:
又称原始文献,是首次公开发表的文献,直 接记录了科研成果,报道了新发明、新技术、新 知识和新观点。 一次文献主要包括专著、期刊论文、科技报 告、会议文献、学位论文、专利文献等。
一次文献
二次文献:
又称检索工具。是对许多无序的、分散的一次文献进 行收集整理,著录其特征,并按照一定的顺序加以编排,
声、像等信息存储在磁、光、电介质上,通过计算机、网
络或相关设备使用的记录有知识内容或艺术内容的文献信
息资源。 文本型(TXT、DOC、PDF、CAJ) 超文本型(HTML) 多媒体型
电子文献的文件类型
文本型 Txt DOC PDF
超文本 HTML
14 多媒体型
缩微型和视听型信息资源
二、信息资源
信息检索
医学信息检索
Medical Information Retrieval
华北煤炭医学院 医学信息检索教研室
第二章 信息检索基础知识
第一节 信息与信息资源
第二节 信息检索 第三节 计算机信息检索
第四节 数字图书馆
一、信息、知识、情报与文献
信 息(information) 知 识(knowledge) 情 报(information) 文 献(literature)
检索语言的类型
按描述的文献特征划分:
描述文献内 容特征的语言 分类检索语言 主题检索语言 代码检索语言 关键词 主题词
(狭义)
检索语言 (广义)
描述文献外
部特征的语言
刊名 著者姓名 参考文献 ……
分类检索语言
分类检索语言:用分类号来表达各种概念,将各 种概念按学科性质进行分类和系统排列。
世界上有多种分类检索语言,我国较为广泛使用 的分类检索语言:《中国图书馆分类法》
R 医药、卫生
R551 造血系疾病 552 血液疾病 554 出血性疾病 556 贫血病 556.6 溶血性贫血 557 白细胞疾病
主题检索语言
主题词:叙词(descriptor),是经人工规范化处理的, 最能表达文中主题概念的语词。所谓规范化处理,是指在 文献存储时,对文献中的近义词、同义词、多义词等加以
的不定性减少。
信息的特征和作用
信息的特征
真实性 知识性 指向性 无限性 时效性 依附性
共享性
信息的作用(P9)
(二)知识(Knowledge) 知识是人脑经过加工整理并使之序列化的信息,是对 同类信息的积累。(水分子运动) (三)情报(Information) 情报是被传递的知识或事实,是知识的激活,是运用一定 的媒体(载体),越过时间和空间传递给特定用户,解决科
人的特征
文献的特征
特征1 特征2 特征3 特征4 特征5
特征n
文献的外部特征:
与文献主题内容没有关系或关系不大的信息称为文献的
外部特征,包括作者、作者工作单位,发表时间、专利号、 报告号等。
文献的内容(主题)特征 与文献主题内容密切相关的信息称为文献的内容特征。 文献信息内容特征主要有各种形式的主题词和分类号。
控制和规范,使同一主题概念的文献相对集中在一个主题
下,主题词的单一性,也叫人工受控语言。 关键词: 键词(keyword),是从文献的题名、摘要。章 节标题或正文中抽取出来的,具有实质意义、并能表达文 章的主题内容,但未经规范化处理,又称后控语言、非规
范化语言,属于自然语言范畴。


非主题词:单车、脚踏车 主题词:自行车
(二)信息资源的分类 按照信息出版形式的类型
图书、期刊、特种文献
图书分类
著作书籍 图书 检索工具书
工具书
参考工具书


ISBN:10位数字,13位数字(2007.1.1实施)
《中文科技资料目录》
检索工具书
参考工具书
期 刊
期刊
期刊(journal,periodical):也称杂志,是一种采用固定刊名,定 期或不定期出版的连续出版物;有统一的版式和外观,使用年卷期连
续编号,每期可刊载多个著者的多篇文章。
特点:出版周期短、报道速度快、信息量大、内容新颖 ISSN(International Standard Serial Number,国际标准连续出版物 编号,例:ISSN 1495-2970) 我国期刊的ISSN号可到ISSN中国国家中心(中国国家图书馆)查 询,网址是:/yjfw/issn_cxxx.htm CN(国内标准刊号,例:CN 65-2873/R) 新闻出版总署(/)首页新闻机构查询 中国记者网(/)首页进行媒体查询
《中国图书馆分类法》
《中国图书馆图书分类法》(CLC)是 我国建国后编制出版的一部具有代表性的 大型综合性分类法,简称《中图法》。自 1999年第四版起更名为《中国图书馆分类 法》 1973年出版试用版 1975年出版第一版 1980年出版第二版 1990年出版第三版 1999年出版第四版 2001年6月出版了《中图法》(第四版)电子版1.0版 2010年出版第五版
怎么办?
二、 检索语言
检索语言(Retrieval language) 检索语言是根据文献信息存储与检索的需要而创 造的人工语言。这种语言用在文献整序时称标引 语言;用在编制索引工具时称索引语言。
检索语言的作用
检索语言用来描述文献外部特征和内容(主题)特征 是信息管理人员和信息检索者共同约定使用的语言, 是沟通信息存储与检索的桥梁 不同的检索语言构成不同的检索途径
ISSN与CN
ISSN CN 年卷期编号
ISSN
核心期刊工具
《中目》
《科目》
特种文献
特种文献是出版形式比较特殊的文献的总称,又 称非书、非刊资料。
特种文献主要包括: 科技报告、会议文献、专利文献、标准文献、学 位论文、档案资料和产品资料等。
二、信息资源
(二)信息资源的分类 按照信息内容的加工级次划分
语言、文字 文学
J
K
艺术
历史、地理
Z
综合性图书
《中图法》的逻辑体系
R1 2 3 4 预防医学、卫生学 中国医学 基础医学 临床医学
5
6 71 72 73 74 75 76 77 78 79 8 9
内科学
外科学 妇产科学 儿科学 肿瘤学 神经病学与精神病学 皮肤病学与性病学 耳鼻咽喉科学 眼科学 口腔科学 外国民族医学 特种医学 药学 R55 56 57 58 血液系疾病 呼吸系疾病 消化系疾病 内分泌疾病
二、 信息资源
信息资源的概念 信息资源是经过人类选取、组织、序化的
有用信息的集合。它强调:
信息的丰度
信息的有用性
信息的有序化
二、信息资源
(二)信息资源的分类
按照信息存储技术的类型划分 电子文献、纸质型、缩微型、视听型
二、信息资源
(二)信息资源的分类
电子文献(electric document)以数字方式将图、文、
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个二级
目录,医药卫生属于R大类。
《中图法》采用汉语拼音字母和阿拉伯数字组成的混合 制号码作类目标识,用一个字母标记一个基本大类,在 字母后用数字表示大类的下位类划分。号码的位数一般 能反映相应类目的分类等级。如:R5、 R55、R551 用于书刊排架和数据库标引、检索。目前我国95%以上的 图书馆都采用这种分类法。
微波炉的发明
信息
知识
情报
糖融化
水分子运动
微波炉发明
(一)信息 唐代诗人李中在《碧云集· 暮春怀故人 》的诗 句:
“梦断美人沉信息,目穿长路倚楼台。”
信息指消息、音信的意思。
信息的概念
广义:对各种事物的存在方式、运动状态和相互相互联系
特征的一种表达和陈述,是自然界、人类社会和人类思维
活动普遍存在的一切物质和事物的属性。 狭义:具有新内容或新知识的消息,即对接受者来说预先 不知道的报道(糖融化)。 《情报与文献工作词汇基本术语》:信息是物质存在的一 种方式、形态或运动状态,也是事物的一种普遍属性,一 般指数据、消息中包含的意义,也可使消息中所描述事件
图书期刊排架
中图法二十二个大类
A 马克思主义、列宁主义、 N O P Q R S T U V X 自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学
毛泽东思想 B C 哲学 社会科学总论
D
E F
政治、法律
军事 经济
G
H I
文化、科学、教育、体育
查近年文献应结合关键词(自由词)检索
代码检索语言
分子式
专利号 标准号
三、检索途径
题名途径
分类检索途径 主题途径
引文途径
机构途径
默认途径(计算机检索) 其他途径
关键词途径
著者途径
其他检索途径:
专利号(patent number)检索 国际标准连续出版物编号(ISSN)检索
用“单车” 检索:会漏掉所 有有关“脚踏车”和“自行
自行车 单车 脚踏车
车”的文献
用“脚踏车”检索:会漏检所
有“单车”和“自行车”的 文献 用“自行车”检索:可查到所
由于作者的用词习惯不同,文献在录入数据库时将进行规范化处理,用统一 的词来标注相同主题的文献。
单车 脚踏车 自行车
信息检索
存储过程—建立数据库
机械匹配
检索过程—利用数据库
检索原理-机械匹配举例 作者为“张平”写的文章
• 手工检索:得到只有张平写的文章 • 计算机检索:得到张平才、张平安、沈张平等作者 写的文章或包含“一张平片”的文章
机械匹配举例 艾滋病-爱滋病-获得性免疫缺陷综合症- Aids 钠泵-钠钾泵、Na+-K+ -ATPase、 Na+,K+ ATPase、Na+,K+ -ATP酶、Na, K- ATP酶、 Na(+)K(+)交换ATP酶等
三次文献
一次文献、二次文献、三次文献的关系
从一次文献到二次文献、三次文献是一个由分散到
集中、由无序到有序的过程。一次文献是检索的对象;
二次文献是存储文献、报道文献和检索文献的工具, 是查找原始文献的线索,但不能代替原始文献; 三次文献是信息调研的结果,是经过集中和浓缩的 文献。
指出下列信息源的加工深度
《阅读疗法》王波主编
学位论文
专利说明书
中国生物医学文摘
《少儿百科全书》
华北煤炭医学院图书馆馆藏目录
第二节 信息检索
一、信息检索的原理(Information Retrieval) 是指通过一定的方法和手段使存储和检索这两个 过程所采用的特征性标识达到一致,以便有效获 取信息的过程。 广义:存储与检索 狭义:信息的检索
脚踏车 单车 自行车 自行车
医学主题词表
英文名称:Medical Subject Headings 英文缩写:MeSH 研制单位:美国国立医学图书馆(NLM)
中国中医药学主题词表
中国中医科学院中医药信息研究所
主题词检索
主题词检索的优点 查全同义词、子概念 提高文献相关度 主题词检索的缺点 人工标引速度慢,最新论文未标规范主题词 新词、一些很专指的概念没有对应的主题词
相关文档
最新文档