1.3信息检索基础知识

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智能手机 题名:团购 and 关键词:服装 TI=家具*KY=(涂料+涂装)
调整检索策略
评估检索结果 优化检索策略
分析造成结果不理想的原因,采取措施。 提高查准率,缩小检索范围。 提高查全率,扩大检索范围。
参见教材
5、阅读和记录文献线索
阅读文献题录或文摘 及时完整地记录
[1]陈莹, 中国造机器人:一直在模仿,还未有超越[R]. 2012(11). [2]张克敏. 基于虚拟现实的机器人仿真研究[D].重庆大学,2012. [3]类延超. 五自由度写字机器人系统研究[D].山东大学,2012.
可用“-”代替。排除含有某些词的记录。 使用NOT以避免与词间的分隔符“-”混淆。 例如:检索“ PATENT not GERMAN” , 检索结果示意如下:
逻辑“非”示意图
2、检索字段限定
如何限定字段 限定检索字段的作用
检索字段:文献信息的特征
又称:检索项、检索入口、检索点、检索途径
如何限定字段
查准率 查准率
=(检出相关文献量/检出文献总量)×100%
例如:检索结果中有90篇是相关的,而检 出的文献总数是180篇, 则查准率=(90÷180)×100%=50%
常用于用户自我评价
查全率 查全率
=(检出相关文献量/文献库内相关文献总量) ×100%
例如:查到与检索要求相关文献有60条,而 此系统中总共相关文献有100条, 则查全率为(60÷100)×100%=60%
6、获取原始文献
明确文献类型和出版物的全称后可以: 利用馆藏目录或联合目录查找所需文献的 收藏单位,进行借阅或复制; 通过网络数据库检索,直接得到原文; 通过网络获取; 利用图书馆的原文传递服务获得原文; 订购原文。
3.3 检索语言 检索语言
检索语言的定义和类型 分类语言 关键词语言
检索语言的定义和类型
一般规律:查全率与查准率互逆。
3.2 检索步骤
分析课题 选择检索工具 分析检索概念 编制和调整检索式 阅读和记录文献线索 获取原始文献
1、分析课题
检索前对课题内容进行分析,明确检索目的。 分析课题需求: 查全型:开题、编写教材、基础研究或应用理论 研究的课题。 查准型:用户需要查询在科研、生产进行当中遇 到的非常专指或是细微的问题。 动态型:研究开发和应用新技术、新理论的课题。 查新型:指某项技术或新产品在研制开发完成 后,要对同类研究项目、或相关研究项目等有关 的专利及非专利文献资料对比分析所进行的检索。
在检索界面及下拉菜单中选取
如何限定字段
用字段代码、运算符“/”或“=”等
例:wastewater/ab 表示wastewater一词须出现在摘要字段。 AU=“Robert, S.” 在作者字段中查含“Robert, S.”的所有记录。 JN=APPLIED MATHEMATICS 限定刊物名称字段
检索语言的定义
存储信息与检索信息所使用的共同语言。
用来描述文献、组织文献记录,进行文献检 索的标识系统、行业语言。
文献信息
存储
检索
检索系统(数据库)
提问
(语言)
(语言)
Hale Waihona Puke Baidu
检索语言的类型(按规范化程度划分)
人工语言
人为对标引词和检索词 加以控制和规范,使每个 检索词只能表达一个概念
自然语言
直接从原始信息中抽取出自 由词作为检索词的检索语言
逻辑“与”示意图 示意图中的阴影部分反映了“communication”和 “satellite”两词间使用AND算符后的运算结果。
逻辑或(OR)运算符
也可用“+”代替,表示主题概念之间的 同义、近义、相关或多个并列的检索概念 含义:检出记录中至少含有两个检索词中 的一个。 自动隐含逻辑“或”关系的情况:
每条记录揭示一种文献(书、刊) 例:馆藏目录里的一条记录。著录格式为:
题录
题录的含义
是描述文献外部特征的文献条目。 题录的著录对象一般是单篇文献。 通常每条记录揭示一篇文章。
相同点:著录格式
目录和题录
不同点:著录对象
目录
完整出版物
题录
单篇文献
文摘
文摘的定义
我国国家标准GB 3468-1983《检索期刊编 辑总则》定义:除题录部分外还对文献内 容作实质性描述的文献条目称之为文摘。 不仅描述文献的外表特征,而且还揭示文 献的内容特征。比题录多出摘要。 文摘是文献原文浓缩后的产物,是忠实于 原文内容的简要记录单元,能揭示文献的 内容特征。
2、选择检索系统
考虑与文献需求紧密结合、学科专业对口、 覆盖信息面广、报道及时、揭示信息内容准确、 有一定深度的检索系统。 全面性,是否与课题相关的内容都要检索; 针对性,检索系统与检索课题的学科一致; 专业性,选择与学科专业相关的检索系统,特 别注意跨学科领域内容; 权威性,尽量选用该学科的权威性检索系统; 了解检索系统收录的范围,包括时间跨度、地 理范围、文献语种、类型等。
逻辑与(AND) 逻辑或(OR) 逻辑非(NOT)
逻辑与(AND)运算符
也可用“*”代替,组配用来表示不同检 索主题概念之间的相交。 含义:检出的记录必须同时含有所有的检 索词。 在实际检索中,不同概念组面之间以及同 一组面内的不同含义的词之间通常使用 AND算符。
以“communication AND satellite” 检索式为例:
使用截词方法检索具有相同词干的检索词 顺序的范围检索。如PY=2009:2012 相当于 PY=(2009 or 2010 or 2011 or 2002) 使用多个字段限制时(wildness/ti,de,id)
A
B
逻辑“或”示意图 检索 A OR B 得到:
A B A B 同时存在
非(NOT)运算符
P
D 政治、法律
Q
E 军事
R
F 经济
S
G 文化、科学、教育、体育 T
H 语言、文字
U
I 文学
V
J 艺术
X
K 历史、地理
Z
自然科学总论
数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中图法》从大类到小类,层层展开,不 断细分,形成完整的知识体系。例如:
关键词语言
关键词是选自文献题目、文摘乃至正文中具 有实质意义的语词,是不受词表控制的非规 范化语言。 确定课题关键词的步骤
分析课题,提取概念 整理概念,扩充同义词汇 运用分析所得词汇试查,确定课题适用的关键词
3.4 检索技术/检索算符
布尔逻辑算符 字段限定 截词符 位置算符
1、布尔逻辑算符
规定检索词之间的逻辑关系的算符,称为 布尔逻辑算符。布尔逻辑算符包括:
广东工业大学信息检索教研室 Email: tsgwjs@gdut.edu.cn
目录
第1章 绪论 第2章 信息与信息资源 第3章 信息检索基础 第4章 国内学术信息资源 第5章 国外学术信息资源 第6章 专利与标准信息资源 第7章 免费学术信息资源获取 第8章 在线参考工具 第9章 文献管理软件 第10章 信息评价、分析与利用
分类语言也称分类法,它是用分类 号表达主题概念,依据知识分类将各主 题概念按学科性质进行分类和系统排列 成类目体系的标引语言。
•体系分类法
中国图书馆分类法 简称中图法
第四版
2010年8月 国家图书馆出版社
第五版
中图法简表
A 马克思主义、列宁主义、 N
毛泽东思想、邓小平理论
B 哲学、宗教
O
C 社会科学总论
I712.4 B232
I75 C144
确定课题分类号的方法
单概念课题:课题涉及的主题概念只有一个。
了解分类表的体系结构,重点掌握大类的分布; 由大而小,逐步查找最接近于课题要求的类号。
多概念课题:涉及两个或以上概念的课题。
并列概念课题:涉及同一研究对象的几个方面或者涉及几个 并列研究对象的课题,凡是有主次者,应取其重点或主要 研究对象归类。例如,“新闻宣传研究”,如果侧重于 “新闻”,在《中图法》中取“G212新闻采访和报道”。 应用性课题:研究一种理论、方法等在某方面应用或对某方 面影响的课题,应在所应用或受影响的类目中查找。例 如,“计算机在人口预测方面的应用”的中图法类号应归 入“人口预测”所在的类号“C923”。 上位类分类方法:欲查课题在分类表中无符合要求的专指类 目时,可以归入它的紧邻上位类。
有关互联网的知识分类为TP393.4 T 工业技术 TP 自动化技术 计算机技术 TP3 计算机技术 TP39 计算机的应用 TP393 计算机网络 TP393.4 国际互联网
T类
C 社会科学总论 C8 统计学
C91 社会学
C92 人口学 C93 管理学 C931 管理技术方法
.1
管理数学
.2
管理的方式方法
文摘的特点与作用
确定相关性,即帮助读者判断所检索到的文献是 否合乎需要,从而决定原始文献的取舍。 一定程度上代替原文。科技人员阅读了著录较为 详细的文摘之后,大体上就掌握了原文内容要 点,不必再阅读原文了。这一点,对于那些难索 取到原文的“难得文献”尤为重要。 大大节省了科技人员查找和阅读文献的时间。 帮助克服语言障碍。在一种检索工具中,无论原 始文献是什么语种,其文摘都被译为统一的一种 语言(一般为英语)。
3、分析检索概念
了解课题的背景知识
课题背景知识:
研究对象及其所属学科; 研究方法、材料工艺、应用领域、主要研究者等。
获取方式如:
询问专业人员; 阅读入门的相关文献(手册、百科全书、教科书、论文 等); 浏览网上相关信息。
3、分析检索概念
分析课题概念
主要概念
指课题研究的主要对象,包括:课题归属的专业学科名 称,涉及的具体原理、研究方法、材料工艺、应用领域等。 例如“甜味剂的过敏反应”,主要概念是“甜味剂”和 “过敏反应”
3、截词符
将检索词截断,用检索词的词干部分进行检索。
一般按截词位置,可分为后方截词、前方截词、中 间截词(后截断、前截断、中间截断;右截断、左 截断、嵌入式截断)
按截断字符数:可分为有限截词(在词尾加有限个 截词符号,n个截词符号表示其后可添的字符数少 于等于n个)、无限截词(在词尾加一个截词符 号,表示其后可添加任意多个字符)。
数据库中文摘例:
文摘必备的 著录项目
著者 摘要 篇名
出处
名词辨析:文摘和摘要
3.1 信息检索的原理、系统和效果评价
检索效果 指利用检索系统(或工具)开展检索服务 时所产生的有效结果。 克兰弗登 (Cranfield) 在分析用户基 本要求的基础上,提出了6项检索系统性 能的评价指标,分别是: 收录范围、查准率、查全率、响应时间、 用户负担、输出形式
检索系统/检索工具
搜索引擎
二次文献
数据库(目录/题录、文摘、索引、全文)
参考工具(字典、词典、百科全书等) 综述、述评等 三次文献
目录
目录的含义
是图书、期刊等出版物外表特征的揭示和报道。 是指导阅读和科学管理文献的重要手段。 文献的外表:特征(外部特征)包括题名、著者、 出处、卷期、页码、时间、文献类型、语种等 目录以完整的出版物(如一本书、一种期刊)作 为著录的基本单位,所以也可说是按某种顺序编 排的文献清单。如: 每个图书馆的馆藏目录,揭示该馆的馆藏情况 联合目录揭示多家图书馆的收藏情况
辅助概念
指一些没有专业意义的概念。 例如“新一代可降解塑料薄膜研究”中的“新一代”。
4、编制和调整检索式
什么是检索式
表达课题信息需求的检索表达式 一次完成或分步进行
检索式的组成 检索词 检索字段 检索算符
检索字段:文献信息的特征
又称:检索项、检索入口、 检索点、检索途径
4、编制和调整检索式
检索式实例
检索语言的类型(按信息资源的特征划分)
表述文献外表 特征的语言
题名(书名、刊名、篇名) 责任者(个人、机构名称) 号码(如专利号、标准号、报 告号、ISBN号、ISSN号等)
检索语言的类型
表述文献内容 特征的语言
分类法 主题法
体系分类法 组配分类法
标题词语言 单元词语言 叙词语言 关键词语言
分类语言
……
C933 C934 C935
领导学 决策学 管理计划和控制
C936 管理组织学
C939 应用管理学
如何在书库内准确找出一本书? 书架的顺序
A
B …… X
Z
综合图书
环境、安全科学
………… 哲学宗教 马列毛邓
书架上图书的排序
I712 L315
I712 L471
中图分类号
种次号,依据作者/时间取号
第3章 信息检索基础
本章内容
3.1 检索原理、检索系统和检索效果 3.2 检索步骤 3.3 检索语言 3.4 检索技术
3.1 检索原理、检索系统和检索效果
检索原理
一 次
信 息
信 息

信息 特征
特 征

标识
信 息 检
检 索


检 索
检 索

检索 提问
工 具

课 题


标识

3.1 检索原理、检索系统和检索效果
相关文档
最新文档