文献检索基础知识(检索过程)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用布尔逻辑算符检索,是现代信息检索最常用的方法 三种逻辑算符: 与 and 或 or 非 not 例如:“RFID”and“校园管理”
3、截词检索
根据西文的构词特性,用截断的词的一个局部进行检索,并认为凡满足这个词局部的 所有字符串都为命中文献。 截词算符:不同检索系统不一样,一般用? 例: 后截词:comput?表示computer,computers,computing等 前截词:?computer表示minicomputer,mocrocomputer等 中截词:?comput?表示minicomputer,microcomputers等
主题语言 主题检索语言是直接以代表文献内容特征作为检索标识 , 并按其外部形式 ( 字顺)组织起来的一种检索语言。 如:如标题词,关键词等 第 17 页
第三讲 文献检索基础知识
五、信息资源检索技术
1、检索方法
顺查法
以课题的起始年代为起点,按时间顺序,由远及近系统地收集该课题的文献。 检索目的:了解该课题发展的全过程。 优点:漏检率低 缺点:工作量大
课堂讨论:
以学校图书馆为例,说明信息检索的概念、环节 以班级电子档案系统为例,说明信息检索的概念、环节
第 10 页
第三讲 文献检索基础知识
二、 信息资源检索(续)
2、信息资源检索的分类
按检索内容划分
文献检索——以文献为检索对象,包括: 书目检索——检索文献线索,如文献的目录、文摘等 全文检索——检索文献的全部(以图书或论文为例) 事实与数据检索——以数据为检索对象,例如: 山东省的人口 北京师范大学的位置 李叔同的出生年月 …
信息检索与学科热点 问题调研
2012年3月
第三讲 文献检索基础知识
(教材中第一、第二章内容)
2012年3月
第三讲 文献检索基础知识
一、信息资源概论
1、 信息资源的概念
数据:
从现实事物中抽象出来的,用来描述现实事物特征的符号。
信息:
定义1:是经过收集、记录、处理,以能检索的形式存储的数据 定义2:人们所感知和表述的事物运动的状态和方式。 … 定义n
按是否使用检索工具划分 直接检索 一次性文献检索,例如直接到书库中找书 间接检索 先利用检索工具获得文献线索,例如先通过索引库找到书的位置,再到书 库找书 按检索手段划分 手工检索 现代检索(借助计算机、网络等现代手段)
第 11 页
第三讲 文献检索基础知识
三、信息资源检索的基本原理
第 9 页
第三讲 文献检索基础知识
二、 信息资源检索
1、 信息资源检索的概念
信息检索:
将信息按一定的方式组织和存储起来,并根据用户需求找出相关信息的过程。
包含两个方面:
信息的组织和存储 信息查找
三个主要环节:
对信息内容进行分析和编码,产生信息记录和检索标识 组织和存储,将全部记录按文件、数据库的形式组成有序信息集合 根据特定检索提问,查找出需要的信息
检出的相关文献总数 a 查全率= 100 %= *100% 系统中的相关文献总数 ac
查准率
检出的相关文献总数 a 查准率= 100 %= *100% 检出文献总数 ab
用户相关性判断 相关文献 系统相关性预报 被检出文献 未检出文献 总计 a c a+c b d b+d a+b c+d a+b+c+d 非相关文献 总计
第 14 页
第三讲 文献检索基础知识
三、信息资源检索的基本原理(续)
2、检索效果评价(续)
例如:某一检索系统,有1000万条数据,其中含有“滨州市环境保护与治理”的文 献 2000条,在对该系统进行检索时,共检出数据 3000条,其中与“滨州市环境 保护与治理”相关的1500条,则: 查全率: =1500/2000=75% 查准率: =1500/3000=50% 影响查全率与查准率的因素(了解) 标引的影响 检索语言的影响 检索策略的优劣
1、基本原理
信息资源检索包括:
信息的存储 信息的存储:是将收集到的一次信息,经过著录其特征(题目、作者、关 键词等)而形成索引条目,将这些索引条目组织起来成为二次信息的过程 信息的检索 信息的检索:是针对已存储好的二次信息库,查找与某特定信息相匹配的 信息资源。 信息存储与检索所依据的规则必须一致。 信息检索语言:信息存储与检索共同遵循的规则称为信息检索语言 信息存储人员(标引者)与检索者要使用同一种信息检索语言 因此,信息检索的基本原理是 :通过对大量的、分散无序的文献信息进行搜集、加 工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检 索这两个基本过程所采用的特征标识达到一致,以便有效地获取和利用信息资源。 检索系统例:图书馆的书目和索引,计算机检索系统如cnki、万方数据、维普咨询 等
第 12 页
第三讲 文献检索基础知识
三、信息资源检索的基本原理(续)
1、基本原理(续)
信息检索原理图 手工检索例:图书馆书目和索引系统
计算机检索例:CNKI 第 13 页
第三讲 文献检索基础知识
三、信息资源检索的基本原理(续)
2、检索效果评价
检索效果: 用户向检索系统提交检索后,系统返回检索的结果的有效程度 评价检索效果的两个物理量是: 查全率
倒查法
从现在开始,由近及远,逆着时间顺序向前查找文献。检索重点在于近期文献,达到 目的为止。 检索目的:把握课题的最新进展 优点:快速获得该课题最新的资料 缺点:容易造成漏检
抽查法
以课题研究最活跃的年代为检索的时间段
引文追溯法
通过文章后面所列参考文献目录的线索,查找所需信息。
综合法
将几种检索方法综合利用
第 18 页
第三讲 文献检索基础知识
五、信息资源检索技术(续)
2、检索技术
1、检索词与检索式
检索词:表示文献特征的标题、作者、关键词等。如:“传感网”、“RFID”等 检索式:直接面对检索系统的检索条件表达式,是要求检索系统执行的检索语句。
2、布尔检索
第 8 页
第三讲 文献检索基础知识
一、信息资源概论(续)
2、信息资源的分类(续)
(3)按出版形式划分(续)
政府出版物 由各级政府出版发行的文献。例如政府法令、方正政策等 便于了解国家、各级政府的方针政策、发展规划、产业政策等 例:滨州市人民政府公报 政府网站: http://www.gov.cn/ http://www.sd.gov.cn/ http://www.binzhou.net/ 产品资料 产品说明书等 报纸 新闻报道、评论等 信息量大,实时性强。
第 15 页
ቤተ መጻሕፍቲ ባይዱ
第三讲 文献检索基础知识
四、信息资源检索语言
1、检索语言的概念(理解)
一个实例:我系教学档案库建设
我系教学档案库包含的内容:各年级教学计划、各年级课程表、各年级学生成绩、各 年级学生试卷、教师发表的文章、各类研究项目立项书、结项书、学生各类获奖、教 师各类获奖、… 我系教学档案库建设的目标:所有文档有序存储,以备以后随时调阅。例如:查一下 2010年我系学生在“齐鲁大学生软件设计大赛”活动中的获奖情况。 实现原则之一:制定一个文档分类方案,建立教学档案库时按照这个分类方案建设, 将来查阅时也按这个分类方案来查找 这个分类方案就是一种检索语言
标引人员依据检索语言对文献进行整理、加工、存储于检索系统中,检索人员 依据检索语言从检索系统中查找自己要的信息
第 16 页
第三讲 文献检索基础知识
四、信息资源检索语言(续)
2、检索语言的分类 分类语言——按学科性质进行分类并排序 例:中国图书分类法共有二十二个基本大类,每个大类都用一个英文字母 表示。如下所示: A 马列主义、毛泽东思想、邓小平理论 B 哲学 宗教 C 社会科学总论 D 政治 法律 E 军事 F 经济 G 文化 科学 教育 体育 H 语言 文字 I 文学 J 艺术 K 历史 地理 • • • • • • • • • • • N 自然科学总论 O 数理科学 化学 P 天文学 地球科学 Q 生物科学 R 医药卫生 S 农业科学 T 工业技术 U 交通运输 V 航空 航天 X 环境科学 劳动保护科学 Z 综合性图书
第三讲 文献检索基础知识
一、信息资源概论(续)
2、 信息资源的分类(续)
(2)按载体形式划分
印刷型 存储介质:纸张 优点:直接阅读 缺点:存储密度小,体积大 缩微型 存储介质:胶卷等 优点:存储密度大,体积小 缺点:借助特定设备阅读 音像型 利用录音、录像等技术,直接将声音、图象等记录下来。 如:音像磁带、唱片等 这里主要指模拟信号 电子型 以数码方式将各种信息存储在磁、光、电介质上。这是目前大量使用的 如:磁盘、光盘等 是数字信号
第 4 页
第三讲 文献检索基础知识
一、信息资源概论(续)
讨论:
以下几种信息资源按加工层次划分分别属于几次信息资源?
我系某位老师在《计算机工程》杂志上发表的一遍论文 09级通信班某位同学向07级某同学要来的《通信原理》课程考研笔记 滨州学院年鉴 中国《发明专利公报》
第 5 页
第 7 页
第三讲 文献检索基础知识
一、信息资源概论(续)
2、 信息资源的分类(续)
(3)按出版形式划分(续) 学位论文 博士论文(举例) 硕士论文(举例) 学士论文(举例) 标准文献 人们在科研和生产过程中所遵循的共同的技术依据和原则,要经过权威机 构验证和批准。 按使用范围可分为国际标准、国家标准、行业标准、企业标准等 谁掌握了标准,谁就掌握了话语权。一流企业做标准,二流企业做技术, 三流企业做产品 国家标准化委员会:http://www.sac.gov.cn 全国信息技术标准化委员会:http://www.nits.gov.cn/ 例: 软件开发类国家标准 软件工程国家标准
信息资源:
信息的内容以及与信息内容相关的: 信息技术——数据库技术、网络技术、搜索引擎等 人员——信息系统开发人员、信息系统管理人员、图书管理人员等 设备——微机设备、网络设备等
第 3 页
第三讲 文献检索基础知识
一、信息资源概论(续)
2、 信息资源的分类
(1)按加工层次划分
第 6 页
第三讲 文献检索基础知识
一、信息资源概论(续)
2、 信息资源的分类(续)
(3)按出版形式划分
图书 优点:系统、全面 缺点:出版周期长,传递信息慢。例如计算机图书 期刊 优点:周期短,信息量大(学术论文举例) 科技报告 研究人员经过对某个专题进行研究后撰写的研究报告。 有密级,发行范围严格控制 会议文献 在各类学术会议上产生的会议论文集 比期刊还能及时的反映最新学术动态 专利文献(举例) 将科技信息与法律信息融为一体的,具有明显知识产权特征的文献资料 专利类型:发明专利、实用新型专利、外观设计专利
一次信息资源 未经他人加工和组织的,已公开发行的,作者的研究或工作成果为基础而创作形成的 信息资源, 例如:期刊论文、会议论文、图书等。也称为“原始文献”。 一次信息资源特点是:详细、无序,是最基本的信息源和检索对象 二次信息资源 对一次信息资源进行加工,使之有序化而形成的信息资源。 例如:索引、文摘等 二次信息资源的特点是:有序化,容易被检索 三次信息资源 对一、二次信息资源进行综合分析、评价,进一步综合、浓缩形成的信息资源。 例如:词典、年检、百科全书等 三次信息资源的特点是:高度综合、信息量大。 零次信息资源 非公开发行的信息资源(以上一、二、三次信息资源均指公开发行的信息资源)。 例如:手稿、笔录等。
检索语言:
表达1:人们在加工、存储、检索信息时所使用的一种规则、标识符号等。 表达2:根据信息检索的需要创造出来的一种人工语言,是在文献检索领域中用来描述 文献特征和表达信息检索提问的一种专用语言。检索语言是一种受控语言,它依据一 定的规则对自然语言进行规范,将其编制成表,供信息标引以及检索时使用
3、截词检索
根据西文的构词特性,用截断的词的一个局部进行检索,并认为凡满足这个词局部的 所有字符串都为命中文献。 截词算符:不同检索系统不一样,一般用? 例: 后截词:comput?表示computer,computers,computing等 前截词:?computer表示minicomputer,mocrocomputer等 中截词:?comput?表示minicomputer,microcomputers等
主题语言 主题检索语言是直接以代表文献内容特征作为检索标识 , 并按其外部形式 ( 字顺)组织起来的一种检索语言。 如:如标题词,关键词等 第 17 页
第三讲 文献检索基础知识
五、信息资源检索技术
1、检索方法
顺查法
以课题的起始年代为起点,按时间顺序,由远及近系统地收集该课题的文献。 检索目的:了解该课题发展的全过程。 优点:漏检率低 缺点:工作量大
课堂讨论:
以学校图书馆为例,说明信息检索的概念、环节 以班级电子档案系统为例,说明信息检索的概念、环节
第 10 页
第三讲 文献检索基础知识
二、 信息资源检索(续)
2、信息资源检索的分类
按检索内容划分
文献检索——以文献为检索对象,包括: 书目检索——检索文献线索,如文献的目录、文摘等 全文检索——检索文献的全部(以图书或论文为例) 事实与数据检索——以数据为检索对象,例如: 山东省的人口 北京师范大学的位置 李叔同的出生年月 …
信息检索与学科热点 问题调研
2012年3月
第三讲 文献检索基础知识
(教材中第一、第二章内容)
2012年3月
第三讲 文献检索基础知识
一、信息资源概论
1、 信息资源的概念
数据:
从现实事物中抽象出来的,用来描述现实事物特征的符号。
信息:
定义1:是经过收集、记录、处理,以能检索的形式存储的数据 定义2:人们所感知和表述的事物运动的状态和方式。 … 定义n
按是否使用检索工具划分 直接检索 一次性文献检索,例如直接到书库中找书 间接检索 先利用检索工具获得文献线索,例如先通过索引库找到书的位置,再到书 库找书 按检索手段划分 手工检索 现代检索(借助计算机、网络等现代手段)
第 11 页
第三讲 文献检索基础知识
三、信息资源检索的基本原理
第 9 页
第三讲 文献检索基础知识
二、 信息资源检索
1、 信息资源检索的概念
信息检索:
将信息按一定的方式组织和存储起来,并根据用户需求找出相关信息的过程。
包含两个方面:
信息的组织和存储 信息查找
三个主要环节:
对信息内容进行分析和编码,产生信息记录和检索标识 组织和存储,将全部记录按文件、数据库的形式组成有序信息集合 根据特定检索提问,查找出需要的信息
检出的相关文献总数 a 查全率= 100 %= *100% 系统中的相关文献总数 ac
查准率
检出的相关文献总数 a 查准率= 100 %= *100% 检出文献总数 ab
用户相关性判断 相关文献 系统相关性预报 被检出文献 未检出文献 总计 a c a+c b d b+d a+b c+d a+b+c+d 非相关文献 总计
第 14 页
第三讲 文献检索基础知识
三、信息资源检索的基本原理(续)
2、检索效果评价(续)
例如:某一检索系统,有1000万条数据,其中含有“滨州市环境保护与治理”的文 献 2000条,在对该系统进行检索时,共检出数据 3000条,其中与“滨州市环境 保护与治理”相关的1500条,则: 查全率: =1500/2000=75% 查准率: =1500/3000=50% 影响查全率与查准率的因素(了解) 标引的影响 检索语言的影响 检索策略的优劣
1、基本原理
信息资源检索包括:
信息的存储 信息的存储:是将收集到的一次信息,经过著录其特征(题目、作者、关 键词等)而形成索引条目,将这些索引条目组织起来成为二次信息的过程 信息的检索 信息的检索:是针对已存储好的二次信息库,查找与某特定信息相匹配的 信息资源。 信息存储与检索所依据的规则必须一致。 信息检索语言:信息存储与检索共同遵循的规则称为信息检索语言 信息存储人员(标引者)与检索者要使用同一种信息检索语言 因此,信息检索的基本原理是 :通过对大量的、分散无序的文献信息进行搜集、加 工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检 索这两个基本过程所采用的特征标识达到一致,以便有效地获取和利用信息资源。 检索系统例:图书馆的书目和索引,计算机检索系统如cnki、万方数据、维普咨询 等
第 12 页
第三讲 文献检索基础知识
三、信息资源检索的基本原理(续)
1、基本原理(续)
信息检索原理图 手工检索例:图书馆书目和索引系统
计算机检索例:CNKI 第 13 页
第三讲 文献检索基础知识
三、信息资源检索的基本原理(续)
2、检索效果评价
检索效果: 用户向检索系统提交检索后,系统返回检索的结果的有效程度 评价检索效果的两个物理量是: 查全率
倒查法
从现在开始,由近及远,逆着时间顺序向前查找文献。检索重点在于近期文献,达到 目的为止。 检索目的:把握课题的最新进展 优点:快速获得该课题最新的资料 缺点:容易造成漏检
抽查法
以课题研究最活跃的年代为检索的时间段
引文追溯法
通过文章后面所列参考文献目录的线索,查找所需信息。
综合法
将几种检索方法综合利用
第 18 页
第三讲 文献检索基础知识
五、信息资源检索技术(续)
2、检索技术
1、检索词与检索式
检索词:表示文献特征的标题、作者、关键词等。如:“传感网”、“RFID”等 检索式:直接面对检索系统的检索条件表达式,是要求检索系统执行的检索语句。
2、布尔检索
第 8 页
第三讲 文献检索基础知识
一、信息资源概论(续)
2、信息资源的分类(续)
(3)按出版形式划分(续)
政府出版物 由各级政府出版发行的文献。例如政府法令、方正政策等 便于了解国家、各级政府的方针政策、发展规划、产业政策等 例:滨州市人民政府公报 政府网站: http://www.gov.cn/ http://www.sd.gov.cn/ http://www.binzhou.net/ 产品资料 产品说明书等 报纸 新闻报道、评论等 信息量大,实时性强。
第 15 页
ቤተ መጻሕፍቲ ባይዱ
第三讲 文献检索基础知识
四、信息资源检索语言
1、检索语言的概念(理解)
一个实例:我系教学档案库建设
我系教学档案库包含的内容:各年级教学计划、各年级课程表、各年级学生成绩、各 年级学生试卷、教师发表的文章、各类研究项目立项书、结项书、学生各类获奖、教 师各类获奖、… 我系教学档案库建设的目标:所有文档有序存储,以备以后随时调阅。例如:查一下 2010年我系学生在“齐鲁大学生软件设计大赛”活动中的获奖情况。 实现原则之一:制定一个文档分类方案,建立教学档案库时按照这个分类方案建设, 将来查阅时也按这个分类方案来查找 这个分类方案就是一种检索语言
标引人员依据检索语言对文献进行整理、加工、存储于检索系统中,检索人员 依据检索语言从检索系统中查找自己要的信息
第 16 页
第三讲 文献检索基础知识
四、信息资源检索语言(续)
2、检索语言的分类 分类语言——按学科性质进行分类并排序 例:中国图书分类法共有二十二个基本大类,每个大类都用一个英文字母 表示。如下所示: A 马列主义、毛泽东思想、邓小平理论 B 哲学 宗教 C 社会科学总论 D 政治 法律 E 军事 F 经济 G 文化 科学 教育 体育 H 语言 文字 I 文学 J 艺术 K 历史 地理 • • • • • • • • • • • N 自然科学总论 O 数理科学 化学 P 天文学 地球科学 Q 生物科学 R 医药卫生 S 农业科学 T 工业技术 U 交通运输 V 航空 航天 X 环境科学 劳动保护科学 Z 综合性图书
第三讲 文献检索基础知识
一、信息资源概论(续)
2、 信息资源的分类(续)
(2)按载体形式划分
印刷型 存储介质:纸张 优点:直接阅读 缺点:存储密度小,体积大 缩微型 存储介质:胶卷等 优点:存储密度大,体积小 缺点:借助特定设备阅读 音像型 利用录音、录像等技术,直接将声音、图象等记录下来。 如:音像磁带、唱片等 这里主要指模拟信号 电子型 以数码方式将各种信息存储在磁、光、电介质上。这是目前大量使用的 如:磁盘、光盘等 是数字信号
第 4 页
第三讲 文献检索基础知识
一、信息资源概论(续)
讨论:
以下几种信息资源按加工层次划分分别属于几次信息资源?
我系某位老师在《计算机工程》杂志上发表的一遍论文 09级通信班某位同学向07级某同学要来的《通信原理》课程考研笔记 滨州学院年鉴 中国《发明专利公报》
第 5 页
第 7 页
第三讲 文献检索基础知识
一、信息资源概论(续)
2、 信息资源的分类(续)
(3)按出版形式划分(续) 学位论文 博士论文(举例) 硕士论文(举例) 学士论文(举例) 标准文献 人们在科研和生产过程中所遵循的共同的技术依据和原则,要经过权威机 构验证和批准。 按使用范围可分为国际标准、国家标准、行业标准、企业标准等 谁掌握了标准,谁就掌握了话语权。一流企业做标准,二流企业做技术, 三流企业做产品 国家标准化委员会:http://www.sac.gov.cn 全国信息技术标准化委员会:http://www.nits.gov.cn/ 例: 软件开发类国家标准 软件工程国家标准
信息资源:
信息的内容以及与信息内容相关的: 信息技术——数据库技术、网络技术、搜索引擎等 人员——信息系统开发人员、信息系统管理人员、图书管理人员等 设备——微机设备、网络设备等
第 3 页
第三讲 文献检索基础知识
一、信息资源概论(续)
2、 信息资源的分类
(1)按加工层次划分
第 6 页
第三讲 文献检索基础知识
一、信息资源概论(续)
2、 信息资源的分类(续)
(3)按出版形式划分
图书 优点:系统、全面 缺点:出版周期长,传递信息慢。例如计算机图书 期刊 优点:周期短,信息量大(学术论文举例) 科技报告 研究人员经过对某个专题进行研究后撰写的研究报告。 有密级,发行范围严格控制 会议文献 在各类学术会议上产生的会议论文集 比期刊还能及时的反映最新学术动态 专利文献(举例) 将科技信息与法律信息融为一体的,具有明显知识产权特征的文献资料 专利类型:发明专利、实用新型专利、外观设计专利
一次信息资源 未经他人加工和组织的,已公开发行的,作者的研究或工作成果为基础而创作形成的 信息资源, 例如:期刊论文、会议论文、图书等。也称为“原始文献”。 一次信息资源特点是:详细、无序,是最基本的信息源和检索对象 二次信息资源 对一次信息资源进行加工,使之有序化而形成的信息资源。 例如:索引、文摘等 二次信息资源的特点是:有序化,容易被检索 三次信息资源 对一、二次信息资源进行综合分析、评价,进一步综合、浓缩形成的信息资源。 例如:词典、年检、百科全书等 三次信息资源的特点是:高度综合、信息量大。 零次信息资源 非公开发行的信息资源(以上一、二、三次信息资源均指公开发行的信息资源)。 例如:手稿、笔录等。
检索语言:
表达1:人们在加工、存储、检索信息时所使用的一种规则、标识符号等。 表达2:根据信息检索的需要创造出来的一种人工语言,是在文献检索领域中用来描述 文献特征和表达信息检索提问的一种专用语言。检索语言是一种受控语言,它依据一 定的规则对自然语言进行规范,将其编制成表,供信息标引以及检索时使用