信息检索 第三章
第三章 信息检索基本知识
信息论的奠基人 申农在《通信的数学 理论》中把信息定义 为:“信息是用来消 除不确定的东西。”
控制论创始人
维纳在《信息控制论》 一书中指出:“信息是 人与外界相互作用过程 中相互交换的内容和名 称。”
―信息”的定义之所以呈现多样化,主要有三方 面的原因 : 第一,信息本身的复杂性。它是一个多元化、 多层次、多功能的综合物; 第二,信息科学是一门新兴学科,是一门“大” 学科,它有许多分支学科,它的内涵与外延 不很确切,而且随着社会、经济和科学技术 的发展处于不断发展之中; 第三,人们出于不同的研究目的或使用目的, 从不同的角度或层次出发,对“信息”必然 作出不同的理解与解释。
4.从信息观的角度理解,知识是人类通过信息 对自然界、生物界、人类社会运动规律的认识 和概括,是一种特定的人类信息,它是对信息 进行提炼、深化、抽象化、系统化的结果,是 信息中最有价值的部分。知识是信息的一部分。 知识必须要有充分、可靠的经验性证据, 并且要经过理性的合理加工。
(二)知识的特性 1.实践性 社会实践是一切知识产生的基础和检验知 识的标准,科学知识对实践有重大指导作用。 2.规律性 人们对事物的认识是一个无限的过程,人 们获得的知识在一定层面上揭示了事物及运动 过程的规律性。 3.渗透性 随着知识门类增多,各种知识可以相互渗透, 形成许多新的知识门类,形成科学知识的网状 结构体系。
四、文献 (一)文献的定义 1.国际标准化组织《文献情报术语国际标准》: 文献是存储、检索、利用或传递记录信息的过 程中,可作为一个单元处理的、在载体内、载 体上或依附载体而存储有信息或数据的载体。 2.国家标准《文献著录总则》:文献是记录有知 识的一切载体。 北大教授王子舟《图书馆学是什么》:是指专门 记录、传播有知识的一切载体。 南大教授沈固朝《信息检索(多媒体)教程》: 记录有人类精神信息的、且便于存贮或传递的 人工固态附载物
文献信息检索第3章 习题与答案
第3章图书信息资源利用1.图书馆的类型有几种?试比较实体图书馆和网上虚拟图书馆为读者所提供的服务功能有何不同。
答:图书馆的类型:按其存在形式可分为实体图书馆和虚拟图书馆;按其职能分为其他类型图书馆:公共图书馆、科学与专业图书馆、高等学校图书馆、国家图书馆和版本图书馆、军队图书馆、工会图书馆、社区图书馆等。
实体图书馆和虚拟图书馆的不同:实体图书馆有空间距离及固定开馆时间的限制,虚拟图书馆无时间空间限制,读者可以通过Internet进入图书馆,任意浏览或下载电子文献,获得所需信息。
虚拟图书馆不单介绍本馆情况,更重要的是作为网上服务的窗口,引导读者使用图书馆的资源和服务,并帮助读者以最快的速度获得所需的信息。
此外,图书馆还可以利用HomePage收集有关信息源的网址,建立学科信息导航系统,帮助读者在茫茫的网上电子信息世界中漫游、检索所需的文献信息(特别是各种免费资料)。
2.什么是数字图书馆?比较传统图书馆、数字图书馆、移动图书馆的区别。
答:数字图书馆的定义:数字图书馆是在网络环境下,利用数字化技术手段,使用规范化的方法,整理加工信息资源,供用户使用的机构。
传统图书馆、数字图书馆、移动图书馆的区别:1)从历史继承性来看,数字图书馆是传统图书馆的发展。
传统图书馆的藏书以纸质印刷书刊资料为主,服务以图书为中心,通过卡片目录反映馆藏信息,通过读者到馆借阅和送书上门传递信息,整个工作以手工操作为主。
数字图书馆则在许多方面有别于传统图书馆,即信息资源由过去的“以藏为主”变成了“藏用结合,以用为主”;信息服务由被动服务、单一服务变成了主动服务、综合服务;书目管理由卡片式变成计算机管理;读者借阅由封闭型变成开放型;信息资料的储存由单一的印刷型变成纸质图书、缩微、电子出版物和网络储存相结合的多元化方式。
2)从信息资源建设来看,传统图书馆是数字图书馆的基础。
数字图书馆作为一种信息环境,离不开各个具体图书馆和信息机构的支持。
第三章 信息检索的基本知识
1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
信息检索 第3章 中文主要信息资源检索系统
轻工 纺织
建筑 建材
环境 《环境科学文摘》
《馆目:环境污染与保护》
《汽车文摘》 《公路运输文摘》 《水陆运输文摘》 《造船文摘》 《中目:船舶工程》 《外目:造船工程》 交通 《中目:公路、水陆运输》 《铁道文摘》 运输 《中目:铁路》 《专利文献通报:汽车 》 《专利文献通报:包装、搬运、储存》 《外目:航空与航天》 《航空发动机文摘》 航天 《馆目:交通运输、航空航天》
WEB版(网上包库)、镜像站版、光盘版、流量计费。
四川农业大学图馆网站简介
◆
点击
各种类型的电子文献资源: 中外文期刊、图书及特种文献
读者查询 点击:
四、中国期刊全文数据库信息检索
1. 登录检索系统
鼠标接触
点击: 外网或本地镜像
CNKI中国知识资源总库
点击
选择单一数据库 或选择多个数据库进行跨 库检索
《电工文摘》 《中目:电力电工、原子能》 水利 《外目:电力》 《中目:水利水电》 电力 《外目:水利水电》 《中文电子科学文摘》 《电子科技文摘》 电子 《中国无线电电子科技文摘》 《计算机应用文摘》 学 《国外电子科学文摘》 《专科文献通报:电子技术》 《馆目:无线电电子学与自动化技术》
计算 《专利文献通报:计算机和信息存储》 机 《计算机应用文摘》 《中国纺织文摘》 《纺织文摘》 《皮革文摘》 《造纸文摘》 《中目:轻工、纺织》 《外目:轻工业》 《外目:粮油食品》 《外目:制糖工业》 《馆目:轻工、纺织》 《专利文献通报:纺织》 《专利文献通报:生活日用》 《专利文献通报:造纸、印刷、装帧》 《建筑机械文摘》 《中目:建筑工程》 《中目:建筑材料》 《外目:建筑材料》 《外目:建筑水利工程》 《馆目:建筑水利工程》 《城市文献通报》
现代信息检索教程第三章(中文10春)
检索方法 全国报刊索引》编排方式是按类编排, 《全国报刊索引》编排方式是按类编排,同时每期后 面附有著者索引, 面附有著者索引,因此该检索工具的检索途径主要有分 类途径和著者途径。 类途径和著者途径。 检索有关国内“音乐事业”的文献。 例:检索有关国内“音乐事业”的文献。 检索工具《全国报刊索引》哲社版2008 12期 2008第 ①检索工具《全国报刊索引》哲社版2008第12期 检索途径: ②检索途径:分类途径 检索过程:查分类目录,一级类艺术J ③检索过程:查分类目录,一级类艺术J,二级类为 J6音乐,其下又有三级类J69音乐事业,页码P295,翻 J6音乐 其下又有三级类J69音乐事业 页码P295, 音乐, 音乐事业, 到该处浏览, P295得 篇文献是切题的。 到该处浏览,在P295得3篇文献是切题的。 检索结果: 篇相关文献,顺序号为:081217152、 ④检索结果:得3篇相关文献,顺序号为:081217152、 081217153、 081217154。 081217153、 081217154。
返回目 录
4.其它重要百科全书 钱伯斯百科全书》 《钱伯斯百科全书》、《美国学术百科全 世界图书百科全书》 书》、《世界图书百科全书》、《计算机 科学与技术百科全书》、《柯克-奥斯莫化 科学与技术百科全书》 柯克工大全》)、《布罗克豪斯百科全书》 工大全》)、《布罗克豪斯百科全书》、 拉鲁斯大百科全书》 《拉鲁斯大百科全书》、《苏联大百科全 书 》 等。
返回目 录
百科全书(Encyclopedia) 二、百科全书(Encyclopedia) 百科全书是汇总浓缩人类所有知识门类或某一知 识门类的全部知识、 识门类的全部知识、按辞典形式编排的大型参考 工具书。以其知识广博、资料精确、释文严谨、 工具书。以其知识广博、资料精确、释文严谨、 文字简明、体例严密, 文字简明、体例严密,以及兼具多种参考工具书 功能的特质,被称为“工具书之王” 功能的特质,被称为“工具书之王”、“精简的 没有围墙的大学” 图书馆” 图书馆”、“没有围墙的大学”,是参考工具书 中最重要的类型, 中最重要的类型,已成为衡量一个国家科学文化 发展的尺度之一。 发展的尺度之一。
信息检索与利用-第三章
中国古代字书(字典、词典)
以字形为系——《说文解字》系统 继(东汉)许慎《说文解字》后,主要有晋吕忱《字林》、北魏江 式《古今文字》、南北朝梁顾野王《玉篇》、宋司马光的《类篇》、明 梅膺祚的《字汇》、清张自烈的《正字通》和张玉书等奉敕编纂的《康 熙字典》等。 以字音为系——韵书系统 韵书的特点是对汉字审音辨韵,依韵编排。主要有三国魏李登的 《声类》、晋吕静的《韵集》、南北朝梁周颙的《四声切韵》和沈约的 《四声谱》、隋陆法言的《切韵》、宋陈彭年等人的《广韵》和丁度等 人的《集韵》、金王文郁的《平水新刊礼部韵略》、元熊忠的《古今韵 会举要》、明乐韶风的《洪武正韵》、清李光地的《音韵阐微》等。 以字义为系——雅类系统 相传汉初学者缀辑周汉诸书旧文而成《尔雅》,是按事物性质将汉 字分门别类加以解释的字书,晋代郭璞和宋代邢昺为之注疏。有汉孔鲋 《小尔雅》和刘熙的《释名》(《逸雅》)、三国魏张揖《广雅》、宋 陆佃的《埤雅》和罗愿的《尔雅翼》、明朱谋玮的《骈雅》和方以智的 《通雅》、清吴王搢的《别雅》和史梦兰的《叠雅》等。
一、书 目
(二)书目的类型
古典书目:有官修书目、史志目录、私家书目、版本目录、推
荐书目等。 汉朝刘向在典校古籍时,撰有《别录》。后来,他的儿子刘歆以 《别录》为基础撰成《七略》,这是我国第一部分类目录。
一、书 目
现代书目:
1. 登记书目、通报书目、新书目录、推荐 性书目、书目之书目 2. 综合性书目、专题(学科)书目、地 方文献书目、个人著述目录 3. 馆藏目录、联合目录 4. 现行书目、回溯性书目、新书预告目 录、古籍目录 5. 图书目录、报纸目录、期刊目录、丛 书目录、方志目录、乐谱目录、非书资料目 录 6. 印刷型书目、机读目录、网络版书目
第三章 信息检索教程
举例:期刊2
23
期刊著录格式
24
期刊的著录
写出下面期刊文献著录:
25
小节练习1
1. 什么是文献著录? 2.文献著录的结果是—— 3. 既著录主要项目,还著录全部选择项目的著录级次称为—— 4. 既著录主要项目,还著录部分选择项目的著录级次称为——
26
3.2 机读目录与元数据
3.2.1 机读目录
43
3.2.3 都柏林核心元数据和机读目录的比较
1. 著录的对象不同
DC与 MARC的 3. 著录的主体不同 比较 4. 著录的详简程度不同
5. 标识的方法不同
2. 数据的形式不同
44
小节练习2
1、什么是机读目录,一条CNMARC机读目 录的组成? 2、头标区数据元素: 00123cbm1#2200277###52## 其中c、b、m、1分别表示什么? 3、什么是元数据?
12
图书的著录(参考文献著录规则)
13
14
图书著录中的文献类型标志
常用文献类型用单字母标识,具体如下: (1)期刊[J](journal) (2)专著[M](monograph) (3)论文集[C](collected papers) (4)学位论文[D](dissertation) (5)专利[P](patent) (6)技术标准[S](standardization) (7)报纸[N](newspaper article) (8)科技报告[R](report)
CNMARC记录
记录头标区
地址目次区
数据字段区
记录分隔符
注:各字段数据元素及其标准详细情况参见教材P83-87
33
ISO-2709的机读目录标准
信息检索课件第3章
文本信息检索的应用场景
01
02
03
搜索引擎
搜索引擎是文本信息检通过分析用 户历史行为和兴趣,为用 户推荐相关内容,如新闻 推荐、电商推荐等。
学术领域
学术领域中,研究人员可 以通过文本信息检索快速 查找相关论文、研究成果 等。
查询条件最相似的图像。
图像信息检索的关键技术
1 2
特征提取算法
特征提取算法是图像信息检索的核心技术之一, 常用的算法包括颜色直方图、SIFT、SURF等。
特征匹配算法
特征匹配算法用于比较不同图像之间的相似度, 常用的算法包括欧氏距离、余弦相似度等。
3
索引技术
索引技术可以提高图像信息检索的效率,常用的 索引技术包括哈希索引、B树索引等。
特征提取是视频信息检 索中的核心技术之中提取出关键帧和 图像特征,以便后续的 相似度计算和检索排序。
相似度计算是另一个关 检索排序是根据相似度 视频摘要技术则是对整
键技术,它通过比较不 计算结果,按照相关度 个视频内容进行概括和
同视频之间的特征信息, 对视频进行排序,以便 总结,以便用户快速了
图像信息检索的应用场景
搜索引擎
搜索引擎是图像信息检索 的重要应用场景之一,用 户可以通过搜索引擎查找 符合特定条件的图片。
电子商务
电子商务网站可以利用图 像信息检索技术为用户提 供更加精准的商品推荐服 务。
文化创意产业
在文化创意产业中,图像 信息检索技术可以帮助用 户快速查找相关艺术作品、 文物等。
THANKS.
智能化发展
利用人工智能技术提升信息检索的智 能化水平,如自然语言处理、深度学 习等。
个性化服务强化
通过更精细化的用户画像和个性化推 荐算法,提高信息检索的个性化服务 能力。
文献信息检索 第三章
The end
A
B
运算顺序:先算“ 然后是“ 运算顺序:先算“与”和“非”、然后是“或” 混合运算, 电脑) 混合运算, (计算机 OR 电脑) AND 软件 NOT 硬件
二、计算机信息检索技术-6
2.截词检索
前截词(后方一致)。 :?computer )。例 computer, ① 前截词(后方一致)。例:?computer, 可检索出computer mirocomputer, computer, 可检索出computer,mirocomputer, 后截词(前方一致)。 )。例 instruction? ② 后截词(前方一致)。例:instruction? 可检索出instruction instructions, instruction, 可检索出instruction,instructions, instructional 中间截词。 wom? 可检索出woman woman, ③ 中间截词。 例:wom?n,可检索出woman, women。 women。 colo???? ????r 可检索出colour colour, colour, colo????r,可检索出colour,colour, colonizer。 colonizer。 前后截词。 :?Plane Plane? ④前后截词。 例:?Plane? 可检索出 airoplane,planes, “airoplane,planes,plane
4.限制检索 为提高查全率和查准率, 为提高查全率和查准率,需要一些缩小或 约束检索结果的方法, 约束检索结果的方法,称之为限制检索 用这种方法可将检索过程限定在特定的范 或字段)中进行。 围(或字段)中进行。 前缀写法: JN=,LA= TI= =,LA (1)前缀写法:例:JN=,LA= TI= 后缀写法: /DE,/DF—叙词 叙词; (2)后缀写法:例:/DE,/DF 叙词;/ID, /IF—标引词;/TI――题目;/AB――文 标引词;/TI――题目;/AB―― /IF 标引词;/TI――题目;/AB――文 摘。
第三章 文献信息检索基本原理及方法
标题词语言关键词语言单词语言叙词语言检索语言
主题语言 由于不同概念相交就会 形成一个新概念, 形成一个新概念,这个 新概念是组配前各概念的 下位概念。 电子” 下位概念。如:“电子”和 信息”组配产生电子信息。 “信息”组配产生电子信息。 同级词间不同概念并 组配结果,可提高查准率。 组配结果,可提高查准率。 列也会形成一个新概 念,这个新概念是组配 前各概念的上位概念。 前各概念的上位概念。 数字计算机” 如“数字计算机”和“模 拟计算机” 拟计算机”组培后得 到“计算机”这一新的 计算机” 是不同级词间的组配, 是不同级词间的组配,是用 上位概念。组配结果, 上位概念。组配结果, 时间、 时间、空间和学科范围某一 提高查全率。 提高查全率。 方面的属性进行限定的一种 概念关系。 建筑物” 概念关系。如:“建筑物”为 主体事物, 设计” 主体事物,“设计”为某个方 组配结果被限定为“ 面,组配结果被限定为“建 筑物设计”这个新概念, 筑物设计”这个新概念,组配 结果可使检索到的文献专指度 和查全率提高。 和查全率提高。
3.1.1 文献信息检索的基本含义 一、文献信息检索的基本含义
“检索”即“查找”之意。信息检索,是将信息按照一定的方式 检索”即“查找”之意。信息检索 信息检索,是将信息按照一定的方式 组织、存储起来,并针对用户的需要查找所需信息的过程。因此信 息检索包含了信息的存储和检索两个不可分的部分。我们通常所说 的信息检索是指狭义的信息检索,即从检索工具和检索系统中查找 所需信息的过程及其所采取的一系列方法和策略。
手工检索和计算机检索的关系:手检是基础,机检是发展方向。 手工检索和计算机检索的关系:手检是基础,机检是发展方向。
3.1.2 文献信息检索的类型 按检索要求划分: 按检索要求划分: 相关性检索——是系统不直接回答用户所提出的 相关性检索 技术问题本身,而是只提供与之相关的文献供用 户参考。 确定性检索——是以数据或事实为检索对象,系 确定性检索 统要直接问答用户提出的技术问题,即直接提供 用户需要的确切的数据或事实。
第三章 网络信息检索
第三章网络信息检索第一节网络信息检索的基本方法1、布尔逻辑检索逻辑检索是一种比较成熟、较为流行的检索技术。
逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符,主要的运算符有:(1)逻辑―与‖逻辑―与‖用AND(或﹡)表示。
检索词A、B若用逻辑―与‖相连,即A AND B(A*B),则表示同时含有这两个检索词才能被命中。
例如,要检索儿童教育的文献,检索逻辑式可表示为:child AND education(2)逻辑―或‖逻辑―或‖用OR(或+)表示。
检索词A、B若用逻辑―或‖相连,即A OR B(A+B),则表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。
例如,要检索―计算机‖或―机器人‖方面的文献,检索逻辑式可表示为:computer OR robot. (3)逻辑―非‖逻辑―非‖用NOT(AND NOT,BUT NOT)(或-)表示。
检索词A、B若用―非‖相连,即A NOT B(A-B),则表示被检索文献在含有检索词A而不含有检索词B时才能被命中。
例如,要检索有关―能源‖方面的文献,但涉及―核能‖方面的文献不要,检索逻辑式可表示为:energy NOT nuclear(energy –nuclear)。
1、搜索引擎的定义搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,搜索引擎就是一种在因特网上查找信息的工具。
用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。
搜索引擎一般都有固定的显示格式,内容详简程度不一,常常带有URL、题名、标题、关键词、摘要(文本描述摘录)、超链接文件大小、检索结果总数、相关度估计、评论等。
搜索引擎的检索结果一般按查询的相关程度进行排列,最相关的通常排在最前面。
2、搜索引擎的常用检索方法(1)简单搜索(simple search)指输入一个单词(关键词),提交搜索引擎检索后反馈结果。
它也叫单词搜索。
信息检索第三章EI
印刷版EI 编排结构与著录
正文:即文摘部分,是EI的主体。由一些文摘 条目组成,并以规范主题词为标目。主题词取 自规范词表。1992年以前使用《工程标题词 表》,1993年起使用《EI叙词表》
印刷版EI (月刊、年刊) 索引
月刊索引:著者索引、主题索引
年刊索引:著者索引、主题索引、 工程出版物索引
附录
EI文摘正文著录格式
叙词
COMPUTER AIDED INSTRUCTION
文…摘…号…
文献篇名
文摘内容
009057 Current situations and future directions of
intelligent CAI research/development . This pa-per
• PL以连续出版物的缩写题名字母为序编排。
• 著录内容包括:连续出版物的缩写题名、连续出 版物的全称、计算机识别代码与ISSN号。 • PL的主要作用:通过EI文摘正文给出的刊名缩 写查找连续出版物(期刊)的全称,从而通过查 找馆藏目录,获取原文。
J Inf Image Manage① Journal of Information and image Management② JIIMDW③
第三章 外文检索工具
常用外文检索工具
美国《工程索引》 英国《科学文摘》 美国《科学引文索引》 美国《科技会议录索引》
3.1 美国《工程索引》EI
1 概述 2 印刷版EI编排结构与著录 3 EI标题词表与叙词表 4 EI检索方法及检索示例
EI 概 述
• 美国《工程索引》 (The Engineering Index),简称EI • 1884年创刊,由美国工程信息公司编辑
(网络资源与信息检索)第三章 期刊信息检索与获取
期刊图书信信息息的的检检索索与与获取获取
内容要点
❖一、期刊的基础知识 ❖二、期刊的检索与获取 ❖三、期刊论文的检索与获取
▪ (一)文献检索的程序 ▪ (二)手工检索工具 ▪ (三)期刊论文数据库 ▪ (四)文献检索效果评价
三、期刊论文信息的检索
要查找有关“搜索引擎个性化信息服务技 术”的文章或“民营企业人力资源管理”的资料 ,我们更多的是需要查找期刊论文信息。
样本 若课题属尖端技术:科技报告
分析检索课题
确定检索的时间范围 分析已知信息
比如知道某国在该领域处于领先,可以该国为 重点。
某科学家在该领域成就显著,可以以此人为检 索线索。
2.选择检索方法
常用法
- 顺查法 - 倒查法 - 抽查法
追溯法 综合法(也称分段法)
2.选择检索方法
常用法
✓ 顺查法 从远及近查,用于了解某一事物发展的全过程
般也很多。因此,只要针对发展高峰进行抽查,就能查 获较多的文献资料。
2.选择检索方法
要求查全----则用顺查法; 要求快、新----则用倒查法; 掌握了课题的发展阶段特点----则用抽查法。
2.选择检索方法
追溯法(引文法)
以文献后面附着的参考文献为线索而查找相关文献的一 种方法。在没有检索工具或检索工具不完整时可借助此获 得相关文献。
缺点:查全率、查准率较低,易误检漏检
2.选择检索方法
综合法(也称分段法)
又称循环法或分段法,是交替使用“追溯法”和“常用法 ”来进行检索的综合方法。即首先利用检索工具查出一批 文献资料,再利用这些文献资料所附的参考文献追溯查找 相关文献。如此交替、循环使用常用法和追溯法,不断扩 检,直到满足检索要求为止。 优点在于:当检索工具缺期、缺卷时,也能连续获得所需 年限以内的文献资料。
信息检索课件第三章
3.2.2 CNMARC数据字段区的构成 (二)字段
001 记录标识号; 100 通用处理数据; 101 文献语种(当文献存在语言文字时); 120 编码数据字段:测绘制图资料——一般性特征(仅限于测 绘制图资料); 123 编码数据字段:测绘制图资料——比例尺与坐标(仅限于 测绘制图资料); 125 编码数据字段:录音制品与印刷乐谱(仅限于乐谱等文 献); 191 编码数据字段:拓片(仅限于拓片资料); 200 题名与责任说明项(仅$a正题名为必备数据); 206 资料特殊细节项:测绘制图资料的数学数据(仅限于测绘 制图资料); 230 资料特殊细节项:电子资源特征(仅限于电子资源); 304 题名与责任说明附注(仅限于电子资源); 801 记录来源。 《信息存储与检索》
5. 若是“)”,则将 其紧前一个检索词所 在行的级位栏值加1; 若有多个“)”则级 位值连续减1
4. 若是“(”,则将 其后的检索词所在行 的级位栏值加1;若 有多个“(”则级位 值连续加1,级位初 值为0
《信息存储与检索》
3.3.1 表展开法 (2)展开表的生成
后处理算法:
1. 从最后一行条件满足指向栏往上推,如果遇 到空,则置入下面最临近的且级位小于该栏的 条件满足指向栏的内容,或最后一行条件满足 指向栏的内容 2. 从最后一行条件不满足指向栏往上推,如果 遇到空,则置入下面最临近的且级位小于或等于 该栏的条件不满足指向栏的内容,或最后一行条 件不满足指向栏的内容
《信息存储与检索》
3.3.1 表展开法 (2)展开表的生成 例:逻辑提问式(A+B)﹡(C+D)﹡E的展开表形式
地址
条件满足指向 条件不满足指向 级位 检索词代号 字段号 比较条件 检索词
第三章信息检索的基本理论
第三章信息检索的基本理论目的要求了解信息检索系统的概念;了解手工信息检索系统的类型;熟悉手工信息检索系统的结构;掌握手工信息检索系统的著录格式和常用的手工信息检索系统的信息检索方法。
掌握计算机信息检索系统的构成和类型;掌握信息检索语言的基本类型;掌握信息检索原理。
第一节信息检索系统一、信息检索系统的概述信息检索系统是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。
简单地说,信息检索系统即信息的存贮和检索的系统。
广义:信息检索系统是包括了从信息采集到检索全过程的服务体系。
狭义:信息技术系统就是用户检索信息时所使用的检索工具。
信息检索系统具有输入功能、存贮功能、处理功能、输出功能及控制功能。
根据信息存贮和检索所设备和手段的不同,信息检索系统可分为两大类型,即:手工信息检索系统和计算机信息检索系统。
目前,信息检索系统已从传统的手工检索系统发展到计算机网络信息检索系统。
二、手工信息检索系统1、手工信息检索系统的类型书本式检索工具(期刊式检索工具、单卷式检索工具、附录式检索工具)和卡片式检索工具。
期刊式检索工具:指在一个题名之下,定期连续发行的一种检索工具。
它具有及时性、连续性和稳定性的特点。
例如各种文摘杂志、索引刊物、连续的馆藏目录等。
这种形式的检索工具,及时反映新出版、新发表、新入藏的文献信息,它随着新文献的不断出现而不断连续出版,保持与文献的平行发展关系。
因此科研工作者为了掌握和了解本学科的科研动态,定期查阅期刊式检索工具是一种非常有效的方法。
同时由于期刊式检索工具的连续性的特点,不少期刊式检索工具,每到一定时间累积后,对于回溯检索极为方便。
单卷式检索工具:这种检索工具多数是以一定的专题内容而编印的,选题一般具有独立的意义。
它专业性强,收集的文献比较集中,往往积累反映一个相当长时间的文献,并以特定范围的读者作为对象。
单卷式检索工具收录文献一般比较全面系统,排列组织比较切合专业研究的需要,因此,对于专题文献检索比较方便,使用价值较高。
第三章文献信息检索的基本知识
第三章文献信息检索基本知识随着信息技术的发展,互联网的应用得到广泛普及,信息环境发生了相当大的变化,应用现代化技术手段获取各种信息、知识成为高等院校师生与广大科技工作者的一种必备知识和技能。
为此,首先就必须了解文献信息检索的基本知识。
第一节信息检索的基本原理一、信息检索的概念信息检索(Information Retrieval)全称为“信息存储与检索”(Information Storage and Retrieval),其概念有广义和狭义之分。
广义上认为,信息检索包括文献信息的存储和检索两个方面,即一个完整的信息检索系统由信息存储子系统和信息检索子系统两部分组成。
信息存储子系统:首先对一定数量的信息进行筛选,把能够描述文献信息的外部特征和内部特征进行加工、整理,使之有序化,形成信息特征标识集合,然后将之存储在某种载体上,编制成为检索工具或建立一个数据库。
信息检索子系统:根据信息用户的特定需求,对用户需求进行主题分析,利用一定的检索方法和检索技术,对存储子系统中的特征标识进行比对,把需要的文献线索或知识信息从系统中查找出来的过程,即信息检索。
这就是通常人们所说的信息检索过程,也就是狭义上的信息检索。
信息存储与信息检索是意义不同却又相互联系、相互依存、不可分割的两个过程。
信息存储是为了检索,信息检索又必须先有信息存储。
如果没有存储,检索就无法实现;没有检索,信息存储也就变得没有意义。
所以说存储是检索的前提和基础,检索是存储的目的。
信息检索系统的工作原理如图3-1所示。
图3-1 信息检索系统的工作原理二、 信息检索的类型信息检索可以按不同的划分标准划分为不同的类型。
(一)、 根据检索内容划分根据检索信息内容不同可划分为文献信息检索、事实信息检索和数据信息检索。
1、文献信息检索(document retrieval ):是以文献(包括目录、索引、文摘等二次文献或全文)为检索对象,查找有关文献的出处和收藏处等信息,都属于文献信息检索范畴。
信息检索第三章信息著录和标引
第三章信息著录和标引信息著录的含义和标准一、信息著录的含义信息著录:简称著录,指在组织检索系统时对文献内容和形式特征进行选择和记录的过程。
著录对象是信息,著录结果是款目或记录。
款目:指依据一定的标准方法,对一种文献或信息源的内容价值物质形态进行描述而形成的一条记录。
款目由一条条著录项目组成。
著录项目:用于揭示文献内容和形式特征的记录事项。
信息著录的基本要求:①准确性。
要求著录结果准确全面客观的揭示文献或其它信息源的内容特征或形式特征②规范化。
要求信息著录坚持标准化原则,按照统一的著录项目,著录格式,标识符号进行著录。
二、信息著录的作用1、揭示功能:信息著录主要反映的是文献本身的特征,通过对文献全面系统的分析,揭示出其内容特征和形式特征,将其浓缩于只言片语中,从而表达文献的基本信息。
2、组织功能:信息著录后形成的款目或记录,是编制目录的基础,也是组织数据库数据的基本单元。
文献编目包括信息著录和目录组织两步。
信息著录是对文献内容特征形式特征进行选择记录后形成款目或记录。
目录组织是将这些款目或记录按照一定组织规则编排在一起最终形成检索工具或数据库。
3、检索功能:存储是检索的第一个阶段,即将表达文献特征的有检索意义的标识通过记录组织成手工检索工具或计算机数据库,而表达文献特征的标识需要通过著录和标引来完成。
作为信息著录结果的款目或记录,记载了表达文献特征的各种标识。
三、信息著录的标准《文献著录总则》旨在根据各种类型文献的共同特点,确定文献著录原则、内容、标识符号、格式等的统一规定。
具有指导作用为信息著录提供原则性框架,并不作为文献著录的直接依据。
1、著录项目:①题名与责任者项②版本项③文献特殊细节项④出版发行项⑤载体形态项⑥丛编项⑦附注项⑧文献标准编号及有关记载项⑨提要项2、著录级次:著录文献的详简程度,分为三级:①简要级次,款目仅著录主要项目②基本级次,著录主要项目同时还著录部分选择项目③详细级次,著录全部主要项目和全部选择项目。
第三章 信息检索基本方法
3.2.3 截词检索
通常用“ *”表示无限阶段,用“?”表示有限阶 段。 无限截词符“*”,代表零至无数多个字母; computer* computer;computered ;computering; 有限截词符“?”,只能代表一个字母; teen? teens 例如: *chemi* chemical、chemist、chemistry、 electrochemistry、electrochemical、 physicochemical、thermochemistry
引文检索语言就是根据上述原理, 以引文为标识标引或检索文献,而 引文标识的全体就构成了引文检索 语言。 例如著名的《科学引文索引》 (SCI)、《社会科学引文索引》 (SSCI)、《艺术与人文科学引文索 引》(A&HCI)就是使用的这种引文 检索语言。
2.根据组配方式划分
先组式语言 事先用固定关系组配好,并编制在词表中, 标引人员和用户使用时必须根据词表选用 组配好的主题标识进行操作。例如体系分 类法和标题词法都属于此类。
(n)算符near:
(n)要求被连接的检索词必须紧密相连,词之间除 允许有空格、标点、连字符外,不得夹单词或字 母,词序不限; (Nn)表示两个检索词之间最多可以夹N个词(N为 自然数1、2、3…),且词序任意。 例如:information(n)retrieval
information retrieval 、 retrieval- information, economic(2n) recovery economic recovery 、 recovery from economic troubles
• •
•
引文途径
两种操作方法: 一是利用检索工具如SCI,通过被引用 文献入手,查找引用文献; 二是通过引用文献(来源文献)入手, 直接利用文献结尾所附的参考文献, 查找被引用文献。
第三章_信息检索步骤
在文章的发表过程中,可能存在着“二八定理”。对 该“领军人物”或课题组进行全方位检索,收获将很大。 因此在实际操作过程中我们除用关键词途径检索外,也可 根据自己已找到或导师推荐阅读的某相关文章的作者(研 究机构)进行搜索,通常同一作者(研究机构)研究的方 向都围绕一个中心,先看所著的一篇论文,然后再搜其他 的,得到的很可能就是所研究问题的延续或另外一种解决 办法。
第四步:评价信息
——在对不同信息源进行检索之后,取得的文献信 息数量可能相当庞大,内容也有相互重复甚至冲
突的地方。这就需要有一定的评价方法对信息进
行筛选,找到那些来源可靠,内容相关且详尽的
文献,剔除错误、过时、不相关的信息。
1
信息检索五步走
第五步:分析、利用信息
筛选后的检索结果来源广泛,内容涉及方方面面。如 何有效组织整理,以提炼出一个综合性的信息内容, 完成报告的编撰是这一步骤的主要工作。 此时选用相关的工具将检索结果有效组织,将极大减 少工作量。同时进一步通过阅读确定:哪些信息是切 合需要的?哪些信息表述内容之间存在冲突,需要进 一步考察?并依据相关规范正确引用文献资源,最终 形成文字性的研究成果。
信息获取的思路
如果需要查找中文文献则更为方便 中国知网、维普、万方都提供文摘检 索,收录量都比较大,为稳妥起见有条件 的也要每个库都检索一遍
3
信息获取的思路
对于没有条件检索以上文摘库的读者,一 个比较好的办法是在Google Scholar里查, 有线索了再去查全文 也可根据自己课题学科选择相应的几个全 文数据库进行检索
3
需要一 般性、数 据库无法 获取全文
网页
数据库
印刷型资源
但无论选择哪种方式 都是首先获取题录信息,然后获取全文这样一个过程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
25
4. 提问—回答式检索(Quiz & Answer Search)
1954年,美国海军军械中心(NOTS)利用IBM-701型电子计算机建
立了世界上第一个计算机信息检索系统,实现了单元词组配检索功 能。
1964年,美国国立医学图书馆(NLM)建立了以医学为主的信息检索 系统,这一时期可称为脱机检索时期。
1967年美国洛克希德公司的DLALOG系统研制成功 。
2014-3-4
32
4.2 选择合适的检索工具
4.21 依据 课题内容范围、检索工具的特点
2014-3-4
33
4.2选择合适的检索工具 4.22 方法
1、检索工具指南 2、浏览检索工具 3、熟悉的检索工具 4、向工作人员请教 5、网络在线选择
2014-3-4
34
4.2选择合适的检索工具 4.23 原则
信息检索系统中凡可供检索的字段都有倒排文档
19
数据库类型(按其内容分四种)
(1)题录、文摘型数据库(bibliographic database)它是一种 二次文献数据库。主要存贮相关主题领域的各类文献资料信 息,包括机读版的文摘、题录、目录、索引等。用户可从该 库的文献记录中筛选出所需文献,并依据记录提供的来源指 示获取一次文献。 如:Ei、ISTP、《中文期刊数据库(文摘题录)》等。 (2)全文数据库(full-text database)它是将一个完整的信息源 的全部内容转化为计算机可识别和处理的信息单元而形成的 数据集合,即机读化完整的一次文献,用户可直接检索出原 始文献,也可检索全文中的段、节、章等内容。 如:《中国学术期刊数据库(全文版)》、Elsevier、IEEE、 ASME等。
字段
记录
数据库
2014-3-4
14
每条记录由3种字段构成:
检索系统存取号:计算机识别码(AN) 基本索引字段:表达文献内容特征的字段 辅助索引字段:表达文献外表特征的字段
2014-3-4
15
检索系统的存取号(AN)
检索系统规定的能计算机被识别的记录号码 同一数据库中每篇文献记录只有一个存取号 存取号一般由6—9位数字组成
(3)事实型数据库(fact database) 该类数据库能直接向用户提供可用的数据(包括文字、图 形、图象、声音、计算机程序等)。如:百科全书、辞 典、手册、指南、地图集、人名录、企事业名录、计算 机程序、音乐等。 如:新华社多媒体数据库(新增)、中国资讯行等。 (4)数值型数据库(numeric database) 这类数据库主要提供来自原始文献的统计数据、调查数据 或经过处理的各种数据、数值表格。主要以数据形式记 录物质或材料的各种特性、参数、常数、价格等, 如:气象数据、地质资料、化学或物理化合物特性的文献 数据、财务数据、人口统计资料、市场调研数据等。
1971年美国国立医学图书馆建立了MEDLINE系统,计算机检索进 入联机检索期。
20世纪80年代中期光盘(CD-ROM)产品开始投放市场。
20世纪90年代,计算机信息检索系统跨入互联网新的阶段。
3
二、计算机信息检索技术的特征
速度快、效率高。
检索范围广
不受时空的限制
数据更新频率高
分类途径:分类目录/分类索引/族性检索 主题途径:主题索引/主题目录/主题词表/特征检索
2014-3-4
38
4.3 确定检索途径 4.32 以文献内容特征为检索途径 确定检索词的方法:
规范化词;国际上通用的词;隐性概念;核心概 念;联机选词; 注意检索词的缩写词、词形变化、英美不同拼法
23
2. 指令检索(Command Search)
指令检索是一种依靠各种指令来完成 操作的检索方法。检索指令包括检索过程 中所使用的功能键。指令检索一般适用于 有经验的用户。应用各种指令有助于用户 表达检索提问和进行各种方案的检索比较, 以获取比较理想的检索结果。
24
3. 浏览式检索 (Browsing Search)
28
二、计算机检索策略的制定
检索策略的制定是确定检索系统、检索文档、 检索途径和检索词,并科学安排各检索词之 间的位置关系和逻辑关系以及查找步骤。
制定检索策略之前,对目标数据库必须有比 较清醒的认识和了解,弄清检索课题的内容 要求和检索目的。
29
三、计算机检索策略的应用与调整
广泛地浏览数据库 选择合适的数据库试查
10
(二) 计算机信息检索系统的基本结构
1. 硬件部分 硬件是指以计算机主机为中心的一 系列机器设备,包括主机、外围设备 以及与数据处理或数据传送有关的其 他设备。
11
2. 软件部分
软件部分是信息检索系统中的有关程序和 各种文件资料的总称 。存取系统的软件一般包 括操作系统、数据库管理程序、编译程序与汇 编程序、自动标引程序、文件管理程序、词表 管理程序、SDI程序、回溯检索程序、记账统计 程序、通讯管理程序、总控程序等。
调整检索策略
利用检出文献的信息,拓宽检索
充分利用各种资源
30
第四节
信息检索步骤
1.分析检索课题明确检索需求(检索 准备) 2.选择合适的检索工具 3.选择(确定)检索途径 4.编制检索式 5.实施检索 6.筛选结果,索取原文
2014-3-4 31
4.1 分析检索课题明确检索需求 不同的检索课题,同一课题的不同研究 阶段的信息需求不一样。 检索目的、学科范围、主题概念、语种 范围、时间范围、文献类型、文献数量
2014-3-4
39
4.4 编制检索(提问)式
检索式是既能反映检索课题需求又能为计算机识 别的表达式 最简单的检索式由一个检索词构成 检索式 = 检索词 + 关系算符
2014-3-4
40
4.4.1布尔逻辑检索算符 4.4.2位臵检索算符 4.4.3截词检索算符 4.4.4字段揭示及限制算符 4.4.5其它符号
6
2. 信息组织管理
信息组织管理主要是指信息 标引的方法、组织方式和更新周 期。信息组织管理科学、实用、 合理与否,会直接关系到信息检 索的效果。
7
3. 系统功能
信息检索系统的功能取决于系 统所能提供的检索途径、检索方法。 信息检索系统功能的状况会在很大 程度上影响到检索的结果,例如词 表管理。
2014-3-4
16
基本索引字段
表达文献记录的内容特征的字段 篇名字段(Title Field,TI) 文摘字段(Abstract Field,AB) 叙词字段(Descriptor Field,DE) 自由标引词字段(Identifier Field,ID)
2014-3-4
2014-3-4
36
4.3 确定检索途径 4.31 以文献外部特征为检索途径
题名途径:书名/刊名/篇名 责任者途径:作者/编者/译者/专利权人/出版机构 号码途径:标准号/专利号/报告号/索取号
优点:以字顺或数字排列和检索,不易漏检
2014-3-4
37
4.3 确定检索途径 4.32 以文献内容特征为检索途径
计算机信息检索的策略 计算机检索策略的制定 计算机检索策略的应用与调整
27
一、计算机信息检索的策略
所谓检索策略,就是在分析课题内容具有哪些概念单元 的基础上,确定检索系统、检索文档、检索途径和检索 词,并科学安排各检索词之间的位置关系和逻辑关系以 及查找步骤等。
对一个检索课题来说,要达到什么目标,要求什么范围, 选择什么检索系统,通过什么途径、选用什么检索词和 逻辑组配方法以及需要哪些反馈等一系列问题的考虑与 安排,都属于检索策略的研究范畴。
2.逻辑“或”
用“or”、“+”或逗号表示。 在网络搜索引擎中习惯用逗号代替 “OR”。 它连接的检索词只要其中任何一个出现在结果中就能满足检索条件, 用来组配具有并列关系、概念相同或者相近的词。 【实例】在搜索引擎中输入“计算机,多媒体,Windows98”则查 询至少包含“计算机”、“多媒体”、“Windows 98”三者之一 的信息。
提问检索目标明确,技术规范,不仅检索速度 快,而且“查全率”和“查准率”比较高,适用 于大型检索系统,可以广泛应用与光盘数据库和 Web 网上的各类搜索引擎。提问 — 回答式检索可 以划分为基本检索、二次检索、词组检索、索引 词典检索、高级检索和综合检索等几种方式。
26
第三节 计算机检索的策略
计算机检索的策略主要内容为:
17
辅助索引字段
表达文献外表特征的字段
作者(AU)、 出版年份(PY)、语种(LA) 期刊名称(JN)、存取号(AN) 更新周期(UD)、文献类型(DT)
2014-3-4
18
一个数据库应至少包括一个顺排文档和一个倒排文档
顺排文档:数据库的全记录按存取号大小排列而成的文 档,相当于印刷型检索工具的正文部分。 倒排文档:以信息外表特征或内容特征标识而建立的有 序文档,相当于印刷型检索工具的索引部分。
1、收录的文献信息需含盖检索课题的主题内容 2、就近原则 3、质量高、信息量大、报道及时、索引齐全、使用方便 4、记录来源、文献类型、文种尽量满足课题要求 5、数据库是否有对应的印刷型版本 6、经济条件