信息检索原理与技术考试大纲重点整理培训讲学
信息检索复习提纲总结
第一章信息检索导论(1)信息的概念是什么?概念:信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。
(2)信息素质的定义及其构成要素分别是什么?定义:信息素质是人们能够敏锐地察觉信息需求,并能对信息进行检索、评价和有效利用的能力。
构成要素:信息意识,信息能力,信息道德(3)信息环境特征信息超载严重,信息失衡明显,信息污染成灾,信息障碍加剧,信息犯罪增多(4)熟悉文献信息资源的划分方式,以及在不同划分方式下文献的表现形式从文献的物质载体特征:印刷型文献,缩微型文献,声像型文献,机读型文献从文献信息的表现形态:1.图书2.期刊 3.报纸 4.学位论文 5.会议文献 6.专利文献 7.标准文献 8.科技报告 9.政府出版物10.产品资料 11.其他文献从文献信息被加工的详略程度:一次文献是基础,是检索利用的对象,二次文献是检索一次文献的工具,三次文献是一次文献内容的高度浓缩(5)掌握文献检索的含义、文献检索系统的分类(6)了解常用的文献检索方法引文法——追溯法系统法——工具法引文法-系统法交替法——循环法(7)熟练运用常规的检索技术(布尔逻辑检索、截词检索、位置检索、限定检索)常用检索技术及其作用布尔逻辑检索截词检索位置检索限定检索如physic* 可检出的词汇有:physic, physical, physically,physician, physicians, physicist, physicists, physics如physic??可检出的词汇有:physic, physical, physics(8)了解提高信息检索效果的主要措施1.检索结果多时使用“AND”缩小检索范围2.检索下位词时不使用上位词3.使用“NOT”将不需要的检索标识排除4.使用位置符限定检索标识的位置5.使用限定符限定检索标识所在字段第二章常用国内全文数据库1、掌握中文全文数据库的常见类型电子图书数据库, 电子期刊数据库学位论文数据库中国专利文献数据库中国标准文献检索中国学术会议文献检索事实型数据库2、熟练操作常用的中文电子图书数据库选择检索项SU=主题TI=题名KY=关键词CF=被引频次FT=全文AU=作者AF=机构CLC=中图分类号RF=引文YE=年SN=ISSN CN=统一刊号IB=ISBN FU=基金AB=摘要FI=第一责任人JN=中文刊名&英文刊名3、熟练操作常用的中文电子期刊数据库4、掌握中文学位论文数据库的使用方法5、了解专利相关知识(包括专利概念、类型、特点、专利号等)以及专利文献数据库的使用专利的概念:专利是指国家授予发明创造申请人在一定时间内的对发明创造拥有的专有权利。
信息检索与利用考试复习大纲(1)
信息检索与利用考试复习大纲1、信息素养的内涵狭义上的定义认为信息素养是指具有应付和适应信息技术的能力;广义的信息素养是指关于检索和利用各种信息源以解决信息需求的能力,要求具有发现、评价、利用以及交流知识的能力。
具备信息素养的人必须渴望知道某种知识或某个问题的答案,必须能够利用分析技能系统提出问题,必须能够识别研究方法,必须能够利用批判性技能对信息进行评价。
更有学者认为信息素养是人文素质的一部分,是人文社会的信息知识、信息意识、接受教育、环境因素等所形成的一种稳定的、基本的、内在的个性和心理品质。
纵观国内外关于信息素养的定义,我们可以总结出一些共同的内容:①确定自己的信息需求;②明智地选择信息资源;③有效和高效地检索信息;④评价与选择信息;⑤能够利用多种媒介;⑥有效地将信息传递给他人;⑦了解与信息检索、利用相关的法律、道德、伦理问题。
信息素养的培养主要从信息意识,信息道德,信息能力几个方面进行。
2、信息、情报和文献的定义文献:记录有信息或知识的一切载体。
情报:为一定目的而搜集和传递的有特定效用的知识。
信息:是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。
情报的三个基本属性是什么?知识性、传递性、效用性3、构成文献的四要素是什么?知识内容、物质载体、记录符号、记录手段4、按文献的出版形式和内容划分为几种类型?文献信息按出版形式的不同可划分为图书、期刊、报纸和特种文献。
(图书、期刊、报纸、专利信息、标准、学位论文、科技报告、会议信息、政府出版物、产品样本资料、技术档案)其中哪些类型可称为特种文献?特种文献:科技报告、会议文献、专利文献、标准文献、学位论文、政府出版物、产品资料、技术档案5、文献按载体形式可划分为几种类型?(手写型、印刷型、缩微型、声像型、机读型)6、一些文献类型的特征号码ISBN,ISSN,CN,GB2763-1981,GB/T各表示什么?ISBN:国家标准书号的简称;ISSN:国家标准刊号;CN:国内统一刊号简称;GB2763-1981:粮食、蔬菜等食品中六六六、滴滴涕残留量标准;GB/T:我国的国家推荐型标准。
(完整版)信息检索考试重点
新
hing at a time and All things in their being are good for somethin
(二)
1、什么是检索工具?它的主要作用是什么? 答:检索工具是用来存储、报道和检索一次文献的工具,属于二次文献。 主要作用:报导作用、累计作用、查询作用、选择作用。 2、目录、题录、索引、文摘、文献指南各有那种类型? 答:目录可以分为国家目录、馆藏目录、联合目录、出版社与书商目录和专题目录。 题录的类型一般都是用代号表示。 索引类型可分为篇目索引和内容索引 文摘按其内容的详简程度可以分为指示性文摘和报道性文摘;按其适用对象可以分为一 般性文摘和倾向性文摘;按内容性质可以分为综合性文摘和专业性文摘。 文献指南主要介绍该科学和专题的主要文献类型。 3、什么是参考工具书?它有哪些主要作用? 答:参考工具书是根据一定的社会需要,广泛汇集某一范围的知识材料,按一定方式加以 编排,专供人们解释疑惑的特定类型的出版物。 作用:查字词、查事项、查人物、查机构、查产品、查物名、查地名、查年代、查数据。 4、字典和词典、百科全书、年鉴、名录、图录有哪些主要类型? 答:字典类型一般分为两种:○1 详解词典○2 专门词典。 词典从语种文别角度分为:○1 单语言辞典○2 多语言辞典。 从词量规模角度:○1 大型词典○2 中型词典○3 小型词典。 从收录内容角度:○1 百科全书○2 语文词典○3 专门词典。 百科全书分为两种类型:一类是概括人类一切门类知识,包括哲学、社会科学、自然科学 和应用科学等所有门类知识的综合性百科全书。另一类是指内容只收内容某一学科或某个 门类、某个专业的知识信息的专科性百科全书。 年鉴类型分为综合性年鉴、专业性年鉴、统计性年鉴。 名录类型分为人名录、地名录、物名录、机构名录。 图录类型分为地图录、科学技术用图集、历史图谱、文物图谱及人物图录。 (三)
信息检索课程重点整理
信息检索课程重点整理一、信息概念:物质存在方式和运动状态的反应,在发生源和吸收源之间,当发生源发出的信号被吸收源所理解,信号就成为信息。
特征:预先性、实用性、时效性、可传递性、共享性。
传递渠道:1、非正式过程(表现为个人的行为特征。
对话、通信、演讲、授课);2、正式过程(表现为文献流通。
借助文献系统进行正式交流)。
文献概念:大凡人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统统可称为文献。
也可以称为固化在一定载体上的知识。
必须含有知识、记录方式、载体。
资料概念:固化在一定的实物或载体上的知识。
二、信息的类型:1、按信息的加工层次划分:一次信息(原始文献)、二次信息(检索工具)、三次信息(参考性文献)。
P42、按信息载体的出版编辑特点划分:十二大文献源。
P53、按信息载体的物理类型划分:印刷型、缩微型、电子型、声像型。
P64、按信息的性质划分:一、自然信息(自然界发出的信息,以自然物为载体);二、社会信息(经过人类利用语言、文字、符号、图像等方式加工过的自然信息)。
5、按信息所表征的服务对象划分:经济信息、科技信息、教育信息、军事信息、商业信息、金融信息、综合信息。
三、信息检索的定义及类型p2信息检索,就是从大量的文献中查寻与信息提问所指定的课题(对象)有关的文献,或者是包含用户所需事实与消息的文献的过程。
它包括三个方面:数据检索、事实检索、文献检索。
三者中以文献检索为主。
数据和事实检索是检索出包含在文献中的具体情报;文献检索则是要检索出包含所需要情报的文献。
四、文献检索的定义及类型p3定义:1、检索系统的建立及检索工具的组织和积累;2、文献的查寻,利用检索工具检出与课题相关的文献。
类型:直接检索:是从通过阅读原始文献直接获取所需信息;快捷、方便;漏查率高。
间接检索:是通过检索工具的指导再查找原始文献而获取所需信息。
系统、全面:滞后。
五、检索工具定义、具备条件及类型检索工具是按一定的学科、主题等进行搜集整理并给予文献的标志,是及时报道的二次文献,具有报道、存贮、检索的功能。
信息检索提纲
注:考试时,务必带上2B铅笔、橡皮擦,签字笔。
信息检索复习提纲注:本提纲有部分答案较多的题目没打出来,请自己按照页数查找书本第一章绪论1、信息素养的概念、具体内容(内涵)答:信息素养的内涵:信息道德、信息能力(信息素养的核心)、信息知识、信息意识2、搜商的概念答:狭义:人们运用搜索引擎的能力广义:运用物质工具进行搜索的能力最广义:人们所有搜索行为的智力3、信息检索的意义答:1、信息检索是大学生必备的基本素质2、信息检索是科学研究的重要前提3、信息检索是培养创新型人才的重要基础4、信息检索是个人终身学习的基本保障4、信息、知识、情报和文献的定义、关系:p10-12信息的基本特征:客观性、时效性、价值性、传递性、共享性、开发性情报的属性:知识型、传递性、效用性构成文献的基本要素:物质载体,记录手段,记录符号,知识内容5、一些文献类型的特征号码(ISBN:国际通用的图书或独立刊物(含不定期出版的连续出版物)代码,ISSN:国际标准刊号(期刊),CN国内统一刊号(报刊代码),GB2763-87 :食品安全国家标准,GB:强制性国家标准,GB/T:国家推荐性标准,ISO:国际标准化组织,IEC:国际电工委员会)6、文献的几种划分类型,按文献的载体形式划分(手写型文献、印刷型文献、缩微型文献、声像型文献、机读型文献);按文献的加工深度划分(零次文献:私人笔记/论文草稿/设计草稿/、一次文献:个人专著/大多数期刊论文/科技报告/专利说明书/会议论文、二次文献:文摘/目录/题录/索引、三次文献:综述/百科全书/年鉴/);按文献的出版形式划分11种(除图书,报纸,期刊,其他8种为特种文献)P15-267、图书、期刊的类型及特点P18、P19图书类型:阅读性用书;参考工具书;检索工具书;期刊类型:学术性、技术性刊物;检索性刊物;其它类型刊物;(按性质和用途分)图书特点:内容全面系统,基础理论性强,论点成熟可靠,不足之处是图书的撰写、编辑、出版所需要的时间较长,传递信息速度慢,内容相对陈旧期刊特点:信息量大、品种多,出版周期短、报道速度快,连续出版,内容新颖,能及时反映国内外当前的科技水平等。
第2章信息检索原理与技术[1]
小结:
书目信息检索是利用各种目录、题录 和文摘工具获取有关信息的线索。 例如:
• 各种图书目录、期刊目录 • 国内外著名的题录和文摘有《全国
报刊索引》、《工程索引》(EI)、 《科学引文索引》(SCI)等。
第2章信息检索原理与技术[1]
全文信息检索是利用各种全文系统获 取有关的全文信息。
例如:中国科技期刊全文数据库 数据和事实检索是利用各种参考工具
数据信息检索
以具有数量性质并以数值形式表示的 数据为检索对象,是一种确定性检索。 检索的结果是经过测试和评价过的各种 数据,可用于比较分析和定量分析。它 一般以数据大全、手册、年鉴等为检索 工具。
第2章信息检索原理与技术[1]
示例
2008年申请中国发明专利和 获得授权发明专利的国家有哪些?
检索工具 中国统计年鉴
Ú 式1:(相变材料or 相变纤维)and (原位微胶囊化 or 微胶囊化) and 制 备
Ú 式2:phase change material and microencapsulation
Ú 式3:phase change fibers and microencapsulation
Ú 式4:phase change material and preparation Ú 式5:phase change fibers and preparation
第2章信息检索原理与技术[1]
检索语言的类型
分类语言 主题语言
体系分类语言 组配分类语言 混合分类语言 标题词语言 关键词语言 叙词语言 单元词语言
第2章信息检索原理与技术[1]
体系分类语言
Ú 体系分类语言是按学科逻辑分类的
原理,运用概念划分的方法,按知
信息的检索复习大纲设计
信息检索复习大纲第一章1•、信息的含义:信息是客观事物经过感知或认识后的再现。
2、知识的含义:知识是人们通过客观实践对客观事物及运动过程和规律的认识。
3、文献的含义:文献是记录有知识的一切载体知识、载体、记录是构成文献的三个基本要素。
4、信息资源的含义:信息资源是经过人类筛选、组织、加工,并可以存取和能够满足人类需求的各种媒介信息的集合。
5、图书:图书是作者围绕一个中心主题进行研究和探索,比较成熟的、定型的, 而不定期出版的出版物。
6、连续出版物的概念:连续出版物是一种具有统一名称、固定版式、统一开本、连续编号,汇集多位著者的多篇著述,定期不定期编辑发行的出版物。
7、学位论文是大学生或研究生为取得学位资格而提交的学术论文。
8、会议文献主要是指在国内外各类会议上宣读或交流的论文、报告或其他有关资料。
9、专利文献是实行专利制度的国家和地区及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。
10、标准文献是为了在一定范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用和重复使用的一种规范性文件( GB/T20001-2000)。
11、信息素质的含义:利用大量的信息工具及主要信息源使问题得到解答的技术和技能。
信息素质的内涵包括三个方面:信息意识、信息能力、信息道德。
12、信息能力的含义:指人们有效利用信息技术和信息工具获取信息、加工处理信息以及创造和交流新信息的能力。
主要包括以下内容:信息需求分析和表达能力、信息获取能力、信息分析和处理能力、信息利用能力13、互联网的应用包括:信息获取、交流沟通、网络娱乐、商务交易。
第二章1、信息检索广义概念:是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,全称“信息的存储与检索”。
2、信息检索过程::(1 )分析检索需求;(2 )确定检索标示;(3)选择检索系统和检索工具;(4 )实施检索操作;(5 )索取原始文献。
3信息检索按检索对象内容划分包括:文献检索、数据检索、事实检索、多媒体检索。
信息检索与利用++复习提纲
信息检索与利⽤++复习提纲注:考试时,务必带上2B铅笔、橡⽪擦,签字笔考试题型:填空、简答、单选、多选、判断单选、多选、判断,请在答题卡上作答,第⼀章绪论1、了解信息素养的概念,掌握信息素养的具体内容概念:具有确定、评价和利⽤信息,成为独⽴的终⾝学习者的能⼒内容:信息意识、信息知识、信息能⼒、信息道德2、了解信息、知识、情报和⽂献四个概念;掌握他们之间的关系概念:信息:信息是⽤来消除随机不定性的东西知识:经过思维加⼯的信息情报:⼈们为解决某⼀特定的问题⽽搜索、传递有特定效⽤的知识或信息⽂献:记录有知识的⼀切载体关系:包含关系、转化关系、交叉关系3、⽂献信息资源按物质载体和记录形式的划分类型⼿写型/印刷型/缩微型/声像型/机读型信息资源⽂献信息资源按加⼯深度不同的划分类型零次/⼀次/⼆次/三次⽂献⽂献信息资源按出版形式的⼏种划分类型图书(ISBN)、期刊(ISSN/CN)、报纸、科技报告、学位论⽂、⽂献会议、专利⽂献、标准⽂献(ISO /GB)、政府出版物、产品资料、技术档案图书、期刊的类型及特点图书:分类:阅读性⽤书、参考⼯具书、检索⼯具书特点:内容全⾯系统,基础理论性强,论点成熟可靠。
不⾜之处在于图书撰写、编辑、出版所需要的时间长,传递信息速度慢,内容相对陈旧期刊:分类:学术性/技术性刊物、检索⾏刊物、其他类型刊物特点:信息量⼤,品种多,出版周期短,报道速度快,连续出版,内容新颖,能够及时反映最新研究动态,反映国内外当前的科技⽔平第⼆章检索基础知识1、⼴义信息检索的含义包含信息的存储和检索两个过程。
信息检索是将信息按照⼀定的⽅式组织并存储在数据库中,⽤户根据需要,利⽤检索⼯具按照⼀定的⽅式从数据库中查找所需的信息的过程。
2、按检索对象划分,信息检索的类型及其特点⽂献检索、事实性信息检索、数据型信息检索、声频与视频检索3、信息检索系统及计算机检索系统的构成信息检索系统:检索⽂档、检索设备、系统规则、操作⼈员计算机检索系统:脱机检索系统、光盘检索系统、联机检索系统、⽹络检索系统4、数据库结构字段、记录、⽂档、帮助⽂件不同⽂献类型的主要字段:存取号字段、基本索引字段、辅助索引字段5、信息检索原理(检索语⾔是(标引者和检索者之间的沟通桥梁)信息索引和存储过程、信息的需求分析和储存过程6、检索语⾔的类型按标识的组配⽅式:先组式语⾔、后组式语⾔按表达信息的特征:描述外部特征语⾔、描述内容特征语⾔按规范化程度:⾃然语⾔、受控语⾔7、主题检索语⾔按照选词⽅式不同,可分为哪3种。
课件讲稿 第二章 信息检索原理与检索技术
• 1. 如何提高信息素质,谈谈你的的学习方 法或途径。 • 2. 浏览我校图书馆网站,说出图书馆都收 藏有哪些类型的文献资源(信息源)? (列出3种以上) • 3.请用图示的方法说明布尔逻辑检索概念 之间的逻辑关系。 • 4. 信息检索步骤主要有哪些? • 5. 列举自己感兴趣的3个课题,其中1个与 所学专业有关。
容词均不能做关键词。(禁用词表)
38
关键词法一般不编关键词表,而是相反, 编制“非关键词表”或称“禁用词表”,如: • a
• in • an • is
as
of at on be or
but
that by this for to
from
was had which have with
he
you her & his
27
• 以文献的内容特征为检索途径:
分类途径:课题的学科属性,学科分类体系 利用学科分类表、分类目录、分类索引 若课题所需信息范围较广,应选用分类途径,这样 可以比较准确地检索到与课题相关领域的资料。
主题途径:按主题内容进行检索的途径, 它冲破了按学科分类的束缚,使分散在各个学科领 域里的有关同一课题的信息集中于同一主题,当课 题所需信息范围窄而具体时,以主题途径检索为宜。
22
文献的著录
题名:书名、刊名、会议名 作者 号码:书号ISBN、ISSN、 标准号、专利号 出版:出版社、出版时间、地点 分类号 主题词
外部特征
内容特征
23
24
信息检索途径
•责任者途径 •题名途径 •代码途径
•引文途径
•出版情况(出版时间、出版社) •分类途径
•主题词途径
25
• 外部特征: 题名途径 著者途径 代码途径 • 内部特征: 分类途径 主题途径
信息检索复习提纲一
信息检索复习提纲第一章 信息检索的基础知识1.1 信息检索的基本概念一、基本概念1、信息:物质存在方式和运动状态的反应,在发生源和吸收源之间,当发生源发出的信号被吸收源所理解,信号就成为信息 。
2、文献:大凡人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统统可称为文献。
也可以称为固化在一定载体上的知识。
3、资料:固化在一定的实物或载体上的知识。
二、信息的传递渠道:非正式传递渠道和正式传递渠道(非正式过程、正式过程)(1)非正式过程a、科学技术工作者之间就他们从事的研究和研制进行直接对话,如交谈、参加学术会议等;b、科技工作者参观同行的实验室、科学展览等等;c、科技工作者对某些工众作口头演讲;d、交换书信、出版物欲印本和单行本;e、研究或研制成果在发表前的准备工作,包括发表形式以及发表的地点和时间的选择。
(2)正式过程a、为手稿的发表所作的编辑出版和印刷过程,包括写书评;b、科学出版物的发行过程,包括与发行过程有关的书刊商业活动;c、图书馆的书目工作和检索工作;d、信息工作本身,从搜集到检索,包括宣传工作。
三、信息检索(P2-4)(一)信息检索:就是从大量的文献中查寻与信息提问所指定的课题(对象)有关的文献,或者是包含用户所需事实与消息的文献的过程。
它包括三个方面: 数据检索 、事实检索 、文献检索数据检索、事实检索、文献检索三者中以文献检索为主。
数据和事实检索是检索出包含在文献中的具体情报;文献检索则是要检索出包含所需要情报的文献。
四、文献检索及其类型(1)定义:1、检索系统的建立及检索工具的组织和积累2、文献的查寻,利用检索工具检出与课题相关的文献。
(2)文献检索的类型1、直接检索:是从通过阅读原始文献直接获取所需信息。
(快捷、方便 漏查率高)a、直接检索原文易于掌握文献的实质内容,可直接判断其信息内容是否符合信息要求,并可能得到意外的收获;b、直接检索简便易行,并且时效高。
信息检索原理与技术考试大纲重点整理
信息检索原理与技术考试大纲重点整理序移动,是一次、二次、三次文献信息的演变过程。
对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。
(1)信息检索:广义理解分为信息的存储与检索。
信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。
信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。
狭义的信息检索仅指该过程的后一部分。
存储是检索的基础、检索是存储的反过程。
信息检索的本质是用户的信息需求和一定的信息集合的匹配。
(2)信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。
(3)信息检索入口:又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。
检索知识包括主题词、分类号、著者、标题、机构、代码等。
(4)信息检索的一般原理:P7(5)检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子系统、查询子系统、用户与系统交互子系统、匹配子系统)(6)检索工具的构成:编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。
(7)检索系统的功能:报道功能、存储功能、检索功能。
(8)信息检索理论:标引理论、检索模型、检索结果的可视化。
(9)现代信息检索技术与方法:全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。
第2章信息检索模型(1)最初的信息检索模型是以数学知识为基础的原因:第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。
第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求,能够很方便快捷地组建信息检索模型。
信息检索考试要点讲解
信息检索考试要点(Word版)考试题型:考试分试卷一,试卷二两部分,试卷一:(客观题80分)(一)单选(20题,20分)(二)多选(20题,40分)(三)判断(20题,20分)试卷二:(20分)(四)填空题(20空,10分)(五)实务题1、写检索式(三题,6分)2、调整检索策略(4分)第一章绪论信息素质:在信息化时代,人们认识、利用和创造信息的品质与素养,它是创新人才应具备的素质。
信息素质由信息意识、信息知识、信息能力和信息道德素质四部分构成。
信息:是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。
信息具有客观性、时效性、共享性、价值性、传递性、开发性知识:是人们在改造世界的实践中所获得的认识和经验的总和,是人的大脑通过思维重新组合的系统化的信息集合。
知识具有意识性、信息性、实践性、规律性、继承性、渗透性情报:是为了解决一个特定的问题所需要的激活了、活化了的特殊知识或信息。
情报具有知识性、传递性和效用性三个基本属性。
文献:凡是记录有信息或知识的一切载体均为文献。
文献具有三个基本功能:存贮知识、传递信息和交流信息;四个基本要素:知识内容、记录符号、物质载体和记录手段。
文献信息资源类型划分标准:一、按物质载体和记录形式划分类型1)印刷型载体纸张等记录手段手写、印刷、打印、复印种类图书、报刊、特种资料等优点便于阅读及广泛流传,成本低缺点存储密度低,所占空间大,保管耗较多人力物力,难于实现自动化类型2)缩微型载体感光材料记录手段缩微拍摄种类缩微平片、缩微胶卷、全息胶片优点体积小,存储密度高,成本低,传递较为方便缺点不能直接阅读,需要借助于缩微阅读机,存储要求较高类型3)声像型载体磁性、感光材料记录手段机械装置输入种类唱片、录音带、录像带、光盘等优点高密度存储,直观、真切,图文并茂,制作快缺点不能直接阅读,需要先进的技术设备,制作成本稍高类型4)机读型载体磁性、感光材料记录手段键盘、扫描等方式输入种类磁盘、磁带、光盘等优点存储密度高,存取速度快,变更记录,易于实现自动化,便于实现信息共享缺点需要先进的技术设备才能“读出”、制作成本较高二、按加工深度划分一次文献:以作者本人的科研、生产和工作成果为依据创作而成的文献。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《信息检索原理与技术》第1章信息检索概论(1)一次文献信息:是指作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文献,如期刊论文、研究报告、学位论文等。
(2)二次文献信息:是指对一次信息加工整理而成的文献,如目录、文摘、索引等各种书目信息,具有汇集性、工具性、综合性、系统性的特点。
(3)三次文献信息:是对一、二次信息综合、分析等深加工的产物,如评论、进展报告、百科全书、期刊书目等。
(4)文献:记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。
(5)构成文献的要素:构成文献内核的知识信息、负载知识信息的物质载体、记录知识信息的符号和技术。
(6)文献的特征:知识性(文献的本质,离开知识信息,文献信息便不复存在);传递性(帮助人们克服时间与空间上的障碍,在时空中传递人类已有的知识,使人类的知识得以流传和发展);动态性(其所蕴含的知识随着人类社会和科技的发展在不断地、有规律地运动着)(7)信息、知识和文献的联系:信息作为物质的一种普遍属性,是生物以及具有自动控制系统的机器通过感觉器官和相应的设备与外界进行交换的一切内容,它是有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制的;知识作为信息的一部分,是一种特定的人类信息,也是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,它是无形的、与行动和决策相关、经过处理能改变思维、精神产品、环境改变含义、经过学习才能转让、无法复制的;文献是知识的一部分,是进入人类社会交流系统的活动着的知识。
(8)文献信息流有序化阶段的三个环节:①替代。
描述文献特征,对一次文献信息进行不同程度的提炼或压缩,形成目录、文摘、索引等二次文献信息。
从文献信息流的运动角度看,“替代”是文献信息流的流量、流向得到测度并合理调节。
②改组。
从一次文献信息中提取数据、事实和有关结论,按照易于查阅的提醒重新组合,其改组的结果,产生了手册、名录、辞典、目录等类型的文献信息。
其目的是使一次文献信息更容易被理解和使用。
③综合。
利用二次文献对一次文献所包含的知识加以综合并融入到现有知识体系中去,成为整个知识体系的有机组成部分,产生的主要成果是不断再版的百科全书、专著、教科书及综述、评论性文章。
文献信息流失一个以研究活动为起点。
按顺时针的线性顺序移动,是一次、二次、三次文献信息的演变过程。
对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。
(9)信息检索:广义理解分为信息的存储与检索。
信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。
信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。
狭义的信息检索仅指该过程的后一部分。
存储是检索的基础、检索是存储的反过程。
信息检索的本质是用户的信息需求和一定的信息集合的匹配。
(10)信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。
(11)信息检索入口:又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。
检索知识包括主题词、分类号、著者、标题、机构、代码等。
(12)信息检索的一般原理:P7(13)检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子系统、查询子系统、用户与系统交互子系统、匹配子系统)(14)检索工具的构成:编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。
(15)检索系统的功能:报道功能、存储功能、检索功能。
(16)信息检索理论:标引理论、检索模型、检索结果的可视化。
(17)现代信息检索技术与方法:全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。
第2章信息检索模型(1)最初的信息检索模型是以数学知识为基础的原因:第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。
第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求,能够很方便快捷地组建信息检索模型。
(2)信息检索模型的类型:P18(3)布尔检索模型:采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。
(4)布尔逻辑运算符:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)(5)布尔运算的运算次序:P24(6)传统布尔检索模型的优缺点:优点:1)逻辑运算符较少,便于用户学习。
2)模式较易构造,可以通过简单的关系来体现检索项的联系。
3)可以将复杂的检索过程以简单的检索式表达出来。
4)检索提问式较灵活,方便修改。
缺点:1)布尔检索中的关键词没有权重区别。
2)检索结果分输出没有重要性是排序。
3)查全率很难控制。
4)布尔检索要求用户具有很高的素质和语义提取能力。
(7)向量空间模型:一种基于统计学方法的数学模型。
(8)向量空间模型的工作原理:P27(9)向量空间模型的优缺点优点:1)采用自动标引技术与文献提供标引词。
2)采用部分匹配策略,使得在算法层面上的基于多值相关性的判断处理得以实现。
3)改变了布尔检索只有两种情况0和1的简单判断,标引词和文献的相关程度可在0和1之间取值,使标引者和检索者都可以比较灵活地定义标引词与文献的关系深度,改变了布尔检索模型的僵化的缺点。
4)由于其相似的程度作为检索的标准,可从量的角度判断命中与否,从而使检索结果更趋合理。
5)检索结果可以按照与提问的相关度排序输出,便于用户通过相关反馈技术修正提问,控制检索量。
6)布尔模型的逻辑关系依然可以使用,保留了直观性和方便些。
7)向量空间模型的灵活性使它有很好的可扩展性和可改进性,为以后的更加完善奠定了基础。
缺点:1)检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系。
2)由于对于任何一个提问度需要计算全部文献库中的每一篇文献,因此,计算量大,算法复杂性较高。
3)由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。
4)有很多是假定的,在实际工作中有时会不能解决。
(10)扩展布尔检索模型:P31(11)扩展布尔检索模型的工作原理:P32(12)扩展布尔检索模型的优缺点:优点:拥有矢量处理的思想,体现了加权的特点;继续保留布尔检索的直观的操作符,具有很强的描述能力;对于输出结果可以很好的控制和排序;通过调整权重参数的取值,可以灵活选择并得到不同的检索结果;便于区分强制性短语和严格的同义解释与试探性短语和较不严格的同义关系;与传统倒排文档一致,更易接受。
缺点:扩展布尔模型由于是集成了两种经典模型的一种改进的“集成化模型”,所以它不可避免的存在着臃肿、不够自然简洁的缺点,而且不是很普及,目前在信息检索领域使用较少。
(13)概率模型:一种基于概率论原理的用以解决相对不确定性的信息检索的信息检索模型。
(14)贝叶斯定理:P37(15)概率模型的优缺点:优点:文档可以按照他们相关概率递减的顺序来计算秩,还可以通过反复反馈结果和用户需求,使结果得到很好的调整,相对合理得多。
缺点:索引词权值计算方法没有考虑到词频加权因素。
沿用了索引词之间相互独立的基本假设。
开始时需要猜想把文档分为相关和不相关的两个集合,过程比较烦琐。
(16)概率模型在处理实际问题时的困难:初始检索文件阀值比较大,由检索式检索的相关文件数量相对于精确估计的概率而言太小。
(17)古典逻辑模型的特点:1)逻辑模型不是一个经典模型。
2)逻辑检索要借助外部信息进行评价。
3)逻辑检索对关键词的语境更加重视。
4)对信息的联想法控制。
5)逻辑检索具有不确定性。
6)对多词一义的把握。
7)适应信息的不完全性。
(18)逻辑模型的优点:逻辑理论具有很强的推理能力,将检索过程逻辑化可以使人们能从新的角度认识检索,并在逻辑化的基础之上建立演绎信息检索系统。
在演绎信息检索系统中,用户可以增减可用规则,可以扩充或者缩小知识库,可以憎加或减少检索目标项,从而实现扩检和缩检。
同时,通过因入更多的谓词、丰富系统的知识库、允许查询目标语句中包含更多的谓词,演绎信息检索系统也容易被扩展为用途更广的专家系统,使得信息检索系统智能化程度更高,功能更强,换句话说,基于逻辑模型,我们可以建立智能化的、提供多种检索入口的、便于扩展的信息检索系统、(19)逻辑模型的缺点:在逻辑模型中,信息的重要程度这一特征并不能很成功地被表达出来。
基于实质蕴涵的情报检索古典逻辑模型自然也并不能完全表达出文献d与信息需求q之间的真实联系。
它关注的仅是前后件之间在真假方面的逻辑关系,而并不关心前件和后件中所涉及的信息延展性问题。
由于查询是依靠推理来获得相关性的文献,因此推理过程越是不确定,获得的相关性文献就越少,而这样的现象在传统的逻辑检索模型中屡有发生。
(20)限词检索模型:通过限制检索范围,达到优化检索结果的方法。
(21)字段检索:把检索词限定在某个或某些字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。
第3章自动索引和文档组织1、索引:著录书刊中的题名、语词、主题、人名、地名、事件及其他事物名称,并把它们按照一定的方式编排起来,指明出处是一种检索工具。
2、索引的发展历程:人工索引阶段、机辅索引阶段、自动索引阶段3、索引的功能:检索功能、分解功能、梳理功能、聚类功能、追踪功能、导航功能、预测功能4、常见索引的类型:主题索引、著者索引、名称索引、地名索引、题名索引、数字或代码索引、分类索引5、索引的过程:为了方便查询而对信息指定索引款目的过程。
包括信息采集、信息标引、建立索引。
6、索引建立的步骤:选题,建立主索引文件;对主索引关键词进行抽词倒排,建立目标格式文件;排序与归并。
7、信息标引分为受控标引和自然语言标引。
受控标引指采用受控语言中的标识表达主题概念的标引方式,主要有分类标引和主题标引;自然语言标引是指采用自然语言语词作为标识来表达主题概念的标引方式。
8、分类标引:依据一定的分类语言,对信息资源的内容特征进行分析、判断和选择,赋予分类标识的过程。
9、分类标引的要求:准确性、充分性、一致性、适用性。
10、分类标引规则:基本标引规则、一般标引规则、特殊标引规则。
11、主题标引:对信息内容进行主题分析、确定主题概念,然后按照一定的词汇控制方式,为标引对象赋予恰当的语词标识的过程。
12、标引方式:根据文献或信息特点和使用需要确定的标引和揭示主题的形成。
包括整体标引、全面标引、对口标引、综合标引和分析标引等。