信息存储与检索复习资料
信息存储与检索复习
信息资源:经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据索引:是存取信息资源“地址”或“出处”的标识系统,是信息存储与检索的基本形式检索词:用户或检索者在检索活动开始前提出的字词或字符(叙词、标题词、自由标引词、关键词、全文检索自由词等),是检索式的基本单元提问检索式:检索提问表达式,简单为一个检索词和一个字段名,复杂为多个检索词及字段名由关系算符连接组成关系符:用于表示检索项在记录中出现的逻辑关系或位置关系的符号或位置算符(W)或():在检索结果中(W)算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,同时两个检索词之间不允许有其他词或字母,但可留空格或连字符(nW):算符两侧的检索词之间允许n个实词或虚词,两个检索词的词序不允许颠倒(N):由(N)连接的检索词的记录中出现的顺序可以调换,但必须彼此相邻(nN)::算符的检索词之间可以插入n个词,且两个检索项的位置可以调换(F):算符两侧的检索词必须同时出现在文献记录的同一字段中(S):算符两侧的检索词必须同时出现在文献记录的相同子字段内,其检索词的顺序不限,夹在期间的词汇数量限(L):算符两侧的检索词是从属关系(C):算符两则的检索词须同时出现在一篇文献记录中,为and 关系(X):两个相邻且词形相同的检索词作为词组出现,其间只能用“-”不得有其他字母或词gas(X)gas 即gas-gas(nX):两个户型相同的检索词,其间夹有n-1个其他词时,可作为词组进行检索word by word可用word(2X)word表示截词检索:在检索词的某个局部截断,利用检索词的词干或不完整的词形加上截词符号所进行的检索前截断(后方一致检索):将截词符号放在检索词词干的左边,以允许词干左边有若干个字符变化):?magnetic后截断(前方一致检索):将截词符号置于检索词词干的右方,以允许其右方有多个字符的变化):geolog?中截断(前后方一致检索):将截词符作为通用字符旋转在检索词的中间,以有有限个字符变化,符号的个数所字符变化的个数相同):wom?n前后截断(:中间一致检索):在检索词词干的左右两侧同时旋转截词符号,用以表示词干两侧允许有有限或无限个字符的变化):?wave? 有限截断(在检索词干的左、中、右加上?和*,截词符的个数与允许变化的字符数相等)与无限截断(在检索词的后面加上?,允许在词干后出现的字符个数不限):检索computer, comput?Comput??记录:是书目数据库文档的基本组成单位,也是描述某一信息实体牲数据的集合,由逻辑上相关的若干字段组成。
信息存储与检索重点
内容的揭示深度和检索入口,并直接影响
到用户查询的检索方式和检索途径。其功
能是用系统规定的规范化词语描述用户的
检索询问,包括对用户询问进行概念分析
和概念转换两个过程,也包括按照系统的
既定规则制定检索策略和构建检索式。该
子系统完成对数据库的查找过程,并与交
互子系统共同完成信息检索系统的检索功
能。
19
《信息存储与检索》
22
2.2.1 布尔模型
❖定义 对于布尔模型而言,标引词权值变量都是二 值的,即wi,j∈{0, 1},查询q是一个常规的布尔表达 式。用qdnf表示查询q的析取范式,qcc表示qdnf的任意 合取分量。文档dj和查询q的相似度可以定义为:
sim(d
j
,
q)
1
0
如果qcc (qcc qdnf ) (ki , gi (d j ) gi (qcc )) 其它
现 实 的
(2)表示机理
信 息
需 求
(3)比较机理
输出检索结果 图1-2 信息检索的一致性匹配作用机理
(4)判断机理 (5)选择机理
5
《信息存储与检索》
1.1.2 信息检索的原理
1、提取机理:从现实的信息和现实的需求 中提取出能够揭示特定信息和特定需求的语 法特征和语义特征。可以归纳为内容特征和 形式特征。
交 互 子 系 统 用户群
词语子系统 查 询 子 系 统
数据库
匹配子系统
图1-9 信息检索系统逻辑结构
标
采
引
选
子
子
系
系
统
统
信息源
16
《信息存储与检索》
1.2.4 信息检索系统的逻辑结构
(完整版)信息检索期末复习题及答案
《信息检索》期末复习题及答案(仅供参考)一、判断题1.综述和百科全书属于二次文献。
(× )2.从文献检索的角度来看,一次文献是检索对象,二次文献是检索手段。
(× )3.题录、目录属于一次文献;期刊论文属于二次文献。
(× )4.主题词规范化的目的是扩大检索范围。
(√)5.在众多的信息源中,期刊是最重要的信息源。
(√ )6.核心期刊是指经常使用的期刊。
(× )7.关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后者是未经词表规范的自由词。
(×)8.《中国图书分类法》(简称《中图法》)是由分类号(代码)和类名来揭示信息的主题概念。
(×)9.题录型的检索工具,其著录项目包括题目、作者、文献出处、文摘。
()10.一项发明创造要获得专利权必须具备新颖性、创造性和实用性。
()二、选择题1、广义的信息检索包含两个过程( B )A、检索与利用B、存储与检索C、存储与利用D、检索与报道2、文献是记录有知识的()。
A、载体B、纸张C、光盘D、磁盘3、下列哪种文献属于一次文献( A )。
A、期刊论文B、百科全书C、综述D、文摘4、下列哪种文献属于二次文献( D )。
A、专利文献B、学位论文C、会议文献D、目录5、下列哪种文献属于三次文献( C )。
A、标准文献B、学位论文C、综述D、文摘6、下列选项中属于连续出版物类型的选项有(C )。
A、人民日报B、学位论文C、科技期刊D、会议文献7、下列选项中属于特种文献类型的有( D )。
A、学位论文B、图书C、科技期刊D、标准文献8、纸质信息源的载体是()A、光盘B、缩微平片C、感光材料D、纸张9、《中国图书分类法》(简称《中图法》)将图书分成( A )A、5大部分22个大类B、5大部分26个大类C、6大部分22个大类D、6大部分26个大类10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在( A )类目下查找。
信息存储与检索考试必看
信息存储与检索考试必看一、填空1、信息资源的特征:共享性、时效性、智能性、无限性和有线性并存、增值性及物质、资源的一般特征。
2、纸质文件按文献加工深度划分:一次文献、二次文献、三次文献、零次文献。
3、索引款目的构成:索引标题、说明语、地址参考项。
4、多媒体存取技术的核心是:媒体数据库技术。
5、网络信息检索工具有:字典型查询工具、索引型查询工具、交互式检索工具。
6、按系统存取的信息特征划分:文献存取系统、事实存取系统、数值存取系统、图像存取系统。
7、按检索工具划分:关键词检索工具、分类目录、混合型检索工具。
8、纸质文献资源的四个基本要素:信息内容、载体材料、记录符号和记录方式。
9、按检索系统的工作方式划分:脱机存取、联机存取、光盘存取、因特网存取。
10、文献存取系统包括:书目、全本和超文本。
11、存取系统的检索效果指标:检全率、检准率、检新率。
12、多元性检索工具:13、中文搜索引擎:谷歌、百度、雅虎、中国搜索、搜狗搜索等。
(三个可)14、多媒体信息存取系统的特征:信息载体的多样性、交互性、实时性、集成性。
二、名称解释:1、电子信息资源是以数字化形式把文字、图像、声音、动画等多种形式的信息存储在光、磁盘等非印刷型介质上,并以光信号、电信号的形式传输,通过相应的计算机和其他外部设备再现出来的信息资源。
2、索引是存取信息资源“地址”或“出处”的表示系统,是信息存储与检索的基本形式。
其基本功能是指示知识点在正文或文献款目中得位置。
3、标准文献狭义指按规定程序制订,经公认权威机构(主管机关)批准的一整套在特定范围(领域)内必须执行的规格、规则、技术要求等规范性文献,简称标准。
广义指与标准化工作有关的一切文献。
4、网络信息资源是指通过计算机网络可以利用的各种信息资源的总和。
具体的说是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。
信息检索复习资料(有答案版)
1.请说明一次文献、二次文献和三次文献的特点和功用。
(1)一次文献(Primary Document):通常是指原始制作,即作者以本人的研究成果为基本素材而创作(或撰写)的文献。
如期刊论文、科技报告、会议论文、专利说明书(2)二次文献(Secondary Document):是指文献情报工作者对一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文献,由文献情报工作人员编辑、出版和积累起来的工具性的文献。
二次文献的重要性在于可以帮助人们查找一次文献。
如目录、题录、文摘、索引、各种书目数据库(3)三次文献(Tertiary Document):是指利用二次文献,选用一次文献内容,经综合,分析和评述后形成的指南性文献。
包括综述研究和参考工具两类。
如综述、述评、词典、百科全书、年鉴、指南数据库、书目之书目2.请说明题录目录文摘的特点以及区别(1)题录是揭示和报导单篇文献外表特征的工具。
特点:以单篇文献为著录对象(2)目录是系统积累和提供图书、期刊和其它单行本的名称、收藏单位和索取号等外表特征的揭示和报导的工具。
特点:以单位出版物为著录对象,反映馆藏情况,主要揭示文献外部特征(3)文摘是以精练的语言把文献信息的重要内容、学术观点、数据及结构准确地摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的一种检索工具。
特点:带摘要的题录3. 布拉德伏特文献文献分散定律和期刊影响因子的概念(1)布拉德福文献分散定律:本专业文献的1/3刊登在本专业核心期刊上,另外的2/3则分散在其他的相关期刊和边缘期刊上。
如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成1:n:n2......的关系。
(2)期刊影响因子的概念是:某一种期刊在第三年得到的前两年的引文数与该刊前两年的总论文数之比。
4. 请阐述信息、知识、情报的概念,并分析它们三者之间的关系。
信息存储与检索练习题
信息存储与检索练习题二、问答题1.简述信息、资源的概念。
信息:是生物以及具有自动控制系统的机器通过感觉器官或者细胞组织,或者具有类似功能的设备部件与外界进行交流的一切内容。
资源的涵义:资源可分为两个范畴,一是自然界赋予的自然资源;二是人类社会中人的劳动创造的各种资源。
资源是一切可被人类开发和利用的客观存在。
2.简述信息资源的概念及特征。
信息资源是经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据。
共享性这是信息资源区别于物质资源的根本属性之一。
一般来说,信息资源可同时为众多的使用者享用,也可被不同时期的使用者使用,同一条信息可以同时为不同领域的人服务、满足不同的需要。
而不象物质资源那样具有排他性,即特定的物质资源只能被某些国家、地区或某些群体、甚至个人占有和消耗。
当然,一些人可控制或保密的信息,不具有这一特性。
时效性:一般来说,信息资源的时效性,是由事物运动变化的规律决定的。
因此,信息资源能否转化为生产力,取决于收集、加工和利用信息是否适时,只有时机适宜,才能发挥最佳效益。
智能性:信息资源是人类按照一定次序开发与组织起来的信息,是人类脑力劳动的产物。
无限性与有限性并存增值性即对信息资源的投入和使用,不但可以使自然资源、人力资源、资本资源增值,同时信息资源可以一次投入、多次开发利用,并不断产生新的信息使其自身增值。
3.简述电子信息资源含义。
含义:电子信息资源书是以数字化形式(即二进制代码0、1),把文字、图像、声音动画等,多种形式的信息存储在光、磁等非印刷型介质上,以光信号、电信号的形式传输,并通过相应的计算机和其他外部设备再现出来的信息资源。
4.什么是信息检索信息检索的类型有哪些信息检索的概念:通过一定的方法和手段将用户的提问特征与数据源所采用的特征标志进行对比,然后将二者相一致或比较一致的信息提取出来供用户使用的过程。
类型:文献检索数据检索事实检索5.简述信息存储与检索原理。
信息存储与检索复习资料答案
一、单项选择题1. 以下哪个数据库提供同名作者检索功能:(D )A.万方数据库 B.中国期刊全文数据库C.复印报刊资料全文数据库 D.中文科技期刊全文数据库2. _______提供一次文献的线索。
( B ) A.文摘、索引等 B.图书 C.百科全书 D.手册3. 以下属于特种文献的是( B )。
A.图书B.科技报告C.报纸 D.期刊4. 用主题词检索只可以检索出对应的()5. 我国制定专利法的主要目的就是为了保护发明创造的(D )A.著作权 B.发明权 C.发现权 D.专利权~6. 利用分类途径进行检索,其检索标识为( C ) A.主题词B.关键词C.分类号D.分子式7. 在一般的著录格式中可以通过_______来判断该文献为会议文献( C )A. Journal B. Report C. Conference D. Patent8. 下列选项中,不属于信息能力的有( B ) A.鉴别 B.传递 C.评价 D.有效利用9. 从狭义上说专利文献就是指(专利注明书)10. Google搜索引擎的首页面上有一个“手气不错”的按钮,这个按钮的作用是什么( D )A.测试你当天的手气 B.提供最相关的一组检索结果列表C.提供最相关的一个检索结果的链接D.直接跳转到系统认为是最相关的页面…11. 利用___索引,我们可以检索任一知名专家的文献被引用的情况( D )A、Citation Index;B、Corporate Index;C、Permuterm Subject Index;D、Source Index;12. 文献信息检索的全过程包括文献信息的______两个过程( C )A.存贮和检索B.存贮和编排C.标引和编排D.存贮和标引13. 利用分类途径进行检索,其检索标识为( C )。
A.主题词 B.关键词 C.分类号 D.分子式14. 已知名叫孙钱章的作者99年出版了一本书,若想找到书名及其他信息,应在下列哪个数据库中查找( C. )A.中文科技期刊全文数据库B.复印报刊资料全文数据库C. 超星数字图书馆D.万方数据资源系统…15. 利用搜索引擎检索有关知识管理方面的学术论文,其检索式采用哪种比较好( C )A.关键词摘要 intitle: 知识管理B.论文知识管理 PDFC.学术论文知识管理D.学术论文 intitle:知识管理16. 在中国知网提供的检索服务中,(检索词扩展)起到扩展检索的作用。
信息存储与检索练习题[1][1]
信息存储与检索练习题一、名词解释1.信息2.资源3.信息资源4.信息检索5.检索词p776.提问检索式p777.零次文献p248.一次文献p239.二次文献p2310.三次文献p2311.关键词索引p5712.主题索引p5613.顺查法p8514.逆查法p8615.抽查法p8616.追溯法p8617.综合法p8618.Web信息资源p919.Gopher信息资源p1020.FTP信息资源p921.Telnet信息资源p922.搜索引擎p19323.科技报告p249二、问答题1.简述信息、资源的概念。
信息:是生物以及具有自动控制系统的机器通过感觉器官或者细胞组织,或者具有类似功能的设备部件与外界进行交流的一切内容。
资源的涵义:资源可分为两个范畴,一是自然界赋予的自然资源;二是人类社会中人的劳动创造的各种资源。
资源是一切可被人类开发和利用的客观存在。
2.简述信息资源的概念及特征。
信息资源是经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据。
共享性这是信息资源区别于物质资源的根本属性之一。
一般来说,信息资源可同时为众多的使用者享用,也可被不同时期的使用者使用,同一条信息可以同时为不同领域的人服务、满足不同的需要。
而不象物质资源那样具有排他性,即特定的物质资源只能被某些国家、地区或某些群体、甚至个人占有和消耗。
当然,一些人可控制或保密的信息,不具有这一特性。
时效性:一般来说,信息资源的时效性,是由事物运动变化的规律决定的。
因此,信息资源能否转化为生产力,取决于收集、加工和利用信息是否适时,只有时机适宜,才能发挥最佳效益。
智能性:信息资源是人类按照一定次序开发与组织起来的信息,是人类脑力劳动的产物。
无限性与有限性并存增值性即对信息资源的投入和使用,不但可以使自然资源、人力资源、资本资源增值,同时信息资源可以一次投入、多次开发利用,并不断产生新的信息使其自身增值。
3.简述电子信息资源含义。
信息存储与检索复习资料PPT课件
❖ 人工采选:信息资源的采集和录入均由人工完成。
❖ 人机结合采选:人机合理分工——大量的采集任务可以通 过计算机的扫描、复制、链接、合并、格式转换等处理来完 成
❖ 自动采选:即在无人工干预的情况下由计算机自动完成。
22
可编辑
1.2.4 信息检索系统的逻辑结构
2.词语子系统 功能:对采用规范化词语的系统在标引和查询时所使
(1)目标 (2)功能 (3)资源 (4)设备 (5)方法 (6)人员 概括地说,信息检索系统就是专门进行信息的收集、处理、存
储、检索并满足用户信息需求的系统。
16
可编辑
1.2.2 信息检索系统的类型
见P9 (1)书本式检索系统。 (2)卡片式检索系统。 (3)机械式检索系统。 (4)缩微式检索系统。 (5)计算机检索系统。 (6)网络检索系统。
9
可编辑
1.1.2 信息检索的原理
5、课程内容安排 第一章 信息检索概述(教材第一章) 第二章 信息检索模型(教材第二章) 第三章 文本信息处理技术(涉及到本教材第三章) 第四章 文本信息存储技术(涉及到本教材第三章) 第五章 文本信息检索技术(涉及到本教材第三章) 第六章 Web信息存储与检索(教材第五章)
❖ 搜索器(Spider或Robot); ❖ 索引器(Indexer); ❖ 检索器(Searcher)。
从检索效率上讲,联机检索与光盘检索的检索效率比较高,与网络检 索(搜索引擎检索相比),它们的检索指令完备、检索功能强大、支持 多种检索技术,提供跨库检索手段,查全率和查准率都比较高。但搜索 引擎胜在用户界面友好、使用方便简单。
23
可编辑
1.2.4 信息检索系统的逻辑结构
3、信息标引子系统 功能:按照一定的词表,对信息赋予标引词,以表征信息的特征,形成信
信息存储与检索复习资料
信息存储与检索复习资料一、名词解释1. 主题标引:是在主题分析的基础上,依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程。
2. INTERNET(因特网):泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络。
3. 顺查法:就是以课题研究的起始年限为出发点,利用选定的检索工具如书目、索引、文摘又远及近的逐年查找。
4. 三次文献: 是在一、二次文献的基础上,经过综合分析而编写出来的文献,人们常把这类文献称为“情报研究”的成果5. 文献信息资源:文献是记录有知识的一切载体,文献信息资源是以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源。
6. 倒查法:一种逆时间顺序由近而远地查找信息的方法.7. 一次文献:即原始文献。
它是作者以生产或科研为依据而创作的原始文献。
如专著、期刊论文、学位论文等。
8. 检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等。
它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言。
9. 手工检索:是由检索者通过卡片式或书本式的目录、题录、文摘、索引等检索工具查找文献线索的过程。
10. 信息检索语言:信息检索语言是用来描述信息的内容特征、外部特征和表达信息检索提问的一种专门语言。
11. 特种文献:特种文献是指出版发行和获取途径都比较特殊的科技文献。
特种文献一般包括会议文献、科技报告、专利文献、学位论文、标准文献等。
12. 间接检索法:利用一定检索工具进行文献检索13. 专利:有三层含义:一指受专利法保护的发明,二是指专利权,三指专利说明书等专利文献。
这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体体现。
14. 搜索引擎:是一种Web 上应用的软件系统,它以一定的策略在Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。
信息检索复习资料
信息检索复习资料1.信息:信息是事物运动的状态与方式,是物质的一种属性。
2.知识:知识是人类对客观事物规律的认识,是人的主观世界对于客观世界的概括和如实反映。
3.情报:情报就是人们在一定的时间内为一定的目的而传递的有使用价值的知识或信息。
4.信息、知识、情报三者之间的关系:情报来源于知识,知识又来源于信息,用逻辑来表示:情报∈知识∈信息。
5.文献:文献,记录有知识的一切载体。
6.文献的三要素:知识(文献的内容),载体(文献的物质形式),记录(将内容固化在载体上的手段或方式)。
7.科技文献的特点:数量急剧增长;内容交叉重复;文献文版分散;文献失效加快;文献类型增多;文献语种增多。
8.科技文献的类型:1>按出版形式划分:科技图书;科技期刊;科技报告;会议文献;专利文献;学位论文;标准文献;产品资料;政府出版物;技术档案。
(主)2>按载体形态划分:印刷型文献;缩微型文献;声像型文献;机读型文献。
(主)3>按文献内容的加工深度划分:零次文献;一次文献;二次文献;三次文献。
4>按相对利用率划分:核心文献;相关文献;边缘文献。
*科技图书:一般分为阅读类图书和参考类图书。
前者包括教科书、专著和论文集等;后者包括各种参考工具书,如词典、百科全书、手册、年鉴、名录、表谱等。
9.信息检索:按检索对象的内容进行划分,信息检索分成了文献检索、数据检索、事实检索。
(作用、意义)文献检索是以文献为检索对象的一种检索,凡是查找某一年主题、某一学科、某一著者的有关文献均属于文献检索的范畴;文献检索是一种相关性检索,即检索系统不直接解答用户提出的技术问题本身,只提供与之相关的文献供用户参考;数据检索是以数据为检索对象,从已收藏的数据资料中查找出特定数据的过程。
数据检索是一种确定性检索,系统要直接回答用户提出的问题,提供用户所需要的确切的数据;事实检索即通过对信息集合中已有的基本事实或数据进行处理,然后得出新的(即未直接存入信息集合中的)事实的过程。
信息存储与信息检索考试重点
一:单项选择题(共20小题,每小题2 分,共40分)二:填空题(共12个空,每空1分,共12分)三:简答题。
(共4小题,每小题6分,共24分。
)四:应用题。
(共3小题,4选3,每小题8分,共24分。
)(应用)例1 检索课题:查找中国2003年国内人口出生率和自然增长率。
1.手工检索检索工具:《中国统计年鉴—2004》通过分类途径在类目“人口”下进行查找。
2.计算机检索(1)CNKI中国统计年鉴全文数据库(2)国家统计局网站进入国家统计局网站主页——点击“数据库查询”——进入“国家统计数据库”——输入检索关键字:人口,点击“搜索”,在结果页面单击“(整表/年度资料)--1978-2006年历年人口出生率、死亡率和自然增长率”链接,得到的检索结果如下:指标名称人口出生率人口死亡率人口自然增长率(单位:‰)2003年12.41 6.40 6.01(3)搜索引擎检索式:“2003年中国人口出生率自然增长率”例2.检索课题:查找2004年上海市国民经济生产总值GDP及其增长率。
1.手工检索检索工具:《上海市统计年鉴—2005》通过分类途径在类目“国民经济核算”下进行查找。
2.计算机检索(1)国研网”主页,进入“国研网”主页,。
点击“区域经济”栏目,在“区域列表”中点击“上海”。
在检索框里输入关键词“2004年上海”,检索条件限制在“标题”,并经关键词“GDP”二次检索,得到上海市2004年的GDP相关数据。
结果如下:2004年上海市按经济普查口径核算的GDP为8072.8亿元,比年快报核算的总量增多了622.5亿元,增加8.4%。
(2)中国经济信息网地区数据>> 年度数据(3)国家统计局网站统计数据>> 年度数据_>> 国民经济核算(4)CNKI中国统计年鉴全文数据库(5)上海统计网上海统计信息网——统计数据——上海统计年鉴——国民经济核算(6)搜索引擎检索式:“2004年上海市GDP”一、纸质文献资源的存储与组织的4个基本要素信息内容、载体材料、记录符号和记录方式二、按文献加工深度划分:零次文献、一次文献、二次文献、三次文献的区分零次文献——尚未经过系统整理形成正式文献的零散资料,包括草稿、记录和谈话等。
存储与检索复习题.doc
-A-A- ^*7*-弟一早:1、信息检索就是对信息项进行表示、存储、组织与存取的全过程。
信息存储是指将有用信息按照一定方式组织和存放起来,信息检索是指当用户需要这些信息时,再把它们从存放的地方查找和提取出来。
2、信息检索的原理:参见书上图1-1理解3、信息检索的一致性匹配机理:提取机理、表示机理、比较机理、判断机理、选择机理。
4、信息检索的类型:(1)按照检索对象的性质分为文献检索、数值检索、事实检索;(2)按照计算机检索技术分为脱机检索、联机检索、光盘检索、网络检索。
5、在手工检索阶段,人们常用的概念是检索工具,在计算机检索阶段,人们使用数据库,在网络检索阶段。
人们使用搜索引擎。
6、信息检索系统物理结构组成,逻辑结构的组成和原理。
7、信息检索产生于美国,其发展经历了起步期(以单词检索为特征)、成长期(以脱机检索为特征)、发展期(以联机检索为主)、成熟期(检索转向个人终端)、开放期(以网络检索为主)。
8、信息检索的趋势:跨语言检索、多媒体检索、信息检索可视化、信息检索智能化、信息检索个性化、信息检索多样化。
-A-A- --------- --- ^*7*一弟一早:1、检索策略一般都包含文档集的逻辑表示、查询的表示、相似性匹配及其排序三个要素。
2、经典的检索模型:布尔模型、向量空间模型、概率模型。
要求了解三种模型的思想和原理,重点掌握矢量模型的计算过程。
3、TF-IDF加权策略:对特征项计算权重的方法,该策略由簇内相似性和簇间不相似性两种效果来衡量。
4、将文本内容中的信息与文档结构信息结合起来进行检索的模型叫做结构化检索模型。
包括费重叠链表模型、邻近节点模型、平坦模型(扁平浏览模型)、结构导向模型、超文本模型。
弟二早:1、记录是作为一个单位来处理的有关数据的集合,它是对某一实体的属性进行描述的结果。
常见的书目记录是MARC记录结构,不同的国家有不同的记录格式,但为了进行不同机构间的目录交换,机读目录必须在物理结构、内容标识符、内容数据方面做到统一。
信息检索复习大纲
第1章信息资源概论1、信息资源的涵义信息的涵义:信息是生物以及具有自动控制系统的机器通过感觉器官或者细胞组织,或者具有类似功能的设备部件与外界进行交流的一切内容。
资源的涵义:资源是一切可被人类开发和利用的客观存在。
我们的观点:信息资源是经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据。
2、信息资源的类型及各自的特点我们将信息资源区分为纸质文献型信息资源和电子型信息资源(包括电子出版物、网络信息资源)两大类型。
纸质文献资源的特点:✧携带、书写、保存方便✧直观性✧以纸质为载体的艺术作品的不可替代性✧纸质文献作为收藏品的不可替代性电子信息资源的特点:✧存储形式多样化✧资源数字化✧可交流程度高✧方便利用✧内容丰富✧载体容量大第2章信息存储与检索基础1、信息存储与检索的基本原理信息检索的基本原理:为了促进信息资源的充分交流和有效利用,使用户在信息集合中快速、精确、全面地获得特定需要的信息资源,必须要对广泛、大量、分散、无序的信息进行搜集、记录、组织、存储,以建成各种信息存取系统。
用户则根据检索需要,将需求转变为系统所能识别的检索式,再与存取系统中表征信息资源特征的标识进行逐一的相符性匹配与比较,两者完全一致或部分一致时,即为命中信息,可按用户要求从存取系统中输出。
2、信息存储与检索的历程信息存储与检索走过了文献检索、情报检索的历程,并且正在向着知识检索的领域迈进:文献检索就是一个从文献集合中查找出特定文献的活动、方法与程序,并指明“文献集合”即为经过加工的“众多文献”。
情报检索是一种时间性通信形式,是“发生在当代人之间或当代人与前人和后人之间思想、文化和科学信息的交流,它是实现情报传递的重要环节,它本身就意味着人类的通信。
信息是人类社会和自然界所有物质的一种普遍属性,其概念外延十分宽广。
知识是通过大脑思维重新组合和系统化的信息。
一般认为,“情报”是传递中的知识,文献则是指记录在一定物质载体上的知识。
《信息存储与检索》复习题目
一、名词解释1.信息检索(广义)信息检索是指将信息按一定的方式组织、存储起来,并针对用户的需要查找所需信息的过程。
因此,信息检索包含了信息的存储和检索两个不可分的部分。
2. 著录著录是把文献信息的各种内部、外部特征记录下来的过程,其结果就是形成一条目录信息。
文献信息被著录后能有利于被识别、交流和传播;通过著录的目录信息能方便地指向原始信息。
3. 二次文献二次文献是为了控制文献,便于人们查找,将分散无序的一次文献经过筛选、分析、整理、按其内容特征和外部特征进行提炼、浓缩,编制而成的有检索功能的文献。
4.参考数据库参考数据库指存放某一学科领域原始文献的来源和属性的一类数据库;为用户指出获取原始信息的线索。
数据库中的记录是通过对原始文献的来源和属性的再加工和过滤(如编目、索引、文摘等),记录内容包括文献的题目、著者、主题词、文摘、出处等。
5.元搜索引擎元搜索引擎是对搜索引擎进行搜索的搜索引擎,是对多个独立搜索引擎的整合、调用、控制和优化利用,也被称为“搜索引擎之母”。
6. 检索语言检索语言是信息检索系统存储和检索时使用的共同语言,即:文献存储时,文献的内容特征和外部特征按照检索语言来描述;检索文献时的提问也按照检索语言来加以表达。
7. 搜索引擎搜索引擎是根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
8. 源数据库源数据库是能够直接为用户提供原始资料或具体数据的一类数据库。
源数据库可以提供的数据信息包括数值、事实和原文,能够直接满足用户的信息需求,而不必转查其他的信息源。
9. 追溯法追溯法是利用已有文献后面的参考文献作为检索入口,依据文献之间的引证和被引证关系进行检索的方法。
10. RSSRSS:Really Simple Syndication,真正简易聚合,是站点之间共享内容的一种简易方式,通常在时效性比较强的内容上使用RSS订阅能更快速获取信息,例如Blog、新闻。
信息存储与检索复习资料答案
一、单项选择题1. 以下哪个数据库提供同名作者检索功能:(D )A.万方数据库 B.中国期刊全文数据库C.复印报刊资料全文数据库 D.中文科技期刊全文数据库2. _______提供一次文献的线索。
(B)A.文摘、索引等B.图书C.百科全书D.手册3. 以下属于特种文献的是( B)。
A.图书 B.科技报告 C.报纸D.期刊4. 用主题词检索只可以检索出对应的()5. 我国制定专利法的主要目的就是为了保护发明创造的(D )A.著作权 B.发明权 C.发现权 D.专利权6. 利用分类途径进行检索,其检索标识为( C )A.主题词B.关键词C.分类号D.分子式7. 在一般的著录格式中可以通过_______来判断该文献为会议文献(C )A.Journal B.Report C.Conference D.Patent8. 下列选项中,不属于信息能力的有( B ) A.鉴别 B.传递 C.评价 D.有效利用9. 从狭义上说专利文献就是指(专利注明书)10. Google搜索引擎的首页面上有一个“手气不错”的按钮,这个按钮的作用是什么?(D)A.测试你当天的手气B.提供最相关的一组检索结果列表C.提供最相关的一个检索结果的链接 D.直接跳转到系统认为是最相关的页面11. 利用___索引,我们可以检索任一知名专家的文献被引用的情况(D)A、Citation Index;B、Corporate Index;C、Permuterm Subject Index;D、Source Index;12. 文献信息检索的全过程包括文献信息的______两个过程(C )A.存贮和检索B.存贮和编排C.标引和编排D.存贮和标引13. 利用分类途径进行检索,其检索标识为( C )。
A.主题词 B.关键词 C.分类号 D.分子式14. 已知名叫孙钱章的作者99年出版了一本书,若想找到书名及其他信息,应在下列哪个数据库中查找?( C. )A.中文科技期刊全文数据库B.复印报刊资料全文数据库C. 超星数字图书馆D.万方数据资源系统15. 利用搜索引擎检索有关知识管理方面的学术论文,其检索式采用哪种比较好?(C)A.关键词摘要intitle:知识管理B.论文知识管理PDFC.学术论文知识管理D.学术论文intitle:知识管理16.在中国知网提供的检索服务中,(检索词扩展)起到扩展检索的作用。
信息安全、信息存储与检索重点
《信息存储与检索》部分复习资料1、信息检索是关于信息的结构、分析、组织、存储、搜索和检索的领域。
3、搜索引擎即基本构件:搜索引擎的组件主要提供两种功能,也就是我们所说的索引处理和查询处理。
索引处理建立可查找的数据结构,查询处理使用这些数据结构和用户的查询生成一个排好序的文档列表。
索引处理主要组件包括文本采集、文本转换和索引创建。
查询处理的主要组件包括用户交互、排序和评价。
索引处理文本采集识别和存储文档文本转换将文档转换成索引项或特性索引创建利用索引词创建数据结构(索引),以支持快速搜索查询处理用户交互优化查询、显示结果排序使用查询和索引生成文档排序列表;高效、高质量评价评测和监测系统的效果和效率4、网络爬虫的工作原理检索网页(1)网络爬虫客户端程序连接到一个域名系统(DNS)服务器上(2)DNS服务器将主机域名转换成IP地址(3)网络爬虫用特定的端口连接服务器(4)一旦建立连接,爬虫程序发送一个HTTP请求给Web服务器,请求一个页面○1通常是GET请求网络爬虫(1)网络爬虫有2个任务:(访问网页)下载页面和发现URL(2)网络爬虫的工作由种子(seed)集合开始。
(3)网络爬虫从请求队列中读取URL,开始抓取任务(4)一旦下载了一个页面,就对该页面进行解析,找到链接标签,发现其中的URL。
(5)新的URL地址将被加入请求队列或frontier(6)以上过程重复进行,直到符合某种特定条件(7)网络爬虫花费大量的时间用在等待请求响应(8)为了提升效率,网络爬虫使用多个线程,一次抓取几百个网页(9)网络爬虫可能大量访问同一站点。
(10)网络爬虫使用礼貌策略。
不会在特定的服务器上一次抓取多个页面2次请求之间,至少等待几秒5、搜索引擎是如何工作的:搜索引擎有三个主要的基本部分。
索引数据库检索模块爬虫程序(1)搜索引擎蜘蛛搜索引擎首先利用的是一种俗称蜘蛛(Spider)或爬虫(Crawler)的软件。
搜索引擎蜘蛛访问到一个页面,读取它,然后跟随这个页面链接到这个站点的其他页面,这就是人们所说的站点被套住了或者被爬过了。
湖北汽车工业学院信息存储与检索复习题
1.信息资源:(1)信息资源是信息的集合(2)信息资源是经过人类的选择,获取的有用信息集合(3)信息资源是经过人类组织序化的信息集合2.文献半衰期:某一学科文献从出版到50%的文献内容老化,而是去参考价值所经历的时间3.信息:信息是以生物以及其具有自动控制功能的系统,通过感觉器官和相应的设备与外界进行交换的一切内容4.核心期刊:核心期刊指的是刊载以某一科学(或专业)有关的信息较多,且水平较高,能够反映该学科最新成果和前沿动态,受到该科学读者特别关注的那些期刊5.SCI :《社会科学引文索引》是由美国科学信息研究所(ISI)编辑出版。
它是世界上最早综合性科技引文索引刊物,被公认为世界范围最权威的科学技术文献的索引工具6.影响因子:是国际通行的衡量期刊质量的一个定量指标。
通常期刊的影响因子越大,它的学术影响力和作用力也就越大7.信息检索:是信息用户为处理解决各种问题而(查找、识别、获取)相关的(事实、数据、知识)的活动及过程。
8.SSCI :是目前世界上可以用来对不同国家和地区的社会科学论文的数量进行统计分析的大型检索工具9,一次文献:是人们直接以自己的生产,科研,社会活动等实践经验为依据,经公开发表或交流后的文献。
10,EI :《工程检索》是工程技术领域的综合性检索工具,所报道的文献包括全部工程科学和工程活动。
11.ISTP :科学技术会议索引。
是ISI(美国科学信息所)是一种综合性的检索会后正式发表的会议记录。
出版社的会议记录索引数据库,列入“四大文献索引”之一。
12.信息素质:利用现有的信息解决问题的能力。
1.计算机检索常用的检索技术(技巧)有那些?答:布尔逻辑检索、位置检索、截词检索、加权检索、聚类检索、字段检索。
2.试说明文献老化的几种原因。
答:(1)科技文献产生后随着时间的移动,其流通和使用情况会发生变化(2)有些文献后来被证明是不可靠的或错误的(3)有些文献的内容是正确,但被新文献所替代而导致文献逐渐很少被人使用3.专利一般分为几种?专利文献有哪些?答:(1)专利一般分为三种:发明专利、实用新型专利、外观设计专利。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文献类 型
dt=
பைடு நூலகம்
dt=review
查找文献类型为review的所有记 录
语种
la=
la=Chinese
查找登记语种为Chinese的所有 记录
出版年 py= py=2000
查找出版年是2000年的所有记 录
更新日 期
ud=
ud=990123
查找更新日期是1999年1月23日 的所有记录
15. (简答题)网络信息检索的一般方法(P191) (1) 浏览检索。偶然发现信息,这是Internet中检索信息的原始方法。 (2) 通过资源指南(Resource Guide)来查找相应的信息。是专业人员 利用自身对网络信息资源的产生、传递与利用机制的广泛了解,和对网 络信息资源分布状况的熟悉,以及对各种网络信息资源的采集、组织、 评价、过滤、控制、检索等手段的全面把握而开发出的可供浏览和检索 的“书目之书目”。 (3) 利用网络信息检索工具。利用WWW、FTP等性能优越的信息查 询工具。 (4) RSS订阅。是站定用来和其他站点之间共享信息的一种简易方 式,通常被用于新闻和其他按顺序排列的网站。 (5) 使用搜索软件。 (6) 充分利用E-mail获取信息资源。通过网络传递到用户的E-mail信箱 中。 16. (简答题)搜索引擎的构成(P194)
FirstSearch
国内联机存取系统:(1)万方数据资源统一服务系统 (2)CNKI数
据资源系统 (3)维普数据资讯系统
14. (简答题)DIALOG系统基本索引字段的后缀和检索示例(P148)
字段 后缀代
名
码
示例
功能说明
题名
/ti
Computer/ti
查找题名字段中含有检索词 Computer的记录
索引标题词:亦称款目、索引键、索引标题等,一般处于索引款目中 最醒目的位置,是索引款目的核心,也是信息资源外部特征与内容的标 志
说明语:亦称上下文或修饰语,用来说明、解释、限定索引标题词含 义的辅助项目,说明语可用来区别同一索引标题词的不同含义
地址参照项:位于索引标题词和说明语之后,索引地址所指明的是索 引标题词的出处
15. (简答题)DIALOG系统常见辅助索引字段的前缀和检索示例
(P148)
字段名
前缀代 码
示例
功能说明
作者
au=
au=johnson
查找作者字段为johnson的所有 记录
公司名 称
co=
co=ford motor
查找公司名称字段为ford motor 的所有记录
团体作 者
cs=
Cs=Harvard 查找团体作者为=Harvard and and medicine medicine的所有记录
字、词、句、段落等为存取点查询的全文信息的活动 (5) 图像存取:在基于文本式的检索基础上增加了基于内容的图像存 取 (6) 多媒体信息存取:分为基于文本方式的多媒体信息存取和基于内 容特征的多媒体信息存取
7. 索引款目一般由索引标题词、说明语和地址参照项组成,而简单的 索引款目只有索引标题词和地址参照项组成(P50)
(5) 增值性:对信息资源的投入和使用,不但可以使自然资源、人力
资源、资本资源增值,同时信息资源可以一次投入、多次开发利用,并
不断产生新的信息使其自身增值
2. 信息资源划分为纸质文献型信息资源和电子型信息资源两大类
(P6) 3. 按照网络信息资源的表现形式将网络信息资源分为:电子图书、电
子期刊、电子报纸(P10) 4. 根据存储介质及存储技术,现代信息存储可以划分为以下类型:
用户检索策 略
搜索引擎用户接口
搜索引擎本地的摘要信息数据库
各万维网站点资源
访问
各记录链接
摘要信息反馈
详细信息反馈 18.多元型存取系统是为弥补独立存取系统费时费力之不足而出现的网 上辅助检索工具,可分为3类:并行处理引擎、串行处理引擎和ALL-INONE方式。(P214) 19.多元搜索引擎由3部分组成:检索请求提交机制、检索接口代理机 制、检索结果显示机制。(P217) 20.《全国新书目》、《全国总书目》、《中国国家书目》等是查询中 文图书的重要工具(P232) 21.中国专利局发型的专利文献包括专利说明书、专利公报和专利年度 索引等(P256) 22.《中华人民共和国标准法》规定,我国标准分为四级,即国家标 准、行业标准、地方标准和企业标准(P285) 23.影响数字声音波形质量的主要因素有3个:(P307)
位置逻辑算符:为了弥补逻辑算符的不足,规定了一些位置算符,主 要用于全文数据库查询
截词算符:只在检索词的某个局部截断,利用检索词的词干或不完整 的词形加上截词符号所进行的检索 11. (简答题)信息检索步骤:(P90) (1) 分析检索课题,明确检索需求。任何检索活动开始之前,都必须 认真分析检索课题的学科专业属性、主题概念和用户检索的具体目标、 文献资源的语种类型与时间界限等 (2) 制定检索策略。科学正确的主题分析是正确选用数据库、检索词 和各类算符的先决条件,它决定着检索策略的质量与检索效果 (3) 选择检索系统与数据库。选择检索系统与数据库必须综合考虑检 索系统的特点、学科范围、文献类型、数据库特点、时间限定词以及所 提供的检索路径、功能与服务形式等
并列 链表 模型
层次 邻接 模型
型型型
6.信息存储与检索类型按查询信息的特征划分:(P44) (1) 书目存取:利用文献存取系统,从一个特定的书目集合中查找热 定用户所需的特定主题、特定区域、特定时间文献的程序与方法 (2) 数据存取:以查询各类物质与材料的特性、参数、常数、价格、 统计数据等数值信息为主要对象的信息存取 (3) 事实存取:以客观事实为对象的信息存取活动 (4) 全文存取:利用计算机化的全文数据库,以机器可读的字符代码 形式或文献页面扫描图像形式存储文献正文内容,以便于用户从任意
(4) 确定检索词和检索途径,编制逻辑检索式。 (5) 检索策略的调整。检索策略初步拟定以后,还需要根据预检情况 进行调整 12.(简答题)计算机存取系统结构 信息源 输入子系统 处理子系统 传输子系统 存储子系统 控制子系统 输出子系统 控制子系统 输出子系统
信息源 用户
13. (简答题)列出国内外存取系统(P140) 国外联机存取系统:(1)DIALOG系统 (2)STN系统 (3)OCLC
(1)信息印刷存储 (2)信息微缩存储 (3)信息磁存储 (4)半
导体存储 (5)光盘存储(P34) 5. 信息检索模型和信息浏览模型:(P41)
信息检索模型
信息浏览模型
基于文档内容的 基于文档结构 平面浏 目录导 网状结
检索模型
的检索模型 览模型 航模型 构模型
布概向
尔 逻 辑 模
率 统 计 模
量 空 间 模
(1)采样频率。采样频率等于波形被等分的份数。 (2)采样精度。采样精度即每次采样信息量。
(3)通道数。声音通道的个数表明声音产生的波形数。 24.图像处理一般要考虑三个方面的因素:(1)分辨率 (2)图像灰度 (3)图像文件大小(P308) 25.在多媒体信息标引问题上,基于已有的研究成果,经过分析与归 纳,可按标引入口点的不同将这些标引方式分为3大类:依外在特征的 标引方法、以内容分析为主的标引方法和全方位语义分析法。(P312) 26.连续音频信号经过采样变成离散信号,按照对采样点提取特征不 同,可将音频划分为4类基本特征:时域特征、频域特征、时频特征和 音频片段特征。(P326) 27.基于内容的图像检索技术的关键在于特征提取,以及在图像特征基 础上进行的相似性匹配算法,这些方法与技术融合了计算机图像处理、 模式识别、数据库等多门学科关键技术。(P329) 28.(简答题)视频结构化处理过程(P337) 视频流 镜头 关键帧 运动特征 静态特征 视频特征数据库
特征提取
29. (简答题)中文工具书排检法(P351)
字顺法
分类法 主题法
音序法
形序法
学 科 体 系
事 物 性 质
关 键 词 法
叙 词 法
时序 法
地序 法
地区
法法
汉
语注
笔
拼音韵 部 画 号
音字部 首 笔 码
字母法 法 顺 法
母法
法
法
顺逆名域 时时字排 法法顺检
法法
与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相
关性反馈机制。
用户接口:用户接口的作用是用于输入用户查询、显示查询结果、提
供用户相关性反馈机制,主要目的是方便用户使用搜索引擎,高效率、
多方式地从搜索引擎中得到有效、及时的信息。
17. (简答题)搜索引擎的工作原理(P196)
信息资源搜集
8. 全文检索系统的开发包括选择数据、建立全文数据库和实现文本检 索等功能(P70)
9. 全面智能信息检索系统包括知识库、数据库、文本处理部分和检索 推理机及人机接口(P75)
10. 构造提问检索式的基本要素是检索词、布尔逻辑算符、位置逻辑算 符和截词算符(P78)
布尔逻辑算符:现代计算机信息检索系统多采用这种方式,用户利用 逻辑算法构造检索式可以将一些具有简单概念的检索词组配成为一个具 有复杂概念的检索式,用以表达用户的检索需求
搜索引擎有搜索器、索引器、检索器和用户接口4部分组成
搜索器:又称为Robot、Spider、Webcrawler或Worm。搜索器的功能
是在互联网上漫游、发现和搜集信息。
索引器:又称为索引库或数据库。它的功能是认识理解搜索器所搜索
的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
检索器:功能是根据用户的查询在索引库中快速检出文档,进行文档
叙词
/de
Economics/de
查找叙词字段中含有检索词 Economics的所有记录