信息检索复习重点1

合集下载

信息检索重点复习资料

信息检索重点复习资料

信息检索重点复习资料第一章信息检索概述信息检索(IR):将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。

信息素养:人们在解答问题时利用信息的技术和技能。

信息检索与文献检索的主要区别:文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。

信息检索的分类:1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。

信息检索的原理:通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。

存储是检索的基础,检索是存储的目的。

信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。

信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。

其物理结构:是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。

信息检索语言的主要目的:把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。

信息检索的历史:最早的信息检索主要依靠信息分类。

1手工检索2机械信息检索。

3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型:1布尔模型 2向量空间模型 3概率模型 1浏览型模型:扁平式模型、结构导向模型、超文本模型2检索型模型:结构化模型、基于内容的检索型模型。

信息检索模型是信息检索的核心。

信息检索系统:是具有信息存储和信息查询功能的一类服务设施。

信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS. 信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。

(完整版)信息检索考试重点

(完整版)信息检索考试重点
2、利用从《中文期刊全文数据库》、《中国知网》、《维普科技期刊全文数据库》等查出 10 篇以上专业文章,写出 1500 字以上的综述。 答: 新经济学 新经济时代的到来与传统经济理论的缺陷 当今世界经济发展进入了一个新时代, 这就是知识经济与可持续发展经济的新时代。

hing at a time and All things in their being are good for somethin
(二)
1、什么是检索工具?它的主要作用是什么? 答:检索工具是用来存储、报道和检索一次文献的工具,属于二次文献。 主要作用:报导作用、累计作用、查询作用、选择作用。 2、目录、题录、索引、文摘、文献指南各有那种类型? 答:目录可以分为国家目录、馆藏目录、联合目录、出版社与书商目录和专题目录。 题录的类型一般都是用代号表示。 索引类型可分为篇目索引和内容索引 文摘按其内容的详简程度可以分为指示性文摘和报道性文摘;按其适用对象可以分为一 般性文摘和倾向性文摘;按内容性质可以分为综合性文摘和专业性文摘。 文献指南主要介绍该科学和专题的主要文献类型。 3、什么是参考工具书?它有哪些主要作用? 答:参考工具书是根据一定的社会需要,广泛汇集某一范围的知识材料,按一定方式加以 编排,专供人们解释疑惑的特定类型的出版物。 作用:查字词、查事项、查人物、查机构、查产品、查物名、查地名、查年代、查数据。 4、字典和词典、百科全书、年鉴、名录、图录有哪些主要类型? 答:字典类型一般分为两种:○1 详解词典○2 专门词典。 词典从语种文别角度分为:○1 单语言辞典○2 多语言辞典。 从词量规模角度:○1 大型词典○2 中型词典○3 小型词典。 从收录内容角度:○1 百科全书○2 语文词典○3 专门词典。 百科全书分为两种类型:一类是概括人类一切门类知识,包括哲学、社会科学、自然科学 和应用科学等所有门类知识的综合性百科全书。另一类是指内容只收内容某一学科或某个 门类、某个专业的知识信息的专科性百科全书。 年鉴类型分为综合性年鉴、专业性年鉴、统计性年鉴。 名录类型分为人名录、地名录、物名录、机构名录。 图录类型分为地图录、科学技术用图集、历史图谱、文物图谱及人物图录。 (三)

【云南大学】信息检索期末复习重点

【云南大学】信息检索期末复习重点

【云南大学】信息检索期末复习重点第一篇:【云南大学】信息检索期末复习重点云南大学信息检索重点第一章一、检索策略定义:在处理信息需求提问实质的基础上确定检索途径、检索词语并明确各词语之间的逻辑关系,查找步骤、系统输出顺序等方面的科学安排,与检索效果密切相关。

二、检全率与检准率1.检全率及其影响:检全率=(检出的相关信息数/信息库中相关信息总数)x100%2.检准率及其影响:检准率=(检出的相关信息数/检出的信息总数)x100% 影响检出文献的检索效果的质量。

三、检索模型1.布尔检索模型(1)定义:布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表达用户提问,通过对文献表示与提问式的逻辑运算来检索文献。

(2)优点:简单、易理解、易实现、能处理结构化提问(3)缺点:A.布尔检索式的非友善性,即构建一个好的检索式是不容易的。

尤其是对复杂的检索课题,不易套用布尔检索模型。

B.易造成零输出或过量输出。

检索输出完全依赖布尔提问式与系统倒排挡中的文献匹配情况,输出量较难控制。

C.无差别的组配元,不能区分各组配元的重要程度。

D.匹配标准存在某些不合理的地方。

由于匹配标准是有或无,因此,对于文献中表因此的数量没有评判,都一视同仁。

E.检索结果不能按照重要性排序输出。

2.向量检索模型(1)定义:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。

(2)优点:A.采用自动标引技术维文献提供标引词B.改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在【0,1】闭区间中取值,使标引和检索者都可比较灵活地定义组配元(标引词)与文献的关系深度,改变了布尔检索模型僵化的特点。

C.由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理。

D.检索结果可按提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。

E.布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。

信息检索重点

信息检索重点

1.信息检索(information retrieval) 定义(1)广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关的信息的过程和技术。

所以它的全称又叫信息存储与检索(information storage and retrieval).(2)狭义的信息检索:指广义的信息检索的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们的所说的信息查寻。

(information search)2.检索工具定义:检索工具是人们用来存储、报道和查找文献的工具。

因此,它具有存储和检索的功能。

存储是把分散、无序的文献,采用一定的检索语言使其集中,组织起来,成为有规律的检索系统,变成检索工具。

检索是人们按照有关检索语言,采用一定的方法和途径,检出自己所需的文献。

3.检索策略的定义陈光祚:所谓检索策略就是在弄清用户情报需求实质的前提下,选择检索途径、检索用词以及明确各词之间逻辑关系和查找步骤的科学安排。

赖茂生:所谓检索策赂,是指为实现检索目的而制定的全盘计划和方案,是对整个检索过程的谋划和指导。

4.信息资源:是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。

信息中的载体信息和主体信息是使信息资源的最基本的组成部分。

填空一.检索工具的功能(1)报道功能。

(2)标识功能。

(3)辅助检索功能。

二.检索工具的类型1 按检索方法划分检索工具可以划分为手工检索和机械检索工具两大类型,机械检索工具主要是指计算机检索。

2 按收录范围划分检索工具可分为综合性检索工具、专业性检索工具、单一性检索工具3种。

综合性检索工具收录范围广,涉及多门学科。

专业性检索工具收录的范围仅限于某一学科领域。

单一性检索工具只收录某一特种类型的文献,但学科范围可广可窄。

3 按出版形式划分检索工具又可分为书本式、卡片式、磁带式和缩微制品等形式,书本式又包括书刊式、单卷式和附录式3种。

4 按收录文献的对象和揭示方式来划分⑴目录目录是一批图书或其他单独出版的资料的系统化记载及内容的揭示。

信息检索复习知识点

信息检索复习知识点

信息检索复习知识点1.信息(Information)信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不确定性减少。

* 信息的属性——客观存在性* 信息的作用——消除不确定性* 信息的形式——数据、消息等事实2.各种客观存在的、可供人们直接或间接开发与利用的信息的集合总称为信息资源3. 信息用户Information User信息的使用者即是信息用户。

使用的情况可以包括需要信息、接受信息和利用信息。

4. 信息需求Information Demand人们在社会实践活动中,为了解决各种实际问题,会产生对信息的需要,这种需要可表现为对信息的必要感和不满足感。

我们把意识到的信息需要定义为信息需求5. 信息检索Information Retrieval对信息用户而言,信息检索就是根据各自的目的和要求,选择恰当的信息资源,采用适当的检索手段、检索技术、检索方法,对所需要的信息进行查找、筛选和索取的过程或活动。

6. 信息素质:人们能够敏锐地察觉信息需求,并能进行相应的信息检索、评估以及有效利用所需信息的水平。

* 信息意识* 信息能力* 信息道德7. 信息社会是以知识和信息为基础从而促进社会高速发展的一种社会形态。

8. 经济领域的特征a.劳动力结构出现根本性的变化,从事信息职业的人数与其它部门职业的人数相比已占绝对优势;b.在国民经济总产值中,信息经济所创产值与其它经济部门所创产值相比已占绝对优势;c.能源消耗少,污染得以控制;d.知识成为社会发展的巨大资源。

9. 社会、文化、生活方面的特征10.社会观念上的特征11当代信息环境特征描述* 信息超载严重信息超载又称信息泛滥或信息爆炸。

它是指在信息时代,伴随着科学技术的迅速发展,出现的数据爆炸、信息平庸化以及噪音化趋势,人们无法根据自己的需要和当前的信息能力选择并消化自己所需要的信息。

* 信息失衡明显所谓信息失衡是对由于各国经济水平、科技水平和其它多种相关因素的影响,不同国家、不同地区以及不同阶层的人群在信息占有水平以及利用程度上存在极大差距的描述。

信息检索复习要点

信息检索复习要点

1、文献:为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录在唱片上,或存储在磁盘上。

这种附着在各种载体上的记录统称为文献。

2、文献由四要素构成,即文献信息、文献载体、符号系统和记录方法。

3、信息、知识和文献三者之间的关系:由信息、知识和文献的概念可知,三者之间是密切相关的。

信息是物质存在的方式、形式和运动规律的表征。

人脑对事物属性的感知形成信息;人们对信息集合加工、整理形成系统化,表现形成人类社会实践的知识;知识被记录在载体上形成文献,文献被人类广泛传播、运用在理论和实践中又产生新的信息、知识和文献。

如此循环,不断创新,形成各种各样的新知识,从而推动人类社会前进。

由此可见,信息、知识、文献在社会系统中表现出一种不间断的延续性。

4、具有信息素质的人主要具有以下几个方面的能力:(1)运用信息工具;(2)获取信息;(3)处理信息;(4)生成信息;(5)创造信息;(6)信息增效;(7)信息协作;(8)信息免疫。

5、信息资源的构成可从不同的层次和角度来划分:一、按照信息的出版和加工划分:1 图书;2 报刊;3 会议文献;4 专利文献;5 科技报告;6 学位论文;7 技术档案;8 产品资料;9 标准文献;10 政府出版物。

二、按照信息加工层次划分:按信息加工程度可将信息分为一次文献、二次文献、三次文献。

(1)一次文献即以作者本人的生产与科研工作成果为依据而撰写并已公开发行进入社会流通使用的原始文献。

例如专著、学术论文、科技报告、会议论文、专利文献、学位论文等;(2)二次文献即将大量、分散、无序的一次文献收集起来。

按照一定的方法进行整理、浓缩和加工,使之系统化而形成各种目录、索引和文摘,即编制成具有多种检索途径的检索工具。

二次文献又称为检索性文献;(3)三次文献即根据一定的目的和需求,在大量利用一次、二次文献的基础上,对有关知识进行综合、分析、提炼、重组而再生的信息资源。

信息检索复习提纲一

信息检索复习提纲一

信息检索复习提纲第一章 信息检索的基础知识1.1 信息检索的基本概念一、基本概念1、信息:物质存在方式和运动状态的反应,在发生源和吸收源之间,当发生源发出的信号被吸收源所理解,信号就成为信息 。

2、文献:大凡人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统统可称为文献。

也可以称为固化在一定载体上的知识。

3、资料:固化在一定的实物或载体上的知识。

二、信息的传递渠道:非正式传递渠道和正式传递渠道(非正式过程、正式过程)(1)非正式过程a、科学技术工作者之间就他们从事的研究和研制进行直接对话,如交谈、参加学术会议等;b、科技工作者参观同行的实验室、科学展览等等;c、科技工作者对某些工众作口头演讲;d、交换书信、出版物欲印本和单行本;e、研究或研制成果在发表前的准备工作,包括发表形式以及发表的地点和时间的选择。

(2)正式过程a、为手稿的发表所作的编辑出版和印刷过程,包括写书评;b、科学出版物的发行过程,包括与发行过程有关的书刊商业活动;c、图书馆的书目工作和检索工作;d、信息工作本身,从搜集到检索,包括宣传工作。

三、信息检索(P2-4)(一)信息检索:就是从大量的文献中查寻与信息提问所指定的课题(对象)有关的文献,或者是包含用户所需事实与消息的文献的过程。

它包括三个方面: 数据检索 、事实检索 、文献检索数据检索、事实检索、文献检索三者中以文献检索为主。

数据和事实检索是检索出包含在文献中的具体情报;文献检索则是要检索出包含所需要情报的文献。

四、文献检索及其类型(1)定义:1、检索系统的建立及检索工具的组织和积累2、文献的查寻,利用检索工具检出与课题相关的文献。

(2)文献检索的类型1、直接检索:是从通过阅读原始文献直接获取所需信息。

(快捷、方便 漏查率高)a、直接检索原文易于掌握文献的实质内容,可直接判断其信息内容是否符合信息要求,并可能得到意外的收获;b、直接检索简便易行,并且时效高。

信息检索重点

信息检索重点

一、信息检索四要素1、信息检索的前题:信息意识2、信息检索的基础:信息源3、信息检索的核心:信息获取能力4、信息检索的关键:信息利用二、信息基本特征:普遍性、客观性、扩散和传递性、增值性(创新)、可存贮性和可压缩性、可知性(信息能力)和共享性知识属性:意识性、信息性、实践性、继承性、渗透性情报属性:针对性、知识性、时间性、传递性、效用性信息、知识、情报的关系:信息经过人脑思维加工,即认识飞跃产生知识,情报属于知识的范畴。

广义的情报是信息的传递,因此,情报具有信息和知识两种性质。

三、按载体不同分为:口头信息源、实物信息源、文献信息源四、文献信息源:1、按出版形式不同可分为十种类型:图书、期刊、科技报告、会议文献、政府出版物、专利文献、标准、产品资料、学位论文、技术档案2、按记录信息的材料可分为三种类型:纸印本文献、缩微型文献、机读型文献3、按加工深度不同可划分为四种:零次文献、一次文献、二次文献、三次文献四者之间的关系:从零次文献到三次文献,是一个从分散的原始文献加工整理系统化的过程。

零次文献是一次文献的素材,一次文献是基础,是检索的对象;二次文献是检索一次文献的工具;三次文献是一次文献的浓缩,是情报信息的重要来源。

五、信息检索系统类型:⑴根据检索目标和检出文献信息形式的不同:文献检索、数据检索、事实检索⑵根据具体检索手段不同:手工检索、机械检索六、检索步骤:分析研究课题确定检索范围和检索标识选定检索工具确定检索途径查找和获取原始文献七、信息检索的方法:⒈常用法:是利用检索工具查找文献的方法.⑴顺查法⑵倒查法⑶抽查法⒉追溯法:从已知的现有文献后所列参考文献入手,逐一追查原文,从这些原文后所列参考文献再逐一追查,不断扩检的查找方法⒊循环法:指追溯法常用法混合使用的方法。

八、信息检索的途径:⒈根据外表特征划分著者途径;书名、篇名、刊名途径;序号途径⒉根据内容特征划分分类途径(SA、Ei);主题途径(SA、Ei);分子式途径(CA)九、文献检索的一般步骤:1、分析研究课题2、确定检索范围与检索标示3、选择检索工具4、确定检索途径5、查找和获取原始文献检索途径与方式:初级检索:默认的检索方式高级检索:两种检索方式组合使用,如“篇名”和“著者”。

【云南大学】信息检索期末复习重点

【云南大学】信息检索期末复习重点

云南大学信息检索重点第一章一、检索策略定义:在处理信息需求提问实质的基础上确定检索途径、检索词语并明确各词语之间的逻辑关系,查找步骤、系统输出顺序等方面的科学安排,与检索效果密切相关。

二、检全率与检准率1.检全率及其影响:检全率=(检出的相关信息数/信息库中相关信息总数)x100%2.检准率及其影响:检准率=(检出的相关信息数/检出的信息总数)x100%影响检出文献的检索效果的质量。

三、检索模型1.布尔检索模型(1)定义:布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表达用户提问,通过对文献表示与提问式的逻辑运算来检索文献。

(2)优点:简单、易理解、易实现、能处理结构化提问(3)缺点:A.布尔检索式的非友善性,即构建一个好的检索式是不容易的。

尤其是对复杂的检索课题,不易套用布尔检索模型。

B.易造成零输出或过量输出。

检索输出完全依赖布尔提问式与系统倒排挡中的文献匹配情况,输出量较难控制。

C.无差别的组配元,不能区分各组配元的重要程度。

D.匹配标准存在某些不合理的地方。

由于匹配标准是有或无,因此,对于文献中表因此的数量没有评判,都一视同仁。

E.检索结果不能按照重要性排序输出。

2.向量检索模型(1)定义:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。

(2)优点:A.采用自动标引技术维文献提供标引词B.改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在【0,1】闭区间中取值,使标引和检索者都可比较灵活地定义组配元(标引词)与文献的关系深度,改变了布尔检索模型僵化的特点。

C.由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理。

D.检索结果可按提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。

E.布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。

(3)缺点:A.如检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系B.由于对任何一个提问都需要计算全部文献库中的每一篇文献,因此,计算量大、算法复杂度高。

信息检索知识点

信息检索知识点

信息检索知识点信息检索考点整理 1 、信息检索的概念广义的信息检索就是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储与检索两个过程; 而狭义的信息检索仅指有序化信息的检索查找。

2. 信息检索的原理就就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡就是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就就是初步命中检索所需的信息。

3 、为什么说信息存储与检索就是两个不可分割的有机体?检索的全过程包括存储与检索两个过程,存储与检索就是相辅相成、不可分割的。

存储过程主要就是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要就是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。

检索过程就是存储过程的逆过程。

因此,检索者只有在全面了解存储者就是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。

4 、信息检索的方法 (1)顺查法 (2)倒查法 (3)抽查法(4)追溯法 (5)循环法 5 、信息检索的途径 (1)内部特征途径a) 分类途径 b) 主题途径 (2)外部特征途径 a) 题名途径 b) 著者途径 c) 文献编号途径 d) 检索途径 e) 机构检索法 f) 引文检索途径 6 、布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2) 可操作性强,应用广泛;(3) 构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4) 能处理结构化提问。

缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7 、概率排序原则: 如果一个检索系统对用户的每个检索提问的反应就是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果就是最好的。

信息检索复习提纲及答案

信息检索复习提纲及答案

信息检索复习提纲及答案第一篇:信息检索复习提纲及答案“信息获取与利用”复习大纲1.什么是信息素养?简述评判是否具备信息素养的标准是什么?结合自己的实际工作,谈谈提高信息素养的途径。

答:指个人“能认识到何时需要信息,和有效地搜索、评估和使用所需信息的能力”。

标准:⑴能够独立决定所需信息种类和程度。

⑵能够高效地获取所需信息。

⑶能够根据现有的知识背景和评价标准对信息及其来源进行评价及遴选。

⑷能够有效地利用信息达到某一特定的目的。

⑸能够在信息利用过程中遵守相关的法律法规。

途径:⑴通过网络搜索⑵信息检索课⑶参加“图书馆利用系列讲座”等信息实践活动。

2.信息、知识、情报的概念?举例说明概念间的区别和联系文献?答:信息,由事物发出的消息、指令、数据等所包含的内容。

如花的生长方向。

知识,是人类社会实践的总结,是人的主观世界对于客观世界的概括和如实反映。

如每天吃一个苹果有利健康。

情报,是激活了、活化了的知识,是为特定目的服务的信息。

如搜索汽车替代燃料时,获得有关乙醇汽油的信息就是情报。

3.文献有那些类型?将文献划分成这些类型的依据是什么?答:纸张文献、缩微文献、电子文献、音像文献。

依据知识内容、记录载体、记录方式。

4.科技文献的作用是什么? 答:⑴科技进步的阶梯。

⑵传递科技信息或知识。

⑶加速科学技术的进步,促进了社会的发展。

5.比较图书和期刊,他们各自有哪些特征,其特点和用途是什么?答:图书特点,内容系统、全面、成熟、可靠,但时效性较差。

用途,对范围较广的问题获得一般知识、或对陌生的问题获得初步了解。

特征,书名、著者、出版社名称、出版地点、出版时间、图书总页数、ISBN。

期刊特点,品种多、数量大、出版周期短、报道速度快、内容新颖、及时反映当前科技水平。

用途,是科技人员吸取成果、掌握进展、了解动态、开阔思路的重要参考文献。

特征:论文题名、著者、期刊刊名、卷号、期号、起止页号、ISSN。

6.特种文献有哪几种类型,简述其中任意两种的特点。

信息检索复习要点

信息检索复习要点

复习要点1.什么是原文出处?获取文献全文的途径有哪些?搜索引擎,本馆资源,全国范围内的纸本馆藏,申请图书馆的文献传递2.检索词的选择对查全率的影响(切分、删除、扩展)。

切分是对课题的语句以词为单位进行拆分,转换为检索的最小单元。

删除是对课题中不具有实质性检索意义的:虚词(如介词、连词、副词等)选择性删除:使用频率较低的词、专指性太高、过分宽泛的词、过分具体的限定词扩展:找到意思相同或相近的词汇;立足规范词,兼顾自由词;注意词的全称、简称及缩写字母;必要时应向上下位类词扩检;外来词的译写变化3.检索字段对查全率、查准率的影响。

可分为基本检索字段和辅助检索字段。

基本检索字段是指反应文献内容特征的字段。

如题名、文摘、主题词等。

辅助字段是指反应文献外部特征的字段,如作者机构、来源出版物、出版年等。

限制范围大小:题名<关键词≈摘要<(主题)<全文截词检索是防止漏检,提高查全率的一种常用检索技术,主要用于英文电子资源的检索。

用*或?表示。

不同检索系统使用的截词符种类和功能不同。

截词是在检索词的适当位置进行截断,节省输入的字符,达到较高的查全率。

根据截词符在检索词中的位置,可分为前截词、中截词和后截词。

常用的词位检索有:邻位检索和字段检索4.每个数据库的检索技术以和所使用到得符号,以及这些检索技术对查全查准率的影响。

概念交叉或概念限定关系:数据库中使用符号“* ”或“AND ”搜索引擎中使用“空格”表示,增强了专指度,提高了查准率。

具有概念并列关系的组配:数据库中使用符号“+ ”或“OR ”搜索引擎中可在关键词之间使用“OR”连接符,对于百度是用的“| ”连接符,注意连接符与搜索词之间必须要有空格。

扩大检索范围,提高了查全率。

具有概念排除关系的组配。

数据库中使用“- ”或“NOT ”搜索引擎中使用“- ”,注意前一个关键词和减号之间必须有空格,减号和后一个关键词之间,有无空格均可。

提高查准率,影响查全率检索技术:1.布尔逻辑2.同义词、同名作者检索3限制检索检索方式:传统检索,基本检索,高级检索,期刊导航5.什么是ISSN号。

信息检索重点

信息检索重点

信息的基本概述一信息:1.信息的特征(5个普遍性与客观性、依存性与传递性、可知性与共享型、可扩充性与可压缩性、时效性与滞后性)2.数据信息、知识、文献、情报、智慧DIKW模型看截图3.信息检索的概念与本质(匹配过程)本质:是用户的信息需求和信息集合的匹配过程,进而满足用的信息需求的过程二信息资源(定义信息资源是人类在认识世界和改造世界过程中产生、整理、记录的有用信息的集合)1.信息资源的类型按时间的产生顺序先导信息资源、即时信息资源、滞后信息资源按传播形式口头信息资源、文献信息资源、实物信息资源按载体形式书写型、印刷型、缩微型、视听型、数字型按出版形式(十大科技情报源)图书、期刊、会议文献、学位论文、专利文献、科技报告、标准文献、技术档案、产品资料、政府出版物按加工深度(零次一次,二次)一次文献知识的首次固化期刊论文、标准、报告、文献等:是依据作者本人的科研成果而撰写的首次记录科研成果的原始文献二次文献检索工具题录,目录,书录,文摘,索引:是对分散的无组织的一次文献进行加工整理、压缩、提炼、简化、整理的产物三次文献直接提供答案百科全书,词典,手册:对大量一次文献经过综合、分析、提炼撰写而成零次文献实验数据,观察记录,手稿等:是形成一次文献之前的信息、知识、情报、即未公开记录或未公开与社会的最原始的文献,或没有正式的发表的文字材料信息资源的特点能够重复使用、具有整合性、具有流动性、共享性、实效性、动态性、不可分性、支配性信息资源的作用可以减少物质与能量的作用,从而极大提高社会劳动生产率,有利于实现国民经济的可持续发展。

信息资源已经成为了当今社会的核心资源。

信息资源的开发利用,可有效降低社会的运营成本三信息社会(概述与内容包括哪三类资源)信息素养的三个层次:基础性、自我满足性、自我实现性信息素养(IL)(定义美国图书馆协会:具有信息素养的人能够知道什么时候需要信息,能够有效的识别、获取、评价、和利用所需要的信息)信息素养的内涵:信息意识对信息的敏感程度,有效发现信息需求,是人们产生信息需求,形成信息动机和兴趣的动力和源泉信息知识信息的基本知识(相关理论、知识与方法),信息技术和知识(信息技术原理)等信息能力获取、理解、处理、表达、评价、利用、创新等信息法律与道德(又称信息伦理)了解利用信息所涉及的经济、法律和社会问题,合理、合法地获取和利用信息第二章信息检索绪论一信息检索概述信息检索概念广义:存储和查询将信息按一定的方式组织和存储,并根据信息用户需求查找所需信息的过程侠义:查询从信息集合中查询信息用户所需信息的过程(仅指从已经存贮的具有检索功能的信息集合中查询出所需要的信息的过程)信息检索原理信息需求与信息集合:匹配检索者将检索提问式与存储与检索系统的文献标引词进行匹配对比,取得一致性即为最符合要求的结果信息检索类型信息检索内容对象数据、事实、文献信息检索组织方式全文、超文本、超媒体信息检索的手段手工与计算机信息检索步骤6个分析课题明确需求、选择检索工具或数据库、确定检索方法、确定检索途径、查找文献检索、获取原始文献。

计算机信息检索复习

计算机信息检索复习

计算机信息检索复习计算机信息检索是指通过计算机技术来获取和利用大量信息资源的过程。

在现代社会,数据量爆炸式增长,人们需要从海量的信息中快速准确地找到所需的信息。

计算机信息检索因此成为一门重要的学科,被广泛应用于各个领域。

本文将从计算机信息检索的基本概念、分类方法、技术算法以及发展前景等方面进行复习。

一、基本概念1.1 信息检索与搜索引擎的区别信息检索是指通过用户输入的关键词等信息,在信息资源中查询并返回相关信息的过程,而搜索引擎是指以互联网为载体,通过爬取、索引和检索技术,提供全面、快速、准确的信息查询服务。

1.2 关键词关键词是用户在进行信息检索时使用的重要词汇,它能够准确描述用户的需求。

在信息检索系统中,关键词通常通过布尔逻辑运算符进行联合查询,以便更加准确地匹配用户需求。

1.3 相关性相关性是指检索结果与用户需求的一致程度,是衡量信息检索系统性能的重要指标。

相关性通常通过计算文档与查询之间的相似度来确定。

二、分类方法2.1 根据检索领域根据检索领域的不同,可以将计算机信息检索分为一般文本检索、专业文献检索、多媒体检索等。

2.2 根据检索模式根据检索模式的不同,可以将计算机信息检索分为精确检索和模糊检索。

精确检索要求检索结果与用户需求完全一致,而模糊检索则容许检索结果与用户需求存在一定程度的差异。

2.3 根据检索技术根据检索技术的不同,可以将计算机信息检索分为基于关键词的检索和基于内容的检索。

基于关键词的检索是目前应用最广泛的检索方式,而基于内容的检索则能够更好地满足用户个性化需求。

三、技术算法3.1 倒排索引倒排索引是一种常用的信息检索技术,它将文档集合中的每个词汇与包含该词汇的文档进行关联,快速地定位文档。

倒排索引能够大大提高检索效率和准确性。

3.2 向量空间模型向量空间模型是一种通过计算文档与查询之间的相似度进行检索的方法,它将文档和查询表示为向量,通过计算它们之间的夹角来衡量相似度。

信息检索复习要点

信息检索复习要点

复习要点:1.如何查找纸本原文,必备信息是什么,刊名等同于什么刊名等同于ISSN号,必备的信息是,文章题目、期刊名称或是ISSN号,年/卷/期。

先查找有无电子全文。

谷歌搜索、SFX全文搜索系统、先查本馆纸本期刊目录,获取论文全文中的查询本馆纸本期刊目录,联合目录。

2.哪些数据库有自动截词功能?EI3.中文科技期刊数据库、SCI和EI数据库的精确检索是如何实现的中文:可选择限定检索学科领域可选择逻辑算符可选择跨库检索的其他检索方式可选择匹配度二次检索其他限制条件EI:精炼检索结果位置:检索结果显示页左侧Refine Search的工具栏添加一个检索词的二次检索(Add a term )优化和调整检索结果(限定(Limit to)按钮或排除(Exclude)按钮:作者、作者机构、规范词、分类类名、国家、文献类型、语种、出版年、刊名、出版者等限定字段4.数据库检索结果的排序方式CNKI:主题发表时间被引下载EI:相关度和时间系统提供5种排序方式(按相关度、出版年代、作者字顺、刊名字顺和出版者字顺)5.主要的全文数据库CNKI、维普、万方:中文期刊全文数据库。

EBSCO、ScinceDirect、SpringerLinker:外文全文数据库。

6.Web ofScience数据库中包含有哪些数据库?SCIE/SSCI/A&HCL/CPCI-S(ISTP)/ CPCI-SSH7.查全查准率如何实现?提高查全率(扩大检索结果)的方法☐选择较大字段:如摘要、主题、全文、任意字段等☐尽量多用同义词、近义词、反义词、缩写词、上下位类词(增加逻辑或关系)☐减少逻辑与关系(限制条件)☐采用模糊匹配功能☐扩大检索年限☐使用截词符(*?$)提高查准率(缩小检索结果)的方法☐选择较小字段:如篇名(题名)、题名或关键词字段☐尽量增加核心检索词:从内容中挖掘核心词☐使用词位检索☐采用精确匹配/精确短语功能☐采用“AND”或“NOT”算符连接检索词或进行二次检索。

信息检索复习吐血整理1

信息检索复习吐血整理1

1.信息、知识、情报、文献之间的关系(1)信息论的创始人---------美国数学家克劳德 香农信息是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达,是一种客观存在的物质运动形式。

信息的主要功能包括以下两个方面:①信息和材料、能源一样,是一种重要的资源。

信息作为一种资源,即信息资源②材料、能源提供的是具体的物质,而信息提供的是知识和智慧。

广义的信息资源是指信息活动中各种要素的总称,既包含信息本身,也包含与信息相关的人员、设备、技术、资金等因素;狭义的信息资源只限于信息本身,是指各种载体和形式的信息的集合,包括文字、音像、印刷品、电子信息、数据库等。

(2)知识的类型可以从不同角度划分为知事、知因、技能、知人;知识是对信息的理解和认识,是信息的一部分。

信息可分为正确信息和虚假信息、有用信息和无用信息,而知识是在实践中获取并经过实践检验的正确、有用的信息。

(关系)(3)情报是由以下三个基本要素构成:一是知识或信息、二是要经过传递、三是要经过用户使用产生效益. 效益是情报的结果情报是人们用来解决特定问题所需要的、经过激活过程活化了的具有使用价值的知识或信息。

情报是特定的知识,是知识的一部分。

(关系)(4)文献是指以任何形式出现的,作为标准书目著录的书目文献实体,我们可以认为,文献是记录知识的一切载体,即用文字、图形、符号或声频等技术手段记录知识的物质载体,或称固化在物质载体上的知识。

(关系)信息、知识、情报和文献之间的关系见小抄信息检索及其相关概念(1)信息检索信息检索是指将信息按照一定的方式组织和存储起来,并根据信息用户的需求查找出相关信息的过程。

信息检索有广义和狭义2重含义。

信息检索的实质就是将用户的检索提问标识与存储在信息检索系统中的信息特征标识进行比较、匹配,两者一致或者信息特征标识包含着检索提问标识,则具有该标识的信息就从检索系统中输出,输出的信息就是检索命中的信息。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索第二章信息用户一、用户信息需求的概念1、概念:是指人们在实践活动过程为解决遇到的各种问题而产生的信息不足感与求足感2、主要特点:广泛性、社会性、发展性、多样性、主观性、客观性二、用户信息需求的基本类型1、按信息的属性分自然信息需求:对客观存在的自然物信息的不足感与求足感,强调物质属性社会信息需求:生活中的信息需求、职业活动中的信息需求、个体社会化的信息需求2、按信息需求的目标分主题需求:战略性信息需求、战术性信息需求、工作性(经营性)信息需求已知资料需求:信息查对需求3、按信息需求的表现形态分(沃格特)新信息需要:需要能及时获得、迅速传递的最新信息,强调及时性片断性信息需求:某一理论、方法、事件等的片断信息,以解决具体问题,强调准确性完整性信息需求:对特定相关信息的系统把握,强调全面性三、用户信息需求状态(Mizzaro)1、客观信息需求(Real Information Need,RIN):用户解决某特定问题所需要的信息2、意识到的信息需求(Perceived Information Need,PIN):户在问题及外界刺激下所感知到的信息需求3、表达出来的信息需求(Request):用户在一定条件下对意识到的信息用自然语言表达出来的信息需求4、信息提问(query):用户用所选择信息检索系统的检索语言相对应的语法形式描述的信息需求四、用户需求提问1.需求提问的类型划分1)、从提问的规定性上分类明确性提问:问题初始条件与目标状态清楚不确定性提问:问题初始条件或目标状态不清楚2)、从功能上分类认知性提问:咨询提问和评价提问非认知性提问2.需求提问的结构分析主题分析:描述用户信息需求的内容范畴。

包括主题概念、学科范围外部要求:描述用户信息需求的基本规定。

包括:目标:反映需求的目标状态规模:反映需求的数量指标类型:反映需求的信息形式其它:反映需求的其它要求(如年代、语种等)3.需求提问质量的评价标准相关度(pertinence/relevance):与解决问题的相关性准确度(accuracy):提问能否用一定规则准确地固定下来特定性(specificity):有关某一特定事物或主题的特殊要求4.需求提问的反馈调节反馈调节的内容:明确主题范畴、目的与动机、查寻者个人特征、预计或可接受的回答(数量要求,信息类型,语种,时间分布,等)•信息检索基本原理(检索过程,行为模型)▲一、信息检索过程1、概念狭义:从特定信息源中找出符合特定需要的信息单元基本环节概念形式的逻辑过程操作形式的技术过程广义:是从信息需求开始到信息利用结束的全过程2、信息检索的逻辑过程信息标引过程信息检索式的形成信息匹配查找3、信息检索的技术过程信息标引与标引结果的组织检索式及其制定检索匹配过程获取原始信息4、检索过程的基本假定信息单元内容可明确客观地判断且唯一表达用户信息需求也可明确客观地判断且唯一描述只要采用相同的检索语言体系和描述规则,可明确客观地判断标引式与检索式的一致性,并由此判断信息单元与信息需求的一致性5、检索过程的形式化描述信息检索过程可形式化描述为四维数组S={I,Q,F,R(ij,q)}匹配函数为实际检索过程匹配函数设K为检索状态值,则关于q检出信息集二、检索过程的用户信息状态潜在信息需求(Real Information Need) :K[I]=K[D]-K[S]意识到的信息需求(Perceived Information Need)设特定主体对特定潜在需求的意识转化系数为λ1,则有K1*I+=λ1K*I+提问(Request & Query)设特定用户对意识到信息需求准确表达系数为λ2,则有K2*I+= λ2k1*I+使用(Useness)设特定用户对检索结果信息的吸收系数为λ3,则有ΔI= λ3k2*I+当λ1λ2λ3=1时,K[D] =K[S+ΔS] 完全信息决策过程当0<λ1λ2λ3<1时,K[D] >K[S+ΔS] 有限信息决策过程当λ1λ2λ3=0时,K[S] =K[S+ΔS],零信息决策过程决策者以自身的主观知识和经验足以确定其操作要素,即K[S] =K[D]信息需求无法识别,即λ1=0信息查找过程中止,即λ2=0信息理解失败或没有新信息内容,即λ3=0▲三、信息检索行为模型信息检索行为的内涵是指在明确的信息需求基础上以各种方式获取所需信息过程所表现出来的行为信息检索行为模型对用户信息检索过程中的行为模式以某种形式表达出来的结构框架1、Dervin模型三要素模型状态(situation)特定时空中问题提出的背景差距(gap)个体认识上的不确定性使用或帮助(use/help or outcome)问题解决后获得的结果2、Ellis模型开始(starting)联接(chaining)浏览(browsing)跟踪(monitoring)区分(differentiating)采集(extracting)证实(verifying)结束(ending)3、Kuhlthau模型开始(initiation)选择(selection)探查(exploration)形成(formulation)收集(collection)结束(closure)4、Wilson模型基本主张信息需求并不信息检索行为的唯一动力,而是心理、认知与情感三方面的综合体信息获取过程中可能会遭遇各种不同背景下的干扰或障碍几个模型1981年模型及修正模型1996年模型四、信息检索的相关性原理1.相关(relevance)研究的历史性回顾1958年,ICSI(科学信息国际会议)上B.C. Vickery首次提出相关性概念60年代,研究相关性的定义、类型、相关性判断的各种可能影响因素70年代,试图建立相关性理论框架80年代,在相关研究中引入认知模型2.相关的几种典型定义1967年Cuadra与Katter的定义(系统相关)相关是信息条件叙述(即输入系统之检索问题)和文献内容间的一致性,亦即文献涵盖的内容对信息条件叙述的适合程度1971年Cooper的定义(逻辑相关)“一句子和信息需求相关的必要条件是其所属文献(以存储的句子表达)必须包含构成信息需求的最小前提组(minimal premise set)。

”1973年Wilson的定义(情景相关)相关信息的判断不仅涉及主题,而且与用户所处的环境相关,尤其是用户的知识状态1992年Harter的定义(认知相关)相关的判断由用户知识状态的改变来量度,是一个动态变化的过程3、相关性的基本特征关系(relation)直觉的(intuitive)多维的(multidimensional)动态的(dynamical)▲4、信息检索的相关性模型(Mizzaro’s Model )第一维:信息源(Information Resource)三个层次文档(document),文档替代品(surrogate),信息(information)信息源集合InfRes={Surrogate, Document, Information}第二维:用户信息需求(User’s Information Need)四个层次真实的信息需求(RIN)感知到的信息需求(PIN)检索请求(Request)查寻提问(Query)UserIN={RIN, PIN, Request, Query}第三维:时间(Time)从RIN开始的反复迭代时间过程Time=,t(rin0),t(pin0),t(r0),t(q0),…,t(rink),…,t(qn)-第四维:组件(Components)基本成分主题(topic),任务(task),情境或语境(context)Comp=P(Topic,Task,Context)={{Topic},{Task},{Context},{Topic,Context},{Topic,Task},{Task,Context},{Topic,Task ,Context}}相关的形式化定义Relevance=InfRes×UserIN×Comp×Time▲典型的相关形式(3种)语法相关检索表达式与信息特征集合在形式(词形、词间关系)上是否匹配形式化描述Rel(Surrogate,Query,t(q0),{topic})语义相关:用户表达出来的信息需求与信息单元间的匹配关系形式化描述:Rel(Information,Request,t(q0),{topic,task,context})语用相关:用户的实际信息需求与检出信息单元间的匹配关系形式化描述:Rel(Information,RIN,T,{topic,task,context})5、影响相关性判断的因素信息与信息表示用户提问判断的环境与条件判断表达模式判断者特性五、数学模型(▲检索模型:集合模型,代数模型,概率模型)指为了某种目的,对现实世界的某一特定对象作一些必要的假设与简化,运用适当的数学工具得到的一种数据结构。

信息检索数学模型:运用数学语言与工具,对信息检索系统中的信息及其处理过程加以简化与抽象而得到的能描述信息检索实质的一种数据结构。

一、布尔检索模型(Boolean Retrieval Model)1.布尔检索的历史回顾与定义简要回顾1957年,巴.希列尔探讨了布尔逻辑在信息检索中应用的可能性1960年,在MEDLARS中成功应用造就了布尔检索的长期繁荣布尔检索模型的含义采用布尔代数的方法,用布尔表达式表示用户提问,通过信息标识与提问式的逻辑比较来检索信息的一种数学模型2.布尔检索的基本原理对信息单元用一组标引词予以表达,如信息i表示为:Ii=(T1,T2,T3,‥‥,Tm)信息提问用逻辑符号来描述概念间的关系,如某特定提问表示为:Qj=(T1×T2)+(T3×(-T4))系统以集合运算方式处理信息提问与信息单元表示间的匹配比较,响应输出一个包含有该提问式组配元且符合组配条件的信息集合检索课题Web2.0技术在交互式检索中的应用及前景分析概念,拟定检索式Web2.0(A),交互式检索(B)检索式:A×B或A+B检索实现机制集合论运算3.布尔检索模型的优点布尔逻辑式可以描述和用户思维习惯相一致的查询请求;布尔运算简单易行易于处理结构化的提问表达式,用户可通过结构化词典来扩大或缩小检索范围4.传统布尔检索模型的缺点布尔检索式的非友善性较难控制检索输出量无差别的组配元准确匹配标准不太合理检索结果不能按任何用户定义的重要性排序输出二、模糊集合模型(Fuzzy Sets Model)1.模糊集合模型的历史回顾1973年,内戈伊塔(C.V. Negoita) 尝试用模糊逻辑来解释信息检索的原理1976年,塔哈尼(V. Tahani) 建立了模糊集合检索模型,拉德基(T. Radechi) 等人提出为提问中每个词选定一个阈值来简化运算过程1991年,奥加娃(Y. Ogawa)与莫瑞塔(T. Morita)等人提出了一个更好的模糊模型2.模糊集合模型的含义概念:以模糊集合论为基础,用隶属度函数来描述信息单元,用布尔逻辑关系来描述提问并进行检索的检索模型逻辑关系的运算设A与B是两个模糊集合,AC是论域U上相对于A的补集,x为U中任一元素,则有μA∪B(x)=max(μA(x), μB(x) )μA∩B(x)=min(μA(x), μB(x) )μAC(x)=1- μA(x)3.模糊检索模型的基本原理用隶属度函数来描述信息单元与标引词间的相关程度对某一给定的信息单元i和标引词t,i对t的隶属度可以定义为:μF:I ×T→[0,1] ,(i,t) →μF(i,t)标引时,除给出标引词外,还要指出标引词与信息单元间的相关程度,如i1={(t1,0.8),(t2,o.5)} 用户提问可用布尔逻辑表达,并给出所需信息中每个标引词的隶属度检索过程中,模糊集合的运算根据扎德规则来进行,检索结果排序输出4.模糊检索模型的主要特点与传统布尔检索关系密切,保留了布尔检索功能,且使用更灵活检索结果可按用户定义的重要程度排序输出5.模糊检索模型的不足由于建立在布尔逻辑的框架上,故带有布尔模型的某些缺陷排序能力对提问式中所有词并不灵敏定义合适的隶属度函数不太容易三、扩展布尔检索模型(Extensive Boolean Retrieval Model)1.扩展布尔检索模型的原理解决问题布尔检索中的刚性处理(含少量提问词与含大量提问词同等对待)基于标准化距离函数(欧氏距离和向量范数)来匹配提问式与信息单元。

相关文档
最新文档