数字信息检索与利用复习重点
信息检索与利用复习重点
一、工具书概念:根据一定的查阅需要,系统汇集有关的知识资料,以特定的编排方式和检索方法,为人们迅速提供知识信息或资料线索,专供查阅的图书(文献)。
工具书的特点:①信息密集②资料性强③查考为主④方便检索工具书类型:1 检索工具书又称线索性工具书,主要提供查找文献的线索:书目、索引、文摘。
2 参考工具书主要向读者提供可资参考的知识内容,如数据、史实、结论、定义、人物简介等数据和事实信息:字典、词典、百科全书、年鉴、手册、名录、数表统计资料、表谱、图录等类型。
3 边缘工具书——形式上不是工具书但具有查考检索作用的图书。
丛书、总集、汇编、综述、史志、学科史及要籍等。
工具书的结构:①序、跋②凡例③目录④正文⑤辅助索引⑥附录、参考文献工具书的鉴别与选择原则:1)看其主流,考察内容材料,看内容是否完备、材料新颖可靠,解释引证准确2)客观、正确,有无立场、观点问题3)了解编制体例,编排方式、检索方法、印刷规则、文体。
4)同一种工具书的不同版本。
鉴别与选择的方法1)查考编辑者与出版者2)编纂和出版的年代、审察版本3)查考序跋、凡例和目次4)辨别正文——选条试查、定条比较 5)参阅书评二、机器检索及光盘、联机与网络检索计算机检索:人们在计算机或计算机检索网络终端机上,使用特定检索指令、检索词和检索策略,从计算机检索系统数据库中检索出需要的信息,继而再有终端设备显示或打印的过程。
信息检索工具:指用以报道、存储和查找文献线索的工具。
它是附有检索标识的某一范围文献条目的集合,是二次文献,如书目数据库、搜索引擎、索引、文摘。
检索工具的分类:1)(文献检索工具)提供线索的指示型检索工具(二次文献):书目、馆藏目录;索引;文摘;工具书指南2)(事实与数据检索工具)提供具体信息的参考工具(三次文献):1词典2类书、政书、百科全书3、年鉴4传记资料5表谱、图录6、政府文献7名录、手册8数表、统计集9丛集汇要10地理资料信息检索途径:1)外部特征途径:题名途径,著者途径,序号途径2)文献内容特征途径:分类途径,主题途径,关键词途径,分类主题途径,其他途径。
信息检索与利用考试复习大纲(1)
信息检索与利用考试复习大纲1、信息素养的内涵狭义上的定义认为信息素养是指具有应付和适应信息技术的能力;广义的信息素养是指关于检索和利用各种信息源以解决信息需求的能力,要求具有发现、评价、利用以及交流知识的能力。
具备信息素养的人必须渴望知道某种知识或某个问题的答案,必须能够利用分析技能系统提出问题,必须能够识别研究方法,必须能够利用批判性技能对信息进行评价。
更有学者认为信息素养是人文素质的一部分,是人文社会的信息知识、信息意识、接受教育、环境因素等所形成的一种稳定的、基本的、内在的个性和心理品质。
纵观国内外关于信息素养的定义,我们可以总结出一些共同的内容:①确定自己的信息需求;②明智地选择信息资源;③有效和高效地检索信息;④评价与选择信息;⑤能够利用多种媒介;⑥有效地将信息传递给他人;⑦了解与信息检索、利用相关的法律、道德、伦理问题。
信息素养的培养主要从信息意识,信息道德,信息能力几个方面进行。
2、信息、情报和文献的定义文献:记录有信息或知识的一切载体。
情报:为一定目的而搜集和传递的有特定效用的知识。
信息:是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。
情报的三个基本属性是什么?知识性、传递性、效用性3、构成文献的四要素是什么?知识内容、物质载体、记录符号、记录手段4、按文献的出版形式和内容划分为几种类型?文献信息按出版形式的不同可划分为图书、期刊、报纸和特种文献。
(图书、期刊、报纸、专利信息、标准、学位论文、科技报告、会议信息、政府出版物、产品样本资料、技术档案)其中哪些类型可称为特种文献?特种文献:科技报告、会议文献、专利文献、标准文献、学位论文、政府出版物、产品资料、技术档案5、文献按载体形式可划分为几种类型?(手写型、印刷型、缩微型、声像型、机读型)6、一些文献类型的特征号码ISBN,ISSN,CN,GB2763-1981,GB/T各表示什么?ISBN:国家标准书号的简称;ISSN:国家标准刊号;CN:国内统一刊号简称;GB2763-1981:粮食、蔬菜等食品中六六六、滴滴涕残留量标准;GB/T:我国的国家推荐型标准。
信息检索与利用复习资料
第一讲图书馆的利用一、图书馆基础知识1.图书馆定义(1)图书馆是收集、整理、存储和利用文献信息,并为社会的政治、经济服务的文化教育机构。
(2)图书馆是社会知识、信息与文化的记忆装置、扩散装置。
3.我国图书馆的现状(1)国家图书馆(2)公共图书馆系统(3)科学、专业图书馆系统(4)高校图书馆系统二、高校图书馆的利用1.图书馆的传统服务(1)外借服务(2)阅览服务(3)参考咨询服务(4)馆际互借服务(5)读者教育与培训2.图书馆的网上服务(1)馆藏书目数据库检索服务(2)网上文献信息传递服务(3)网上信息共享服务(4)网络资源信息导航服务三、大学生与图书馆2.大学生要学会利用图书馆(1)了解图书馆藏书结构,掌握图书馆学科分类体系(2)了解和掌握图书馆机读目录的使用和检索方法(3)掌握工具书的使用方法和网络信息检索技能第二讲信息检索基础理论一、什么是信息检索?信息检索就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。
三、什么是信息资源?信息资源是指人类社会经济活动中经过加工处理的、有序化的并大量积累后的有用信息的集合。
(狭义)和它的生产者以及信息技术的集合。
(广义)五、文献信息资源文献信息资源是指以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源。
例如,手稿,书籍,光盘,胶片,磁带等。
七、印刷型文献的分类(名词解释)1.图书图书基本上有两大类:一是供读者阅读的图书;例如,各种专著,教科书,各种文学读物,科普读物,二是供读者查阅的图书(参考工具书)。
例如,各种目录,手册,词典等。
2.期刊期刊是一种定期或不定期的连续性出版物,每期版式基本相同,有固定名称,用卷期、年月、或其他顺序号出版。
作者众多,内容不重复,有多篇文章,内容新颖,出版周期短,报道文章速度快,信息量大。
例如《知音》、《重庆教育学院学报》、《小说月报》、《管理科学》等。
3.报纸报纸是指定期出版的,报道时事新闻为主的出版物。
【云南大学】信息检索期末复习重点
【云南大学】信息检索期末复习重点第一篇:【云南大学】信息检索期末复习重点云南大学信息检索重点第一章一、检索策略定义:在处理信息需求提问实质的基础上确定检索途径、检索词语并明确各词语之间的逻辑关系,查找步骤、系统输出顺序等方面的科学安排,与检索效果密切相关。
二、检全率与检准率1.检全率及其影响:检全率=(检出的相关信息数/信息库中相关信息总数)x100%2.检准率及其影响:检准率=(检出的相关信息数/检出的信息总数)x100% 影响检出文献的检索效果的质量。
三、检索模型1.布尔检索模型(1)定义:布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表达用户提问,通过对文献表示与提问式的逻辑运算来检索文献。
(2)优点:简单、易理解、易实现、能处理结构化提问(3)缺点:A.布尔检索式的非友善性,即构建一个好的检索式是不容易的。
尤其是对复杂的检索课题,不易套用布尔检索模型。
B.易造成零输出或过量输出。
检索输出完全依赖布尔提问式与系统倒排挡中的文献匹配情况,输出量较难控制。
C.无差别的组配元,不能区分各组配元的重要程度。
D.匹配标准存在某些不合理的地方。
由于匹配标准是有或无,因此,对于文献中表因此的数量没有评判,都一视同仁。
E.检索结果不能按照重要性排序输出。
2.向量检索模型(1)定义:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。
(2)优点:A.采用自动标引技术维文献提供标引词B.改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在【0,1】闭区间中取值,使标引和检索者都可比较灵活地定义组配元(标引词)与文献的关系深度,改变了布尔检索模型僵化的特点。
C.由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理。
D.检索结果可按提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。
E.布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。
信息检索与利用复习资料(整理2016.1)
信息检索与利用复习资料(一)、名词解释1、INTERNET(因特网):Internet:因特网。
泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络。
采用TCP/IP协议。
2、SCI: SCI是科学引文索引的英文缩写首字母。
SCI是一个引文数据库,收录全世界出版的数、理、化、农、林、医、生命科学、天文、地理、环境、材料、工程技术等自然科学各学科的核心期刊。
3、报刊:报刊是指报纸和期刊的总称,是属于连续出版物,它具有统一的题名,定期或不定期以连续分册形式出版,有卷期或年月标识,并且计划无限期连续出版。
报纸以刊载新闻和评论为主,期则围绕某一学科和某些学科或某一研究对象,由多篇文献资料编辑而成。
4、标准文献。
广义的标准文献包括标准的原始文件及检索工具书等。
狭义的标准文献仅指带有标准号的标准、规范、规程等技术标准。
5、超文本:超文本是在普通文本的基础上增加了链接功能的一种文本。
用户只要用鼠标点击页面上有特殊颜色或有下划线的文字时,就会出现新的解释或访问更多的信息。
6、分类途径:是指按文献内容的学科分类体系查找文献信息的途径。
一般说来,一种检索工具的编制都须按学科建立自己的分类体系,其收录的文献按分类目录中的排序进行编排,这样的编排的结果可将同一学科的文献集中,便于按学科查找文献。
7、技术档案:指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有保密性和内部使用的特点。
8、检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等。
它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言。
9、竞争情报:竞争情报是20世纪80年代在国际上迅速发展起来的一种信息业务,是关于竞争环境、竞争对手和竞争策略的情报研究。
信息检索与利用++复习提纲
信息检索与利⽤++复习提纲注:考试时,务必带上2B铅笔、橡⽪擦,签字笔考试题型:填空、简答、单选、多选、判断单选、多选、判断,请在答题卡上作答,第⼀章绪论1、了解信息素养的概念,掌握信息素养的具体内容概念:具有确定、评价和利⽤信息,成为独⽴的终⾝学习者的能⼒内容:信息意识、信息知识、信息能⼒、信息道德2、了解信息、知识、情报和⽂献四个概念;掌握他们之间的关系概念:信息:信息是⽤来消除随机不定性的东西知识:经过思维加⼯的信息情报:⼈们为解决某⼀特定的问题⽽搜索、传递有特定效⽤的知识或信息⽂献:记录有知识的⼀切载体关系:包含关系、转化关系、交叉关系3、⽂献信息资源按物质载体和记录形式的划分类型⼿写型/印刷型/缩微型/声像型/机读型信息资源⽂献信息资源按加⼯深度不同的划分类型零次/⼀次/⼆次/三次⽂献⽂献信息资源按出版形式的⼏种划分类型图书(ISBN)、期刊(ISSN/CN)、报纸、科技报告、学位论⽂、⽂献会议、专利⽂献、标准⽂献(ISO /GB)、政府出版物、产品资料、技术档案图书、期刊的类型及特点图书:分类:阅读性⽤书、参考⼯具书、检索⼯具书特点:内容全⾯系统,基础理论性强,论点成熟可靠。
不⾜之处在于图书撰写、编辑、出版所需要的时间长,传递信息速度慢,内容相对陈旧期刊:分类:学术性/技术性刊物、检索⾏刊物、其他类型刊物特点:信息量⼤,品种多,出版周期短,报道速度快,连续出版,内容新颖,能够及时反映最新研究动态,反映国内外当前的科技⽔平第⼆章检索基础知识1、⼴义信息检索的含义包含信息的存储和检索两个过程。
信息检索是将信息按照⼀定的⽅式组织并存储在数据库中,⽤户根据需要,利⽤检索⼯具按照⼀定的⽅式从数据库中查找所需的信息的过程。
2、按检索对象划分,信息检索的类型及其特点⽂献检索、事实性信息检索、数据型信息检索、声频与视频检索3、信息检索系统及计算机检索系统的构成信息检索系统:检索⽂档、检索设备、系统规则、操作⼈员计算机检索系统:脱机检索系统、光盘检索系统、联机检索系统、⽹络检索系统4、数据库结构字段、记录、⽂档、帮助⽂件不同⽂献类型的主要字段:存取号字段、基本索引字段、辅助索引字段5、信息检索原理(检索语⾔是(标引者和检索者之间的沟通桥梁)信息索引和存储过程、信息的需求分析和储存过程6、检索语⾔的类型按标识的组配⽅式:先组式语⾔、后组式语⾔按表达信息的特征:描述外部特征语⾔、描述内容特征语⾔按规范化程度:⾃然语⾔、受控语⾔7、主题检索语⾔按照选词⽅式不同,可分为哪3种。
信息检索与利用期末复习材料
信息检索与利用期末复习材料第一章1、信息素养的具体内容:信息意思、信息知识、信息能力、信息道德。
2、搜商:人们借助工具获取新知识的能力。
3、信息:信息是事物运动状态和运动方向的表达。
信息不是事物本身,而是由事物发出的消息、指令、数据等所包含的内容。
知识就是经过思维加工(总结、处理、加工)了的信息。
4、知识:而搜索、传递有特定效用的知识或信息。
解决某一特定的问题5、情报:情报是人们为知识性、传递性、效用性。
6、情报的基本属性:、文献:文献是人们记录、积累、传播和继承知识的最有效手段。
凡是记录有信息或知识7 的一切载体均为文献。
包含关系、转化关系、交叉关系。
、信息、知识、情报与文献关系:8人脑加工记录载体文献(范围最广)信息知识情报口头、实物文献的划分类型9、)按文献的物质载体和记录方式划分:(1机读型信息资源。
声像型信息资源、手写型信息资源、印刷型信息资源、微缩型信息资源、)按文献的出版形式和内容划分:(2 )、特种文献(灰色文献){科技报告(R)、M 图书()、期刊(J)、报纸(N)、标准文献(S)、政府出版物、学位论文(D)、会议文献(C)、专利文献(P产品资料、技术档案}。
3)按加工程度划分:(零次文献(最原始文献):私人笔记、私人信件、手稿、实验记录、工程图纸、论文草稿、设计草稿。
个人专著、大多数阅读性图书、期刊论文、科技报告、一次文献(原始文献):专利文献、会议文献、学位论文、技术档案。
二次文献(检索性文献、检索工具):目录、题录、索引、文摘、机读型书目数据库。
三级文献(参考性文献):综述、专题述评、学科年度总结、进展报告、数据手册、百科全书、年鉴、名录、图录、表谱、指南。
零次文献、一次文献、二次文献和三次文献之间的关系:10、零次文献是最原始的信息资源,多数没有进入出版、发行和流通渠道,不易收集,但它是生成一次文献信息资源的主要素材;一次文献是最主要的信息资源,是生成二次文献和三次文献的基础,是信息检索和利用的主要对象;二次文献是一次文献的集中提炼和有序化,是信息检索的主要工具;三次文献是把分散的零次文献、一次文献、二次文献,按专题或知识的门类进行综合分析、重新组合、加工而成的文献,是人们查考数据信息和事实信息的主要信息资源。
数字信息检索与利用复习资料.docx
信息检索的概念、类型?'义前Ji息矗索是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。
狭义的信息检索是指从存储的信息集合中快速获取各才中需要的信息。
信息检索也称:石佐存储与检索。
存储是基础,检索是目的类型:1、按照检索对象的不同,早期信息检索分为:1>文献检索:以文献为检索对象的一种相关性检索。
2>事实检索:检索结果是事实结论的信息检索(确定性检索)。
3>数据检索:检索结果是数据的信息检索(确定性检索)。
2、新的三分方法:文本检索、数值检索、声频与视频检索。
2、阐述信息检索的基本原理?是对信息集合与需求集合的匹配与选择。
通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
3、检索语言的含义及作用?含义:检索语言是应文献信息的加工,存储和检索的共同需要而编制的专门语言, 是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。
简言之,检索语言是用来描述信息源特征和进行检索的人工语言,又叫信息检索标识。
作用:(1)标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;(2)对内容相同及相关的文献信息加以集中或揭示其相关性;(3)使文献信息的存储集中化,系统化,组织化,便于检索者按一定的排列次序进行有序化检索;(4)便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;(5)保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。
4、信息检索的方法有哪几种?(具体例子》1、工具法又称常用法,是指直接利用检索系统(工具)检索文献信息的方法。
它又分为顺查法、倒查法和抽查法。
(1)顺查法这是一种依照时间顺序,按照检索课题所涉及的起始年代由远及近、由过去到现在查找信息的方法。
大一信息检索与利用考试知识点
大一信息检索与利用考试知识点信息检索与利用是信息科学与技术专业的一门重要课程,旨在培养学生对信息资源进行系统化检索和有效利用的能力。
本文将介绍大一信息检索与利用考试的相关知识点,帮助同学们更好地复习和备考。
一、信息检索基础知识1. 信息检索的定义和基本原理信息检索是指从大量信息中查找和获取所需信息的过程。
其基本原理包括信息需求分析、信息储存与组织、信息检索模型、检索评价等。
2. 关键词的选择和搜索策略在信息检索过程中,关键词的选择和搜索策略起着至关重要的作用。
学生需了解如何选择合适的关键词,并掌握常用的搜索策略,如布尔逻辑检索、通配符检索和短语检索等。
二、信息资源与检索1. 图书馆资源的检索与利用学生需熟悉图书馆资源的分类和编目规则,掌握常用图书馆资源的检索方法,如OPAC检索和图书馆数据库检索等。
2. 学术搜索引擎的使用学生需要了解学术搜索引擎的特点和使用方法,如Google学术、谷歌学术和百度学术等。
掌握高效的检索技巧,如使用引号搜索、高级搜索和文献引用等。
三、文献检索与阅读1. 文献检索的方法和工具学生需了解文献检索的常用方法和工具,如在线数据库检索、文献溯源和文献导航等。
可以根据具体需求选择合适的检索途径。
2. 文献综述的撰写和细节要求学生需要了解文献综述的撰写规范和细节要求,包括引言、方法、结果和讨论等部分的写作技巧和注意事项。
四、信息利用与知识管理1. 信息评估和筛选学生需要学会评估信息质量,判断信息的可信度和适用性,并掌握信息筛选和整理的方法,提高信息利用的效果。
2. 知识管理的基本理论和方法学生需了解知识管理的基本理论和方法,掌握知识管理工具的使用。
熟悉知识流程的各个环节,并学会运用相应的工具进行知识管理。
五、信息检索与利用的伦理问题1. 信息隐私和数据保护学生需了解信息检索与利用过程中产生的隐私问题和数据保护的重要性。
遵守信息伦理规范,保护用户隐私和信息安全。
2. 信息获取和版权保护学生需要了解信息获取的合法途径和版权保护的相关法律法规,学习在信息检索与利用过程中正确引用他人作品的方法和原则。
信息检索与利用期末复习
第一章1、IP地址:网络协议地址,是分配给主机的一个32位地址,由4个字节组成。
分为动态IP地址和静态IP地址两种。
动态IP地址指的是每次连线所取得的地址不同;静态IP地址是指每次连线均为同样固定的地址。
如目前教室的无线上网就是动态IP地址,每次所取得的地址不同。
2、IP地址的分类:(1)A类地址第1字节为网络地址,其它3个字节为主机地址。
网络地址的最高位必须是“0”A类地址范围:1.0.0.1—126.255.255.254私有地址和保留地址:①10.X.X.X是私有地址(所谓的私有地址就是在互联网上不使用,而被用在局域网络中的地址)。
范围(10.0.0.0-10.255.255.255)②127.X.X.X是保留地址,用做循环测试用的。
(2)B类地址第1字节和第2字节为网络地址,其它2个字节为主机地址。
网络地址的最高位必须是“10”B类地址范围:128.0.0.1—191.255.255.254。
B类地址的私有地址和保留地址①172.16.0.0—172.31.255.255是私有地址②169.254.X.X是保留地址。
如果你的IP地址是自动获取IP地址,而你在网络上又没有找到可用的DHCP(动态主机设置协议)服务器。
就会得到其中一个IP。
(3)C类地址第1字节、第2字节和第3个字节为网络地址,第4个个字节为主机地址。
另外第1个字节的前三位固定为110。
C类地址范围:192.0.0.1—223.255.255.254。
C类地址中的私有地址:192.168.X.X是私有地址。
(192.168.0.0-192.168.255.255)(4)D类地址不分网络地址和主机地址,它的第1个字节的前四位固定为1110。
D类地址范围:224.0.0.1—239.255.255.254(5)E类地址也不分网络地址和主机地址,它的第1个字节的前五位固定为11110。
E类地址范围:240.0.0.1—255.255.255.2543、DNS(域名服务系统):是一种基于分布式数据库的系统,采用客户/服务器模式完成主机名称与IP地址之间的转换。
信息检索与利用重点
信息检索与利用重点提纲P3:1,信息特征所谓信息特征就是指信息区别于其它事物的本质属性。
(1)客观性;(2)普遍性;(3)时效性;(4)传递性;(5)共享性;(6)增值性。
P4:2,知识的分类第一类“知事(KOWN-WHAT)”第二类“知因(kown-why)”第三类“知道怎样做的知识(kown-how)”第四类“谁以及是怎样创造的知识(kown-who)”还有一种方法就是把知识分为显性知识和隐性知识。
P113,信息资源的构成按文献载体形式分(1)印刷型文献;(2)缩微型文献;(3)声像型文献;(4)机读型文献;4,信息资源的构成按文献的加工程度分(1)零次文献;(2)一次文献;(3)二次文献;(4)三次文献;P165,传统信息文献的特征(1)文献数量大,增长速度快;(2)文献分布集中又分散;重点:英国文献计量学家布拉德福的发现(3)文献时效性增强;注重文献半衰期(4)文献内容交叉重复;(5)文献载体及语种增多。
P216,信息存储与信息检索关系示意图存储过程:信息收集分析信息特征标引确定检索过程:课题检索分析检索提问标引信息检索语言确定信息特征标识输入检索提问标识输入信息检索系统匹配输出检索结果P237,以文献的内容特征为检索途径(1)分类途径;(2)主体途经;8,描叙文献内容特征的语言(1)分类语言(2)主题语言(关键词、主题词、标题词、叙词等)P279,检索方法1)常用法(1)顺查法;(2)倒查法;(3)抽查法;2)追溯法3)循环法P3410,查全率和查准率检测出的相关信息量查全率= 检索系统中相关信息总量*100%=a/(a+c)*100% 检索出的相关信息量查准率= 检索出的信息总量*100%=a/(a+b)*100%P47 (简答题)11,数字图书馆特征(1)信息资源数字化(2)信息组织网络化(3)信息传播网络化(4)信息资源共享化(5)信息检索智能化(6)信息服务个性化P5712,检索步骤CNKI提供了规范的检索步骤:首先输入检索范围控制条件,其次输入目标文献内容特征,最后对检索结果分组筛选找到合适的结果。
信息检索和利用考试重点
一、名词解释:文献:是记录有一切知识的载体,是属于存贮型的固态的载体,如印刷件、缩微制品、磁盘和光盘等具有存贮型和传播型的信息载体。
检索:是根据特定的需求,运用某种检索工具,按照一定方法,去寻找资料或信息的工作过程。
这种方法利用的是有序化的信息系统和信息业提供感到服务来满足用户的信息需求的。
信息检索:是通过信息检索:是通过分析、综合等手段进行信息加工后,获取隐含在信息源中的知识的过程。
信息意识:简单的说就是人们利用信息系统获取信息的内在动因,具体表现为信息的敏感性、选择能力和消化吸收能力。
信息素质(信息素养):从各种信息源中检索、从各种信息源中检索、评价和使用信息的能力,评价和使用信息的能力,评价和使用信息的能力,是信息社会劳动者必须掌握的终身技能。
是信息社会劳动者必须掌握的终身技能。
是信息社会劳动者必须掌握的终身技能。
具有信息素养的日呢,具有信息素养的日呢,也就具备了终身学习的能力。
也就具备了终身学习的能力。
文献信息、文献信息、书目:是指一批相关文献的记录,其基本功能是其基本功能是反映某一地区、某一时期在某一领域中出版物的信息。
馆藏目录:是查找文献应该首先考虑的检索工具,是某个图书馆或者档案馆收藏文献、图书的总体目录(是题录性的检索工具)。
图书馆的目录种类繁多,职能各不相同。
馆的目录种类繁多,职能各不相同。
索引:是揭示文献内容出处,提供文献查考线索的检索工具。
没有索引,各种海洋一样的文献资料就无法被利用,分篇目索引和内容索引两种。
索引两种。
文摘:是一种揭示文献外部特征、又通过摘录文献要点报道文献内容的工具,文摘是集树木、索引和一次文献三者与一体的检索工具。
文摘:是一种揭示文献外部特征、又通过摘录文献要点报道文献内容的工具,文摘是集树木、索引和一次文献三者与一体的检索工具。
年鉴:是以描述和统计的方式逐年提供某一年度、某一领域信息的工具书,或者说是相应年度内的信息的汇编。
手册:是汇集某一学科领域或业务部门专门知识的工具书,是真带当前时间中的需要,以简明扼要的方式提供的具体、使用的资料,工随时翻检查阅的一种小型工具书。
《信息检索与利用》全面知识点
《信息检索与利用》课程复习绪论一一一、在人类漫长的发展历程中,物质、能源和信息三种资源支配着人类最基本的生产活动。
物质--向人类提供材料及生活必需品信息---向人类提供知识和智慧能源--- 向人类提供动力二、人类历史上发生的五次信息技术革命:第一次是语言的产生;第二次是文字的出现;第三次是造纸术和印刷术的发明;第四次是电报、电话、电视的问世;第五次信息技术革命是电子计算机和现代通讯技术的结合。
三、信息素质及其内涵信息素质的概念:(1)利用大量的信息工具及信息源,使问题得到解决或解答的技能。
(2)要成为具有信息素质的人,他必须能够确定何时需要信息,并且具有检索、评价和有效利用信息的能力。
信息素质的内涵包括:(信息意识:是指人们对信息的敏感程度;信息能力:发现、评价、利用和交流信息的能力信息道德:在信息活动中应遵循的道德规范)四、(一)信息检索的意义:(1.信息检索是获取知识的有效途径2.信息检索是创新型人才应具备的基本技能3.信息检索是继承借鉴前人成果的主要手段)(二)信息检索的作用(1.信息检索能够避免重复研究和走弯路;2.信息检索有助于节约时间、提高科研效率3.信息检索是科学决策的必要前提)第一章信息与信息资源第一节信息的基本知识-----信息可是当代社会使用最多、最广、最频繁的词汇之一,它普遍存在于自然界、人类社会以及人类思维活动之中。
信息的内涵丰富、形式多样,具有物质和能量资源所不具备的独特性质和专门功能。
一、信息的概念(P6)二、信息的特征(1. 信息的普遍性和客观性2. 信息认识的主观性3. 信息的依附性4. 信息的可传递性(四要素:信源、信道、信息、信宿)5. 信息价值的不定性6. 信息的共享性)信息传递四要素:信源(信息的发出体)、信宿(信息的接收体)、信道(信息的传递媒介)、信息。
三、信息的功能(1. 资源功能;2. 组织管理功能;3. 中介功能;4. 消除不定性(解惑)功能;5. 传播功能四、信息与知识、文献的关系1.知识(Knowledge)知识是人类对客观事物的认识和经验的总和,是人类对客观事物规律性的认识,是信息中最有价值的部分。
《信息检索与利用》复习资料 - 副本
《信息检索与利用》复习资料试题的难易程度和题量适当,按难易程度分为三个层次:容易占40%,一般占40%,较难占20%。
一、填空题1.__是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。
信息2.__是在改造客观世界的实践中获得的对客观事物存在和运动规律的认知和总结,是人的大脑通过思维重新组合的系统化的信息的集合。
知识3.__ 是人们用来解决特定问题所需要的、经过激活过程活化了的具有使用价值的知识或信息。
情报4.___是在存储检索利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附载体而存有信息或数据的载体。
文献5.___是指在国内外学术或非学术会议上发表的论文或报告。
会议文献6.___是高等院校和科研机构的毕业生为获取各级学位在导师指导下撰写和提交和科学研究、科学实验的书面报告。
学位论文7.___是对文献内容和形式特征进行选择和记录的过程。
著录8.___是指特定的数值型数据为对象的检索。
数据检索9.___是指以特定的事实为目标的检索。
事实检索10.事实与数据检索工具主要依靠各类___完成各种数据或事实的查询。
参考工具书11.按照结构原理,信息检索语言可以分为____、___、___等多种类型。
分类语言,主题语言,代码语言12.Internet是基于 ___协议的网络。
TCP/IP13.二级域名是指__。
教育机构14.目前WWW环境中使用较多的浏览器有Microsoft公司的__和Netscape公司的___。
Internet Explorer,Netscape15.FTP信息资源检索中匿名登录的用户名是___。
Anonymous16.网络信息检索工具一般由___、___、___三部分组成。
信息采集子系统,数据库,检索代理软件17.据互联网统计公司comScore发布的2007年12月世界搜索引擎市场份额前几名中,主要的搜索引擎公司有___、___、____等。
信息检索与利用期末复习
信息检索与利用期末复习 Revised by BETTY on December 25,2020《信息检索与利用》考试题型说明:一、判断题(1×10)二、单选题(1×20)客观题要涂答题卡。
三、填空题(2×5)四、简答题(12×3)五、实践题(12×2)信息检索与利用客观复习题一、判断题1.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。
(对)2.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。
(对)3.目前的搜索引擎能很好的处理自然语言。
(错)4.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。
(错)5.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。
(错)6.解决读者需求的无限性和馆藏的有限性的矛盾,唯一有效的方法就是在图书馆间建立合作机制,实现资源共享。
(对)7.关键词语言的最大优点是能用计算机进行自动抽词标引,它适合于计算机自动编制各种类型的词索引。
(对)8.信息素养由信息意识、信息能力、信息道德三个方面内容构成,其中,信息道德是前提,信息能力是保证,信息意识是准则。
(错)9.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网站。
(错)10.用搜索引擎google检索专利和期刊的全文比用中国国家知识产权局专利数据库、《维普中文科技期刊数据库》等数据库的查全率和查准率都要高。
(错)11.GB/T 16159-1996,汉语拼音正词法基本规则[S].北京:中国标准出版社,1996.该文献类型为标准文献。
(对)12.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样的。
(对)13.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。
如输入comput*,将检索出computer、computing、computerized等词汇。
(对)14.通用搜索引擎,如google、baidu、bing、yahoo,并不能囊括所有的网页。
信息检索复习重要知识
一、名词解释(4题,20分)目录:以一个完整的出版单位或收藏单位作为著录的基本单位,将一批著录款目按照一定的次序编排而成的一种揭示及报道文献的工具。
索引:将某一信息集合中的相关信息按照某中可查顺序排列并系统地指引给读者的一种检索工具。
年鉴:一种按年度出版,概述或反映上一年度有关领域的重大事件、重大进展和重要成果,汇集重要文献、详尽数据很统计资料的连续出版物。
手册:是汇集某一范围内基础知识和基本数据资料,以便于人们在生产、科研、教学等具体工作过程中可以经常查证的实用便览型参考工具。
OPAC:由开放的公共查询目录演化而来,是20世纪70年代末由美国一些大学图书馆和公共图书馆共同开发的供读者查询馆藏数据的联机书目检索系统。
CALIS:是经国务院批准的我国高等教育公共服务体系之一,在教育部的领导下,把国家的投资、现代图书馆理念、先进的技术手段、高校丰富的文献资源和人力资源整合起来。
信息检索:广义上,信息检索是指信息存储与查找的过程,狭义上,指信息查找的过程,信息查找是指通过查询机制从各种检索系统中查找出用户所需要的特定信息的过程。
搜索引擎:泛指网络上以一定的策略搜集信息,对信息进行组织和处理,并为用户提供信息检索服务的工具和系统,是网络资源检索工具的总称。
百科全书:是指收录了各个知识门类的知识,或者系统而完备地概述了某一知识门类知识的大型参考性工具,是最完备的参考工具,有“工具书之王”的美誉。
学位论文:学位论文是伴随着学位制度的实施而产生的,是高等院校或科研机构的毕业生为获取学位资格而撰写的学术性研究论文。
特种文献:一种介于图书与期刊之间的文献类型,通常在出版发行或获取途径方面比较特殊,因此也被称为灰色文献。
电子图书:是指以数字形式加工,通过计算机网络进行传播,,并借助于计算机或类似设备来阅读的图书,是电子出版物中最常见的文献形式。
参考工具书:是根据一定的社会需要以特定的编排方式和检索方法汇编某学科或特定范围的知识和资料,其目的是为人们解决疑难和提供数据或事实信息,是作为工具使用的专供查考的特定类型的图书。
信息检索与利用复习
十一、信息检索是指将信息按照一定的方式组织存储起来,能根据 信息用户的需求检索出有关信息的一种存储检索过程。 十二、按照信息检索的内容划分类型:文献信息检索 ;数据信息 检索 ;事实信息检索 。 十三、信息检索的方式:人们获取信息的方式通常有两种:直接检 索、简接检索。 十四、查找与课题相关文献的方法主要有:
3. 浏览互动。有时通过浏览相关学会、协会等研究机构网站及一 些科学家主页,通过成为学协会会员,或与科学家直接沟通交流,也能 得到一些非常有价值的文献信息。 最后从检索结果中选出最感兴趣的若干篇文献,根据文献的出处设 法获取原文。同时,重新再调整关键词和检索策略,再次查询核心数据 库,或查找引文信息,如此多次的反复查询后,一定会得到满意的查询 结果。
1.直接查找。即利用本领域的核心数据库,根据待查课题的技术研 究内容,归纳出中英文关键词,尽可能检索可以利用的。
2. 间接查找。即通过引文途径进一步获取相关,利用已有文献中 的参考文献作为获取新文献的线索,通过检索引文数据库获得更多文献。
十六、电子资源检索功能 1、比较通用的检索功能: 浏览:由系统提供一个树状结构的概念等级知识体系, 户可以沿着这颗“树”进入不同的分支,到达叶子节点,并 在节点看到检索结果列表。 索引:提供一个线性的表单,可以将任何一个标引字段中的 概念按字母顺序线性排列起来,不分等级。如:人名索引、出版 物索引、地名索引、主题索引、机构索引等。
六、 情报具有知识性、传递性和效用性3个基本属性。
七、 文献的特征:外表特征 ;内容特征 。
八、 按照文献加工深度不同划分:一次文献 ;二次文献 ;三次 文献 。
九、 按文献的出版形式划分:图书;期刊;科技报告;会议文献; 专利文献;标准文献;学位论文;产品资料;科技档案;政府出版物。 十、 当代文献的特点 :文献数量急剧增长 ;分布既集中又分 散 ;文献时效缩短 ;内容交叉重复 ;载体及语种增多 。
数字信息检索与利用复习资料
1、信息检索的概念、类型?广义的信息检索是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。
狭义的信息检索是指从存储的信息集合中快速获取各种需要的信息。
信息检索全称:信息存储与检索。
存储是基础,检索是目的类型:1、按照检索对象的不同,早期信息检索分为:1>文献检索:以文献为检索对象的一种相关性检索。
2>事实检索:检索结果是事实结论的信息检索(确定性检索)。
3>数据检索:检索结果是数据的信息检索(确定性检索)。
2、新的三分方法:文本检索、数值检索、声频与视频检索。
2、阐述信息检索的基本原理?是对信息集合与需求集合的匹配与选择。
通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。
3、检索语言的含义及作用?含义:检索语言是应文献信息的加工,存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。
简言之,检索语言是用来描述信息源特征和进行检索的人工语言,又叫信息检索标识。
作用:(1)标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;(2)对内容相同及相关的文献信息加以集中或揭示其相关性;(3)使文献信息的存储集中化,系统化,组织化,便于检索者按一定的排列次序进行有序化检索;(4)便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;(5)保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。
4、信息检索的方法有哪几种?(具体例子)1、工具法又称常用法,是指直接利用检索系统(工具)检索文献信息的方法。
它又分为顺查法、倒查法和抽查法。
(1)顺查法这是一种依照时间顺序,按照检索课题所涉及的起始年代由远及近、由过去到现在查找信息的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章信息检索概述1. 信息检索的概念。
狭义信息检索是指用户找出有关信息的过程。
广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。
2. 信息检索的类型(1)按照检索对象的不同划分早期分为:文献检索、事实检索、数据检索。
当前三分方法:文本检索、音频与视频检索、数值检索。
(2)按检索手段划分:手工检索、机器检索3.简述信息检索的基本原理信息检索的基本原理:对信息集合与需求集合的匹配与选择。
实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。
一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。
二、需求集合:用户的信息需求是在社会实践活动中产生的。
当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。
三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。
匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。
4.计算机信息检索经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。
5.信息检索领域的主要研究问题有哪些?⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等⑶信息资源及其收集、加工:信息存储、数据库⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。
信息检索的两种研究方式:以计算机为中心和以用户为中心,以计算机为中心的IR 问题是主流。
6.检索语言的含义及作用检索语言:是根据检索需要而创造的一种人工语言,它是存储、查找文献的共同依据,也叫标引语言。
作用:(1)保证不同标引人员表征文献信息的一致性。
(2)使内容相同及相关的文献集中化。
(3)保证检索提问与文献信息标引的一致性。
(4)保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。
7.检索语言的类型(1)是否规范化:受控语言、自然语言(2)包括的专业范围:综合性和专业性(3)描述文献的特征:外表特征、内部特征(4)组配方式:先组式、后组式(5)文献内部特征语言:分类检索语言、主题检索语言分类语言分类法是按信息资料内容的学科知识属性分门别类来系统标示和组织信息资料,并用分类号表达文献主题概念的方法。
分类标引(归类)——依据一定的分类语言对信息资源的内容特征进行分析、判断,赋予分类标识的过程。
主题语言(1)标题语言标题语言是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。
标题语言是主题语言系统中最早出现的一种,标题语言属于先组定组式检索语言类型。
(2)元词语言元词语言是以元词作为主题标识,通过字面组配的方式表达信息资源主题的主题语言。
元词:是指用来标引信息资源主题的、最基本的、字面上不能再分的语词。
(3)叙词语言叙词语言是以从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配方式表达信息资源主题的主题语言。
叙词:经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。
(4)关键词法关键词法是直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过对关键词轮排等方式揭示文献主题的主题语言。
关键词:关键词指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表征文献主题内容具有实质意义的语词。
语词组配:(1)字面组配;(2)概念组配8.信息检索的途径有哪几种?是举例说明。
根据文献的外部特征和内部特征,将信息的检索途径分为两大类型。
(1)以文献的外部特征为检索途径①题名途径(利用刊名、书名、篇名对文献进行检索的途径):一般用于查找图书、期刊、单篇文献。
②著者途径(著作者、编者、译者、专利权人、出版机构等):根据已知文献著者姓名查找文献的途径。
③号码途径(通过已知号码查找文献的途径,如标准号、专利号、报告号、索取号等)(2)以文献的内部特征为检索途径①分类途径(文献内容所属的学科体系)②主题途径(文献的主题内容)9、信息检索的方法有哪几种?试举例说明。
⑴常用法:①顺查法:以检索课题的起始年代为起点,按时间顺序由远及近地查找。
如已知某研究成果最初产生的年代,现在需要了解它的全面发展情况,即可从最初年代开始,按时间的先后顺序,一年一年地往近期查找。
用这种方法所查得的文献较为系统全面,基本可反映某学科专业或某课题发展的全貌,能达到一定查全率。
在较长的检索过程中,可不断完善检索策略,得到较高的查准率。
此法的缺点是费时费力,工作量较大。
一般在申请专利的查新调查和新开课题时采用这种方法。
②倒查法:即由近及远,由新到旧的查找法。
此法多用于查找新课题或有新内容的老课题,在基本上获得所需信息时即可终止检索。
此法有时可保证情报的新颖性,但易于漏检而影响查全率。
③抽查法:是针对研究课题发展特点,抓住学科发展迅速发表文献较多的一段时间,逐年进行查找文献的一种方法。
这种方法针对性强,节省时间。
但必须是在熟悉学科发展阶段的基础上才能使用,有一定的局限性。
⑵追溯法:又叫回溯法,是利用已有的文献后面的参考文献由近及远进行追溯查找的方法。
此法的缺点是费时费力,工作量较大。
一般在申请专利的查新调查和新开课题时采用这种方法。
⑶综合法:又称循环法、分段法或者交替法。
是常用法和追溯法的综合运用。
即首先利用检索工具查出一批文献资料,再利用这些文献资料所附的参考文献追溯查找相关文献。
如此交替、循环使用常用法和追溯法,不断扩检,直到满足检索要求为止。
综合法的优点在于:当检索工具缺期、缺卷时,也能连续获得所需年限以内的文献资料。
10.简述信息检索步骤⑴分析研究信息检索课题①了解用户信息需求的目的和意图②分析检索课题的主题要求③时间要求④检索效果要求⑤检索费用及其他要求⑵选择信息检索工具⑶确定信息检索方法⑷掌握获取原文的线索⑸获取原文⑹用户相关反馈第二章信息检索的数学模型1. 什么是信息检索的数学模型?目前它主要由哪些不同的类型?(1)什么是模型?模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述。
面对相同的输入,模型的输出应能够无限地逼近现实世界的输出。
(2)信息检索的实质问题:对于所有文档,根据其与用户查询的相关程度由大到小进行排序(3)信息检索模型:是用来描述文档与用户查询的形式表示以及对它们进行相关性计算的框架和方法适宜的形式化表示?实现信息检索,主要涉及三个关键要素的处理:信息资源集合、用户信息需求、匹配选择。
信息资源集合表示,原始信息一般不能直接进行信息检索,需要从原始信息文档(可能包含文本、图像、视频、音频等数据)中抽取其逻辑视图;用户信息需求表示,用户信息需求是进行查询的依据,系统将据此搜索文档集合;匹配选择,信息检索的匹配过程是一种相似性匹配,查询的结果需按照某种相似性排序算法有序输出。
一般地,一个信息检索系统可以形式化地抽象表示为如下四元组(quadruple)形式,即System = (D, Q , F , R(dj , q))其中,D, Q , F 和R(dj , q)分别表示检索系统的信息资源集合、用户信息需求集合、信息资源与信息需求的匹配处理框架以及(相似性)匹配函数。
3. 用户信息需求有哪些不同的状态?相互之间关系如何?从理论上讲,用户的信息需求有潜在真实需求(Real Information Need,简称RIN)、意识到或感知到的需求(Perception Information Need,简称PIN)、表达出的需求(Request)、提问(Query)等不同的存在状态。
4. 指出信息检索领域的三种经典数学模型。
布尔检索模型、向量空间模型、概率模型5. 布尔模型的基本原理是什么?布尔模型有哪些优缺点?布尔模型在解释信息检索处理过程时,主要遵循以下两条基本规则:系统索引词集合(K)中的每一个索引词在一篇文档中只有两种状态:出现或者不出现。
相应地,每个索引词的权值wij ∈{0,1};用户提问式q由3种布尔运算符“and” 、“or”、“not” 连接索引词来构成。
⑴优点:①简单(simplicity);②容易理解(easy understanding)③简洁的形式化(clean formalism)⑵缺点:①精确匹配(exact matching)策略问题。
非此即彼的二值判断标准严重影响检索系统的性能改善。
②布尔逻辑表达用户需求的能力问题。
对于没有检索经验的用户把信息需求转换成恰当的布尔表达式不容易实现。
③检索输出完全依赖于布尔提问与文献的匹配情况,很难控制输出量的大小。
④结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要。
6. 向量空间模型的基本原理是什么?向量空间模型有哪些优缺点?文档向量的构造、提问向量的构造、索引词权值( wij )的计算、相似度计算⑴优越性(相对于布尔模型)①向量空间模型在检索处理中所具有的先进技术特征主要表现在:②采用局部匹配策略,使得在算法层面上基于多值相关性的判断处理得以实现;③采用基于统计学方法的词加权处理模型,使检索效果大大得到了改善;④采用对检索结果排序输出的策略,使对检索结果数量的控制与调整具有相当的弹性与自由度。
⑵缺陷与不足①相似度计算量巨大;②标引词的不同位置会代表不同的权重,而不同的关键词长度也会影响权重的大小;③标引词之间的独立性假设与实际不符:实际上,标引词的出现之间是有关系的,不是完全独立的。
如:“王励勤”“乒乓球”的出现不是独立的。
第三章信息检索评价一、信息检索评价的意义1.信息检索系统的评价工作一直是信息检索领域的一项重要研究内容,多年来人们进行了大量的评价试验和多角度的探索与分析。
2.究其原因,主要在于检索评价工作在为研究者验证检索系统效益、比较各种检索技术的优劣、改进现有检索系统、开发新的应用领域等许多方面,都发挥着不可替代的作用。
3.信息检索评价的主要价值在于:(1)提高系统资源分配的合理性;(2)找出系统存在的缺陷及其原因,以便加以改进;(3)比较各种检索技术的优劣;(4)有助于新系统的设计;(5)丰富信息检索理论。
二、信息检索评价的类型1.功能测试与分析——侧重系统软件的功能测试2.检索性能评价——测定检索系统满足用户需求的程度3.检索效益评价——测定检索系统提供的服务或系统本身获得的效益(包括经济效益和社会效益)。