信息检索技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章信息检索概述
1,什么是信息检索?它有哪些主要类型?
信息检索指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。有目的和组织化的信息存取活动,其中包括“存”和“取”两活动。
旧分类方法:文献检索、事实检索、数据检索
新分类方法:文本检索、数值检索、音/视频检索
2,试分析阐述信息检索的基本原理,信息集合、需求集合、匹配与选择,信息检索三阶段及期特点?
答:即信息集合与需求集合的匹配与选择。
(1)信息集合是指有关某一领域的,经采集、加工的信息的集合。形成可供用户访问与检索的对象,在某种意义上说,它是以一种公共知识结构,它有可能弥补某个特定用户的知识结构缺陷,即可以向用户提供所需要的知识或信息,或是获取知识的线索,或者提供某种信息区激活人脑中存储的知识。(2)需求集合:用户的信息需求是在社会实践活动中产生的。众多用户不同形态的信息需求的汇集,就形成了需求集合的存在。信息需求的产生与满足,是实施信息检索行为的前提与基础,也是实施信息检索行为的目的所在。(3)选择与匹配:面对信息集合与需求集合,如何在两者之间建立起联系与沟通的桥梁,以便能够从信息集合中快速获取用户所需要或所缺少的信息与知识呢?这就需要信息检索提供一种“匹配”机制。它的主要功能在于:能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。这里,我们要求匹配机制至少包括两个要素:一是匹配标准,即相似性标准;二是执行匹配的
动因。
3,信息检索主要经历了哪些不同的发展阶段?各阶段
有何特点?
(1)手工检索阶段,主要特点可以概括为印刷文献(图
书、期刊、会议、专利、学位论文)为主要检索对象;
以各类文摘、题录、和目录性工具书为可利用的主要
检索工具;以图书馆的参考咨询部门为开展信息检索
服务的中心机构。(2)计算机化检索阶段(脱机批处
理检索时期、联机实时检索时期、联机网络化与多元
化检索时间),主要特点:以各类机读数据库为检索对
象;各类信息中心,联机服务中心作为新兴的信息服
务部门而存在;信息检索用户逐渐由专业检索人员(检
索中介)向个人终端用户转移和扩散。(3)网络化检
索时期,分布式存储、分布式检索、分布式处理,检
索范围领域广,传统技术与网络技术的结合,用户界
面友好度,检索效率低。
4、名词解释
1)文本检索:指以各种自然语言符号系统所表示的信
息作为主要检索对象的信息检索活动。
2)数值检索:针对数值型数据的查询而发展起来的
一类有特色的信息检索。
3)音视频检索:针对各种数字化音频与视频信息而进
行查询的一类新兴的信息检索操作。
4)信息存储与检索:将信息按照一定的方式组织和存
储起来,并能够根据信息用户的需求找出其中相关信
息的过程。信息检索是一种有目的和组织化的信息存
取活动,其中包括“存”和“取”两活动。
5)文献检索:以文献(包括文献、题目、或全文)为
检索对象的一类信息查询活动,是一种相关性检索。
6)数据检索:以经过选择、整理、鉴定的各种数据信
息的性能参数作为检索对象的一类检索,是一种确定
性检索。
7)事实检索:针对从文献中提取出来的各种事实(或
知识项)所进行的检索活动,是一种确定性检索。
第二章信息源
1,如何鉴别高质量的期刊?
目前国内外公认的鉴别方式有2种:核心期刊和同行
评审期刊。
(1)核心期刊:指的是刊载某一学科或专业有关的信
息较多,且学术水平较高,能够反映该学科最新成果
和前沿动态,受到该专业读者特别关注并成为检索与
阅读首选的那些期刊。
(2)同行评审期刊:它是国内外高水平期刊对来搞评
审普遍采用的方式。具体做法是:作者将文稿寄交编
辑部并经初审合格后,为了审查论文的学术质量需要
将论文稿送交有关专家(即同行)进行评审。
2,我国出版的专利文献有哪些?
目前我国出版的专利文献主要包括专利说明书、专利
公报、专利索引等。既有一次文献,也有二次文献,
他们是:
(1)<<发明专利公报>>、<<实用新型专利公报>>和<<
外观设计专利公报>>(每周一次);
(2)<<发明专利申请公开说明书>>,<<发明专利申请
审定说明书>>及<<实用新型专利申请说明书>>。
(3)专利年度索引;
3,书目数据库的特点是:信息密度高,文献报道范围
广,数据量大,连续性和积累性强;数据结构简单,
记录格式较为固定,费用低廉;检索途经多,速度快;
更新周期较长。
4,全文数据库的特点:可直接利用;简化数据库标引
和建库工作;避免了文献二次加工中的人为差错;后
处理能力强。
5,名词解释:
1)电子信息源:指以数字化形式(即二进制码)将文
字、图像、声音、动画等存储在光、磁等存储介质上,
并能通过计算机、通信设备再现出来的信息资源。用于信息检索的机读数据库和网络信息源是目前2类最重要的电子信息源。
2)书目数据库:是一种专门存储二次文献信息的数据集合,亦称二次文献数据库,通常收录有关主题领域的各中书目信息,包括文摘、题录、目录等,以向用户提供文献信息,指引用户查找、使用原文献,包括文摘索引数据库和图书馆目录数据库。
3)文摘索引数据库主要是简要地通报有关领域某一时期发表的文献,供人们查阅与检索。
4)全文数据库:是一种源数据库,主要存储文献全文或其中的主要部分。它可以包括题名、著者、摘要、关键词、正文、参考文献和著作日期在内的数据全部收入数据库,供用户查询利用。
5)网络信息资源:是指以电子数据的形式将文本、图像、声音、动画等多种形式的信息存放在光磁等非印刷型载体的介质中,并通过网络通信、计算机或终端等方式再现出来的电子信息源。
6)机读数据库:为了制作检索工具而输入计算机中的文献,进行组织和排序。这些有序化的数据经过日积月累就形成了机读数据库。
7)图书馆书目数据库:又称“机读目录”。机读目录主要报道和存储特定图书馆实际收藏的各种文献资料的书目信息和存储地址。既是图书馆业务部门的业务管理工具也是一般用户查找图书馆馆藏资料的工具。8)OPAC检索系统:全称为online public access catalogue system 即公共联机书目查询系统,是利用计算机终端来查询基于图书馆局域内的馆藏数据资源的一种检索方式,即通过联机查询为用户提供馆藏文献的线索。
第三章信息检索系统
1,一个通用信息检索系统的基本结构如何?它主要有那些主要模块构成?(2大功能6个模块)P41 2大功能:信息存储、信息查询
6个模块:信息采集、信息标引、创建与更新数据库、
用户界面、提问处理与检索匹配、知识组织工具。
以中间的虚点竖线为界,信息检索处理过程被分解为
信息存储和信息查询两个部分,其中,信息存储部分
包括信息采集,信息标引处理,创建与跟新数据库及
索引文档等多个处理模块,这样最终就以数据库的形
式完成了信息的收集、加工(标引)和存储任务;信
息查询部分则通过用户界面,提问处理,检索匹配等
一系列功能模块的配合,以人机对话方式完成用户对
系统的访问和信息查询的功能;而中间的知识组织工
具模块,则同时与信息存储和信息查询的多个模块相
关联,以便它们之间建立一种沟通和协调,进而使全
部功能模块相互联系形成一个有机的整体。
2,什么是标引深度和标引的专指度?
标引深度:又称标引的网罗度,是衡量标引详尽性的
指标,其含义是标引词对数据库每条记录各方面内容
表达和识别的详尽程度。
标引的专指度:是用于衡量标引词对信息记录特定内
容描述的精细程度。
3,什么是自动标引?自动标引:通过利用计算机对
标引特征的出现频率、出现位置、提问频率等进行统
计,进而采用一定的加权策略来实现,主要分为自动
抽词标识和自动赋词标识。自动抽词标引:是指利用
计算机直接从文献的题名、文摘或正文中抽取关键词
来标识文献内容,并自动生成关键词索引文档(或倒
排文档)。自动赋词标引:让计算机模仿标引员的赋词
标引方法,通过分析文献内容,从词表中选取与文献
主题相符或密切相关的词语符号做索引词。
4,何谓文档?主文档与倒排文档。文档是按一定结构
组织的若干逻辑记录构成的信息集合。是数据库数据
组织的基本形式,作为一个处理单位存储在介质上;
分为主文档(顺序文档)和倒排文档,随机文档。
顺序文档:是文档在计算机存储器中的一种存放形式,
文档中的全部记录按顺序一个接一个地存放,记录的
物理位置通常按照存取号由小到大排列,记录之间的
逻辑顺序与物理顺序一致。
倒排文档:是把数据库检索中的一切可检索字段或属
性值(主题词、著作名、自由词、出版年)抽出来,
作为索引标识,按某种顺序重新加以组织后得到的一
种文档。
5,什么是精确匹配?什么是局部匹配?
精确匹配:是指要求结果记录(标识)中包含的需求
模式必须与提问式所表达的模式完全匹配,才能作为
命中结果输出。局部匹配:是指要求结果记录(标识)
中包含的需求模式与提问式所表达的模式部分匹配,
即为命中。
6.记录:是作为一个单位来处理的有关数据的集合,
是对某一实体的属性进行描述的结果。字段:是记录
的下级数据单位,用来描述实体的某一属性
7,信息检索系统的物理结构有哪些优缺点?
1)集中式检索系统:是资源在空间上集中配置的系统,
单机检索系统是典型的集中式系统,它将软件、数据
和主要外部设备集中在一套计算机系统之中。优点:
信息资源集中,便于管理,资源利用率高;专业人员
相对集中,有利于发挥其作用。缺点:维护代价大,
系统的安全性差,一旦主机出现故障,可能导致整个
系统的瘫痪。
2)分布式检索系统:是指通过计算机网络把分布在不
同地点的计算机硬件、软件、数据库等设备和资源联
系在一起,以服务于一个共同的系统目标而实现的相
互通信、互操作的资源共享的系统。优点:可根据用
户应用需求来配置资源,提高系统对用户检索需求和
环境变化的应变能力,且便于扩展,具有较强的健壮
性,在网络上某一节点的故障不会以其他节点系统的
工作。缺点:越来越多的检索系统寻求基于分布式协
作工作模式的检索服务解决方案。
第四章