数字信息检索与利用复习重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章信息检索概述
1. 信息检索的概念。狭义信息检索是指用户找出有关信息的过程。广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。
2. 信息检索的类型
(1)按照检索对象的不同划分
早期分为:文献检索、事实检索、数据检索。
当前三分方法:文本检索、音频与视频检索、数值检索。
(2)按检索手段划分:手工检索、机器检索
3.简述信息检索的基本原理
信息检索的基本原理:对信息集合与需求集合的匹配与选择。
实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。
一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。
二、需求集合:用户的信息需求是在社会实践活动中产生的。当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。
三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。
匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。
4.计算机信息检索经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。
5.信息检索领域的主要研究问题有哪些?
⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论
⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等
⑶信息资源及其收集、加工:信息存储、数据库
⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术
⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等
⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。
信息检索的两种研究方式:
以计算机为中心和以用户为中心,以计算机为中心的IR 问题是主流。
6.检索语言的含义及作用
检索语言:是根据检索需要而创造的一种人工语言,它是存储、查找文献的共同依据,也叫标引语言。
作用:(1)保证不同标引人员表征文献信息的一致性。
(2)使内容相同及相关的文献集中化。
(3)保证检索提问与文献信息标引的一致性。
(4)保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。
7.检索语言的类型
(1)是否规范化:受控语言、自然语言
(2)包括的专业范围:综合性和专业性
(3)描述文献的特征:外表特征、内部特征
(4)组配方式:先组式、后组式
(5)文献内部特征语言:分类检索语言、主题检索语言分类语言
分类法是按信息资料内容的学科知识属性分门别类来系统标示和组织信息资料,并用分类号表达文献主题概念的方法。
分类标引(归类)——依据一定的分类语言对信息资源的内容特征进行分析、判断,赋予分类标识的过程。
主题语言
(1)标题语言
标题语言是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。
标题语言是主题语言系统中最早出现的一种,标题语言属于先组定组式检索语言类型。
(2)元词语言
元词语言是以元词作为主题标识,通过字面组配的方式表达信息资源主题的主题语言。
元词:是指用来标引信息资源主题的、最基本的、字面上不能再分的语词。
(3)叙词语言
叙词语言是以从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配方式表达信息资源主题的主题语言。
叙词:经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。
(4)关键词法
关键词法是直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过对关键词轮排等方式揭示文献主题的主题语言。
关键词:关键词指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表征文献主题内容具有实质意义的语词。
语词组配:(1)字面组配;(2)概念组配
8.信息检索的途径有哪几种?是举例说明。
根据文献的外部特征和内部特征,将信息的检索途径分为两大类型。
(1)以文献的外部特征为检索途径
①题名途径(利用刊名、书名、篇名对文献进行检索的途径):一般用于查找图书、期刊、单篇文献。
②著者途径(著作者、编者、译者、专利权人、出版机构等):根据已知文献著者姓名查找文献的途径。
③号码途径(通过已知号码查找文献的途径,如标准号、专利号、报告号、索取号等)
(2)以文献的内部特征为检索途径
①分类途径(文献内容所属的学科体系)
②主题途径(文献的主题内容)
9、信息检索的方法有哪几种?试举例说明。
⑴常用法:
①顺查法:以检索课题的起始年代为起点,按时间顺序由远及近地查找。如已知某研究成果最初产生的年代,现在需要了解它的全面发展情况,即可从最初年代开始,按时间的先后顺序,一年一年地往近期查找。
用这种方法所查得的文献较为系统全面,基本可反映某学科专业或某课题发展的全貌,能达到一定查全率。在较长的检索过程中,可不断完善检索策略,得到较高的查准率。
此法的缺点是费时费力,工作量较大。一般在申请专利的查新调查和新开课题时采用这种方法。
②倒查法:即由近及远,由新到旧的查找法。此法多用于查找新课题或有新内容的老课题,在基本上获得所需信息时即可终止检索。此法有时可保证情报的新颖性,但易于漏检而影响查全率。
③抽查法:是针对研究课题发展特点,抓住学科发展迅速发表文献较多的一段时间,逐年进行查找文献的一种方法。这种方法针对性强,节省时间。但必须是在熟悉学科发展阶段的基础上才能使用,有一定的局限性。