信息检索知识点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索知识点
信息检索考点整理
1.信息检索的概念
⼴义的信息检索是指将信息按⼀定的⽅式组织、存储起来,并根据信息⽤户的需要找出有关信息的过程,包括信息的存储和检索两个过程;
⽽狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理
就是将检索者的检索提问标识与存储在检索⼯具中的信息特征标识进⾏相符性⽐较,凡是信息特征标识与检索提问标识相⼀致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索⼯具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?
检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利⽤检索语⾔对⽂献进⾏标引,形成⽂献特征标识并输⼊检索⼯具,为检索提供有规律的检索途径;检索过程主要是利⽤检索语⾔对检索提问进⾏标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与⽂献特征标识进⾏⽐较。
检索过程是存储过程的逆过程。
因此,检索者只有在全⾯了解存储者是怎样把⽂献存⼊到检索⼯具中去以后,才知道怎样从检索⼯具中把所需要的信息检索出来。
4.信息检索的⽅法
(1)顺查法
(2)倒查法
(3)抽查法
(4)追溯法
(5)循环法
5.信息检索的途径
(1)内部特征途径
a)分类途径
b)主题途径
(2)外部特征途径
a)题名途径
b)著者途径
c)⽂献编号途径
d)⽬录检索途径
e)机构检索法
f)引⽂检索途径
6.布尔模型的优缺点
优点:(1)简单,形式简洁,易于理解;
(2)可操作性强,应⽤⼴泛;
(3)构成的逻辑提问式可以表达与⽤户思维习惯相⼀致的查询要求,提供⾮常精确
的语义概念;
(4)能处理结构化提问。
缺点:(1)表达⽤户复杂需求效果⽋佳
(2)准确匹配⽆法提供定量⽐较
(3)匹配标准不尽合理
(4)检索结果不易控制
7.概率排序原则:
如果⼀个检索系统对⽤户的每个检索提问的反应是以⽂献集合中的⽂献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?
所谓计算机信息检索,就是在计算机和⼈的共同作⽤下,按照⼀定的⽅法组织和存储信息,并通过⼈机对话从计算机存储的⼤量数据中⾃动输出⽤户所需的那部分信息的过程。
实质上计算机信息系检索是利⽤计算机信息检索系统存储和查找信息的技术,是计算机硬件资源、系统软件、检索软件和数据库的综合。
9.计算机信息检索的类型:
(1)根据检索系统的⼯作⽅式,可分为:
a).脱机信息检索
脱机信息检索是利⽤单台计算机的输⼊装置进⾏检索的系统,⽤磁带作为存储介质,并且为连续的顺序检索⽅式,适合⼤批量的定题信息检索。
b).联机信息检索
联机信息检索是利⽤计算机终端设备,通过通信线路或⽹络,与世界上的信息检索系统相连,从信息检索系统的数据库中进⾏检索并获取信息的过程。
联机检索模式是主从式,即为所有的⼯作都在主机上进⾏,主机负担重,⼀旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极⾼。
c).光盘信息检索
d).⽹络信息检索
(2)根据信息的服务⽅式,可分为:
a).定题检索
定题检索是⽤户根据课题的要求,事先编写出逻辑检索提问式,并将存储在计算机的存储器中,每次系统加⼊新的信息,系统便会按检索要求,找出⽤户所需的资料,并把结果分给⽤户,⽤户能及时得到最新的⽂献信息。
具有定期性、新颖性和批处理性的特点。
b).回溯检索
回溯检索是追溯查找过去的信息,让⽤户⼀次检索⼀段时间内与某⼀课题有关的信息。
也可以查找最新的信息,可以适应多数⽤户的查询需要。
c).⽇常检索
10.计算机信息检索技术初级检索6个
1)布尔逻辑检索
2)位置限制检索
3)短语检索
4)截词检索
5)字段限制检索
6)区分⼤⼩写检索
11.计算机信息检索技术⾼级检索6个
1)加权检索
2)⾃然语⾔检索
3)相关信息反馈(相似检索)
4)概念检索
5)模糊检索
6)聚类检索
布尔逻辑检索
(1)逻辑与⽤AND或*表⽰检索式写作A AND B或A *B
(2)逻辑或⽤“OR”或“+”表⽰
(3)逻辑⾮⽤NOT 或—表⽰ A NOT B (A当中除去B所剩下的)
字段名称及缩写
AB abstract TI title AU author JN journal name
LA language PY publication year SP source publication
分类和聚类的异同
相同点:基于“类”的思想进⾏检索。
不同点:(1)分类基于分类法,其类⽬体系主要是先组式,有系统性的。
类⽬与⽂献之间具有相对独⽴性。
⽽聚类则先有⽂献后聚类,类的性质及整体类⽬体系完全由系统中的⽂献决定。
(2)从类⽬形成过程看,分类是总到分,聚类由分到总。
会构建检索式(主要是积⽊型)
12.计算机信息检索策略含义
狭义的计算机信息检索策略是指检索提问式的构建,即运⽤系统特定的检索技术,确定检索词之间的逻辑关系,形成表达⽤户信息需求的检索提问式。
⼴义的计算机信息检索策略是指在分析检索课题的实质内容和明确检索⽬标的基础上,选择检索⼯具,确定检索途径与检索⽤词,以及检索词之间逻辑关系与查找步骤最佳⽅案的⼀系列科学安排。
13.计算机信息检索策略类型(即联机检索五原则)
(1)最专指⾯优先:从最专指的概念⼊⼿
(2)最低登录量⾯优先
(3)积⽊型(重点掌握,会构建此检索式)
(4)引⽂珠型增长
(5)逐次分馏
14.⽹络信息资源的评价⽅法:
(1)定性评价法:是指按照⼀定的评价标准从主观⾓度对⽹络信息资源所做的优选和评
估,主要有指标体系法和调查表法。
(2)定量评价法:国内外⽐较典型的定量评价⽅法有信息计量法、层次分析法和对应分
析法等三种。
(3)综合评价法:是定性评价和定量评价相结合的⼀种⽅法,有包括分析法、模糊综合
评价法等。
(4)分类⽅法:分为第三⽅评价法、⽤户评价法和⽹络计量法。
15.搜索引擎的类型:
(1)按检索机制划分:检索型、⽬录型和混合型检索⼯具
(2)按检索内容划分:综合型、专题型和特殊型检索⼯具
(3)按包含检索⼯具数量划分:单独型和集合型检索⼯具
(4)按检索资料类型分:万维⽹检索⼯具和⾮万维⽹检索⼯具
16.元搜索引擎的含义
所谓元搜索引擎,是对分布于⽹络的多种检索⼯具的全局控制机制,它通过⼀个统⼀⽤户界⾯帮助⽤户在多个搜索引擎中选择和利⽤合适的搜索引擎来实现检索操作。
17.元搜索引擎的特点:
(1)虚拟索引数据库
(2)查全率⾼
(3)⽤户界⾯友好
(4)适宜⼆次加⼯
(5)扩展性好
18.元搜索引擎的⼯作原理
19.实现跨语⾔信息检索的⽅法:
(1)提问式翻译⽅法
(2)⽂献翻译⽅法(唯⼀结果是源语⾔描述)
(3)提问式—⽂献翻译⽅法(将查询语⾔提问式翻译成⽬标语⾔提问式,与⽬标语⾔描述的信息库进⾏匹配,检索相关信息,然后再把检索结果的全部或部分内容翻译成查询语⾔描述的信息。
检索结果⼀般选择部分翻译,这样⼯作量较⼩,容易提⾼翻译的效率和质量,部分翻译⼀般是对结果⽂本的前两⾏、⽂摘或⽂本中重要的词进⾏翻译,在重要词的翻译中,如何确
定重要词是决定这种⽅法效果的关键。
(4)中间语种翻译⽅法
(5)⾮翻译⽅法
20.语义⽹的应⽤
(1)Web服务
(2)智能信息检索
(3)基于语义的⽹页搜索引擎
(4)企业数据管理
21.Ei收录论⽂的两个层次
(1)Compendex数据。
数据的内容全⾯,主要包括:论⽂标题;作者;作者单位;英⽂⽂摘;论⽂所在期刊名称;卷,期;论⽂页码;分类码;主题词等等。
其中:分类码;主题词需要专业⼈员单独给出。
(2)Page One数据:数据内容主要包括:论⽂标题;作者;作者单位;论⽂所在期刊名称;卷,期;论⽂页码;少数数据带有英⽂⽂摘。
不需要任何专业⼈员再做⼯作。
/doc/f5cf97af1eb91a37f0115c55.html pendex数据和Page One数据的主要区别在于:数据中是否有分类码和主题词;有这两项内容的数据是Compendex数据,反之是Page One数据。
有没有主题词和分类号是判断论⽂是否被Compendex数据正式收录的唯⼀标志。
23.主题指南
按字母顺序列出与分类表中类⽬名称相关的主题词,并注明相关的分类号,实际上是分类表的主题索引,是从分类途径检索⽂献的指南。
便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到⽂献所在页码。
24.SCI(科学引⽂索引)的编制结构及检索⽅法
(1)引⽂索引
(2)来源索引
(3)机构索引
(4)轮排主题索引
25.如何决定收录期刊的数量和种类?
(1)“加菲尔德⽂献集中定律”——确定适宜的期刊数量
该定律认为:在⼏万种科技期刊中,最重要的期刊(即核⼼期刊)不过⼀千种,甚⾄可能还不⾜500。
因⽽,把收录期刊的范围定在3000种以内,⾜以把重要的科技⽂献包括在内。
(2)“费⽤—效果原则”——⽤来选择每⼀种期刊,具体⽅法是“引⽤频率统计法”
先计算⼀种期刊在⼀年内被引⽤的总次数,再计算其中每篇论⽂的平均引⽂章,其他因素对引⽂章的影响通过加某些修正系数来解决,引⽤频率越⾼,说明该刊质量越⾼。
通过上述两个指标决定了收录期刊的数量和种类
26.什么是专利?
这种受法律保护的发明就称专利。
含义:专利权——法律
受专利法保护的发明创造——专利技术
专利说明书等专利⽂献——⽂献
这三层含义的核⼼是受专利法保护的发明,⽽专利权和专利⽂献是专利的具体表现。
27.什么是同族专利?
同族专利指同⼀个发明为了在不同国家得到保护,⽽在这些国家分别申请的⼀系列内容相同或基本相同的专利。
由于同族专利或相同专利都具有相同的优先权项,所以通过优先权项可以⽅便、快捷地检索出有关同⼀发明的全部相同专利或同族专利。
28.专利的类型
(1)发明专利
(2)实⽤新型专利
(3)外观设计专利
(4)植物性专利
(5)防卫性专利
知识产权:⼯业产权和著作产权
29.学位论⽂的⽂献价值:
(1)较⾼价值的⼀次⽂献:写作不受篇幅限制,论述详尽:从研究背景、技术线路、实验⽅法到数据获取、分析结论论述翔实。
(2)珍贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、研究进展和最新成果,论⽂的使⽤者可以跟踪名校导师的科研进程。
(3)综述性⼆次⽂献:对相应研究领域有系统深⼊的讨论和综述,拥有详尽的参考⽂献,可得到课题研究现状综述。
(4)写作技巧的启发蓝本:通过对学位论⽂的阅读,可⼤致梳理出作者的写作思路和研究⽅法,学习学位论⽂的写作⽅法。
30.信息检索评价⽅法
(1)测试⽂档集合法
(2)⼈机交互
(3)⽤户体验⽇志分析法
(4)⾃然观察法
31.召回率:R=(检索出的相关⽂献量/ 数据库中的全部相关⽂献)x100%
准确率:P=(检索出的相关⽂献量/ 检出的⽂献总量)x100%
32.平均准确率(并会计算)
平均准确率是⼀个通过所有相关⽂献测定系统绩效的单值指标。
如果检索系统能快速返回所需的相关⽂献,并对被检⽂献进⾏等级排序,则该系统的性能较好。
平均准确率是求各个相关⽂献准确率的平均值。
因此平均准确率的计算只考虑相关⽂献的数量,⽽与检出⽂献的总量⽆关。