信息检索与应用(重点)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1信息、知识、情报、文献之间的关系

信息是宇宙间的一切运动状态及其反应,我们通过对这些信息的获取来认识事物本质,并由此产生新的知识。知识是经人脑思维加工而成的有序化的人类信息。文献是被物化了的知识记载,是被人们认可并进行长期管理的信息。情报是人们为解决特定问题而被活化了的更为高级、更为实用的知识。

2零次文献、一次信息、两次信息、三次信息

零次文献:主要指尚未经过系统整理形成一次文献的零散资料,例如,未正式发表的书信、手稿、讨论稿、实验的原始数据、工程草图、人们在某些专业会议上口头交流的经验或某些论点等。

一次信息:以作者本人的生产和科研工作为依据而创作的原始信息。如专著、教材、学术论文等。

二次信息将分散的无序的一次信息进行加工整理后,使之成为系统有序的信息。如书目、引文索引、搜索引擎的搜索结果等。

三次信息根据二次信息提供的线索,利用一次信息,经过调研、分析、综合而形成的。如百科全书、综述、述评、字词典等3信息检索的意义

①信息检索是大学生信息素质教育的主要内容

②信息检索是创新人才应具备的基本技能

③信息检索是科学研究和论文写作的重要环节

④信息检索是开发信息资源的有效途径

⑤信息检索是科学决策的依据和企业竞争的手段

4什么是信息检索

信息检索广义上是指将杂乱无序的信息按一定的方式组织和存储起来,并根据信息用户的需求找出相关信息的过程和技术,全称是”信息存储与检索”

5检索语言的概念、检索语言的应用

是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言其主要作用就是对文献的外部特征和内容进行多层次描述,提供多种检索途径,以便用户从不同角度检索查找。检索语言的主要作用如下:

①标引文献信息内容及其外表特征,保证不同标引人员表征文献

的一致性;

②对内容相同及相关的文献信息加以集中,揭示其相关性;

③使文献信息的存储集中化、系统化、组织化,便于检索者按照

一定的排列次序进行有序化检索;

④便于将标引用语和检索用语进行相符性比较,保证不同检索人

员表述相同文献内容的性,以及检索人员与标引人员对相同文献内容表述的一致性;

⑤保证检索者按不同需要检索文献时,都能获得最高查全率和查

准率。

6分类语言、主题语言

分类语言是按文献内容所属的学科或专业,结合文献内容特

征,根据特定分类体系而编制的检索语言。它通过分类体系的分类号使同学科专业文献集中在—起,以分类号作为检索标识。

主题语言是直接以代表信息内容特征和科学概念的概念词作为检索标识,并按字顺组织起来的一种检索语言。主题语言又可分为标题词、单元词、叙词、关键词等语言

7检索工具

☆概念:检索工具是存储、报道和检索信息的工具。它是经过对信息进行搜集整理、特征分析和组织加工后的产物,同时又是信息检索的主要手段和条件。

☆特点:检索工具是在一次文献的基础上加工而成的二次或三次文献,每条信息条目能完整描述信息的内容特征和外部特征,条目中有检索意义的检索标识提供信息线索,并按照一定的体例编排而成。

☆类型:信息的著录格式的不同:检索工具书,参考工具书8信息检索的基本步骤

(一)信息需求分析

(二)制定检索策略选择检索系统确定检索途径

确定检索途径选定检索方法构造检索式(三)实施检索、分析检索结果、索取原文

(四)评价检索效果,调整检索式,优化策略

9检索失误分析及对策

检出的文献过少:检索工具的信息资源不适合本次检索课题的范围;检索词的选择是否过于冷僻;同义词、近义词以及相关词语被遗漏;位置运算符和字段限制符的使用不正确;未使用截词符,遗漏了该检索词的其他形态;逻辑运算符的使用有错误

扩检的方法选:择多个检索系统或者同一检索系统的多个数据库进行跨库检索,提高查全率。降低检索词的专指度,利用词表选用同义词、近义词或上位词作为检索入口。(如查找关于孙中山的文献,先用‘孙中山’查找,再用‘孙文’、‘国父’查找。当检索系统提供了分类途径时,可选用分类途径对检索结果进行补充检索。减少逻辑“与”的运用,使用逻辑“或”连接同义词、近义词和相关词。使用截词符号进行截词检索,将同一词干的多种复合形态作为检索词。减少限制条件,扩大检索词出现的字段范围,甚至可以扩大到全文范围检索。

检出的文献过多:不相关文献比例过大:检索词的范围过大,使用了上位概念;截词过短;逻辑运算符的使用有错误;未合理使用位置运算符或字段限制符

缩检的方法提高检索词的专指度,增加换用下位词和专指性较强的检索词。增加逻辑“与”的运用,用逻辑“非”排除无关检索项。减少或不采用逻辑“或”及截词检索技术的使用。限定检索词出现的字段及在段落、文句中的位置。如将检索词的查找范围限制在篇名和叙词字段中。利用文献的外表特征限制检索,不选“全文检索”利用检索系统提供的限定功能,增加对出版时间、文献类型、语种等外表特征的限定。

用“二次检索”、“条件检索”排除误检

10搜索引擎、学科信息门户

搜索引擎是Internet上对网上二次信息进行信息组织的主要形式,其实质是一种报道、存储网上一次信息的检索工具。学科信息门户是指根据特定的目标,选定信息资源的学科领域,对有关的网站网页进行搜索和收集,加以鉴定核实,并对核实后的网址进行合理组织,使之能够提供检索、浏览和链接的信息集合。学科信息门户与搜索引擎的主要区别在于,其搜集的资源专题性和学科性质更强,通常是由该学科研究领域的专家经过筛选、标引、注解和评价的有关这一领域高质量的信息资源,从而保证用户获得“所要即所得”的信息。学科信息门户提供浏览检索的途径较搜索引擎多,且能够提供更严谨的字段限制检索和概念检索,更适应专业用户的需求。但是,由于学科信息门户主要使用受控语言来组织网络资源,因此不具备搜索引擎索引资源涉及面广、检索覆盖率高的特点,相比之下,搜集的资源相当有限

11网络信息资源的选择与评价

评价的标准:网络信息机构的权威性和可信度,网络信息资源的客观性和新颖性,网络信息资源的覆盖面和针对性,网络信息资源的易检性和获取成本

评价的方法定性分析法是指按照一定的评价标准从主观角度对网络信息资源所做的优选与评估。这种方法一般根据评价目的和服务对象的不同需求, 确定相应的评价指标体系, 建立评价标准及赋值标准, 再让用户进行评定或打分, 给出网络信息资源的评价结果, 以指示网络信息资源质量的高低。

定性评价法一般采用用户问卷调查和专家评议等方式。定性评价标准因专业领域、学术水平和课题的专门需求等差别而因人而异, 无法强求一致。目前, 实践中所开展的绝大部分网络信息资源的评价服务都以定性评价法为主。定性评价的缺点是评价结果受人为因素影响较大, 并且由于缺乏量化标准, 评价结果往往失之模糊,其优点是可以对网站内容进行深入系统的分析。

定量评价法是按照数量分析方法, 利用网上自动搜集和整理网站信息的评估工具, 从客观量化角度对网络信息资源进行的优选与评价。

定量评价的优点是信息比较全面及时,使用方便而快捷, 可以从技术指标上对网站进行评价, 所得的评价结果比较客观而公允。缺点是标准过于简单, 并且这些统计数据可能会受到广告、网站免费服务、浏览器设置等因素的影响, 所得结果难免偏颇。同时, 定量评价方法无法对内容进行深入的考察。定量评价法在一定程度上克服了定性评价的主观性和价值偏向, 为人们提供了一个系统、客观、规范、宏大的数量分析方法, 是网络信息资源评价的一个发展方向。

12全文检索技术

全文检索是一种能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件

13网络信息检索工具

(一)网络信息检索工具的构成

信息采集子系统

数据库: 信息采集子系统采集和标引的信息汇集成数据库

检索代理软件:当用户提出检索要求时代理用户在数据库中进行检索的程序

(二)工作原理通过人工采集或自动索引程序广泛收集网络信息资源数据,经过判断、选择、标引、加工、分类和组织后形成供检索使用的数据库并创建目录索引;用户根据检索需求,按照检索工具的语法要求构造并通过检索界面输入检索提问式;检索软件对用户的检索提问进行识别和判断后,代理用户在数据库中进行检索,在对检索结果进行评估、比较和按相关度排序后提供给用户。

(三)类型:按检索对象划分,非Web资源检索工具、Web

资源检索工具

按采集内容划分:综合型检索工具、专科型检

索工具、专题型检索工具(四)评价指标:数据库的评价指标:数据库的规模、范围、质

量控制

信息组织管理评价指标:信息的搜集方法、更新周期、组织

管理方式

信息检索功能评价指标:查全率、查准率、响应速度等

检索结果评价指标:检索结果的满意度;响应时间;相关度

排序;结果输出个性化选择;结果显示形式。

检索界面评价指标

4搜索引擎的工作原理

网页搜集搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

预处理搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理:⒈提取文字⒉中文分词⒊去停止词

⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版

权声明文字、导航条、广告等……)5.正向索引6.倒排索

引7.链接关系计算8.特殊文件处理

查询服务搜索引擎接受用户提交的查询请求后,按照用户的要求检索索引数据库,找到用户所需要的资源,并返回用户。

15开放存取的定义及作用

开放存取(Open Access,OA):把同行评议过的科学论文或学术文献放到互联网上,使用户可以免费获得,而不需要考虑版权或注册的限制。开放存取不是一个技术概念,而是一个观念和文化的问题。其核心就是:付费出版,免费使用. 开放存取(Open Access)是国际学术界、出版界、图书情报界为了推动科研成果利用互联网自由传播而采取的运动。

其目的是促进人文信息的广泛交流,利用互联网进行科

相关文档
最新文档