信息检索复习整理讲解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、什么是信息(Information)?
在西方英文中information一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成“信息”。在我国台湾、香港地区,该词被译为“资讯”。
信息是被反映物的属性再现,信息的属性在于表现它物。也就是说,信息不是事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。一切事物包括自然界和人类社会都会产生信息。一个完整的信息过程,包括信息的传递、接收、贮存、加工和利用。
2、信息具有以下特征:
1)普遍性
(2)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。
(3)传递性
(4)可转换性:信息是可以由一种形态转换成另一种形态。信息一般有4种形态:数据、文本、声音、图像。这4种形态可以相互转化,例如,照片被传送到计算机,就把v图像转化成了数字。
(5)可再生性
(6)共享性:同一信源可以供给多个信宿,因此信息是可以共享的,且不因共享而减少(7)可识别性:信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。(8)可存储性:信息是可以通过各种方法存储的。
二、信息检索
广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。
狭义:仅仅指信息查找的过程。即取的环节。
三、信息检索的发展
1、第一阶段:完全手工检索阶段
2、第二阶段:半机械检索系统-机电、光电检索系统的发展阶段
3、第三阶段:计算机检索系统的发展阶段
4、第四阶段:基于Internet 的网络化检索系统阶段
信息资源的分类:
1、信息源可分为自然信息源和社会信息源。
2、按信息资源所依附的载体划分(不用全背)
(1)体裁信息资源:以人体为载体并能为他人识别的信息资源。按其表述方式又可分为口语信息源和体语信息源。口语信息源是人类以口头方式表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。
(2)实物信息资源:以实物为载体的信息资源。又分为自然实物信息源与人工实物信息源。如:化石、产品、样品等。
(3)文献信息资源:以文字、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资源。
(4)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储
的手段与形式的信息资源。
3、按信息资源传递的范围划分:
(1)公开信息资源:又称共享信息资源或白色信息资源(white information),指公开发行、流通和传递的信息资源,其蕴涵的信息人人可以使用。一般来说,公开信息资源的数量最大,而且能够作为信息商品进行流通领域。
(2)半公开信息资源:又称灰色信息资源(grey information),指非公开发行、流通和传递,从常规途径难以获取的信息(内部信息)。这类信息出版量小,发行渠道复杂,流通传递范围有限,不易收集。例如:内部的刊物、技术报告、会议资料等。
(3)非公开信息资源:又称黑色信息资源(black information),指人们未破译或未被识别的,也指处于保密状态的信息。例如:考古发现的古老文字、未解密的政府文件、内部档案、个人日记、私人信件等。
自然信息均属于不可检信息。
超文本型(Hypertext):是用超链结的方法,将各种不同空间的文字信息组织在一起的网状文本。
文献信息资源1、按信息资源所依附的载体的物质形态划分
(1)刻写型:包括手稿、日记、信件、原始档案、碑刻等。
(2)印刷型:主要是指以纸张为载体,以印刷为记录手段,把信息内容固化在纸张上的形式。其优点是便于直接阅读、使用方便,其缺点是较笨重、存储密度低、收藏占用空间大、加工保存等花费人力物力大、识别和提取难以实现机械化和自动化。
(3)缩微型:以感光材料为载体,以缩微照相为记录手段而产生的一种载体形式,如缩微胶卷、缩微胶片等。其优点是存储密度较大、体积小、便于收藏保存和远距离传递。缺点是不能直接阅读、需借助缩微阅读机或阅读复印机才能使用。
缩微型一般针对于数量大、利用率低但又有较大保存和利用价值的信息资源。(4)声像型:以磁性和感光材料为载体,借助特殊的机械装置(如复录机、摄像机、录像机等)直接记录声音、图像信号的信息载体,又称视听资料,如唱片、录音带、录像带、幻灯片、电影片、多媒体资料等。
其优点是可以闻其声、观其形,直观而真切,给人以生动鲜明的印象。其缺点是制造成本较高,且需要借助于一定的设备才能使用。
2、按信息资源的加工深度和结构等级划分
(1)零次文献:指未经过任何加工的原始文献。如:实验记录、手稿、日记、原始录音、原始录像、谈话记录。
(2)一次文献:未经加工或粗略加工的原始信息资源,以本人的研究成果为基本素材而创作的文献,具体、详尽和系统化。如期刊论文、专利文献、科技报告、会议录、学位论文等等。
(3)二次文献:它是将大量分散、零乱、无序的一次文献进行进行加工、整理、标引、著录、浓缩,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。如:目录、题录、索引、文摘。具有报道和检索功能。
(4)三次文献:通过二次信息资源提供的线索,对某一范围内的一次信息资源进行分析、研究、加工而成的信息资源,它包括综述、述评、专题情报研究报告、百科全书、年鉴、