信息检索基础知识(精)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人类最初是依靠自身来记录和传递知识的,但因 受自身条件的限制,无法将信息传递至远方和后世。 文献的产生,使信息的记载和传递形成一个飞跃。
文献构成三要素
文献由三个要素构成,知识、载体、记录方式三位 一体不可分割。
内容 形态 构成文献的 重要手段
信息、知识、文献的关系
知识
信息
文献
本课程所涉及的信息主要 为文献信息
光盘检索
用光盘作为信息存储介质的数据库。 分为单机检索和局域网内的联机光盘检索。
网络信息检索
用户在自己的客户端上,通过互联网和浏览器界面对网络 信息进行检索。 特点
数据库分布式存储,数量多,信息量大;由于超文本语传输 协议,提供了大量相关链接; 内容向多媒体发展,不仅有文本,还有图像、声音等; 数据库更新速度快; 检索功能强,索引多,易学易懂;但目前各数据库检索界面 和检索技巧不尽相同,给使用者造成不必要的麻烦; 检索环境宽松,检索费用比联机检索低很多。 (网络信息检索也包括通过网络进行的数据库检索)
目前常用的分类法有《中国图书馆图书分 类法》(简称中图法)、 《美国国会图书馆 分类法》、 《杜威分类法》、 《国际专利分 类表》。
《中国图书馆图书分类法》
1999年推出了第四版,共分5大部类22个基本大类。 22个基本大类是在5在部类的基础上第一次划分得 到的,称为一级类目,分别对应一个英文字母; 从基本大类起,再连续划分3次,得到二级、三级、 四级类目。 采用汉语拼音字母和数字相结合的方式对图书 进行分类,是目前国内各公共图书馆和高校图书馆 普遍使用的图书分类法,我馆藏书也是按照该分类 法进行排架。
人工语言
根据检索的需要由人工规定的,采用规范词或代码 来专指某个概念或网罗与之相应的概念。可以将同义 词、近义词、相关词、多义词及缩略词规范在一起, 由人工控制,包括分类检索语言和主题检索语言。
分类检索语言
按照学科范畴及知识之间的关系列出类目,并 用数字、字母符号对类目进行标识的一种语言 体系,也称分类法。
(3)视听型(声像型) 载体:磁性和感光材料 记录手段:借助于特殊的机械装置(如复录机、摄像机、录像机等)直 接记录声音、图像 优点:直观、生动 缺点:制作成本较高,需要借助于一定的设备才能阅读 此类型文献有:唱片、录音带、录像带、幻灯片、电影片、多媒体资 料等 (4)电子型(数字型) 载体:光、电、磁介质 记录手段:利用计算机进行存储 优点:存储密度高,,出版周期短、易更新,传递信息迅速,存取速 度快,可以融文本、图像、声音等多媒体信息于一体,信息共 享性好、易复制,识别和提取易于实现自动化 缺点:需借助计算机等先进技术设备才能阅读 此类文献有:电子图书、电子期刊、联机数据库、网络数据库、光盘数据库
二、按加工层次分:
一次文献(Primary Document):
通常是指原始制作,即作 者以本人的研究成果为基本素材而创作(或撰写)的文献。 检索的目标 如期刊论文、科技报告、会议论文、专利说明书
二次文献(Secondary Document):是指文献情报工作者对
一次文献进行加工整理后所得到的产物,也是为了便于管理和利用一次文 献,由文献情报工作人员编辑、出版和积累起来的工具性的文献。二次文 献的重要性在于可以帮助人们查找一次文献。 检索的手段
信息检索发展历程
手工检索到计算机检索 题录文摘信息到全文信息的获得 计算机检索经历了联机检索、光盘检索和 网络检索方式 发展趋势是异构数据库的统一平台检索
(我们下面的讲课内容侧重于计算机信息检索)
计算机检索系统
计算机信息检索系统的概念
由存储在一定载体上的有序化信息集合、 相应的检索技术与设备等构成的具有存储和检 索功能的信息服务体系。
形成 检索 语言 和 名称 规范 形成
文献信息 输入 标识 (检索项)
检 索 输出 系 统
检 索 结 果
检索 分析 检索 选用 提问 课题 信息
检索提问 检索 标识 (检索词)
检索过程
信息检索的概念
将信息按照一定的方式组织和存储起来,并 根据用户的需求找出有关信息的过程。 广义的信息检索包括存储和检索两个过 程,狭义的信息检索就是指用户查找出所需 信息的过程。
图书馆信息服务部:徐淑慧
Tel:82519545 E-mail:xushuhui@hrbeu.edu.cn
第二讲
信息检索基础知识
本将主要内容
信息及相关概念 信息的分类 信息检索 计算机检索系统 信息检索语言
信息及相关概念
信息(Information)的概念
信息论的创始人克劳德· 香农(Claude E. Shannon)从通信系统理论的角度把信息定义为: 信息是用来消除不确定性的东西 。 控制论的创始人、美国科学家维纳(N. Wiener) 对信息的含义做了进一步的阐述 :信息是人们 在适应外部世界并使这种适应反作用于外部世 界的过程中,同外部世界进行互相交换的内容 的名称 。 中国学者钟义信对信息的解释:信息是事物运 动的状态与方式,是物质的一种属性 。
文献信息的分类
信息的外延是一个纷繁的体系。按照 不同的标准和方法有不同的分类形式
文献分类总示意图
文献信息
按加工层次分 按载体类型分
一次信息 二次信息 三次信息
按 载 体 类 型 分 印刷型 缩微型 视听型 机读型
期刊论文 会议论文 学位论文 专利文献 标准文献 科技报告 技术档案 政府出版物 产品样本
甲骨 树皮 竹简 丝帛 等
纸介质 手写 雕刻印刷 活字排版 激光照排技术
感光材料为载 体 缩微胶卷 缩微平片
磁性或塑性材 料为载体 磁盘版 光盘版 联机版 网络版
缩微型
印刷型
信息按 载体类 型分
电子型
视听型
磁性或感光 材料为载体 唱片、录音 带、电影片、 录像带等
按载体类型分
一、按载体形式划分
(1)印刷型: 载体:纸张 记录手段:手写、打字、印刷和复印等 优点:便于直接阅读,使用方便 缺点:较笨重、存储密度低,不便于加工、整理和收藏。 此类型文献有:期刊、图书等 (2)缩微型: 载体:感光材料 记录手段:缩微照相 优点:存储密度较大、体积小、便于收藏保存、便于远距离传递 缺点:缺点是不能直接阅读,需借助缩微阅读机才能阅读 此类型文献有:缩微胶卷、缩微胶片等
中图法简表
中国图书馆分类法样例
索书号举例
F123.16/W61 F123.16-2/Z24/2 F123.17/Z89/(2) F123.2/L66-2 F12/Y30
主题检索语言
由主题词汇构成,即将自然语言中的名词术语 经过规范化后直接作为信息标识,揭示主题概 念之间的关系。 主题语言表达的概念比较准确,具有专指 性,不同的专业领域或不同的数据库(一般为 外文数据库)有自己的主题词表。
题录文摘数据库和全文数据库 中文数据库和外文数据库 综合数据库和专业数据库 图书、期刊、学位论文、专利、标准等数据库
检索系统的评价
检索功能 检索技术 检索结果 用户服务
信息检索语言
1.检索语言的概念和作用
检索语言是信息存储与检索过程中用于描述信 息特征和表达用户信息提问的一种专门语言。
如目录、题录、文摘、索引、各种书目数据库
三次文献(Tertiary Document):是指利用二次文献,选用
一次文献内容,经综合,分析和评述后形成的指南性文献。
如综述、述评、词典、百科全书、年鉴、指南数据库、书目之书目
检索的对象+检 索的工具
文献结构示意图
原始文献 (一次文献) 文献整理 重组、浓缩 三次文献
信息检索原理
检索系统将用户的请求与信息集合中的信 息进行匹配运算,再将命中信息反馈给用户。
信息检索类型
按检索对象的性质划分:事实检索、数据 检索、文献检索 按检索方式划分:手工检索和计算机检索 计算机检索又包括联机检索、光盘检索和 网络检索。
联机检索
联机检索是指用户利用计算机终端,通过通信 线路或网络,在联机中心的数据库中获取信息。 特点 同时检索多个数据库、数据质量高、检索机与 主机是主仆关系、对检索人员要求高、而且检 索需要的费用高。
普遍认同的一个概念-- 信息普遍存在于自然界、人类社会和思维领域中, 它是客观世界中各种事物变化和特征的反映, 是客观事物之间相互作用和联系的表征, 是客观事物经过感知或认识后的再现。
信息的特性
客观性 传递性 时效性 转换性 共享性
知识(knowledge)的概念
知识是人们对客观事物存在和运动规律的认识, 是经过人脑加工处理过的系统化了的信息。 人们对事物由表及里、由现象到本质、由感性 到理性的认识深化,便形成了知识。知识是人类经 验和智慧的总结,是人们科学地认识世界、改造世 界的力量。
二次文献
书目 题录 索引 文摘
词典 名录 指南 手册 年鉴
评述 论文 丛集 百科全书
信息检索
检索过程分析
表达需求
检索者
检索系统
反馈结果
信息源(大量信息) 充分标注(检索语言) 可检索(检索技术、规则等) 可显示(屏幕显示或打印) 信息之间的连接等
wenku.baidu.com息存储与检索过程图
存储过程
标引 文献 分析 文献 著录 信息 信息 特征
EI中的词表功能
EI记录样例
分类语言用于检索信息的特点
具有等级结构,便于扩大和缩小检索范围 用分类号做检索标识,不存在文种的限制 分类表中的类目不能随时变化,不能及时反映新的 学科技术,边缘交叉学科只能从学科门类进行检索 隶属于一个门类下,造成漏检
2.信息检索系统的构成
从物理构成来讲
分为硬件、软件和数据资源
从检索方式划分
联机检索、光盘检索和网络检索
硬件
检索机 服务器 网络
软件
采集 存储 标引著录 规范 内容发布 检索 服务 管理
数据资源
数据库 网络信息资源
数据库
数据库是一系列信息记录的集合,是检索系统 中的信息源。存储于计算机的磁带、磁盘或光 盘上。 数据库分为
检索语言是人与计算机对话的基础。检索时的匹 配运算就是通过检索语言的匹配来实现的。存储信息 时,赋予信息特征标识,如题名、作者、分类号等; 检索信息时,用检索语言表达用户的需求。
检索举例
查找我馆馆藏中“英语”方面的2004年以 来出版的图书的藏书情况
2.检索语言的分类
自然语言
从信息内容本身自动抽取的。如题名、关键词、文 摘、作者所在机构等。
知识的存在形式
1、存在于人脑记忆中 2、存在于实物中 3、用文字、图形、符号、代码、声频、视频 等技术手段记录在一定载体上的知识。 其中第三种形式称作文献
文献(literature、document)的概念
《中华人民共和国国家标准· 文献著录总则》给文献 下的定义是:“文献是记录有知识的一切载体”。