第八章 信息检索系统及评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
倒排文档
搜索
将检索出的文档 根据相关性排序
索引
排序后 的文档
文本 数据库
排序
检出的文档
信息检索系统基本结构-简介
系统结构:指系统的组成及各组
成部件之间的关系 系统的结构可以从不同的角度和 层次来讨论 本课程主要从物理层面和逻辑层 面来考察其内部构成
信息检索系统基本结构-物理结构
计算机检索系统的物理结构指系统的硬件、软件、 信息资源等构成的实体系统结构 硬件部分:主机、外存储器、输入与输出设备、 数据处理及数据传输设备 软件部分:系统软件(操作系统、语言处理程序 等)和应用软件(数据采集程序、自动标引程序、 建库与索引程序、词汇管理程序、检索匹配程序 等) 信息资源:主要指以数据库(还有模型库、规则 库、本体库等)形式存储在检索系统的有序信息 集合 同时按照物理空间的分布情况,信息检索系统的 物理结构还可以分为集中式和分布式
•
•
信息检索各功能模块-用户获取信息的特性 和能力
• • •
人的特性:
人获取信息的多通道性 人的易出错性和易疲劳性 用户的层次和发展性
•
人获取信息的能力
优势:人能通过感觉器官十分敏感地接受综合信息,识别 物体状态、大小、颜色,阅读文件,分别声音,并能将这 些信息通过大脑进行分析和决策;人有较高的创造性、智 能性,具有适应、学习、自动维修、应急等能力 不足:信息通道小,内存数量有限;大脑计算、思维和决 策的速度不及计算机;感觉器官信息接受能力有限,完成 机械、单调和重复工作的效率不高;功能发挥可靠性差
如中国知网的术语数据库
信息检索各功能模块-理解用户界面
•Βιβλιοθήκη Baidu
• •
用户界面主要承担用户与系统之间 的通讯任务,完成人机交互和对话 界面设计一定要强调人的因素,是 界面适应人而不是用户适应界面 功能:
帮助用户理解和表达信息需求 帮助用户构造检索式,拟定检索策略 帮助用户选择有效的信息源 帮助用户理解和控制检索结果 帮助用户跟踪检索过程
指示型数据库
存储实体(如机构、人物)的一般指示描
述的一种参考数据库。 又称字典型数据库,用于用户参考和指南 的各类文献信息 公司名录数据库、人物传记数据库、技术 标准数据库、产品指南数据库和大学指南 数据库。 万方数据库机构人物数据库、医生咨询数 据库(PDQ)
数值数据库
以数值型数据为主的数据库 从文献资料中分析提取出来数据、或是实
信息检索工具/系统-类型
信息检索工具/系统种类繁多,可以从功能、设备、 资源等划分 按照信息存储与检索操作所使用的设备分:手工 检索工具(包括书本式与卡片式)、穿孔卡片系 统、缩微式检索系统、计算机检索系统、网络检 索系统
按资源划分:书目信息检索系统、全文信息检索系统、多 媒体信息检索系统 按功能划分:文献检索系统、数据库管理系统、自动问答 系统(QAS)、管理信息系统(MIS)、决策支持系统 按服务划分:回溯检索、定题检索、随机问答、联机订购
信息检索系统及评价
南京中医药大学 文献检索教研室
教学内容
信息检索工具/系统的类型 信息检索工具/系统的结构 信息检索系统评价
信息检索工具/系统-二者关系
从功能上看: 检索工具和检索系统都用于信息的存 储和检索,两者之间没有严格的、绝对的界限。 从使用背景上看:检索工具是个比较传统的概念,而 检索系统是个比较现代的概念 从检索机制上看:两者是一脉相承的,检索工具的编 制原理和方法在检索系统中都有体现,检索工具是检 索系统的基础,至今仍然在发挥其重要作用。检索系 统是检索工具发展的必然结果,并逐渐占据主导地位 很多教材将检索工具作为检索系统的一种特例 本课程将检索工具定位为传统的手工印刷型检索工具, 信息检索系统则定位于机器或计算机检索系统
信息组织各功能模块-数据库创建与维护
依据上述步骤形成的有序信息一般以数据 库的形式存储
在检索系统中,常见的数据库有文献型数据库 和非文献型数据库 文献型数据库包括书目(如索引、文摘等)和 全文数据库, 非文献型数据库包括指南数据库(如人物传记、 公司名录、机构指南数据库等)、数值数据库 和术语等特殊类型的数据库
验、观测和统计中得到的数据建立的数据 库 分为纯数值型数据库和文字/数值型数据库。 万方公司的CSTPC(中国科技论文统计与 分析库),中国科学院的工程化学数据库 和图谱数据库,以及中国统计数据库都是 此类
术语数据库
由主文档和相应索引文档组成 字段结构反映术语的各种属性 主要用于辅助翻译和辞书编撰的工具
顺排文档
顺序文档:文档中的全部记录按顺序一个接一 个地存放,记录的物理位置通常按照存取号由 小到大排列 特征:
记录间的逻辑顺序和物理顺序一致 基于其他特征看文档处于无序状态 检索时间与物理位置有关 修改和删除容易,插入难 检索方法:表展开法、逻辑树法 顺序文档检索在脱机批处理的定题检索中应用
记录(Record)
•
•
是构成数据库的一个完整的信息单元,每条记 录描述了原始信息的外部和内部特征。 书目数据库中的一条记录通常代表一篇文献, 其它类型数据库中的记录则是某种信息单元, 如一种治疗方案、一组理化指数等。
数据库的构成
字段
•
•
比记录更小的单位是字段,是组成记录的数据 的信息项。 例如在书目数据库Medline中一条记录代表一 篇文献,在这条记录中有题名(TI)、著者 (AU)、来源(SO)、主题词(MH)等字 段。
检索工具体系结构
编辑说明与使用说明、凡例 目次表(多为分类表或主题表) 正文(有序的信息集合)
辅助索引(如主题索引、著者索引等)
附表(资料来源目录与附录等)
信息检索工具/系统-计算机检索系统
单机检索系统:如穿孔卡片系统以及磁带数 据库系统,20世纪60年代使用 联机检索系统:20世纪70年代发展起来的一 种集中式的信息检索 光盘检索系统: 20世纪80年代,以光盘为介 质的检索系统,有单机光盘和网络(局域网) 光盘检索 网络检索系统:主要指Internet网络,大量 的电子化信息资源,如电子图书、电子期刊、 图书馆联机馆藏目录、联机数据库等。
信息组织各功能模块-中文自动标引的研究
中文自动标引的难题
•
•
•
词典切分法:主题词表、关键词词典和部件词典 法(部件词通常是建立一个二字部件词典和一个 一字部件词典,其标引过程类似最大匹配法) 切分标记法:将能够断开句子或表示汉字之间关 系的汉字集合组成切分标记机内字典,如词首字、 词尾字、不构词的单字、非用字等 单汉字法:单汉字位置标引法(从文本中将汉字 逐一取出,同时赋上文献号、字段号以及汉字所 在位置,将这些信息写入单汉字索引文件文档) 和首字直接匹配法
信息组织各功能模块-标引处理
对之前采集的信息进行各种检索特
征的分析并使之显性化的过程,其 实就是信息组织过程中描述著录以 及揭示标引的工作 标引工作决定数据库的标引深度和 检索点 标引前一般要先对文献进行词汇分 析,对其中的数字、连字符、标点 符号和字母的大小写进行处理 自动标引分为自动抽词和自动赋词
顺序文档的检索过程分析
倒排文档
倒排文档:将顺序文档中的可检索字段(如作 者名、关键词、分类号等)取出,按照一定的 规则排序,归并相同词汇(如姓名、类号等), 并把在顺序文档中相关的记录的记录号集合赋 予其后而形成的文档,也称索引文档。 目的:保证通过某一特征词快速、方便地获取 相关记录 倒排文档结构:索引词(如作者、主题词等)、 目长(含有该索引词的记录条数)、记录号集 合(还有该索引词的所有记录号) 倒排文档检索方法:逆波兰展开法
全文数据库
存储的是原始文献的全文,如杂志论文、报纸新 闻、法院案例等。 全文检索可直接获取原始资料,而不是书目检索 时的线索,提高了用户的检索效率 《中国学术期刊》数据库、万方数据库、维普数 据库等全文数据库。 国外有springerlink、ebsco、ovid、sciencedirect 数据库
•
有概率模型和基于概念的模型
信息组织各功能模块-基于词汇分布特征的标引
统计标引法:
•
•
词频统计标引法:齐夫定律 加权统计标引法:
逆文档频率法:词的文献频率和词权有互 逆关系. 词区分值法:本质和逆文档频率法一致, 但采用向量模型计算文献去掉某词后的文 献空间密度的变化来决定是否标引词
•
N-Gram法
数据库的构成
字段 记录 文档 数据库
字段
【分类号】 R-05; R459.9; R735.705.8 【标题】 中药在原发性肝癌介入栓塞治疗方面的 研究进展 记录 【著者】 楚建设; 孙伟芬(指导) 【著者单位】 泉州福建中医学院附属泉州市中医 院 362000 【出处】 山西中医 2005.06.15; 21(3): 58-59 【关键词】 肝癌; 介入栓塞治疗; 研究进展; 中药; 综述 【主题词】 肝肿瘤/*中西医结合疗法; *栓塞, 治疗 性; 综述[文献类型]
数据库类型
文献型数据库
• •
书目型数据库 全文数据库 指示型数据库 数值型数据库 术语数据库
非文献型数据库
• • •
书目数据库
又称二次文献数据库 检索结果是所需文献的线索而非原文。 依照二次文献的不同类型又可分为题录型和文摘 型 CBM Web(中国生物医学文献数据库)、 Pubmed、web of science、CA(美国化学文摘数据 库)、BA(生物学文摘数据库)
信息组织各功能模块-自动标引思路分析
自动抽词标引思路
•
标引词往往会选择高频词,考虑词的绝对数、 与文本长度有关的数、词频超过一定阈值的 词数、或根据算法计算出的重要短语。 在西文文献中,抽词标引时还可以选择标引 词根。如单复数、动词状态等
•
自动赋词标引思路
•
•
预先编制词表,如叙词表
需要有将被引文献中的词和词表中词进行匹 配计算的算法
信息检索系统的体系结构
Query输入和文档输出 相关反馈 结果的可视化
用户界面
文本操作
逻辑视图
分词 删除停用词 Stemming(提取词干)
用户 需求 对query进行变换,以
改进检索结果
文本
为文档建立倒 排索引表
用户 反馈 提问
查询操作
建索引
根据倒排索引表 检索出与提问相 关的文档
数据库 管理
随机文档
随机文档:文档中的记录按随机方式存放 在支持直接存取的磁盘或者内存中,查找 记录依赖于记录的关键码和存放该记录的 地址之间建立的某种关系 特征:
•
•
文档中记录可以随机存放,不考虑其在记录 集合中的排列次序 数据的存取时间与数据的存储位置无关
实现随机文档快速存取的关键是寻址技术
数据库的构成
信息检索工具/系统-印刷型检索工具
文献检索工具:目录(如全国书目)、
题录(如全国报刊索引)、索引(如 SCI)、文摘(如CA),它们主要用 来对某一课题相关文献进行查找,其 结果大多是获得一批文献的线索,少 有全文,它们是题录型机读数据库的 基础 数值/事实检索工具:如百科全书、传 记资料、年鉴、地理资料、统计资料、 手册等
信息检索系统基本结构-逻辑结构
信息源选择与采集子系统 标引子系统 词表管理 子系统 提问处理子系统 用户接口子系统
建库子系统
信息组织各功能模块-信息资源及其采集 在创建信息系统之前,需要先根据检索系 统经营方针和服务对象的需要从各种信息 源和信息渠道中完成信息资源的采集工作 它决定了信息检索系统中数据库的类型及 收录范围 目前的信息检索系统多采用计算机为主导 的资源采集方法,如扫描、复制、链接、 合并以及格式转换都有计算机完成
数据库结构
概念:数据库是至少由一种文档组成,并
能满足某一特定目的或某一特定数据处 理系统需要的一种数据集合。 数据库的结构:由文档、记录和字段三 个层次构成
数据库的构成
文档:数据库中一部分记录的集合(其实质是 数据库中的表)。 许多大型数据库为了方便用户,常常把数据 库分割成若干文档,如Medline数据库分为 现期文档和若干个回溯文档。 文档是数据库的结构。数据库是由一个顺排文 档和若干个倒排文档所构成。