第三章信息检索系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
df = document frequency
no. of documents containing the term distribution of the term
idf = inverse document frequency
the unevenness of term distribution in the corpus the specificity of term to a document The more the term is distributed evenly, the less it is specific to a document
weight(t,D) = tf(t,D) * idf(t) 16
3.3标引处理
3.3.3自动标引中的词语加权方案
wik tfik *log(N / nk )
Tk term k in documentDi tfik frequencyof termTk in documentDi idfk inversedocumentfrequencyof termTk in C N totalnumber of documentsin the collection C
子字段(subfield)是字段的下一级数据单位。在有些 字段中,它们的值往往由多个子项构成。例如,作者 字段可能含有多个作者,出版字段含有出版者、出版 地和出版年,主题词字段含有若干个主题词。
(4)文档:若干个逻辑纪录构成的信息集合。
(5)逻辑记录:某些逻辑上相关联的数据组 织在一起的数据集合称为逻辑记录。
Document indexing
Goal = identify the important meanings and create an internal representation
Factors to consider:
Accuracy to represent meanings (semantics) Exhaustiveness (cover all the contents) Facility for computer to manipulate
1信息检索系统的类型 2信息检索系统的构成 3标引处理 4 数据库的文档结构 5倒排文档的检索技术
3.1信息检索系统及其类型
3.1.1信息检索系统的概念
(1)定义:具有信息存储和信息查询功能的一 类信息服务设施或者工具
(2)构成要素: 明确的目标 信息资源 技术装备 方法与措施 功能
Result of indexing
Each document is represented by a set of weighted keywords (terms):
D1 {(t1, w1), (t2,w2), …}
e.g.
D1 {(comput, 0.2), (architect, 0.3), …}
3.3标引处理
3.3.1基本概念
标引:indexing,对信息资源的各种检索 特征进行分析并使之显性化。
标引深度:衡量标引详尽性,标引词对每 条记录各方面内容表达和识别的详尽程度
标引专指度:衡量标引词对记录特定内容 描述的精细程度。
标引方式:人工标引和自动标引 抽词标引和赋词标引
3.4.2书目数据库的结构
(1)记录与字段 记录(record)是作为一个单位来处理的有
关数据的集合,是对某一实体的属性进行 描述的结果。 在书目数据库中,被描述的实体是某一特 定的文献,实体的属性就是该文献的特征, 例如文献的题名、作者、发表时间、语种、 分类号、主题词等。。
字段(field)是记录的下级数据单位,用来描述实体的 某一属性。一个记录中通常含有文献号字段、题名字 段、作者字段、出版字段、语种字段、文摘字段、主 题词字段、分类号字段等各种必要的字段。每个字段 的具体内容称为字段值(field value)或属性值 (attribute value)。 、
(6)物理记录:硬件设备上一个基本存储单 位,块,block。
(2)文档的类型
若干个逻辑记录构成的信息集合称为文档 (file)。
文档是书目数据库和文献检索系统中数据组织 的基本形式。
(2)文档的类型
顺序文档 顺序文档(sequential file)是文档在计算机存储
nk the number of documentsin C that contain Tk
idfk

log
N nk

3.3标引处理
3.3.4中文自动标引
中文和西文(英文)的不同 中文标引关注词语切分,对于词语加权关
注较少。 词语切分方法 (1)词典切分法 (2)单汉字法
2020/3/3
5
3.2 信息检索系统的构成
3.2.2检索系统的逻辑结构
信息源选择与采集子系统 标引子系统
词表管理 子系统
提问处理子系统 用户接口子系统
建库子系统
2020/3/3
6
信息检索系统的逻辑构成
(1)信息源选择与采集子系统。该功能模块的任务主要 是根据系统需要,采取人工或者计算机自动方式,从众 多信息源中选择和采集符合需要的信息资源。在有些计 算机检索系统中,此部分还承担转换数据格式的任务。 (2)标引子系统。该功能模块的任务主要是对收集的信 息资源进行内外部特征分析,并借助词表系统,对每条 数据进行标引。目前,主题标引和分类标引主要是靠人 工标引,而抽词标引主要是由计算机完成。
3.4数据库的建立和维护
3.4.1数据库的类型
参考数据库 源数据库
参考数据库(Reference databases)
是指引用户到另一信息源以获得原文或其 他细节的一类数据库。它包括
书目数据库(Bibliographic databases) 指南数据库(Referral database或
tf*idf weighting schema
tf = term frequency
frequency of a term/keyword in a document The higher the tf, the higher the importance (weight) for the doc.
3.1.2信息检索系统的类型
(1)按设备划分 书本式检索系统 卡片式检索系统 穿孔卡片检索系统 缩微胶卷检索系统 计算机检索系统 光盘检索系统 多媒体检索系统
3.1.2信息检索系统的类型
(2)按照功能划分 文献检索系统:狭义的信息检索系统 数据库管理系统:面向结构化数据 自动问答系统:自然语言处理、事实检索 管理信息系统:面向管理人员 决策支持系统:数据分析
重要程度的一种方法,最早有卢恩提出。基本原理 给定一个由N篇文档组成的文档集合,计算出每篇文档中
每个不同的词的出现次数。 把每个不同的词在N篇文档的出现次数相加,得到词K的集
合频率。 按集合频率递减顺序排列这些词,并确定高频词和低频词
的阈值。挑选剩下的中频词作为标引词,并按照他们在相 应文档的出现频次确定权重。 缺点是什么?
源数据库(Source databases)
是指能直接提供原始资料或具体数据的数据库,用户 不必再查阅其他信息源。它可以分为: (1)数值数据库:这是一种专门提供以数值方式 表示的数据的源数据库,如统计数据库、财务数据库 等。 (2)文本-数值数据库:这是一种能同时提供文 本信息和数值数据的源数据库,如企业信息数据库、 产品数据库等。 (3)全文数据库:这是一种存储文献全文或其中 主要部分的源数据库,如法律法规全文库、期刊全文 库等。
(4)术语数据库:这是一种专门存储 名词术语信息、词语信息以及术语工 作和语言规范工作成果的源数据库, 如名词术语信息库、各种电子化辞书 等。
(5)图像数据库:这是一种用来存储 各种图像或图形信息及有关文字说明 资料的源数据库,主要应用于建筑、 设计、广告、产品、图片或照片等资 料类型的计算机存储与检索。
Coverage (Recall)
String Word Phrase Concept
Accuracy (Precision)
11
3.3标引处理
3.3.2自动标引处理流程
图见教材60页。
3.3标引处理
3.3.3自动标引中的词语加权方案
(1)绝对词频法 根据每个词在特定文档(集合)中的出现频次来确定该词
What is the best representation of contents?
Char. string (char bigrams): not precise enough Word: good coverage, not precise Phrase: poor coverage, more precise Concept: poor coverage, precise
Keyword selection and weighting
How to select important keywords?
Simple method: using middle-frequency words
Frequency/Informativity
frequency
informativity
8
信息检索系统的逻辑构成
(5)用户接口子系统。它的全称为“系统-用
户接口”(system-user interface),简称 用户接口。它的任务是承担用户与系统之间的 通信功能,通常由用户模型、信息显示、命令 语言和反馈机制等部分构成。
(6)提问处理子系统。该功能模块的任务是负 责处理用户输入的提问式,并将它们与数据库 存储的数据进行比较运算,然后将运算结果输 入给用户。该模块主要由检索程序构成,包括: 接收提问、提问校验、提问加工和检索。
Directory database)两种
参考数据库
(1)书目数据库是指存储某个领域的二次 文献(如文摘、题录、目录等书目数据)的 一类数据库,如中国机械工程文摘数据库, 属于此类型数据库。
(2)指南数据库也称指示性数据库,是指 存储关于某些机构、人物、出版物、项目、 程序、活动等对象的简要描述,指引用户从 其他有关信息源获取更详细的信息的一类数 据库。如产品目录、机构名录、研发项目、 基金项目等数据库均属于此类型。
D2 {(comput, 0.1), (network, 0.5), …}
Inverted file:
comput {(D1,0.2), (D2,0.1), …} Inverted file is used during retrieval for higher efficiency.
19
3.2 信息检索系统的构成
3.2.1 计算机检索系统的物理结构
计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。
(1)硬件:是包括具有一定性能的主计算 机、外围设备以及与数据处理或数据传送 有关的其他设备。
(2)软件:由系统维护软件与检索软件构 成。检索效果。
(3)数据库:在计算机存储设备上按一定 方式存储的相互关联的数据集合。
信息检索系统的逻辑构成
(3)建库子系统。该功能模块的任务是建立和维 护可直接用于计算机检索的数据库。主要工作包括 数据录入、错误检查与处理、数据格式转换、生成 和更新各种文档、建立各种索引数据库等。 (4)词表管理子系统。该功能模块的任务是建立 和管理维护系统中的主题词表和分类表,并使它们 和标引、建库等子系统相连接,支持用户的各种词 汇查询操作。该系统可以独立存在,也可以和建库 子系统中的词典文档合并在一起。
Max.
Min. 123…
Rank
14
源自文库.3标引处理
3.3.3自动标引中的词语加权方案
(2)逆文档频率法 英文Inverse Document Frequency,基于以下假设:
某词的重要性与它在特定文档中的出现次数成正比, 与含有该词的文档数成反比。 词频加逆文档词频确定权值的方法得到了广泛的应 用。
相关文档
最新文档