第3章 信息存储与检索技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 信息存储与检索技术
信息的存储结构 子字段字段记录文档数据库。
数据库
顺排文档
倒排文档
索引文档
记录1 字段1
记录2 字段2
……
……
子字段1
子字段2
……
第一节 顺排文档与倒排文档
1
字段与记录
2
顺排文档
3
倒排文档
一、字段与记录
1.字段 (1)定义 字段(field) :用来描述实体的某一特定属性 的数据单位。 字段名或属性名:每个字段有一个名称; 字段值或属性值:字段中的具体内容; 字段长度:字段中字符数的多少。 子字段(Subfield)是字段的下层概念 。
15
三、倒排文档
合并过程:每个倒排记录表都有一个定位指针,两个 指针同时从前往后扫描, 每次比较当前指针对应倒 排记录,然后移动某个或两个指针。合并时间为两 个表长之和的线性时间
2 8 2 1 4 2 8 3 16 5 32 8 13 64 21 128
Brutus 34 Caesar
16
三、倒排文档
四、信息检索系统的数据库文档组织
一个信息检索系统的数据库是由多种文档构成的, 其中最主要的是顺排主文档(MF)和在主文档基础 上生成的倒排档(IF)。 例如:STAIRS(Storage And Information Retrieval System):IBM公司20世纪70年代初推出的一个大 型的商品化信息检索软件包,适于用来建立文献数 据库和指南数据库。 STAIRS的程序由两部分组成: 数据库建立和维护程序; 多用户联机检索系统。
2、倒排档在检索中的应用
优点: 支持快速的多字段或多途径检索,并可方便、迅速地 进行逻辑组配和限定检索。 缺点: (1)空间代价:表现在要完成集合运算需要工作 空间建立多种倒排档。因而需要较多的外存开销; (2)维护代价:一旦主文件更新,倒排档也必须 随之更新,比较浪费时
三、倒排文档
3、主辅倒排档 倒排档的数量:既可以按照不同类型的字段组成多个不同的倒 排档(如著者倒排档、主题词倒排档等),也可以把所有不 同的字段组成一个混合倒排档。 DIALOG组成两个倒排档供检索使用: 主倒排档是把反映文献主题特征(内容特征)的属性项数据, 例如:篇名、文摘、主题词等全部抽出后构成一个基本的倒 排档。 辅倒排档是把反映文献外表特征的词、词组、代码,例如作 者、期刊名称、语种、出版项等抽出构成一个辅助倒排档。 把所有属性项分成两大类分别构成两个倒排档是为了提高 检索时的效率。
一、字段与记录
2.记录 定义:记录是作为一个单位来处理的有关数据的集合。 在图书情报领域,书目主文档中的记录为MARC记录。 (1)定义 所谓机读目录(MARC:Machine Readable Catalog) ,是指以代码形式和特定结构记录在计 算机存储介质(磁带、磁盘、光盘)上的、用计算机 识别和阅读的目录。
二、用户提问式的编写
3、确定检索词间的逻辑关系 Q=(ID(vedio?)+DE(television))*DE(medic ine)*LA(English)*YR(GE2000). Q=(01+02)*03*04*05. Q=(a+b)*c*d*e.
二、用户提问式的编写
4、检索词表 在计算机内一个提问式的表达包括两个部分: 检索词表; 逻辑提问式。
一、字段与记录
2.记录 (3)CNMARC的总体结构
区 域 记录头标 地址目次区 功能块 0----标识块 1----编码信息块 2----著录信息块—— 3----附注块 4----款目连接块 5----相关题名块 6----主题分析块 7----知识责任块 8----国际使用块 9----国内使用块 字 段 200 题名与责任者块 205 版本说明 …… 215 载体形态项—— 225 丛编 …… 子字段 $a …… $c …… $d 尺寸 $e 附件
二、用户提问式的编写
1、确定检索词及其检索字段 2000, Medicine, Video, Television, English 2000:年代(YR);Medicine:主题词(DE);Video:自由词 (ID);Television:主题词(DE);English:语种(LA)。 2、确定检索词的一致条件和比较条件 一致条件,指可以让检索词和被检索词不完全一致,而只是某个部位一致。 具体内容见P84~86 : 完全一致:01;前方一致:02; 中间一致:03;后方一致:04。 Video :02 比较条件,指当检索词为数值或出版年代时,可以限定其与被检索词的比 较范围 。 =:01;<>:02;>:03;<:04。 2000 :GE(03)
三、倒排文档
文献号 001 002 003 检索词 情报检索,计算机 计算机,应用,情报检索,系统设 计 情报检索,系统设计
结构特点:三个字段(属性)、两个有序。 三个字段: 入口词(关键词、检索词、标引词); 地址个数; 地址号集合。 两个有序: 检索词是有序的; 各检索词所拥有的记录标识也是有序的。
三、倒排文档
3、主辅倒排档 (1)主倒排档(后缀词倒排档 ) 后缀:文摘/AB,叙词/CE,自由词/ID,篇名/TI
入口词 Abstract
Abstract process Academy Administration ……
地址个数 地址集合 3 5980AB1,6001AB11, 6570AB5 1 5980AB1,AB2 2 1234ID1,2480AB5 2 2500DE1,2510DE1 …… ……
四、信息检索系统的数据库文档组织
信息检索基本操作流程
识别用户
接收提问、编写提问式
提问校验 转化提问式 检索(相似性匹配) 检索结果浏览与评价 反馈与修改 是否满意
结束
1
用户提问的接收与处理
2
基于倒排文档的书目检索技术
3
全文检索技术
第一节 用户提问处理
用户提问式的形成和处理可以划分为以下几个阶段: 接收提问编写提问式提问式校验提问式转换。 一、接收用户提问 接收的用户提问形式: 词检索(通常为自由词检索) ; 自然语句检索。 逻辑提问式检索; 检索界面往往根据用户检索能力的差异分为: 基本检索界面(有些系统为快速检索界面); 高级检索界面。
Байду номын сангаас
检索词号:是提问检索词的惟一识别符号,它是由系统给定 的; 字段编号:是指该检索词在检索中所确定的字段,例如在 MARC中,字段的标识符就是用3位十进制数来表示的。 一致条件、比较条件的概念和代号如前所述,有效位指的是 提问词的有效程度,一般就是指提问词的长度。这三项合起 来,统称为检索条件。 检索词项:是指具体的检索词。
记录 数据字段区
记录分隔符
00699nam0#2200241###450# 0010010000000050017000100100028000271000041000551010008000961 0200150010410500180011910600060013720000570014321000310020021 5001600231300001900247330008500266606002700351606001300378690 001100391701003200402801002300434 00286159520051229161344.0 a7-5636-19682dCNY20.00 a20050221d2004 em y0chiy0110 ea0 achi aCNb370000 ay z 000yy ar1 a现代应用数学9xian dai ying yong shu xuef王才经编著 a东营c石油大学出版社d2004 a150页d26cm a研究生系 列教材 a本书讲解了非线性规划问题序列二次规划算法、分形及其应用、小波 变换及其应用等内容。0 a应用数学x研究生j教材0 a应用数学 aO29v4 0a王才
三、倒排文档
3、主辅倒排档 (2)辅倒排档(前缀词倒排档 ) 前缀:AU:作者;LA:语种……
入口词 AU=Derksen,J.A AU=Nilsson,N.J 地址 地址个 数 2 4014, 5018 3 1024, 2038, 2460
……
…… ……
三、倒排文档
4、倒排档的存储 固定长存储方式:这种存储方式的倒排档有三个字 段,每个字段都是固定长的。 可变长链表方式:这种方式是将倒排档分作两个文 件来组织,一个文件存放检索入口词、地址个数和 地址号集合指针,另一个文件仅存放地址号集合。 位图方式:这是存放一个二进位(bit)矩阵,行代 表记录个数,列代表属性值的个数,属性值与记录 之间的关系用二进制位(bit)来表示:0表示没有 关系;1表示有关系。
二.顺排文档
顺序文档(Sequential file)是文档在计算机存储器 中的一种存放形式,记录一般是按照输入的先后顺 序存储,这个存储顺序也是用户访问文件记录的逻 辑顺序。换言之,记录之间的逻辑顺序与物理顺序 一致,因此又称为链式文档或线性文档。 在信息检索系统中,主文档通常以顺序文档的形式存 放,也可以称之为顺序主文档,或简称主文档 (Master file) 、顺排档。 特点:检索时间与物理位置有关系顺序文档的修改 和删除操作比较简单,但是插入操作比较麻烦。
经9wang cai jing4编著 0aCNbMARCc20051230
二.顺排文档
文档(File) :若干个逻辑记录构成的信息集合称为文档。 或者,文档是性质相同的记录的集合。 文档的组织形式与检索系统的硬件和软件功能密切相关。 在数据库中,按照文档存放的物理特征,文档可以分为: 顺序文档; 随机文档。 按照文档存放的信息内容,又可以分为: 主文档; 索引文档 倒排文档。
三、倒排文档
1、倒排档的概念 倒排文件就是建立在主文件(顺排文档)基础上倒排 索引的文件形式。 所谓倒排档(Inverted file), 就是把记录中一切可 检字段或属性值(如著者名、主题词等)抽出,按 某种顺序重新加以组织后所得到的一种文档。 倒排档的组成元素包括: 具有某种属性的字段值; 包含该字段值的记录数; 具有该字段值的记录存取号集合。
一、字段与记录
2.记录 (2)MARC的产生与发展 1963年:可行性研究。 1965年:MARCI 1967年:MARCII ,LCMARC 1969年:MARC的发展 :UKMARC;JMRAC;CANMARC 1971年:USMARC (ANSI-MARC) 1973年:ISO2709 1975年:UNIMARC (IFLA) 1982年:ISO2709+UNIMARC CNMARC 1999年:MARC21
二、用户提问式的编写
逻辑提问式,是指计算机信息检索中用来表达用户检索提问的 逻辑表达式,由检索词和各种布尔算符、位置算符以及系统 规定的其他组配连接符号组成。 编写提问逻辑式,一般涉及到如下的几步: 选择检索词并确定检索字段; 确定检索词与被检索词的一致条件和比较条件; 用逻辑算符和位置算符对检索词进行组配。 我们以一个用户的信息需求为例来说明提问式的构造过程。 例:要求查找2000年以来的医用视频或电视方面的英文资料。
一、字段与记录
1.字段 (2)分类 存取号字段:存取号是计算机检索系统为数据库中 的每一条记录规定的、能够被计算机识别的特定号 码,一般由6~9位数字或字母与数字混合构成。 基本索引字段(也称主题性字段):主要是指那些 用来表达文献记录的内容特征的字段。 辅助索引字段(也称为非主题性字段):主要表达 文献的外表特征。
检索入口词 计算机 情报检索 应用 系统设计
地址个数
2 3 1 2
地址号 001,002 001,002,003 002 002,003
三、倒排文档
2、倒排档在检索中的应用 应用特点:支持快速的多字段或多途径检索,并可方便、迅 速地进行逻辑组配和限定检索。例如: Brutus AND Caesar 在倒排档中定位 Brutus 返回对应倒排档记录表(对应的docID) 在倒排档中定位Caesar 再返回对应倒排记录表 合并(Merge)两个倒排记录表,即求交集 2 4 8 16 32 64 128 Brutus 1 2 3 5 8 13 21 34 Caesar
信息的存储结构 子字段字段记录文档数据库。
数据库
顺排文档
倒排文档
索引文档
记录1 字段1
记录2 字段2
……
……
子字段1
子字段2
……
第一节 顺排文档与倒排文档
1
字段与记录
2
顺排文档
3
倒排文档
一、字段与记录
1.字段 (1)定义 字段(field) :用来描述实体的某一特定属性 的数据单位。 字段名或属性名:每个字段有一个名称; 字段值或属性值:字段中的具体内容; 字段长度:字段中字符数的多少。 子字段(Subfield)是字段的下层概念 。
15
三、倒排文档
合并过程:每个倒排记录表都有一个定位指针,两个 指针同时从前往后扫描, 每次比较当前指针对应倒 排记录,然后移动某个或两个指针。合并时间为两 个表长之和的线性时间
2 8 2 1 4 2 8 3 16 5 32 8 13 64 21 128
Brutus 34 Caesar
16
三、倒排文档
四、信息检索系统的数据库文档组织
一个信息检索系统的数据库是由多种文档构成的, 其中最主要的是顺排主文档(MF)和在主文档基础 上生成的倒排档(IF)。 例如:STAIRS(Storage And Information Retrieval System):IBM公司20世纪70年代初推出的一个大 型的商品化信息检索软件包,适于用来建立文献数 据库和指南数据库。 STAIRS的程序由两部分组成: 数据库建立和维护程序; 多用户联机检索系统。
2、倒排档在检索中的应用
优点: 支持快速的多字段或多途径检索,并可方便、迅速地 进行逻辑组配和限定检索。 缺点: (1)空间代价:表现在要完成集合运算需要工作 空间建立多种倒排档。因而需要较多的外存开销; (2)维护代价:一旦主文件更新,倒排档也必须 随之更新,比较浪费时
三、倒排文档
3、主辅倒排档 倒排档的数量:既可以按照不同类型的字段组成多个不同的倒 排档(如著者倒排档、主题词倒排档等),也可以把所有不 同的字段组成一个混合倒排档。 DIALOG组成两个倒排档供检索使用: 主倒排档是把反映文献主题特征(内容特征)的属性项数据, 例如:篇名、文摘、主题词等全部抽出后构成一个基本的倒 排档。 辅倒排档是把反映文献外表特征的词、词组、代码,例如作 者、期刊名称、语种、出版项等抽出构成一个辅助倒排档。 把所有属性项分成两大类分别构成两个倒排档是为了提高 检索时的效率。
一、字段与记录
2.记录 定义:记录是作为一个单位来处理的有关数据的集合。 在图书情报领域,书目主文档中的记录为MARC记录。 (1)定义 所谓机读目录(MARC:Machine Readable Catalog) ,是指以代码形式和特定结构记录在计 算机存储介质(磁带、磁盘、光盘)上的、用计算机 识别和阅读的目录。
二、用户提问式的编写
3、确定检索词间的逻辑关系 Q=(ID(vedio?)+DE(television))*DE(medic ine)*LA(English)*YR(GE2000). Q=(01+02)*03*04*05. Q=(a+b)*c*d*e.
二、用户提问式的编写
4、检索词表 在计算机内一个提问式的表达包括两个部分: 检索词表; 逻辑提问式。
一、字段与记录
2.记录 (3)CNMARC的总体结构
区 域 记录头标 地址目次区 功能块 0----标识块 1----编码信息块 2----著录信息块—— 3----附注块 4----款目连接块 5----相关题名块 6----主题分析块 7----知识责任块 8----国际使用块 9----国内使用块 字 段 200 题名与责任者块 205 版本说明 …… 215 载体形态项—— 225 丛编 …… 子字段 $a …… $c …… $d 尺寸 $e 附件
二、用户提问式的编写
1、确定检索词及其检索字段 2000, Medicine, Video, Television, English 2000:年代(YR);Medicine:主题词(DE);Video:自由词 (ID);Television:主题词(DE);English:语种(LA)。 2、确定检索词的一致条件和比较条件 一致条件,指可以让检索词和被检索词不完全一致,而只是某个部位一致。 具体内容见P84~86 : 完全一致:01;前方一致:02; 中间一致:03;后方一致:04。 Video :02 比较条件,指当检索词为数值或出版年代时,可以限定其与被检索词的比 较范围 。 =:01;<>:02;>:03;<:04。 2000 :GE(03)
三、倒排文档
文献号 001 002 003 检索词 情报检索,计算机 计算机,应用,情报检索,系统设 计 情报检索,系统设计
结构特点:三个字段(属性)、两个有序。 三个字段: 入口词(关键词、检索词、标引词); 地址个数; 地址号集合。 两个有序: 检索词是有序的; 各检索词所拥有的记录标识也是有序的。
三、倒排文档
3、主辅倒排档 (1)主倒排档(后缀词倒排档 ) 后缀:文摘/AB,叙词/CE,自由词/ID,篇名/TI
入口词 Abstract
Abstract process Academy Administration ……
地址个数 地址集合 3 5980AB1,6001AB11, 6570AB5 1 5980AB1,AB2 2 1234ID1,2480AB5 2 2500DE1,2510DE1 …… ……
四、信息检索系统的数据库文档组织
信息检索基本操作流程
识别用户
接收提问、编写提问式
提问校验 转化提问式 检索(相似性匹配) 检索结果浏览与评价 反馈与修改 是否满意
结束
1
用户提问的接收与处理
2
基于倒排文档的书目检索技术
3
全文检索技术
第一节 用户提问处理
用户提问式的形成和处理可以划分为以下几个阶段: 接收提问编写提问式提问式校验提问式转换。 一、接收用户提问 接收的用户提问形式: 词检索(通常为自由词检索) ; 自然语句检索。 逻辑提问式检索; 检索界面往往根据用户检索能力的差异分为: 基本检索界面(有些系统为快速检索界面); 高级检索界面。
Байду номын сангаас
检索词号:是提问检索词的惟一识别符号,它是由系统给定 的; 字段编号:是指该检索词在检索中所确定的字段,例如在 MARC中,字段的标识符就是用3位十进制数来表示的。 一致条件、比较条件的概念和代号如前所述,有效位指的是 提问词的有效程度,一般就是指提问词的长度。这三项合起 来,统称为检索条件。 检索词项:是指具体的检索词。
记录 数据字段区
记录分隔符
00699nam0#2200241###450# 0010010000000050017000100100028000271000041000551010008000961 0200150010410500180011910600060013720000570014321000310020021 5001600231300001900247330008500266606002700351606001300378690 001100391701003200402801002300434 00286159520051229161344.0 a7-5636-19682dCNY20.00 a20050221d2004 em y0chiy0110 ea0 achi aCNb370000 ay z 000yy ar1 a现代应用数学9xian dai ying yong shu xuef王才经编著 a东营c石油大学出版社d2004 a150页d26cm a研究生系 列教材 a本书讲解了非线性规划问题序列二次规划算法、分形及其应用、小波 变换及其应用等内容。0 a应用数学x研究生j教材0 a应用数学 aO29v4 0a王才
三、倒排文档
3、主辅倒排档 (2)辅倒排档(前缀词倒排档 ) 前缀:AU:作者;LA:语种……
入口词 AU=Derksen,J.A AU=Nilsson,N.J 地址 地址个 数 2 4014, 5018 3 1024, 2038, 2460
……
…… ……
三、倒排文档
4、倒排档的存储 固定长存储方式:这种存储方式的倒排档有三个字 段,每个字段都是固定长的。 可变长链表方式:这种方式是将倒排档分作两个文 件来组织,一个文件存放检索入口词、地址个数和 地址号集合指针,另一个文件仅存放地址号集合。 位图方式:这是存放一个二进位(bit)矩阵,行代 表记录个数,列代表属性值的个数,属性值与记录 之间的关系用二进制位(bit)来表示:0表示没有 关系;1表示有关系。
二.顺排文档
顺序文档(Sequential file)是文档在计算机存储器 中的一种存放形式,记录一般是按照输入的先后顺 序存储,这个存储顺序也是用户访问文件记录的逻 辑顺序。换言之,记录之间的逻辑顺序与物理顺序 一致,因此又称为链式文档或线性文档。 在信息检索系统中,主文档通常以顺序文档的形式存 放,也可以称之为顺序主文档,或简称主文档 (Master file) 、顺排档。 特点:检索时间与物理位置有关系顺序文档的修改 和删除操作比较简单,但是插入操作比较麻烦。
经9wang cai jing4编著 0aCNbMARCc20051230
二.顺排文档
文档(File) :若干个逻辑记录构成的信息集合称为文档。 或者,文档是性质相同的记录的集合。 文档的组织形式与检索系统的硬件和软件功能密切相关。 在数据库中,按照文档存放的物理特征,文档可以分为: 顺序文档; 随机文档。 按照文档存放的信息内容,又可以分为: 主文档; 索引文档 倒排文档。
三、倒排文档
1、倒排档的概念 倒排文件就是建立在主文件(顺排文档)基础上倒排 索引的文件形式。 所谓倒排档(Inverted file), 就是把记录中一切可 检字段或属性值(如著者名、主题词等)抽出,按 某种顺序重新加以组织后所得到的一种文档。 倒排档的组成元素包括: 具有某种属性的字段值; 包含该字段值的记录数; 具有该字段值的记录存取号集合。
一、字段与记录
2.记录 (2)MARC的产生与发展 1963年:可行性研究。 1965年:MARCI 1967年:MARCII ,LCMARC 1969年:MARC的发展 :UKMARC;JMRAC;CANMARC 1971年:USMARC (ANSI-MARC) 1973年:ISO2709 1975年:UNIMARC (IFLA) 1982年:ISO2709+UNIMARC CNMARC 1999年:MARC21
二、用户提问式的编写
逻辑提问式,是指计算机信息检索中用来表达用户检索提问的 逻辑表达式,由检索词和各种布尔算符、位置算符以及系统 规定的其他组配连接符号组成。 编写提问逻辑式,一般涉及到如下的几步: 选择检索词并确定检索字段; 确定检索词与被检索词的一致条件和比较条件; 用逻辑算符和位置算符对检索词进行组配。 我们以一个用户的信息需求为例来说明提问式的构造过程。 例:要求查找2000年以来的医用视频或电视方面的英文资料。
一、字段与记录
1.字段 (2)分类 存取号字段:存取号是计算机检索系统为数据库中 的每一条记录规定的、能够被计算机识别的特定号 码,一般由6~9位数字或字母与数字混合构成。 基本索引字段(也称主题性字段):主要是指那些 用来表达文献记录的内容特征的字段。 辅助索引字段(也称为非主题性字段):主要表达 文献的外表特征。
检索入口词 计算机 情报检索 应用 系统设计
地址个数
2 3 1 2
地址号 001,002 001,002,003 002 002,003
三、倒排文档
2、倒排档在检索中的应用 应用特点:支持快速的多字段或多途径检索,并可方便、迅 速地进行逻辑组配和限定检索。例如: Brutus AND Caesar 在倒排档中定位 Brutus 返回对应倒排档记录表(对应的docID) 在倒排档中定位Caesar 再返回对应倒排记录表 合并(Merge)两个倒排记录表,即求交集 2 4 8 16 32 64 128 Brutus 1 2 3 5 8 13 21 34 Caesar