计算机信息检索基本原理及检索技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【例】图书馆 NOT 公共图书馆
逻辑或——检索范围扩大,提高检索结果数 量,保证有较高的查全率。
逻辑与——检索结果范围缩小,增强检索的 专指性,保证有较高的查准率。
逻辑非——与逻辑与的作用类似,有缩小检 索范围,提高检索准确性的作用。
截词检索
截词是指检索者将检索词汇在他认为合适 的地方截断。截词检索是使用被截断的词汇 进行检索匹配,并认为凡满足这个词局部中 所有字符(串)要求的记录,都为命中文献。 因此,检索词的不变部分加上由截词符号(一 般用*表示)所代表的任何变化形式所构成的 词汇都是合法检索词。
【例】检索式“Comput*”无限后截断检 索,可检出词汇有: Computing
Computer
Computerized
………………
前截词检索
将截词符号置放在一个字符串左方,以表 示其左边的有限个或无限个字符不影响该字 符串的检索。从检索性质上讲,前截词检索 是“后方一致检索”。
【例】对于检索式“*magnetic”来说,能 够检索出含有 magnetic
多数检索系统都提供截词检索能力。
按截断的字符数量分:
有限截断——指要具体说明截去的字符数量 无限截断——指不具体说明截去多少个字符
按截断位置分:后(右)截断、前(左)截 断、中截断
后截断检索
将截词符号置放在一个字符串右方,以 表示其右边的有限或无限个字符不影响该 字符串的检索匹配。从检索匹配性质上讲, 后截断检索属于“前方一致”检索。
非主题字段——
作 者 (Author) 、 作 者 工 作 单 位 (Author affiliation)、 连续出版物编号(ISSN)、文献 类型(Document)、语言(Language)、出版 者(Publisher)等
《工程索引》(EI)数据库检索系统中的 字段及字段代码
字段名称
字段代码
electromagnetic(电磁的) paramagnetic(顺磁的)
thermomagnetic(热磁的)
中截词检索
将截词符号置放在一个检索词的中间,而 不是左右两侧。仅允许有限截词,主要用于 英、美拼写不同的词和单复数拼写不同的词。
【例】organi?ation可检索出含有 organisation和 organization的记录。 Wom*n可检索出Woman、Women
词位检索特点是用一种特定的位置符来表 达检索词与检索词之间的关系,并可以不受 词表的限制直接使用自由词进行检索。
如COMPUTLeabharlann BaiduR AND LAW
逻辑与(AND,*)
表示它所连接的两个检索词必须同时出现 在结果中才满足检索条件,即对于检索式 “A AND B”来说,数据库中同时含有检索 词A和检索词B的文献才算命中文献。
【例】CAR OR TRUCK
逻辑非(NOT,-)
表示它所连接的两个检索词应该包含的一 个检索词而不包含第二个检索词才满足检索 条件,即即对于检索式“A NOT B”来说, 数据库中凡含有检索词A而不含有检索词B 的文献才算命中文献。
一、 计算机信息检索原理
计算机将输入机检系统的用户提问标识 (检索词)与已存储在系统中数据库内的文献 特征标识(标引词)进行机械性匹配比较,凡 符合给定的比较原则和逻辑运算条件即为命 中信息。
检索提问字符串匹配数据库中特征标识字 符串。
二、 计算机信息检索技术
计算机检索时采用的相关技术,主要有布 尔检索、词位检索、截词检索、限制检索。
截词检索具有隐含的“逻辑或(OR)”运 算特性,检索式brows*等价于检索表达式: browse OR browser OR bowsers OR browsing OR……
不同类型的截词检索方法不仅能扩大检索范 围,提高查全率,而且还可以减少检索词的 输入量,简化检索步骤。
限制检索(字段检索)
截词检索基于:西方语言构词灵活,在词 干上加上不同的前后缀,可派生出许多新词 汇。词干相同,派生出的词在基本含义上通 常是一致的,形态的差别多半只是语法上的 意义。
正是这个原因,检索者如果不在检索式中 列举出一个词的所有派生形式,检索时容易 出现漏检。截词检索是防止这种类型漏检的 有力手段,作为一种后控制措施,目前,大
All fields Author Subject/ Title/ Abstract Author affiliation Publisher Language Abstract Title
……………………
ALL AU KY AF PN LA AB TI
【例】在EI中查找篇名中含有“robot”的相 关文献,使用检索命令方式可在检索文本框 中输入以下检索表达式:robot within TI
需要查找文摘中含有“北京大学”的相关
资料时,则可将检索式表达为:北京大学
wn AB
within、wn是EI中规定的字段检索符号, TI、AB为字段代码。
限制检索的另一种常见的形式是“二次检 索”,即用户可在检索结果中进行再次检索,
使检索结果更加准确、专指性更强。
词位检索
词位检索是以数据库原始记录中的检索词 之间特定位置关系为对象的运算,是针对自 然语言文本中检索词之间特定位置关系而进 行的检索匹配技术,又称全文检索。
在检索系统中,通常提供一些约束检 索结果的检索技术,以提高查准率,称 为限制检索。
限制检索的方式很多,其中最主要 的限制检索技术是通过限制检索词在命 中结果记录中出现的位置(主要是指记 录的不同字段位置)来实现的,因此也 称为“字段检索”。
主题字段——
标题(Title)、主题词(Controlled term)、 关键词(Keyword)、文摘(Abstract)、 分类号(Classification code)
布尔检索
利用布尔逻辑算符对检索词或检索代码进 行组配形成检索式,以此检索式作为匹配依 据,进行检索。
布尔检索逻辑算符及其运算含义: 逻辑或(OR,+) 逻辑与(AND,*) 逻辑非(NOT,-)
逻辑或(OR,+)
表示它所连接的两个检索词只有其中任何 一个出现在结果中就满足检索条件,即对于 检索式“A OR B”来说,数据库中的文献 凡含有检索词A、或含有检索词B、或同时 含有检索词A和B的均为命中文献。
逻辑或——检索范围扩大,提高检索结果数 量,保证有较高的查全率。
逻辑与——检索结果范围缩小,增强检索的 专指性,保证有较高的查准率。
逻辑非——与逻辑与的作用类似,有缩小检 索范围,提高检索准确性的作用。
截词检索
截词是指检索者将检索词汇在他认为合适 的地方截断。截词检索是使用被截断的词汇 进行检索匹配,并认为凡满足这个词局部中 所有字符(串)要求的记录,都为命中文献。 因此,检索词的不变部分加上由截词符号(一 般用*表示)所代表的任何变化形式所构成的 词汇都是合法检索词。
【例】检索式“Comput*”无限后截断检 索,可检出词汇有: Computing
Computer
Computerized
………………
前截词检索
将截词符号置放在一个字符串左方,以表 示其左边的有限个或无限个字符不影响该字 符串的检索。从检索性质上讲,前截词检索 是“后方一致检索”。
【例】对于检索式“*magnetic”来说,能 够检索出含有 magnetic
多数检索系统都提供截词检索能力。
按截断的字符数量分:
有限截断——指要具体说明截去的字符数量 无限截断——指不具体说明截去多少个字符
按截断位置分:后(右)截断、前(左)截 断、中截断
后截断检索
将截词符号置放在一个字符串右方,以 表示其右边的有限或无限个字符不影响该 字符串的检索匹配。从检索匹配性质上讲, 后截断检索属于“前方一致”检索。
非主题字段——
作 者 (Author) 、 作 者 工 作 单 位 (Author affiliation)、 连续出版物编号(ISSN)、文献 类型(Document)、语言(Language)、出版 者(Publisher)等
《工程索引》(EI)数据库检索系统中的 字段及字段代码
字段名称
字段代码
electromagnetic(电磁的) paramagnetic(顺磁的)
thermomagnetic(热磁的)
中截词检索
将截词符号置放在一个检索词的中间,而 不是左右两侧。仅允许有限截词,主要用于 英、美拼写不同的词和单复数拼写不同的词。
【例】organi?ation可检索出含有 organisation和 organization的记录。 Wom*n可检索出Woman、Women
词位检索特点是用一种特定的位置符来表 达检索词与检索词之间的关系,并可以不受 词表的限制直接使用自由词进行检索。
如COMPUTLeabharlann BaiduR AND LAW
逻辑与(AND,*)
表示它所连接的两个检索词必须同时出现 在结果中才满足检索条件,即对于检索式 “A AND B”来说,数据库中同时含有检索 词A和检索词B的文献才算命中文献。
【例】CAR OR TRUCK
逻辑非(NOT,-)
表示它所连接的两个检索词应该包含的一 个检索词而不包含第二个检索词才满足检索 条件,即即对于检索式“A NOT B”来说, 数据库中凡含有检索词A而不含有检索词B 的文献才算命中文献。
一、 计算机信息检索原理
计算机将输入机检系统的用户提问标识 (检索词)与已存储在系统中数据库内的文献 特征标识(标引词)进行机械性匹配比较,凡 符合给定的比较原则和逻辑运算条件即为命 中信息。
检索提问字符串匹配数据库中特征标识字 符串。
二、 计算机信息检索技术
计算机检索时采用的相关技术,主要有布 尔检索、词位检索、截词检索、限制检索。
截词检索具有隐含的“逻辑或(OR)”运 算特性,检索式brows*等价于检索表达式: browse OR browser OR bowsers OR browsing OR……
不同类型的截词检索方法不仅能扩大检索范 围,提高查全率,而且还可以减少检索词的 输入量,简化检索步骤。
限制检索(字段检索)
截词检索基于:西方语言构词灵活,在词 干上加上不同的前后缀,可派生出许多新词 汇。词干相同,派生出的词在基本含义上通 常是一致的,形态的差别多半只是语法上的 意义。
正是这个原因,检索者如果不在检索式中 列举出一个词的所有派生形式,检索时容易 出现漏检。截词检索是防止这种类型漏检的 有力手段,作为一种后控制措施,目前,大
All fields Author Subject/ Title/ Abstract Author affiliation Publisher Language Abstract Title
……………………
ALL AU KY AF PN LA AB TI
【例】在EI中查找篇名中含有“robot”的相 关文献,使用检索命令方式可在检索文本框 中输入以下检索表达式:robot within TI
需要查找文摘中含有“北京大学”的相关
资料时,则可将检索式表达为:北京大学
wn AB
within、wn是EI中规定的字段检索符号, TI、AB为字段代码。
限制检索的另一种常见的形式是“二次检 索”,即用户可在检索结果中进行再次检索,
使检索结果更加准确、专指性更强。
词位检索
词位检索是以数据库原始记录中的检索词 之间特定位置关系为对象的运算,是针对自 然语言文本中检索词之间特定位置关系而进 行的检索匹配技术,又称全文检索。
在检索系统中,通常提供一些约束检 索结果的检索技术,以提高查准率,称 为限制检索。
限制检索的方式很多,其中最主要 的限制检索技术是通过限制检索词在命 中结果记录中出现的位置(主要是指记 录的不同字段位置)来实现的,因此也 称为“字段检索”。
主题字段——
标题(Title)、主题词(Controlled term)、 关键词(Keyword)、文摘(Abstract)、 分类号(Classification code)
布尔检索
利用布尔逻辑算符对检索词或检索代码进 行组配形成检索式,以此检索式作为匹配依 据,进行检索。
布尔检索逻辑算符及其运算含义: 逻辑或(OR,+) 逻辑与(AND,*) 逻辑非(NOT,-)
逻辑或(OR,+)
表示它所连接的两个检索词只有其中任何 一个出现在结果中就满足检索条件,即对于 检索式“A OR B”来说,数据库中的文献 凡含有检索词A、或含有检索词B、或同时 含有检索词A和B的均为命中文献。