信息检索原理和技术2015
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)中间截断:放在词中间代表一个字 符数(中间屏蔽) 例如: wom?n 代表women、 woman 等
(3)左截断(前),放在被截词的左边 例如:*magnetic,代表 magnetic、thermomagnetic、 electro-magnetic等
按长度分为:有限截词、无限截词 截词符有“?”、“*”、“!”等, 依系统而异,各有所不同。
分类号-体系分类法
中国图书馆分类法 中国科学院图书馆图书分类法
中国图书馆分类法
1.马克思主义、列宁主
义、毛泽东思想、邓 小平理论
5大部
22大类
A 马克思主义、列宁主义 毛泽东思想、邓小平理论
2.哲学、宗教
B 哲学、宗教 C D E F G H I J K 社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
截词符和屏蔽符(以EI数据库为例,其他数 据库大同小异)
1.截词符:用“*”作为截词符,有二种用法。 Use truncation (*) to search for words that begin with the same letters. (无限截词) comput* returns computer, computers, computerize, computerization Truncation can also be used to replace any number of characters internally.(中间截词) sul*ate returns sulphate or sulfate
3.社会科学
4.自然科学
N O P Q R S T U V X
自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业科学 交通运输 航空、航天 环境科学、安全科学
5.综合性图书
Z
综合性图书
T 工业技术
TF0一般性问题
TP32一般计算器和计算机 TF1冶金技术 TP33电子数字计算机(不连续 TB 一般工业技术 作用电子计算机) TD 矿业工程 TF11提炼冶金(化学冶金) TP34电子模拟计算机(连续作 TF3 冶金机械、冶金生产自动化 TE 石油、天然气工业 TF12粉末冶金(金属陶瓷工艺) 用电子计算机) TF 冶金工业 TF13真空冶金 TP35混合电子计算机 TG 金属学、金属工艺 TF4钢铁冶炼(黑色金属冶炼)(总论) TP36微型计算机 TH 机械、仪表工业 TF14电渣重熔 TJ 武器工业 TP37多媒体技术与多媒体计算 TF15 原子能冶金 TK 动力工程 TF5炼铁 机 TF16纤维冶金 TL 原子能技术 TF121 粉末冶金原理 TP38 其他计算机 TM 电工技术 TF17卤素冶金 TP39 计算机的应用 TF122 粉末特性及检验 TF6 铁合金冶炼 TN 无线电电子学、电讯技术 TF18微生物冶金 TP6 射流技术(流控技术) TF123 粉末的制造方法 TP 自动化技术、计算机技术 TP7遥感技术 TF19其他冶金技术 TP1自动化基础理论 TF7炼钢 TF124 粉末成型、烧结及后处理 TP8 远动技术 TP2自动化技术及设备 TF125 粉末冶金制品及其应用 TQ 化学工业 TP3计算技术、计算机技术 TS 轻工业、手工业 TP30一般性问题 TF79其他黑色金属冶炼 TP31计算机软件 TU 建筑工程 TV 水利工程
禁用词
在数据库中,下列九个词不能作为检索 词使用,这些词称为禁用词。 禁用词有: AN、AND、BY、FOR、FROM、OF、TO、 THE、WITH
截词检索 (truncation) — 截词符
截词检索在西文数据库中广泛使用。 是在词干后可能变化的位置加上使用截 词符号。检索词的单复数形式,同一词 英、美不同拼法,词根相同的词都可用 截词检索。这样既可减少检索词的输入 量,又可扩大查找范围,提高查全率。
表达式为:“A NOT B”或
“A - B”,即检索记录中包
含A词但不含有B词。
例如:“能源 - 太阳能”
例如:查找“动物的乙肝病毒(不要人的)” 文献的检索式为:
hepatitis B virus(乙肝病毒) not human (人类)
查找有关残疾人相关报道,不需要听力障碍 的相关文献 disabled NOT deaf
表达式
检索结果
education(W)school ----- education school education(1W)school ----- education school education and music school education(N)school----- education school school of education education(1N)school----- education school school of education education and music school school of music and education education(F)school -----同时出现在文摘或者题名字段
布尔逻辑检索(boolean logic):
是当今检索理论中最成熟的理论 之一,也是构造检索表达式最基本、最 简单的匹配模式。布尔逻辑检索是通过 布尔逻辑算符来实现的。
布尔逻辑算符
定义:表达检索提问的各概念之间的逻辑关系。 逻辑算符有三种: AND (与)、OR(或)、NOT(非)
三种算符可同时在一个检索式中使用,也可单独使用。
信息检索原理与技术
信息检索(information retrieval),亦称 情报检索,是指将信息按一定的方式组织和 储存起来,并根据信息用户的需要找出有关 信息的过程。 20世纪50年代,美国数学家C.W.Mooers 首先提出。过程包含存储和检索两个过 程。 存储过程就是按照检索语言(主题词表或 分类表)及其使用原则对原始信息进行处 理,形成信息特征标识,为检索提供经过 整序(即形成检索途径)的信息集合的过 程。 检索过程则是按照同样的检索语言(主题 词表或分类表)及组配原则分析课题,形 成检索提问标识,根据存储所提供的检索 途径,从信息集合中查获与检索提问标识 相符的信息特征标识的过程。
TF8有色金属冶炼
中图法分类号树型结构
T
工业技术
TP
自动化技术、计算技术
……………………
TV
水利工程
TP3
计算技术、计算机
TP31
自动化基础理论
TP39
计算机的应用
TP391
信息处理(信息加工)
中国科学院图书馆图书分类法
(5大部共25大类)
00 马克思列宁 主义、毛泽东思想 10哲学 20 社会科学 21历史、历史学 27经济、经济学 31政治、社会生活 34法律、法学 36军事、军事学 37文化、科学、教 育、体育 41语言、文字学 42文学 48艺术
“+” “or” 来表示。
其检索表达式为:“A or B”或
“A + B”,即检索记录中含有A
词或者B词中的任何一词即可。
例如:“高清晰电视 + HDTV”
例如: color or colour
用于从原来的检索范围中排
“逻辑非”
“NOT”
除不需要的概念,或影响检
索结果的概念。
可使用“-”来表示,其检索
例如:
“中国 * 对外贸易”。
例如:查找“胰岛素治疗糖尿病”的 检索式为: insulin (胰岛素) and diabetes(糖尿 病)
例如:查找“关于激光打印机”方面的文 献
检索式为: Laser and printer
“逻辑或”
“OR”
用于并列概念的组配,可以扩大
检索范围,提高查全率,可使用
49无神论、宗教学 50自然科学 51数学 52力学 53物理学 54化学 55天文学 56地球科学 58生物科学 61医药、卫生 65农业科学 71工程技术 90综合性图书
信息检索基本技术
计算机检索式(逻辑表达式): 检索词+有关算符 逻辑算符 位置算符 截词符 基本索引字段标识符
截词符
又称通配符,不同的检索系统中使 用的符号不同,没有统一标准。通 常用 “?”来表示。常用的还有 如*、#、&等。
按位置分为:右截断(后),左截断
(前),中间截断,复合截断等。
(1)右截断(后),放在词尾代表任意长 度的字符数或没有字符 例如:control? 代表control、 controlled、controlling、 controllable 等
1)描述文献外部特征的检索语言 有:题名、著者、出版者
2)描述文献内容特征的检索语言 有: 主题词、分类号
什么是主题词
一般来说,一篇文献都是论及某一方面的特定问题 的,也就是说,与论题相关的词出现的频率较大。 在文献中出现的频率既不高也不低的词,在文献 中约3-20个之间,这些词恰恰是与文献的主题相 关度较大的词,我们称之为文献的主题词或关键 词。 文献中出现频率最高的词是冠词、介词和连词等, 即其本身没有具体含义的词,如a、an、the、 this、that、or、and、in、on、with等; 绝大部分词在文献中出现的频率较低;
信息存储与检索的原理
存 储 过 程 信 息 处 理 人 员 原 始 信 息 检 索 课 题 信息分析、 著录和标引 检索语言 主题词/分类号 课题分析
检 索 用 过 程 户
检 索 工 具
检 索 结 果
信息检索原理
检索提问标识与存储在检索工具中的 特征标识进行比较,两者一致或信息 标引的标识包含着检索提问标识,则 具有该标识的信息就从检索工具中输 出,输出的信息就是检索命中的信息。
利用文献记录中任何有实义的关键词、词组或 字符串作为检索词,词与词之间的位置关系可 以用位置运算符来表达。位置运算符的使用, 进一步强化了对概念的限制,比布尔逻辑运算 符更能表达复杂的概念,并避免AND逻辑组配 产生的词义含糊或误检。
位置算符 (W)、(N)
(W):W是with的缩写,表示两个词必须紧 挨着,且词序不可颠倒,(W)算符也可 用空括号()代替。 例: solar()energy (nw):表示两个词之间可插入n个词,且 词序不可颠倒。 例: solar(3w)energy communication(2W)satellite
注意事项
使用逻辑算符时应注意的事项: ①逻辑算符的优先级为:NOT、AND、OR,可用 括号来改变优先顺序。
(mouse or mice) and gene
②在逻辑组配时,算符的两侧必须各留有一个 空格。
词位置检索— 位置运算符 (positional operator)
利用布尔逻辑算符对检索词进行逻辑组配时, 未限定检索词之间的位置关系,会影响某些课 题的查准率并容易造成误检。
这些运算符能把一些具有简单概念的检索词组配成 为一个具有复杂概念的检索式,用以表达用户的检 索要求。
“逻辑与”
“AND”
用于交叉概念或限定关系的组配,
可以缩小检索范围,提高查准率。
可使用“*”或“and ” 来表示。
其检索表达式为:“A AND B”或
“A * B”,即检索记录中必须同
时包含A词与B词才算命中。
检索语言
检索语言是信息检索中用来描述文 献特征和表达情报提问内容的一种 专门人工语言。 在信息存储过程中,用它来描述信 息的内容和外部特征,从而形成检 索标识 在检索过程中,用它来描述检索提 问,从而形成提问标识 当提问标识与检索标识完全匹配或 部分匹配时,结果即为检得文献。
检索语言的种类
(N):N是near的缩写,表示两个词之间必 须紧挨着,但词序任意。 例:fiber(N)optic (nN)表示两个词之间最多可插入n个词, 词序任意。 例:fiber(4N)optic
位置算符(S)、(F)
(S):S为subfield或sentence的缩写, 表示两个词必须在记录中的同一个句子 中出现,且词序可变。 例:color(S)pigment (F):F为field的缩写,表示两个词必 须在记录中的同一个字段(题目,文摘) 中出现,且词序可变。 例: environment (F) protection