计算机信息检索基础_图文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

6、 网络检索
短语检索(半角双引号) 自动纠错检索(如:李熬,你是不是要检索李敖) 自动转换检索(如:汉语拼音转换成文字) 自然语言检索 概念检索(同义词/近义词/狭义词,如搜索引擎Excite) 相关检索
7、 其它检索的表述
二次检索/在结果内检索 精确检索 模糊检索 跨库检索/一站式检索 扩展检索(类似搜索引擎的概念检索) 一般检索/高级检索/专家检索/命令检索
计算机信息检索基础_图文.ppt
“信息爆炸”
知识的门类和数量迅速倍增
知识的载体和传输方式日新月异
每日新增网页近百万张
2010年全球网站数量突破11亿,2012年16.44亿
文献增速
70年代每7年翻一番
1999年每1年半翻一番
2013年每8小时翻一番
一、 计算机信息检索原理
计算机信息检索:用户利用数据库获取所需信息的过程。
AU
作者单位(Corporate Source) CS
刊名(Journal Name)
JN
年代( Publication Year )
PY
3、数据库类型 types of databases
多媒体数据库 事实数据库 数值数据库 文献数据库
文献数据库
全文数据库 书目数据库
书目数据库(bibliographic database)
检索特征标识 = 系统中的信息特征标识
检索标识
系统标识
匹配一致
二、检索软件类型
检索软件即用户与系统对话的界面, 可分为以下两种:
指令型
通过直接输 入指令进行
检索
菜单型
通过屏幕菜 单引导完成 检索。
三、数 据 库
数据库定义 数据库结构 数据库类型
1.数据库定义
相互关联的数据在计算机外存储器上有序的集合.
又如 computer?——以computer词干开头的词 可以检索出:computer、computers、computing、 computerize、computerise
注意:截词是计算机信息检索的一项重要特性,不同数据库有不同的 截词符,大多数为“?”。
[%] [*] 后方一致(前截断):
(4) sentence 运算符为“(S)”
表示检索词出现在同一个句子中.
(5) field 运算符为“(f)”
表示两个词必须出现在同一字段内.
Example 1
Health(s)environment?
Recently environmental control is regarded as important for good human health conditions and toxic substances, including carcinogens and endocrine disruptors should be eliminated from our living environment .
以后会看到一些数据库通常都有年代/类型等的选择
5. 短语检索符 (phrase)
检索符 “ ”
用于检索固定短语或专有名词 在短语或专有名词前后加双引号,系统将其按词组
对待,不再将其分割按单词检索。
示例
“4-methoxy-salicylaldehyde”(4-甲氧基水杨醛) “PCR”
2、数据库结构
Framework of Database
数据库
文档
文档
记录
记录
记录
记录
题名字段
题名字段
作者字段
作者字段
地址字段
地址字段
刊名字段
刊名字段
关键词字段
关键词字段
主题词字段
主题词字段
文档(File)
数据库中一部分记录的 集合
综合性数据库 多按学科划分文档
记录(Record)
数据库的基本信息单元,每条记录都描述了原始信息的 各项外表特征和内容特征。
扩展检索
系统基于词表,自动或半自动地对多个检索词执行逻辑 “ 或” 运算,扩展检索包括:
---下位词扩展
上位上词位扩词展检索
下位词
---同义词扩展
Computer ( 同 电脑
主题词)
义 计算机

全文检索
以原始记录中的词语为检索对象 直接使用自由词 位置运算符是全文检索常用的运算符
词 “*”
替代任意 肝炎*疫苗 肝炎灭活疫苗
Truncatio 多个字符
肝炎减毒活疫苗
n Symbol
示例 2
词尾截断:
名 运算符 称
逻辑关系 举例
结果
“ * ” 替代任意 截 Truncatio 多个字符 词 n Symbol

computer、
Comput*
computers、 computing、
糖尿病
A
高血压
B
逻辑或
A OR B A+B
A
B
扩大检索范围,提高查全率。
示例
政治、经济、宗教与伦理学的关系
政治
经济
宗教
A
伦理学
C
B
D
(A OR B OR C) AND D (A+B+C)*D
逻辑非
A NOT B A-B
A
B
缩小检索范围,提高查准率。
示例
非共产主义人生观 B821.2(人生观、人生哲学中除共产 主义人生观外的那一部份)
computerize、
computerise
3、 邻近检索
由于逻辑算符不能限定检索词的位置关系, 因此有些数据库和因特网检索系统采用了位置算符来加以限制
以Dialog Medline 数据库为例: ⑴ With 运算符为“()” 表示检索词紧密相连,中间不能插入任何字母或
词,但允许有“ ” 或“_”,前后顺序不能颠倒 。 如 X()ray 表示 X ray 或 X-ray
Example 2
Health(f)environment?
Abstract: Effects of environmental changes in a stair climbing intervention: generalization to stair descent .…… is available for human health .
字段(Field)
组成记录的数据项(检索项),一个字段代表一项特 征。
文档
记录
字段
字段名称及代码
基本字段:
字段名称 文摘(Abstracts) 题目(Title Word) 主题词(Descriptor) 标识词(Identifier)
段码 AB TI DE ID
辅助字段:
作者 (Authors)
示例
胃炎、胃溃疡、胃肿瘤与幽门螺杆菌 的相关性 (不要 cagA ,vagA)
(胃炎 or 胃溃疡 or 胃肿瘤) and (幽门螺杆菌 or 幽门弯曲杆菌) not (cagA or vagA)
布尔逻辑的运算可以进行同类项的合并。 如:A*B+A*C=A*(B+C)
然而,在使用布尔逻辑时,必须注意以下几 条交换规则:
“%国庆” 将检索出所有字段为张国庆、欧阳国庆、国庆 等的记录。
前方一致(后截断) : 如:“热电材料% ”将检索出热电材料梯度化、热电材料及
其梯度化等的记录。
示例 1
词中替代:
名 运算符 称
逻辑关系
举例
结果
“?” 替代单个 曲安?德 曲安耐德
(Wildcard 字符
曲安奈德
截 Symbol)
即:计算机将输入机检系统的用户提问标识(检索词)与已 存贮在系统中数据库内的文献特征标识(标引词)进行匹 配比较,凡符合给定的比较原则和逻辑运算条件者即为命 中文献。
计算机信息检索特点
检索速度快 效率高
检索方便 实现资源共享
检索内容新 数量大
手段灵活 途径多样
快速、 准确地获
得结 果
缺点:收费、有时间限制、回溯性差,无法查久远的或最 新的文献。
主要存储三次文献(what、where、when、who、why、 how)类信息
《中国大百科全书》 Marriam Webster Dictionary 提供的《大不列颠百科全书》 免费查询
多媒体/超文本数据库 multimedia/hypertext database
同时存储声音、图像、文字等的超文本信 息。
邻近检索小结
这些位置算符可以一起使用,顺序为 (W)(S)(F) 。
实践上这些算符都是扩大检索范围。
4、 限制检索
在信息检索系统中,为了满足某种检索条件或 精确程度,通常使用一些缩小或限定检索结 。针对特定年代、特定类别、特定检索点等 制,包括前缀限制符和后缀限制符。
达到某种 果的方法
作限
(2)word 运算符为(nW)(n为自然数)
表示两词之间最多可插入0-n个词 前后顺序不能颠倒。
如:control(1w)system可以检索出“control system” “control in system”等的信息。
(3) near 运算符为“(nN)”
表示检索词相邻,中间可插入0-n个词,前后顺 序可以颠倒 如 infusion(1n)urokinase 表示: infusion of urokinase urokinase infusion
检索者如何让计算机实现自己的 检索意图?
四、检索提问表达式
检索提问表达式=检索词+运算符
(一)、检索词
字词类
获得性免疫缺陷综合征 AIDS 刘伟 中国行政管理 云南大学 3一乙酰基一5一羟甲基
数码类
2007(年) C19H33NO2HCL(分子式) 343.94 (分子量) D665.2(分类号) GNGY(基因代码) 54-16-089 (化学物质登记号)
1. 布尔逻辑运算符 Boolean Operators
名称 逻辑与 逻辑或 逻辑非
运算符
AND * OR + NOT -
逻辑关系
举例
限定
A AND B
等同
A OR B
排斥
A NOT B
作用 缩小 扩大 缩小
逻辑与
A AND B A*B
A
B
缩小检索范围,提高专指性。
示例 糖尿病与高血压
A AND B
(二)、运算符
布尔逻辑符 字段限定符 位置运算符
通配符 短语符
questions
铁(痕量元素);李铁(人名);铁道医学杂志(刊名 );上海铁道医学院,铁路医院(作者地址)……
查找作者“黎明” 的文章,结果包括了“…黎明”及“黎明…” 的文章
英语单复数的变异 、英美拼法的不同、同义不同性词( 词干相同后缀不同);音译外来词中文取词的不同
A:人生观、人生哲学 A not B
B:共产主义人生观
A-B
逻辑运算次序
布尔逻辑运算次序 布尔逻辑的运算就象数学中的四则运算的“先乘
除后加减”一样,也有优先级的问题,它的优先级从高 到低依次为:
非(NOT)→与(AND)→或(OR) 当然,括号最优先。因此,括号也称为优先符。 优先符可以改变布尔逻辑的正常运算次序。 如:信息+情报 NOT 经济 (信息+情报)NOT 经济 检索结果不同。
前缀限制符例如: AU= 限查特定作者 JN= 限查特定刊名 LA= 限查特定语种 PN= 限查特定专利号 PY= 限查特定年代
网络信息检索中可“报告 filetype:pdf ”
检索指定网址内的信息: “报告 site:”
存储二次文献,其检索结果是文献的线索而 非原文。 如BKSY
全文数据库(full text database)
主要存储一次文献
提供原始文献全文
数值数据库(numeric database)
主要存储用数 值表达的atabase)
运算符小结
计算机信息检索技术是用户信息需求和文献信息集合之间 的匹配比较技术。
布尔逻辑检索、截词检索、邻近检索、短语检索、字段检 索、网络信息检索
几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊 检索)和限制检索,而不同的检索系统又会有一些特殊的检 索技术和功能。
五、其他检索功能
全文检索 扩展检索 聚类检索 加权检索
六、调整检索策略
检出文献太少 扩大检索范围的方法
检出文献太多 缩小检索范围的方法
检索文献太多
1)用AND增加相关概念或用NOT排除无 关概念
美洲哲学 and 美国哲学 and 十九世纪后期 and 爱默 生 and 哈利斯
A*B=B*A A+B=B+A A-B≠B-A
2. 截词检索
以符号取代检索词(中、尾)的部分字符,从而检出相同词干和相同 词根的词。
截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主 要包括下列情形:
截词符? 中截一字符,后截断n个字符
如 wom?n 可以检索出: woman, women
相关文档
最新文档