1-2 信息检索基础知识2014

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

逻辑或:OR
• 符号:OR或+,又称“或者”或“或含” • 表示检索词A或检索词B只要任意一个(或同 时)出现在文章中,文章即可命中。 • 其作用是扩大检索范围,提高查全率。
逻辑非:NOT
• 符号:NOT或-,又称“非”或“不含”
• 检出的文章中必须包含检索词A但不能包含检
索词B。即在含有检索词A的文献中去除含有
举例:
以下是图书馆图书分类法经济类的片段: F 经济 F7 经济贸易 F71 国内经济贸易 F72 中国国内经济 F720 方针政策及其阐述 F721商业经济体制和组织 F721.1 国有商业企业 F721.2 供销合作社、集体商业 F721.4私人商业 其中,F721.2的上位类号为 F721 ,它的含义 为 商业经济体制和组织,F721.1与F721.2之间为 同位类 关 系。私人商业所属的中国图书馆图书分类法大类号和 类名是 F经济 。
叙词
• • • 叙 词:是经过规范化处理的,以基本概念为基 础的表达信息内容的词和词组,也叫受控词。 使用叙词的优点:选择宽广的概念,查全率高, 避免由于同义词、近义词的存在而产生的漏检。 缺点:使用词表,带有间接性,且非专业人员很 难掌握;由于受控语言被限制在预先制定的概念 或类目内,不能表示新的概念;词量有限,影响 查准率。
第3节 信息检索技术
本节重点
• • 重点掌握布尔逻辑算符的含义及组配方法 难点:各种算符的混合组配
第3节 信息检索技术
计算机检索式(逻辑表达式):
检索词+有关算符
1、布尔逻辑检索
2、位置检索
3、短语检索
4、截词检索
5、字段限定检索
2.3.1 信息检索技术:布尔逻辑检索
布尔逻辑检索(boolean logic)
2.2.3 信息检索语言
1 主题语言
• 概念:采用反映文献主题概念的检索词来进行
标引、存贮、检索的一种信息语言。
• 适用性:特性检索、交叉复杂概念检索 • 表现形式:汉语主题词表、工程主题词表等 • 优点:不必从知识体系的角度去判断所需文献 是属于什么学科,只根据课题研究的对象,直 接用能表征文献内容的主题词去查检,而且同 一篇文献可以用多个主题词去检索。
• 玉米-甜玉米
多个布尔算符混合应用示例
• 含有牛奶、香草、草莓任何一种口味的冰淇淋
牛奶 OR 香草 OR 草莓
• 同时含有牛奶、香草、草莓三种口味的冰淇淋
牛奶 AND 香草 AND 草莓
• 至少含有牛奶、香草或草莓任何一种口味但不含巧克 力的冰淇淋 (牛奶 OR 香草 OR 草莓)NOT 巧克力
主题词的选取建议
• 条件允许的情况下,尽可能选取规范化词进行检索;
• 注意选取准确表达主题概念的词汇,无意义的词不得
选取;
• 一般情况下可选用关键词作为检索词,但在检索过程
中必须注意查全和查准,对关键词注意进行同义词、 近义词、上下位词、缩写、简写等词的扩展。
2 分类语言
• 概念:以号码为基本字符,用分类号和类目表 达文献主题概念的检索语言。 • 适用性:适用于族性检索,单一概念检索
3 名称语言
• 名称语言:以人名、机构名、地名、书 名等能够代表信息特征的名称作为检索 标识的语言。 • 如作者检索、作者单位检索,期刊名检 索等。
4 代码语言
• 代码语言:是指对事物的某方面特征, 用于某种代码表示和排列事物概念,从 而提供检索语言。 • 如专利号、文摘号、国际标准书号、国 际标准期刊号。
思考题
• 比较4个检索式检索结果的不同
• "Romote education"
• Romote and education
• Romote(2W)education
• Romote(2N)education
2.3.4 信息检索技术:截词检索
通配符或截词符检索
用截词符号“?”、“*” 、“$”加在检索
3. Construction of a virtual geographic environment for air pollution simulation in Pearl River Delta. 4. The use of blue tit eggs as a biomonitoring tool for organohalogenated pollutants in the European environment.
用于表达检索词或检索项之间的逻辑关系的检索。
常用的布尔逻辑检索算符: • 逻辑与 • 逻辑或 • 逻辑非 AND(*) OR(+),其它表示法| NOT(-),其它表示法 AND NOT
逻辑与:AND
• 符号:AND或 *,又称“并且”或“并含” • 表示检索词A和检索词B必须同时出现在文章 中,文章才可命中。 • 其作用是缩小检索范围,提年、卷、期
信息 特征
作者
题名
作者机构
关键词 分类号
摘要
文章编号
参考文献......
正文
2.2.3 信息检索语言
• 文献存储 文献检索
共同遵守的规则
• 信息检索语言是信息标引人员与信息检索人 员共同使用、实现交流的语言,它可以是一 套分类号码,也可以是规范化或非规范化的 一套词汇。 • 信息检索语言分为四大类:主题检索语言、 分类检索语言、名称语言和代码语言。
• 表现形式:分类表或分类法。
如《国际专利分类表》、《杜威十进分类 法》、《中国图书馆分类法》
图书的分类
中国图书馆图书分类法(第四版)(五大部22个大类)
马列毛邓 哲学宗教 自然科学
社会科学
综合类图书
T 工业技术(16个二级类目)
TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学与金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 能源与动力工程 TL 原子能技术 TM 电工技术 TN 无线电电子学、电信技术 TP 自动化技术、计算机技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程
2.2.1 信息检索概念
• 信息检索(Information Retrieval):是指将信 息按照一定的方式组织和存储起来,并根据信 息用户的需求找出有关的信息的过程和技术。 • 狭义信息检索:指信息的查寻
(information search)
• 广义信息检索:包括信息存储与检索
(information storage and retrieval)
位置算符应用举例
pollut*(3N)environment
1. Atmospheric corrosion of field-exposed AZ91D Mg alloys in a polluted environment. 2. Biostimulation strategies for fresh and chronically polluted marine environments with petroleum hydrocarbons.

如用“马铃薯”作为检索词时,土豆、洋芋、洋 蕃芋等相关词也能被检出。
马铃薯主题词表
汉语主题词表
款目主题词汉语拼音 款目主题词英译名 款目主题词范畴分类号 D (代项)非正式主题词
S
(属项)上位主题
Z (族项)族首词 C (参项)相关词
参照项的种类、作用和符号
参照 项目 用项 代项 分项 属项 族项 参项 作用 同义词(正式主题词)Y 同义词(非正式主题 D 词) 狭义词(下位词) 广义词(上位词) 族首词 相关词 F S Z C 汉语拼音符号 缩写 拼音原文 Yong Dai Fen Shu Zu Can 用 代 分 属 族 参 中文名
多个布尔算符混合应用示例
• 高温高压下的流变性研究 高温 and 高压 and 流变性 • 高温或高压下的流变性研究 (高温 or 高压)and 流变性
• 高温不包括高压下的流变性研究
(高温 not 高压)and 流变性
2.3.2 信息检索技术:位置检索
位置检索:
表示两个检索词之间的位置邻近关系及顺序,通常出现在西文数据库中。
(以DIALOG系统为例,位置检索算符的使用方法如下)
• (W)或( ):表示用该符号连接的两检索词位置相邻,且词序不可颠倒 如internat( )trade 国际贸易,检索结果为internat trade • (nW): 表示用该符号连接的两检索词间最多能插入n个词,且词序不可颠倒 如communication(2W)satellite,两词间最多可插入2个词 • (N):Near,表示用该符号连接的两检索词位置相邻,但词序可颠倒 • (nN):表示用该符号连接的两检索词最多能插入n个词,词序可颠倒 “communication(2N)satellite”,最多插入2个词 • (F): 表示用该符号连接的两检索词在同一字段内,词序可颠倒 • (S): 表示用该符号连接的两检索词在同一句子中,词序可颠倒
2.3.3 信息检索技术:短语检索
• 短语检索,又称精确检索(Phrase Search或 Exact Search),通常应用于机构、人名、地 名、专业术语的检索,常用双引号“”表示 短语检索符。
“China University of Petroleum”
“Abraham Lincoln” “gas hydrate”
TP类展开下位类
以T-工业技术大类下的TP类展开下位类如下: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP39 计算机应用 TP393 计算机网络 TP393.0 一般性问题 TP393.01 计算机网络理论 TP393.02 计算机网络结构与设计
上位类 下位类 同位类
关键词
• 关键词:未经规范化处理,直接从文献题名、原文 或文摘中选取的能反映原文主题内容的自然语言词 汇。 优点:检索方便,直接简明,不受词表控制,能及 时检索到最新概念的各类文献。 缺点:查准率高,但查全率低,同义词容易遗漏, 多义词容易误检,应对关键词的同义词等也进行检 索。
• •
• 如用“土豆”作为检索词时,出现马铃薯但不包含 土豆的文献不能被检出。因此,在用关键词检索时, 应把该关键词的同义词、近义词等检索词都加进去 进行检索。
有括号时,括号内的内容优先运算
• 检索“唐宋诗歌”的有关信息
检索词:唐、宋、诗歌
检索表达式:(唐 or 宋) and 诗歌
布尔逻辑算符应用示例
• 中国石油大学 AND 图书馆 • 计算机*信息检索 • 北京 OR 上海 OR 广州 OR 深圳
• 计算机+电脑+PC机 • 大学 NOT 中国石油大学
检索词B的文献。
• 其作用是缩小检索范围,提高差准率。
布尔逻辑算符的总结
• 逻辑与:通常应用于不同概念之间的逻辑组配
• 逻辑或:通常应用于相同概念的不同检索词之
间的逻辑组配,如同义词、近义词、上位词、 下位词、相关词等 • 逻辑非:排除含有某一概念的文献
布尔运算符优先级比较
• 括号:优先算符( )
词的前后或中间,以检索一组相关概念或同一词 根的词。这种检索方法可以扩大检索范围,提高 查全率,主要用于西文电子资源的检索。
举例说明
• 新学期伊始,老师让石工大三的学生找钻井 工艺方面的参考书,请问该怎么查找?老师 推荐了刘希圣教授的书,ISBN为7-50210113-6 • 用“钻井工艺”作为关键词到书目系统中查 找---主题语言 • 用中图分类法查找,石油天然气(TE)--钻井 工程(TE2)--钻井工艺(TE24)---分类语言 • 用作者名查找---名称语言 • 用ISBN查找---号码语言
主题词
• 主题语言所使用的词语统称为主题词,是用以表达文
献所论述和研究的中心内容的词语,它可以是规范化
或非规范化的一套词汇。 • 主题词若从配套的词表中选用,如汉语主题词表、工程 主题词表等,我们称之为规范化词,如标题词、单元词 、叙词,最常用的为叙词。 • 主题词若是依据用户自己的信息需求以及专业知识和 专业语言,分析、识别、提炼、筛选出的具有代表性的 词语,我们称之为非规范化词,也称关键词。
信息检索与网络资源利用
Information Retrieval & Internet application
第2章
信息检索基础知识
第1节 信息与信息源
第2节 信息检索语言
第3节 信息检索技术 第4节 信息检索步骤
第2节 信息检索语言
本节重点
• 了解信息特征及检索语言,重点掌握主题语言和 分类语言
相关文档
最新文档