第二章信息检索基本方法

合集下载

第2章--信息检索PPT课件

第2章--信息检索PPT课件

经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。

2信息检索的基本方法(一)

2信息检索的基本方法(一)

SCIENTIFIC SOLUTIONS
• 查找美国信息资源管理政策的有关文献 美国 and 信息资源管理 and 政策
• 含有草莓、香草和巧克力三种口味中任何一种的冰 淇淋
草莓 or 香草 or 巧克力
• 查找互联网有关的信息资源 • 互联网 or 因特网 or 万维网
SCIENTIFIC SOLUTIONS
SCIENTIFIC SOLUTIONS
4 截词检索(Truncation/Wildcat)
• 有时被称为通配符 • 前截词 • *ology→geology,sociology,psychology,archaeology, biology……
• 中间截词
• wom?n→ woman,women
SCIENTIFIC SOLUTIONS
检索词和运算符号合在一起的式子就是检索式 例子 寻找武汉大学校庆的资料 校庆 and 武汉大学(*)
高等教育 * 中国
湖南 or 湖北(+) 移动学习 + 泛在学习
大学 not 武汉大学 玉米——甜玉米
SCIENTIFIC SOLUTIONS
• 同时含有草莓、香草和巧克力三种口味的冰淇淋 • 草莓 and 香草 and 巧克力 • 用and链接的检索词越多,结果越少
• (nN) • Wuhan (1N) university
• Wuhan (1N) university— • 还可检出university of wuhan ,university
in wuhan……
SCIENTIFIC SOLUTIONS
3 短语检索(Phrase Search, Exact Search)
含有草莓或香草但不含巧克力口味的冰淇淋

第二章 信息检索

第二章 信息检索

2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。

第二章 信息检索基本知识

第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网

7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;

第二章 文献信息检索基础

第二章 文献信息检索基础

理的名词术语,具有单一性、组配性好的特 点。
(2)分类语言:直接体现知识分类的等
级制概念标识系统;如中图分类号、杜威 十进制分类法等。
《中国图书馆图书分类法》即《中图法》
《中国图书馆图书分类法》
体现学科的系统性,反映事物的从属、 派生关系,并从上至下、从总体到局部 层层划分,展开,是一种等级分明的语 言。分为五大部类,22个大类,分别用 22个大写字母表示(其中除掉L、M、W、 Y)。
1.前方一致

也叫后截断,将截词符置于一个字符串的后面,以表示其后的有限或无 限个字符的检索。
无限截词
如: ? Physic? 可检出physic、physical、physican、physicalism
有限截词
截断两个字符
中间有 空格
如:? physic?? 可检出physic、physical、physican 截断一个字符 如:? cat? ? 可检出cat、cats
2.3 综合法
综合法又称为循环法,它是把上述两种方法
加以综合运用的方法。综合法既要利用检索 工具进行常规检索,又要利用文献后所附参 考文献进行追溯检索,分期分段地交替使用 这两种方法。即先利用检索工具(系统)检 到一批文献,再以这些文献末尾的参考目录 为线索进行查找,如此循环进行,直到满足 要求时为止。 综合法兼有常用法和追溯法的优点,可以查 得较为全面而准确的文献,是实际中采用较 多的方法。
能包含特征B。可以缩小检索范围,有利于提高查 准率。 A – B(逻辑非)
例:自由分配方面的文献(排除海南大学师生的著作) 提问式::(关键词=‘自由分配’) not (单位=‘海南大学')
三、位置算符
也叫邻近检索, 在检索词之间使用, 规定算符两边的检索词出现在记录中

第二章 信息检索基础

第二章 信息检索基础

2014-5-26
18
数据检索以具有数量性质,并以数 值形式表示的数据为检索目的和对象, 检索的结果是经过测试、评价过的各种 数据。
数据文件组织方式不同,数据检索 的技术方法亦不同。对于顺序结构文件 ,常见方法有顺序检索、分块查找法、 两分检索等。
对于随机结构文件,常采用直接地 址法、杂凑(hash)法等。地理信息系 统中空间数据检索常涉及目标空间分布 范围(行政区域、地理范围或空间关系 等)及目标属性类型(地形高度、坡度 、土地利用现状等)两个方面的综合条 件。
根据研究文摘历史的专家弗西斯·威蒂( Francis J. Witty)介绍,一种用途类似于文摘 的工具首先出现在公元前两千年美索不达米亚 人用楔形文字写成的文献的陶制封套上。
我国最早带有内容摘要的图书目录是西 汉刘向、刘歆父子整理编撰的《别录》和《七 略》。古代使用文摘的人有学者、政治家,还 有教皇和僧侣。
第四阶段:网络检索阶段。
网络信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲高 能粒子协会分别推出了因特网上的检索工具 WAIS、Gropher和WWW。
目前,WWW因其集文本、图像、声音等 多媒体信息于一体的巨大优点,已占信息服务 的主导地位。
在该阶段,系统大多采用分布式的网络化 管理,其信息资源的主要特点是:数字形式表 达、多媒体和多取复杂、 用户界面要求高等。
信息检索多语种化 多语种信息检索将依然是未来网络信息检索 的研究热点,现在对多语种信息检索的支持主 要体现在预先设定检索语言,
其检索结果也限制在预先设定的语言中 。而使用某一种语言直接进行多语种检索,提 供多语种的匹配结果将是多语种信息检索的下 一个方向。
这种单一检索界面的检索将在后台有一个多 语种词库,对用户提交某一语种的检索词自动 在词库中查找对应其他语种的检索词,再提交 给搜索引擎,以多语种检索结果输出给用户。 这种多语种、多信息检索需要机器翻译技术的 支持,并且需要对多语种检索得出的输出结果 相关度或重要性排序进行研究。

文献检索,信息检索(2)第二章 信息检索原理

文献检索,信息检索(2)第二章  信息检索原理
优点:可以检索到某学科或专业的所有文献,有较高 的查全率。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。

第二章 信息检索基础知识

第二章  信息检索基础知识

* 叙词语言
是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻 辑组配的一种主语语言。如《汉语主题词表》、《INSPEC叙词表》(《科学 文摘》)、《工程索引叙词表》等。
非规范主题语言:它是相对于规范主题语言而言的,以自然语言的语词作检
索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和 纯自然语言。
索”。 –B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统” 切分为“操作|系统”
• 2、删除 将课题转换成关键词的集合
–A.删除不具有检索意义的虚词(a,the,is等)和关键词(因使用太宽 泛而不具有检索意义,如:http,com等) –B.删除过分宽泛和过份具体的限定词 » 无损检测技术在材料性能评价中的应用无损检测*材料 –C.删除具有包含关系的其中一个 » 教学用的信息检索课多媒体课件信息检索*多媒体*课件 • 3、替换 用更本质的概念替换表达欠佳的概念 稀土材料的研制钐钴(用户实际上是研究钐钴材料)
第二章 信息检索基础知识
一 信息检索
二 信息检索语言、途径
三 信息检索技术 四 检索步骤
一、信息检索
信息检索:是指将信息 (主要指文献信息)按一定 的方式组织和存储起来,并
根据用户的需要找出相关信
息的过程。
存储
信息检索 检索
存储:是对信息进行著录、 检索:是指面向信息需求 标引、整序,编制检索工 而进行高度选择性的查找 具和建立检索系统的过程。 过程。
作用:1)、保证不同标引人员表征文献信息的一致性。 2)、使内容相同及相关的文献集中化。
3)、保证检索提问与文献信息标引的一致性。
4)、保证检索者按不同需求检索文献信息时, 都能获得最高的查全率和查准率。

第二章 信息检索基本方法与基本技术

第二章  信息检索基本方法与基本技术

2. 主题检索语言
• 标题词:经规范化处理的词或词组,先组式
语言
• 叙 词(单元词):经规范化处理的词或词
组,后组式语言,可自由灵活组配
• 关键词:未经规范化处理,直接从文献题名、
原文或文摘中选取的能反映原文主题内容的自 由词汇
二、检索工具
定义:检索工具是人们用来存储、报道和查找 文献的工具,它具有存储和检索的功能。
点击预约书刊可预约该书 预约图书:选定所需图书,输入证号、密码,执行预约 点击机读格式可查看该书的MARC信息
高级查询
• 在题名、著者、丛书名、主题词、出版社、 ISBN(书)、ISSN(刊)、索取号、起始年 代中填入自己确定的内容,其余的可以不填 写;选定语种(17种)和文献类型,然后进 行检索。 • 结果可检索到所需文献的题名、著者、出版 信息、索取号 • 查看选中图书的相关信息
图书馆信息查询系统
•书目查询 •读信者息 •新书通报:一个月内到馆的新书、馆藏 地,并可查看新书 •订购征询 •信息发布:预约到书列表、超期罚款、 超期催还、委托借阅到书列表
如何利用计算机进行检索
书刊查询
读者信息查询
图书馆主页的功能
信息发布功能:
图书馆最新服务动态、电子 资源试用等均及时在主页上发布。
一、信息检索原理
信息检索的原理(示意图)
存 储
特征化
表示
查 询
特征化
表示
信息 集合
选择与匹配
需求 集合
二、信息检索类型
手工检索 计算机检索 文献信息检索
• 信息检索(内容)
• 信息检索(工具手段)
数据信息检索
事实信息检索
第二节 信息检索语言与工具
一、信息检索语言

信息检索教程(第二章)

信息检索教程(第二章)

4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量

第三节课 第二章 文献检索原理与方法

第三节课  第二章 文献检索原理与方法

思考题
1.《中国图书法》(简称《中图法》)将图书分为() A. 5大部类,22个大类 B. 5大部类,26个大类 C. 6大部类,22个大类 D. 6大部类,26个大类 2.《中国图书法》(简称《中图法》)是我国常用的分类法,要 检索农业方面的图书,需要在( )类目下查找。 A. S类目 B. Q类目 C. T类目 D. R类目

第一步,《全国新书目》的新书是安排在"新书视窗"专栏,在 2000年第3期《全国新书目》的目录中寻找到"新书视窗"专栏, 在第41~77页。 第二步,在第41~77页的"新书视窗"专栏里,我们可以看到, 该专栏是按照出版社的顺序排列的。高等教育出版社在第45页, 广东经济出版社第46页,教育科学出版社在第52页。 第三步,在第45、46、52页,你可以看到这几个出版社最 近所出版的新书目录。 如广东经济出版社的目录中有以下记载: 知识经济与改革创新 黄铁苗主编 2000 20cm 25.00元 本书围绕改革开放中的热点、难点问题进行探索,具体内容 包括:所有制问财政金融问题、农村经济问题、就业问题、地方 经济问题和其他问题。
2.检索工具-类型
目录 (bibliography,catalogue) 文摘(abstract) 索引(index)

2.1 目录




目录是一批相关文献信息的著录集合,是以报道文献 出版信息为主要功能的工具。 特点:以单位出版物为著录对象,反映馆藏情况,主 要揭示文献外部特征 目录的著录项目:出版名称、责任者、出版项和稽核 项 目录的类型:《全国总书目》《全国新书目》《全国 西文期刊联合目录》
主题词法与分类法的比较
主题词法 分类法

第二章 信息检索基础知识

第二章 信息检索基础知识

全文检索
图像检索 超文本检索
文献检索
使用以二次文献为存储对象的信息系统,如目录
型、题录型、文摘型数据库,是一种相关性检索。特 点:检索结果不直接解答课题用户提出的技术问题, 只提供与之相关的线索。 例如:查找有关“食品安全与人类健康 ”方面的
国内外信息有哪些?
数据检索
以数值信息为检索对象,通过检索,用户可以获 得所需要的确切数据,是一种确定性检索。它一般以
的方式记录在相应的信息载体上,组织成系统
化的检索系统。
1. 数据库及其构成
数据库(database):至少由一种文档组
成,并能满足某一特定目的或某一特定数据处
理系统需要的一种数据集合。 通俗地说,数据
库就是在计算机存储设备上,按一定方式存储的 相互关联的数据集合,是信息检索的基础。
1. 数据库及其构成
一、信息检索的效果评价指标 二、影响检索效率的主要因素
一、信息检索的效果评价指标
以一个检索提问去检索任何一个数据库都会出现 4 个相关量:检出的相关信息量、未被检出的相关信 息量、检出的非相关信息量、未检出的非相关信息量。
一、信息检索的效果评价指标
1. 查全率 a 查全率(R )= —— ×100% a+c 查全率是对所需信息被检出程度的信息量指标。 2. 查准率 a 查准率(P )= ——×100% a+b 查准率是衡量拒绝非相关信息的指标。
中国图书馆分类法的体系结构:
S农业科学类目简表
(2)按事物的性质分类
按事物的性质分类 --- 热门主题 : 各种搜索引擎和网站 按事物的性质分类 --- 功能(使用方向)主题: 国际专
利分类法(IPC)
2.主题描述及信息检索语言

新第二章 信息检索基础知识

新第二章 信息检索基础知识

2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索

第二章 信息检索的基本知识

第二章 信息检索的基本知识

2.1.2 信息检索的类型
1.根据检索对象划分 根据检索对象的不同,早期的信息检索分为以下几种。 (1) 文献检索:以文献为检索对象。凡是查找某一课题、 某一著者、某一地域、某一机构、某一事物的有关文献的 出处和收藏单位等,均属于文献检索。这是一种相关性检 索,它提供的是与用户信息需求的相关文献的线索或原文。 (2) 事实检索:以特定的事实为检索对象如查找某一 事物发生的时间、地点与过程,某类产品哪些厂家生产、 哪个牌号最好等,均属事实检索。属确定性检索。 (3)数据检索:以数据为对象的检索。如查找某一数学公 式、数据、图表,某一种材料的成分、性能都属于数据检 索的范畴。属确定性检索
2.1 信息检索概述
2.1.1信息检索的含义
信息检索(Information Retrieval)是指 将信息按一定的方式组织和存储起来,并根据用 户的需要找出有关信息的过程,又叫信息储存与 检索(Information storage and Retrieval), 这是广义的信息检索,如图2-1所示。狭义的信息 检索则是仅指该过程的后半部分,即从信息集合 中找出所需信息的过程。
(2)关键词语言 以关键词作为文献内容标识和检索依据的一种 主题语言。关键词选自文献题目、文摘乃至正文 中具有实质意义的词语,是未经规范化处理的自 由词汇,关键词语言是不受词表控制的非规范化 语言。如美国《化学文摘》(Chemical Abstracts, CA)的关键词索引(是CA各种索引中 使用较多的一种 )。
中国图书馆分类法简介: 中国图书馆分类法(第四版)将图书资料划 分为五大部类序列,具体如下: ◎马克思主义、列宁主义、毛泽东思想 ◎哲学 ◎社会科学 ◎自然科学 ◎综合性图书 由于社会科学与自然科学这两个科学部门的 内容很多,发展很快,又各自展开为若干大类, 最后在五个基本部类的基础上,组成22个大类分 类号采用汉语拼音字母与数字混合编号制度。

第二章网络信息检索方法

第二章网络信息检索方法
以文献内容特征为检索途径
分类途径:分类目录/分类索引/族性检索 主题途径:主题索引/主题目录/主题词表/特征检索 注意:确定检索词的方法:
规范化词;国际上通用的词;隐性概念;核心概念;联机选词; 注意检索词的缩写词、词形变化、英美不同拼法
2.3查阅检索工具调整检索策略 检索式 检索 实际检索时很难一次成功 调整检索策略 满意
第2章网络信息检 索基本知识
2.2.1网络信息检索的基本方法
网络信息检索方法
工具法(常用法)
1. 顺查法,根据年代,由远及近 2. 倒查法,根据年代,由近及远 3. 抽查法,有针对性的抽查
追溯法,也称引文法 综合法,也称循环法,是前两种方法的结合
选择信息检索方法的原则
1、有检索工具时用工具法或循环法 2、无检索工具时用引文法 3、新兴学科或知识更新快的学科课题用倒查法 4、查全率要求高用顺查法 5、已经掌握课题发展的规律特点用抽查法
信息检索效果的评价
产生误检的原因可能有: 检索词一词多义;括号使用不正确; 检索词与英美人的姓名、地址名称相同; 不严格的位置算符的运用; 逻辑运算符号前后未空格; 截词运算不恰当; 检索式中没有使用逻辑非运算; 检索式中检索概念太少; 从错误的组号中打印检索结果
信息检索效果的评价
信息检索途径
❖内容特征 1分类途径 2主题途径
❖外部特征途径 1著者 2题名 3序号(专利号、标准号等等) 4引文 5其它(文献类型、日期、国别、语种、地址、 出版者等等)
2.3 网络信息检索步骤
1、分析检索课题,明确检索要求、时间、范围
不同的检索课题,同一课题的不同研究阶段的信息需求不一样。 检索目的、学科范围、主题概念、语种范围、时间范围、文献类型、

第二章信息检索基础知识

第二章信息检索基础知识

属后组式语言。
主题词
概念:通过文献所属学科的主题对文献进行检索, 是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化 主题词 处理的名词或词组。 如:出生缺陷-畸形 杵状指-骨关节病,继发肥大性
主题词表- 主题词表-单元词表
《WPI--规范化主题词表》
(WPI--LIST OF STANDARD THESAURUS TERMS)
是检索英国德温特公司专利文献的工具。按规范 词字顺排列。其著录格式见图
WPI-List of Standard Thesaurus Terms 1987 COBALT(3772)(1) COBALT@(3) CODON【87】(4) ELECTRIC(33892)(1) Electrical(2)
关键词 自然语言 单元词 标题词 叙词 语 言 言 语
分类语言
分类语言是运用概念划分的方 法,按文献内容所属学科、专 业性质的逻辑次序,以数字、 字母或数字与字母结合为基本 字符,以分类号为标识,用来 存储和检索文献的文献标识系 统。
分类语言的特点
主要特点就是按学科专业性质集中图书 区分不同性质的图书 集中性质相同的图书 相近的放在相近的位置 按照远近亲疏的关系把图书组成为一个 有条理的体系 提供从学科分类查找图书的途径
机械制造工艺系统学 / 张恩生,申铁固编著-上海交通 大学出版社 TH16/ Z31 机械设计学习指南 / 陶民华等编机械工业出版社 TH122-44/ T43 机械优化设计基础 / 张九明编著煤炭工业出版社 TH122/ Z32A 分类号+著者号TP393-62/J25
主题语言
主题语言是指以自然语言的字符为字符, 以名词性术语为基本词汇,用名词性术 语作为标识的一种信息标识系统。是主 题概念检索文献信息的检索语言。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例1:计算机信息检索
提问式(检索表达式)为: 信息检索 AND 计算机 (信息检索 OR 文献检索) AND 计算机 信息检索 NOT 信息检索课
例2:数据挖掘在信息检索与信息分析中的应用
提问式为: 数据挖掘 * (信息检索 + 信息分析)
一个问题
布尔算符中的逻辑“与”只判断参加运算的检索词有 否在数据库记录中出现,而没有限定算符两侧检索词之 间的相对位臵关系,有时难免造成误检。
第四节 检索方法
为实现检索目标所采用的具体操作方法和手 段的总称。
检索方法很多,在检索过程中应根据检索系统的功能和 检索者的实际需求,灵活运用各种检索方法,以达到满 意的检索效果。常用的检索方法有:
一、工具法 也叫直接法或常用法 是指直接利用检索工具检索文献的方法。
顺查法:按由远到近的时间顺序查找文献信息的方法。
除核能以外的有关能源方面的文献才被命中。
逻辑检索概念示意图
A
B
A
B
A and B A*B
A or B A+B
A
B
B not A B-A
在上述逻辑算符中,其运算优先级顺序为 NOT,AND,OR,但是可以用括号改变它们之间 的运算顺序。例: (A OR C) AND B 表示先执行“A OR C”的检索,再与B进行AND 运算。例: 通信 or 通讯 and 加密 = 通信 or (通讯 and 加密 ) (通信 or 通讯) and 加密
与检索途径相对应,是它的具体化。
2、类型:
按规范程度分:规范词、规范代码、自由词 按表达特征形式分:主题、分类、责任者、特定意义 (代码、编号等)
二、检索标识的确定
1、必须反映课题内容和信息需求 2、要和数据库的标引标识相一致 3、对于有叙词或主题词表的,要优先选用叙词 或主题词 4、选用各学科内具有检索价值的基本名词或术 语 5、如无表可查,或表上无反映,则为自由词, 应加选其它词进行组配
第二章
信息检索基本方法
检索工具
第一节
定义: 用来报道、存储和查找各类信息的工具。
你都用过哪些检索工具?
• 检索系统/检索工具
二次文献 • 搜索引擎 • 数据库(目录/题录、文摘、索引、全文)
• 参考工具(字典、词典、百科全书、年鉴、 手册等) 三次文献 • 综述、述评等
目录
• 目录的含义
• 是图书、期刊等出版物外表特征的揭示和报道。 是指导阅读和科学管理文献的重要手段。 • 文献的外表:特征(外部特征)包括题名、著者、 出处、卷期、页码、时间、文献类型、语种等 • 目录以完整的出版物(如一本书、一种期刊)作 为著录的基本单位,所以也可说是按某种顺序编 排的文献清单。如: • 每个图书馆的馆藏目录,揭示该馆的馆藏情况 • 联合目录揭示多家图书馆的收藏情况
检索关键词“混合动力汽 车” hybrid electric vehicle, hybrid(1w)vehicle hybrid vehicle with laser(1w)printer 检索关键词“激光打印机” (n W) laser printer laser colour printer
2、词语类工具书
Dictionary,提供字、词的形、音、义和使用方法,以及 学科名词术语的含义、演变和发展。 字典:《新华字典》 词典:《辞海》、《汉语成语大词典》
3、资料类工具书
提供各种基本知识或某一课题的具体资料。 百科全书(Encyclopedia)是汇萃人类一切门 类知识或某一门类知识的工具书。 年鉴 (上一年度) 手册(指南、便览、大全) 名录(机构名录、人名录、地名录) 类书(古代文献) 政书(古代法律法规)
功用:
多用于新兴学科、交叉学科及其他复杂课题的文献检 索。 A、揭示科技文献之间的内在逻辑与联系,反映文献 之间引用与被引用的关系,体现了科学和技术的发展 过程,预测科学发展方向 B、评价科技文献的价值、科技人员及科研机构的工 作成绩和水平。 • 此后又研制出引文分析技术,为文献计量学、科学计 量学的研究提供了新的方法。
二、外表特征途径
1、题名途径: 书名、论文篇名、刊名、专利名、标准名等 2、责任者途径: 个人、团体 3、机构名称途径: 可以了解统计该机构的情况 4、编号途径: ISBN号、ISSN号、专利号、合同号 5、其他途径: 引文索引、会议索引
关于引文索引
定义:
以某一文献 (包括作者、题名、发表年份、出处等基本数据)作为标目, 标目下著录引用或参考过该文献的全部文献及出处。它主要供用户从被引 文献查找引用文献。 来源: 20世纪50年代,美国加菲尔德研制,主办费城科学情报研究所创办了: 《科学引文索引》(SCI,1963年创刊)、《社会科学引文索引》 (SSCI,1973年创刊)、《艺术与人文科学引文索引》(AHCI,1978年创刊), 并建立了引文索引数据库。 国内: 《中国科学引文数据库》 ( CSCD ) ,《中国人文社会科学引文数据库》 ( CHSSCD ) 中国科学院文献情报中心与中国学术期刊电子杂志社 《 中文社会科学引文索引 》 ( CSSCI ):由南京大学中国社会科学研究评价 中心开发研制 《中国期刊全文数据库》也具有引文检索的功能
4、表谱类工具书
以表格或其他较为整齐的形式,记录史实、时间、地理等资料, 并附以简略的文字说明,以反映史实和时间。包括: 年表、历表、表谱, 《中国历史纪年表》、《中西回史日历》
5、图录类工具书
以图形、图像、符号等为主体,附以简略的文字说明,以反映各 种事物、人物的空间特征和形象特征的工具书。包括: 地图、历史图录、文物图录、人物图录、艺术图录、科技图录
(1) (W) 最常用来替代短语中间的空格,可以简写为() (2) (n W) 可代替一个或多个任意词语,包括空格,且前后单词顺序 不变。( n代表自然数1,2,3,……)
(w) 检索关键词 “白色污染” white(W)pollution 或 white pollution, whitewhite()pollution 或() pollution
6、边缘类工具书
介于工具书与非工具书之间,既有一般图书的阅读功能,又有工 具书的查检功用的文献。包括: 资料汇编、史书、方志
小结: 一、语言文字的宝库 -- 字典、词典 二、事实数据便览 -- 年鉴、手册 三、没有围墙的大学 -- 百科全书 四、史实典故的宝山 -- 类书、政书 五、书山学海的向导 -- 目录、索引、文摘 六、名录、表谱、图录、资料汇编
• 数据库中文摘例:
著者
文摘必备的 著录项目 摘要 篇名 出处
名词辨析:文摘和摘要
参考工具书
工具书:根据一定需要,广泛收集某一范围有关资 料,按特定体例或方式编排,提供基本知识和文献 线索的一种特殊类型图书。 1、检索类工具书 主要对相关文献外表特征进行揭示和报道。包括:
目录(Bibliography/Catalogue) 题录(Title) 文摘(Abstract) 索引(Index):《社会科学引文索引》 将题名、人名、地名、字句及参考文献分别摘录,注明出 处
计算机检索系统实例:
深圳大学图书馆计算机管理集成系统中 检索子系统的检索方法:
提供了题名、著者、分类号、普通主 题、ISBN、索取号、登录号、ISSN、名称 主题、地名主题等十一个检索途径。
第三节 检索标识
一、定义与类型 1、定义: 即检索词,指能表达检索课题主题概念和信 息需求的名词术语、类号、名称及代码等的总称。
在实际检索中,为提高查准率,往往需对检索词 之间的位臵关系加以限定,因为用不用位臵逻辑算符 和用什么样的位臵逻辑算符,所得出的检索结果、查 准率都各不相同
不同检索系统所使用的位臵算符种类和功能
有所不同
常见的位置算符(以dialoge系统为例)
位置算符 表示方法 (W)或( ) 说明 两个词在命中结果中相邻(可有空格、标点 和连字符),词序不得颠倒。 两个词之间最多可夹入n个词,词序不得颠倒
with
(nW)
near
(N)
(nN)
两个词在命中结果中相邻,词序可颠倒。
两个词之间最多可夹入n个词,词序可颠倒。 两个词在同一字段出现,位置不固定。
field
(F)
subfield
link
(S)
(L)
两个词在同一子字段出现,位置不固定。
两个词在同一规范词单元内出现,位置不固 定。
位置算符With
例如:查找“细菌对染料破坏”方面的文献
检索词:细菌、染料、破坏 逻辑“与”组配 检索结果:命中同时用这三个词标引的文献 有“细菌对染料的破坏”方面的文献,也会有“染料 对细菌的破坏”方面的文献,要排除后一部分的文献, 就需用位臵算符限定词与词之间的位臵关系。
2、位置算符
位臵算符又称邻接运算符,用于表达各个 检索词之间在记录中的顺序与相对位臵关系
三、循环法
又叫综合法、交替法,是把上述两种方法加以 综合运用的方法。可获得较为全面而准确的文献。
第五节 检索技术
检索技术主要指检索词的组配技术和检索表达式的构成规
则。 表达检索词间逻辑关系、位置关系或对检索词书写方 法与范围进行限制的方法。 检索表达式又称检索提问式,主要是运用各种逻辑运算符 号、位置逻辑算符、截词符及其他限制符号等,把检索词 连接起来,确定检索词之间的关系,准确表达检索课题的 内容 例:金融*理论>=2004
文摘的特点与作用
• 确定相关性,即帮助读者判断所检索到的文献是 否合乎需要,从而决定原始文献的取舍。 • 一定程度上代替原文。科技人员阅读了著录较为 详细的文摘之后,大体上就掌握了原文内容要点, 不必再阅读原文了。这一点,对于那些难索取到 原文的“难得文献”尤为重要。 • 大大节省了科技人员查找和阅读文献的时间。 • 帮助克服语言障碍。在一种检索工具中,无论原 始文献是什么语种,其文摘都被译为统一的一种 语言(一般为英语)。
相关文档
最新文档