文献信息检索ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺点:
1、不规范,有大量的同义词、近义词,影响查
全率和查准率。如“高速公路” 有”highway”“autoroute”,“freeway”, “speedway”,“thruway”等,“图形图像” 和“图形图象”同义,检索时如果不能全部记 住,会出现漏检;而“cell”既指细胞又指电 池,检索时会出现误检。
AB
用符号“or”或“+”表示,其逻辑表达式为: A or B 或 A+B
其意义为检索记录中凡含有检索词A或检索词B, 或同时含有检索词A和B的,均为命中文献。
例:
2、逻辑“与”
————————————————
AB
用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B
其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
分类途径
根据分类语言进行检索的途径,它是一种按学科范 畴和体系来划分事物的检索语言,以分类表的形 式体现。国内文献分类一般使用《中国图书馆图 书分类法》(简称《中图法》).(P30) 专利使用《国际专利分类法》(IPC)分类。国外 分类法很多,比较常见的有《美国国会图书馆分 类法》(LC)、《国际十进分类法》等。
其目的在于解决科研、生产中的关键问题,这类需求不 强调查询的文献数量,但需要查得的文献具有较强的专 指性。
学习型:需要了解掌握某一领域的研究动向、研究成果
或相关知识,要求查到的文献具有新颖及时的特点,而 对查全率和查准率不一定有很高的要求。
2、选择检索工具
全面性:即是否与课题相关的内容都要检索,包括的工具有 一次文献和二次文献数据库,以及网上相关资源等。
针对性:保证选择的检索工具与检索课题的学科一致
专业性:即选择与学科专业相关的工具,特别注意跨学科领域内容 权威性:尽量选用该学科的权威性检索工具
3、确定检索词
❖ 提取检索词时要注意切分句子或词组、删除多余词、替换 模糊词、补充合理逻辑 。选择规范化的检索词;使用各学 科在国际上通用的、国外文献中出现过的术语作检索词; 找出课题涉及的隐性主题概念作检索词;选择课题核心概 念作检索词;注意检索词的缩写词、词形变化以及英美的 不同拼法;联机方式确定检索词。 例:土豆——马铃薯,世界贸易组织——World Trade Organization、 WTO
分类途径
中图法分类体系
A 马克思主义、列 宁主义、毛泽东思想 B 哲学 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教 育 、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学
P 天文学,地球科学 Q 生物科学 R 医药、卫生 S 农业、林业 T 工业技术总论 TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 治金工业 TG 金属学、金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 动力工程
2、词汇量大,给存取带来困难。
由于关键词是未经人工干预的自然语言,符合 大众的检索习惯,大多数检索系统都有关键词 检索。
题名途径:根据文献名称包括书名、刊名、 论文篇名等来检索文献的途径。 责任者途径:指根据已知文献著者来查找文 献的途径, 包括个人著者和机关团体。 引文途径:从被引文献去检索引用文献的检 索途径。
❖ 考虑相应的同义词。对同一事物,人们对其有不同 的称呼和表达,如“计算机”又称“电脑”、“图 形图像与图形图象”要用逻辑或进行检索。
❖ 上位词、下位词:检索词有上位词下位词之分,一般来说, 如果检索上位词,要同时检索下位词,如在EBSCO中,我
们检索“芭蕾舞服装(ballet costume)”,必须同时 检索“芭蕾舞裙(ballet skirt)”、“芭蕾舞鞋(toe
第二章 文献信息检索技术
第一节 文献信息检索技术
(一)检索方式 1、命令式检索:用逻辑运算符、位置算符及其他检索符号,
把不同的检索词连接起来进行检索的一个种方式,如数据库 中的专业检索。适用于专业人员。 2、菜单式检索:一种通过窗口菜单进行检索的简单、易操作 的检索方式。现各数据库的高级检索、初级检索都属于菜单 式检索,是最常用的检索方式,适用于一般读者检索。 3、导航检索:点击检索界面上的超链接进行检索,也叫超链 接检索。
(四)、禁用词
❖ 在绝大多数的检索系统中,介词、代 词、等单独使用无实际意义的词以及 使用频率很高的词不能作为检索词, 被称为禁用词,如an,and,by, for,from,of,the,to,with等等。
(五)、限制检索(检索途径)
在命令式检索中,通常要用字段代码来 限定检索的字段,不同的数据库使用的字段 代码略有不同。
第二节 检索途径与检索语言 P25-26
1 检索途径 (检索项,检索点、检索入口)
分类途径 主题途径 关键词途径 题名途径 责任者途径 引文途径
❖ 2、检索语言:用来描述检索提问主题、学 科分类等内容的语言,它和检索途径是相对 应的。(P27) 常见的检索语言有主题语言和 分类语言。
题名
检 索
❖ 注意:优先级为not, and, or,用括号保证优先 权;运算符两侧必须各有一个空格(半角)。
❖ 实例:
❖ 膜法提取甘露醇中的微生物污染控制 (膜法+膜集成)*甘露醇*(细菌污染+微生物污 染)
写出以下检索词,并用上述布尔逻辑符写出检 索式:
固氮和固碳的生化机理或基因机制
(二)、位置算符
在检索词之间使用,规定算符两边的检索词出现在 记录中的的位置,以提高检准率。比如:如果不 用with位置算符,则词组可能被系统识别为逻辑运 算,protein disulfide isomerase(蛋白质二硫 键异构酶)可能被识别成“protein AND disulfide AND isomerase”。尤其是出现数字等 符号时不易识别成词组。
表述文献外表 特征的语言
责任者 代码 引文
语
言ห้องสมุดไป่ตู้
的
分类法
类 型
表述文献内容 特征的语言
主题法
主题途径 主题词是规范化的检索语言,主题词检索途径的 检索系统都有相应的主题词词表,利用主题词途 径标引或检索文献时,一定要先查对词表,再进 行标引或检索。国内中文主题词表一般采用《中 国主题词表》或《中国图书馆图书分类主题词 表》,英文文献检索系统一般采用《美国国会图 书馆标题表》 。
❖ 前方一致:检出文献的相关字段前方和检索 词一致,如:检索词为“世界贸易组织”, 可检出《 世界贸易组织概论 》,检不出 《 大学世界贸易组织教程 》
❖ 精确检索:表示检索词和检出文献的相关字 段完全一致,如检索词为“世界贸易组织”, 可检出《 世界贸易组织》,检不出《 大学世 界贸易组织教程 》和《 世界贸易组织概论 》
例: 苯胺的烷基化反应催化剂研究 检索式:苯胺*烷基化*催化剂 (37篇) 词表——烷基化 F 甲基化 乙基化 修订后检索式:
苯胺*(烷基化+甲基化+乙基化)*催化剂 (61篇)
4 选 择 检 索 途 径
5、制定检索式
检索式:又称检索策略,由检索词和各种布尔 逻辑算符、位置算符、截词算符等组成。在命 令式检索中可根据检索式进行高级组配检索。
❖ 检索词的词干后(前)加一个“?”(有的系统 为加*),表示词干后(前)可以有任意个字符。
如“apple?”可代替(apple + apples + apple-pie + applesauce);
❖ 由于文字结构方面的原因,中文检索系统极 少使用通配符进行截词。
❖ 椰壳制备高比表面积活性炭 ,椰壳可能表达 为椰子壳,可以用“(椰子壳十椰壳)*高比 表面积活性炭 ”,或直接用“椰*高比表面 积活性炭 ”
❖ 模糊检索:包含关系,检索词可以在相关字 段的任何位置。这是最常见的匹配方式。
❖ 在许多检索系统中(CNKI 、万方、搜索引 擎),精确检索表示包含关系,即检索词不 被切分,包含在相关字段的任何位置,与前 述的模糊检索相同。模糊检索表示自动分词 检索。
第四节 检索步骤
分 析 检 索 课 题
选 择 工 具
两个词在同一规范词单元内出现,位置不固定。
(三)、通配符(截词检索)
截词检索,就是将截词符如“*”、“?” 等等, 放在检索词中检索者认为合适的地方截断,用截断 的词的一个局部进行检索,并认为凡满足这个词局 部中的所有字符(串)的文献,都为命中文献。多用 于外文检索,因为西文语言的特点是构词灵活,在 词干上前缀或后缀就可以派生出许多新的词汇。
六 加权检索
❖ 是一种定量检索技术:在每个提问词后面给 定一个数值表示其重要程度,这个数值称为 权,在检索时先查找这些词在记录中是否存 在,然后计算存在的权值总和,权值之和达 到或超过给定阈值,该记录即为命中记录。
七 聚类检索
❖ 把相似度较高的文献集中在一起形成一个个 的文献类的检索技术。
八、匹配方式 P37-38
shoe)”,才能得到满意的查全率。当然,如果下位词太 多,则不能全部选择。如果下位词检索效果不理想,也可 以在上位词中检索。海南黄花梨病虫害防治,没有专门的 书,但在《景观植物病虫害防治 》一书中有一节专门论述。
❖ 不同外来词译法的变化:如:“欧几里德”、“欧几里 得”、“欧基里德”、“欧几理德 ”、“Euclid”。 “aspirin”、“阿斯匹林”, “阿司匹林”, “乙酰水 杨酸”。
❖ 检索式可一次完成,也可分步完成,检索 式的表达对一个课题不是唯一的,有多种 选择、组配、限定。
例1:查找“科技英语写作”的文献 (1)分析课题,确定学科范围; (2)选择数据库:CNKI (3)确定关键词:科技、英语、写作 (4)检索式:科技*英语*写作
例
3、逻辑“非”
————————————————
AB
用符号“not”或“-”,其逻辑表达式为: A not B 或 A-B
其意义为:检索记录中含有检索词A,但不能 含有检索词B的文献,才算命中文献。 例
逻辑提问式(布尔逻辑组配):
❖ 计算机检索的基本技术,主要通过逻辑运算 符(布尔算符)“与(and,*)”、“或(or,+)”、 “非(not,-)”等将检索词连接的提问式。
常见的位置算符如下:
位置算符
with
near
field subfiel
d link
表示方法 (W)或()
(nW) (N) (nN) (F) (S)
(L)
说明 两个词在命中结果中相邻(可有空格、标点和连字 符),词序不得颠倒。 两个词之间最多可夹入n个词,词序不得颠倒。 两个词在命中结果中相邻,词序可颠倒。 两个词之间最多可夹入n个词,词序可颠倒。 两个词在同一字段出现,位置不固定。 两个词在同一子字段出现,位置不固定。
TL 原子能技术 TM 电工技术 TN 无线电电子学、
电讯技术 TP 自动化技术、计
算技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程 U 交通运输 V 航空、宇宙飞行 X 环境科学 Z 综合性图书
关键词途径
❖ 以关键词进行检索的方式,关键词又称
自由词,是从文献的题名、摘要和正文 中抽出的具有实际意义的非规范化自然 语言。 ❖ 其优点是: A、简捷,降低对检索人员的要求; B、易用,易于计算机编制和检索; C、及时,能及时更新词汇。
❖ 根据检索目的选词。如“个性化推荐系统”,我们 要弄清是电子商务中的推荐系统,还是其他方面的 个性化推荐系统。
❖ 合理切分句子或词组,切不可用句子作为检索词, 尽量不用短语作检索词。一些非规范的词组也要进 行合理切分。如:红辣椒,可切分为红*辣椒,因为 可能会检出红色辣椒。但活性炭则不可切分为活性* 炭,因为这是不可分的规范词。
确 定 检 索 词
编 制 检 索 式
显
获
示
取
及 判
是
断
检
原 始 文
索
献
文
输
献
出
阅 读
满意
检 索
和
结
分 析
果
结
评
果
价
否
不满意
1、课题分析
普查型:需要全面收集有关某一主题的文献资料,如
以课题开题、教材编写等。具有普查、回溯的特点,要 求尽可能高的查全率。
攻关型:需要收集有关某一主题某一特定方面的文献,
第三节 计算机信息检索技术
(一)逻辑运算符 ❖ 逻辑运算符又称布尔算符,是用来表达各检
索词之间的逻辑关系的符号。 ❖ 逻辑运算符有“与”、“或”、“非”三种,
分别用“and” 、“or”、 “not”来表示, 也可以用 “*” “+” “-”来表示。
1、逻辑“或”——————— ——————————