文献检索与科技论文写作课件_第二章 计算机检索基本原理
合集下载
文献检索课件-第二章
(1)准确
关键词表述准确是获得良好检索结果的必要前提。提
高关键词的准确性,需要注意两个方面:一是避免错别字;
二是避免有歧义的字、词。
• 作为关键词同时应避免最常用的词;
• 即使需要使用这些常用词,需加以限定; • 对于简单、通俗,容易产生歧义的关键词,也应该加一些 限制性的修饰词; • 采用搜索语法组合关键词,也可有效地提高搜索质量。
2.3 计算机检索的技术
2.3.1 布尔逻辑检索 2.3.2 截词检索 2.3.3 字段检索 2.3.4 位置检索 2.3.5 限制检索
2.3.4 位置检索
概括地说,位置检索是一类针对自然语言文本中检索 词之间特定位置关系而进行的检索匹配技术。位置检索允 许用户使用自然语言作为检索入口,并可深入到原文的章、 节、段、句等文本范围内进行信息的查找和匹配。
(4)选择多个关键词 关键词数量太少,不能准确地限定检索范围, 可能会得出大量的检索结果;太多则可能不被搜 索引擎识别,也会影响搜索效果。 每个搜索引擎对关键词数量的要求和态度不 同。
(5)根据网页特征选择查询词
很多类型的网页都有某种相似的特征。 • 例子一,要去“黄山”旅游,想了解一下相关事宜早作准
(2)力求简练
目前的搜索引擎在处理自然语言方面的能力 不是很强,因此在提交搜索请求时,用户最好把 自己的想法提炼成简单的,而且与希望找到的信 息内容主题关联的查询词。
关键词一般不能选没有检索意义的助词、介
词、连词、形容词或副词等,而多选用名词、短 语。
(3)具有代表性
也就是说,关键词要能成为被查询事物的典 型标志,时间、人物、地点一般可以成为增加关 键词代表性的有效限制因素。 另外,多用专业术语和专业名词,专业术语 和专业名词作为关键词所检索出来的结果一般与 搜索的主题相关性很大。
科技文献检索2计算机信息检索PPT课件
提升个人和社会的道德,促进社会文明的发展和进步。
THANKS
感谢观看
总结词
IEEE Xplore是国际知名的学术资源库之一,提供海量英文科技文献资源。
详细描述
IEEE Xplore收录了全球各学科领域的电子期刊、会议论文、技术报告等资源,涵盖了电子工程、计算机科学、 机械工程等多个领域。用户可以通过关键词、作者、标题等字段进行检索,获取相关文献的详细信息。
ScienceDirect
信息伦理的概念
信息伦理是指个体在获取、使用、创造和传 播信息的过程中应遵循的道德规范和原则。
信息伦理的原则
包括尊重他人隐私、尊重知识产权、保障信 息安全、公正合理地使用信息等。
学术规范的定义与要求
学术规范的定义
学术规范是指学术研究过程中应遵循的规则和标准,包 括学术论文的撰写、引用、转载等环节。
学术规范的要求
05
信息检索策略与技巧
信息检索策略制定
明确检索目标
在制定信息检索策略之前,需要 明确检索的目标,包括所需信息 的主题、时间范围、数据类型等。
选择合适的检索工
具
根据检索目标和需求,选择适合 的检索工具,如学术搜索引擎、 数据库、网络资源等。
确定关键词
关键词的选择对于信息检索至关 重要,应从主题、相关领域、专 业术语等方面考虑,以提高检索 的准确性和全面性。
信息检索原理
02
基于信息特征的匹配,通过关键词、元数据等特征的提取和比
较,实现信息的快速定位和获取。
信息检索模型
03
包括布尔模型、向量空间模型、潜在语义索引等,用于描述和
表示信息特征,提高检索准确性和效率。
计算机信息检索的技术与方法
信息抽取技术
THANKS
感谢观看
总结词
IEEE Xplore是国际知名的学术资源库之一,提供海量英文科技文献资源。
详细描述
IEEE Xplore收录了全球各学科领域的电子期刊、会议论文、技术报告等资源,涵盖了电子工程、计算机科学、 机械工程等多个领域。用户可以通过关键词、作者、标题等字段进行检索,获取相关文献的详细信息。
ScienceDirect
信息伦理的概念
信息伦理是指个体在获取、使用、创造和传 播信息的过程中应遵循的道德规范和原则。
信息伦理的原则
包括尊重他人隐私、尊重知识产权、保障信 息安全、公正合理地使用信息等。
学术规范的定义与要求
学术规范的定义
学术规范是指学术研究过程中应遵循的规则和标准,包 括学术论文的撰写、引用、转载等环节。
学术规范的要求
05
信息检索策略与技巧
信息检索策略制定
明确检索目标
在制定信息检索策略之前,需要 明确检索的目标,包括所需信息 的主题、时间范围、数据类型等。
选择合适的检索工
具
根据检索目标和需求,选择适合 的检索工具,如学术搜索引擎、 数据库、网络资源等。
确定关键词
关键词的选择对于信息检索至关 重要,应从主题、相关领域、专 业术语等方面考虑,以提高检索 的准确性和全面性。
信息检索原理
02
基于信息特征的匹配,通过关键词、元数据等特征的提取和比
较,实现信息的快速定位和获取。
信息检索模型
03
包括布尔模型、向量空间模型、潜在语义索引等,用于描述和
表示信息特征,提高检索准确性和效率。
计算机信息检索的技术与方法
信息抽取技术
科技文献检索与论文写作
一个准确度高、有价值的情报资料,如果检索速度慢 了,耽误了时机,就会失去它的应有价值。
a
17
检索的途径与步骤 从文献外表特征
题名途径-Title Index 著者途径-Author Index 号码途径-Number Index
a
18
检索的途径与步骤
从文献内容特征
分类途径 - Classified Index 关键词途径 - Keyword Index 主题词途径 - Subject Index 分类主题途径-Classified subject Index
科技文献检索与论文写作
曹均阔
a
1
报告提纲
第一讲 文献检索 第二讲 论文撰写 第三讲 文稿演示
a
2
1.1 文献检索基本知识
什么是文献 (literature) 文献就是记录着知识的一切载体
三要素 记录的载体 所记录的知识或信息 纪录所采用的文字图象声音符号
a
3
1.1 文献检索基本知识
a
5
1.2 文献检索的目的与意义
文献检索的意义(针对论文写作)
开拓思路,选择题目 确定题目,进一步界定问题 学习他人的研究思路和方法,得到启迪,形成
研究思路 获取具体的素材、知识、技术
a
6
1.3 文献信息源及其特点
一、科技图书
图书出版物
什么是文献检索(literature retrieve)
文献检索就是查找文献
以科学的方法利用专门的工具,从大量 的文献资料中迅速、准确、完整地查找 到文献资料的过程。
a
4
1.1 文献检索基本知识
文献的分类
文献形式:文字性、非文字 文献信息载体:印刷、手写、缩微、机读、视听 文献加工程度:一次、二次、三次 文献公开程度:公开发表、非公开发表 文献资料性质:可分为图书、文物、资料
a
17
检索的途径与步骤 从文献外表特征
题名途径-Title Index 著者途径-Author Index 号码途径-Number Index
a
18
检索的途径与步骤
从文献内容特征
分类途径 - Classified Index 关键词途径 - Keyword Index 主题词途径 - Subject Index 分类主题途径-Classified subject Index
科技文献检索与论文写作
曹均阔
a
1
报告提纲
第一讲 文献检索 第二讲 论文撰写 第三讲 文稿演示
a
2
1.1 文献检索基本知识
什么是文献 (literature) 文献就是记录着知识的一切载体
三要素 记录的载体 所记录的知识或信息 纪录所采用的文字图象声音符号
a
3
1.1 文献检索基本知识
a
5
1.2 文献检索的目的与意义
文献检索的意义(针对论文写作)
开拓思路,选择题目 确定题目,进一步界定问题 学习他人的研究思路和方法,得到启迪,形成
研究思路 获取具体的素材、知识、技术
a
6
1.3 文献信息源及其特点
一、科技图书
图书出版物
什么是文献检索(literature retrieve)
文献检索就是查找文献
以科学的方法利用专门的工具,从大量 的文献资料中迅速、准确、完整地查找 到文献资料的过程。
a
4
1.1 文献检索基本知识
文献的分类
文献形式:文字性、非文字 文献信息载体:印刷、手写、缩微、机读、视听 文献加工程度:一次、二次、三次 文献公开程度:公开发表、非公开发表 文献资料性质:可分为图书、文物、资料
科技论文写作与文献检索 ppt课件
关联型知识 (文献数据库)
对于毕业生做毕业论文来说,做课题前应充分 了解一下本课题国内外的研究现状(即论文的 综述部分),这时应对该课题进行较全面的检 索,包括综述性的文章,要求全;对于该课题 的核心部分,即该课题所要解决的具体问题, 创新的地方,则需要准,技术细节越细越好。
2. 选择检索工具
确定检索途径
(1)分类途径 信息需求:
浏览学科、专业信息,了解专业背景 如:了解分子生物学研究的相关文献
(2)主题途径
课题:序列分析研究的工具和方法 检索标识:关键词 序列分析
方法,工具
(3)著者途径
检索标识:著者姓名
著者姓名的转换:姓在前,名首字母在后。
Jason Smith
Smith J
所以,我们要来学习这个课程。
信息时代的特征
信息爆炸,文献数量迅猛增加
➢ 每年全世界发表科技论文300-400万篇 ➢ 出版图书50万种以上 ➢ 期刊10万种以上 ➢ 专利约50万件 ➢ 标准75万件
信息时代的特征
文献有效期缩短,新陈代谢加快 文献半衰期:基础学科8-10年;化学8.1年; 化工4.8年;地质学为12年;数学为11年; 植物学为10年 ; 物理为5年
(5)机构检索
检索标识:机构名缩写或全称 如:Fudan University
Fudan Univ
引文检索
是指通过被引用文献,来检索文献的相互引证 关系的情况,包括: 某一著者的文献被什么人、什么文章引用? 引用的频率是多少? 某些期刊被文献引用的频率? 某些文献的主题被引用的频率等。
引文检索的作用
学科交叉:环境学、医学、电子机械、化工
文献检索的意义
科研:文献检索是一切科研的前提和前奏,它 贯穿于课题研究的始终。(查新-跟踪)
文献检索与论文写作PPT课件
索书号又称为排架号 反映了某种图书在整个图书组织中的排
列次序和在书库中的具体位置(架位) 组成:分类号+书次号
分类号:按学科分类图书 书次号:同类书的排列
郎燕 .宁夏医科大学图书馆 2019/10/26
28
文献检索基础知识
主题语言
以自然语言为基础 用表达概念的词来提示文献的内容 标识符是文字。
郎燕 .宁夏医科大学图书馆 2019/10/26
11
文献检索的重要性
一个科研人员的时间分配表
写报告 9%
查资料 51%
实验研究 32%
查资料 计划思考 实验研究 写报告
计划思考 8%
“他山之石,可以攻玉”。但并 不是每块石头都可以攻玉的。信 息检索就是来寻找最好石头。
郎燕 .宁夏医科大学图书馆 2019/10/26
高级信息产物:综合分析研究大量一次文献 ,浓缩提炼而成的文献如年鉴,进展,述评, 综述,手册,指南,专著等。
零次文献
未经记录、未形成文字材料的非文献型情报 信息如窍门,信号,经验,书信,手稿, 笔记等
医学文献具有以下特点: 1. 数量庞大 3. 语言障碍增加 5. 知识信息更新快
2. 载体多样化 4. 重复发表、学科交叉与出版分散 6. 时滞问题严重
5
科研选题:启迪思维、避免不必要重复; 研究方案:了解课题的发展历史、现状、动向,别
人成功的经验、失败的教训,最大限度地利用已有 的成果,在此基础上开展新的探索; 研究技术:查阅最新最有效的研究技术; 研究过程:遇到困难、发现新问题; 科研结题:鉴定成果的先进性、科学性和实用性; 成果发表:体现论文的创新性和科学性。
郎燕 .宁夏医科大学图书馆 2019/10/26
列次序和在书库中的具体位置(架位) 组成:分类号+书次号
分类号:按学科分类图书 书次号:同类书的排列
郎燕 .宁夏医科大学图书馆 2019/10/26
28
文献检索基础知识
主题语言
以自然语言为基础 用表达概念的词来提示文献的内容 标识符是文字。
郎燕 .宁夏医科大学图书馆 2019/10/26
11
文献检索的重要性
一个科研人员的时间分配表
写报告 9%
查资料 51%
实验研究 32%
查资料 计划思考 实验研究 写报告
计划思考 8%
“他山之石,可以攻玉”。但并 不是每块石头都可以攻玉的。信 息检索就是来寻找最好石头。
郎燕 .宁夏医科大学图书馆 2019/10/26
高级信息产物:综合分析研究大量一次文献 ,浓缩提炼而成的文献如年鉴,进展,述评, 综述,手册,指南,专著等。
零次文献
未经记录、未形成文字材料的非文献型情报 信息如窍门,信号,经验,书信,手稿, 笔记等
医学文献具有以下特点: 1. 数量庞大 3. 语言障碍增加 5. 知识信息更新快
2. 载体多样化 4. 重复发表、学科交叉与出版分散 6. 时滞问题严重
5
科研选题:启迪思维、避免不必要重复; 研究方案:了解课题的发展历史、现状、动向,别
人成功的经验、失败的教训,最大限度地利用已有 的成果,在此基础上开展新的探索; 研究技术:查阅最新最有效的研究技术; 研究过程:遇到困难、发现新问题; 科研结题:鉴定成果的先进性、科学性和实用性; 成果发表:体现论文的创新性和科学性。
郎燕 .宁夏医科大学图书馆 2019/10/26
文献检索与科技论文写作入门-第2章
参考文献是一篇论文的重要组成部分,参考文献可以提供论文的背景、依据和目的,可以揭示论文起点和 达到的高度,可以方便地将作者的研究成果和他人的研究成果区分开来,避免涉抄袭或者剽窃别人成果之嫌,可以 为读者查阅相关资料提供方便。
一篇论文的形成必定是由许多文献的知识累积而成的,列出参考文献的目的就是让读者可以容易地找到所 参考到的文献,同时尊重他人的知识产权。所列出的参考文献一定是论文中提及的,论文中没有提到的绝对不能 出现。参考文献要按照国家相关规定格式撰写。
图2-2 科技论文的基本结构
2.4.1 论文题目或者标题
论文题目或者标题是文章的篇名,简称文题,位于开篇之首,反映论文主要的内容,体现了论文的研究方向并 明确界定了论文的研究范围。
标题是第一印象也是画龙点睛,好的标题是论文发表成功的一半,拟定标题在很大程序上关系着论文的成败。 一篇论文的标题旨在告诉读者这篇论文在谈论些什么事,间或为其主要研究成果提出暗示,标题就是你论文 的招牌。好的招牌可以引起读者的注意,最起码会让读者有兴趣来阅读你的论文。标题非常重要,有好的内容而 没有好的标题,会使整篇论文的价值大打折扣。 标题必须简明,标题用词一般不超过20个字,字数尽可能少,既能反映论文的主题,又能让读者读懂。标题必 须贴切兼具新鲜感和创意,且能切实反映论文内容。对标题长短及字词精准度的掌握,要有减一字则太少,多一字 则太多的拿捏,要使读者在看到标题时,就能深受吸引并对内容有所期待。 标题可不用完整句子,标题是通过将词汇或术语按照语法规则规范地排成序而写成的。 标题应避免使用不常见的符号,比如化学式、方程式和数学式等,也应避免使用缩略词、非规范性的术语以 及商标名。
2.4.5 正文
正文是科技论文的主体或者核心部分,是作者对科研实践中所获得的数据、结果以及观察到的现象进行综 合、分析、推理并上升到理性认识的文字表述。
一篇论文的形成必定是由许多文献的知识累积而成的,列出参考文献的目的就是让读者可以容易地找到所 参考到的文献,同时尊重他人的知识产权。所列出的参考文献一定是论文中提及的,论文中没有提到的绝对不能 出现。参考文献要按照国家相关规定格式撰写。
图2-2 科技论文的基本结构
2.4.1 论文题目或者标题
论文题目或者标题是文章的篇名,简称文题,位于开篇之首,反映论文主要的内容,体现了论文的研究方向并 明确界定了论文的研究范围。
标题是第一印象也是画龙点睛,好的标题是论文发表成功的一半,拟定标题在很大程序上关系着论文的成败。 一篇论文的标题旨在告诉读者这篇论文在谈论些什么事,间或为其主要研究成果提出暗示,标题就是你论文 的招牌。好的招牌可以引起读者的注意,最起码会让读者有兴趣来阅读你的论文。标题非常重要,有好的内容而 没有好的标题,会使整篇论文的价值大打折扣。 标题必须简明,标题用词一般不超过20个字,字数尽可能少,既能反映论文的主题,又能让读者读懂。标题必 须贴切兼具新鲜感和创意,且能切实反映论文内容。对标题长短及字词精准度的掌握,要有减一字则太少,多一字 则太多的拿捏,要使读者在看到标题时,就能深受吸引并对内容有所期待。 标题可不用完整句子,标题是通过将词汇或术语按照语法规则规范地排成序而写成的。 标题应避免使用不常见的符号,比如化学式、方程式和数学式等,也应避免使用缩略词、非规范性的术语以 及商标名。
2.4.5 正文
正文是科技论文的主体或者核心部分,是作者对科研实践中所获得的数据、结果以及观察到的现象进行综 合、分析、推理并上升到理性认识的文字表述。
科技论文写作与文献检索
期限等
整理版ppt课件
20
5.写作规范
引言注意事项:
➢ 不要介绍人所共知的普通专业知识,或教科书上的 材料;
➢ 不要推导基本公式;
➢ 不要对论文妄加评论,夸大论文的意义;
➢ 避免使用自夸性词语:
➢ “填补了一项空白”、“达到了什么级先进水平”、“前 人从未研究过”等;
整理版ppt课件
6
科技论文写作的国家标准
引言-1 正文-2
主体 部分
结论 致谢 参考文献
2.1
2.2
2.3
2.3.1
…
2.3.2
…
…
图1(或图2-1)
图2(或图2-2)
…
表1(或表2-1)
表2(或表2-2)
…
2.3.2.1 2.3.2.2 …
整理版ppt课件
7
科技论文写作的国家标准
期刊发表的科技论文一般只包括8个部分:
“观察”、“调查”等 ➢ 化学分子式、公式等不可作为关键词 ➢ 未被普遍采用或在论文中未出现的缩写词、未被专业公认的缩写
词,不能作为关键词 ➢ 论文中提到的常规技术,内容为大家所熟知,也未加探讨和改进
的,不能作为关键词 ➢ 每篇论文标引的关键词一般为3~8个,最好不要超过10个。 ➢ 英文关键词:中英文关键词相互对应,且数量完全一致
前置 部分
题名 作者和机构 关键词 摘要
主体 部分
引言 正文 结论 参考文献
整理版ppt课件
8
5. 写作规范
5.1 题目: ➢ 可以看到全文的精髓
➢ 主要内容 ➢ 所属的分支学科 ➢ 目的、方法和结果
整理版ppt课件
9
5. 写作规范
5.1 题目:
整理版ppt课件
20
5.写作规范
引言注意事项:
➢ 不要介绍人所共知的普通专业知识,或教科书上的 材料;
➢ 不要推导基本公式;
➢ 不要对论文妄加评论,夸大论文的意义;
➢ 避免使用自夸性词语:
➢ “填补了一项空白”、“达到了什么级先进水平”、“前 人从未研究过”等;
整理版ppt课件
6
科技论文写作的国家标准
引言-1 正文-2
主体 部分
结论 致谢 参考文献
2.1
2.2
2.3
2.3.1
…
2.3.2
…
…
图1(或图2-1)
图2(或图2-2)
…
表1(或表2-1)
表2(或表2-2)
…
2.3.2.1 2.3.2.2 …
整理版ppt课件
7
科技论文写作的国家标准
期刊发表的科技论文一般只包括8个部分:
“观察”、“调查”等 ➢ 化学分子式、公式等不可作为关键词 ➢ 未被普遍采用或在论文中未出现的缩写词、未被专业公认的缩写
词,不能作为关键词 ➢ 论文中提到的常规技术,内容为大家所熟知,也未加探讨和改进
的,不能作为关键词 ➢ 每篇论文标引的关键词一般为3~8个,最好不要超过10个。 ➢ 英文关键词:中英文关键词相互对应,且数量完全一致
前置 部分
题名 作者和机构 关键词 摘要
主体 部分
引言 正文 结论 参考文献
整理版ppt课件
8
5. 写作规范
5.1 题目: ➢ 可以看到全文的精髓
➢ 主要内容 ➢ 所属的分支学科 ➢ 目的、方法和结果
整理版ppt课件
9
5. 写作规范
5.1 题目:
文献检索论文写作 PPT课件
正文的立意 材料的要求
★ 必要而充分 ★ 真实而准确 ★ 典型而新颖
2019/9/16
29
正文的写作要求及注意事项
1. 论点明确,论据充分,论证合理; 2. 事实准确,数据准确,计算准确,语言准确; 3. 内容丰富,文字简练,避免重复、繁琐; 4. 条理清楚,逻辑性强,表达形式与内容相适应; 5. 不泄密,对需保密的资料应作技术处理。
笔者提出一种可以用于消除变频振动的新方法,即采用液压式固有频率 可控动力消振器来跟踪振动频率的变化,使之在变频条件下达到良好的消振 效果。实验表明,这是一种很有前途的消振方法。(本研究的成果及其意义)
2019/9/16
27
7.6 正文
• 正文即论证部分,是论文的核心部分。论文的论点、 论据和论证都在这里阐述,因此它要占主要篇幅。
结构形式具有一定的规律,形成了一套独特的结构 程序
ISO: 《文献工作——科学报告编写格式》(1983年)
我国: 《科学技术报告、学位论文的编写格式》(GB7713-87) 《文献编写规则》(GB6447-86) 《文后参考文献著录规则》(GB7714-87)
2019/9/16
10
科技论文写作的国家标准
国家标准GB7713-87规定的科学技术报告、学 位论文和学术论文的编写格式,指明报告与论 文由以下两大部分构成: (1)前置部分 (2)主体部分
2019/9/16
11
科技论文写作的国家标准
前置 部分
封面、封二 题名页 序或前言(必要时)
摘要
关键词 目录页 插图或附表清单 符号、缩略语等注释表(必要时)
2019/9/16
22
编写关键词的注意事项
较定型的名词,多是单词和词组,用原形尽量不用缩略语 无检索价值的词语不能作为关键词,如“技术”、“应用”、“观
文献检索的基本原理课件
深度学习在文献检索中的应用
深度学习技术
利用神经网络和深度学习算法,对文献进行 自动分类、聚类和信息抽取等操作,提高文 献检索的精度和效率。
深度学习在文献检索中的优 势
能够自动学习和优化模型,对复杂和非结构化的文 献信息进行处理,揭示文献中的深层次关联和语义 关系。
深度学习在文献检索中的 挑战
需要大量的训练数据和计算资源,同时需要 专业的技术人员进行模型设计和优化。
文献检索的分类
基于检索内容的类型,文献检索 可以分为文本检索和数据检索。
文本检索是指对文本信息进行检 索,而数据检索则是对数值数据
进行检索。
另外,根据检索的方式和手段, 文献检索还可以分为手工检索和
自动检索。
文献检索的步骤
01
02
03
04
05
确定研究主题和 目标
选择合适的数据 库和搜索…
制定检索策略
,以减少文本的冗余信息。
词干提取
02 对文本进行词干提取,将词汇简化为其基本形式,以
提高匹配的准确度。
词性标注
03
对文本进行词性标注,以识别不同词汇的语法角色,
如名词、动词、形容词等。
特征提取
01
02
03
关键词提取
从文本中提取关键词,以 表征文本的主题和内容。
主题模型
利用主题模型对文本进行 主题分类,将文本映射到 预先定义的类别中。
03
混合匹配算法
结合基于字符串的匹配算法和基 于语义的匹配算法,以提高匹配 的准确度和召回率。
04
文献检索的应用
搜索引擎
原理
搜索引擎基于网络爬虫技术,从互联网上抓取海量网页信息,建立 索引并实时更新,方便用户通过关键词搜索快速找到所需内容。
计算机文献检索是随着计算机的出现而发展起来的计算机课件
总结:在一个复杂的检索式中,不仅可以有多个运算符, 也可以使用括号来指定运算的优先顺序、以及体 现概念的完整性。
❖ 本章主要内容
第一 节 计算机检索概述 第二节 计算机检索原理 第三节 计算机检索技术 第四节 计算机检索步骤
计算机文献检索是随着计算机的出 现而发展起来的计算机课件
第一节 计算机检索概述
❖计算机信息检索的特点 ❖计算机信息检索的定义 ❖计算机信息检索系统的类型 ❖计算机信息检索系统的构成 ❖数据库
义基本一致.
例“金属” metal* metal 、metals、metaled、metalist等。 L利用截词检索时,注意截词的部位,一定不能截的太深,否则误
检率会很大. “西北农林?”就比“西北?”效果好
计算机文献检索是随着计算机的出 现而发展起来的计算机课件
❖ 字段限定检索功能
将检索词限定在某一字段中,检索时,计算机只对限定字 段进行运算,以提高检索效果。常用的检索符号有: in、=、<、>、≤、≥ 例: English in la ; py≥1992
例:检索“小麦中氨基酸的测定” (determination of amino acids in wheat)
检索式:determination with amino acids with wheat 词间位置算符在不同系统中的使用方法不同: L在Dialog 系统中主要位置算符及其使用方法 L在SPIRS系统中,位置算符只使用两个:
physicochemistry(物理化学)等。
注:在SPIRS系统和中刊库中无
L后截断 (前方一直检索) chem * chemical(化学制品)
chemism(化学机理)、 chemomorphosis(化学诱变)、
❖ 本章主要内容
第一 节 计算机检索概述 第二节 计算机检索原理 第三节 计算机检索技术 第四节 计算机检索步骤
计算机文献检索是随着计算机的出 现而发展起来的计算机课件
第一节 计算机检索概述
❖计算机信息检索的特点 ❖计算机信息检索的定义 ❖计算机信息检索系统的类型 ❖计算机信息检索系统的构成 ❖数据库
义基本一致.
例“金属” metal* metal 、metals、metaled、metalist等。 L利用截词检索时,注意截词的部位,一定不能截的太深,否则误
检率会很大. “西北农林?”就比“西北?”效果好
计算机文献检索是随着计算机的出 现而发展起来的计算机课件
❖ 字段限定检索功能
将检索词限定在某一字段中,检索时,计算机只对限定字 段进行运算,以提高检索效果。常用的检索符号有: in、=、<、>、≤、≥ 例: English in la ; py≥1992
例:检索“小麦中氨基酸的测定” (determination of amino acids in wheat)
检索式:determination with amino acids with wheat 词间位置算符在不同系统中的使用方法不同: L在Dialog 系统中主要位置算符及其使用方法 L在SPIRS系统中,位置算符只使用两个:
physicochemistry(物理化学)等。
注:在SPIRS系统和中刊库中无
L后截断 (前方一直检索) chem * chemical(化学制品)
chemism(化学机理)、 chemomorphosis(化学诱变)、
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
倒排文档:把顺排文档中的标引词抽出,按标引词的
字母顺序依次排列而成的文档。倒排文档实际上相当 于印刷型检索工具中的辅助索引。 索引文档 倒排文档
基本索引文档:后缀倒排索引文档
辅助索引文档: 前缀倒排索引文档
存取号文档
倒排文档与顺排文档的区别: 顺排文档以完整记录作为处理和检索的单元,倒排文档 以记录中的字段作为处理和检索的单元。
2)字段:是文献记录的基本单元。一条记录有若干个字
段,一个字段有时还可分为几个子字段(Subfield)。在 书目数据库中,一条记录应包含原始文献的篇名、作者、 刊名、出版时间、分类号、文摘、主题词等字段。 数据库的字段可分为基本字段和辅助字段: 基本字段主要是描述文献内容特征的字段,如篇名、文 摘、叙词、自由标引词等字段; 辅助字段主要是描述文献外表特征的字段,如著者、机 构名称、语种、文献来源等字段。
作用:可缩小检索范围,提高查准率。
要求:运用时,把出现频率低的检索词置于“与”的左 端,可使否定答案尽早出现,节省机时。
A
B
A and B;A*B
1)Boolean
Search(布尔逻辑检索)
• 逻辑“或”:OR;or;+
定义:表示两个概念的并列,即被命中的文献含有两词之 一或同时包含两词。 作用:可扩大检索范围,提高查全率。 要求:组构检索式时,可将估计出现频率高的词置于“或” 的左面,可使选中的答案尽早出现。
AN=:Dialog存取号(Dialog Access Number)。 在一个数据库中,每条记录只有一个存取号,两 者一一对应。 /TI:篇名字段(Title)。 AU=:作者字段(Author)。 CS=:作者所在单位字段(Corporate Source)。 SO=:文献来源字段(Source Publication)。包括 期刊名称、年,卷、 期、页等,或包括会议事项。 PY=:出版年份(Publication Year)。 CO=:期刊代码字段(CODEN)。 LA=:语种字段(Language),表示原文的语种。
A
B
A or B;A+B; computer or robot
1)Boolean Search(两个概念的排除,即被检索文献在含有检索词 A而不含有检索词B时才被命中。
作用:用于排斥关系的组配,即从原来的检索范围排除不 需要的概念或影响检索结果的概念,提高查准率。
• computer/TI,AB:表示在TI和AB字段 中检索computer。 • AU=Wang fang and PY > = 2000:表示 查找王芳于2000年以来发表的文章。
5)禁用词(stop words):
以下单词作为检索词时,系统将自动忽略并用空格取代之进 行检索。 also、an、and、are、as、be、been、between、both、 but、by、did、from、has、have、into、not、of、or、should、 some、such、than、that、the、their、them、themselves、 these、they、this、those、through、to、using、were、when、 which、with、would
AN= DIALOG NO:03883137 EI Monthly NO;EIP94031231114 /TI Title:Laser/Light imaging for underwater use AU= Author:Caimin,Frank M. SO= Source:Sca Technology,V.34 NO.12 Dec.1993.P.22--27 PY= Publication Year:1993 CO,SN=CODEN:SEATAD ISSN:0993-3651 LA= Language.English DT,TC=Document Type:JA(Joumal Article);Treatment code X(Experimental); /AB Abstract:Conventional undersea imaging limitationsave Pointed out and several imaging systems are described , in particular the range galed imaging , field—limited imaging , and 3-D Structured inter ferometric illumination systems. /DE Description: * Imaging techniques: Laser application; engineering;Vision /ID Identifiers:Laser light imaging;Underwater technology CC= EI Classification Codes;
位置算符
(N)与(nN)—— (N)算符是“near”的缩写,表示此算符两边的检索词 必须紧密相连,此间不允许插入其他单词或字母,但词序 可以颠倒,而(nN)算符则表示在两个检索词之间最多可 以插入n个单词,且词序可以颠倒。
如: economic(2N)recovery,可以检出:economic recovery, recovery of the economy, recovery from economic troubles。
2)源数据库:存储事实、数值、概念、图形等非文献数
据的数据库
• 数值数据库:提供以数值方式表示信息的一种源数据
库,其检索结果可能只是单一的值或一组数据。数值数 据库能提供产品价格等数值信息,也可提供物质的物理 化学性质、结构、频谱等数据。 理的各种事实,如机构、人物、产品、资源等数据。常 见的有指南数据库、产品数据库等。 词典数据库、语料库等。
3)截词检索:*;?
• 定义:允许检索词有一定范围的变化。检索时将 截词符置于检索词允许变化的部位,只要检索词 和标引词的词干相同即为命中文献。 • 作用:减少检索词的输入量,扩大检索范围 ,提 高检索效率。 • 注意:使用截词检索必须慎重,一是词干不要太 短,以免检出许多与原来检索词不相关的文献记 录,二是英美不同拼法的词,如变化字母数不同 则不能使用中间截词检索,必须详细写出并用OR 组配后输入。
• 事实数据库:自原始文献或社会调查中获得并经过处
• 概念数据库:库内存储各种名词术语或语言资料,如
• 多媒体数据库:将各种类型的信息集中在CD—ROM
上,是视频、音频、文字、图像、动画等的集合体,如 一些互动性的百科全书。
1.2.3数据库的构成
1)记录:是数据库的基本单元,是对某一实体属性 进行描述的结果。一个数据库由若干条记录构成。 每条记录相当于文摘型或题录型检索刊物的一条 著录款目。 文献记录格式(以Dialog系统中EICompendexPlus数据 库为例)如下:
2 计算机检索的基本原理与技术
2.1检索原理
检索提问 匹配运算
命中文献
数据库
2.2检索功能
• • • • • • 布尔逻辑检索功能 词间位置检索功能 截词检索功能 限定字段检索功能 禁用词 其他功能
1)Boolean Search(布尔逻辑检索)
• 逻辑“与”:AND ;and;*
定义:用于交叉概念或限定关系的组配,即被命中的文 献必须同时含有检索项A和B。
注意:往往会把切题的文献给丢掉,运用时要非常慎重。
A
B
A not B;A-B;
2)位置检索:
• 表达检索词之间位置关系的一种检索 • 位置算符
位置算符
(W)与(nW)—— (W)算符是“word”或“with”的缩写,表示此算符两 边的检索词词序不能颠倒,两个词之间可有一个空格、或 一个标点符号、或一个连接号; (nW)则表示两个检索词之间最多嵌入n个词。 例如,检索“CD-ROM” 可用 CD(W)ROM; 而用price(2W)inflation , 则可能检出price levels and inflation。
1.2.2类型 1.2.3构成
1.2.2文献数据库类型(据数据库所含信息内容
)
1)文献数据库:存储文献型数据,如一次文献或二次文
献 • 书目数据库(二次文献数据库):包括各种文摘、索引、 目录。存贮某个领域原始文献的书目。组成记录的 字段一般有文献的标题、作者、出处、文摘、主题 词等。 • 全文数据库:存贮文献全文或其中主要部分的数据库。 能使用户获得最终的一次文献。
• 分类: 按截词位置:前截断;后截断;中间 截断 按截词方式:无限截词;有限截词; 中间截词
前截断:将截词符放在词根前边,后方一致,表 示在词根前方有有限个或无限个字符。 如*magnetic 能够检出含有magnetic、 ctromagnetic、paramagnetic等词的记录。 后截断:将截词符放在词根后边,前方一致,表 示在词根后方有有限个或无限个字符。 如metal*,能够检出含有metal、metals、 metaled、metalist等词的记录。 中间截断:将截词符放在词的中间,词的前后方 一致。 如colo*r,能够检出含有colour、color的记录。
无限截词:指允许截去的字符数量不限,也称开放式截 断。如前截断和后截断 有限截词:允许截去有限个字符。如dye***(n*) ,能 够检出含有dyer、dye、dyed、dyeing等词的记录。 中间截词:如中间截断。
4)限定字段检索:
• 定义:将检索过程限定在记录的特定的 字段中进行。 • 作用:缩小或约束检索结果 ,提高检索 效率。 • 检索符号:in、=、<、>、 > = 、 < =等。
位置算符
(X)与(nX)——
(X)算符要求其两边的检索词完全一致,并以指定的 顺序相邻,中间不允许插入任何单词或字母; (nX)算符则表示两边的检索词之间最多可以插入n个单 元词,但两边的检索词也必须一致。 词位置检索是很有用的检索技术,它可以规定词组中各 词的前后次序,防止错误的搭配和输出;它也可以替代词组 中的禁用词。DIALOG系统有9个禁用词:AND、FOR、 THE、AN、FROM、TO、BY、OF、WITH,如果在编制 检索式时碰到禁用词,就要用词位置算符代替它。