计算机信息检索的基本策略讲义.pptx
合集下载
第5章-1-计算机信息检索策略与技巧.ppt
一氧化碳氢化 1、氢化热 2、氢化催化剂 3、氢化动力学 4、甲烷化 5、甲烷化热 6、甲烷化动力学 7、甲烷化催化剂 8、燃料气体制造
(二)注意检索词的词义变化
1、汉词与英语等西方语言的词汇相比较:
◆ 汉词的字与词界线比较模糊,一个字也许就是 一个词,英语基本上没有这种现象。 ◆ 汉词无固定的词头、词尾和性、数的变化。而 英语构词时这种情况很多。 ◆ 汉语的构词一般与语义有关,一个词后加上一 个字就派生出另一个新的词,而英语的情况与此有 很大的不同。
取消:冷、温二词 深化处理:
增加:挤压对象的词。如塑料、金属等词或其他如 有助于限制范围的有效实词如:挤压时用的润滑材料: 石墨。。。。
●运用主题概念所表达的上位或下位概念
课题(1)“加氢裂化防污垢的开发与应用研 究”,将“加氢裂化”与“防污垢”组配, 结果不理想。概念向上位“石油加工与石油 炼制”的概念扩大,再与“防垢剂”组配, 完成了课题的要求。
响”、“效率”等等。 2、词义延伸过多的词,如:
“制造”——制备、生产、加工、工艺等 “提炼”——精炼、提取、萃取、回收、利用等
3 .少用无法定性定量的词
• 冷、温复合挤压连续成形技术 • (冷挤压 or 温挤压) and 连续 and 成型 • (冷or 温) and挤压and 连续 and 成型 • 冷= 常温以下 • 温=45`C ~ 600`C or 800`C 处理结果:
● 多主题概念的课题应以“简”为主
1、课题有A、B、C、D、E、F等主题概念进行组配, 其中“C”词建库人员未从原始文献中挑选出来作 为标引词时,该“C”主题词则表现为零,则整个 检索式等于零。
2、课题“利用基因工程的手段提高植物中淀粉含 量”
基因工程*淀粉
(二)注意检索词的词义变化
1、汉词与英语等西方语言的词汇相比较:
◆ 汉词的字与词界线比较模糊,一个字也许就是 一个词,英语基本上没有这种现象。 ◆ 汉词无固定的词头、词尾和性、数的变化。而 英语构词时这种情况很多。 ◆ 汉语的构词一般与语义有关,一个词后加上一 个字就派生出另一个新的词,而英语的情况与此有 很大的不同。
取消:冷、温二词 深化处理:
增加:挤压对象的词。如塑料、金属等词或其他如 有助于限制范围的有效实词如:挤压时用的润滑材料: 石墨。。。。
●运用主题概念所表达的上位或下位概念
课题(1)“加氢裂化防污垢的开发与应用研 究”,将“加氢裂化”与“防污垢”组配, 结果不理想。概念向上位“石油加工与石油 炼制”的概念扩大,再与“防垢剂”组配, 完成了课题的要求。
响”、“效率”等等。 2、词义延伸过多的词,如:
“制造”——制备、生产、加工、工艺等 “提炼”——精炼、提取、萃取、回收、利用等
3 .少用无法定性定量的词
• 冷、温复合挤压连续成形技术 • (冷挤压 or 温挤压) and 连续 and 成型 • (冷or 温) and挤压and 连续 and 成型 • 冷= 常温以下 • 温=45`C ~ 600`C or 800`C 处理结果:
● 多主题概念的课题应以“简”为主
1、课题有A、B、C、D、E、F等主题概念进行组配, 其中“C”词建库人员未从原始文献中挑选出来作 为标引词时,该“C”主题词则表现为零,则整个 检索式等于零。
2、课题“利用基因工程的手段提高植物中淀粉含 量”
基因工程*淀粉
信息检索的策略.ppt
两种类型。 主要用于英文数据库的检索。
2019/10/11
11
2.5.3计算机信息检索的技术
(1)后方截词
也称前方一致检索。将截词符放在一串字符的 后面,用以表示以相同字符串开头,而结尾不 同的所有词。
例1:comput* 可检出computer, computing,computers,computation 等。
(1)字段限制 (2)二次检索
2019/10/11
24
2.5.3计算机信息检索的技术
4.限制检索 (1)字段限制 字段限制可针对特定年代、特定类别、特定检索
点等做限制,主要分为两种类型: 基本索引字段限制检索 辅助索引字段检索
2019/10/11
25
2.5.3计算机信息检索的技术
2019/10/11
29
2.5.4 检索步骤
1、分析研究课题 2、选择检索系统 3、确定检索词,构造检索式 4、检索的实施,查找信息线索 5、索取原始文献
如:如“刘红光”/作者字段 AND“江苏大学”/ 机构字段NOT“汽车”/关键词字段;
如:“激光加工” NOT “激光切割”
2019/10/11
8
2.5.3 计算机信息检索的技术
布尔逻辑检索图示
2019/10/11
9
1、布尔逻辑检索
布尔逻辑算符的优先级顺序为 NOT,AND,OR。
另外可以使用括号改变它们之 间的运算顺序。
1.布尔逻辑检索 (3)逻辑“非”(用“NOT”或“-”表示) 逻辑“非”是一种排斥关系的组配,用于在某
一记录集合中排除含有某一概念的记录。
逻辑“非”的基本作用是缩小检索范围,起到 减少输出文献量的作用。
2019/10/11
11
2.5.3计算机信息检索的技术
(1)后方截词
也称前方一致检索。将截词符放在一串字符的 后面,用以表示以相同字符串开头,而结尾不 同的所有词。
例1:comput* 可检出computer, computing,computers,computation 等。
(1)字段限制 (2)二次检索
2019/10/11
24
2.5.3计算机信息检索的技术
4.限制检索 (1)字段限制 字段限制可针对特定年代、特定类别、特定检索
点等做限制,主要分为两种类型: 基本索引字段限制检索 辅助索引字段检索
2019/10/11
25
2.5.3计算机信息检索的技术
2019/10/11
29
2.5.4 检索步骤
1、分析研究课题 2、选择检索系统 3、确定检索词,构造检索式 4、检索的实施,查找信息线索 5、索取原始文献
如:如“刘红光”/作者字段 AND“江苏大学”/ 机构字段NOT“汽车”/关键词字段;
如:“激光加工” NOT “激光切割”
2019/10/11
8
2.5.3 计算机信息检索的技术
布尔逻辑检索图示
2019/10/11
9
1、布尔逻辑检索
布尔逻辑算符的优先级顺序为 NOT,AND,OR。
另外可以使用括号改变它们之 间的运算顺序。
1.布尔逻辑检索 (3)逻辑“非”(用“NOT”或“-”表示) 逻辑“非”是一种排斥关系的组配,用于在某
一记录集合中排除含有某一概念的记录。
逻辑“非”的基本作用是缩小检索范围,起到 减少输出文献量的作用。
《信息检索策》PPT课件_OK
追溯法的优点和缺点:
优点:在没有检索工具或检索工具不全 的情况下,此法可较快地获得相关文 献,查找方法简单。
缺点:这种方法的漏检和误检的可能性
较高,但仍不失为一种简便的获得相
关文献的方法。
2021/7/27
31
信息检索方法:常用法
• 也称工具法,是利用文摘、 题录或索引等查找文献的方 法。按所查文献时间的顺序, 可分为顺查法、倒查法和抽 查法三种。
2021/7/27
18
检索词的确定有以下几种方法
• (3) 选用常用的专业术语。在
数据库没有专用的词表或词
表中没有可选的词时,可以
从一些已有的相关专业文献
中选择常用的专业术语作为
检索词。
2021/7/27
19
检索词的确定有以下几种方法
• (4) 选用同义词与相关词。同 义词、近义词、相关词、缩 写词、词形变化等应尽量选 全,以提高查全率。
“OR”的作用是扩
大检索范围,增加命
中文献量,提高文献
的查全率。如: “微机
+ 电脑 + PC机”、 “微
机 or 电脑 or PC机”
2021/7/27
5
3、逻辑“非”(NOT或—)
“NOT”算符是排除含有某些词的记录,其逻辑提问表 达式为“A NOT B”或“A-B”,即检出的记录中只能 含有“NOT”算符前的检索词 A,而不能同时含有 “NOT”后的检索词 B(如图中阴影部分)。
2021/7/27
32
①顺查法
• 这是一种以所查课题的起始年代 为起点由远而近地按时间顺序的 查找方法。
优点:查的文献较完整,查全 率较高。缺点:工作量大,效率 不高,而且起始年代难以确定。
计算机信息检索讲座PPT课件
信息检索算法
信息检索算法是实现信息 检索的关键,常见的有匹 配算法、排序算法、聚类 算法等。
信息检索评价
信息检索评价是衡量信息 检索效果的重要手段,常 见的有查准率、查全率和F 值等。
03 计算机信息检索技术
布尔逻辑检索
布尔逻辑检索是计算机信息检索中最 基本的技术之一,它通过使用逻辑运 算符(如AND、OR、NOT)来组合 检索词,以缩小或扩大检索范围。
计算机信息检索讲座
目 录
• 引言 • 信息检索基础知识 • 计算机信息检索技术 • 信息检索评价与优化 • 信息检索应用与实践 • 未来信息检索技术展望
01 引言
讲座背景
信息技术的快速发展
随着计算机和互联网技术的迅速发展, 信息检索在日常生活和工作中变得越 来越重要。
信息过载问题
学术研究需求
在学术研究领域,如何有效地检索和 利用学术资源对于科研人员来说至关 重要。
信息检索优化
01
02
03
04
文本处理
对文本进行分词、去停用词、 词干提取等处理,以提高信息
检索的准确性和效率。
索引构建
建立高效索引,提高信息检索 的查准率和查全率。
查询处理
对用户查询进行语义分析和扩 展,以提高信息检索的准确性
和全面性。
个性化推荐
根据用户历史查询和行为,为 用户提供个性化的信息推荐和
04 信息检索评价与优化
信息检索评价
查准率
衡量检索结果中相关文 档的比例,是评价检索 系统性能的重要指标。
查全率
衡量检索结果中相关文 档覆盖率,反映检索系 统捕捉相关信息的全面
性。
响应时间
检索系统响应请求并返 回结果所需的时间,是 衡量检索效率的重要指
信息检索技术基础知识讲义(ppt 97页)
AB
A
B
A
B
逻辑或 A+B
逻辑与 A*B
逻辑非 A-B
18
2.2.1 布尔逻辑
运用“布尔算符”的注意事项:
• 布尔逻辑运算符运算顺序为: not→and→or • 运算符遵循数学运算法则;
(a) 括号优先;(A or B) and C not D (b) 在检索式中只有and或or前后的检索标识可
• 单元词:指从信息内容中抽出的最基本的词汇。 • 关键词语言:关键词是从文题、文摘或正文中
抽出,具有实质意义,能够代表文献内容主题 的名词术语。关键词可直接用于文献标引。
6
叙词语言
• 叙词:指从信息的内容中抽出的、能概括表达 信息内容基本概念的名词或术语,它是经规范化处 理的自然语言词汇。
• 叙词受叙词表控制,有组配功能。 运输飞机设计
3
2.1 信息检索语言
检索 语言
描述文献 内容特征
分类语言
主题语言
关键词语言 单元词语言 标题词语言 叙词语言
描述文献 外表特征
题名(书名、刊名、篇名) 著者 出版事项
代码/序号
4
2.1 信息检索语言
• 主题语言(内容特征) • 按照主题性质的不同可分为:
• 标题词 • 单元词 • 叙词 • 关键词
12
2.2.1 布尔逻辑检索
在进行信息检索时,检索项之间概念有 相交关系、同义关系或相关关系,这时 采用布尔逻辑进行检索项之间的逻辑组 配。
用“与”(AND)、“或”(OR)、“非” (NOT)来表达。
13
2.2.1 布尔逻辑
• 布尔逻辑检索:在进行信息检索时,检索项
之间概念有相交关系、同义关系或相关关系, 这时采用布尔逻辑进行检索项之间的逻辑组配。 • 布尔逻辑算符有三种: 逻辑与、逻辑或、逻辑非 用“与”(AND)、“或”(OR)、“非” (NOT)来表达。
计算机信息检索基础课件
信息检索的重要性
提高工作效率
信息检索技术可以帮助人们快速找到所需信息,提高 工作效率。
辅助决策制定
通过信息检索,人们可以获得大量相关信息,为决策 制定提供有力支持。
促进知识共享
信息检索技术可以帮助人们更好地共享知识,促进知 识交流和传播。
02计算机信息检索技术来自布尔逻辑检索布尔逻辑检索是一种基于逻辑运算符( 如AND、OR、NOT)的信息检索技术 ,用于精确匹配查询条件。
搜索引擎是最常见的信息检 索系统应用之一,如Google 、等,它们帮助用户 快速找到所需的信息。
企业信息门户
企业信息门户是用于管理和 提供企业内外部信息的系统 ,如知识管理系统、文档管 理系统等。
学术信息检索
学术信息检索系统用于帮助 研究人员查找学术论文、专 利等研究成果,如CNKI、万 方等。
05
信息素养与信息检索
信息素养的定义与重要性
信息素养的定义
信息素养是指个体能够获取、评估、 利用和创造信息的能力,是现代社会 公民必备的素质。
信息素养的重要性
信息素养对于个人和社会的发展都至 关重要,它能够帮助个体解决问题、 创新思考、做出明智决策,同时也有 助于推动社会进步和经济发展。
信息检索能力的培养
电子商务平台
电子商务平台的信息检索功 能帮助用户查找商品、比较 价格和评价等,如淘宝、京 东等。
04
信息检索的未来发展
信息检索技术的发展趋势
语义检索
利用自然语言处理技术理解用户查询的 语义,提高检索的准确性和相关性。
跨媒体检索
将不同媒体(如文本、图像、音频和 视频)的信息整合在一起,提供更加
全面的检索结果。
计算机信息检索基础课件
计算机信息检索策略与技巧PPT资料(正式版)
(一)课题分析
(1) 分析课题的主要内容和所涉及的学科范围 (2) 明确所需文献的类型、语种、年代等 (3) 查选择检索系统及数据库
数据库的选择可概括成“4C”原则: Content:数据库的内容、学科范围、类型、数据来源; Coverage:数据库规模、时间范围、文献量等; Currency:数据库更新的及时性、频率、周期; Cost:数据库的收费标准和方式。
3、充分运用与选定检索词概念相同或相近的词
如:高等教育 ●少用无法定性定量的词
③同一名词的单、复数、动词、动名词、过去分词形式等,如生产有product, produce ,production,producing,productive等,词根相 同时,可用截词符解决,“*”为无限截词符(替代多个字母),“?”为有限截词符(替代一个字母)。 课题2:高强、高耐磨、高导电Ti2AlC颗粒增强铝基复合材料
(企业+工厂+公司)*(生产线+流水线)*(优化+计算机控制+在线控制+智能控制)
选择数据库应该以专题数据库为主,综合数据库为辅。
查外文文献选择同义词和近义词应主要考虑以下几点
课题分析 课题2:高强、高耐磨、高导电Ti2AlC颗粒增强铝基复合材料
大学生*心理障碍*因素*分析*对策
检索词:建筑、楼盘、房地产、小区、三维动画、3D动画
课题(1):话语语用分析研究(主要指祝贺话语和冲突话语 ) “制造”——制备、生产、加工、工艺等
温=450C—6000C or 8000C
编制检索式 检索词:花盆、花架、棚架、绿廊
(冷 or 温) and 挤压 and 连续 and 成型(×)
检索式:(建筑+楼盘+房地产+小区)*(三维动画+3D动画)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
倒查法(由近及远的往前追溯查找)
抽查法(根据学科发展的时代背景,发展的高峰期查找) 追溯法:参考文献法(根据所附参考文献的出处追溯检索)
如:
科学引文法(通过被引用作者查找引用作者的文献)
ARIKAWA K
80 NATURE 268 700
KATAGIRI N J ELEC MICR 39 363 90
(这是检索的出发点,依据) 2 利用检索系统特定的指令正确实施检索 3 通过人-机对话的方式不断调整、修改、 检索策略 4 根据查找的文献线索获取原始文献
1、认真进行课题分析,制定切实可行的检索策略 (1)分析主题内容,确定正确的检索词(关键词或主题词) (2)正确选择各种算符,如逻辑算符,位置算符,截词符, 字段限定符等,编制合理的计算机检索式。 (3)分析学科范畴,以便确定所要检索的学科领域,提高查 全率。 (4)确定检索年代、文献类型
目前的GIS可视化的研究正方兴未艾,对DEM ,DTM和DLG等数据模型特别是DEM的研究进 展飞速,而三维可视化的表达方式又成为其中 最热门的方向,通过DEM生成的等高线,地貌 晕渲土,三维透视景象,三维地形漫游及交互 式三维可视系统在地图学界开始发挥其强大的 效用,并将在GIS技术中占有三分天。
❖ 信息需求是人们客观上或主观上对各种情报信息的 一种需求。这种需求是人们索取情报信息的出发点 ,也是计算机信息检索时选择数据库、确定检索策 略以及评价检索效果的依据。
❖ 不同类型的课题,其信息需求的范围和程度也不尽 相同。例如,申请发明、申报成果奖励、鉴定及立 项类的查新课题,往往需要全面地收集某一主题范 围的文献信息,这类课题具有普查、追溯的特点, 应着眼于查全;而对于科研、生产中为解决某一特 定问题的攻关课题,往往只要求检出的信息对自己 的研究有所帮助,而对查找的文献范围不需要很广 。因此,这类课题则要求查准。
明确检索需求,即弄清检索目的及要解决的问题。用户的 检索目的和要求是多种多样的,是撰写学位论文,还是申报科 研课题,是技术革新还是成果鉴定,目的不同,检索的策略和 范围也不同。检索需求主要反映在用户对命中文献的类型、语 种及所需文献的年代等不同
(5)选择检索方法(常用法、追溯法和循环法)
常用法:顺查法(顺着时间的推移由远及近的查找)
数字高程模型(DEM)作为数字地形模 拟的重要成果已经成为国家空间数据基础 设施(NSDI)的基本内容之一,其相关学科 有数据库,软件工程,遥感与航测等。在 不久的将来,随着虚拟现实技术与GIS的 融合,必然为地理信息学科带来翻天覆地 的变化。
信息系统或GIS(上位 )
着“信息论”,“控制论”及“认知论”等理论的产生 ,作为一门古老的学科的地图学也在这些新兴理 论的指导下,在这个信息时代产生了新的发展点 ,“数字地球”的提出为地图科学提出了更新更高 的要求,GIS作为处理地理信息的一种技术,应 运而生。
GIS是一种采集,加工,分析,访问 及表达空间数据的信息系统。作为数据本 身是抽象的,不易直观接受的信息,因此 研究如何对数据进行加工和可视化表达, 对于用户来说是十分必要的。
少漏检和误检,提高查全率和查准率。
(1)扩大命中文献数量以提高查全率:选用文摘字段或全文 字段检索;使用上位词或近义词、同义词并且用逻辑或(OR) 连接;利用截词检索;参考文献检索;引文检索,各种相关 链接等等。
(2)缩小检索范围以提高查准率。检索词限定在题名、主题 或关键词字段;使用下位词,利用逻辑非去掉无关信息;利 用逻辑积限定相关主题等。
第六章
计算机信息检索的 基本策略
一、检索策略的实施技巧
❖ 检索策略:为实现检索目标而实施的方法。
计算机信息检索,实质上由计算机将输入的检 索策略与系统中存贮的文献特征标识及其逻辑组配 关系进行类比、匹配的过程。由于信息需求本身具 有不确定性,加之对数据库中的文献特征标识不能 充分了解,以及系统功能的某些限制,都会不同程 度地影响检索效果。但是只要遵循一定的检索步骤 ,制定良好的检索策略,便可以减少各种不利因素 的影响,尽可能地使检索提问标识与信息需求和检 索系统保持良好的一致性,从而在系统中检索出满 足用户需求的信息。
4、根据查找的文献线索获取原始文献 (1)查找全文数据库或者通过搜索引擎查找互联网 全文信息资源 (2)查找馆藏书目系统(OPAC),获取纸本全文 (3)查找开放存取的的学术资源(Open Access ) (4)馆际互借与原文传递
实例分析与说明
课题一 GIS技术的可视化研究
❖ 课题分析: 二十一世纪是一个信息大爆炸的时代,随
87 J COMP PHYSL A 161 1161
STOWE S CELL TIS RE
262 483 90
87 NATURWISSENSCHAFTEN 74 297
SHIMOHIG M CELL TIS RE 263 46 91 循环法:常用法和追溯法的结合
(6)确定检索的信息源(包括中外文数据库和网络 资源等)
在分析检索课题,明确检索要求的基础上,必 须综合考虑检索系统的特点、收录的学科范围、各 数据库的专业范围、主题内容、数据来源与文献类 型、技术含量、数据的存贮年限、更新频率、检索 费用以及使用方法等。
2、利用检索系统特定的指令正确实施上机检索 3、通过人-机对话的方式不断调整、修改、检索策略,尽量减
数字高程模型,可视化,三 维,虚拟现实(下位)
基本表达式:
关键词=(地理信息系统 OR GIS)AND (可视化) AND (三维 OR 虚拟现实 )
英文
Topic Words:
GIS or Geography Information System 3D,DEM,VR, visualization
❖ 检索策略制定的原则: (1)快,即从检索请求的提出到检索结果 的提交要快速: (2)准,即检索结果要准确,避免检索出 过多无关内容; (3)全,检索结果全面,满足用户的需求 ; (4)效益原则,即以最低的费用获取所佳 的信息。
五、 计算机信息检索的具体步骤 1 分析检索课题,制定切实可行的检索策略