计算机信息检索技巧和知识发现概述

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Rare earth polymer Polymer with rare earth elements
扩大检索范围的策略是:
(1)去掉一些次要的、崭新的概念,以及专指 度很高或没有把握的某些主题概念
(2)充分利用逻辑“或(OR)”将某些主题概 念组配起来,以扩大检索范围。
(3)缩小检索策略时,增加一些主题概念加以 限制,用逻辑“与(AND)”进行组配。
(企业+工厂)*(生产线+流水线)*(优 化+计算机控制+在线控制+智能控制)
3、 多主题概念的课题应以“简”为主
1)、课题有A、B、C、D、E、F等主题概念进行 组配,其中“C”词建库人员未从原始文献中挑 选出来作为标引词时,该“C”主题词则表现为 零,则整个检索式等于零。
2)、课题“利用基因工程的手段提高植物中淀粉 含量” 基因工程*淀粉
2)关键词与主题词
◆ 关键词即是“自由词”,是信息的提供者各自 采用的不经过一定规范化限定的词。检索操作 方便,但其专指度差,常需用较高的逻辑匹配、 截词符等技能。
◆ 主题词即指以自然语言中优选出的,经过规范 化处理后的名词术语。检索操作需将习惯使用 的自然语言与各数据库自编的主题词表对照后 方能使用,但专指度较高。
接受课题
数据库组档方式
选择数据库 课题概念分析
可供检索的字段
基本索引 辅助索引
截词算符 布尔算符 位置算符
抽取检索词
决定检索策略

编制检索式


数 据 库
理 检 索 结

重建检索式 补充新的策略
不满意 用户满意程度
满意 输出
(二)、数据库选择
不同数据库类型、结构、内容不尽相 同,检索方法也不相同。同一种检索策 略和技巧在不同的数据库中会产生不同 的检索结果,不同的检索策略和技巧在 同一个数据库中也会产生不同的检索结 果。因此,只有灵活地运用检索策略, 才能达到良好的检索结果。
• 数据库的选择是检索信息的前提,只有 选对了数据库才能进行具体的检索步骤 的实施。 检索人员应根据课题包含的内
容来选择检索的网站及数据库,如果想 查找中文文献,选择维普中文期刊数据 库、万方数据系统等;检索有关化学物 质的制备、分析等文献,就选择CA数据 库。
按收录文献类型划分
• 期刊数据库:维普、万方、清华同方、CA、EI、SCI、 BP、OCLC Firstsearch、EBSCO、 Springer LINK、 Sciencedirect、RSC全文期刊数据库、Wiley期刊全文数 据库、ACS数据库
有哥伦布的故居。 • 西班牙一直不承认这种说法。
• 2简单地抄用引文的引文. 未仔细阅读引文之引 文原文。
3)、中英语意概念混乱
• 1.磁滞损耗和扩散驰豫损耗对发热机理贡献 • 驰豫----弛豫 • “弛豫”误用为“驰豫”。 • 维普数据库:题名=弛豫,共检索到667篇文献;题
名=驰豫,也能检索到222篇文献。 • 中国学术期刊网络出版总库中检索:题名=弛豫,
(六)、检索策略
被检出的相关文献量
(1)查全率=
Hale Waihona Puke Baidu
*100%
系统数据库中相关文献总量
查全率是指系统检索时能检出相关文献的能力。
被检出与课题相关的文献量
(2)查准率=
*100%
被检出的文献总量
查准率是指系统检索时拒绝不相关文献的能力。
条件、目标?
查准率
1.二者相背 2.目标优先 3.现有条件
查全率
(七)、编制检索式
1)、复杂工业过程的先进控制技术与软件
(1)内容要点:
在综合研究产品质量指标的软测量技术、分布式 多变量预测控制和优化控制技术、鲁棒预测控制 技术等各种先进控制技术的基础上,研究开发以 产品质量和工艺要求为指标的复杂工业过程多变 量先进控制技术和软件。
(2)选用的检索数据库:
中国专利索引数据库 VIP科技期刊数据库
五、由于误导而至进入信息利用误区
• 1)NAS切割气增温催化剂的应用 • 使丙烷燃烧增温催化剂的必然指定物 • 双氧水、高锰酸甲(温度+压力) • 结果增温同时造成对载气容器的腐蚀 • 实际上应该是丙烷燃烧增温用的助燃剂
2)、信息流向中对信息的误用
• 1. 拷贝走样(哥伦布的家乡) • 意大利的港口城市热那亚,现在,在热那亚还
偏重于大概念还是偏重于小的概念。如: ▲ 燃料——有固体燃料、液体燃料、气体燃料等。
具体一点有煤、油、煤气、天然气等等。 ▲ 植物油——有蔬菜油、种子油等。具体些有玉米
油、花生油、棕榈籽油等等。
3)、位置算符”造成的漏 检
查找“高压反应设备”方面文献,将检索式 编
制成 High( )pressure( )reacting( )device” 检索式应是“ High( )pressure and react?
一、 文献检索的目的
• 学习文献检索知识的目的: • 1.了解信息源 • 2.获取有用信息 • 3.分析、评判、利用信息 • 4.创造信息
二、获取信息的作用
• 1. 为什么检索?如何检索? • 它山之石可以攻玉。但并不是每块石头都可以
攻玉的。用何方法寻找最好石头。
• 2. 利用信息解决问题。 • 提高自我科学研究过程中对事物现有的认知能
(五)、注意检索词的词义变化
1)汉词与英语等西方语言的词汇相比较:
◆ 汉词的字与词界线比较模糊,一个字也许就是一 个词,英语基本上没有这种现象。
◆ 汉词无固定的词头、词尾和性、数的变化。而英 语构词时这种情况很多。
◆ 汉语的构词一般与语义有关,一个词后加上一个 字就派生出另一个新的词,而英语的情况与此有很 大的不同。
共检索到1188篇文献;题名=驰豫,共检索到113篇 文献。两者结果相差甚至近十倍, • 2.工业自动化多尺度智能优化控制 • 3. 超细粉末有效尺度智能控制
• Dimension ----- granularity
六、检索策略实例
如课题: SF/CD 15W/40地面车辆多用途润滑油 碳酸二甲酯作为绿色溶剂在涂料中的应用 鸡蛋免疫球蛋白 酿酒厂废水用米曲霉处理新工艺 同向双螺杆挤出机一步法制备硅烷交联聚乙烯管 一种海水淡化的方法及装置
题 作了范围的有效限制等等。
四、其它误检或漏检原因
1)、过分强调专业知识
课题“聚氨酯泡沫塑料的工艺” 选“聚氨酯泡沫塑料”这一多元词作为检 索词 “聚氨酯 and 泡沫塑料”
2)、同义词和异称词产生的漏检情况
没能将同义词和异称词运用全。如: 设备——apparatus, equipment, device 汽车——car, automobile, vehicle PVC——聚氯乙烯、PVC塑料
and (device or apparatus, or equipment) ”。
检索工型钢
• 中文:工型钢 英文:H Steel 检索: H and STEEL H (W) STEEL
H (W1) STEEL
4)、检索词本身的多义性导致的误检
如: 海绵——海洋里的多孔类动物、泡沫塑料、
泡沫橡胶等。 稀土聚合物
中国化学化工文献数据库 中国科技成果数据库
中国学术会议论文库 中国科技论文数据库
美国化学文摘(CA) 工程索引(EI)
应用科学技术数据库 英国科学文摘(INSPEC)
美国专利数据库
世界专利索引数据库(WPI)
因特网上各种信息源
(3)选用的检索词及检索策略(1):
中文检索词 #1 多变量 AND 约束 AND 预测控制 #2 鲁棒 PID AND 参数整定
2)、电动汽车电控与驱动技术
(1)内容要点:
电动汽车电控与驱动控制系统要求输出力矩 大,响应速度快,可靠性和电磁兼容性好, 使用维护方便。课题研究电动汽车电控驱动 系统的模型与控制算法,电动汽车专用高性 能交流永磁同步电机和交流异步电机控制系 统的产业化所需解决的控制器技术。
#3 鲁棒 AND 预测控制
#4 软测量 AND 神经网络
#5 (乙烯 OR 丙烯 OR PTA OR 对苯二甲酸) AND (软测量 OR 质量控制 OR 先进控制 OR 智能控制)
检索式:#1 OR #2 OR #3 OR #4 OR #5
(3)选用的检X索U词A及N检选索用策略(2):
英文检索词及检索式: #1 constrain? And multivarible(w)predictive(w)control #2 robust?(w)predictive(w)control #3 robust?(w)PID #4 soft()sensor and neural()network #5 (olefin or ethylene or ethene or propylene or propene) and neural #6 (4-carboxybenzaldehyde or terephthalic acid) and control #1 or #2 or #3 or #4 or #5 or #6
欢迎您使用本教学课件!
日期:2010年11月 单位:华东理工大学科技信息研究所
计算机信息检索技巧和知识发现
关系到对各种数据库进行具体操作的指 导思想及其操作过程;关系到用户在完成 具体课程时应注意的方方面面;是解决用 户从“什么”到“哪里”(what→ where)提问的整个计算机信息检索的全 过程。
下位:(Butene or 1-3 butadiene…) and distillat*
课题3 “一氧化碳的氢化”很明显这
一课题所包括的范围过于广泛:
一氧化碳氢化 1、氢化热 2、氢化催化剂 3、氢化动力学 4、甲烷化 5、甲烷化热 6、甲烷化动力学 7、甲烷化催化剂 8、燃料气体制造
“逐次分馏”(Successive Fraction)方法
• 学位论文数据库:万方、 CA、 EI、 PQDD、OCLC Firstsearch
跨库检索
• ISI Web of knowledge
• OCLC Firstsearch • EBSCO
(三)、课题分析
● 1、检索目的定位
例如: 课题1:“煤脱硫的最新工艺与技术” 课题2:“论企业生产线的优化”
课题1 “加氢裂化防污垢的开发与应用研究”, 将“加氢裂化”与“防污垢”组配,结果不 理想。概念向上位“石油加工与石油炼制” 的概念扩大,再与“防垢剂”组配,完成了 课题的要求。
课题2碳4、碳5馏份工艺情况
(C4 or C5) and distillat* 上位:Petroleum and product* and distillat*
“煤脱硫的最新工艺与技术”
• 煤脱硫*最新*(工艺+技术)
• 煤*脱硫 •煤*微波*脱硫 • 了解信息、解决难题
“煤脱硫的最新工艺与技术”
• 扩展检索后发现
• 1). 橡胶 微波 脱硫
• 2). 橡胶 超声波 脱硫

解脱自我科研瓶颈,超越认知局限
课题2:“论企业生产线的优 化”
企业 * 生产线 * 优化
基因*淀粉
“最专指面优先”(Most Specific Face First) 方法
天然植物茶叶中提取茶多酚作为 食品防腐剂
• 天然*植物*茶叶*提取*茶多酚*食 品*防腐剂 •茶叶*提取*茶多酚*食品*防腐剂 •茶叶*茶多酚*食品*防腐剂
•茶多酚*食品*防腐剂
•茶多酚*(食品+防腐)
(四)、运用主题概念所表达的上位或下 位概念
一个好的检索式是最终实现检索策略是否达到预 想结果的具体表现形式。 1、影响查全率的种种因素如:检索词是否已扩 大到穷尽;是否合理应用逻辑“或”来优化检索; 是否对课题检索策略作了必要的扩大。 2、影响查准率的因素如:是否尽量选用了专指 度较高的检索词;是否尽量采用了逻辑“与”逻
辑 “非”和位置算符进行优化检索;是否对所检课
• 图书数据库:超星数字图书馆 、方正Apabi电子图书 、 书生之家数字图书馆 、OCLC Firstsearch、 EBSCO、 Netlibrary数据库
• 专利数据库:万方、 CA、 BP、中国国家知识产权局 、 欧洲专利局数据库(世界专利、日本专利) 、美国专利 商标局数据库
• 会议数据库:万方、 CA、 EI、 BP、ISIP 、OCLC Firstsearch
力并弥补认知缺陷
• 3. 从信息中发现问题。 • 有助于自我认知区域局限的跨域 • 从必然认知世界走向自由认知世界
三、计算机信息检索策略与技巧
(一)计算机信息检索的基本构成 (二) 课题分析 (三)检索策略 (四)编制检索式 (五)其他误检或漏检原因 (六)检索策略实例
(一)计算机信息检索的基本构成
相关文档
最新文档