第二章 信息检索原理与方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用户信息需求
• 检索目的(开题报告、学术论文、课程论文) • 学科范围(新闻学、会计学) • 文献类型(期刊论文、会议论文、科技报告、图 书、专利、标准、网站等) • 结果形式(全文、文摘、题录、数值、事实等) • 检索年限(如2000年以来的文献) • 语种(中文、外文;英文、日文) • 检索结果数量(100?50?)
截词检索的方式 (根据检索系统而定,参见上海大学图书馆OPAC)
前截词,后方一致。如:?computer表示 minicomputer,microcomputers等
后截词,前方一致。如:comput?表示 computer,computers,computing等。
前后截词,中间一致。如?comput?表示 minicomputer,microcomputers等。
• 将信息按一定的方式组织和存储起来, 并根据信息用户的需要找出有关的信息的 过程和技术。
• 狭义的信息检索从信息集合中找出所需 要的信息的过程,也就是我们常说的信息 查询。
Calvin Mooers
信息检索的原理
将特定的信息需求与存储在检索系统中的信息集合进 行异同的比较与匹配,选取两者相符或者部分相符的信息 予以输出。
如:“垃圾的处理”中的“处理”一词就隐含着“回收”和“再生”等概念
隐性主题具体化
主题概念具体化
如:中国特大城市空气污染 ( 中国特大城市+北京+ 上海+广州+ 重庆+武汉+ 天津+ ,,) * ( 空气污染+ 大气污染+ 空气质量+工业废气+ 一氧化硫+ 二氧化硫+一氧化碳+ 二氧化 碳+灰霾+ ,)
百度指数
Google Adwords
布尔逻辑检索
布尔逻辑运算符是为了表达检索词 之间的逻辑关系的算符。由英国学 者乔治.布尔发明的布尔逻辑运算符 包括逻辑“与”、逻辑“或”和逻 辑“非”三种类型,分别用and、 or和not表示。用布尔逻辑运算符连 接检索词形成的检索式称为布尔逻 辑检索式。
检索结果信息量过少——提高查全率(扩检)
原因:
措施:
降低检索词或分类号的专指度。 更多地采用学科分类途径来扩大检索范围。 减少逻辑“与”及逻辑“非”的使用。 增加逻辑“或”及截词检索技术的使用。 不限定检索对象的文献类型、时间段、文种等。
注意同义词的合理使用,适当使用近义词扩检。
获取检索结果
http://news.xinhuanet.com/video/2009-05/06/content_11320551.htm http://news.cntv.cn/program/xinwen1jia1/20110121/109469.shtml
从“图灵实验”说起
计算机发展史上有一个重要人物,即人工智能的始祖阿 伦•图灵,他在上世纪50年代曾经提出了一个假想的实 验,认为计算机可以具有人类的思维能力,被称为 “图灵实验”。并且预言,在20世纪末,具有人工智 能的计算机将会出现。但时至今日,仍未有任何一台 计算机能通过“图灵实验”。
截词检索
截词检索就是用截断的词的一个局部进行的检索,并认 为凡满足这个词局部中的所有字符(串)的文献,都为命 中的文献。按截断的位置来分,截词可有后截断、前截断、 中截断三种类型。 不同的系统所用的截词符也不同,常用的有?、$、*等。 分为有限截词(即一个截词符只代表一个字符)和无限截 词(一个截词符可代表多个字符)。 截词原因:西文的结构特性 (1)单复数形式不一 (2)同一个意思的词,英美拼法不一致; (3)词干+前缀/后缀就=派生词
明确概念间的逻辑关系
•同义词、近义词是或的关系
•上位词,概念上外延更广的主题词,1个主题词所表达 概念的的任何一种属性、任何一种归类方式,都可以 是它的上位词 •下位词,指概念上内涵更窄的主题词
•例子分析 “鲜花快递” 、”鲜花”、”快递”、”网上购物”、 “上海鲜花速递” 、”深圳鲜花速递”、 ”网上鲜花 速递”
主题概念分析
从熟悉的已知文献信息入手
表示的概念过大, 必然造成大量误检; 表达的概念过小,则会 发生大量漏检
例子: 青少年性格形成分析
分析检索课题的内容实质
主要是考察青少年的性格以及影响其性格形成的因素分析,实 质上是青少年心理变化的分析
分析课题时不能仅从题目中的词找出概念就认为是满足检索课 题要求的概念, 而要从专业方面及检索目标与规则方面分析, 找 出反映课题本质的概念。
“基于项目治理的政府投资项目代建人激励机制研 究”
题名中包含多少语词? 那些是关键词? 那些是非关键词? 这些词有什么特点? 他们之间及其与全文有什么关系?
例子:
课题:基于项目治理的政府投资项目代建人激励机 制研究 关键词: 政府投资项目;代建制;代建人;项目治理;激
励机制
政府投资项目 代建制 代建人 项目治理
关键词检索 布尔逻辑检索 截词检索
1
2 3
关键词检索
• 关键词 关键词是那些出现在文献的篇名、章节名、摘要、正文中, 对描述文献主题内容具有实质意义的语词。 • 关键词的确定
(1)列出论文所属学科领域 (2)列出研究课题名称 (3)列出研究方法或工具名称 (4)列出论文作为主要研究对象的事或物质的名称及其相关概念 (5)有利于检索和文献利用的其他关键词 中国科协关于标识关键词的规定
确定检索词
•
• • • • • •
•
表示具体事物名称的名词术语 表示事物的状态或现象的名词术语 表示科学分类的名词术语 表示研究方法、技术方法的名词术语 表示工艺方法、加工技术的名词术语 表示化学元素、化合物、金属材料与合金的名词术语 表示国家名称、地名、组织机构名称及人名的专有名 词 文献类型、文献载体的名词术语
编写布尔逻辑检索式应注意以下技巧:
1、把出现频率低的检索词放在逻辑“与”(AND)的左边,可缩短计算机 处理时间。例如:检索有关“计算机在机器人应用方面”的文献,检索式为: 机器人*计算机 2、把出现频率高的检索词放在逻辑“或”(OR)的左边,有利于提高检索 速度。例如:检索有关“计算机或者有关机器人”的文献,构造检索式为: 计算机+机器人 3、同时使用逻辑“与” (AND)和逻辑“或”(OR)检索时,应把“或” 运算放在“与”运算的左边。例如:正确的检索式:(医学+生物)* 健康报 4、布尔运算符优先级比较: 有括号时:括号内的先执行; 无括号时:NOT > AND > OR 例:检索“唐宋诗歌”的有关信息。 关键词:唐、宋、诗歌; 检索表达式:(唐 OR 宋)AND 诗歌;唐 AND 诗歌 OR 宋 AND 诗歌;
图书馆
英特尔国际科学与工程大奖赛
17岁席夫尔开发了一个模型,用来提高互联网搜索引擎的 能力,能够显示微小的内容变化 15岁杰克.安德拉卡利用课余时间发明了一种一种滤纸,可 能通过尿液和血液检测胰腺癌、卵巢癌和肺癌 18岁别克维斯基则研究了量子隐形传态,利用这种手段, 需要高数据安全性的团体可以发送远距离加密信息,而不用 担心被拦截。
•
下载全文
• 保存题录文摘
• 文献传递与馆际互借 • 信息格式的转换
THANKS!
PPT背景图片:www.1ppt.com/beijing/
• 不要将整个题目输入检索框,要从概念入手,而 不是从字面意思入手。 • 当课题比较生疏时,应当首先利用百科全书、图 书等弄清楚概念,了解课题的有关专业知识,弄清 楚课题的内容和要解决的问题以及解决该问题的初 步设想等,进而确定检索的主题范围。
• 立足规范词,兼顾自由词 • 词的全称、简称及缩写字母 • 勿忘下位类词 • 注意外来词的译写变化
检索工具的选择
(设置链接,第三章 图书馆电子资源检索)
构建检索提问式 使用逻辑“与”算符 • 使用逻辑“或”算符 • 使用“非”算符
•
课 题:汽车导航系统的研究 关键词:汽车 机动车 导航系统 全球定位系统 GPS 研究 设计 调查 检索式: (汽车+机动车)*(导航系统+全球定位系统+GPS)*(研究+设 计+调查)
检索并调整检索策略
评价标准 查全率: R=被检出相关文献量/相关文献总量=(a/a+c) *100% 查准率: P=被检出相关文献量/被检出文献总量=(a/a+b) *100%
检索结果信息量过多——提高查准率(缩检)
原因:
措施:
提高检索词或分类号的专指度。 更多地采用专用名词及特性检索的途径。 选择逻辑“与”及逻辑“非”的使用。 减少或不采用逻辑“或”及截词检索技术的使用。 限定检索词出现的字段及在段落、文句中的位置。 限定检索对象的文献类型、时间段、文种及其它特征。
如:“计算机”AND“文献检索”,表示查找 文献内容中既含有“计算机”又含有“文献检索” 词的文献。
如:“计算机”OR“文献检索”,表示查找文 献内容中含有“计算机”或含有“文献检索”以及 两词都包含的文献。
如: “计算机”NOT“文献检索”,表示查找文 献内容中含有“计算机”而不含有“文献检索”的 那部分文献。
计算机检索的奥妙:关键词匹配 计算机实现检索的奥妙,就在于它能把你输入 的检索词,与它后台数据库中存储的文件关键 词进行比对,如果能够匹配,就认为这条信息 是你需要的,立刻输出给你。
信息检索的方法
信息检索的原理
信息检索的流程
A
信息检索的概念
B
信息检索的原理
信息检索的概念 信息检索(Information Retrieval):1950年由美国信息科学先锋 穆尔斯提出的
找出核心概念,排除无关概念和重复概念,简化逻 辑关系 并不是概念越多越好! 抓住主题的核心:最能表达检索课题内容,而且具有 实际检索意义的关键词。
如“大数据下的空间数据挖掘思考” -大数据 下 的 空间 数据挖掘 -大数据 空间数据挖掘 思考
排除检索意义不大而且比较泛指的概念,如:展望、 发展趋势、现状、近况、生产工艺、应用、利用、作 用、方法、影响、制备、结果
表 达
标 识
信息需求
比较与匹配
信息集合
检索词在数据库纪录中的匹配
【题 名】大数据时代下图书馆的挑战及其应对策略 【关键词】大数据;数据处理;数据挖掘;数据服务; 图书馆; 【文 摘】文章首先阐述了大数据的特征与内涵,指出了 大数据在图书馆工作中的重要性及两者之间的关系,分析 了大数据所带来的数据管理、数据存储、数据挖掘等方 面的挑战。然后研究了图书馆应从数据管理、数据技术 及数据队伍建设上所采取的策略。最后探讨。。。。
信息检索流程
主题概 念分析 选择检 索工具 反馈与 调整
A
用户需 求分析
B
C
确定检 索词
D
E
构造检 索式并 检索
F
获取 结果
用户信息需求分析
信息检索需求类型
• 查找某概念的确切含义,如:什么是“blog”
• 查找某概念的背景知识,如:谁最先发现青霉素 • 查找某些事物的数值及量化指标,如KPI • 查找某一学科的一般知识,如:关于分子生物学有 哪些专著 • 查找学科专业领域的新进展,如:有关纳米技术的 研究综述 • 查找课题相关的专业文献 最常见的!
研究内容对象
研究目标对象
研究学科领域 研究成果的名称
激励机制
雪灾、冰雪天气、雨雪天气。。。
灾情、成因、供电、交通、物价、旅游、环 境来自百度文库。。。
影响、中断、关闭、断线、上涨、污染。。。
总结: 关键词的三个原则
1.简练使用关键词———不滥选;
2.正确揭示主题 3.全面反映主题
———不错选; ———不漏选;