第一讲 信息检索概述
001-信息检索__第一章
1.1.3.1 因特网对信息的影响 1. 特网引发了信息新的出版形式——网络出版,形成了 新型的网络信息资源 2. 因特网使人类传统的信息交流方式发生了根本性的变 化 3. 特网推动了信息处理技术发展
1.1.3.2 网络环境下信息的新特点 1. 信息类型多样化 2. 信息的数量和内容都得到了极大的丰富 3. 信息在分布上呈现出明显的分散性 4. 信息共享程度提高
11
第1章 信息检索基础
1.2.4 信息检索的历程
信息检索的发展与人们信息需求的增长以及现代信息技 术的进程紧密相关。追溯时间发展的脉络,信息检索的发展 经历了手工检索阶段和计算机检索阶段: 1.2.4.1 手工检索 直接发源于图书馆的参考咨询工作和文摘索引工作。主 要检索工具是纸本工具书。 1.2.4.2 计算机检索 随着计算机技术和网络技术的发展,计算机检索经历了 脱机检索、联机检索、光盘检索和网络检索四个阶段。在当 今网络环境下,计算机检索将发挥更大的作用,更好地满足 人们日益增长的文献信息需求。
8
第1章 信息检索基础
1.2 信息检索 的原理和概念
1.2.1 信息检索的概念
信息检索从广义的角度讲,包含 信息存储和信息获取两个过程。 信息存储指通过对大量无序信息 的选择和收集著录和标引等方法,建 成各种各样的信息检索工具或信息检 索系统,使之成为有序化信息集合的 过程。 信息获取是存储的逆过程,其实 质是根据特定的需求,运用已组织好 的检索系统,将特定的信息查找出来。
22
第1章 信息检索基础
1.5.1.2 漏检率(Omission Factor)和误检率(Noise Factor) 漏检率指漏检相关文献信息量与检索系统中相关文献信 息总量的比率,它与查全率相对应。具体公式如下: 漏检率=[漏检相关文献信息量/检索系统中相关文献信息 总量]×100%=(c/a+c)×100% 误检率指误检(检出不相关)文献信息总量与检出文献 信息总量的比率,是衡量信息检索系统误检程度的尺度,与 查准率相对应。 误检率=[误检文献信息量/检出文献信息总量]×100%= (b/a+b)×100%
第一章_信息检索概述
从这个故事学到什么?
• 不同的人解读不同,但有一点是肯定的: 信息影响我们正确的判断力。
• 根源在于作为大学毕业生的儿子“媒介素 养”出了问题。
• 爱因斯坦“我是抓住书的骨头,抛弃书的 皮毛。”
对比统计
• 我国83%的高校学生不知道本专业的主要信息的 出处,70%的学生不知道本专业信息的检索方法, 60%的学生不知道在网络上检索本专业的信息。
大学生的“媒介素养”问题
• 经济危机时代的一则故事:一个没文化, 听力差,视力弱的人使用了很多方法使得 自己的面包店越做越大,正在他生意红火 的时候,他刚大学毕业的儿子加入了父亲 的生意。奇怪的事情发生了……
• 光顾他面包店的人越来越少了,利润很快 下滑,父亲对儿子说:“你说的对啊!我 们正在面临经济萧条与危机。”儿子说: “我很高兴之前提醒过你。”
信息的构成六要素
• 信源(不了解信源就不可能了解信息的内涵) • 语言符号(文字、符号、编码等) • 载体(信息必须附着在一定的物质上) • 信道 • 信宿 • 介质(语言、载体、信道都属于信息传递
的媒介形式)
信息的特征
• 信息与载体的不可分 • 信息的客观性 • 信息的价值性 • 信息的时效性 • 信息的可扩充与可压缩性
国内学术界定义
• 李克东:应包含信息技术操作能力、对信 息内容的批判与理解能力以及对信息的有 效运用能力。
• 徐福荫: 技术学---处理能力 心理学---解决能力 社会学---交流能力 文化学---构建能力
信息素养的概念
• 对信息进行查找、识别、加工、理解、处 理、传递、利用、评价、管理和创造的知 识、能力与观念、情感、意识和心理等各 方面基本品质的总和。
信息素养的构成
• 由信息意识、信息知识、信息能力和信息 道德等四个要素构成。
信息检索学习笔记
信息检索学习笔记信息检索第一章信息检索的基础理论第一节基础概念一、信息概述(一)信息的定义:信息指的是事物的存在方式和运动状态,是对客观世界中各种事物变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。
世界三大基本要素:信息物质能量(二)信息的特征1.客观性①信息来源于物质,又不是物质本身;它从物质的运动中产生出来,又可以脱离物质相对独立地存在。
②信息业来源于精神世界,但又不限于精神的领域。
③信息是具体的,并且可以被人所感知、提取、识别,可以传递、存储、变换、显示、检索和利用。
2.普遍性3.可存储性4.可传递性5.扩散性6.共享性7.时效性(三)信息的功能1.经济功能①运用信息可以使非资源转化为资源创造财富。
②使用信息取代劳动力、资金、材料等资源创造财富,实现经济效益倍增。
③直接让信息作为商品在市场流通中创造财富。
④通过信息进行科学决策,减少失误,创造财富。
2.管理与协调功能5M资源:人、财、物、设备、管理办法信息的管理与协调功能在组织活动中的作用:①传递整个组织的运行目的,有效管理5M资源。
②调节和控制物质流和能源流的数量、方向和速度。
③传递外界对系统的作用,保持组织的内部环境稳定。
3.选择和决策功能4.研究与开发功能二、知识1.知识的概念:知识是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,是人类对自然界、人类社会以及思维方式与运动规律的认识。
2.知识的类型①显性知识和隐性知识。
②实体知识和过程知识。
③核心知识和非核心知识。
三、情报1.情报的概念:情报是具有特定传递对象的特定知识货有价值的信息。
2.情报的特征①动态性②按特定的方式传递③为特定目的服务的④常常有一定的时效性和机密性3.情报的类型零次情报:私人笔记、手稿、设计草图、会议记录、口头言论等。
一次情报:调查报告、研究报告、科学论文、专利说明书、会议文献、专著等。
二次情报:书目、索引、文摘等三次情报:综述、专题评论、年度总结、研究进展报告、数据手册、专业年鉴等。
信息检索第一讲
相对于老式社会旳信息环境,如今
人类面正确主要问题不是信息知识旳匮 乏和停滞,而是信息总量旳无限膨胀。
人类正在从信息时代向知识时代过
渡。两者旳区别在于,信息时代人们要 不断获取信息,知识时代更要旳是对信 息旳处理,即把信息转化为知识。
在当代社会,编辑出版业属
于知识产业、文化信息产业旳构 成部分。
《中国大百科全书·新闻出版 卷》:“当代出版物是出版工作 旳成果和产品,是积累文化旳主 要工具,又是传播思想、知识、 信息旳主要媒介。”
第一讲 当代出版与信息素养
课程纲领
1、概论2、中文信息检索 3、汉语词语检索4、百科知识、专科知识检索 5、典故、引言检索6、古今图书信息检索 7、报刊资料信息检索8、古今人物信息检索 9、地名和地方文件检索 10、综合资料信息检索
11、古今纪年及编年资料检索
一、当代出版旳信息环境
所谓信息社会,即“信息成为与 物质和能量同等主要甚至愈加主要旳资 源,整个社会旳政治、经济和文化以信 息为关键价值而得到发展旳社会。”
问卷:
1、除了《新华字典》《当代汉语词典》,你 还查阅过哪些辞书?
2、你是否了解《说文解字》旳编排体例? 3、请列举三部中国古代类书。 4、列举几种你懂得旳常用文件信息数据库? 5、你是否使用过网络版古籍检索系统?如有 请列举一二。
早在1984年, 《教育部有关筹备编辑专 业旳报告》中就对编辑人才旳规格问题 做出了明确旳要求:“ 具有熟练查证工 具书旳能力, 要懂得一点考据学,懂得 使用多种工具书, 懂得当代化知识旳储 存和使用。”
进入90年代以来信息检索课程 在编辑出版专业普遍展开
国外诸多学院旳出版方向旳专业 也开设了类似旳课程
从编辑活动旳流程来看, 编辑熟练掌 握信息检索旳措施与技巧, 对于掌握每一 环节旳编辑规律, 自如从事编辑工作, 提 升书刊质量等, 具有十分主要旳意义。
wd - 第1章 信息检索与信息素养
33
1.4.1学习信息检索的目标
1.培养自觉、敏感的信息意识 信息意识具体表现为对信息的敏感度、选择 能力和消化吸收能力。信息意识决定着人们捕捉、 判断和利用信息的自觉程度,而信息意识的强烈 与否对信息价值的发掘和文献获取能力的提升起 着关键的作用。
记录下来的知识
智慧
文献
对信息的理解与认识 知识 有组织的数据
信息 数据
8
信息的原材料
客观事物本身的运动
数据
信息
信息
知识 文献
9
信息、知识与文献
事 物 运 动
产生
人脑有序化 用于实践
信 息
知 识
新 的 信 息
记录在载体上
文献
10
11
1.2 信息检索概述
信息检索就是从信息集合中找出所需信息的过程, 也就是我们通常所提及的信息查寻 (Information Retrieval 或Information Search)。信息检索能力是信息素养的集中表现, 提高信息素养最有效的途径则是通过学习信息检 索的基本知识,进而培养自身的信息检索能力。
1.3.3信息素养的标准
标准一:能够确定所需信息的性质和范围 标准二:能够有效和高效地获取所需信息 标准三:能评价信息及其来源并将选取的信息整 合入其知识基础和价值体系中 标准四:能够有效地利用信息达到特定的目的 标准五:在信息获取和利用时自觉遵守道德规范 和有关的法律。
32
1.4 学习信息检索的目标、意义与方法
28
1.3.2信息素养的益处
1. 信息素养对学生个体的益处 消解学生 必须以老师作为信息的依赖。 在小团体或个人层面的互动中的促进作用变得越 来越重要。 最终成果通常是一篇论文,一次课程呈现或是一 场表演。 无论在何处以及如何获得的信息素养,在任何一 所学校、任何比赛或任何工作情况下都是适用的。 29
《信息检索教案》课件
《信息检索教案》PPT课件第一章:信息检索概述1.1 信息检索的定义解释信息检索的概念和意义强调信息检索在学术研究和日常生活的重要性1.2 信息检索的类型介绍不同类型的信息检索方法,如手工检索、计算机检索等解释各种检索方法的优缺点和适用场景1.3 信息检索的流程介绍信息检索的基本步骤,如确定检索需求、选择检索工具等提供实用的检索技巧和策略,帮助学生更有效地获取信息第二章:检索工具与数据库2.1 检索工具的类型介绍不同类型的检索工具,如目录、索引、文摘等强调各种检索工具的特点和适用场景2.2 数据库的类型介绍不同类型的数据库,如文献数据库、全文数据库等解释各种数据库的优缺点和适用场景2.3 检索工具与数据库的选择提供选择检索工具和数据库的依据和方法强调选择合适的工具和数据库对信息检索的重要性第三章:网络信息检索3.1 搜索引擎的使用介绍搜索引擎的概念和原理讲解如何有效地使用搜索引擎进行信息检索3.2 学术搜索引擎的使用介绍学术搜索引擎的概念和特点讲解如何利用学术搜索引擎获取学术信息3.3 社交媒体与网络信息检索介绍社交媒体在信息检索中的应用强调社交媒体在获取实时信息和社交网络分析中的价值第四章:信息检索技巧与策略4.1 检索关键词的选择讲解如何选择合适的检索关键词提供关键词选择的方法和技巧4.2 布尔逻辑检索介绍布尔逻辑检索的概念和原理讲解如何运用布尔逻辑提高检索效果4.3 短语检索与位置算符介绍短语检索和位置算符的概念和用法强调短语检索和位置算符在精确检索中的重要性第五章:信息检索实践与应用5.1 学术研究中的应用讲解信息检索在学术研究中的重要性演示如何利用信息检索进行文献综述和实证研究5.2 日常生活中的应用讲解信息检索在日常生活中的应用案例强调信息检索对提高生活质量的重要性5.3 信息检索的道德与法律问题介绍信息检索中的道德和法律问题,如版权、隐私等强调信息检索时应注意的道德和法律规范第六章:特定信息类型的检索6.1 图像和多媒体信息的检索介绍如何检索图像和多媒体信息演示使用图像搜索引擎和多媒体数据库的技巧6.2 统计数据的检索讲解如何检索统计数据介绍使用政府统计网站和专业统计数据库的方法6.3 专利信息的检索介绍如何检索专利信息演示使用专利数据库进行检索的步骤和技巧第七章:信息评估与批判性思维7.1 信息评估的标准讲解评估信息质量的标准和原则强调批判性思维在信息评估中的重要性7.2 识别信息源的可靠性介绍如何识别和评估信息源的可靠性分析不同类型信息源的可信度和偏见7.3 信息批判性思维的实践讲解如何运用批判性思维分析信息演示通过信息检索进行批判性思维实践的案例第八章:信息素养与终身学习8.1 信息素养的概念解释信息素养的内涵和外延强调信息素养在现代社会的重要性8.2 培养信息素养的策略介绍培养个人信息素养的策略和方法强调终身学习在维持和提升信息素养中的作用8.3 信息素养的实践应用讲解信息素养在个人和专业生活中的应用演示如何利用信息素养解决实际问题第九章:信息检索的未来趋势9.1 与信息检索介绍在信息检索中的应用探讨如何改变信息检索的方式9.2 大数据与信息检索讲解大数据对信息检索的影响探讨大数据时代信息检索的新挑战和新机遇9.3 未来信息检索技术的发展趋势预测未来信息检索技术的发展方向强调终身学习的重要性以适应不断变化的技术环境第十章:综合实践与案例分析10.1 综合实践项目设计设计一个综合实践项目,要求学生应用所学信息检索技能提供项目实施步骤和评估标准10.2 案例分析与讨论提供几个案例分析,要求学生应用信息检索技能解决问题鼓励学生进行讨论,分享他们的思考和经验10.3 课程总结与展望总结整个课程的重点和难点展望信息检索领域的发展前景,鼓励学生持续学习和探索重点解析本文教案主要涵盖了信息检索的概述、检索工具与数据库的选择、网络信息检索、信息检索技巧与策略、信息检索实践与应用、特定信息类型的检索、信息评估与批判性思维、信息素养与终身学习、信息检索的未来趋势以及综合实践与案例分析等十个章节。
信息检索课件
02
信息检索基础
布尔模型
基于逻辑运算符的模型,将查询词与文档进行简单的匹配,常用 符号包括 AND、OR、NOT。
聚类分析
将相似的文档聚集成一类,根据文档之间的相似度 进行分类,有助于缩小检索范围。
决策树模型
基于决策树的分类模型,通过训练样本建立一棵决策树,用 于预测新样本的类别。
03
信息检索相关技术
语义理解能力不足
传统的信息检索技术主要基于关键词匹配,无法很好地理解用户的真 实意图,这在很大程度上影响了检索结果的准确性和相关性。
语义网的发展
语义网的概念和应用
语义网是一种基于XML技术的互联网应用,它可以将互联网 上的文档统一转化为计算机可读的格式,从而使得计算机能 够更好地理解文档内容,提高信息检索的准确性。
F1得分
• F1得分:是查准率和查全率的调和平 2 (查准率 查全率) / (查准率 + 查全率)。
平均倒数排名(MRR)
• MRR:是一种衡量排序效果的指标,将所有相关文档按照 排序位置的倒数平均值进行加权,再求和得到。公式为: MRR = 1 / (1/第一相关文档 + 1/第二相关文档 + ... + 1/ 第N个相关文档)。
文本预处理
01
02
03
文本清洗
去除文本中的标点符号、 停用词、拼写错误等冗余 信息,提高文本的可读性 和信息含量。
分词技术
将文本切分成词汇单元, 便于后续的词频统计和语 义分析。
词性标注
对词汇进行语法标注,有 助于理解词汇在句子中的 角色和语义。
倒排索引
基本原理
倒排索引是一种基于词汇 表的索引结构,每个词汇 对应一个包含该词汇的文 档列表。
信息检索的概念
信息检索的概念信息检索的概念信息检索是指通过计算机技术和信息学方法,从大量的文本、图像、音频等数据中,按照用户需求进行全文搜索和过滤,获取与需求相关的信息的过程。
它是一种通过计算机技术实现对大量文本信息进行搜索和管理的方法,是人们在海量信息中寻找所需信息的重要工具。
一、信息检索的基本概念1.1 信息检索系统信息检索系统是指利用计算机技术和各种数据库,为用户提供全面、准确、及时的文献资料查询服务。
它包括用户接口、数据库管理系统、检索引擎等组成部分。
1.2 检索词检索词是指用于描述所要查找的主题或内容的关键词。
它可以是单个单词或短语,并且必须与所要查找的主题或内容相关。
1.3 查询语言查询语言是指用户在进行搜索时使用的语言。
它可以是自然语言,也可以是专业性较强的查询语言。
1.4 检索结果检索结果是指根据用户输入的关键词,在数据库中查找到与之相关联文献资料,并将其按照一定顺序呈现给用户。
二、信息检索技术2.1 文本检索技术文本检索技术是信息检索中最常用的一种技术。
它通过对文本内容进行分析和处理,提取关键词并建立索引,实现全文搜索和过滤。
2.2 图像检索技术图像检索技术是指通过计算机视觉和图像处理技术,对图像进行分析和处理,提取特征信息,并建立相应的索引,实现图像的搜索和管理。
2.3 音频检索技术音频检索技术是指通过数字信号处理、模式识别等方法对音频进行分析和处理,提取特征信息,并建立相应的索引,实现音频的搜索和管理。
三、信息检索系统的构成3.1 用户接口用户接口是指用户与信息检索系统之间进行交互的界面。
它可以是命令行界面、图形用户界面或Web界面等形式。
3.2 数据库管理系统数据库管理系统是指用于存储、管理和维护各种文献资料数据库的软件系统。
它包括数据库设计、数据存储、数据访问等功能模块。
3.3 检索引擎检索引擎是信息检索系统中最核心的部分。
它负责将用户输入的查询语句转换为机器可识别的语言,并在数据库中查找相关文献资料,最终将检索结果呈现给用户。
1课信息检索概述(1,2章) PPT课件
信息社会的重要构成:
2)社会民众具有较高的信息素质
①能确定信息需求的特点和范围; ②能有效和充分地获取所需信息; ③能评价信息及其来源,利用其知识基础和价值
系统选择适当的信息; ④能有效地利用所获取的信息实现待定的目标; ⑤了解信息使用的经济、法律和社会问题,在信
息获取和利用时自学遵守道德规范和有关的法律 问题。
信息利用能力
从大量文献发现和评价重要的数据、事实和结论 系统组织所获信息
7
五、学习医学信息检索课的意义
1、支持科研
科研是前人基础上的创新
继承前人哪方面的知识基础是有选择的、有专业方向的 创新要避免重复——在与“旧”的比较中发现“新”;
2、支持终身学习,提高工作能力
竞争激烈的社会背景 “我们再也不能刻苦地、一劳永逸地获取知识了,而
1.1.1 信“信息”通常有“消息、音信、迹象等” 含义;
最早出现在[唐]李中的《暮春怀故人》一诗中。
Information,大陆译为“信息”或“情报”,台湾 译为“资讯”。
信息概念应用很广(计算机、生物医学、信息管 理……),基本上已知的各个专业都在使用,并分 别给予了定义。
《医学文献检索与利用》课程介绍
课程性质:专业必修 学时:24学时(理论课16学时,实验课8学时 )
新生入学教育中另有4学时。
学分:1
1
引言:
一、信息社会、信息素质与信息素质教育
一门与信息获取与利用密切相关的课程。
当前的社会是信息社会。
信息爆炸性增长,且搜集、处理、传递和利用呈网络化、全球化趋势 知识和信息成为科技进步和社会发展的决定性因素
信息素质的生成及水平受多种因素影响
[信息检索]第一讲布尔检索BooleanRetrieval
[信息检索]第⼀讲布尔检索BooleanRetrieval第⼀讲布尔检索Boolean Retrieval主要内容:1. 信息检索概述2. 倒排记录表3. 布尔查询处理⼀、信息检索概述什么是信息检索?Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).信息检索是从⼤规模⾮结构化数据(通常是⽂本)的集合(通常保存在计算机上)中找出满⾜⽤户信息需求的资料(通常是⽂档)的过程。
Document –⽂档Unstructured – ⾮结构化Information need –信息需求Collection—⽂档集、语料库⼆、倒排记录表1、什么是布尔查询?布尔查询是指利⽤ AND, OR 或者 NOT操作符将词项连接起来的查询如:信息 AND 检索2、⼀个信息检索的例⼦(莎⼠⽐亚全集)不到100万单词,假设每个英⽂单词平均长度为8字节,则整个全集不到10MB查询需求:莎⼠⽐亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?查询的布尔表⽰:Brutus AND Caesar AND NOT Calpurnia解决⽅案:⽅法⼀:暴⼒⽅法从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus AND Caesar ,同时⼜不包含Calpurnia不⾜之处:速度超慢 (特别是⼤型⽂档集)处理NOT Calpurnia 并不容易(不到末尾不能停⽌判断)不太容易⽀持其他操作 (e.g., 寻找靠近countrymen的单词Romans)不⽀持检索结果的(灵活)排序 (排序时只返回较好的结果)优点:实现简单很容易⽀持⽂档动态变化⽅法⼆:倒排记录表词项-⽂档(term-doc)关联矩阵若某剧本包含某单词,则该位置为1,否则为0.关联矩阵的每⼀列(对应⼀篇⽂档)都是 0/1向量,每个0/1都对应⼀个词项关联矩阵的每⼀⾏(对应⼀个词项)也可以看成⼀个0/1向量,每个0/1代表该词项在相应⽂档中的出现与否给定查询Brutus AND Caesar AND NOT Calpurnia取出三个词项对应的⾏向量,并对Calpurnia 的⾏向量求反,最后按位进⾏与操作110100 AND 110111 AND 101111 = 100100.问题:当出现更⼤的⽂档集假定N = 1 百万篇⽂档(1M), 每篇有1000个词(1K)假定每个词平均有6个字节(包括空格和标点符号),那么所有⽂档将约占6GB 空间.假定词汇表的⼤⼩(即词项个数) M = 500K此时,词项-⽂档矩阵将⾮常⼤矩阵⼤⼩为 500K x 1M=500G但是该矩阵中最多有10亿(1G)个1:词项-⽂档矩阵⾼度稀疏(sparse)更好的办法:仅仅记录1的位置,即倒排索引对每个词项t, 记录所有包含t的⽂档列表.每篇⽂档⽤⼀个唯⼀的 docID来表⽰,通常是正整数,如1,2,3…磁盘上,顺序存储⽅式⽐较好,便于快速读取内存中,采⽤链表或者可变长数组⽅式倒排记录表按docID排序索引构建过程:1、词条序列:<词条,docID>⼆元组2、排序按词项排序,然后每个词项按docID排序1. 词典&倒排记录表某个词项在单篇⽂档中的多次出现会被合并拆分成词典和倒排记录表两部分每个词项出现的⽂档数⽬(doc frequency, DF)会被加⼊3、布尔查询的处理假定索引已经构建好了,如何利⽤索引来处理查询?AND查询的处理:考虑如下查询(从简单的布尔表达式⼊⼿):Brutus AND Caesar在词典中定位 Brutus返回对应倒排记录表(对应的docID)在词典中定位Caesar再返回对应倒排记录表合并(Merge)两个倒排记录表,即求交集合并过程:每个倒排记录表都有⼀个定位指针,两个指针同时从前往后扫描, 每次⽐较当前指针对应倒排记录,然后移动某个或两个指针。
第一讲__信息检索概述
第一讲信息检索概述1 信息的概念文献的概念信息是对客观世界中各种事物的特征、变化及其相互联系的最新反映。
信息是有用的知识。
文献的概念:凡是人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统称为文献。
文献也可称为固化在一定载体上的知识。
或者更简单地说,文献就是记录下来的知识。
甲骨、竹简、纸本图书、期刊、录音带、录像带、CD-ROM、磁盘、磁带. (文献载体)2 从文献检索到信息检索(1)文献检索指从文献中检索你所需要的知识、信息。
(2)文献检索作为检索类型时,检索包含你所需知识、信息的文献。
信息检索是最近几年的提法,这种提法和网络信息的迅速发展有很大的关系,因为人们在使用网络信息资源时不知道或不关心它存储在哪里。
我们不关心它的存储载体,只关心其内容,所以网络信息资源又被称为虚拟信息资源。
当我们检索所需知识或信息的资源从文献信息资源扩散到网络信息资源时,文献检索也就顺理成章地发展到信息检索。
文献检索是以工作的对象而命名,信息检索则是以工作的目的而命名。
当然,信息检索从广义上还包括其它非文献信息的检索,比如储存于大脑或其它实物上的信息的获得。
本课程主要讲述文献信息和网络信息(本质上还可以理解为电子文献)的检索。
3 信息检索的类型与渠道信息检索就是从众多信息中查找并获取有用信息的过程。
早期一般认为,信息检索(information retrival――情报检索)包括三个方面:(1)数据检索(data retrieval)例如:1982年1月每盎司黄金的价格;世界上最长的隧道有几米?(2)事实检索(fact retrieval)例如:世界上最长的隧道是哪条?到目前为止,惠泱河先生发表了哪些著作?现任哈佛大学校长是谁?(3)文献检索(document retrieval)例如:关于张恨水的作品评论有哪些文献资料。
数据检索与事实检索是要检索出包含在文献中的信息本身,而这里的文献检索指的是要检索出包含你所需信息的文献。
1 信息检索概述 武大黄如花
S C I E N T I F I C
S O L U T I O N S
评价信息检索系统效果的指标
• 查全率(Recall Factor,R) • 查准率(Precision Factor, P)
• 漏检率(Omission Factor)
• 误检率(Noise Factor) • 新颖率
• 检索速度
三级类目 四级类目
O13 …… 高等数学 O124 三角 O123
初等数学
初等代数
初等几何
武汉大学信息管理学院 黄如花
S C I E N T I F I C
S O L U T I O N S
• 国内外常用的叙词表:
• 我国的《汉语主题词表》
• 美国国会图书馆主题词表(LCSH)
• 英国《科学文摘》使用的《INSPEC叙词表》 • 美国《工程索引》使用的《COMPENDEX叙词表》
武汉大学信息管理学院 黄如花
S C I E N T I F I C
S O L U T I O N S
信息资源的有关概念
• 文献(literature,document) • 信息资源(information resource)
• electronic resources(电子资源) • virtual resources(虚拟资源) • digital resources(数字资源 ) • networked resources, WWW resources, resources on the Internet(网络资源) • online resources(联机资源) web-based resources,
S C I E N T I F I C
S O L U T I O N S
01信息检索概述
46
解决方案:智能信息检索
考虑词汇的意义(meaning) 考虑词汇的顺序(order) 根据直接或间接的反馈适应用户的需求 考虑信息来源的权威性(authority)
16
Internet网站数量的增长(1996.6.~2006.3.)
/robert/internet/timeline/#2000s
17
中国大陆Internet网站数量的增长 (1997~2006)
18
从人机交互到内容管理
人机交互解决信息录入和呈现的问题 在大量信息进入虚拟世界以后,更重要的问题 在于如何对这些信息资源进行有效的管理
同样也已采用文本检索技术
在Lotus Notes办公平台上
互联网数据的增长和在线文档(如联机用户手 册等)的增长,向IR技术提出迫切需求
15
信息过载(Information overload)
“…全世界每年产生1到2 EB(1 EB≈1018B)信 息,相当于地球上每个人大概产生250MB信 息。其中纸质信息仅占所有信息的0.03%...” 静态网页有上百亿,动态及不可见网页至少 是静态网页的500倍。 Tom Landauer认为人的大脑只能存储200M 信息量,一辈子只能接触6G的信息量。
跨语言检索
智能化、个性化检索
31
目前互联网发展状况
中国互联网信息中心(CNNIC)《中国互联网 络发展状况统计》 截至2008年底,我国网民人数达到了2.69亿, 占中国人口总数的20.5% 用户经常使用的网络服务/功能:
电子邮箱(91.3%) 浏览新闻(79.4%) 搜索引擎(64.5%)
信息检索第一讲 概述
检索网站
上海交通大学图书馆/中图法 山东理工大学图书馆/书目检索 信息检索与利用精品课程(山东理工大学教务处) /
有疑问或建议请发E-mail:
把文献存储与检索联系起来,把标引 人员与检索人员沟通起来的人工语言。
形 式语 特 言 :题名、著者、号码、出版项 征
检索语言
内 容语 特言 征
分类语言
主题语言
分类主题一体化语言
分类语言
将文献资料按学科、事物性质的等级
体系加以排列,用分类号来表达文献主题
概念的检索语言。
常用:中图法、科图法、人大法
《中国图书馆分类法》第四版(先组式语言)
文献:定义与类型
文献检索
检索工具:线索性、参考性、全文数据库 检索途径:分类、主题; 书名、作者、出版事项、号码
检索语言(文献排列、检索规律)
《中国图书馆分类法》
书目数据库的使用
实习内容:实习一
1. 掌握常用图书分类号(中图法)。 2. 掌握馆藏书目数据库的使用与开架书库图书的排列。 3. 浏览精品课程网站,说明你的体会。
(1)分类号 (2)书次号:顺序号(种次号)、著者号
例:
O13 110 O13 Z286
(O13/110)
功能介绍
书目检索系统功能总结
图书、期刊的单条件与多条件检索、分 类检索 新书通报等 我的图书馆
图书预约 图书荐购 图书续借 读者挂失
本讲重点
第一讲 信息检索概述
情报学硕士点
(1)信息检索与应用利用 (2)数据挖掘与信息处理技术 (3)信息计量与科学评价 (4)信息资源管理与信息技术应用 (5)知识产权
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 从以上归纳为:情报就是人们在特定的 时间内为一定的目的而传递的有特殊效 用的知识或信息。
信息 情报 文献 知识
(二)信息检索
• 1.定义
• 信息检索一词出现于20世纪50年代,又称信息 存贮与检索,是指将信息按一定的方式组织和存 储起来,并根据信息用户的需要找出有关的信息 的过程和技术。
什么方式? 如何组织?
文献的分类:按出版类型分
• 1)图书(狭义,专指书籍) • 2) 连续出版物:期刊、报纸、年鉴 • 3)特种文献:政府出版物、科技报告、 专利文献、会议文献、学位论文、技 术标准和规范、产品样本说明书 十大文献源
十大文献源
• • • • 1、图书 2、期刊 3、学位论文 4、会议论文 5、政府出版物 6、科技档案 7、科技报告:美国四大科技报告— PB、 AD、DOE、NASA • 8、产品样本:产品目录(万方数据库) • 9、专利文献 • 10、标准文献
(2)知识
• 知识:是关于事实与思想的陈述,这些 陈述能提出合理的判断或实证结果,它 们可以通过传媒传递给他人。是经过人 的思维整理过的信息。 • 包括客观知识和主观知识。
(3) 情报
• 中国著名科学家钱学森说,“情报就是 为了解决一个特定的问题所需要的知 识。”
• 近年来,国内情报界认为:为一定目的, 具有一定时效和对象,传递着的信息。
(1) 文献
• 文献的定义。中国国家标准颁布的《文 献著录总则》中定义:文献是记录有知 识的一切载体。
文献的分类:按存储载体分
• 印刷型信息:可以直接阅读、携带方便; 密度小、占用空间大。 • 缩微型信息:便于保存、转移和传递, 缩小文献的体积。 • 视听型信息:直观、形象、生动、逼真。 • 电子型信息:信息容量大、出版周期短、 检索方便、易复制,可交互性强、低成 本、高效益。
• 腾讯公司2008年的总收入——71.5亿元人民币,利润近 30亿,2009年收入124.4亿,同比增长73.9%。
信息爆炸:A信息量急剧增加;B信息分布异 常分散;C寿命越来越短 信息成为财富:信息成为与物质、能量并列 的人类社会赖以生存、发展的三大支柱之一。
终生学习:成为未来生活的重要部分。
第1卷为“分类号——主题词对应表”(2册)
第2卷为“主题词——分类号对应表”(4册)
思考:
• 1. “中国英语考试类”的分类号是什么? • 2. 使用分类号进行分类查询的特点是什 么?
• 查全率高
• 3.如何通过分类号知道该分类号所代表 的分类,如何通过某一检索主题确定其 分类号?
作业:
• 熟悉《文献检索》网络学习平台:
• 18 世纪法国杰出的启蒙思想家和教育思想家,本句 话出自他那部具有里程碑意义的名著《爱弥儿》
弟子不必不如师,师不必贤于弟子, 闻道有先后,术业有专攻,如是而已。
If you give a man a fish,he will have a single meal. If you teach him how to fish,he will eat all his life.
信息检索概述
•绘制“信息检索”的 • “知识点地图”
一、信息及信息检索
(一) 信息
• 1.定义
• 认识论:信息是观察者对事物 运动状态和方式的反映,和其 他事物相关。同一个事物的运 动状态和方式,对于不同的观 察者来说是不同的。
2. 与信息相关的其它几个概念及其关系
• (1)文献 • (2)知识 • (3)情报:是在一定环境下对用户有用的信 息.
标记符号: 由英文字母和阿拉伯数字 组成。 字母——大类 数字——类目的细分,数 字的位数一般代表类目的级 别,三位以“ 〃 ”间隔。 例:请将以下分类号排序: F2、F4、F11、F274 分类号按小数制排列。
常用复分号
-33 -43 -44 -49 -61 -62 -63 -64 试验方法与试验设备 教材 习题、试题及题解 普及读物 名词术语、词典 手册、指南、名录、年表 产品目录、产品样本、产品说明书 图解、图册、数据、公式
课程设置目的之二
• 满足考研族、就业族信息需求
二、授课与考核方法
• 1、授课方式
• 授课与实践相结合 • 授课与自助学习相结合
• 2、考核方法
• 结课考试:占40分 • 平常作业:40分 • 考勤:20分(不低于10分)
一 信息源能力 1 信息的概念、类型、分布。 2 文献、知识、情报的概念及与信息的区别与联系。 3 十大信息源 二 检索语言能力 1 分类法 三 技术设备能力 1 电子图书 2 中文数据库(学位论文、学术论文、 标准、专利数据库)检索能力 3 外文数据库检索 能力 4 搜索引擎的使用能力 5 新闻订阅功能的使用
馆藏图书索书号的组成
(1)分类号 (2)书次号:顺序号(种次号)、著者号
例:
H319.6 504=2 F270 Z286
(H319.6/504=2)
思考:书次号对我们有什么作用?
常用图书馆分类法
1、中国图书馆分类法CLC(Chinese Library Classification ) 网络资源:维客百科(2008-9-4) 我校书目检索系统中“分类检索” 2、美国国会图书馆分类法
• 2002年美国路易斯维尔大学图书馆 馆长Hannelore.B.Rader提出
• 信息素质的内涵包括图书馆素质、媒 体素质、计算机素质、因特网素质、 研究素质和批判性思考能力。
(1)信息意识
• 信息意识受一个人 的经历、学识以及 创造性思维能力等 因素的影响。
(2)信息能力
信息社会的特点
实用
• 主讲人:冯晓娜
• 山东理工大学科技信息研究所 • fxn0330@
第一讲
• 主要内容:
一、信息检索课程开设目的; 二、信息检索涉及到的几个概念。
• 本讲重点:
• 与信息检索相关的知识点
一、课程设置目的
1、提高信息素质
• 信息意识:捕捉、判断信息 并及时抓住有用信息的能力。 • 信息能力:信息源能力、检 索语言能力和技术设备能力, 是一种在技术层面、操作层面 和能力层面上的素养。 • 信息道德
• 我校的《文献检索》课被评为2007年的国 家精品课程,该课程提供良好的网络学习平 台,地址是:210.44.176.148,欢迎大 家通过网络学习平台自学文献检索知识与技 能。
• 进入作业系统
• 提交作业1。
下节课内容:
• 介绍十大文献源
• 目的:了解十大文献源的特点、收录范围; 了解高质量文献的主要形式、载体及其获取 方法,从而通过检索需求分析,知道哪些文 献源有自己需要的信息(即知道Where)。
2.检索语言
• 把文献存储与检索联系起来, 把标引人员与检索人员沟通起来的 人工语言。
检索
语言
形 式语 特言 征 内 容语 特言 征
责任者名、著者、题名、机构名、 出版地、出版社、标准书号、专 利号、档案号
分类语言(先组式语言) 主题语言(后组式语言)
分类主题一体化语言
UCNET、NETMinerⅡ、Pajek、 MultNet、Visone
3、杜威十进制分类法
4、通用十进制图书分类法
分类主题一体化语言— 《中国分类主题词表》
《中国分类主题词表》是在《中图法》编委会的主持下, 从1987年开始由全国40个图书情报单位共同参加编制, 1994年出版的一部大型文献标引工具书是分类检索语 言和主题检索语言兼容互换的工具。
《中国分类主题词表》分2卷6册
• 在未来社会里,文盲不是不识字的人,而 是那些不懂得学习方法、不会自行更新知 识的人。
• ——出自《学会生存》(联合国教科文组织编著)
• American Library Association ,ALA (美国图书馆协 会)指出:具有信息素质能力的人具 有终身学习的能力。
•
我的目的不是交给他各种各样的知识, 而是教他怎样在需要的时候取得知识。 • —— 卢梭
分类语言
将文献资料按学科、事物性质的等级体系 加以排列,用分类号来表达文献主题概念的检
索语言。
常用:中图法、科图法、人大法
《中国图书馆分类法》第四版(先组式语言)
《中图法》采用汉语拼 音字母与阿拉伯数字 相结合的混合号码, 用一个字母代表一个 大类,以字母顺序反 映大类的次序, 大 类下细分的学科门类 用阿拉伯数字组成。 为适应工业技术发展 及该类文献的分类, 对工业技术二级类目, 采=前5970年; • 2006年,全世界生产了1020 ~2×1020 字节信息,人均2500兆 字节; 信息爆炸 • iTunes的歌曲—350万以上,2010年2月24日下载量达到100首 • Amazon上的书————4百万以上 • 在线博客——————6千万以上 • 维基百科上的词条——4百万以上 • MySpace的账户————1亿以上 科学技术的迅猛发展已经说明 • YouTube上的视频———610万以上 信息已经不仅仅是科技进步的 • 据纽约时报,每年有两万个新词汇出现在英语中。 助推器、孵化器,信息成为与 • 过去200年才能开发出来的技术,现在需要1年; 物质、能量并列的人类社会赖 • 在物理学、化学、工程、生物学等领域,90%的知识信息在近20 以生存、发展的三大支柱之一。 年中产生;