第1讲 信息检索概述
第一讲 信息检索 PPT课件
第一节 信息 知识 情报 文献
2.知识 知识是人类认识的成果或结晶,是系
统化信息的集合. 知识的属性:
意识性 信息性 实践性 规律性 继承性 渗透性
第一节 信息 知识 情报 文献
3.文献 知识借助于一定的语言形式或物化为某
种劳动产品的形式,就成为可以交流的 文献。 文献的三要素:知识、载体、纪录方式。 文献的属性:知识信息性、客观物质性、 人工纪录性、动态发展性等。 文字形式的文献变成数据形式即称之 为电子文献。
信息的重要性(二)
从知识层面上理解
知识经济建立在知识 材料、 消耗 不可 不可 利用与创新的基础上, 能源 性 共享 再生 知识创新需要大量的
信息做原料。
信息与材料、能源 被称为当今社会的三 大资源
信息
非消 耗性
可共 享
可再 生
二、信息意识和信息素质
信息意识:是人们对各种信息的自觉 心理反应。
第一节 信息 知识 情报 文献
4.情报 在英汉词典中,“information”可译
为“信息”,也可译为“情报”. 情报:人们在一定的时间内为了一定
的目的而传递的有使用价值的知识. 情报的属性:知识性、传递性、效用性。 情报交流:直接交流和间接交流
第一节 信息 知识 情报 文献
信息的重要性 从情报的层面上理解 1.信息决定战争的胜负 2.信息决定企业的兴衰 3.信息是领导决策的依据。
二、文献的出版类型
按出版类型文献划分以下十大类:
(1)图书 (2)期刊(3)会议文献 (4)科技报告 (5)专利文献 (6)学位论文(7)标准文献 (8)政府出版物(9)产品资料 (10)技术档案
二、文献的出版类型
1.科技图书(Sci-Tech book) 阅读类:科普读物、专著、文集等 工具类:百科全书、年鉴、手册、词典等。
第1章 信息及信息检索概述
1.2 信息素养与创新能力
1.2.1 信息素养的内涵
第
信 息 及 信 息 检 索 概 述
一 章
4. 信息道德 信息道德是指个人在信息活动中的道德情操及行为规范。包 括学习了解信息与信息技术相关的法律、道德伦理、经济法规, 摘取利用信息资源时能够合法、合情、合理地使用信息,并遵守 一些约定俗成的规则等。总之信息道德是对信息创造者、信息服 务机构和信息用户之间相互关系的行为规范进行约束之准则。
第
信 息 及 信 息 检 索 概 述
一 章
2003年9月20至23日,联合国教科文组织(UNESCO)和美国 图书情报学委员会(NCLIS)在捷克首都联合召开的信息素养专 家会议发布了布拉格宣言:走向具有信息素养的社会。 这次会议共有来自世界23个国家的40位代表讨论了信息素养 问题。会议认为如何使人们从Internet时代的信息和通信资源及 技术中受益是当今社会面临的重要挑战。
1.1.2 信息检索类型
第
信 息 及 信 息 检 索 概 述
一 章
1. 按检索对象划分 (2)事实检索(Fact Retrieval) 事实检索是指以某一客观事实为检索对象或对已有的数据进 行处理(逻辑推理)后得出新的事实过程,其检索结果是数值性 数据和相关的资料。
1.1 信息与信息检索的基本概念
1.2 信息素养与创新能力
1.2.1 信息素养的内涵
第
信 息 及 信 息 检 立大学图书馆馆长理事会对信息素养的 定义表述为:“能清楚地意识到何时需要信息,并能确定、评价、有 效利用信息以及利用各种形式交流信息的能力”。
1.2 信息素养与创新能力
1.2.1 信息素养的内涵
1.1.1 信息与信息检索的定义
第一章_信息检索概述
从这个故事学到什么?
• 不同的人解读不同,但有一点是肯定的: 信息影响我们正确的判断力。
• 根源在于作为大学毕业生的儿子“媒介素 养”出了问题。
• 爱因斯坦“我是抓住书的骨头,抛弃书的 皮毛。”
对比统计
• 我国83%的高校学生不知道本专业的主要信息的 出处,70%的学生不知道本专业信息的检索方法, 60%的学生不知道在网络上检索本专业的信息。
大学生的“媒介素养”问题
• 经济危机时代的一则故事:一个没文化, 听力差,视力弱的人使用了很多方法使得 自己的面包店越做越大,正在他生意红火 的时候,他刚大学毕业的儿子加入了父亲 的生意。奇怪的事情发生了……
• 光顾他面包店的人越来越少了,利润很快 下滑,父亲对儿子说:“你说的对啊!我 们正在面临经济萧条与危机。”儿子说: “我很高兴之前提醒过你。”
信息的构成六要素
• 信源(不了解信源就不可能了解信息的内涵) • 语言符号(文字、符号、编码等) • 载体(信息必须附着在一定的物质上) • 信道 • 信宿 • 介质(语言、载体、信道都属于信息传递
的媒介形式)
信息的特征
• 信息与载体的不可分 • 信息的客观性 • 信息的价值性 • 信息的时效性 • 信息的可扩充与可压缩性
国内学术界定义
• 李克东:应包含信息技术操作能力、对信 息内容的批判与理解能力以及对信息的有 效运用能力。
• 徐福荫: 技术学---处理能力 心理学---解决能力 社会学---交流能力 文化学---构建能力
信息素养的概念
• 对信息进行查找、识别、加工、理解、处 理、传递、利用、评价、管理和创造的知 识、能力与观念、情感、意识和心理等各 方面基本品质的总和。
信息素养的构成
• 由信息意识、信息知识、信息能力和信息 道德等四个要素构成。
第一讲 文献信息检索概述
信息源
文献信息源 口头信息源 体语(体态)信息源 实物(现场)信息源
文献信息检索的实例:
查找经典作家或权威人士对某一问题的论述。 某一丽词骈语的出处、古今纪年的换算、成语典 故。 查找某一事实、数据、知识单元。 在研究某一问题时,获得前人和他人已经具有的 成果。 网上搜索(专业资料可利用网络信学术信息资 源)。 …… 总之,学习生活和科学研究中的许许多 多的问题,都需要查找文献资料,才能获得准确 的答案。
人才观
知识型人才 能力型人才 创造型人才 各类人才的两个必备能力:自学 能力和研究能力。而这两个能力 在很大程度上取决于文献信息的 检索能力。
(二)终身教育的需要
终身教育:20世纪50年代末60年代初形成于欧洲 的一种教育思潮。观点与认识不一,较为普遍的 解释是“人们一生中所受到的培养的总合”。
信息意识 信息知识 信息资源 信息(检索)技能
教学内容:
第一讲 第二讲 第三讲 第四讲 第五讲 第六讲 第七讲 第八讲 第九讲 文献信息检索概述 ; 文献信息知识基础; 图书馆利用; 参考工具书的使用; 中文期刊论文的检索; 主要英文检索刊物概述; 电子文献信息资源概述; 网络信息与搜索引擎; 特种文献信息的检索。
直接检索和间接检索的优缺点及辨证关系:
直接检索的优点:(1)是一种比较原始的方式,符合人们的检索
习惯。(2)易于掌握文献的实质内容,可直接判断其情报内容是否符 合自己的需要。(3)简便易行,可及时获得最新情报。缺点:盲目性、 偶然性大,在现代文献量激增、高度分散背景下,无法查全资料,且费 时费力。 间接检索的优点:是由检索工具的特点决定的。检索工具一般是由 权威部门和专业人员来编制的,因而能够把分散在不同学科、不同语种、 不同类型和不同发表时间,但学科内容相同的文献分门别类的集中编排 在一起,从而使盲目的分散的检索变成了有目的的集中检索,避免了直 接检索的分散性、盲目性和偶然性,提高了检索效率,节约了检索时间。 所以间接检索被称为科学的检索方法。缺点:间接性,无法直接判断 文献内容是否符合需要;存在时差问题,不能获得最新信息。(时差: 指检索工具的出版时间与原始文献的出版时间之间的时间间隔。) 辨证关系:二者各具优缺点,且具互补性。检索实践中,应二者并用, 相互补充。
1信息检索概述武大黄如花 ppt课件
SCIENTIFIC SOLUTIONS
《中图法》等级分明的科学系统
O
一级类目
数、理、化
O1 O3 O4 O6 O7 …… 二级类目
数学 力学 物理 化学 晶体
O11 O12
O13 ……
三级类目
古典数学 初等数学 高等数学
O121 O122
O123 O124
四级类目
算术 初等代数 初等几何 三角 2020/12/12
信息检索的常用术语
• 检索词:用户输入的字、词、字符或短语 • 检索式:检索提问表达式 • 检索策略:是对查询的全面策划,在操作上主要指数据库的选择和检索
式的编制 • 前者选择数据库资源,后者实现检索目标 • 一般也直接将检索式视为搜索策略
2020/12/12
武汉大学信息管理学院 黄如花
SCIENTIFIC SOLUTIONS
武汉大学信息管理学院 黄如花
精品资料
SCIENTIFIC SOLUTIONS
• 你怎么称呼老师? • 如果老师最后没有总结一节课的重点的难点,你是
否会认为老师的教学方法需要改进? • 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭 • “不怕太阳晒,也不怕那风雨狂,只怕先生骂我笨,
没有学问无颜见爹娘 ……” • “太阳当空照,花儿对我笑,小鸟说早早早……”
1 信息检索的含义
• 广义的信息检索
• information storage • information retrieval
SCIENTIFIC SOLUTIONS
• 狭义的信息检索
• information retrieval
2020/12/12
武汉大学信息管理学院 黄如花
信息检索基础知识介绍
原始文献 加工整理
提 问
数据库 存 储
检 索
输 出
检 索
三、信息检索的类型
(一)按检索对象和目的划分 1、数据检索
LOGO
是以数据为检索对象,检索的结果是经过测试、
评价过的各种数据、可直接用于分析和研究。
2、事实检索
是以具体事项为检索对象,检索结果是有关 某一事物的具体答案。
3、书目检索
以标题、作者、来源出处、专利号等为检索对象,
主题词语义参照系统
汉语拼音 Zà o shēng gān răo 符 英文 参照项 含义 噪声干扰 简称 英文全称 [56MB] 范畴分类号 正式主题词 号 简称 Zábō gān răo 汉语拼音 Noise jamming 英译名 用项 同义词(正 用 Y USE Use D 杂波干扰 Dià n zĭ duì kà ng 非正式款目主题词 杂波干扰 [56MB] 范畴分类号 式主题词 ) 瞄准式干扰 电子对抗* F · 通信对抗 代项 同义词 (非扫频干扰 代 Noise D jamming UF Used For 参 英译名 · · 通信干扰 关 阻塞式干扰 照 正式主题词 ) · · · 脉冲干扰 系 S 通信干扰 Y 噪声干扰 符 参照符号 关系词 · · · 欺骗性干扰 分项 狭义词 分 F NT Narrower Term 词 号 有源干扰 · · · 载波干扰 · · · 噪声干扰 属项 广义词 Z 电子对抗 属* S BT Broader Term · · · · 扫频干扰 C 连续波干扰 · · · · 阻塞式干扰 族项 族首词 族 Z TT Top Term 脉冲干扰 · · 通信抗干扰 调制干扰 参项 相关词 参 C RT Related Term
INFORMATION RETRIEVAL
第一讲__信息检索概述
第一讲信息检索概述1 信息的概念文献的概念信息是对客观世界中各种事物的特征、变化及其相互联系的最新反映。
信息是有用的知识。
文献的概念:凡是人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统称为文献。
文献也可称为固化在一定载体上的知识。
或者更简单地说,文献就是记录下来的知识。
甲骨、竹简、纸本图书、期刊、录音带、录像带、CD-ROM、磁盘、磁带. (文献载体)2 从文献检索到信息检索(1)文献检索指从文献中检索你所需要的知识、信息。
(2)文献检索作为检索类型时,检索包含你所需知识、信息的文献。
信息检索是最近几年的提法,这种提法和网络信息的迅速发展有很大的关系,因为人们在使用网络信息资源时不知道或不关心它存储在哪里。
我们不关心它的存储载体,只关心其内容,所以网络信息资源又被称为虚拟信息资源。
当我们检索所需知识或信息的资源从文献信息资源扩散到网络信息资源时,文献检索也就顺理成章地发展到信息检索。
文献检索是以工作的对象而命名,信息检索则是以工作的目的而命名。
当然,信息检索从广义上还包括其它非文献信息的检索,比如储存于大脑或其它实物上的信息的获得。
本课程主要讲述文献信息和网络信息(本质上还可以理解为电子文献)的检索。
3 信息检索的类型与渠道信息检索就是从众多信息中查找并获取有用信息的过程。
早期一般认为,信息检索(information retrival――情报检索)包括三个方面:(1)数据检索(data retrieval)例如:1982年1月每盎司黄金的价格;世界上最长的隧道有几米?(2)事实检索(fact retrieval)例如:世界上最长的隧道是哪条?到目前为止,惠泱河先生发表了哪些著作?现任哈佛大学校长是谁?(3)文献检索(document retrieval)例如:关于张恨水的作品评论有哪些文献资料。
数据检索与事实检索是要检索出包含在文献中的信息本身,而这里的文献检索指的是要检索出包含你所需信息的文献。
信息检索概述
海大图书馆
面积
2.5万m2
馆藏册数
156万
现刊种类
3500种
北大图书馆
北京图书馆 美国国会图书馆
5.3万m2
17万m2 34万m2
600多万
980多万 8100多万
4000种
3万多种
分布离散
现代科学技术的发展及其相互渗透,许多新
兴学科、边缘学科、交叉学科不断涌现。 专利文献的重复率达65%,科技报告的重复 率甚者可达80%。会议上发表的论文,大约有40 %会在期刊上报导。
1
1.1 1.2 1.3 1.4 1.5 1.6
信息检索概述
信息及其在学术研究中作用 信息检索的概念及原理 数字信息资源检索技术 信息检索的步骤 检索效果的评价 科技查新概念及其检索方法
1.1
信息及其相关概念
1.1.1 信息的概念、基本属性和特征 1.1.2 文献的概念、社会功能和类型 1.1.3 信息(文献)在学术研究中的作用
要自如地去对付这样一种文献分布局面,就
需要我们在查询文献、信息时应用适当的方法、
技巧去有效地获得比较满意的结果。
更新加快
未来学家约翰·奈斯比特在其著作《大趋势》中用 数字来形容知识的快速增长:“人类知识的总和在17501900年间翻了一翻;1900-1950年间则在此基础上翻了 一翻;之后的翻番发生于1960-1965年,自此以后的估 计是人类知识至少每5年翻一番。到2020年,人类知识 将每73天翻一番!”可见,知识与信息频繁在更新换代。 终身学习,不断去跟踪、获取最新信息、知识、文 献,去创新,这对每个科技人员来说是至关重要的。
较权威的图书分类法有:中国图书馆分类法、美 国国会图书馆分类法、杜威十进分类法。
第一讲 信息检索基础知识
外文图书的识别:
作者 编辑 Gong, Victor, and Norman Rudnick, Eds. AIDS: Facts and Issues. New Brunswick: Rutgers UP, 1986.
书名
出版社
3.科技文献的出版类型
——3.2 连续出版物
国际标准化组织在《国际标准书目著录(连 续出版物)》中给连续出版物的定义为:一 种逐次分册发行,通常都编有序号或年代标 号,并且打算无限期地连续出版下去的印刷 形式的出版物,包括杂志、报纸、年刊、各 种机构的报告丛刊和会志、会议录丛刊及单 行本的丛书。在众多的连续出版物中,具有 代表意义的是期刊、报纸和年鉴。 连续出版物的主要特点表现在:连续性、及 时性和稳定性。
图书是指内容比较成熟、资料比较系统、有完整定型 的装帧形式的出版物。科技图书是一种重要的科技文 献源,它大多是对已发表的科技成果、生产技术知识 和经验的概括论述。 特点:带有总结性、成熟定型;出版周期长,信息传 递慢;传授知识,而不是报道最新情报。 图书按功用性质一般分为两类: 阅读型:教科书、学术专著等 工具型: 字典、百科全书、年鉴、手册 识别依据:国际标准书号(ISBN)、书名、著者、出版地、 出版社、出版时间等
2.2.4
三次文献(参考性文献)
三次文献信息源指的是对一次信息所载内容进行
单元层次的选择,经过汇集、综合、分析、评述 等深度加工而成的产物。它的文献形式称三次文 献。其主要有两大类型:一是系统阐述某个领域 的内容、意义、历史、现状和发展趋势的综述性 学科总结等;二是把大量的定理、原理、数据、 公式、方法等知识进行浓缩和概括,编写成便于 查阅的参考工具书,如字词典、百科全书等。 三次信息源内容更集中,针对性更强,系统性好, 并有一定的检索功能,参考价值较大。
信息检索概述
信息检索概述信息检索概述摘要:信息检索模型是判断文本是否与查询相关和对相关文本进行排序的数学模型。
信息检索可分为传统的信息检索与网络信息检索。
传统的信息检索主要以手工检索为主。
网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。
随着计算机技术、通讯技术、网络技术的迅猛发展,网络信息检索已成为当今信息社会主要检索信息技术对于传统的基础教育影响越来越大,基于网络的教育教学资源剧增,成为高校文献检索课的教学重点。
本文介绍了传统的信息检索与网络信息检索的优缺点。
关键词:信息检索传统信息检索网络信息检索一、前言信息检索系统的研究是伴随着科学技术的发展和信息数量的俱增而兴起的,是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文献的活动及过程,其主要研究范围包括:信息检索理论、信息检索语义、信息检索系统的构建和评价、信息检索技术和方法等。
信息检索的研究已经有多年的历史,20世纪中叶以前,信息的存储和传播主要以纸质介质为载体,信息检索的研究主要围绕文献的获取和控制展开,主要关注如何检索和利用文献中记载的信息。
直到50年代,计算机被图书馆等部门广泛用来存储和管理文档,信息检索技术作为新的热点被广泛地研究。
到了80年代,信息检索领域在索引模型,文档内容表示以及匹配策略等方面取得了许多突破性的研究成果,并且成功地开发了一些系统。
例如Cornell大学的SMART系统和Massachusetts大学的INQUERY系统等。
Web的出现为信息检索提供了一个前所未有的实验环境和应用情景,许多Web信息检索系统应运而生,例如Yahoo!,Alta-vista等[1]。
本文介绍了传统的信息检索模型与网络信息检索的优缺点。
二、传统信息检索优缺点传统的信息检索主要以手工检索为主。
因此其灵活性较高,费用也较为低廉;此外传统信息检索能了解标引规则,按规则进行各项的著录,便于检索者根据文献标引规则查阅相关文献;同时能够了解各类检索刊的收录范围、专业覆盖面、特点和编制要点,检索回溯期长,可以提高查全率和查准率。
信息检索基本知识
琼州学院 胡爱民
Logo
检索结果
急性胰腺炎、急性重症胰腺、急性胆源性 胰腺炎、急性出血坏死型胰腺炎等急性胰腺炎
琼州学院 胡爱民
Logo
使用MEDLINE(06/7-06/10)查找免疫相关 的文献结果
琼州学院 胡爱民
Logo
应用举例(二)
“?”的应用
例如:拉米?定:可检出含拉米夫定和拉米呋定
定的文章; Protein?:可检出含 Proteins 和 Protein的所有文章
狭义的信息检索是指根据用户的需求,利用检索 工具或检索系统,查找出符合用户特定需要信息 的过程。
琼州学院 胡爱民
Logo
2.类型
检索手段
手工检索
计算机检索
联机检索 光盘检索 网络检索
琼州学院 胡爱民
8
Logo
第二节
信息检索原理
一、信息检索工具
定义:又称信息检索系统,是指累积文献 信息并提供检索途径的工具。 类型:
A
B
例如:用CBM查找1978年以来有关艾滋病的文献
检索式为:艾滋病 OR 爱滋病 OR AIDS OR 获得性免疫缺陷综合征
琼州学院 胡爱民
Logo
例1:用CBM查找1978年以来有关艾滋病的文献
AIDS
5574篇
爱滋病
469篇
艾滋病
19869篇 22834篇
艾滋病 OR 爱滋病 OR AIDS OR 获得性免疫缺陷综合征
琼州学院 胡爱民
数据库处 理
中国 图书馆 分类法
字段名
格式规 范 医学 主题词表 (MeSH)
琼州学院 胡爱民
Logo
两大外文保障中心
外文文献
出版专业实务-初级2020版-第一章-信息检索
东汉许慎编《说文解字》,首创部首编排法 是GB/T 13418-1992确认的汉子排序规则之一
(二)常用排检方法
4. 四角号码法
是GB/T 13418-1992确认的汉子排序规则之一 多用于编排汉语古籍索引
简称“中图法”
5. 中国图书馆分类法
是中华人民共共和国成立后编制的一种具有代表性的大型综合性图书分类法 5个基本部类、22大类
如《全国总书目》《全国报刊索引》
分经、史、子、集四部
6. 四部分类法
《四库全书总目》是四分法的典范
是我国古代图书分类的主要方法
第三节 数字化信息检索(一)是目前全球最大的中文搜索引擎 支持布尔逻辑检索、字段限制检索、短示和繁简中文查询等
一、网络检索工具
截词符号多用“?”或*
四、计算机检索技术与网络信息检索技巧
4. 限制检索 1. 选择核实的检索词
(二)网络信息检索技巧
2. 利用布尔逻辑运算符 3. 使用短语检索进行精确匹配
4. 利用高级检索
第四节 出版工作常用信息的检索方法
(1)利用“正史”艺文志、经籍志
(2)利用政书艺文志、经籍考
1. 古代著述的检索
2. 专业性百科全书:《社会科学百科全书》《中国文学百科全书》《世界历史百科全 书》《科学技术百科全书》《中国烹饪百科全书》《化工百科全书》等
3. 地域性百科全书:《北京百科全书》《黑龙江百科全书》《潮汕百科全书》等
是我国第一部现代大型综合性百科全书
1. 《中国大百科全书》
全书条目按条目标题的汉语拼音字母顺序排列
(二)百科全书的编排方式
条目之间靠参见系统相互联系,交叉而不重复
释文有长至十几万字的,也有仅百余字
大型百科全书的索引往往单独编为一卷或多卷
第一讲信息检索概述
《信息检索》课程第一讲信息检索概述授课人:***2013年5月25日《信息检索》课程Beihang内容提要•第一部分:信息与文献的基本概念•第二部分:信息检索的基本知识•第三部分:信息检索的技术背景与原理《信息检索》课程Beihang一. 信息与文献的有关概念二. 科技文献的系统结构三. 科技文献的类型四. 参考文献标准著录格式五. 文献源-文献馆藏系统六. 北航图书馆简介信息与文献的基本概念《信息检索》课程Beihang•什么是信息?•狭义:信息是信号和消息的简称,主要对应于人们的视觉和听觉。
•广义:信息是一切事物在人们大脑中的反映,既包括客观世界的表征,又包括主观世界的产品。
•信息和知识、文献、情报在词义上密切相关。
《信息检索》课程Beihang•信息与情报•在英汉词典中,“information”可译为“信息”,也可译为“情报”•钱学森对情报的解释是“为解决一个特定问题所需要的知识”,还特别强调情报有“及时性和针对性”。
《信息检索》课程Beihang•信息与知识、文献•知识可分为主观知识和客观知识,在人类生活环境中,普遍存在着信息,信息经过人脑接收、选择、处理而形成知识,这种存在于人类头脑中的知识称为主观知识。
•主观知识借助语言符号,通过各种物质载体记录下来,就变成可以传递的客观知识,即文献。
•文献:记录有知识的一切载体(文献三要素:知识、记录方式、载体)•科技文献:记录科学技术信息的载体《信息检索》课程Beihang《信息检索》课程Beihang•从情报的层面上理解1. 信息决定战争的胜负2. 信息决定企业的兴衰3. 信息是领导决策的依据《信息检索》课程Beihang•从知识的层面上理解•知识经济建立在知识利用与创新的基础上,知识创新需要大量的信息作原料。
•信息与材料、能源被称为当今社会三大资源。
材料、能源消耗性不可共享不可再生信息非消耗性可共享可再生《信息检索》课程Beihang•从文献的层面上理解•高尔基说:“书籍是人类进步的阶梯。
[信息检索]第一讲布尔检索BooleanRetrieval
[信息检索]第⼀讲布尔检索BooleanRetrieval第⼀讲布尔检索Boolean Retrieval主要内容:1. 信息检索概述2. 倒排记录表3. 布尔查询处理⼀、信息检索概述什么是信息检索?Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).信息检索是从⼤规模⾮结构化数据(通常是⽂本)的集合(通常保存在计算机上)中找出满⾜⽤户信息需求的资料(通常是⽂档)的过程。
Document –⽂档Unstructured – ⾮结构化Information need –信息需求Collection—⽂档集、语料库⼆、倒排记录表1、什么是布尔查询?布尔查询是指利⽤ AND, OR 或者 NOT操作符将词项连接起来的查询如:信息 AND 检索2、⼀个信息检索的例⼦(莎⼠⽐亚全集)不到100万单词,假设每个英⽂单词平均长度为8字节,则整个全集不到10MB查询需求:莎⼠⽐亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?查询的布尔表⽰:Brutus AND Caesar AND NOT Calpurnia解决⽅案:⽅法⼀:暴⼒⽅法从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus AND Caesar ,同时⼜不包含Calpurnia不⾜之处:速度超慢 (特别是⼤型⽂档集)处理NOT Calpurnia 并不容易(不到末尾不能停⽌判断)不太容易⽀持其他操作 (e.g., 寻找靠近countrymen的单词Romans)不⽀持检索结果的(灵活)排序 (排序时只返回较好的结果)优点:实现简单很容易⽀持⽂档动态变化⽅法⼆:倒排记录表词项-⽂档(term-doc)关联矩阵若某剧本包含某单词,则该位置为1,否则为0.关联矩阵的每⼀列(对应⼀篇⽂档)都是 0/1向量,每个0/1都对应⼀个词项关联矩阵的每⼀⾏(对应⼀个词项)也可以看成⼀个0/1向量,每个0/1代表该词项在相应⽂档中的出现与否给定查询Brutus AND Caesar AND NOT Calpurnia取出三个词项对应的⾏向量,并对Calpurnia 的⾏向量求反,最后按位进⾏与操作110100 AND 110111 AND 101111 = 100100.问题:当出现更⼤的⽂档集假定N = 1 百万篇⽂档(1M), 每篇有1000个词(1K)假定每个词平均有6个字节(包括空格和标点符号),那么所有⽂档将约占6GB 空间.假定词汇表的⼤⼩(即词项个数) M = 500K此时,词项-⽂档矩阵将⾮常⼤矩阵⼤⼩为 500K x 1M=500G但是该矩阵中最多有10亿(1G)个1:词项-⽂档矩阵⾼度稀疏(sparse)更好的办法:仅仅记录1的位置,即倒排索引对每个词项t, 记录所有包含t的⽂档列表.每篇⽂档⽤⼀个唯⼀的 docID来表⽰,通常是正整数,如1,2,3…磁盘上,顺序存储⽅式⽐较好,便于快速读取内存中,采⽤链表或者可变长数组⽅式倒排记录表按docID排序索引构建过程:1、词条序列:<词条,docID>⼆元组2、排序按词项排序,然后每个词项按docID排序1. 词典&倒排记录表某个词项在单篇⽂档中的多次出现会被合并拆分成词典和倒排记录表两部分每个词项出现的⽂档数⽬(doc frequency, DF)会被加⼊3、布尔查询的处理假定索引已经构建好了,如何利⽤索引来处理查询?AND查询的处理:考虑如下查询(从简单的布尔表达式⼊⼿):Brutus AND Caesar在词典中定位 Brutus返回对应倒排记录表(对应的docID)在词典中定位Caesar再返回对应倒排记录表合并(Merge)两个倒排记录表,即求交集合并过程:每个倒排记录表都有⼀个定位指针,两个指针同时从前往后扫描, 每次⽐较当前指针对应倒排记录,然后移动某个或两个指针。
第一篇信息检索概述常见问题
第一章信息检索概述常见问题1.什么叫文献?信息、知识、文献三者的关系如何?答:文献是记录有知识的一切物质载体。
具体地说是用文字、图形、符号、声频、视频等技术手腕记录人类知识的一切物质载体。
信息、知识、文献之间的关系是事物发出信息,信息经人脑形成知识。
只有将自然现象和社会现象的信息通过加工,上升为对自然和社会进展客观规律的熟悉,这种再生信息才组成知识。
知识信息被记录在载体上,形成文献。
二、什么叫一次文献、二次文献、三次文献?彼此之间有什么关系?举例说明。
答:凡是以著者本人的体会、研究或研制功效为依据而撰写的原始文献,经公布发表或交流后,称为一次文献。
一次文献是文献的主体,是最大体的信息源,是文献检索的对象。
其特点是论述比较具体、详细和系统化,有观点、有事实、有结论。
一样括期刊论文、专著、研究报告、会议文献、学位论文、说明书、技术标准、技术、科技报告等。
二次文献是通过对一次文献的、提炼和浓缩而形成的。
它将大量分散、无序的信息转变成有序的、便于的系统。
文献被紧缩成条款,也称记录(entry, reference, citation, record),并以必然的序列组织起来,成为可用于查找一次文献的工具。
二次文献也称二手资料,它包括目录、题录、文摘和索引等检索工具,可对一次文献进行报导和线索指引。
三次文献是对一次文献和二次文献进行聚集、综合、分析、详述等深度加工而形成的。
它包括手册、百科全书、年鉴、名录、指南等参考工具书。
还有二次书目、指南和综述性、评论性文献都属三次文献范围。
从一次文献、二次文献到三次文献的加工反映了文献的集中和有序化进程,而用户对原始文献的索求那么往往是一个逆向的进程。
3、依照文献的媒体形式的不同,文献有哪些类型?它们的特点是什么?答:依照文献媒体形式的不同,文献可分为以下几种形式:⑴型(printed form):也称介型(paper type), 是一种以纸介质为载体、以书写或印刷方式为记录手腕而形成的文献类型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
返回
信息的概念:从主观认识角度
信息是存储在人脑中的思想、观念、知识等形 态。 人们通过对客观世界的认识所形成的各种知识、 学问、消息等 。
返回
信息的概念
信 息 论 创 始 人 申 农 ( C.E.Shannon) 说 : “信息是能够用来消除不确定性的东西”。
问题:下面的论述是否为信息?
1)听说国际石油价格要涨; 2)国际石油价格现已涨到每桶70美元; 3)华盛顿是英国的总统;
问题:依据中图法,管理学所属大类是什么? 经济学所属大类是什么? 如下图:
返回
返回
返回
索书号又称排架号,它是每种图书在书库中所处位置的唯一标识, 也是图书排架、读者索书和藏书清点的标志和依据。
它由分类号和书次号两部分构成。
利用《中图法》分类的结果是使每种图书都获得一个分类号 (class number),但仅有一个分类号是不够的,因为同一类图 书可能有很多种,所以还有必要进行进一步区分。在分类的基础 上,再赋予每种图书一个书次号,共同组成图书的索书号(call number),如TP316/180。
返回
信息的几个相关概念
事实:人类思想和社会活动的客观映射 数据:事实数字化、编码化、序列化、结构化 信息:数据在信息媒介上的映射 知识:对信息加工、吸收、提取、评价的结果 情报:运用事实、数据、信息、知识而得出的有价值 的东西
如下图:
返回
情报
事实 数据、信息、知识等之间的关系
信息检索的概念和意义
返回
信息的特征
客观性 依附性(寄附性),如下图 传递性 共享性 衍生性(可加工性) 时效性 价值性(增值性)
返回
信息的分类:按表现形式分
文字信息 图像信息 数值数据信息 语音信息
返回
信息的分类:按出版类型分
1) 图书 2) 期刊 3) 政府出版物 4) 科技报告 5) 专利文献 6) 会议文献 7) 学位论文 8) 技术标准和规范 9) 产品样本说明书 10) 技术档案
返回
返回
返回
电子图书
返回
返回
返回
返回
返回
返回
返回
返回
返回
返回
返回
返回
返回
返回
引例3
在互联网上查找指定关于“管理学/成本会计/ 审计学”.doc类型的文件。
返回
返回
思考题
如何在互联网中查找自己任意指定的文件类型 (如docx文件,LRC文件、DLL文件等)?
返回
返回
信息的分类:按加工程度分
一次信息:人们研究或创造性活动成果的直接 记录。(图书、期刊、专利) 二次信息:对一次信息加工、整理而成的。 (目录、文献、索引) 三次信息:对一、二次信息综合、分析等深加 工的产物。(评论、进展报告、述评)
返回
信息的分类:按存储载体分
印刷型信息:可以直接阅读、携带方便;密度 小、占用空间大。 缩微型信息:便于保存、转移和传递,缩小文 献的体积。 声像型信息:直观、形象、生动、逼真。 电子型信息:信息容量大、出版周期短、检索 方便、易复制,可交互性强、低成本、高效益。
返回
返回
CNKI数据库 (中国知网)
返回
万方数据库
(中国科技信息研究所)
返回
返回
万方数据库
(中国科技信息研究所)
返回
维普数据库
(重庆维普)
返回
返回
引例2
找一本新出的关于“管理学”/“成本会计”的 电子图书。
返回
Springer数据库 (图书)
返回
返回
返回
返回
返回
超星电子图书
返回
信息素养
信息素养是指一个人利用信息工具的能力和获 取识别信息、加工处理信息、传递创造信息的 能力以及以独立学习的态度和方法将已获得的 信息用于信息问题的解决、进行创新性思维的 综合的信息能力 。
返回
结束
返回
第一讲 信息检索概述
一、信息的概念、特征与分类 二、信息的几个相关概念 三、信息检索的概念和意义 四、中图法
返回
信息的概念
信息是当代社会使用最多、最广、最频繁的词 汇之一 目前尚无公认的统一定义
返回
信息的概念:从自然界角度看
信息,既不是物质,也不是能量;它依附于自 然界客观事务而存在。 从这种意义看,信息比客观事物的属性更具有 一般性与普遍性。
广义:信息检索(Information Retrieval)是 指将信息按一定的方式组织和存储起来,并根 据信息用户的需要找出有关的信息的过程和技 术。 狭义:根据信息用户的需要找出有关的信息的 过程。 根据检索对象的不同,分为文献检索和数据检 索。
返回
信息检索的意义
有助于知识更新 有助于科学研究 有助于管理者做出正确的决策 解决个人其他方面的需求
返回
中图法
《中图法》是《中国图书馆图书分类法》的简 称,是我国目前通用的类分图书的工具。 国外图书分类方法:
– –
–
十进分类法 国际十进分类法 美国国会图书馆分类法
返回
国内图书分类方法:
–
–
–
中国图书馆分类法(中图法) 中国科学院图书馆分类法 中国人民大学图书馆图书分类法
返回
中图法的分类方法:根据图书资料的特点,按照从总到分, 从一般到具体的编制原则,确定分类体系,在五个基本部类 (“马列主义类” 、“哲学”、“社会科学”、“自然科学” 和“综合性图 书” )的基础上,组成二十二个大类。《中图法》的标记符 号采用汉语拼音字母与阿拉伯数字相结合的混合号码。即用 一个字母表示一个大类,以字母的顺序反映大类的序列。字 母后用数字表示大类以下类目的划分。
第1讲 信息检索概述
引例1
写一篇关于“成本会计” / “基础会计”(或 “管理学”等 )前沿问题的文章;
返回
EBSCO数据库
返回
点击“经济管理”
返回
EBSCO数据库
返回
返回
Emerald数据库
返回
返回
Springer数据库
返回
பைடு நூலகம்
返回
返回
返回
CNKI数据库 (中国知网)
返回
返回
返回
控制论创始人维纳( N.Weiner)认为:“信 息是人们在适应外部世界并且使这种适应反作 用于外部世界过程中,同外部世界进行交换的 内容的名称”。
返回
信息的概念
综上所述,信息是人类在认识和改造客观世界 中所依赖和使用的一种既非物质又非能量的东 西,它的表现形式可以是消息、信号、数据、 情报或知识;但是,信息又不仅存在于人类社 会,而是客观世界中一切物质的属性,它反映 的是物质之间的普遍联系。
返回
思考题
问题: 1、依据中图法,货币银行学所属大类是什么? 2、为什么会书名相同而索书号却不同?例如《钢铁 是怎样炼成的》有I512.45和TF5两种;又如《莫泊桑 短篇小说选》有I565.44和H319.4. 《钢铁是怎样炼成的》(文学作品) I512.45 《钢铁是怎样炼成的》(科技图书) TF5 《莫泊桑短篇小说选》(文学作品) I565.44 《莫泊桑短篇小说选》(中英文对照) H319.4