信息检索评价指标PPT课件
合集下载
《信息检索》PPT课件
1985年,国家教委印发<改进和发展文献课教学的几点意 见>的通知. (85)教高一司字065号
1992年,国家教委印发《文献检索课教学基本要求》,全 面规定了“文献检索课”的课程性质、教学目的、课程组
织、教学评估.教高司[1992]44号
1993年,国家教委<关于成立《文献检索课》教学指导小
怎样提高信息处理能力?
精选课件ppt
7
内容提要
1
引言
2
基本概念
3
互联网资源
4
专业学术资源
5
商标权
6
其他知识产权
精选课件ppt
8
1. 信息、知识、情报、文献
信息:事物属性,是由事物发出的消息、指令、数据. 知识:是人类社会实践经验的总结,是人的主观世界对于
客观世界的概括和反映. 情报:是激活了的知识,是为特定目的服务的信息;是对
(20%)
精选课件ppt
15
2.3.1 图书
对已发表的成果和经验,或某知识领域的系统论述或总结. 通常以期刊论文、会议论文、研究报告等一次文献为基本
素材,经分析、归纳、重组而成.
范围:专著、文集、教科书、普及读物、百科全书、年鉴、手册、 词典等.
按载体形态分
手抄型文献 印刷型文献 微缩型文献 机读型文献(电子文献) 视听型文献
精选课件ppt
12
2.1 文献内容层次
零次文献:未经正式发表或不宜公开或交流的文献.
包括:底稿、手稿、文稿、书信、图纸、记录、经验、意见等.
一次文献:原始制作,即作者以本人的研究成果为基本素
材而创作(或撰写)的文献.
手抄型:主要指古旧文献和未经付印的手稿及技术档案之 类的资料.
信息检索之课件文稿演示
省图馆藏 书目查询 系统
2021年3月6日星期六
湖北民族学院《信息检索》(Information Retrieval )系列课件
3-16
检索方法
2021年3月6日星期六
湖北民族学院《信息检索》(Information Retrieval )系列课件
3-17
普通检索界面
2021年3月6日星期六 北京交通大学出版社《信息检索教程》(Information Retrieval Textbook)系列课件 3-18
随着现代计算机技术的发展,大多数图书馆都已 建成馆藏书目数据库,并进而发展成基于计算机网络 的联机公共目录检索系统(OPAC)。读者利用OPAC系 统,在任何地方都可以方便地查询图书馆的书刊信息, 使馆藏书目走出图书馆,实现了更广泛地服务于公众 的目的。
3-2
OPAC系统一般设置题名、责任者、主题词、分 类号、索取号、ISBN/ISSN号、出版社等字段,输入 检索词即可检索。系统执行后将逐条显示命中书刊的 基本信息,单击某个题名则进一步显示详细的书目信 息和馆藏及流通信息,读者可据此前往图书馆借阅。
由于图书馆的藏书数量相当庞大,而读者不可能 尽知每本图书的准确书名,因此在使用OPAC时,可 先通过题名、责任者、主题词等途径找出若干所需图 书,然后从这些图书的分类号入手,通过分类途径浏 览、查寻,最终找到自己最需要的图书。
2021年3月6日星期六
湖北民族学院《信息检索》(Information Retrieval )系列课件
湖北民族学院《信息检索》(Information Retrieval )系列课件
ห้องสมุดไป่ตู้
3-2
1 书刊目录检索系统
书目即书刊目录的简称。它是将图书、期刊按一 定规则著录、并有序编排而成的检索工具,它记载书 刊的题名、著(译)者、版本、出版地、出版者、出版 年、文献内容等信息。
信息检索ppt课件
编辑课件
7
全球医学教育最基本要求 (GMER)
国际医学教育组 (IIME )全球 医学教育最基本要求中涉及信 息管理的要求有5项:从不同数 据库和资源中查找、收集、组 织、解释相关医学生物信息; 从临床数据系统中检索特定病 人的信息;利用信息与网络技 术帮助诊断、治疗、预防及监 护与监测健康状况等;了解信 息技术的应用与局限;维护医 疗的实践记录以进行分析和改 进。
从哲学角度解释强调信息是客观性
编辑课件
16
信息的特征
• 客观性 • 依附性 • 可传递性 • 可加工性 • 时效性 • 共享性
编辑课件
17
2.知识
• 知识(Knowledge)是人们在认识和改造客
观世界的实践中所获得的认识和经验的总 和,是人类通过对信息的感知、获取、选 择、处理、加工等一系列思维过程,形成 的对客观事物的本质和规律的认识。
文献信息检索概念
编辑课件
1
课程目的
• 培养并提高学生的信息素养,为学习、工
作、科研等打下良好的基础
编辑课件
2
日本情报机构就是根 据1966《中国画报》 的这张照片及《人民 中国》杂志上发表的 铁人王进喜的事迹中 的一句“最早钻井是 在北安附近开始的” 分析出了大庆油田的 位置、规模、加工能
力
编辑课件
它为查找、利用一次文献提供线索,即为情报线索。
特点:汇集性、工具性、综合性、系统性
例如:索引、文摘、目录及相应的数据库等。
编辑课件
42
三次文献
是科技人员围绕某一专题,利用二次文献的检索,在吸取一
次文献内容的基础上,即经过阅读、分析、归纳、概括,撰 写而成的新的文献,或综述已取得的成果进展,或加评论、 或预测发展趋势。
【精品】信息检索ppt课件ppt课件
• 一个原则 • 两类搜索引擎 • 三大系列中文网站 • 四次文献: 零次文献
二次文献
• 五大多媒体技术 • 十大文献信息资源
一次文献 三次文献
• 一个原则 • 两类搜索引擎 • 三大系列中文网站 • 四次文献 • 五大多媒体技术:素材下载技术 素材转换技术
多媒体制作技术 素材发布技术 网页制作和网站发布技术 • 十大文献信息资源
图、文、声、像等信息存储到介质上通过计算 机阅读。
(2)、按信息加工级别划分信息源
• 信息出版量的急剧增长,信息类型的多样化和 信息分布的离散状态,获取相关信息犹如大海 捞针。利用信息的可塑性,将信息处理为不同 等级。通常文献学上将其称为“三次文献”:
一次文献 primary document 二次文献 secondary document 三次文献 Tertiary document 零次文献 最原始的资料
5)专利文献(patent)
种 6)学位论文 nment publication)
献
8)标准文献(standards) 9)产品资料(product literature)
10)科技档案(scientific and technical archives)
• 1)印刷型(Printed form)(书本型)
以纸张为载体 2)缩微型(Microform) 以缩微胶片、平片等感光材料为载体 3) 声像型(Audio-Visual form)(视听材料) 以磁性和感光材料为载体 4) 电子型(Machine Readable form) 以计算机信息存储设备为载体,以数字代码将
Company
LOGO
三、网络检索的 六大方面
• 一个原则:选择合适的关键词,制定正确的检索 策略。
信息检索基础PPT课件
信息检索基本原理的核心是用户信息需 求与文献信息集合的比较和选择,信息检索实 质上是两者匹配的过程。
4
2.1.2 信息检索类型
信
息 检
依检索内容划分
索
类
型
文献信息检索 数据信息检索 事实信息检索
5
2.1.2 信息检索的类型
数据检索:检索的结果是数据或数值。 如某种材料的电阻;某变压器
的参数;化学分子式、数据图表等。<手 册>
6
事实检索:检索的结果是事实结论。 查询某一事物(事件)的性质、定义、
原理以及发生的时间、地点过程等。如某 产品是哪个厂家生产,哪个牌子的最好; 第一颗人造卫星是什么时候升空的。<年 鉴>
7
文献检索:检索的结果是文献资料。 查找相关文献的内容、出处、收藏单位
等。如系统地查找数控机床相关方面的文 献。<论文 > 文献检索是信息检索的核心部分。
11
2.2 信息检索途径
检索途径就是检索文献的出发点及路线,也称 “检索点”。
信息检索与信息存储是互逆的过程,存储在检 索工具和系统中的有些著录项或标引字段是可以 提供检索的,这些著录或标引字段就是检索入口。
信息检索途径一般包括文献信息的内容特征途 径和外部特征途径。
12
▪ 根据信息外部特征和内容特征的不同标识, 检索途径可作如下划分:
26
主题语言
检 索 语 言
分类语言
关键词语言 叙词语言
标题词语言
27
2.3.1检索词的提取 ▪ 检索词提取原则
➢选用各学科的专业术语,不能用通俗用 语
➢选用意义明确的词汇,不用一般的、通 用性的词汇
➢充分利用规范词(叙词或主题词)
28
提取检索词的方法
4
2.1.2 信息检索类型
信
息 检
依检索内容划分
索
类
型
文献信息检索 数据信息检索 事实信息检索
5
2.1.2 信息检索的类型
数据检索:检索的结果是数据或数值。 如某种材料的电阻;某变压器
的参数;化学分子式、数据图表等。<手 册>
6
事实检索:检索的结果是事实结论。 查询某一事物(事件)的性质、定义、
原理以及发生的时间、地点过程等。如某 产品是哪个厂家生产,哪个牌子的最好; 第一颗人造卫星是什么时候升空的。<年 鉴>
7
文献检索:检索的结果是文献资料。 查找相关文献的内容、出处、收藏单位
等。如系统地查找数控机床相关方面的文 献。<论文 > 文献检索是信息检索的核心部分。
11
2.2 信息检索途径
检索途径就是检索文献的出发点及路线,也称 “检索点”。
信息检索与信息存储是互逆的过程,存储在检 索工具和系统中的有些著录项或标引字段是可以 提供检索的,这些著录或标引字段就是检索入口。
信息检索途径一般包括文献信息的内容特征途 径和外部特征途径。
12
▪ 根据信息外部特征和内容特征的不同标识, 检索途径可作如下划分:
26
主题语言
检 索 语 言
分类语言
关键词语言 叙词语言
标题词语言
27
2.3.1检索词的提取 ▪ 检索词提取原则
➢选用各学科的专业术语,不能用通俗用 语
➢选用意义明确的词汇,不用一般的、通 用性的词汇
➢充分利用规范词(叙词或主题词)
28
提取检索词的方法
信息检索评价指标1
关于召回率和正确率的讨论( 关于召回率和正确率的讨论(2)
虽然Precision和Recall都很重要,但是不同的应 和 都很重要, 虽然 都很重要 不用的用户可能会对两者的要求不一样。因此, 用、不用的用户可能会对两者的要求不一样。因此, 实际应用中应该考虑这点。 实际应用中应该考虑这点。
垃圾邮件过滤:宁愿漏掉一些垃圾邮件, 垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是 尽量少将正常邮件判定成垃圾邮件。 尽量少将正常邮件判定成垃圾邮件。 有些用户希望返回的结果全一点,他有时间挑选; 有些用户希望返回的结果全一点,他有时间挑选; 有些用户希望返回结果准一点, 有些用户希望返回结果准一点,他不需要结果很全就能 完成任务。 完成任务。
相关
检出 召回率(Recall)=检出的相关文档数/相关文档数,也称为查 查 召回率 全率,R∈[0,1] 全率 准确率(Precision)=检出的相关文档数/检出文档数,也称 准确率 为查准率 查准率,P∈[0,1] 查准率 假设:文本集中所有文献已进行了检查
9
举例
Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d 123} 通过某一个检索算法得到的排序结果: (100%,10%) (precision, recall) 1. d123 • 6. d9 • 2. d84 7. d511 3. d56 • 8. d129 4. d6 9. d187 (50%,30%) (66%,20%) d8 5. 10.(40%,40%) d25 •
6
如何评价效果
相同的文档集合,相同的查询主题集合, 相同的文档集合,相同的查询主题集合,相同的评 价指标,不同的检索系统进行比较。 价指标,不同的检索系统进行比较。
信息检索ppt格式课件
浏览器的几种基本功能
检索查询 :利用超文本进行链接,通过
HTTP协议,在任意WWW服务器上畅游。
文件服务:上载下载文件。 热表管理:记住刚刚访问过的网页,可
在热表中切换。
主页建立:有网页制作功能。
提供其它Internet服务,如:FTP Gopher WAIS Telnet E-mail 等。
2021/2/27
B类网络地址:头两段号码为网络ID号,后两段为 主机ID号。一般分给中等规模主机数的网络使用
C类网络地址:头三段为网络ID号,最后为当地号。 一般分给小型局域网使用。
类别 第一段号码 网络ID段数 最大主机数
A
B
C
2021/2/27
1-126 128-191 192-223
1
16,378,064
2
65516
第二节 网络信息资源
一、网络信息资源的概念与特点
1、概念
是指将文字、图像、声音、 动画等多种形式的信息数字化 后存放在光磁等非印刷介质的 载体中,并通过计算机网络通 讯等方式进行传递的信息内容 的集合。
2021/2/27
2、网络信息资源的特点
载体形式虚拟性 存储方式多样性 传播方式交互性 存在状态无序性、不稳定性 信息价值差异性
3、IP地址
(1)含义及作用
Internet为网络上的每个节点(主机、服务 器、客户机、路由器等)确定了一个网络位 置的唯一标识,即IP地址,以保证在分布于 世界各地的计算机间准确地传输信息。
2021/2/27
(2)IP地址的组成
IP地址是一个32位二进制数,按每8位换算为 十进制数字,分为4段号码,每段号码的值为 0~255,各段号码用小圆点“.”分隔。
信息检索教程PPT课件
目前有代表性的音频检索系统有美国加利福尼亚有限责任公司开发的 Muscle Fish系统。
第30页/共34页
第6章 计算机检索概述
1.什么是计算机信息检索? 2.概述计算机信息检索发展简史。 3.简述计算机信息检索的类型。 4.与传统的手工检索相比,计算机信息
检索有什么特点? 5.简述计算机检索策略的含义和作用。 6.什么是检索表达式? 7.检索表达第3式1页的/共构34成页 可以采用哪几种方法?
第6章 计算机检索概述
8.提高查全率的方法有哪些?请举例说明。 9.结合自己的检索实践,说明如何提高查准率。 10.概述全文检索技术。 11.概述基于内容的图像检索技术。
第6章 计算机检索概述
基于内容的图像检索技术
第26页/共34页
第6章 计算机检索概述 基于内容的图像检索方式主要有3种: (1)选择颜色的比例、轮廓形状以及纹理图案的图样进行查询。例
如用户可以给出红、绿、蓝三种颜色的百分比,或从系统所提供的图例中 选择某个作为检索图样。
(2)草图查询。用画图工具生成草图,从系统中查询与草图颜色分 布、形状或纹理相似的结果。
第8页/共34页
第6章 计算机检索概述
6.2.2 检索表达式
检索表达式是检索策略的具体体现,简称检索式。检索式一般由检索 词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置 关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行 的命令形式。检索式构造的优劣关系到检索策略的成败。
根据所检索媒体对象的不同,基于内容的多媒体检索 技术又可分为基于内容的图像检索技术、基于内容的视 频检索技术和基于内容的音频检索技术等。
第24页/共34页
第6章 计算机检索概述
第30页/共34页
第6章 计算机检索概述
1.什么是计算机信息检索? 2.概述计算机信息检索发展简史。 3.简述计算机信息检索的类型。 4.与传统的手工检索相比,计算机信息
检索有什么特点? 5.简述计算机检索策略的含义和作用。 6.什么是检索表达式? 7.检索表达第3式1页的/共构34成页 可以采用哪几种方法?
第6章 计算机检索概述
8.提高查全率的方法有哪些?请举例说明。 9.结合自己的检索实践,说明如何提高查准率。 10.概述全文检索技术。 11.概述基于内容的图像检索技术。
第6章 计算机检索概述
基于内容的图像检索技术
第26页/共34页
第6章 计算机检索概述 基于内容的图像检索方式主要有3种: (1)选择颜色的比例、轮廓形状以及纹理图案的图样进行查询。例
如用户可以给出红、绿、蓝三种颜色的百分比,或从系统所提供的图例中 选择某个作为检索图样。
(2)草图查询。用画图工具生成草图,从系统中查询与草图颜色分 布、形状或纹理相似的结果。
第8页/共34页
第6章 计算机检索概述
6.2.2 检索表达式
检索表达式是检索策略的具体体现,简称检索式。检索式一般由检索 词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置 关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行 的命令形式。检索式构造的优劣关系到检索策略的成败。
根据所检索媒体对象的不同,基于内容的多媒体检索 技术又可分为基于内容的图像检索技术、基于内容的视 频检索技术和基于内容的音频检索技术等。
第24页/共34页
第6章 计算机检索概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
3/2/2020
6
如何评价效果
相同的文档集合,相同的查询主题集合,相同的评 价指标,不同的检索系统进行比较。
The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇文档集合) SMART System,Gerald Salton, 1964-1988 (数千篇 文档集合) TREC(Text Retrieval Conference), Donna Harman, 美国标准技术研究所, 1992 -(上百万篇文档),信息检索 的“奥运会”
准确率(Precision)=检出的相关文档数/检出文档数,也称为 查准率,P∈[0,1]
假设:文本集中所有文献已进行了检查
9
3/2/2020
9
举例
Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d1 23}
(100%,1通0%过)(p某rec一isi个on检, re索ca算ll)法得到的排序结果:
5
在评价和比较检索系统的检索性能需要以下条件:
一个文档集合C。系统将从该集合中按照查询要求检出相关文档 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用户的信
息需求
对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该集合可
由人工方式构造 一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检 出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得 到这些指标值
3/2/2020
7
评价指标分类
对单个查询进行评估的指标
对单个查询得到一个结果
对多个查询进行评估的指标(通常用于对 系统的评价)
求平均
3/2/2020
8
单个查询的评价指标(1)
ቤተ መጻሕፍቲ ባይዱ
全部文本集合 相关文本
检索出的 文本
相关 不相关
检出且 不相关
检出且 相关
检出
未检出且 不相关
未检出且 相关
未检出
召回率(Recall)=检出的相关文档数/相关文档数,也称为查 全率,R∈[0,1]
1. d123 •
6. d9 • 11. d38
2. d84
7. d511 12. d48
3. d56 •
8. d129 13. d250
4. d6
9. d187 14. d113
(66%,205%.) d8 (50%,30%1) 0.(4d02%5,40%• ) 15(3. 3d%3,50•%)
10
3/2/2020
10
关于召回率的计算
对于大规模语料集合,列举每个查询的所有相关 文档是不可能的事情,因此,不可能准确地计算召 回率
缓冲池(Pooling)方法:对多个检索系统的Top N个结果组成的集合进行标注,标注出的相关文档 集合作为整个相关文档集合。这种做法被验证是可 行的,在TREC会议中被广泛采用。
信息检索的评价指标
高海燕 2010114014
3/2/2020
1
信息检索的评价指标体系
评价IR的意义 IR评价研究的内容和程序 如何评价效果 评价指标分类
单个查询的评价指标 多个查询的评价指标
3/2/2020
2
评价IR的意义
信息检索评价是对信息检索系统性能(主要满足用 户信息需求的能力)进行评估的活动。 通过评估可以评价不同技术的优劣,不同因素对系 统的影响,从而促进本领域研究水平的不断提高。 信息检索系统的目标是较少消耗情况下尽快、全面 返回准确的结果。
(33.3%,33.3%) (25%,66.6%)
(20%,100%)
F(3)
2 11
0.33 F(8)
1
2
1
0.36 F(15)
1 2 1 0.33
0.33 0.33
0.25 0.67
0.20 1
14
3/2/2020
14
单个查询评价指标(4) —引入序的作用
R-Precision
更重视P
E( j) 1
1 b2 b2 1
R( j) P( j)
(P 0, R 0)
3/2/2020
13
Example
1. d123 2. d84 3. d56 • 4. d6 5. d8
6. d9 11. d38 7. d511 12. d48
8. d129 • 13. d250 9. d187 14. d113 10. d25 15. d3 •
3/2/2020
3
IR评价研究的内容
效率(Efficiency)—可以采用通常的评价方法
������ 时间开销 ������ 空间开销 ������ 响应速度
效果(Effectiveness)
������ 返回的文档中有多少相关文档 ������ 所有相关文档中返回了多少 ������ 返回得靠不靠前
3/2/2020
12
单个查询评价指标(3)—P和R融合
F值:召回率R和正确率P的调和平均值,if P=0 or
R=0, then F=0, else 采用下式计算:
F( j)
1
2
1
(P 0, R 0)
R( j) P( j)
������
E值:召回率R和正确率P的加权平均值,b>1表示
其他指标
������ 覆盖率(Coverage) ������ 访问量 ������ 数据更新速度
3/2/2020
4
IR评价研究的程序
一项完整的检索评价工作可分为以下5个步骤:
(1)确定评价范围和目标 (2)选择评价方式 (3)设计或者制定评价方案 (4)实施评价方案 (5)总结与评价结论的形成
3/2/2020
计算序列中前R个位置文献的准确率
R指与当前查询相关的文献总数
1. d123 • 2. d84 3. d56 • 4. d6 5. d8
6. d9 •
2. 1. d123
7. d511
2. d84
8. d129
9. d187
3. 56 •
10. d25 •
R=10 and # relevant=4
3/2/2020
11
关于召回率和正确率的讨论(2)
虽然Precision和Recall都很重要,但是不同的 应用、不用的用户可能会对两者的要求不一样。因 此,实际应用中应该考虑这点。
������ 垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽
量少将正常邮件判定成垃圾邮件。
������ 有些用户希望返回的结果全一点,他有时间挑选; 有些用户希望返回结果准一点,他不需要结果很全就能 完成任务。