信息检索复习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 处理对象 非结构化信息 现实世界中存在着大量的非结构化信息,除 文本外,还有图像、图形、语音、视频等多 媒体信息。
信息检索的基本流程
与信息检索相关的学科
•自然语言处理 •分布式计算 •数据库 •数据挖掘 •情报学 •社会学
信息检索面临的问题
•处理海量数据量 •评价检索 •处理多源信息
信息检索中的关键技术
1. d123 2. d84 3. d56 4. d6 5. d8
(66%,20%)
6.ቤተ መጻሕፍቲ ባይዱd9 11. d38
7. d511
12. d48
8. d129 13. d250
9. d187 14. d113
10. d25 15. d3
(50%,30%) (40%,40%)
(33%,50%)
•信息抽取 •文本分类与聚类 •自动文摘 •链接分析 •分布式信息检索 •Web信息检索
信息检索中的应用研究
•话题检测与跟踪 •信息过滤、垃圾邮件过滤 •对抗式信息检索(adversarial IR) •企业搜索 •数字图书馆 •跨语言检索、多语言检索、为检索服务的 机器翻译 •基于内容的多媒体检索 •基因信息检索
信息检索的评价
• 针对一个检索系统,可以从功能和性能两 个方面对其进行分析评价
• 功能评价
– 可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
• 性能评价
– 对于检索系统的性能来说,除了系统的时间和 空间因素之外,要求检索结果能够按照相关度 进行排序
12
相关性
• 相关性理论假定:对于一个给定的文档集 合和一个用户查询,存在并且只存在一个 与该查询相关的文档集合
21
平均准确率
互联网信息检索
复习参考
网络信息检索
随着网络技术的飞速发展,信息检索工 作已经由传统的手工文献检索发展到智能 检索。认清网络信息检索的发展趋势,掌 握先进的网络信息检索技术,从浩如烟海 的信息中找到所需的信息,已成为当前重 要而实用的职业技能。
什么是网络信息检索
网络信息检索是由网络站点、网页浏览器和 搜索引擎以及网络支撑组成的检索系统。
• 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该 集合可由人工方式构造
• 一组评价指标。这些指标反映系统的检索性能。通过比较 系统实际检出的结果文档集和标准的相关文档集,对它们 的相似性进行量化,得到这些指标值
16
相关性判断
• 在早期的检索实验集合中, 相关性判断是全 方位的,就是说, 由专家事先对集合中每一篇 文献与每一个主题的相关性做出判断。
• 由于TREC 的文献集合如此庞大, 全方位的判 断是不可行的。因此TREC相关性判断基于 检索问题所来自的测试文档集合,并采用 一种“pooling”的技术来完成。
17
“pooling”方法
• 两个假设
– 假设绝大多数的相关文档都收录在这个文档池中 – 没有进行判断的文档即未被认为是不相关的
• “pooling”技术的具体操作方法是:针对某一检 索问题,所有参与其检索试验的系统分别给出各 自检索结果中的前K个文档(例如K=100),将这 些结果文档汇集起来,得到一个可能相关的文档 池“pool”
其中的核心部分,不是众多站点,而是网络浏 览器和具有收集、检索功能的搜索引擎。
众多站点、网页上的信息是网络信息的基本 组成部分。
浏览器
• 在网络发展初期,浏览器和简单的搜索引擎即 可帮助人们检索所需的文献信息。
• 浏览器相当于提供了一个信息总目,提供用户 对各个网站进行直接点击、浏览,通过超文本 链接,选择自己所需的信息。
高能粒子协会分别推出了因特网上的检索工 具WAIS、GOTHER和WWW。 目前,WWW因其集文本、图像、声音等多媒 体信息于一体的巨大优点,已占信息服务的 主导地位,基于Web的搜索引擎已成为最重 要的信息检索工具。
什么是信息检索?
信息检索就是从非结构化的信息集合中 找出与用户需求相关的信息。相应的,信 息检索系统就是用来实现信息检索功能的 计算机软件系统。
• 检索系统的目标就在于检出相关文档而排 除不相关文档
13
评价IR系统的困难
• 相关性不是二值评价,而是一个连续的量 • 即使进行二值评价,很多时候也很难 • 从人的立场上看,相关性是:
– 主观的,依赖于特定用户的判断 – 情景相关的,依赖于用户的需求 – 认知的,依赖于人的认知和行为能力 – 时变的,随着时间而变化
• 由检索评价专家进行人工判断,最终评判出每一 文档的相关性
18
准确率和召回率(查全率和查准率)
全部文本集合
相关文本
检索出的 文本
检出且 不相关
检出且 相关
检出
未检出且 不相关
未检出且 相关
未检出
召回率(Recall)= 检出的相关文档数/相关文档数 准确率(Precision)= 检出的相关文档数/检出文档数 假设:文本集中所有文献已进行 了检查
14
检索的评价
• 检索性能的评价
– 检索结果的准确度
• 检索任务
– 批处理查询 – 交互式查询
• 实验室环境下主要是批处理查询,具 有良好的可重复性和可扩展性
15
在评价和比较检索系统的检索性能需要以下 条件:
• 一个文档集合C。系统将从该集合中按照查询要求检出相 关文档
• 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用 户的信息需求
搜索引擎
• 搜索引擎是网络信息的检索工具,它可以帮助 用户快速搜索所需信息及其相关资料。
• 搜索引擎是因特网上的一种特殊类型的站点, 通过用户输入所需信息的关键词,经由检索服 务器处理内部数据库,匹配相关资料并整理后 输出,通过网络传给用户使用。
网络信息检索技术的发展现状
信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲
19
相关 不相关
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
1
理想情况
召回率
0
准确率
1
返回最相关的文本
但是漏掉了很多
相关文本
20
举例
• Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
• 通过某一个检索算法得到的排序结果:
(100%,10%) (precision, recall)
信息检索的基本流程
与信息检索相关的学科
•自然语言处理 •分布式计算 •数据库 •数据挖掘 •情报学 •社会学
信息检索面临的问题
•处理海量数据量 •评价检索 •处理多源信息
信息检索中的关键技术
1. d123 2. d84 3. d56 4. d6 5. d8
(66%,20%)
6.ቤተ መጻሕፍቲ ባይዱd9 11. d38
7. d511
12. d48
8. d129 13. d250
9. d187 14. d113
10. d25 15. d3
(50%,30%) (40%,40%)
(33%,50%)
•信息抽取 •文本分类与聚类 •自动文摘 •链接分析 •分布式信息检索 •Web信息检索
信息检索中的应用研究
•话题检测与跟踪 •信息过滤、垃圾邮件过滤 •对抗式信息检索(adversarial IR) •企业搜索 •数字图书馆 •跨语言检索、多语言检索、为检索服务的 机器翻译 •基于内容的多媒体检索 •基因信息检索
信息检索的评价
• 针对一个检索系统,可以从功能和性能两 个方面对其进行分析评价
• 功能评价
– 可通过测试系统来判定是否支持某项功能,因 此相对来说较容易
• 性能评价
– 对于检索系统的性能来说,除了系统的时间和 空间因素之外,要求检索结果能够按照相关度 进行排序
12
相关性
• 相关性理论假定:对于一个给定的文档集 合和一个用户查询,存在并且只存在一个 与该查询相关的文档集合
21
平均准确率
互联网信息检索
复习参考
网络信息检索
随着网络技术的飞速发展,信息检索工 作已经由传统的手工文献检索发展到智能 检索。认清网络信息检索的发展趋势,掌 握先进的网络信息检索技术,从浩如烟海 的信息中找到所需的信息,已成为当前重 要而实用的职业技能。
什么是网络信息检索
网络信息检索是由网络站点、网页浏览器和 搜索引擎以及网络支撑组成的检索系统。
• 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该 集合可由人工方式构造
• 一组评价指标。这些指标反映系统的检索性能。通过比较 系统实际检出的结果文档集和标准的相关文档集,对它们 的相似性进行量化,得到这些指标值
16
相关性判断
• 在早期的检索实验集合中, 相关性判断是全 方位的,就是说, 由专家事先对集合中每一篇 文献与每一个主题的相关性做出判断。
• 由于TREC 的文献集合如此庞大, 全方位的判 断是不可行的。因此TREC相关性判断基于 检索问题所来自的测试文档集合,并采用 一种“pooling”的技术来完成。
17
“pooling”方法
• 两个假设
– 假设绝大多数的相关文档都收录在这个文档池中 – 没有进行判断的文档即未被认为是不相关的
• “pooling”技术的具体操作方法是:针对某一检 索问题,所有参与其检索试验的系统分别给出各 自检索结果中的前K个文档(例如K=100),将这 些结果文档汇集起来,得到一个可能相关的文档 池“pool”
其中的核心部分,不是众多站点,而是网络浏 览器和具有收集、检索功能的搜索引擎。
众多站点、网页上的信息是网络信息的基本 组成部分。
浏览器
• 在网络发展初期,浏览器和简单的搜索引擎即 可帮助人们检索所需的文献信息。
• 浏览器相当于提供了一个信息总目,提供用户 对各个网站进行直接点击、浏览,通过超文本 链接,选择自己所需的信息。
高能粒子协会分别推出了因特网上的检索工 具WAIS、GOTHER和WWW。 目前,WWW因其集文本、图像、声音等多媒 体信息于一体的巨大优点,已占信息服务的 主导地位,基于Web的搜索引擎已成为最重 要的信息检索工具。
什么是信息检索?
信息检索就是从非结构化的信息集合中 找出与用户需求相关的信息。相应的,信 息检索系统就是用来实现信息检索功能的 计算机软件系统。
• 检索系统的目标就在于检出相关文档而排 除不相关文档
13
评价IR系统的困难
• 相关性不是二值评价,而是一个连续的量 • 即使进行二值评价,很多时候也很难 • 从人的立场上看,相关性是:
– 主观的,依赖于特定用户的判断 – 情景相关的,依赖于用户的需求 – 认知的,依赖于人的认知和行为能力 – 时变的,随着时间而变化
• 由检索评价专家进行人工判断,最终评判出每一 文档的相关性
18
准确率和召回率(查全率和查准率)
全部文本集合
相关文本
检索出的 文本
检出且 不相关
检出且 相关
检出
未检出且 不相关
未检出且 相关
未检出
召回率(Recall)= 检出的相关文档数/相关文档数 准确率(Precision)= 检出的相关文档数/检出文档数 假设:文本集中所有文献已进行 了检查
14
检索的评价
• 检索性能的评价
– 检索结果的准确度
• 检索任务
– 批处理查询 – 交互式查询
• 实验室环境下主要是批处理查询,具 有良好的可重复性和可扩展性
15
在评价和比较检索系统的检索性能需要以下 条件:
• 一个文档集合C。系统将从该集合中按照查询要求检出相 关文档
• 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用 户的信息需求
搜索引擎
• 搜索引擎是网络信息的检索工具,它可以帮助 用户快速搜索所需信息及其相关资料。
• 搜索引擎是因特网上的一种特殊类型的站点, 通过用户输入所需信息的关键词,经由检索服 务器处理内部数据库,匹配相关资料并整理后 输出,通过网络传给用户使用。
网络信息检索技术的发展现状
信息检索开始于20世纪90年代初。 1991年思维机等公司、明尼苏达大学、欧洲
19
相关 不相关
准确率和召回率的关系
返回了大多数相关文档 但是包含很多垃圾
1
理想情况
召回率
0
准确率
1
返回最相关的文本
但是漏掉了很多
相关文本
20
举例
• Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}
• 通过某一个检索算法得到的排序结果:
(100%,10%) (precision, recall)