信息检索技术(课堂PPT)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由于计算机信息检索具有速度快、效率高,数据内容新、 信息容量大等特点,已成为人们在日常工作和生活中获 取信息的主要手段之一。
2020/8/8
3
信息检索中的术语
在当前信息检索的研究中,非结构化的数据记录通常特指 自然语言文本数据记录,又称(document)。
将大量非结构化的数据记录,按照一定的方式组织和存储 起来而构成的数据记录的集合称为信息检索中的数据全 集 (collection)。
2020/8/8
12
信息检索系统的评价
例如:设有一特定查询q,在数据全集中所有与该查询 相关的文档为 R { d 3 ,d 5 ,d 9 ,d 2 5 ,d 3 8 ,d 4 4 ,d 5 6 ,d 7 1 ,d 8 9 ,d 1 2 3 }
信息检索结果按相关度由大到小顺序是( □标志与q相 关的文档):
例如,如果停用词中包括{all, and, could, had, he, of,Βιβλιοθήκη Baiduon, than, that, the, to, with, their}
2020/8/8
4
信息检索中的术语
给定一个数据全集,信息检索过程可以描述为根据用户特 定的信息需求(information need),在数据全集中获取所 有和仅有的与用户信息需求相关的文档,并将这些文档按 照相关性 (relevance)的大小由大到小地排列(rank)。
用户特定的信息需求由查询(query)来表达,换句话说, 查询是反映用户信息需求的字符串,这个字符串可以是关 键字序列,也可以是一个布尔表达式,或者直接用自然语 言表达的问句。
2020/8/8
16
信息检索简史
1968年,Rocchio和Salton共同提出了查询扩展的方法。 1972年,Lockheed公司推出了DIALOG系统,成为世界首例 商用在线信息查询服务系统。
80年代 沉寂时期
90年代 爆炸期
2020/8/8
17
Outline
① 信息检索综述 ② 信息检索统计模型 ③ 信息检索中的自然语言处理方法 ④ 搜索引擎 ⑤ 结束语
2020/8/8
19
信息检索的统计模型
一个信息检索模型IRM 是一个三元组
D是文档的集合;
Q是用户需求的集合;
R:D×Q→ R R是集合D与Q的笛卡尔乘积到实数集R的一个 映射,对每个用户查询 q∈Q,每个文档d∈D ,映射R将 (q d)映射为一个实数,称为用户查询q与文档d的相关度。
2020/8/8
Van Rijsbergen于1979年提出了E(effectiveness)量度将精 确度和召回率结合起来,并赋以不同的权重,成为一个统 一的系统有效性的量度:
2020/8/8
15
信息检索简史
信息检索技术起源 1950年,美国学者Calvin N. Mooers首创了“信息检索”这 一术语。 1958年,美国学者Luhn提出了统计信息检索的基本理论和 方法。 1960年, Marson和Kuhns提出了信息检索的概率模型。 1965年,美国康奈尔大学的Gerard Salton 教授及其学生, 创立了信息检索向量空间模型
信息检索技术
2020/8/8
1
Outline
① 信息检索综述 ② 信息检索统计模型 ③ 信息检索中的自然语言处理方法 ④ 搜索引擎 ⑤ 结束语
2020/8/8
2
信息检索综述
信息检索(Information Retrieval) 是指将信息按一定的方式组织和储存起来,并根据用户 的查询字串,从表示信息非结构化数据,特别是非结构 化的文本数据中找到与查询字串相关信息的过程。
20
基于统计的信息检索模型
基于统计的信息检索模型包括布尔模型、扩展布尔模型、 向量空间模型、概率模型等等。在这类模型中,文档被表 示为关键词(keyword)的集合。
这一表示方式又称为文档的平面结构(flat structure),关 键词又称为索引词 (index term),是指除停用词之外的代 表文档内容的词,大多数是名词。
2020/8/8
5
信息检索系统
2020/8/8
6
信息检索系统
(1)用户接口模块 (2)用户查询文本操作模块
停用词
(3)文档文本操作模块
文档文本操作对文档数据库中的文档进行过滤停用词、词干抽 取等处理,并转换为机器内部的文档表示格式供索引构建模块处理。
2020/8/8
7
信息检索系统
(4)用户查询处理模块 (5)索引构建模块 (6)数据库管理模块 (7)搜索模块 (8)相关度排序模块
信息检索系统的评价
一个系统在实际应用中的时间和空间消耗是衡量一个系统 优劣的重要指标。
相关性介绍
两个最常用的基于相关性的系统评价指标分别是精确度( precision)和召回率(recall)。
2020/8/8
10
信息检索系统的评价
2020/8/8
11
信息检索系统的评价
人们经常使用精确度-召回率曲线 (precision-recall curve) 来定量分析一个信息检索系统的改进情况或者比较几个 信息检索系统的优劣。
2020/8/8
18
信息检索的统计模型
应用于信息检索领域的技术与方法可以粗略地划分为 两大类:基于统计的方法和基于语义的方法。
基于统计的方法主要根据用户查询与数据全集中的数 据的统计量度计算相关性。
基于语义的方法则对用户查询和数据全集中的数据进 行一定程度的语法语义分析,换句话说,这类方法是在对 用户查询和数据全集内容理解的基础上进行两者的相关性 计算。
2020/8/8
8
信息检索系统
整个信息检索系统可以分为检索子系统和信息存储管理子 系统两大部分。
信息检索系统的终极目标是使满足系统用户的信息需求的 开销(overhead)达到最小。所谓开销,是指从用户向系 统输入了一个查询开始,到他读到了包含他的信息需求的 文档为止的全部时间。
2020/8/8
9
2020/8/8
13
信息检索中的系统的评价
精确度-召回率曲线分析
2020/8/8
14
信息检索系统中的评价
许多用户对信息检索系统精确度要求较高,他们希望尽快 查到相关的文档,而不把时间浪费在无关的文档上。另外 一些用户则认为召回率更加重要,他们认为相关文档占检 索返回的文档比例越高,系统效果则越好。
2020/8/8
3
信息检索中的术语
在当前信息检索的研究中,非结构化的数据记录通常特指 自然语言文本数据记录,又称(document)。
将大量非结构化的数据记录,按照一定的方式组织和存储 起来而构成的数据记录的集合称为信息检索中的数据全 集 (collection)。
2020/8/8
12
信息检索系统的评价
例如:设有一特定查询q,在数据全集中所有与该查询 相关的文档为 R { d 3 ,d 5 ,d 9 ,d 2 5 ,d 3 8 ,d 4 4 ,d 5 6 ,d 7 1 ,d 8 9 ,d 1 2 3 }
信息检索结果按相关度由大到小顺序是( □标志与q相 关的文档):
例如,如果停用词中包括{all, and, could, had, he, of,Βιβλιοθήκη Baiduon, than, that, the, to, with, their}
2020/8/8
4
信息检索中的术语
给定一个数据全集,信息检索过程可以描述为根据用户特 定的信息需求(information need),在数据全集中获取所 有和仅有的与用户信息需求相关的文档,并将这些文档按 照相关性 (relevance)的大小由大到小地排列(rank)。
用户特定的信息需求由查询(query)来表达,换句话说, 查询是反映用户信息需求的字符串,这个字符串可以是关 键字序列,也可以是一个布尔表达式,或者直接用自然语 言表达的问句。
2020/8/8
16
信息检索简史
1968年,Rocchio和Salton共同提出了查询扩展的方法。 1972年,Lockheed公司推出了DIALOG系统,成为世界首例 商用在线信息查询服务系统。
80年代 沉寂时期
90年代 爆炸期
2020/8/8
17
Outline
① 信息检索综述 ② 信息检索统计模型 ③ 信息检索中的自然语言处理方法 ④ 搜索引擎 ⑤ 结束语
2020/8/8
19
信息检索的统计模型
一个信息检索模型IRM 是一个三元组
D是文档的集合;
Q是用户需求的集合;
R:D×Q→ R R是集合D与Q的笛卡尔乘积到实数集R的一个 映射,对每个用户查询 q∈Q,每个文档d∈D ,映射R将 (q d)映射为一个实数,称为用户查询q与文档d的相关度。
2020/8/8
Van Rijsbergen于1979年提出了E(effectiveness)量度将精 确度和召回率结合起来,并赋以不同的权重,成为一个统 一的系统有效性的量度:
2020/8/8
15
信息检索简史
信息检索技术起源 1950年,美国学者Calvin N. Mooers首创了“信息检索”这 一术语。 1958年,美国学者Luhn提出了统计信息检索的基本理论和 方法。 1960年, Marson和Kuhns提出了信息检索的概率模型。 1965年,美国康奈尔大学的Gerard Salton 教授及其学生, 创立了信息检索向量空间模型
信息检索技术
2020/8/8
1
Outline
① 信息检索综述 ② 信息检索统计模型 ③ 信息检索中的自然语言处理方法 ④ 搜索引擎 ⑤ 结束语
2020/8/8
2
信息检索综述
信息检索(Information Retrieval) 是指将信息按一定的方式组织和储存起来,并根据用户 的查询字串,从表示信息非结构化数据,特别是非结构 化的文本数据中找到与查询字串相关信息的过程。
20
基于统计的信息检索模型
基于统计的信息检索模型包括布尔模型、扩展布尔模型、 向量空间模型、概率模型等等。在这类模型中,文档被表 示为关键词(keyword)的集合。
这一表示方式又称为文档的平面结构(flat structure),关 键词又称为索引词 (index term),是指除停用词之外的代 表文档内容的词,大多数是名词。
2020/8/8
5
信息检索系统
2020/8/8
6
信息检索系统
(1)用户接口模块 (2)用户查询文本操作模块
停用词
(3)文档文本操作模块
文档文本操作对文档数据库中的文档进行过滤停用词、词干抽 取等处理,并转换为机器内部的文档表示格式供索引构建模块处理。
2020/8/8
7
信息检索系统
(4)用户查询处理模块 (5)索引构建模块 (6)数据库管理模块 (7)搜索模块 (8)相关度排序模块
信息检索系统的评价
一个系统在实际应用中的时间和空间消耗是衡量一个系统 优劣的重要指标。
相关性介绍
两个最常用的基于相关性的系统评价指标分别是精确度( precision)和召回率(recall)。
2020/8/8
10
信息检索系统的评价
2020/8/8
11
信息检索系统的评价
人们经常使用精确度-召回率曲线 (precision-recall curve) 来定量分析一个信息检索系统的改进情况或者比较几个 信息检索系统的优劣。
2020/8/8
18
信息检索的统计模型
应用于信息检索领域的技术与方法可以粗略地划分为 两大类:基于统计的方法和基于语义的方法。
基于统计的方法主要根据用户查询与数据全集中的数 据的统计量度计算相关性。
基于语义的方法则对用户查询和数据全集中的数据进 行一定程度的语法语义分析,换句话说,这类方法是在对 用户查询和数据全集内容理解的基础上进行两者的相关性 计算。
2020/8/8
8
信息检索系统
整个信息检索系统可以分为检索子系统和信息存储管理子 系统两大部分。
信息检索系统的终极目标是使满足系统用户的信息需求的 开销(overhead)达到最小。所谓开销,是指从用户向系 统输入了一个查询开始,到他读到了包含他的信息需求的 文档为止的全部时间。
2020/8/8
9
2020/8/8
13
信息检索中的系统的评价
精确度-召回率曲线分析
2020/8/8
14
信息检索系统中的评价
许多用户对信息检索系统精确度要求较高,他们希望尽快 查到相关的文档,而不把时间浪费在无关的文档上。另外 一些用户则认为召回率更加重要,他们认为相关文档占检 索返回的文档比例越高,系统效果则越好。