信息检索技术的现状与发展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
续
信息检索(IR)
广义上说,IR是指将信息按照一定的方式组织和存 储起来,并能根据用户的需求查找出其中相关信息 的过程。 “存”——主要指面向来自各种渠道的大量信息资 源而进行的高度组织化的存储; “取”——要求面向随机出现的各种用户信息查询 请求进行高度选择性的查找,并且强调查找的快速 与便利性。 狭义的信息检索一般仅指“取”的过程。对信息用 户而言,后者更为重要。
40
续
41
2.5 我们的一点工作
基于内容与链接的检索模型
Q 1-π P1 1-π P2 1-π P3 P0 1-ρ
Y
Y1
Y2
Y3
b0 a3 b3 a2 b2 a1 b1
Y0
42
续
ai
ai 1-π
Y0
Yi
Yi M
1-ρ Y Σ bi Y0 b0
43
续
计算结果:
(1)计算从查询到各页面转移概率(基于内容或 其它); (2)计算从页面1页面2的概率(基于链接); (3)对所有页面排序得到相对于查询Q的重要性 队列,反馈给用户。
29
tf.idf 加权(续)
Document frequency:含有termi 的文档的数量,记做dfi dfi 越高,意味着termi 在衡量文档之间相似性方面作用 越低,(大部分文档都包含,就没有特色了)。 比如“的”的df值肯定非常高,因此不具有区别性,这 类词称为“非焦点词”; 在前面的例子中,如果该篇谈论乔丹的文章是出自于 “篮球天地”这本期刊,显然该期刊中有很多篇文章 都含有“篮球”这个词,这样,尽管“篮球”这个词 在该篇文章中的tf值很高,但对该篇文章的唯一性方 面没有提供什么帮助。
p 1/ p i 1
20
续
xm表示第m 个项目在文档 d 中的重要性度量;
1≤p<∞ p表示项目间逻辑关系严格的程度(degree of strictness),取值为1 最松,取值为无穷大最严 p=+∞ p-norm模型等同于经典的布尔模型; 当p较低时,AND式中的一个权值较低的项会使总体值大大降低;OR式中的一个 权值较高的值会使总体值大大提高。
2 xi yi
i 1 t
dice( X , Y )
x y
i 1 2 i i 1
t
t
2 i
其中:X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量, t为其维度。
35
Jaccard coefficient(杰卡德系数)
2 xi yi
i 1 t
检索
文档表示
建立索引
用户需求
匹配过 程
文档
8
Web 检索的一般模式
9
2. 信息检索的基本方法
在信息检索中,中心问题是如何判断一篇文 档是否与用户的查询条件相关。 通常方法是设计一个评分函数(即相似性计算 函数),对检索过的文档进行评分,然后再根 据评分的高低对这些文档进行排序。 评分函数是信息检索系统是否获得成功的关 键因素之一。
31
tf.idf 加权(续)
索引项加权:给那些经常出现在一个文档中,而不常出现在 其他文档中的项目以更高的权重,即让“特别的词”从“一 般的词”中凸现出来。 在这个基本精神指导下,出现了许多不同的加权公式
32
tf.idf 加权示例
33
tf.idf 加权示例(续)
34
Dice coefficient: (掷骰子系数)
x
x
max xi .
1 i n
xi .
i 1 n
1
19
续
2. 向量的1-范数
x
1
xi .
i 1
n
3. 向量的2-范数
x 2 ( x, x ) ( x ) .
4. 向量的p-范数
n
i 1
1 2
n
1 2 2 i
x
p
( xi ) , p [1, ).
23
文档的向量表示
假定有三个项目:
“葡萄”,“美酒”,“夜 光杯”
假定以项目在文本中的 出现次数为项目的权值 葡萄 美酒 夜光杯 T1 T2 T3 d1 2 3 5 d2 3 7 2
q
0
0
2
24
计算向量之间的相似度
向量间相似程度的不同度量方法
Inner product (内积) Cosine coefficient(余弦系数) Dice coefficient: (掷骰子系数) Jaccard coefficient(杰卡德系数)
21
2.2 向量空间模型
思想: 文档D和查询Q(统称为文本)都可用向量表示 检索过程就是计算文档向量与查询向量之间的 相似度 根据相似度值的大小,对检索结果进行排序 根据检索结果反馈意见,作进一步的相关检索 (Relevance feedback)
22
从文本到向量空间(vector space)
16
续
对于Term1 OR Term2形式Query,相似度公式为:
x表示Term1在文档dj中的重要程度∈(0,1) y表示Term2在文档dj中的重要程度∈(0,1)
对于Term1 AND Term2形式Query,相似度公式为:
17
相似度计算示例
18
P-norm模型
思想:将上述只包含两个项目(Term)的查询式的 相似度计算进一步拓展为包含m 个项目的查询式 的相似度计算。 补:几种常用的向量范数 1. 向量的∞范数
12
布尔检索示例
13
真值表(Truth Table)
P
0 0
1 1
Q
0 1
0 1
NOT P
TRUE TRUE
FALSE FALSE
P AND Q
FALSE FALSE
FALSE TRUE
P OR Q来自百度文库
FALSE TRUE
TRUE TRUE
14
布尔检索的特点
优点
1)简单、速度快
缺点
1)不够精确,不能反映不同“项目”对一个 文档的重要程度的差异 (只提供“有/没有”两个选项) 2)检索结果地位平等,无法排序
Jaccard ( X , Y )
xi2 yi2 xi yi
i 1 i 1 i 1
t
t
t
其中:X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量, t为其维度。
36
2.3 概率模型
检索问题即求条件概率问题 If Prob(R|di, q) > Prob(NR|di, q) then di 是检索结果, else di 不是检索结果
(1)项目-出现/不出现:1或0 (2)项目-出现的次数:0,1,2,…
需要更好的权值计算方法……
28
tf.idf 加权法
tf.idf加权法(Term Frequency(项频率) • Frequency(逆向文档频率))
Inverse Document
Term frequency:termi 在文档dj中的出现次数,记做tfi,j tfi,j 越高,意味着termi 对于文档dj 就越重要 如:一篇谈论乔丹的文章,可以预期“乔丹”、“飞人” 等词的tf值会比较高; 但:该篇文章中还有“篮球”这个词,它出现的次数也 很高,是不是这个词对这篇文章也很重要呢?
2)查询表达式易于掌握
―飞碟”AND ―小说”:只能检索出D4,无法显现D1,D2,D3的差异 “飞碟”OR ―小说”:可以检出D1,D2,D4,但无法显现它们的差 异 即:页面之间的重要性无法表示。
15
扩展的布尔检索(Extended Boolean Model)
目的:为了克服布尔模型查询结果的无序性; 思想:将非此即彼的匹配方式改为计算相似度 (Similarity);将所检索文档信息中索引项与用 户查询表达式进行相似度计算,按相关的优先 次序排列查询结果; 常见:MMM模型、Paice模型、P-norm模型
38
续
39
2.4 基于链接的检索
对于搜索引擎,除了可以利用页面本身的内容 外,还可以利用的资源就是链接,Google就是 采用这种方式取得成功的例子,它采用了Brin 与Page发明的链接价值计算算法。 Google自称利用该技术获得了极大的成功; 百度自称利用自有的类似技术也获得了极大成 功。
在上面的例子中,如何度量q 跟 d1 还是 d2 更相似些?
25
余弦系数:相似程度的度量方法之一
26
余弦系数计算示例
27
索引项权值的计算(Term Weight)
权值的直观含义:
一个项目对于一个文本的重要程度: 即一个项目在多大 程度上可以将这个文档与其他文档区别开
计算权值的两种简单方式:
1995.11
信息表现形式的变化
: hardcopy electronic device 数据访问形式的变化:online data online information service
信息存储介质的变化
7
IR系统的一般模式
相关反馈 检索结果
生成查询表达式
对查询表达式进 行分析处理
11
2.1 布尔模型
查询表达式:由逻辑算子AND, OR, NOT连接若 干“项目”(Term)构成; e.g. 1) ―飞碟” 2) ―飞碟”AND ―小说” 3) ―飞碟”AND (―中国”OR (NOT ―科幻小 说”))
检索/匹配:返回值=1,表示文档符合 User Query要求 返回值=0,表示文档不符合User Query要求
Document Retrieval is defined as the matching of some stated user query against useful parts of free-text records.
Donna Harman et al. , 1996, Document Retrieval, in Survey of the State of the Art in Human Language Technology
10
续
根据对相关文档判定方法的不同,信息检索模 型至少可以分为以下四类经典模型:
(1)布尔模型(派生出:MMM模型、Paice模型、P-范 数模型); (2)向量空间模型(派生出:广义向量空间模型、潜 在语义索引模型); (3)概率模型(派生出:推理网络模型); (4)语言模型方法[Ponte,1998](派生出:HMM模型、 统计翻译模型、风险最小化框架模型、相关模型)。
37
续
文档与查询条件的相似性计算是基于概率排序 原理,即通过估计文档与用户查询条件的相关 概率对文档集合进行排序。 概率模型的特点是它以文档与查询条件相关的 概率对文档进行降序排列,以期待得到最好的 检索性能,缺点:
(1)需要假定初始的相关和不相关文档集合; (2)没有考虑文档内部索引检索词的频率信息,检索 词的权重值是二元的; (3)假定索引检索词是互相独立的。
信息检索技术的现状与发展
主要内容
信息检索的概念(Information Retrieval, IR) 信息检索的基本方法
基于内容的检索
布尔模型 向量空间模型 概率模型
基于链接的检索
信息检索系统的性能评测 信息检索的未来发展
2
1. 信息检索(IR)的概念
文档检索
3
续
文档检索定义为在有用的自由文本中寻找与 用户查询相匹配的状态的过程;
30
tf.idf 加权(续)
Inverse document frequency:跟dfi 形成“反比关系”, idfi 值越高,意味着termi对于文档的区别意义越大. 定义:
N idfi log df i
式中:N为全部文档的数量。 如果一个项目仅出现在一个文档中,则dfi =1,因此, idf=logN,取得最大值;即对区分文档作用最大; 如果一个项目出现在所有文档中,则dfi =N,因此, idf= log1 = 0,取得最小值,即对区分文档作用最小。
5
文档检索与IR区别
信息源数据不同
结构化的数据 ( e.g. relational database ) 半结构或无结构化的数据 ( e.g. free text, web page, etc. ) 采用规则表达式的方法 采用自然语言的方法 面向专家的系统 面向普通用户的系统 ( e.g. SQL ) ( e.g. ―航空母舰的发展历史” )
查询方式不同
查询需求不同
6
IR需求的发展
互联网信息的快速膨胀
1990互联网出现;
有 50 million 个网页; 1997.12 有 320 million个网页; 1999.2 有 800 million个网页; 2000 有 1 billion个网页; …… and growing every day now
续
信息检索(IR)
广义上说,IR是指将信息按照一定的方式组织和存 储起来,并能根据用户的需求查找出其中相关信息 的过程。 “存”——主要指面向来自各种渠道的大量信息资 源而进行的高度组织化的存储; “取”——要求面向随机出现的各种用户信息查询 请求进行高度选择性的查找,并且强调查找的快速 与便利性。 狭义的信息检索一般仅指“取”的过程。对信息用 户而言,后者更为重要。
40
续
41
2.5 我们的一点工作
基于内容与链接的检索模型
Q 1-π P1 1-π P2 1-π P3 P0 1-ρ
Y
Y1
Y2
Y3
b0 a3 b3 a2 b2 a1 b1
Y0
42
续
ai
ai 1-π
Y0
Yi
Yi M
1-ρ Y Σ bi Y0 b0
43
续
计算结果:
(1)计算从查询到各页面转移概率(基于内容或 其它); (2)计算从页面1页面2的概率(基于链接); (3)对所有页面排序得到相对于查询Q的重要性 队列,反馈给用户。
29
tf.idf 加权(续)
Document frequency:含有termi 的文档的数量,记做dfi dfi 越高,意味着termi 在衡量文档之间相似性方面作用 越低,(大部分文档都包含,就没有特色了)。 比如“的”的df值肯定非常高,因此不具有区别性,这 类词称为“非焦点词”; 在前面的例子中,如果该篇谈论乔丹的文章是出自于 “篮球天地”这本期刊,显然该期刊中有很多篇文章 都含有“篮球”这个词,这样,尽管“篮球”这个词 在该篇文章中的tf值很高,但对该篇文章的唯一性方 面没有提供什么帮助。
p 1/ p i 1
20
续
xm表示第m 个项目在文档 d 中的重要性度量;
1≤p<∞ p表示项目间逻辑关系严格的程度(degree of strictness),取值为1 最松,取值为无穷大最严 p=+∞ p-norm模型等同于经典的布尔模型; 当p较低时,AND式中的一个权值较低的项会使总体值大大降低;OR式中的一个 权值较高的值会使总体值大大提高。
2 xi yi
i 1 t
dice( X , Y )
x y
i 1 2 i i 1
t
t
2 i
其中:X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量, t为其维度。
35
Jaccard coefficient(杰卡德系数)
2 xi yi
i 1 t
检索
文档表示
建立索引
用户需求
匹配过 程
文档
8
Web 检索的一般模式
9
2. 信息检索的基本方法
在信息检索中,中心问题是如何判断一篇文 档是否与用户的查询条件相关。 通常方法是设计一个评分函数(即相似性计算 函数),对检索过的文档进行评分,然后再根 据评分的高低对这些文档进行排序。 评分函数是信息检索系统是否获得成功的关 键因素之一。
31
tf.idf 加权(续)
索引项加权:给那些经常出现在一个文档中,而不常出现在 其他文档中的项目以更高的权重,即让“特别的词”从“一 般的词”中凸现出来。 在这个基本精神指导下,出现了许多不同的加权公式
32
tf.idf 加权示例
33
tf.idf 加权示例(续)
34
Dice coefficient: (掷骰子系数)
x
x
max xi .
1 i n
xi .
i 1 n
1
19
续
2. 向量的1-范数
x
1
xi .
i 1
n
3. 向量的2-范数
x 2 ( x, x ) ( x ) .
4. 向量的p-范数
n
i 1
1 2
n
1 2 2 i
x
p
( xi ) , p [1, ).
23
文档的向量表示
假定有三个项目:
“葡萄”,“美酒”,“夜 光杯”
假定以项目在文本中的 出现次数为项目的权值 葡萄 美酒 夜光杯 T1 T2 T3 d1 2 3 5 d2 3 7 2
q
0
0
2
24
计算向量之间的相似度
向量间相似程度的不同度量方法
Inner product (内积) Cosine coefficient(余弦系数) Dice coefficient: (掷骰子系数) Jaccard coefficient(杰卡德系数)
21
2.2 向量空间模型
思想: 文档D和查询Q(统称为文本)都可用向量表示 检索过程就是计算文档向量与查询向量之间的 相似度 根据相似度值的大小,对检索结果进行排序 根据检索结果反馈意见,作进一步的相关检索 (Relevance feedback)
22
从文本到向量空间(vector space)
16
续
对于Term1 OR Term2形式Query,相似度公式为:
x表示Term1在文档dj中的重要程度∈(0,1) y表示Term2在文档dj中的重要程度∈(0,1)
对于Term1 AND Term2形式Query,相似度公式为:
17
相似度计算示例
18
P-norm模型
思想:将上述只包含两个项目(Term)的查询式的 相似度计算进一步拓展为包含m 个项目的查询式 的相似度计算。 补:几种常用的向量范数 1. 向量的∞范数
12
布尔检索示例
13
真值表(Truth Table)
P
0 0
1 1
Q
0 1
0 1
NOT P
TRUE TRUE
FALSE FALSE
P AND Q
FALSE FALSE
FALSE TRUE
P OR Q来自百度文库
FALSE TRUE
TRUE TRUE
14
布尔检索的特点
优点
1)简单、速度快
缺点
1)不够精确,不能反映不同“项目”对一个 文档的重要程度的差异 (只提供“有/没有”两个选项) 2)检索结果地位平等,无法排序
Jaccard ( X , Y )
xi2 yi2 xi yi
i 1 i 1 i 1
t
t
t
其中:X=(x1, x2, …, xt) , Y=(y1, y2, …, yt) 为两向量, t为其维度。
36
2.3 概率模型
检索问题即求条件概率问题 If Prob(R|di, q) > Prob(NR|di, q) then di 是检索结果, else di 不是检索结果
(1)项目-出现/不出现:1或0 (2)项目-出现的次数:0,1,2,…
需要更好的权值计算方法……
28
tf.idf 加权法
tf.idf加权法(Term Frequency(项频率) • Frequency(逆向文档频率))
Inverse Document
Term frequency:termi 在文档dj中的出现次数,记做tfi,j tfi,j 越高,意味着termi 对于文档dj 就越重要 如:一篇谈论乔丹的文章,可以预期“乔丹”、“飞人” 等词的tf值会比较高; 但:该篇文章中还有“篮球”这个词,它出现的次数也 很高,是不是这个词对这篇文章也很重要呢?
2)查询表达式易于掌握
―飞碟”AND ―小说”:只能检索出D4,无法显现D1,D2,D3的差异 “飞碟”OR ―小说”:可以检出D1,D2,D4,但无法显现它们的差 异 即:页面之间的重要性无法表示。
15
扩展的布尔检索(Extended Boolean Model)
目的:为了克服布尔模型查询结果的无序性; 思想:将非此即彼的匹配方式改为计算相似度 (Similarity);将所检索文档信息中索引项与用 户查询表达式进行相似度计算,按相关的优先 次序排列查询结果; 常见:MMM模型、Paice模型、P-norm模型
38
续
39
2.4 基于链接的检索
对于搜索引擎,除了可以利用页面本身的内容 外,还可以利用的资源就是链接,Google就是 采用这种方式取得成功的例子,它采用了Brin 与Page发明的链接价值计算算法。 Google自称利用该技术获得了极大的成功; 百度自称利用自有的类似技术也获得了极大成 功。
在上面的例子中,如何度量q 跟 d1 还是 d2 更相似些?
25
余弦系数:相似程度的度量方法之一
26
余弦系数计算示例
27
索引项权值的计算(Term Weight)
权值的直观含义:
一个项目对于一个文本的重要程度: 即一个项目在多大 程度上可以将这个文档与其他文档区别开
计算权值的两种简单方式:
1995.11
信息表现形式的变化
: hardcopy electronic device 数据访问形式的变化:online data online information service
信息存储介质的变化
7
IR系统的一般模式
相关反馈 检索结果
生成查询表达式
对查询表达式进 行分析处理
11
2.1 布尔模型
查询表达式:由逻辑算子AND, OR, NOT连接若 干“项目”(Term)构成; e.g. 1) ―飞碟” 2) ―飞碟”AND ―小说” 3) ―飞碟”AND (―中国”OR (NOT ―科幻小 说”))
检索/匹配:返回值=1,表示文档符合 User Query要求 返回值=0,表示文档不符合User Query要求
Document Retrieval is defined as the matching of some stated user query against useful parts of free-text records.
Donna Harman et al. , 1996, Document Retrieval, in Survey of the State of the Art in Human Language Technology
10
续
根据对相关文档判定方法的不同,信息检索模 型至少可以分为以下四类经典模型:
(1)布尔模型(派生出:MMM模型、Paice模型、P-范 数模型); (2)向量空间模型(派生出:广义向量空间模型、潜 在语义索引模型); (3)概率模型(派生出:推理网络模型); (4)语言模型方法[Ponte,1998](派生出:HMM模型、 统计翻译模型、风险最小化框架模型、相关模型)。
37
续
文档与查询条件的相似性计算是基于概率排序 原理,即通过估计文档与用户查询条件的相关 概率对文档集合进行排序。 概率模型的特点是它以文档与查询条件相关的 概率对文档进行降序排列,以期待得到最好的 检索性能,缺点:
(1)需要假定初始的相关和不相关文档集合; (2)没有考虑文档内部索引检索词的频率信息,检索 词的权重值是二元的; (3)假定索引检索词是互相独立的。
信息检索技术的现状与发展
主要内容
信息检索的概念(Information Retrieval, IR) 信息检索的基本方法
基于内容的检索
布尔模型 向量空间模型 概率模型
基于链接的检索
信息检索系统的性能评测 信息检索的未来发展
2
1. 信息检索(IR)的概念
文档检索
3
续
文档检索定义为在有用的自由文本中寻找与 用户查询相匹配的状态的过程;
30
tf.idf 加权(续)
Inverse document frequency:跟dfi 形成“反比关系”, idfi 值越高,意味着termi对于文档的区别意义越大. 定义:
N idfi log df i
式中:N为全部文档的数量。 如果一个项目仅出现在一个文档中,则dfi =1,因此, idf=logN,取得最大值;即对区分文档作用最大; 如果一个项目出现在所有文档中,则dfi =N,因此, idf= log1 = 0,取得最小值,即对区分文档作用最小。
5
文档检索与IR区别
信息源数据不同
结构化的数据 ( e.g. relational database ) 半结构或无结构化的数据 ( e.g. free text, web page, etc. ) 采用规则表达式的方法 采用自然语言的方法 面向专家的系统 面向普通用户的系统 ( e.g. SQL ) ( e.g. ―航空母舰的发展历史” )
查询方式不同
查询需求不同
6
IR需求的发展
互联网信息的快速膨胀
1990互联网出现;
有 50 million 个网页; 1997.12 有 320 million个网页; 1999.2 有 800 million个网页; 2000 有 1 billion个网页; …… and growing every day now