国科大现代信息检索第二次作业
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
������ ������ ∈������������
1 |������������������ |
������������
������ ������ ∈������������������
原始查询 2 3 1 1 0 0
d1 2 2 0 0 1 0
d2 0 1 1 0 0 1
修改后的查询向量 q=(2.5,4.25,0.75,1,0.75,-0.25),如果向量中权重分量为负值,那么该分量权重设为 0。所 以最终 Rocchio 向量为(2.5,4.25,0.75,1,0.75,0) 9. 习题 11-3 [**] 令 Xt 表示词项 t 在文档中出现与否的随机变量。假定文档集中有 |R|篇相关文档,
词 digital video cameras tf 1 0 1 wf 1 0 1 查 询 df idf 10 000 3 100 000 2 50 000 2.301 文 qi=wf-idf 3 0 2.301 tf 1 1 2 wf 1 1 1.301 档 di=归一化的wf 0.52 0.52 0.677
������∈������ ������ ������ ������ ������ = 1 = ������������ (1 − ������������ )|������ |−������
∂P(D|R = 1) ������−1 ������ = s × ������������ (1 − ������������ )|������ |−������ − ������������ × ( ������ − ������)(1 − ������������ )|������ |−������−1 ∂������������ ∂ P(D|R=1) 令 = 0,得到������������ = ������/|������|
qi d i
1.56 0 1.558
相似度结果=1.56+1.558=3.118 4. 习题 7-1 图 7-2 中倒排记录表均按照静态得分 g(d)的降序排列,为什么不采用升序排列?
一篇文档 d 的最后得分定义为 g(d)和某个与查询相关的得分的某种组合,一些文档具有高的 g(d)值更有可 能具有较大的最后得分,降序排列有助于提高 top-k 检索的效率。在这种排序下,高分文档更可能在倒排记 录表遍历的前期出现。在实际受限的应用当中(比如,任意搜索需要在 50ms 内返回结果) ,上述方式可以 提前结束倒排记录表的遍历。 5. 习题 7-8 平面上的最近邻问题如下:在平面上给出 N 个数据点并将它们预处理成某种数据结构,
文档ID 1 2 3 4 文档文本 click go the shears boys click clickclick click click metal here metal shears click here
为该文档集建立一个查询似然模型。假定采用文档语言模型和文档集语言模型的混合模型,权重均为 0.5。 采用 MLE 来估计两个一元模型。计算在查询 click、shears 以及 click shears 下每篇文档模型对应的概率,并 利用这些概率来对返回的文档排序。将这些概率填在下表中。对于查询 click shears 来说,最后得到的文档 次序如何? 查询似然模型: click 1/2 模型1 模型2 模型3 模型4 文档集模型 1 0 1/4 7/16 go 1/8 0 0 0 1/16 the 1/8 0 0 0 1/16 shears 1/8 0 0 1/4 2/16 boys 1/8 0 0 0 1/16 metal 0 0 1/2 1/4 2/16 here 0 0 1/2 1/4 2/16
∂������ ������
10. 习题 12-6 [*] 考虑从如下训练文本中构造 LM: themartian has landed on the latin pop sensation ricky martin 请问: a. 在采用 MLE 估计的一元概率模型中,P(the)和 P(martian)分别是多少? P(the) = 2/11 = 0.181818182 P(martian) = 1/11 = 0.090909091 b. 在采用 MLE 估计的二元概率模型中,P(sensation|pop)和 P(pop|the)的概率是多少? P(sensation|pop) = 1 P(pop|the) = 0 11. 习题 12-7 [**] 假定某文档集由如下 4 篇文档组成:
每篇文档模型对应的概率为:
query click shears click shears doc1 15/32 2/16 15/256 doc2 23/32 1/16 23/512 doc3 7/32 1/16 7/512 doc4 11/32 3/16 33/512
查询 click shears 的文档排序为:doc4,doc1,doc2,doc3 12. 习题 13-1
国科大 2013 年秋季《现代信息检索》第二次作业(第六章到第十五章)
以下 1-16 每题 6 分,第 17 题 3 分,共计 100 分。
1.
习题 6-10
考虑图 6-9 中的 3 篇文档 Doc1、Doc2、Doc3 中几个词项的 tf 情况,采用图 6-8 中的 idf
Doc1 car auto insurance best 27 3 0 14 Doc2 4 33 33 0 Doc3 24 0 29 17
排名靠前),相关性判定的ห้องสมุดไป่ตู้况如下所示: 系统 1 系统 2 a.
计算两个系统的 MAP 值并比较大小。
MAP(系统 1)=(1/4)*(1+2/3+3/9+4/10)=0.6 MAP(系统 2)=(1/4)*(1/2+2/5+3/6+4/7)=0.493 由于只有一个查询,MAP=AP。系统 1 的 MAP 值更大 b. 上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的 MAP 得分? 系统 1 返回的相关文档位置较分离,有的在前面有的在后面,系统 2 返回的相关文档较集中的中间位置。 系统 1 获得了较高的 MAP 值。 排名前面位置的相关文档数对 MAP 值的影响较大,相关文档排在靠前的位置可以获得较高的 MAP 得分。 c. 计算两个系统的 R 正确性值,并与 a 中按照 MAP 进行排序的结果进行对比。 R 正确率(系统 1)=2/4=0.5 R 正确率(系统 2)=1/4=0.25 虽然 R 正确率只度量了正确率-召回率曲线上的一个点, 但是经验上却证实它和 MAP 是高度相关的。 按照 R 正确率和 MAP 排序得到的结果一致。 8. 习题 9-3 假定用户的初始查询是 cheap CDs cheap DVDs extremelycheap CDs。用户查看了两篇文档 d1
和 d2,并对这两篇文档进行了判断:包含内容 CDs cheap software cheap CDs 的文档 d1 为相关文档,而内容 为 cheap thrills DVDs 的文档 d2 为不相关文档。假设直接使用词项的频率作为权重(不进行归一化也不加上 文档频率因子) ,也不对向量进行长度归一化。采用公式(9-3)进行 Rocchio 相关反馈,请问修改后的查询 向量是多少?其中 α = 1,β = 0.75,γ = 0.25。 ������������ = ������������0 + ������ 词项频率表格 词 CDs cheap DVDs extremely software thrills 1 |������������ | ������������ − ������
所有文档中有 s 篇文档包含词项 t, 即在这 s 篇文档中 Xt=1。 假定所观察到的数据就是这些 Xt 在文档中的分 布情况。请证明采用 MLE 估计方法对参数 pt ( X t 1| R 1, q ) 进行估计的结果,即使得观察数据概率最 大化的参数值为 pt= s/|R|。 设 D 是相关文档集,定义一个函数P D R = 1 =
l3
先导者为 l1,l2,但是离查询最近的文档是红色圈 代表的,不属于 l1,l2,属于离查询较远的先导者 l3,因此离查询最近的文档不会被返回。
l1
l2
6.
习题 8-5 [**] 正确率和召回率之间是否一定存在等值点?说明为什么一定存在或给出反例。
如果返回的相关文档数(RR)=0,正确率=召回率=0。如果返回的不相关的文档(RN)=未返回的相关文档 (NR),正确率也等于召回率。如果一篇文档都不返回,正确率=1,召回率=0;如果返回全部的文档,正 确率=相关文档数/总文档数,召回率=1。假设返回的文档中排名靠前的都是相关文档,那么随着返回文档 数的增加,RN 由 0 变为 N-相关文档数,且中间每一个值都能取到,NR 由总共相关文档数变为 0,同样能 取到中间的每一个值。RN 从小变大,NR 从大变小看,中间有一个相等的情况,这时候召回率=正确率。 7. 习题 8-8 [*] 考虑一个有 4 篇相关文档的信息需求,考察两个系统的前 10 个检索结果(左边的结果 R N R N N NNN R R N R N N R RR N NN
将结果填入表 6-1 的空列中。假定 N=10000000,对查询及文档中的词项权重(wf 对应的列)采用对数方法 计算,查询的权重计算采用 idf,而文档归一化采用余弦相似度计算。将 and 看成是停用词。请在 tf 列中 给出词项的出现频率,并计算出最后的相似度结果。 表6-1 习题6-19中的余弦相似度计算
中每个向量有 4 维,每维对应一个词项。 Doc1=(44.55,6.24,0,21),Len(Doc1)=49.6451 对其长度归一化得到 Doc1=(0.897,0.126,0,0.423) Doc2=(6.6,68.64,53.46,0) ,Len(Doc2)=87.2524 对其长度归一化得到 Doc2=(0.076,0.787,0.613,0) Doc3=(39.6,0,46.98,25.5) ,Len(Doc3)=66.5247 对其长度归一化得到 Doc3=(0.595,0,0.706,0.383) 3. 习题 6-19 计算查询 digital cameras 及文档 digital cameras and video cameras 的向量空间相似度并
给定查询点 Q,在 N 个点中寻找与 Q 具有最短欧氏距离的点。很显然,如果我们希望能够避免计算 Q 和所 有平面上的点的距离时,簇剪枝就能够作为最近邻问题的一种处理方法。请给出一个简单的例子来说明: 如果只选择最近的两个先导者,那么簇剪枝方法可能会返回错误的结果(也就是说返回的不是离 Q 最近的 数据点) 。 如图所示,黄色圈代表查询,离查询最近的两个
值来计算所有词项 car、auto、insurance 及 best 的 tf-idf 值。
图 6-9
习题 6-10 中所使用的 tf 值
car 在三篇文档中的 tf-idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39.6 auto 在三篇文档中的 tf-idf 值分别为:Doc1:3*2.08=6.24;33*2.08=68.64;0*2.08=0 insurance 在三篇文档中的 tf-idf 值分别为:Doc1:0*1.62=0;33*1.62=53.46;29*1.62=46.98 best 在三篇文档中的 tf-idf 值分别为:Doc1:14*1.5=21;0*1.5=0;17*1.5=25.5 2. 习题 6-15 回到习题 6-10 中的 tf-idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其
b
对于表 13-2,为什么在绝大部分文本集中|||V| <||Lave 都成立?
b 0.5
假设大多数文档集的词条数都大于 100 万,根据 Heaps 定律,词汇表大小 V 是文档集规模 T 的一个函数, V=K*T ,典型的 K=44,b=0.49,V=K*T =44*(1000000) =44000 |D|Ld=文档集中的词条数=1000000,|C||V|=2*44000=88000 所以大多数文档集有|C||V|<|D|Ld 13. 习题 13-2[*] 表 13-5 中的文档中,对于如下的两种模型表示,哪些文档具有相同的模型表示?哪 些文档具有不同的模型表示?对于不同的表示进行描述。 (i) 贝努利模型。 (ii) 多项式模型。 表13-5 NB独立性假设存在问题的几个文档例子
1 |������������������ |
������������
������ ������ ∈������������������
原始查询 2 3 1 1 0 0
d1 2 2 0 0 1 0
d2 0 1 1 0 0 1
修改后的查询向量 q=(2.5,4.25,0.75,1,0.75,-0.25),如果向量中权重分量为负值,那么该分量权重设为 0。所 以最终 Rocchio 向量为(2.5,4.25,0.75,1,0.75,0) 9. 习题 11-3 [**] 令 Xt 表示词项 t 在文档中出现与否的随机变量。假定文档集中有 |R|篇相关文档,
词 digital video cameras tf 1 0 1 wf 1 0 1 查 询 df idf 10 000 3 100 000 2 50 000 2.301 文 qi=wf-idf 3 0 2.301 tf 1 1 2 wf 1 1 1.301 档 di=归一化的wf 0.52 0.52 0.677
������∈������ ������ ������ ������ ������ = 1 = ������������ (1 − ������������ )|������ |−������
∂P(D|R = 1) ������−1 ������ = s × ������������ (1 − ������������ )|������ |−������ − ������������ × ( ������ − ������)(1 − ������������ )|������ |−������−1 ∂������������ ∂ P(D|R=1) 令 = 0,得到������������ = ������/|������|
qi d i
1.56 0 1.558
相似度结果=1.56+1.558=3.118 4. 习题 7-1 图 7-2 中倒排记录表均按照静态得分 g(d)的降序排列,为什么不采用升序排列?
一篇文档 d 的最后得分定义为 g(d)和某个与查询相关的得分的某种组合,一些文档具有高的 g(d)值更有可 能具有较大的最后得分,降序排列有助于提高 top-k 检索的效率。在这种排序下,高分文档更可能在倒排记 录表遍历的前期出现。在实际受限的应用当中(比如,任意搜索需要在 50ms 内返回结果) ,上述方式可以 提前结束倒排记录表的遍历。 5. 习题 7-8 平面上的最近邻问题如下:在平面上给出 N 个数据点并将它们预处理成某种数据结构,
文档ID 1 2 3 4 文档文本 click go the shears boys click clickclick click click metal here metal shears click here
为该文档集建立一个查询似然模型。假定采用文档语言模型和文档集语言模型的混合模型,权重均为 0.5。 采用 MLE 来估计两个一元模型。计算在查询 click、shears 以及 click shears 下每篇文档模型对应的概率,并 利用这些概率来对返回的文档排序。将这些概率填在下表中。对于查询 click shears 来说,最后得到的文档 次序如何? 查询似然模型: click 1/2 模型1 模型2 模型3 模型4 文档集模型 1 0 1/4 7/16 go 1/8 0 0 0 1/16 the 1/8 0 0 0 1/16 shears 1/8 0 0 1/4 2/16 boys 1/8 0 0 0 1/16 metal 0 0 1/2 1/4 2/16 here 0 0 1/2 1/4 2/16
∂������ ������
10. 习题 12-6 [*] 考虑从如下训练文本中构造 LM: themartian has landed on the latin pop sensation ricky martin 请问: a. 在采用 MLE 估计的一元概率模型中,P(the)和 P(martian)分别是多少? P(the) = 2/11 = 0.181818182 P(martian) = 1/11 = 0.090909091 b. 在采用 MLE 估计的二元概率模型中,P(sensation|pop)和 P(pop|the)的概率是多少? P(sensation|pop) = 1 P(pop|the) = 0 11. 习题 12-7 [**] 假定某文档集由如下 4 篇文档组成:
每篇文档模型对应的概率为:
query click shears click shears doc1 15/32 2/16 15/256 doc2 23/32 1/16 23/512 doc3 7/32 1/16 7/512 doc4 11/32 3/16 33/512
查询 click shears 的文档排序为:doc4,doc1,doc2,doc3 12. 习题 13-1
国科大 2013 年秋季《现代信息检索》第二次作业(第六章到第十五章)
以下 1-16 每题 6 分,第 17 题 3 分,共计 100 分。
1.
习题 6-10
考虑图 6-9 中的 3 篇文档 Doc1、Doc2、Doc3 中几个词项的 tf 情况,采用图 6-8 中的 idf
Doc1 car auto insurance best 27 3 0 14 Doc2 4 33 33 0 Doc3 24 0 29 17
排名靠前),相关性判定的ห้องสมุดไป่ตู้况如下所示: 系统 1 系统 2 a.
计算两个系统的 MAP 值并比较大小。
MAP(系统 1)=(1/4)*(1+2/3+3/9+4/10)=0.6 MAP(系统 2)=(1/4)*(1/2+2/5+3/6+4/7)=0.493 由于只有一个查询,MAP=AP。系统 1 的 MAP 值更大 b. 上述结果直观上看有意义吗?能否从中得出启发如何才能获得高的 MAP 得分? 系统 1 返回的相关文档位置较分离,有的在前面有的在后面,系统 2 返回的相关文档较集中的中间位置。 系统 1 获得了较高的 MAP 值。 排名前面位置的相关文档数对 MAP 值的影响较大,相关文档排在靠前的位置可以获得较高的 MAP 得分。 c. 计算两个系统的 R 正确性值,并与 a 中按照 MAP 进行排序的结果进行对比。 R 正确率(系统 1)=2/4=0.5 R 正确率(系统 2)=1/4=0.25 虽然 R 正确率只度量了正确率-召回率曲线上的一个点, 但是经验上却证实它和 MAP 是高度相关的。 按照 R 正确率和 MAP 排序得到的结果一致。 8. 习题 9-3 假定用户的初始查询是 cheap CDs cheap DVDs extremelycheap CDs。用户查看了两篇文档 d1
和 d2,并对这两篇文档进行了判断:包含内容 CDs cheap software cheap CDs 的文档 d1 为相关文档,而内容 为 cheap thrills DVDs 的文档 d2 为不相关文档。假设直接使用词项的频率作为权重(不进行归一化也不加上 文档频率因子) ,也不对向量进行长度归一化。采用公式(9-3)进行 Rocchio 相关反馈,请问修改后的查询 向量是多少?其中 α = 1,β = 0.75,γ = 0.25。 ������������ = ������������0 + ������ 词项频率表格 词 CDs cheap DVDs extremely software thrills 1 |������������ | ������������ − ������
所有文档中有 s 篇文档包含词项 t, 即在这 s 篇文档中 Xt=1。 假定所观察到的数据就是这些 Xt 在文档中的分 布情况。请证明采用 MLE 估计方法对参数 pt ( X t 1| R 1, q ) 进行估计的结果,即使得观察数据概率最 大化的参数值为 pt= s/|R|。 设 D 是相关文档集,定义一个函数P D R = 1 =
l3
先导者为 l1,l2,但是离查询最近的文档是红色圈 代表的,不属于 l1,l2,属于离查询较远的先导者 l3,因此离查询最近的文档不会被返回。
l1
l2
6.
习题 8-5 [**] 正确率和召回率之间是否一定存在等值点?说明为什么一定存在或给出反例。
如果返回的相关文档数(RR)=0,正确率=召回率=0。如果返回的不相关的文档(RN)=未返回的相关文档 (NR),正确率也等于召回率。如果一篇文档都不返回,正确率=1,召回率=0;如果返回全部的文档,正 确率=相关文档数/总文档数,召回率=1。假设返回的文档中排名靠前的都是相关文档,那么随着返回文档 数的增加,RN 由 0 变为 N-相关文档数,且中间每一个值都能取到,NR 由总共相关文档数变为 0,同样能 取到中间的每一个值。RN 从小变大,NR 从大变小看,中间有一个相等的情况,这时候召回率=正确率。 7. 习题 8-8 [*] 考虑一个有 4 篇相关文档的信息需求,考察两个系统的前 10 个检索结果(左边的结果 R N R N N NNN R R N R N N R RR N NN
将结果填入表 6-1 的空列中。假定 N=10000000,对查询及文档中的词项权重(wf 对应的列)采用对数方法 计算,查询的权重计算采用 idf,而文档归一化采用余弦相似度计算。将 and 看成是停用词。请在 tf 列中 给出词项的出现频率,并计算出最后的相似度结果。 表6-1 习题6-19中的余弦相似度计算
中每个向量有 4 维,每维对应一个词项。 Doc1=(44.55,6.24,0,21),Len(Doc1)=49.6451 对其长度归一化得到 Doc1=(0.897,0.126,0,0.423) Doc2=(6.6,68.64,53.46,0) ,Len(Doc2)=87.2524 对其长度归一化得到 Doc2=(0.076,0.787,0.613,0) Doc3=(39.6,0,46.98,25.5) ,Len(Doc3)=66.5247 对其长度归一化得到 Doc3=(0.595,0,0.706,0.383) 3. 习题 6-19 计算查询 digital cameras 及文档 digital cameras and video cameras 的向量空间相似度并
给定查询点 Q,在 N 个点中寻找与 Q 具有最短欧氏距离的点。很显然,如果我们希望能够避免计算 Q 和所 有平面上的点的距离时,簇剪枝就能够作为最近邻问题的一种处理方法。请给出一个简单的例子来说明: 如果只选择最近的两个先导者,那么簇剪枝方法可能会返回错误的结果(也就是说返回的不是离 Q 最近的 数据点) 。 如图所示,黄色圈代表查询,离查询最近的两个
值来计算所有词项 car、auto、insurance 及 best 的 tf-idf 值。
图 6-9
习题 6-10 中所使用的 tf 值
car 在三篇文档中的 tf-idf 值分别:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc3:24*1.65=39.6 auto 在三篇文档中的 tf-idf 值分别为:Doc1:3*2.08=6.24;33*2.08=68.64;0*2.08=0 insurance 在三篇文档中的 tf-idf 值分别为:Doc1:0*1.62=0;33*1.62=53.46;29*1.62=46.98 best 在三篇文档中的 tf-idf 值分别为:Doc1:14*1.5=21;0*1.5=0;17*1.5=25.5 2. 习题 6-15 回到习题 6-10 中的 tf-idf 权重计算,试计算采用欧氏归一化方式处理后的文档向量,其
b
对于表 13-2,为什么在绝大部分文本集中|||V| <||Lave 都成立?
b 0.5
假设大多数文档集的词条数都大于 100 万,根据 Heaps 定律,词汇表大小 V 是文档集规模 T 的一个函数, V=K*T ,典型的 K=44,b=0.49,V=K*T =44*(1000000) =44000 |D|Ld=文档集中的词条数=1000000,|C||V|=2*44000=88000 所以大多数文档集有|C||V|<|D|Ld 13. 习题 13-2[*] 表 13-5 中的文档中,对于如下的两种模型表示,哪些文档具有相同的模型表示?哪 些文档具有不同的模型表示?对于不同的表示进行描述。 (i) 贝努利模型。 (ii) 多项式模型。 表13-5 NB独立性假设存在问题的几个文档例子