信息检索与web挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4.评估标准

5.文本和网页的预处理

6.倒排索引及其压缩

∗布尔查询

∗短语查询

∗邻近查询

∗全文搜索

∗自然语言查询

∗文档数据集:D

∗词汇表:VV={tt11,tt22,⋯,tt VV}

∗词权重:每个文档dd jj中的词tt ii都有一个权值ww ii jj ∗每个词是一个属性,每个权值是一个属性值

dd jj=ww11jj,ww22jj,⋯,ww VV jj

:系统或者文件集中的文件总数

中的次数

ddff ii:词tt ii至少出现一次的文档数目ii dd ff ii:词tt ii的逆向文档频率

最终的词逆向文档频率权值ww ii jj

ddll ii:文档dd jj的长度aaaaddll:数据集中文档的平均长度

ii jj缺点:没有考虑如果一个词出现在一个数据集的许多文档中,那么这个词将没有判别力。

∗词逆向文档频率表(TF-IDF表):最有名的权值表,词的逆向文档频率,即ii dd ff ii jj

查询

一个查询qq的表示法和文档的表示法是一样。qq中每个词tt ii的权值ww ii jj的计算方法和在文档中的词的计算方法也大致相同,也可由细微差别。Salton和Buckley的

方法如下:

dd jj的相似度。

∗向量夹角余弦相似度

∗直接计算每个文档和查询的相关值,Okapi方法

kk11(介于1.0与2.0之间),bb(通常是0.75),kk22(介于1与1000之间)的常数注:短查询检索,okapi方法比余弦方法更好

PPPP(qq)对于每个文档都相同,PPPP(dd jj)认为是统一的,只需计算PPPP(qq|dd jj)。

∗很多语言模型基于一元模型,即单词独立产生,但实质是多项分布。一般的,使用n-gram模型,即第n个词之和前n-1个词有关。

∗基于多项分布及一元模型有:

ff ii qq是q中出现词tt ii的次数,且∑ii=11VV PPPP(tt ii|dd jj)=11

∗因此问题转化为求PPPP(tt ii|dd jj),而PPPP tt ii dd jj=ff ii jj dd jj。但若词不出现在文档中,则概率为0,会低估未

得到的扩展查询如下:

∗αα,ββ,γγ为经验常数

∗最后一项的作用是减少两类词:

∗不具有区分度的词(既出现在相关文档中,又出现在不相关文档中的词)∗仅出现在不相关文档中的词

ii

∗DD ii是类别i中含有的文档集合,αα,ββ为常数,通常αα=1111,ββ=44

∗在分类中使用向量余弦夹角相似度。每个测试文档dd tt与每个类别cc ii计算余弦相似度,dd tt被分到最高相似度的类别中。

∗其他算法

∗从标注和未标注的样本中学习(LU学习):半监督学习

∗从正例和未标注的样本中学习(PU学习):隐式用户反馈

∗伪关联性反馈

从排名高的检出文档中提取一些频繁词,加到原始查询中,为第二次检索形成新的查询,直到用户满意为止。

RR qq :根据文档与查询的相似度分数产生的相似度排名

DD qq :D 中与实际查询q 实际相关的文档数目

PP (ii ):排序中第ii 位文档的查全率ss ii :在RR qq 中从dd 11qq 到dd ii qq 相关文档的数目(ss DD qq )

pp (ii ):排序中第ii 位文档的查准率平均查准率:

对应查全率为PP(ii)的查准率,采用介于PP ii 与PP1100之间对应的查准率的最大值。

但,查全率对于web搜索意义不大,用户很少查看排名低于30的网页,因此查准率很重要。排名查准率

对于一个web搜索引擎,通常计算排名在第5、10、15、20、25、30位的页面的查准率F-score

F-score是查全率和查准率的调和平均数

平衡点(查全率和查准率的平衡点)

查准率和查全率相等的地方

对于网页,还需要:辨别不同字段

辨别锚文本HTML标签移除

鉴定主要内容块等

词干提取器:词干提取算法。英文常用Martin Porter

缺点:由于单词简化,使不相关文档被认为相关,降低查准率。如cop(巡警)和cope(处理)都被简化为词干cop,这样若需要police的文档,仅仅包含cope的文档很可能是不相关的,但却会被检测出。实际中,先利用文件数据集去测试,判断词干提取器是否有帮助。

数字

传统IR系统中,那些包含数字的数词和词会被移除,除了一些特别形式的,例如:日期,时间以

及其他能够被标准公式表示的特别形式。但是,在搜索引擎中,它们仍然要被索引。

字符大小写

所有的字母通常都会统一转化成大写或者小写。

辨别不同的字段

标题,元数据,正文等。标题是对网页的简要说明,其中的词应赋予高的权值;正文部分作了强调的词(

等),也应给予更高的权值。

辨别锚文本

锚文本通常能非常精确的描述链接指向的网页的信息。在一些超链接指向的外部网页(不是内部域的)时,锚文本特别有价值,因为这些对网页的描述是由其他人写的,而不是由作者写的,所以更加可信。

API,可以返回每个元素的x和y轴的值。可建立基于位置和外观的特性的机器学习模型。

树匹配:同一个商业网站的网页是通过使用固定的模板生成的。找到这种被隐藏的模板,就很容易为每个页面建立一棵标记树。具体的依据如下:通常每个页面的主内容块中的内容不同,但模板相同。相反,非主要内容在不同页面中都很相似。