信息检索与web挖掘

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4.评估标准

5.文本和网页的预处理

6.倒排索引及其压缩

∗布尔查询

∗短语查询

∗邻近查询

∗全文搜索

∗自然语言查询

∗文档数据集：D

∗词汇表：VV={tt11,tt22,⋯,tt VV}

∗词权重：每个文档dd jj中的词tt ii都有一个权值ww ii jj ∗每个词是一个属性，每个权值是一个属性值

dd jj=ww11jj,ww22jj,⋯,ww VV jj

：系统或者文件集中的文件总数

中的次数

ddff ii：词tt ii至少出现一次的文档数目ii dd ff ii：词tt ii的逆向文档频率

最终的词逆向文档频率权值ww ii jj

ddll ii：文档dd jj的长度aaaaddll：数据集中文档的平均长度

ii jj缺点：没有考虑如果一个词出现在一个数据集的许多文档中，那么这个词将没有判别力。

∗词逆向文档频率表（TF-IDF表）：最有名的权值表，词的逆向文档频率，即ii dd ff ii jj

查询

一个查询qq的表示法和文档的表示法是一样。qq中每个词tt ii的权值ww ii jj的计算方法和在文档中的词的计算方法也大致相同，也可由细微差别。Salton和Buckley的

方法如下：

dd jj的相似度。

∗向量夹角余弦相似度

∗直接计算每个文档和查询的相关值，Okapi方法

kk11（介于1.0与2.0之间），bb（通常是0.75），kk22（介于1与1000之间）的常数注：短查询检索，okapi方法比余弦方法更好

PPPP(qq)对于每个文档都相同，PPPP(dd jj)认为是统一的，只需计算PPPP(qq|dd jj)。

∗很多语言模型基于一元模型，即单词独立产生，但实质是多项分布。一般的，使用n-gram模型，即第n个词之和前n-1个词有关。

∗基于多项分布及一元模型有：

ff ii qq是q中出现词tt ii的次数，且∑ii=11VV PPPP(tt ii|dd jj)=11

∗因此问题转化为求PPPP(tt ii|dd jj)，而PPPP tt ii dd jj=ff ii jj dd jj。但若词不出现在文档中，则概率为0，会低估未

得到的扩展查询如下：

∗αα，ββ，γγ为经验常数

∗最后一项的作用是减少两类词：

∗不具有区分度的词（既出现在相关文档中，又出现在不相关文档中的词）∗仅出现在不相关文档中的词

∗DD ii是类别i中含有的文档集合，αα，ββ为常数，通常αα=1111，ββ=44

∗在分类中使用向量余弦夹角相似度。每个测试文档dd tt与每个类别cc ii计算余弦相似度，dd tt被分到最高相似度的类别中。

∗其他算法

∗从标注和未标注的样本中学习（LU学习）：半监督学习

∗从正例和未标注的样本中学习（PU学习）：隐式用户反馈

∗伪关联性反馈

从排名高的检出文档中提取一些频繁词，加到原始查询中，为第二次检索形成新的查询，直到用户满意为止。

RR qq ：根据文档与查询的相似度分数产生的相似度排名

DD qq ：D 中与实际查询q 实际相关的文档数目

PP (ii )：排序中第ii 位文档的查全率ss ii ：在RR qq 中从dd 11qq 到dd ii qq 相关文档的数目（ss DD qq ）

pp (ii )：排序中第ii 位文档的查准率平均查准率：

对应查全率为PP(ii)的查准率，采用介于PP ii 与PP1100之间对应的查准率的最大值。

但，查全率对于web搜索意义不大，用户很少查看排名低于30的网页，因此查准率很重要。排名查准率

对于一个web搜索引擎，通常计算排名在第5、10、15、20、25、30位的页面的查准率F-score

F-score是查全率和查准率的调和平均数

平衡点（查全率和查准率的平衡点）

查准率和查全率相等的地方

对于网页，还需要：辨别不同字段

辨别锚文本HTML标签移除

鉴定主要内容块等

词干提取器：词干提取算法。英文常用Martin Porter

缺点：由于单词简化，使不相关文档被认为相关，降低查准率。如cop（巡警）和cope（处理）都被简化为词干cop，这样若需要police的文档，仅仅包含cope的文档很可能是不相关的，但却会被检测出。实际中，先利用文件数据集去测试，判断词干提取器是否有帮助。

数字

传统IR系统中，那些包含数字的数词和词会被移除，除了一些特别形式的，例如:日期，时间以

及其他能够被标准公式表示的特别形式。但是，在搜索引擎中，它们仍然要被索引。

字符大小写

所有的字母通常都会统一转化成大写或者小写。

辨别不同的字段

标题，元数据，正文等。标题是对网页的简要说明，其中的词应赋予高的权值；正文部分作了强调的词(

，

，等)，也应给予更高的权值。
辨别锚文本
锚文本通常能非常精确的描述链接指向的网页的信息。在一些超链接指向的外部网页(不是内部域的)时，锚文本特别有价值，因为这些对网页的描述是由其他人写的，而不是由作者写的，所以更加可信。
API，可以返回每个元素的x和y轴的值。可建立基于位置和外观的特性的机器学习模型。
树匹配：同一个商业网站的网页是通过使用固定的模板生成的。找到这种被隐藏的模板，就很容易为每个页面建立一棵标记树。具体的依据如下：通常每个页面的主内容块中的内容不同，但模板相同。相反，非主要内容在不同页面中都很相似。