信息检索与web挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.评估标准
5.文本和网页的预处理
6.倒排索引及其压缩
∗布尔查询
∗短语查询
∗邻近查询
∗全文搜索
∗自然语言查询
∗文档数据集:D
∗词汇表:VV={tt11,tt22,⋯,tt VV}
∗词权重:每个文档dd jj中的词tt ii都有一个权值ww ii jj ∗每个词是一个属性,每个权值是一个属性值
dd jj=ww11jj,ww22jj,⋯,ww VV jj
:系统或者文件集中的文件总数
中的次数
ddff ii:词tt ii至少出现一次的文档数目ii dd ff ii:词tt ii的逆向文档频率
最终的词逆向文档频率权值ww ii jj
ddll ii:文档dd jj的长度aaaaddll:数据集中文档的平均长度
ii jj缺点:没有考虑如果一个词出现在一个数据集的许多文档中,那么这个词将没有判别力。
∗词逆向文档频率表(TF-IDF表):最有名的权值表,词的逆向文档频率,即ii dd ff ii jj
查询
一个查询qq的表示法和文档的表示法是一样。qq中每个词tt ii的权值ww ii jj的计算方法和在文档中的词的计算方法也大致相同,也可由细微差别。Salton和Buckley的
方法如下:
dd jj的相似度。
∗向量夹角余弦相似度
∗直接计算每个文档和查询的相关值,Okapi方法
kk11(介于1.0与2.0之间),bb(通常是0.75),kk22(介于1与1000之间)的常数注:短查询检索,okapi方法比余弦方法更好
PPPP(qq)对于每个文档都相同,PPPP(dd jj)认为是统一的,只需计算PPPP(qq|dd jj)。
∗很多语言模型基于一元模型,即单词独立产生,但实质是多项分布。一般的,使用n-gram模型,即第n个词之和前n-1个词有关。
∗基于多项分布及一元模型有:
ff ii qq是q中出现词tt ii的次数,且∑ii=11VV PPPP(tt ii|dd jj)=11
∗因此问题转化为求PPPP(tt ii|dd jj),而PPPP tt ii dd jj=ff ii jj dd jj。但若词不出现在文档中,则概率为0,会低估未
得到的扩展查询如下:
∗αα,ββ,γγ为经验常数
∗最后一项的作用是减少两类词:
∗不具有区分度的词(既出现在相关文档中,又出现在不相关文档中的词)∗仅出现在不相关文档中的词
ii
∗DD ii是类别i中含有的文档集合,αα,ββ为常数,通常αα=1111,ββ=44
∗在分类中使用向量余弦夹角相似度。每个测试文档dd tt与每个类别cc ii计算余弦相似度,dd tt被分到最高相似度的类别中。
∗其他算法
∗从标注和未标注的样本中学习(LU学习):半监督学习
∗从正例和未标注的样本中学习(PU学习):隐式用户反馈
∗伪关联性反馈
从排名高的检出文档中提取一些频繁词,加到原始查询中,为第二次检索形成新的查询,直到用户满意为止。
RR qq :根据文档与查询的相似度分数产生的相似度排名
DD qq :D 中与实际查询q 实际相关的文档数目
PP (ii ):排序中第ii 位文档的查全率ss ii :在RR qq 中从dd 11qq 到dd ii qq 相关文档的数目(ss DD qq )
pp (ii ):排序中第ii 位文档的查准率平均查准率:
对应查全率为PP(ii)的查准率,采用介于PP ii 与PP1100之间对应的查准率的最大值。
但,查全率对于web搜索意义不大,用户很少查看排名低于30的网页,因此查准率很重要。排名查准率
对于一个web搜索引擎,通常计算排名在第5、10、15、20、25、30位的页面的查准率F-score
F-score是查全率和查准率的调和平均数
平衡点(查全率和查准率的平衡点)
查准率和查全率相等的地方
对于网页,还需要:辨别不同字段
辨别锚文本HTML标签移除
鉴定主要内容块等
词干提取器:词干提取算法。英文常用Martin Porter
缺点:由于单词简化,使不相关文档被认为相关,降低查准率。如cop(巡警)和cope(处理)都被简化为词干cop,这样若需要police的文档,仅仅包含cope的文档很可能是不相关的,但却会被检测出。实际中,先利用文件数据集去测试,判断词干提取器是否有帮助。
数字
传统IR系统中,那些包含数字的数词和词会被移除,除了一些特别形式的,例如:日期,时间以
及其他能够被标准公式表示的特别形式。但是,在搜索引擎中,它们仍然要被索引。
字符大小写
所有的字母通常都会统一转化成大写或者小写。
辨别不同的字段
标题,元数据,正文等。标题是对网页的简要说明,其中的词应赋予高的权值;正文部分作了强调的词(
,,等),也应给予更高的权值。
辨别锚文本
锚文本通常能非常精确的描述链接指向的网页的信息。在一些超链接指向的外部网页(不是内部域的)时,锚文本特别有价值,因为这些对网页的描述是由其他人写的,而不是由作者写的,所以更加可信。
API,可以返回每个元素的x和y轴的值。可建立基于位置和外观的特性的机器学习模型。
树匹配:同一个商业网站的网页是通过使用固定的模板生成的。找到这种被隐藏的模板,就很容易为每个页面建立一棵标记树。具体的依据如下:通常每个页面的主内容块中的内容不同,但模板相同。相反,非主要内容在不同页面中都很相似。