基于内容的推荐算法调研重点整理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

算法调研重点整理

目录

算法调研整理 (1)

1. 文本表示 (1)

1.1向量空间模型 (1)

1.2 词频-逆文档频率(tf-idf)权重计算 (2)

2. 特征选择方法 (3)

2.1 卡方检验 (3)

2.2 信息增益 (4)

3. 分类算法—支持向量机 (4)

3.1 基本原理 (4)

3.2 参数选择 (11)

3.3 算法特点 (12)

1. 文本表示

1.1向量空间模型

向量空间模型的基本思想是将文本文档看成是一组特征项构成,主要是提取出文档中最能反映该文档特征的词。对于每一个特征项t,都根据其在文档中的重要程度赋予一个权重,一个文本的特征表示就可以看作一个m 维的坐标系,为对应的坐标值。

通过VSM模型的表示之后,我们的文档集合变成了一个矩阵,每一行代表一个文档,每一列代表这个文档中的某个特征项。经过了这样的表示,文档模型被转换

到了矩阵的形式,方便了计算机的处理。

1.2 词频-逆文档频率(tf-idf)权重计算

特征权重的计算方法大都基于两个原则:一个特征项在某文档中出现的频次越高,其作用越重要;一个特征项在整个数据集的文档中出现的频次越高,其区分度越差。即特征值既要能体现目标的特征,又要能将目标与其他文档对象区分开来。

常用的计算特征权重方法是tf-idf 权重计算

词频是特征项tk在文本 dj中出现的频数

逆文档频率:IDF=,衡量特征词在整个训练样本集中分布的情况

N为训练样本总数, nk为训练样本集中出现特征项tk的文本数.

归一化:消除文档长度不一致对权重量化标准带来的影响,同时,为了避免特征的权重为0,进行了平滑处理

2. 特征选择方法

2.1 卡方检验

开方检验中使用特征与类别间的关联性来进行这个量化,度量两者(特征项t 和类别c)的相关程度,关联性越强,特征得分越高,该特征越应该被保留。

设t为某个词,c为某个类别。A是t和c共同出现的频数,B是训练语料中出现包含t 的文档,且该文档不属于c类的频数,C是c类文档中不包含t的文档频数,D是出现既不包含t也不属于c类的文档频数,N为训练语料中的总文档数。

分别计算特征t对于每个类别的CHI值,看与哪个类别关联程度大。可移除低于特定阀值的特征,保留高于特定阀值的特征。

卡方检验是一个归一化的值可以比其他方法大约减少50%的词汇,降维效果好,分类效果好。卡方检验的缺点是:它只统计文档是否出现词,而不管出现了几次。这会使得他对低频词有所偏袒(因为它夸大了低频词的作用)。甚至会出现有些情况,一个词在一类文章的每篇文档中都只出现了一次,其开方值却大过了在该类文章99%的文档中出现了10次的词,其实后面的词才是更具代表性的,但只因为它出现的文档数比前面的词少了“1”,特征选择的时候就可能筛掉后面的词而保留了前者。这就是开方检验著名的“低频词缺陷”。因此开方检验也经常同其他因素如词频综合考虑来扬长避短。

2.2 信息增益

信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。

其中P(C i),表示类别C i出现的概率,其实只要用1除以类别总数;P(t),就是特征t出现的概率,用出现过T的文档数除以总文档数, P(C i|t)表示出现T的时候,类别C i出现的概率,用出现了T并且属于

类别C i的文档数除以出现了T的文档数。

信息增益也是考虑了特征出现和不出现两种情况,与开方检验一样,是比较全面的,因而效果不错。但信息增益最大的问题还在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。

3. 分类算法—支持向量机

3.1 基本原理

1.最优分类面和广义最优分类面

SVM是从线性可分情况下的最优分类面发展而来的,基本思想可用图1来说明。对于一维空间中的点,二维空间中的直线,三维空间中的平面,以及高维空间中

,的超平面,图中实心点和空心点代表两类样本,H为它们之间的分类超平面,H

1

H

分别为过各类中离分类面最近的样本且平行于分类面的超平面,它们之间的距

2

离△叫做分类间隔(margin)。

图1 最优分类面示意图

所谓最优分类面要求分类面不但能将两类正确分开,而且使分类间隔最大。将两类正确分开是为了保证训练错误率为0,也就是经验风险最小(为O)。使分类空隙最大实际上就是使推广性的界中的置信范围最小,从而使真实风险最小。推广到高维空间,最优分类线就成为最优分类面。

设线性可分样本集为}1,1{,,,...,1),,(x _-+∈∈=y R x n i y d i i 是类别符号。d 维空间中线性判别函数的一般形式为是类别符号。d 维空间中线性判别函数的一般形式为b x w x g +⋅=)(,分类线方程为0=+⋅b x w 。将判别函数进行归一化,使两类所有样本都满足1|)(|=x g ,也就是使离分类面最近的样本的1|)(|=x g ,此时分类间隔等于||||/2w ,因此使间隔最大等价于使||||w (或2||||w )最小。要求分类线对所有样本正确分类,就是要求它满足

(1-1)

满足上述条件,并且使2||||w 最小的分类面就叫做最优分类面,过两类样本中离分类面最近的点且平行于最优分类面的超平面H 1,H 2上的训练样本点就称作

支持向量(support vector),因为它们“支持”了最优分类面。

利用Lagrange 优化方法可以把上述最优分类面问题转化为如下这种较简单的对偶问题,

相关文档
最新文档