文本的空间向量表示模型word版本

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文本空间向量模型的主要思想是:将每一个文本表示为向量空间的一个向量,并以每一个不同的特征项(词条)对应为向量空间中的一个维度,而每一个维的值就是对应的特征项在文本中的权重。向量空间模型就是将文本表示成为一个特征向量:

)),(),...,,(),,(()(2211n n w t w t w t d V =

其中),...,2,1(n i t i =为文档d 中的特征项i w 为i t 的权重,一般取为词频的

函数。

一般选取词作为文档向量的特征项,最初的向量表示完全是0,1的形式,即如果文本中出现了该词,那么文本向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程度,所以逐渐0、1被更精确的词频代替,词频分为绝对词频和相对词频,绝对词频,使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF-IDF 公式,目前存在多种形式的TF-IDF 公式。

在向量空间模型中,两个文本1D 和2D 之间的相关程度可以用它们之

间的相似度来度量。当文本被表示为向量空间模型中的向量时,我们可以借助于向量之间的某种距离来表示文本之间的相似度,通常用向量之间的内积或者用夹角余弦值来表示。

根据以上理论的指导,我做了如下实验。选取词作为文本向量的特征项(预先把中文词汇的停止词去掉,比如标点符号,啊,阿,哎,哎呀等)。文本向量权重的选取为特征词在文本中出现的次数。两个文本间的相似度用夹角的余弦值表示。比如连个文本1D ={iphone5s, 16G },文本2D ={iphone5s, 16G, 电信版},文本3D ={iphone5s, 16G, 移动版}。现在计算1D 和2D 之间的相似度。

步骤一:得到两个文本特征项集合的并集{iphone5s, 16G, 电信版}

步骤二:1D 的向量表示{1,1,0}

步骤三:2D 的向量表示{1,1,1} 步骤四:根据向量余弦夹角公式||

||||||cos 2121v v v v ⋅=

θ计算两个文本的相似度。 步骤五:保存结果。

实验结果1D ,2D 的相似度为0.8164965809277259,2D 和3D 的相似度为0.6666666666666667。

主程序流程图:

这个程序还比较简陋,里面还存在一些问题,只是一个入门程序,现在正在研究TF-IDF公式。TF是词频,不同类别的文档,在特征项的出现频率上有很大差异,因此特征项频率信息是文本分类的重要参考之一,一般TF较大的特征项在该类文档中具有较高的权重,也就是说如果一个词有某类文档中经常出现,那么说明这个词对该类文档具有代表性,TF越大,表示这个词对文档越重要。如“计算机”这个词在计算机类的文档中出现的频率显然要高于政治类的文档。但是只是词频不足以表示一个词对文档的有用程度,为了消减几乎存在于所有文档中的高频词汇的影响,比较合理的办法是使用反比文档频率。

DF是文档频率,就是文档集合中出现某个特征项的文档数目;IDF 是反比文档频率,IDF越大,此特征项在文档中的分布越集中,说明他在区分该文档内容属性方面的能力越强。反文档频率是特征项在文档集分布情况的量化。IDF应用时经常采用对数形式。IDF算法能够弱化一些在大多数文档中出现的高频特征项的重要度,同时增强一些在小部分文档中出现的低频特征项的重要度。

特征权重计算唯一的准则就是要最大限度的区分不同文档。因此特征项频率TF与反比文档频率IDF通常是联合使用的,也就是TF-IDF权重。

参考文献:

[1]苏力华.基于向量空间模型的文本分类技术研究[D].西安电子科技大学,2006.

[2]邬启为.基于向量空间的文本聚类方法与实现[D].北京交通大

学,2014.

[3]陈治纲.基于向量空间模型的文本分类系统研究与实现[D].天津大学,2005.

相关文档
最新文档