文本的空间向量表示模型word版本

相关主题

概念向量空间模型

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

文本空间向量模型的主要思想是:将每一个文本表示为向量空间的一个向量，并以每一个不同的特征项(词条)对应为向量空间中的一个维度，而每一个维的值就是对应的特征项在文本中的权重。向量空间模型就是将文本表示成为一个特征向量:

)),(),...,,(),,(()(2211n n w t w t w t d V =

其中),...,2,1(n i t i =为文档d 中的特征项i w 为i t 的权重，一般取为词频的

函数。

一般选取词作为文档向量的特征项,最初的向量表示完全是0,1的形式,即如果文本中出现了该词,那么文本向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程度,所以逐渐0、1被更精确的词频代替，词频分为绝对词频和相对词频，绝对词频，使用词在文本中出现的频率表示文本，相对词频为归一化的词频，其计算方法主要运用TF-IDF 公式，目前存在多种形式的TF-IDF 公式。

在向量空间模型中，两个文本1D 和2D 之间的相关程度可以用它们之

间的相似度来度量。当文本被表示为向量空间模型中的向量时，我们可以借助于向量之间的某种距离来表示文本之间的相似度，通常用向量之间的内积或者用夹角余弦值来表示。

根据以上理论的指导，我做了如下实验。选取词作为文本向量的特征项（预先把中文词汇的停止词去掉，比如标点符号，啊，阿，哎，哎呀等）。文本向量权重的选取为特征词在文本中出现的次数。两个文本间的相似度用夹角的余弦值表示。比如连个文本1D ={iphone5s, 16G }，文本2D ={iphone5s, 16G, 电信版}，文本3D ={iphone5s, 16G, 移动版}。现在计算1D 和2D 之间的相似度。

步骤一：得到两个文本特征项集合的并集{iphone5s, 16G, 电信版}

步骤二：1D 的向量表示{1,1,0}

步骤三：2D 的向量表示{1,1,1} 步骤四：根据向量余弦夹角公式||

||||||cos 2121v v v v ⋅=

θ计算两个文本的相似度。步骤五：保存结果。

实验结果1D ，2D 的相似度为0.8164965809277259，2D 和3D 的相似度为0.6666666666666667。

主程序流程图：

这个程序还比较简陋，里面还存在一些问题，只是一个入门程序，现在正在研究TF-IDF公式。TF是词频，不同类别的文档，在特征项的出现频率上有很大差异，因此特征项频率信息是文本分类的重要参考之一，一般TF较大的特征项在该类文档中具有较高的权重，也就是说如果一个词有某类文档中经常出现，那么说明这个词对该类文档具有代表性，TF越大，表示这个词对文档越重要。如“计算机”这个词在计算机类的文档中出现的频率显然要高于政治类的文档。但是只是词频不足以表示一个词对文档的有用程度，为了消减几乎存在于所有文档中的高频词汇的影响，比较合理的办法是使用反比文档频率。

DF是文档频率，就是文档集合中出现某个特征项的文档数目；IDF 是反比文档频率，IDF越大，此特征项在文档中的分布越集中，说明他在区分该文档内容属性方面的能力越强。反文档频率是特征项在文档集分布情况的量化。IDF应用时经常采用对数形式。IDF算法能够弱化一些在大多数文档中出现的高频特征项的重要度，同时增强一些在小部分文档中出现的低频特征项的重要度。

特征权重计算唯一的准则就是要最大限度的区分不同文档。因此特征项频率TF与反比文档频率IDF通常是联合使用的，也就是TF-IDF权重。

参考文献：

[1]苏力华.基于向量空间模型的文本分类技术研究[D].西安电子科技大学,2006.

[2]邬启为.基于向量空间的文本聚类方法与实现[D].北京交通大

学,2014.

[3]陈治纲.基于向量空间模型的文本分类系统研究与实现[D].天津大学,2005.