基于谱聚类的文本相似性研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于谱聚类的文本相似性研究

摘要:为了克服自然语言表达形式的多样性和文本分类的粗略性,将潜在语义分析和谱聚类方法结合起来对语料库进行处理,构造一个语义空间,最终使用向量空间模型对文本进行相似性计算。实验证明,该方法可有效提高语义相似性计算的准确度。

关键词:语义相似性;语义结构;潜在语义分析;谱聚类;语义空间

1语义空间

1.1潜在语义分析

潜在语义分析(Latent Semantic Analysis,简称LSA)的主要思想是:将文档视为以词汇为坐标系构成的多维空间中的点,这些点的分布并非是随机无规律的,而是服从某种语义结构。它将词条文档矩阵进行奇异值分解,经过处理并保留原矩阵M的最佳二次逼近后,可以将原来的高维文档映射到低维的语义向量空间中,从而呈现出一些潜在的语义结构。

由于词语关系矩阵的维数比较高,将原始的词语关系矩阵Mm*n 按照奇异值分解为M=U∑XT,其中Um*m,∑m*n,Vn*n给后续计算处理带来了极大的困难。因此本文对原始的词语关系矩阵进行潜在语义分析,利用近似矩阵来逼近M,即为M找到一个合适的秩r来逼近M。是Frobenius范数意义下的M的最小二次逼近,其定义如下:

=r∑~rTr

minM-F≡∑-U∑~VTF≡

min∑ni=1(σi-si)2=min∑ni=r+1σ2i

其中,∑~仅包含了Σ的前r个元素,即∑~的秩为r,而且秩可以根据应用问题所要求的精度进行调整。

在代数矩阵理论中,小奇异值对应着小的特征向量,取∑前r大个奇异值实际上就把一些很小的奇异值对应的特征向量“忽略”了,即忽略了语义相关性较弱的词,保留了语义相关性较强的词,达到了去除冗余特征和噪音的目的。

1.2相似度矩阵优化

谱聚类算法对于相似矩阵而言其性能非常敏感,所以构造相似矩阵的好坏对谱聚类算法是非常重要的。词-词矩阵反映的仅仅只是词与词之间的关联关系,即二值邻接矩阵。但二值邻接矩阵并不能反映出词与词之间在语义上的相似性度量,所以使用谱聚类算法对语义相似的词语进行聚类并不能得到比较理想的结果,本文在此对词-词关联矩阵采用空间向量和余弦法进行优化。

空间向量:词-词矩阵的第i行表示第i个词的n维向量,即第i 个词与其它n个词的相关性,用Vi来表示。

余弦法:词与词之间语义上的相似性度量S可表示为(其中词语本身的相似性度量为1):

S(i,j)=S(j,i)=Vi·Vjnorm(Vi)norm(Vj) i≠j

1i=j

优化后的词-词语义相似度矩阵W表示为:

W=1S(1,2)S(1,3)…S(1,n)

S(2,1)1S(2,3)…S(2,n)

S(3,1)S(3,2)1…S(3,n)

S(n,1)S(n,2)S(n,3) (1)

该矩阵反映的是词与词之间在语义上的近似程度,这就为从语义上分析文本相似度奠定了很好的基础。

1.3语义空间构造

通过谱聚类的算法对上述词-词语义相似度矩阵W进行聚类,即语义相近或相关的词聚为一类,使聚类结果投影到N维平面中,通过N维平面中点与点之间的欧氏距离来衡量词与词的语义相似性程度,该距离则为词语间的语义距离。下文将详细论述如何通过拉普拉斯谱聚类计算二维平面中的语义距离。

拉普拉斯矩阵定义为L=D-W,其中D为G的度矩阵,W为G 的二值邻接矩阵。依据拉普拉斯矩阵的定义:L=D-W,在本文中D 为相似度矩阵W的度数矩阵:

D=diag(kn),kn=sum(Wn*n)

其中向量kn为相似度矩阵Wn*n行向量的和,D为向量kn构成的对角矩阵。

d为特征值向量满足关系:{0=λ1≢λ2≢λ3≢…≢λn},v为

对应的特征向量矩阵。

假设λi为向量d中第一个不为0的特征值,则取v中特征值贡献率最大的两列所对应的特征向量第i列vi与第i+1列vi+1,令X= vi,Y=vi+1,即X,Y为特征向量矩阵中最主要的特征向量,将X,Y投影到二维平面上,平面上点与点之间的距离即为词语间语义相似性度量。点与点间距离越小,说明语义越近似或越相关;反之,点与点之间距离越大,则词与词越不相关。经过谱聚类算法投影后,在二维平面上很直观地反映了词之间在语义上的相似关系。

将任意两点间的距离求出,可得一个N*N的对称矩阵U。

本文将词之间的语义距离构造成对称矩阵,通过奇异值分解进行降维,得到特征向量空间即语义空间。因为语义空间潜在地利用了词语间的语义距离,所以每一个词通过语义空间映射成的K维向量,也都潜在的反映了语义距离,这就为使用余弦法计算两个N维向量的语义相似性提供了主要的理论依据。最终,文本间的语义相似性计算就可以基于词语的语义相似性来计算。

但是考虑到某些点(不属于同一类簇的点)之间的距离相对来说足够大,而大部分的点(同一类簇的点)则相对集中,距离非常小,相比之下可以忽略不计了,使得有细微语义差别的词变得完全等同,即距离为0,影响到计算的精度,所以需要通过大量实验分析来设置一个阈值F,提高相似性计算的精度。

2文本相似性计算

本文最终的目的就是要找到n×k维语义空间,该语义空间将文本中的每一个词转化成k维向量,那么文本向量最终可以由n个词的k维向量加权平均求和得到,即文本向量化。文本向量化是进行文本相似性计算的必要步骤,所以只有文本向量比较好的表达和保存了原有文本的重要信息,文本相似性才有可能取得令人满意的结果。

任意文本经过分词(ICTCLAS汉语分词系统)后,文本中的每一个词在语义空间中都可以映射为一个k维向量,最终文本可用向量空间模型表示为:

T=(λ1ω1+λ2ω2+λ3ω3…+λnωn)/n

T为文本在语义空间映射的k维向量;ω为词语在语义空间映射的k维向量,即ω=(α1α2α3…αk);λ为词语在文本中的权重,本文中λ由TF-IDF得出。

那么文本相似性最终可用余弦法求出:

Sim(T1,T2)=T1·T2norm(T1)×norm(T2)

3实验及结果

本文实验部分由两部分组成:①构造语义空间;②通过实际数据对文本进行相似性计算并进行分类,依据实验结果来验证:语义空间能否在语义上提高计算文本相似性的准确度,以及构造语义空间算法的有效性。

3.1构造语义空间

《现代汉语词典》包含词条完整而全面,且在词语解释方面具有较高的权威性和普遍性。本文实验选取中文文本数据集《现代汉语词

相关文档
最新文档