基于 LDA 的中文文本相似度计算

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于 LDA 的中文文本相似度计算
孙昌年;郑诚;夏青松
【期刊名称】《计算机技术与发展》
【年(卷),期】2013(000)001
【摘要】传统基于 TF-IDF 的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的 TF-IDF 向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。

提出了一种基于潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)的文本相似度计算方法,LDA 模型可以在没有词典的情况下解决上述所有问题,通过吉比斯抽样方法将文本建模到主题空间,然后使用 JS(Jensen-Shannon)距离来计算文本相似度。

通过聚类实验表明该方法取得了较高的 F 值。

%Text similarity calculation based on traditional TF-IDF vector space model exists high dimensional sparse data,lack of semantic and dimension normalization,the TF-IDF vector space model based on its semantic extension is to solve the partial problem of semantic, but its word similarity computation based on dictionary limits its application scope. Proposed a text similarity computing method based on potential Dirichlet distribution (Latent Dirichlet Allocation,LDA),LDA model can solve all these problems in no dictionary,through the Gibbs sampling method,the text modeling to subject space,and then use JS (Jensen-Shannon) distance computing text similarity. The clustering experiment results show that this method can achieve high F value.
【总页数】4页(P217-220)
【作者】孙昌年;郑诚;夏青松
【作者单位】安徽大学计算机科学与技术学院,安徽合肥 230039; 教育部计算智能与信号处理重点实验室,安徽合肥 230039;安徽大学计算机科学与技术学院,安徽合肥 230039; 教育部计算智能与信号处理重点实验室,安徽合肥 230039;安徽大学计算机科学与技术学院,安徽合肥 230039; 教育部计算智能与信号处理重点实验室,安徽合肥 230039
【正文语种】中文
【中图分类】TP31
【相关文献】
1.一种PST_LDA中文文本相似度计算方法 [J], 张超;陈利;李琼
2.基于LDA和SVM的中文文本分类研究 [J], 宋钰婷;徐德华
3.一种基于禁毒情报相似度计算的中文文本分析算法 [J], 郭欣;张丽坤
4.基于WV-CNN的中文文本语义相似度计算方法 [J],
5.基于WV-CNN的中文文本语义相似度计算方法 [J], 张春英;李春虎;付其峰;因版权原因,仅展示原文概要,查看原文内容请购买。

相关文档
最新文档