基于Word2vec的文档分类方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于Word2vec的文档分类方法
陈杰;陈彩;梁毅
【期刊名称】《计算机系统应用》
【年(卷),期】2017(026)011
【摘要】The feature extraction and the vector representation are the key points in document classification. In this paper, we propose a classification method based on word2vec for the two key points. This method builds the bag of feature words by Document Frequency (DF) to retain the important feature of the document as much as possible. It takes advantage of the Latent Semantic Analysis of word2vec thus to reduce the size of bag of feature words and the dimension of document vector effectively, which replaces the semantically relevant words with the product of a topic word and proper parameters. Besides, it also gives each feature word the optimal weight by combining with the TF-IDF algorithm. Finally, compared with two other document classification methods, the method presented in this paper has made some significant progress, and the experimental result has proved its effectiveness.%文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec 的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了
对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.
【总页数】6页(P159-164)
【作者】陈杰;陈彩;梁毅
【作者单位】北京工业大学信息学部,北京 100124;北京工业大学信息学部,北京100124;北京工业大学信息学部,北京 100124
【正文语种】中文
【相关文献】
1.一种基于word2vec的文本分类方法 [J], 薛炜明;侯霞;李宁
2.基于word2vec和自训练的无监督情感分类方法 [J], 陶娅芝
3.基于word2vec的跨领域情感分类方法 [J], 王勤勤;张玉红;李培培;胡学钢
4.基于Word2vec和多分类器的影评情感分类方法 [J], 王学贺;赵华
5.基于Word2Vec模型和K-Means算法的信息技术文档聚类研究 [J], 毛郁欣; 邱智学
因版权原因,仅展示原文概要,查看原文内容请购买。

相关文档
最新文档