文本分类论文:文本分类 特征提取 文本情感分类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文本分类论文:中文文本情感分类的研究

【中文摘要】文本情感分类是指通过挖掘和分析文本中的立场、观点、情绪等主观信息,对文本的情感倾向做出类别判断。随着人们在Web中表达自己观点这一现象越来越普遍,针对文本情感分类的研究也显得越来越重要。文本情感分类的关键技术有网页文本内容提取、文本表示(向量空间模型、布尔模型、概率模型)、特征提取(文档频率、卡方统计、互信息、信息增益、期望交叉熵、文本证据权)以及文本分类器(贝叶斯分类器、支持向量机、KNN、神经网络)。本文的主要研究内容和工作包括以下几个方面:(1)实现了网页文本提取技术,并对文本预处理技术进行了研究。在研究从Web服务器获取网页源码技术的基础上,设计了一个正则表达式,以实现网页纯文本

的提取,并设计和实现了向量空间模型表示文本的预处理方法。(2)

设计并实现了基于情感词典的情感句识别算法和基于朴素贝叶斯的

情感句识别算法来进行文本情感主观性分类:前者经过文本预处理、文本表示,通过与情感词典的比对得到主观句集和客观句集;而后者经过文本预处理、文本表示、提取特征,最后利用朴素贝叶斯分类模型得到主观句集和客观句集。实验表明,基于情感词典的情感句识别算法的分类效果要优于基于朴素贝叶斯的情感句识别...

【英文摘要】Text sentiment classification is automatically classifying sentiment of text by mining and analyzing subjective information in the text, such as standpoint, view,

mood, and so on. It becomes more significant as more poeple express their viewpoints on web.The key technologies of text sentiment classification contain text extraction, text representation (vector space model, Boolean model and

probability model), feature extraction (document frequency,

chi-square statistics, mutual information, information ...

【关键词】文本分类特征提取文本情感分类

【英文关键词】text classification feature extraction text sentiment classification

【索购全文】联系Q1:138113721 Q2:139938848 同时提供论文写作一对一辅导和论文发表服务.保过包发

【目录】中文文本情感分类的研究致谢5-6摘要

6-7ABSTRACT7-8 1 引言11-17 1.1 研究背景

11-12 1.2 文本情感分类的相关问题12 1.3 国内外研

究现状12-15 1.4 本文主要研究内容15-16 1.5 论文

的组织和安排16-17 2 文本情感分类关键技术

17-33 2.1 文本情感分类流程17 2.2 网页文本内容提

取方法17-20 2.2.1 网页结构分析18 2.2.2 目前存在

的主要网页文本抽取技术方法18-20 2.3 中文分词技术分析

20-22 2.4 文本表示技术分析22-25 2.4.1 向量空间

模型22-24 2.4.2 布尔模型24 2.4.3 概率模型

24-25 2.5 特征提取25-29 2.5.1 文档频率

25-26 2.5.2 卡方统计26 2.5.3 互信息

26-27 2.5.4 信息增益27 2.5.5 期望交叉熵

27-28 2.5.6 文本证据权28-29 2.6 文本情感分类常用分类器29-33 2.6.1 贝叶斯分类器29-30 2.6.2 支持向量机30 2.6.3 KNN30-31 2.6.4 神经网络

31 2.6.5 几种分类器优缺点的比较31-33 3 文本情感分类算法结构33-35 4 文本情感主观性分类35-46 4.1 预处理和文本表示36-41 4.1.1 从XML格式文档中提取评论信息37-40 4.1.2 对文本进行中文分词并去除停用词

40-41 4.2 基于情感词典的情感句识别算法41-42 4.3 基于朴素贝叶斯分类模型的情感句识别算法42-44 4.4 实验结果分析与比较44-46 5 文本情感极性分类46-58 5.1 文本情感极性分类模型特征选择46-50 5.2 朴素贝叶斯分类模型的实现50-52 5.3 KNN分类器模型的实现52 5.4 支持向量机分类器模型的实现52-53 5.5 实验结果分析与比较53-58 6 结论和展望58-60参考文献60-62

附录 A62-63作者简历63-65学位论文数据集65

相关文档
最新文档