开题报告(文献综述)-在线评论分析系统的情感分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

开题报告（文献综述）-在线评论分析系统的情感分析本科毕业设计(论文)开题报告
论文题目在线评论分析系统的情感分析开题报告内容:
一、选题的背景及意义
近年来，在“大数据”(Big Data)时代的背景下，随着电子商务行业的蓬勃发展，网络购物平台、手机APP应用市场平台等不仅为用户提供了大量商品信息，同时还允许用户参与商品评论。

它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据，也为消费者提供了一个产品使用体验交流以及质量评价的平台。

因此很多网络用户在购买或使用某类产品前，往往会选择先上网浏览一些该产品的相关信息，尤其是其他用户的使用体验，多方比较产品的性能，从而使自己的消费和选择更趋理性化。

分析这些评论信息，蕴含着巨大的商业价值和社会价值，具有很大的现实意义。

然而，这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行
收集、处理和分析。

因此采用计算机技术来自动地分析这些主观性文本表达的情感,成为目前数据挖掘(Data Mining)研究的一个热点,而这个热点的研究方向就是文本情感分析(Sentiment Analysis)。

文本情感分析，也称为意见挖掘(Opinion Mining)，是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。

它涉及自然语言处理(Natural Language Processing)、计算机语言学(Computational Linguistics)、机器学习(Machine Learning)、信息检索(Information Retrieval)等众多领域，在计算机科学、管理学、政治学、经济学和社会学方向都有广泛的应用。

进入21
世纪以后，情感分析这个领域变得活跃起来，吸引越来越多的学者投入其中。

目前
针对中文的情感分析仍处于起步阶段，各项技术尚未成熟，因此，中文文本的情感分析系统的研究与实现有着广泛的研究价值和应用价值。

二、工作任务分析
a) 学习情感分析技术，研究文本情感分析的相关理论、算法和应用。

了解情感分析技术的发展现状和发展方向，并能理解其理论基础;研究基于情感
词典和基于机器学习等情感分析算法;研究目前情感分析技术在商业领域的应用，
特别是在用户评论分析与决策上的成果。

b) 针对评论文本的特点，研究和设计面向评论文本的情感分析算法。

针对评论文本短小简洁、网络术语等特点，研究和设计有效的中文情感分析算法，
判断出评论文本中的情感倾向性
c) 基于上述研究，构建评论文本的情感分析模块。

设计并构建评论文本的情感分析模块，结合小组其他同学的网页内容提取模块和
网络存储模块等，构建一个在线评论分析系统，且整个系统能够正常运作。

d) 测试与优化。

不断对情感分析模块进行测试与完善，尽可能提高情感倾向分析的准确率。

三、调研报告
1、情感分析的发展现状
文本情感分析是一个多学科交叉的研究领域，属于计算机语言学的范畴。

它在计算机科学以及管理学、政治学、经济学、社会学方向都有广泛的应用，而商业的蓬勃发展也进一步拓展了它的应用范围。

在20 世纪 90 年代，就已经有学者开始
了情感分析方面的研究，进入 21 世纪以后，作为一个新的研究方向，这个领域逐渐变得活跃，吸引了越来越多的国内外学者投入其中。

在情感分析的应用中，“用户评论分析与决策”，是目前情感分析技术使用最频繁的一个应用点[1]。

国内外有很多研究机构根据现实生活中的具体需求研发出各个领域的情感分析系统，帮助用户对海量信息进行分析和决策。

例如，Dave等人研究并开发的Review Seer是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统。

Liu等人研发的Opinion Observer系统町以处理网上在线顾客产品评价。

采用可视化方式对若干种产品评价对象的综合质量进行比较;Wilson等人研发的Opinion Finder系统可以自动识别主观性句子以及抽取句子中情感信息;上海交通大学则开发了一个用于汉语汽车论坛的情感分析系统，挖掘并概括人们对各种汽车品牌的评论和意见。

但由于中文和英文的差异性，许多国外的研究技术和情感资源无法直接用于中文语言的处理，基于中文领域的情感分析处于起步阶段。

情感分析技术的快速发展在很大程度上源于人们改进人机交互现状的愿望，而随着中国电子商务的迅猛发展，未来情感分析依然是数据挖掘和中文信息处理领域的热点研究领域。

[2]
2、情感分析的相关理论和技术
文本情感倾向分析的主要任务[3]是判断主观性文本所表达观点的褒贬性，根据其研究的粒度可分为词语、句子和篇章三个级别。

其中，本课题主要针对的在线评论信息属于句子级中文短文本。

句子级情感分析研究方法[4]总体可分为情感词典、机器学习和语义分析三种方式。

a) 基于情感词典的方法。

以现有的情感词典为基础，结合句法分析、词语相似度分析等手段，采用计算情感权值的方式，对文本的情感倾向进行判定。

该方法简单易行，但是
2
由于受到否定词和转折词等因素的影响，其判断准确率不够理想。

王素格等人首先通过构建情感词典，在此基础上使用情感词对观点句进行表示，然后利用线性加权组合方法构造分类函数，从而实现对句子情感的褒贬分类。

b) 基于机器学习的方法。

一般采用有监督的或者半监督机器学习的方式。

将情感分析看做一个文本分类问题，使用分类器将文本分为正、负两类或者正、负、中性三类。

首先进行文本预处理，提取文本中的否定词、一元词语特征(unigram)、二元词语特征(bigram)、位置信息等属性，然后利用这些属性作为文本分类中的特征，使用了 NB、ME 和 SVM 三种分类方法来进行情感分类。

Pang的分类结果表明，选用unigram特征，使用 SVM 分类器能取得最佳的效果，面向电影评论文本的准确率达 83%。

c) 基于语义和语法的方法。

蔡健平等[14]人以知网[15]根据文本的语义特征计算方法为基础，提出了基于语义距离和语法距离的句子褒贬倾向性分析方法，该方法通过词语的褒贬极性和词语的语法关系两个方面来衡量句子的情感倾向。

克蕾等通过对句子进行依存语法分析，提出了根据语法距离来计算情感修饰词对句子极性的影响，并取得了不错的结果。

四、方案拟定与分析
初步的方案有以下几个要点:
1、研究文本情感分析的相关算法。

比较各种情感分析方法的特点，并根据中文评论文本的特性及在线评论分析系统
的需求，选择其最优算法进行学习和研究;
2、分别设计基于词典和基于分类的情感分析算法
采用基于情感词典的方法
a)抽取情感短语;b)用PMI公式计算词语的情感倾向;c)根据计算提取出的所有的
短语情感倾向值，分析文本的情感倾向。

采用基于机器学习的方法
a)进行文本预处理，提取文本中的否定词、一元词语特征、二元词语特征、位置信
息等属性;b)利用这些属性作为文本分类中的特征，使用了 NB、ME 和 SVM 三种分类方法来进行情感分类。

3、设计面向评论文本的情感分析模块
a)特征提取与权重计算子模块
本子模块在提取出文本的特征并计算其特征权重后，将文本保存成向量空间模型。

b)分类子模块
考虑使用台湾大学的 libsvm模块进行分类。

主要提供两个功能，即模型的训练和
对新文本进行分类。

算法测试时，首先运行训练过程来训练分类器，然后通过测
试过程来测试情感分类的准确度
4、模块接口的开发设计
情感分析模块与其他小组成员设计的模块能够成完整的系统，预留开发接口，使
能够对情感分析算法进行替换、维护，以便后续对算法进行改进。

3
5、系统测试
对情感分析模块进行实验和测试，并对其准确率、召回率等评价指标进行分析和
系统的完善优化。

五、毕业论文撰写提纲
摘要
第一章绪论
1.1研究背景
1.2国内外发展现状
1.3研究内容及挑战
1.4本论文的结构安排
第二章关于情感分析的相关理论和技术基础
2.1情感分析问题的描述
2.2情感分析的任务
2.3情感倾向析的方法
2.4本章小结
第三章在线评论分析系统中情感分析模块的关键算法研究
3.1情感词典构建算法
3.2面向在线评论文本的情感分析算法
3.2.1在线评论文本的特点
3.2.2面向在线评论文本的情感分析算法研究
3.3本章小结
第四章在线评论分析系统的总体设计
4.1系统需求分析
4.2系统总体结构
4.3本章小结
第五章情感分析模块详细设计与实现
5.1模块工作流程
5.2模块设计
5.3本章小结
第六章情感分析模块展示与测试
6.1模块展示
6.2测试结果与分析
6.3本章小结
4
第七章在线评论分析系统展示与测试
7.1系统展示
7.2测试结果与分析
7.3本章小结
第八章结束语
8.1总结
8.2今后的研发展望
致谢
参考文献
六、实施计划
设计总共用时3个半月左右。

具体安排如下:
2014.12.15——2015.03.20 论文选题，收集资料，并完成开题报告。

2015.03.21——2015.03.31 学习与整理情感分析模块的相关资料。

2015.04.01——2015.04.30 完成情感分析模块的实现和测试工作。

2015.05.01——2015.05.25 完成毕业论文。

2015.05.26——2015.06.12 完成答辩。

指导教师意见:
指导教师签名:
年月日文献综述内容(与论文主题相关的国内外研究理论、研究方法、进展情况、存在问题、参考依据等):
随着Internet的飞速发展，庞大的Web资源日益演变为人们获得知识与信息的重要来
5
源。

与此同时，由于Web资源的迅速膨胀以及Web信息的分散性与随意性，用户很难通过便捷的方式快速准确地从Web上获取所需的信，每天必须花上大量的时间与精力到各个网站上去浏览并挑出有效的信息。

因此，如何快速有效地对Web信息进行分类和索引以提供面向用户的快速检索访问成为一项重要的研究课题。

薛为民[5]和易高翔[6]等提出文本情感分析对大量的非结构化文本(如文档、电子表格、客户电子邮件、问题查询、网页等)进行分析，抽取文本特征，将文本数据转化为能描述文本内容的结构化或半结构化数据。

然后利用聚类、分类技术和关联分析等数据挖掘技术，形成具有一定结构文本，并根据该结构发现新的概念和相应的关系，获取有用的知识和信息。

然而刘红玉在文献[4]中提出了如下观点，认为目前，国内面向网络舆情分析研究主要存在以下几个方面的挑战: (1)中文情感词典的构造难度大; (2)中文语料难以获取 ;(3)网络载体多样化，文本类型不一 ;(4)准确度与中文分词、命名实体识别、句法分析等工具的准确度正相关不同于英文。

综合目前的国内外研究现状，情感倾向分析有三个基本思路，即基于词典的方法、基于语义的方法和基于分类的方法。

(1)基于词典的方法
Turney等[7]选择了一些经常用来表达情感的语法模式，通过这些模式计算词语之间的PMI(Pointwise mutual information)和句子的 SO(semantic orientation)值来判断情感倾向。

Qu 等[8]引入了“观点袋”模型(bag-of-opinions)，将观点分成三元组(情感词，修饰词，否定词)来计算文本的情感等级。

Shen 等[9]采用加权计算的方法对微博文本进行情感倾向的判定。

(2) 采用机器学习的方式
Pang 等[10]在 2002 年第一次提出这种方法，并使用朴素贝叶斯、支持向量机(support vector machines, SVM)和最大熵(maximum entropy, ME)三种分类算法进行尝试，这是一个里程碑式的创新。

Gamon 等[11]选择顾客反馈文本作为研究对象。

徐琳宏等[12]使用情感词作为特征，用支持向量机来分析文本的情感倾向。

刘志明等[13]使用朴素贝叶斯、支持向量机和 N-Gram 三种机器学习算法对微博文本进行了情感倾向分析，对比发现使用支持向量机的效果最好。

(3)基于语义的方法
蔡健平[14]等人以知网[15]根据文本的语义特征计算方法为基础，提出了基于语义距离和语法距离的句子褒贬倾向性分析方法，该方法通过词语的褒贬极性和词语的语法关系两个方面来衡量句子的情感倾向。

克蕾等通过对句子进行依存语法分析，提出了根据语法距
6
离来计算情感修饰词对句子极性的影响，并取得了不错的结果。

由于抽取句子的语义模式比较难，这种方法尚处于研究阶段。

情感分析领域在国外已经有了十几年的发展史，积累了一些情感资源和研究成果，然而国内的研究却刚刚起步(由于语言的差异性，一些国外的研究技术和情感资源无法直接移植到中文处理中。

因此，对于我们来讲，如何结合中文处理的特点，将一些成熟的技术和资源应用到中文情感分析领域，是一个值得我们积极探索的任务。

参考文献:
[1] 赵妍妍*，秦兵，刘挺.《文本情感分析》[J].软件学报,2010年08期 [2] 魏韡，向阳，陈千.《中文文本情感分析综述》[J].计算机应用,2011年12期 [3] 严孙荣.产品评论的意见挖掘研究与应用[D].北京交通大学,2012年5月 [4] 刘红玉.《网络舆情情感分析系统的设计与实现》[D].电子科技大学.2013年5月29日[5] 薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报.2005,4:59-63. [6] 易高翔,程耕国.Web文本挖掘研究[J].武汉科技大学学报(自然科学
版).2005,(l):72-74. [7] P. D. Turney. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of
reviews[C]. Proceedings of the 40th ACL, Philadelphia, 2002, 417-424 [8] L. Z. Qu, G. Ifrim, G. Weikum. The bag-of-opinions method for review rating prediction
fromsparse text patterns[C]. Proceedings of the International Conference on Computational Linguistics (COLING-2010), Beijing, 2010, 913-921
[9] Y. Shen, S. C. Li, L. Zheng, et al. Emotion Mining Research on Micro-blog[C]. Proceedings
ofthe 1st IEEE Symposium on Web Society, Lanzhou, 2009, 71-75
[10] B. Pang, L. Lee, S. Vaithyanathan. Thumbs up?: sentiment classification using machine
learningtechniques[C]. Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP-2002), Philadelphia, 2002, 79-86
[11] M. Gamon. Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic
analysis[C]. Proceedings of International Conference on Computational Linguistics (COLING-2004), Switzerland, 2004, 831
[12] 徐琳宏，林鸿飞，杨志豪. 基于语义理解的文本倾向性识别机制[J]. 中文信息学报，2007,21(1): 96-100
[13] 刘志明，刘鲁. 基于机器学习的中文微博情感分类实证研究[J]. 计算机工程与应用，2012,48(1): 1-4
[14] 蔡健平，林世平.基于机器学习的词语和句子极性分析[C].第三届全国信息检索与内容安全学术会议，2007
[15] 中国知网.情感分析用词语集[EB/OL]
7
,2007
说明:
1. 学生应通过调研和资料搜集(要有10篇以上相关文章的阅读量)，主动与指导教师讨论，在指导教师指导下完成开题报告。

开题报告需经各系或论文指导小组讨论、学院教学指导委员会审查合格后，方可正式进入下一步毕业设计(论文)阶段。

2. 理、工科开题报告撰写不少于2500字，人文社科开题报告不少于3500
字，包括论文选题的背景和意义、工作任务分析、调研报告、方案拟定与分析、毕业论文撰写提纲及实施计划、文献综述(设计类可不提交文献综述)等。

3. 开题报告字体为小四号，宋体(英文需用Times New Roman字体)，行距为固定值20磅。

4. 此表一式三份，一份交学院装入毕业设计(论文)档案袋，一份交指导教师，一份学生自存。

8。