开题报告(文献综述)-在线评论分析系统的情感分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
开题报告(文献综述)-在线评论分析系统的情感分析本科毕业设计(论文)开题报告
论文题目在线评论分析系统的情感分析开题报告内容:
一、选题的背景及意义
近年来,在“大数据”(Big Data)时代的背景下,随着电子商务行业的蓬勃发展,网络购物平台、手机APP应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。因此很多网络用户在购买或使用某类产品前,往往会选择先上网浏览一些该产品的相关信息,尤其是其他用户的使用体验,多方比较产品的性能,从而使自己的消费和选择更趋理性化。分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。
然而,这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行
收集、处理和分析。因此采用计算机技术来自动地分析这些主观性文本表达的情感,成为目前数据挖掘(Data Mining)研究的一个热点,而这个热点的研究方向就是文本情感分析(Sentiment Analysis)。
文本情感分析,也称为意见挖掘(Opinion Mining),是指通过分析和挖掘文本中的表达情感、观点和立场的主观性信息并判断其情感倾向。它涉及自然语言处理(Natural Language Processing)、计算机语言学(Computational Linguistics)、机器学习(Machine Learning)、信息检索(Information Retrieval)等众多领域,在计算机科学、管理学、政治学、经济学和社会学方向都有广泛的应用。进入21
世纪以后,情感分析这个领域变得活跃起来,吸引越来越多的学者投入其中。目前
针对中文的情感分析仍处于起步阶段,各项技术尚未成熟,因此,中文文本的情感分析系统的研究与实现有着广泛的研究价值和应用价值。
二、工作任务分析
a) 学习情感分析技术,研究文本情感分析的相关理论、算法和应用。
了解情感分析技术的发展现状和发展方向,并能理解其理论基础;研究基于情感
词典和基于机器学习等情感分析算法;研究目前情感分析技术在商业领域的应用,
特别是在用户评论分析与决策上的成果。
b) 针对评论文本的特点,研究和设计面向评论文本的情感分析算法。
针对评论文本短小简洁、网络术语等特点,研究和设计有效的中文情感分析算法,
判断出评论文本中的情感倾向性
c) 基于上述研究,构建评论文本的情感分析模块。
设计并构建评论文本的情感分析模块,结合小组其他同学的网页内容提取模块和
网络存储模块等,构建一个在线评论分析系统,且整个系统能够正常运作。
d) 测试与优化。
不断对情感分析模块进行测试与完善,尽可能提高情感倾向分析的准确率。
三、调研报告
1、情感分析的发展现状
文本情感分析是一个多学科交叉的研究领域,属于计算机语言学的范畴。它在计算机科学以及管理学、政治学、经济学、社会学方向都有广泛的应用,而商业的蓬勃发展也进一步拓展了它的应用范围。在20 世纪 90 年代,就已经有学者开始
了情感分析方面的研究,进入 21 世纪以后,作为一个新的研究方向,这个领域逐渐变得活跃,吸引了越来越多的国内外学者投入其中。
在情感分析的应用中,“用户评论分析与决策”,是目前情感分析技术使用最频繁的一个应用点[1]。国内外有很多研究机构根据现实生活中的具体需求研发出各个领域的情感分析系统,帮助用户对海量信息进行分析和决策。例如,Dave等人研究并开发的Review Seer是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统。Liu等人研发的Opinion Observer系统町以处理网上在线顾客产品评价。采用可视化方式对若干种产品评价对象的综合质量进行比较;Wilson等人研发的Opinion Finder系统可以自动识别主观性句子以及抽取句子中情感信息;上海交通大学则开发了一个用于汉语汽车论坛的情感分析系统,挖掘并概括人们对各种汽车品牌的评论和意见。
但由于中文和英文的差异性,许多国外的研究技术和情感资源无法直接用于中文语言的处理,基于中文领域的情感分析处于起步阶段。情感分析技术的快速发展在很大程度上源于人们改进人机交互现状的愿望,而随着中国电子商务的迅猛发展,未来情感分析依然是数据挖掘和中文信息处理领域的热点研究领域。[2]
2、情感分析的相关理论和技术
文本情感倾向分析的主要任务[3]是判断主观性文本所表达观点的褒贬性,根据其研究的粒度可分为词语、句子和篇章三个级别。其中,本课题主要针对的在线评论信息属于句子级中文短文本。句子级情感分析研究方法[4]总体可分为情感词典、机器学习和语义分析三种方式。
a) 基于情感词典的方法。以现有的情感词典为基础,结合句法分析、词语相似度分析等手段,采用计算情感权值的方式,对文本的情感倾向进行判定。该方法简单易行,但是
2
由于受到否定词和转折词等因素的影响,其判断准确率不够理想。王素格等人首先通过构建情感词典,在此基础上使用情感词对观点句进行表示,然后利用线性加权组合方法构造分类函数,从而实现对句子情感的褒贬分类。
b) 基于机器学习的方法。一般采用有监督的或者半监督机器学习的方式。将情感分析看做一个文本分类问题,使用分类器将文本分为正、负两类或者正、负、中性三类。首先进行文本预处理,提取文本中的否定词、一元词语特征(unigram)、二元词语特征(bigram)、位置信息等属性,然后利用这些属性作为文本分类中的特征,使用了 NB、ME 和 SVM 三种分类方法来进行情感分类。Pang的分类结果表明,选用unigram特征,使用 SVM 分类器能取得最佳的效果,面向电影评论文本的准确率达 83%。
c) 基于语义和语法的方法。蔡健平等[14]人以知网[15]根据文本的语义特征计算方法为基础,提出了基于语义距离和语法距离的句子褒贬倾向性分析方法,该方法通过词语的褒贬极性和词语的语法关系两个方面来衡量句子的情感倾向。克蕾等通过对句子进行依存语法分析,提出了根据语法距离来计算情感修饰词对句子极性的影响,并取得了不错的结果。
四、方案拟定与分析
初步的方案有以下几个要点:
1、研究文本情感分析的相关算法。
比较各种情感分析方法的特点,并根据中文评论文本的特性及在线评论分析系统
的需求,选择其最优算法进行学习和研究;
2、分别设计基于词典和基于分类的情感分析算法
采用基于情感词典的方法