探究微博中的情绪分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要:针对微博进行情绪分析就是对微博所表达的喜、哀、怒、惧、恶、惊六种情绪进行分析,对迅速了解大众情绪走向并且对于个人情绪调节有着重要的意义。本文对情绪分析的研究背景以及研究内容进行了阐述,重点探索了情绪分析的难点和基于情绪词典的情绪分析方法。为情绪分析的进一步研究奠定了基础。

关键词:微博,情绪分析,情绪词典

一、研究背景

微博作为一种即时通讯工具,其简便易用,具备非常好的实时性,中国已经进入全民微博时代。越来越多的互联网用户注册微博,他们通过微博自由地发表自己的观点及情感,如对名人的喜欢或憎恶、对电影的评论、对品牌的评价或建议、对社会热点的看法以及生活中的喜怒哀乐等。这些看似琐碎的信息其实蕴含着巨大的商业价值,如预测电影票房、挖掘产品意见、了解用户需求、开拓新市场等。除此之外,分析微博有助于进行舆情监控、问答系统的研究,还可以用来帮助心理专家检测用户心理状态。

二、本文的研究内容

微博文本数据规模庞大,给自然语言研究处理带来了新的机遇和挑战,吸引了大量语言研究工作者从事微博的研究工作。其中,尤其以含有情感的微博文本更吸引人们的注意,成为了挖掘工作的宝贵资源。同时,对微博进行文本分类研究可以帮助解决用户观点分析和情感挖掘。目前,情感分析任务大致分为两种:一种是主客观文本分类;另一种是主观文本的情感分析,即对带有情感色彩的文本进行自动分析并预测其情感极性。情感分析任务根据不同应用分为两个领域:评价分析和情绪分析,前者侧重于产品性能评价,后者侧重于人的心理感受。本文主要进行中文微博的情绪分析,从以下方面进行研究:分析微博表达特点,探索微博中的情绪分析方法。

三、情绪分析的难点

(一)微博文本有三个最显著的特点:一、简短,只包含140个字符。二、含有丰富的表情符。三、语言表达口语化。这三个特点给微博情绪分析带来了新的挑战。中文微博至多可以输入140个中文字符,一般包含一个到三个中文句子。一个句子中包含的情感信息较少,很难挖掘;反讽句子,难以判断情绪类别。多个句子表达的感情相互独立、不一致,情绪挖掘意见难以统一。微博非结构化口语表达中混入了很多的谐音字,如“V5”等同于“威武”;英文缩略词,如“OMG”是“Oh, My God!”的缩写;网络用语频出,如“又挂科了,累觉不爱啊!”;表达口语化,难以分辨情绪,如“自然卷留毛线头发啊!!!”

(二)由于中文表达的多样性,在对其进行情绪分析时面临诸多困难:

a)同一个中文词语在不同语境中能表达不同的情感倾向。如“骄傲的人永远以自我为中心。”和“我为你骄傲,中国!”两句中的“骄傲”,前者表现了厌恶的情绪,后者则传达了喜爱的情绪。

b)不同词性下,词语的情感色彩不一致。如“好”作为副词不表达情感,但是作为形容词则传递了正面情绪。

c)本身不带有情感的词,被寓以特定情感。如“马圈里的那匹黑马今年三岁了。”和“斯诺克国锦赛年仅16岁的小将赵心童黑马成色不减以6:1淘汰世锦赛亚军霍金斯。”中的“黑马”,该词本身并没有任何情感倾向,但常常被使用来形容初出茅庐却取得优异成绩的人或物,具有积极正面的情感。

四、情绪分析方法探索

由于情绪的复杂性和敏感性,不同的研究对于其类别的划分也有很大差异,其中Ekman 通过研究人的面部表情,提出了六种基本情绪状态:喜(joy),哀(sadness),怒(anger),惧(fear),恶(disgust),惊(surprise)。这六种基本情绪分类被自然语言处理领域的自

动情绪识别研究所广泛采纳。根据大连理工建立的情感词汇本体[1]为评测情绪分类体系,即对包含情绪的微博输出情绪类别愤怒、厌恶、恐惧、高兴、喜好、悲伤、惊讶中的一种;如果无情绪则标记为无。至此,中文细粒度的情绪识别引起更多的关注[2]。

(一)情绪词典

在情绪研究中情绪词典一直都占据重要的位置。但是词典构建时选用的语料库对词典适用领域有一定的限制性。如:清华大学的中文褒贬义词典v1.0根据携程网宾馆评论语料库构建,更适用与进行正负向评论研究。目前,专注于情绪表达而非评论的中文情绪词典主要有HowNet、C-LIWC和DUTIR。在粗粒度的实验中,对情绪词典HowNet和C-LIWC进行比较分析,发现C-LIWC在微博数据集上的效果优于HowNet。对实验结果的分析表明了情绪词典的重要性,同时发现目前中文情绪词典存在着对网络用词收录不足。另外,从语言描述方面详细讨论了微博表达的特点,如语句中含有表情符,情绪的否定等都是情绪分析的重要线索。在细粒度的实验中,对情绪词典C-LIWC和DUTIR进行比较分析,发现C-LIWC虽然词汇量远远小于DUTIR,但结果却略好于DUTIR。具体来说,C-LIWC对喜和怒的识别F值更高,而DUTIR 在哀和惧两类表现更优。

(二)基于规则的情绪分析方法

给定一条微博文本t,假设待判断的情绪种类集合为E=,其中m为情绪类别的总数,那么对t的情绪判断过程如下:

1. 使用中文分词系统对t进行分词处理得到单词序列q。

2. 对q中的单词/表情符与情绪词典中的情绪词/表情符进行匹配;对于每种情绪类别,统计匹配到的该类的情绪词/表情符的个数。

3. 对于每种情绪类别,计算t所对应的情绪值,公式如下:

根据上述过程可以看出,对于微博文本t,如果情绪词/表情符个数集合中存在唯一的最大值,那么可以判断t的情绪。否则,无法判别t的情绪类别。相应的,如果t未匹配到词典中任何的情绪词,t的情绪也无法判别。对于后一种情况我们说t未被词典覆盖。

参考文献

[1]徐琳宏,林鸿飞,潘宇等.情感词汇本体的构造.情报学报,2008,27(2):180-185.

[2]贺飞艳,何炎祥,刘楠,等.面向微博短文本的细粒度情感特征抽取方法.北京大学学报(自然科学版),2014(01).

相关文档
最新文档