基于内容和情感的文本分类方法研究_硕士学位论文

硕士学位论文

基于内容和情感的文本分类方法研究

A Thesis Submitted in Partial Fulfillment of the Requirements for

the Degree of Master of Engineering

Research on Text Classification Methods Based on Content and Emotion

Candidate : Zhang Chaoyang

Major :Industrial Engineering

Supervisor :Associate Professor Huang Jinguo

Huazhong University of Science &Technology

Wuhan 430074, P.R. China

January 2013

独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名:

日期:年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

本论文属于

保密□, 在_____年解密后适用本授权书。

不保密□。

(请在以上方框内打“√”)

学位论文作者签名:指导教师签名:

日期:年月日日期:年月日

摘要

文本分类在自然语言处理、信息组织、内容过滤等领域都有着广泛的应用。传统的K最邻近法具有简单、强壮、无参数、分类精度高的优点,但它需要计算一个新文本和所有训练文本的距离,因而需要大量的计算时间。针对这一问题,本文在使用K最邻近法之前先使用聚类方法对数据进行预处理,具体做法是使用CHAMELEON算法把训练集中的每个类聚成多个小簇,计算小簇的质心得到广义实例集,找到与未知文本最近的k1个广义实例,再用回溯法找到这k1个广义实例所代表的原始文本,从这些原始文本中找到与未知文本最近的k2个文本,用它们投票表决未知文档的归类。在Tan语料库和复旦语料库上的实验表明该方法能够达到与传统KNN相同的分类精度和召回度,而运行时间只需要KNN的十分之一左右。

在网络购物中消费者对商品的评论已成为电子商务信任机制的重要组成部分,但大多数电子商务网站还不能从语义层面上自动区分好评与差评。本文以《知网》情感词为种子词汇,提出了一种基于条件随机场的Bootrapping情感词挖掘算法,并利用互信息将这些情感词分为正面和负面两类。根据句子中包含正面和负面情感词的数目将电子商务网站上的图书评论自动分为好评和差评。对2026条图书评论作分类实验,正确率将近82%,说明了算法的有效性。

分词和特征项选择是文本分类的前期准备工作。本文通过在微软研究院提供的中文语料上做分词实验发现条件随机场要优于隐马尔可夫模型。信息增益、互信息、期望交叉熵和卡方统计量是四种特征选择的方法,本文的对比实验表明信息增益和卡方统计量这两种方法在文本分类中表现较好。

关键词:文本分类;情感挖掘;中文分词;特征项选择;隐马尔可夫;条件随机场

Abstract

Text classification has a wide range of applications in the field of natural language processing, information organization and content filtering. Traditional K Nearest Neighbor method is simple, strong and free parameters,and can reach high classification accuracy, but it needs to calculate the distance between a new text and all of the training texts, thus it requires a lot of computing time. According to this problem,texts are clustered before using KNN.First each class of the training set is clustered by CHAMELEON algorithm,centers of these clusters are token as generalized instance sets.Then we search k1 nearest neighbors of the unknown document from generalized instance sets.Finally KNN is employed on the unknown document and the original training texts who generate those k1 generalized instances.Experiments on Tan corpus and Fudan corpus have shown that this method can achieve the same precision and recall as traditional KNN, but offers a much lower computational cost.

Consumer product reviews have become an important part of the e-commerce trust mechanism,most sites can’t divide reviews into praise and poor based on semantics.With HowNet emotional words as seed vocabulary, this paper proposed a Bootrapping mining algorithms of emotional words based on Conditional Random Fields. Then emotional words were divided into praise and poor in the light of mutual information. According to the number of positive and negative emotion words that contained in a sentence, book reviews on the e-commerce site were divided into good and bad basis. 2,026 book reviews were tested, and 82% of them were divided correctly, indicating the effectiveness of this algorithm. Segmentation and feature selection is the preliminary work for text classification. Experiment on the Chinese corpus provided by Microsoft Research proved that Conditional Random Fields is superior to Hidden Markov Model. Information Gain, Mutual Information, Expected Cross Entropy and the chi-square statistic are four feature selection methods, our contrast experiments show that Information Gain and chi-square statistic have nice performance in text classification.

keywords: Text Categorization; Emotion Mining; Chinese Word Segmentation;

Feature Selection; Hidden Markov Model; Conditional Random Fields

目录

摘要 .................................................................................................................... I Abstract ................................................................................................................II 1 绪论

1.1课题研究意义 (1)

1.2研究现状 (2)

1.3本文组织结构 (6)

2 相关技术研究

2.1中文分词 (7)

2.2隐马尔可夫模型 (9)

2.3条件随机场模型 (12)

2.4本章小结 (16)

3 基于内容的文本分类

3.1文档向量空间模型 (17)

3.2 CHAMELEON聚类 (20)

3.3带回溯的广义实例文本分类算法 (21)

3.4分类实验 (23)

3.5本章小结 (28)

4 基于情感的书评分类

4.1分词算法实验对比 (29)

4.2基于条件随机场的新词发现 (2)

4.3自举法搜集情感词 (4)

4.4基于情感词的书评分类 (7)

4.5本章小结 (8)

5 总结与展望 (40)

致谢 (41)

参考文献 (42)

附录攻读学位期间发表论文目录 (14)

1 绪论

1.1课题研究意义

基于内容的文本分类工作是指在给定一组带有类别标签的文本集的情况下,确定一个新文本属于哪一类别,它在知识管理、垂直搜索、文本过滤等领域都有重要应用。尤其是在互联网时代,随着电子文档数量的级数增涨,自动化文本分类受到人们特别的关注。正如图1.1所示,谷歌搜索引擎对互联网上的新闻进行了分类整理,极大地方便了网民浏览到自己感兴趣的内容。很多时候需要将文本分为正常和非正常两类:邮箱服务提供商需要根据邮件内容识别哪些是正常邮件,哪些是垃圾或广告邮件,搜索引擎也需要对色情暴力等不良信息网站进行识别,还有一些论坛、社交网站要识别出哪些发贴是正常发贴,哪些是机器发贴,并将机器发贴删除掉。

图1.1 谷歌对新闻资讯的分类

根据一个文本所属的类别数目可以分为单标签分类和多标签分类;根据类别的层次又可分为单层分类和多层分类。本文只研究单层单标签分类。

除了按内容进行分类,有些情况下也需要按情感倾向对文本进行分类,对短文本进行情感分类相对容易实现一些。网络上充斥着各种短文本,比如微博、聊天记录、跟帖评论等等,它们都在百余字以内,故而称之为短文本。文本按情感进行分类关键在于对文本中隐含的情感的挖掘,短文本情感挖掘是指通过对这些文本的分析,判断作者想要表达的某种情感,例如幸福、悲伤、赞美、不满等。对短文本进行情感挖掘具有非常重要的政治意义和商业价值。近年来随着微博等社交网站的迅速走红,人们在网络上自由地发表自己的生活态度和对一些社会现象的观点,这给网络舆情分析带来了一个极好的契机。在舆情分析工作中可以从多个角度对网民进行分类,比如政治取向、生活幸福程度、对政府的满意程度、道德觉悟程度等等。网购消费者对商品的评论已成为电子商务信任机制的重要组成部分,而对商品评论进行好评与差评的分类也属于短文本情感挖掘的范畴。目前短文本情感挖掘还没有在实际生活中很好地发挥作用,比如2012年很火的一件事“你幸福吗”是在大街上进行的调查,通过网络舆论来收集人民的生活满意度还没有受到政府的足够重视;当当、京东等电子商务网站对好评与差评的判别也仅仅是依靠用户评的星级数目,如图1.2所示仅仅因为用户给了一颗星京东就认为该用户不喜欢这本书,在这个例子中显然是错误的,而且这种判断错误的情况时有发生。

图1.2 京东书评

1.2研究现状

1.2.1长文本分类

经典的文本分类算法有朴素贝叶斯、K最邻近、支持向量机、神经网络和决策树等。

K最近邻(K-Nearest Neighbour,KNN)法从训练文本集中先找出与待分类文本(有时称未知文本)最相近的K个文本,这个K个邻居采用投票法决定未知文本属于于哪一个类别[1]。如图1.3所示,由于未知样本的4个最近邻居中有3个都属于正方形类,,所以判定未知样本也属于正方形类。

训练集

最近邻

图1.3 KNN分类法示意图

在文档向量模型中每个文档用一个高维(通常在一千维以上)向量来表示,要从整个训练集中找到未知文本的K个最近邻居,需要分别计算未知文本与每一个已标记文本的距离,两个向量的距离可以采用欧氏距离或街区距离等,在基于距离的最近邻搜索中K-D Tree[2]和Ball Tree[3]是两中加速搜索的算法,当维度比较大(一般超过20)时,K-D D Tree的检索性能急剧下降,此时宜采用Ball Tree。在文本分类中由于高维向量的稀疏性,采用向量夹角来计算文本之间的相似性效果会更好一些。

K最邻近法具有简单、强壮、无参数、分类精度高的优点,但它需要计算一个新文本和所有训练集文本的距离,因而需要大量的计算时间,此外它不能识别噪声,一旦噪声文档成为待分类文档的K最近邻之一,分类结果出错的概率就会大大增加。针对这些问题人们对传统KNN进行了各种改进,以求降低计算量。比如质心分类器求出训练样本中每个类别的质心,求未知文本与这些质心的向量夹角,夹角最小的就是所属类别[4] ]质心法同时具有平滑噪声的功能。Tsay为原类别选择多个质心,部分程度上克服了单个质心难以适应稀疏样本的弱点[5]。GIS(Generalized Instance Sets)方法将样本划分成若干子簇,子簇的质心成为广义实例(GI),这些广义实例能够很好的反应训练文本的全部特征[6]。

朴素贝叶斯(Na?ve Bayes,NB)是基于贝叶斯全概率公式的一种分类方法[7]。朴素

素贝叶斯模型有两个假设:所有变量对分类均是有用的,即输出依赖于所有的属性;这些变量是相互独立的,即不相关的。之所以称为“朴素”,就是因为这些假设从未被证实过。在文本分类中特征词就是对分类有用的变量。可以用公式1.1计算当文档中包含

(1.1)

使上式的概率最大的i C 就是文本所属的类别。实际上公式1.1中的分母并不需要计算,因为对所有i 来说,分母都是一样的,表示类别i 出现的概率,可以通过统计训练集中类别i 的文档数目占全体训练集文本数目的比例来得到。根据朴素贝叶斯模型的假设,

所以有:

(1.2)

i C 素贝叶斯在许多数据集上不逊于甚至优于一些更复杂的分类方法。

对偶传播神经网络(Counter-Propagation Network ,CPN )是一种结合了有导师学习和无导师学习的分类算法,它包含3层:输入层、隐藏层和输出层,输入层细胞个数等于文档向量的维度,输出层细胞个数是文档类别的数目,隐藏层细胞数目由算法设计者决定,一般来说隐藏层细胞越多分类精度越高但计算量也越大。CPN 采用两个阶段来分别训练竞争层的内星权向量和外星权向量,即第一阶段完全不顾输出层,采用自组织映射网络(Self-Organizing Feature Map ,SOFM )的方法来训练竞争层的内星权向量,第二阶段采用有导师的Widrow-Hoff 规则来训练竞争层的外星权向量。两阶段学习的结果,是使内星权向量向当前的输入模式靠拢,外星权向量向期望输出靠拢。

支持向量机(Support Vector Machine ,SVM )是一种线性分类器,它在文本分类中性能表现尤其优异[8][9]。SVM 构建了一个分隔两类的超平面,试图使两类之间的分隔达隔达到最大化。落在边界平面上的数据集称为支持向量,“支持向量机”的名字也由此

得来。有些情况下被分成两类的数据点是线性不可分的,此时需要将数据从低维空间映射到高维空间,使之线性可分。在SVM的计算过程中运用核函数K可以减小计算量。

(1.3)

<>表示内积运算。公式1.3说明向量x和y从低维空间映射到高维空间后再作内积运算等价于直接在低维空间上进行核运算。

1.2.2电商评论情感分类

电商网站上的评论大都是些短文本,长文本的分类方法在短文本中已不再适用,这是因为:

(1)在长文本分类中使用的文档向量模型认为词与词之间是独立的,而短文本中词与词之间的关联度比较大,于是不少研究工作者采用关联规则挖掘的方法对短文本进行分类[10][11],在这种方法中分类特征不再是一个个独立的词汇,而是一条条强关联规则。

(2)因为短文本表示为高维向量后会十分稀疏,从而导致分类精度很低。范云杰等[12]借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。杨震等[13]借由时间、空间、联系等要素挖掘文本间隐含的关联关系,重构文本上下文范畴,提升情感极性分类性能。

在短文本情感分类当中《知网》作出了非常基础且有意义的工作,它提供了汉语词汇相似度的计算方法[14],并包含中文褒义词与贬义词列表,很多文本情感挖掘工作就是是利用《知网》展开的。马渊[15]使用情感词汇作为文本特征项对文本进行表示,在计算语义相似度时考虑了义原深度对语义相似度性能的影响,并使用经验权值系数对语义相似度算法进行改造。闻彬等[16]赋予概念情感语义,重新定义概念的情感相似度,对程度副词进行精细的划分并赋予不同的权值,同时考虑了否定副词对语义理解的影响。韩忠明等[17]则进一步考虑了转折和递进连词对语义理解的影响。

文能[18]把商品评论倾向性分析分为两个阶段:先是从评论中抽取被评论的对象;然然后再对句子的情感极性进行判断。这里的“被评论对象”要具体到商品性能的各个方面,比如对于手机的评论,评论对象要具体到手机的屏幕大小、开机速度、是否省电、

价格,甚至是送货速度、客服态度等等。从商品评论中抽取被评论的对象这本身属于信息抽取的工作,一般情况下需要针对特定领域构建本体[18][19][20][21],Neches等[22]对本体的定义是:本体定义了组成主题领域的词汇的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。

针对特定领域的情感挖掘,仅依赖《知网》中提供的正面词汇和负面词汇是不够的,还需要补充本领域中的一些褒扬或贬低的词汇。文献[23]中描述了一种基于最大熵和

和LMR模板的中文情感词抽取算法,首先设定一个LMR(Left,Middle,Right)情感词模型,利用词、词的位置、词性信息做特征,使用最大熵模型从训练语料中学习,并对评测语料中的情感词进行自动识别和倾向性判断。文献[18]以《知网》情感词作为种子评价词,采用基于CRFs模型的半监督迭代算法获取大量评价词。

1.3本文组织结构

本文一共分为五章。第一章介绍了课题研究的意义,以及国内外对内容分类和情感分类的研究现状。第二章为第三章和第四章作技术与理论的准备工作,这一章介绍了中文分词的一些方法,因为分词的好坏直接影响文本分类的精度和情感词收集的完备程度。第二章还详细介绍了隐马尔可夫模型与条件随机场模型,它们都是基于标记的算法,都可用于中文分词,并且在第四章中利用条件随机场做情感词的挖掘也取得不错的效果。第三章介绍了文档向量模型和几种常见的特征词选择算法,并提出了一种基于广义实例的带回溯的长文本分类方法,本文使用CHAMELEON聚类来产生广义实例。第四章通过实验对比发现条件随机场比隐马尔可夫在分词领域表现更好,于是用条件随机场来发现未登录词,然后应用基于条件随机场的自举方法来搜集情感词,最后提出了基于情感词的图书评论分类方法。第五章对全文的工作做了系统的总结,指出了不足之处和今后努力的方向。

2 相关技术研究

2.1中文分词

中文分词是指将中文连续的字序列按照一定的规则重新组合成词序列,它是自然语言处理的第一步工作,分词算法的好坏对文本分类、情感挖掘、机器翻译、信息抽取等工作的准确度有很大的影响。在过去几十年的时间里各种各样的分词算法被提出,而这些算法绝大多数都是面向具体的应用领域的,由不同的需求所驱动。总体上说,这些方法可被划分为两类:基于词汇知识的和基于语言知识的。

在了解分词算法之前首先要了解分词领域所面临的两个基本难题:未登录词的识别和消歧的消除。可以人工标注的语料库总是有限的,在测试语料中难免会出现一些新词。另外在当今这个互联网高速发展的信息时代,外来词、网络词不断涌现,也给新词的识别带来了挑战。即使是依据词典对同一个汉语句子也会有不同的切词方式,造成不同的语义,比如“他/说/的/确实/在理”也可以被切分为“他/说/的确/实在/理”,后面一种切分方式是错误的,这是由于词汇的交叉重叠而造成的。

基于词汇的分词方法使用词典作为唯一的可用资源,词典的索引方式一般采用Hash 索引或Tire索引树。其优点是算法简单,执行效率高,在有些情况下可以满足分词需求,缺点是它不对交叉歧义的情况进行处理。

最长子串匹配法(或者叫最大匹配法)从句子的第一个汉字开始找到最长的能够匹配词典里某一个词语的子串,在该子串后面进行一次切分,然后从切分位置开始继续寻找与词典里某一项匹配的最大子串。显然使用这种方法产生的分词结果是唯一的,但有时候这个结果并不好,比如“这些学生会游泳”按照最大匹配法的切分结果为“这些/学生会/游泳”,而正确的切分应该是“这些/学生/会/游泳”。带有回溯的最大匹配法是对最大匹配法的一种补充,它在决定是否分词时除考虑词典匹配外还考虑一个词在相似上下文环境中的匹配历史[24]。

最大匹配法如果是从句首逐字向句尾扫描称为正向最大匹配法,如果是从句尾向句首扫描则称为逆向最大匹配法。正向扫描和逆向扫描有时候会产生不同的分词结果,利用一些启发式规则和语言知识来解决这种冲突就有望消除由于词汇重叠而造成的分词

错误。由于要进行正向和逆向再次扫描,所以这种算法的计算量大大增加。

穷举匹配法会穷举所有的切分方式,把与词典中的词语匹配的切分方式作为候选方案,然后采用一定的评价标准(比如最少词汇、最大匹配等)选出最好的分词方式[25]。。以“他说的确实在理”这句话为例,可穷举出的切分方式有:

“他/说/的确/实在/理

他/说/的/确实/在理

他/说/的/确/实在/理

他/说/的/确/实/在/理

……”

如果以最大匹配为标准,最后选择的分词方式为“他/说/的确/实在/理”。单独使用穷举法并没有什么意义,它计算量大,而且又单纯地使用词典,多数情况下不会比其他基于词典的方法取得更好的结果。因此它通常和基于语言知识的分词方法结合起来使用。

基于语言知识的分词方法既利用了词典这一简单高效的工作,同时又利用了语料中的统计信息,考虑了上下文的约束,因此可以在语义消歧上取得一定的效果。分词领域常用的统计模型有最大熵模型、隐马尔可夫模型、N元语法模型。

Richard等把分词看成是一个统计转换问题[26],词典就是一个带权的有限状态转换换器。对于每一种可能的分词方式计算出相应路径上每条边的权值和,选择权值和最小的作为最优的分词方式,图2.1中从起点0到终点7的所有路径代表所有可能的切分方式,Li表示边的权重,一条边上的汉字序列出现的概率越高,边的权值越小。解码的过程是一个典型的应用Viterbi算法的例子。由于只考虑了汉字本身,并没有考虑之前或之后的汉字对当前字分词时的影响,所以这种模型叫做0阶模型或叫一元语法。

确L10在L11

图2.1 句子切分的带权有向无环图

二元语法模型在统计状态转移概率时考虑了前一字对当前字的影响,三元语法模型考虑了前两个字对当前字的影响[27]。实践表明高阶模型比0阶模型在中文分词中更能有有效地处理词语交叉重叠带来的歧义,在高阶模型中一阶或二阶已经可以达到令人满意的分词精度且算法运行时间最短。

ICTCLAS是中科院计算所开发的目前国内公认最好的中文分词开源系统,它采用层叠隐马尔可夫模型(Hierarchical Hidden Markov Model)[28],分词速度500KB/s左右,,精度达98.45%,提供C和Java两套API。SCWS是一个主要基于词典的分词系统,加入了一些专有名称、人名、地名、数字年代等规则集,在小范围的测试中精度可达90%以上,采用纯C语言编写。此外还有斯坦福大学基于条件随机场(Conditional Random Field,CRF)模型开发的中文分词系统,采用纯Java代码编写。

2.2隐马尔可夫模型

本节详细介绍一种完全基于统计的中文分词方法――隐马尔可夫模型(Hidden Markov Model,HMM)[29][30]。中文分词可以看成是一个为汉字进行标记的过程,如果一果一个汉字位于一个词语的首部则标记为B,位于尾部则标记为E,中间位置一律标记为M,如果一个汉字单独成为一个词则标记为I。下面举一个例子。

他/I 是/I 一/B个/E 和/B蔼/M可/M亲/E 的/I 人/I

HMM

其中,S是状态集,模型共有N个状态;V是词汇集,模型共有M个可能输出的词汇;A是N*N的状态转移矩阵,a ij是从状态S i转换到状态S j的概率;B是N*M的释放

矩阵,b j (V k )是在状态S j 时释放单词V k 的概率;π是初始状态概率集合,πi 是第i 个状态作为初始状态的概率。隐马尔可夫模型有所谓的条件独立性假设:一是t 时刻的状态q t =S i 只依赖于t-1时刻的状态q t-1=S j ;二是t 时刻所生成的观察值b j (V k )只依赖于t 时刻的状态q t =S i ;三是状态与具体的时间无关,即对于任意的i 和j 都有

HMM 有三个基本问题:一是评估问题,给定一个模型λ={S,V ,A,B,},如何高效

{,,,,}S V A B λπ=和一个输出字符序列12T V VV V = ,如何找到产生这一序列概率最大的状态序列;三是学习问题,给定隐藏状态集合S 、观察值集合V 和一个输出字符序列12T V VV V = ,如何调整模型的参数π、A 、B 使得产生这一序列的概率最大。

对于评估问题可以采用forward 算法求解。对于任意模型λ,在t 时刻,状态为S i 时的部分观察序列(V 1V 2…V t )的概率记为forward 变量:

12()(,|)i t t i a t p VV V q S λ== (2.1)

它表示在t 时刻满足状态S i ,且t 时刻之前(包括t 时刻)满足观察序列(V 1V 2…V t )的概率。则采用向前算法的计算步骤为:

1. 初始化初始状态概率1,1()i i a i B π=;

2. 迭代计算1,,11

()[()]N

t t i j j t i a j a i A B ++==∑;

3. 终止条件:1

(|)()N T i p V a i λ==∑。

向前算法的运算复杂度为N*N*T ,如果采用枚举复杂度为2T*N T 。

对于解码问题可以采用Viterbi 算法求解。Viterbi 算法是一种利用动态规划的算法,

它可以根据观察序列12T V VV V = 找到最优的状态序列12T Q q q q = ,计算量为N*T 2。

定义:

12112()max (,|)t t q q q t j t j p q S VV V δλ-== (2.2)

它表示观察时刻t 正处于状态j ,且在t 时刻之前状态序列为q 1q 2…q t 观察到的字条串序列为V 1V 2….V t 的最大概率。经过推导可以得到

11()max [()]()t i N t ij j t j i a b V δδ≤≤-=

(2.3)

Viterbi 算法的步骤为:

1. 初始化:11()()i i i b O δπ=,1()0i ?=;

2. 递归迭代:11()max [()]()t i N t ij j t j i a b V δδ≤≤-=,11()argmax [()]t i N t ij j i a ?δ≤≤-=;

3. 终止条件:*1max ()i N T p i δ≤≤=,*1arg max ()t i N T q i δ≤≤=;

4. 回溯:**11[]t t t q q ?++=。

对于学习问题可以采用Baum-Welch 算法求解。与定义forward 变量类似,可以定义backward 变量:

t 12()(...|,)t t T t i i P V V V q s βλ++== (2.4)

向后变量表示t 时刻出现状态S i ,且t 时刻之后满足观察序列(V t+1V t+2…V T )的概率。可以递推得到:

t 1t+11()()()

N ij j t j i a b V j ββ+==∑ (2.5)

根据向前变量和向后变量的定义可以直接得出:

t (,|)()()t i t P q s V a i i λβ==

(2.6)

t 11(|)(,|)()()

N N t i t i i P V P q s V a i i λλβ=====∑∑ (2.7)

从而得到:

t t 1(,|)()()(|,)(|)()()

t i t t i N t i P q s V a i i P q s V P V a i i λβλλβ=====∑

(2.8)

Baum-Welch 是一种迭代的最大期望值算法:给定初始的配置参数,调整模型参数到局部最大化未标记数据的可能性。Baum-Welch 训练算法只能够达到局部最优并且对初始参数设置敏感。Baum-Welch 算法实际上利用了期望最大化(Expectation Maximization )的思想[31]。

基于标记的中文分词可以和隐马尔可夫模型建立对应关系:每个汉字都是观察值,4种标签(B 、M 、E 、I )就组成状态的集合。当有训练语料库时,分词问题对应于HMM 中的解码问题,模型参数π、A 、B 可以从训练库中统计得来;当无训练语料库时模型参数π、A 、B 需要通过Baum-Welch 算法学习得来。

2.3条件随机场模型

条件随机场(Conditional Random Fields ,CRF )最早是由Lafferty 等人于2001年提出来的[32],同隐马尔可夫一样,条件随机场也是一种出色的基于标记的方法[34][35],也,也可以用来作中文分词,并且本文还利用它来作情感词的挖掘。条件随机场的思想主要来源于最大熵模型[35],为了把条件随机场的理论了解清楚,需要先来看一下最大熵模型的推导过程。

最大熵原理(Maximum Entropy ,ME )的基本概念在1990年由Jaynes 提出[36],简简单明了地说就是,当需要对一个随机事件的概率分布进行预测时,预测应当满足全部已知的条件,并且对未知的情况不做任何主观的、有偏的假设。在这种情况下概率分布最均匀,预测风险最小。因为这个概率分布的信息熵最大,所以这个模型称为“最大熵模型”。

令输出值的有限集合为Y ,对于每一个y Y ∈都受到上下文信息x 的影响,令x 组成的集合为X ,模型的目标是计算条件概率p(y|x)。人工标记的训练样本是1122{(,),(,),,(,)}N N x y x y x y ,从训练样本中可得到变量x 和y 的联合经验概率分布(,)p

x y 。 (,)(,)N x y p x y = 同时在样本中出现的次数样本的大小 (2.9)

目标是构建一个能生成训练样本分布(,)p

x y 的统计模型,建立特征方程。特征方程要能够完整地反应训练样本中数据的特征,比如在中文分词中使用特征函数:

1''(,)0if y end and x f x y otherwise ==?=??

人 (2.10)

相对于经验分布(,)p x y 特征函数(,)f x y 的数学期望为: ,()(,)(,)x y p

f p x y f x y =∑ (2.11)

相对于模型确定的概率分布(,)p x y ,特征函数(,)f x y 的数学期望为:

,,()(,)(,)()(|)(,)x y x y p f p x y f x y p

x p y x f x y ==∑∑ (2.12)

要求用()p

f 描述的训练样本的统计现象的内存属性能够与模型得到的()p f 所体现的统计现象的内在属性吻合,即()()p

f p f = 。 ,,(,)(,)()(|)(,)x y x y p

x y f x y p x p y x f x y =∑∑ (2.13)

用H(p)来代替H(Y|X),公式2.14是最大熵的数学模型,它要求在满足公式2.13的约束下使得条件熵H(p)最大。

,,,max ()()(|)log (|)..(,)(,)()(|)(,)x y x y x y H p p x p y x p y x s t p

x y f x y p x p y x f x y ?=-??=??∑∑∑ (2.14)

使用Lagrange 乘子法解决上面的带约束优化问题,对于每一个特征函数i f 都引入一个Lagrange 乘子i λ,得到Lagrange 函数:

1(,)()(()())m i i i i L p H p p f p

f λλ==+-∑ (2.15)

可以求出无约束Lagrange 函数(,)L p λ取得最大值时的p:

人的情绪及其影响因素

人的情绪及其影响因素 2.情绪是行动的准备阶段,这可能跟实际行为相联系。 3.情绪涉及有意识的体验。 4.情绪包含了认知的成分,涉及对外界事物的评价。 情绪变化受到多种因素的制约,常见的影响因素有认识因素、气质类型、环境刺激等。 一、认识因素 认识在情绪体验中是一个非常重要的因素。相同的情境,如果作出的认识评价不同,就会产生不同的情绪体验。例如,两个同时都想学习开车的战士,结果都没能如愿,对他们来说的确是件不顺心的事。但是,甲战士把这件事当作是对自己的考验(作出良好的认识评价),就会产生积极的情绪体验,并努力克服面前的困难,做好组织上分配的工作。而乙战士则认为自己很倒霉(作出不好的认识评价),就会产生消极的情绪体验,抱怨领导对自己不公平。由此不难看出,一件事情到底是好还是坏,就看你如何认识它、如何评价它,看你作出什么样的选择。一定程度上,认知决定了情绪。 客观事件我们是无法左右的,有些事件是不以人的意志为转移的,但是主观信念是我们可以通过努力加以控制的。虽然我们无法避免所有不合理的信念,但我们应充分认识它的存在,尽量减少其对我们生活的负面影响。不合理信念具有以下三个特征。 第一:绝对化要求。它通常与“必须”,“应该”这类字眼连在一起。比如:“我必须获得成功”,“别人必须很好地对待我”,“生活应该是很容易的”等等。俗话说,“人生不如意事十之八九”,“计划不如变化快”生活中很多事情是不以人的意志为转移的,我们每个人不可能在每一件事情上都获得成功;同样,周围的人和事物的表现和发展也不可能以我们的意志为转移。 第二:过分概括化。以一件事的成败来评价整个人(包括:自己或他人),这无异于一种理智上的法西斯主义。在这个世界上,没有一个人可以达到完美无缺的境地,所以每个人都应接受自己和他人是有可能犯错误的。 第三,糟糕至极。糟糕就是不好、坏事了的意思。当一个人讲什么事情都糟透了、糟极了的时候,对他来说往往意味着碰到的是最最坏的事情,是一种灭顶之灾。我们当然希望不要发生我们所认为得非常不好的事情,但是我们没有任何理由说这些事情绝对不该发生。当一切已成事实,我们必须努力去接受现实,尽可能的去改变这种状况;实在不可能改变时,则要学会在这种状况下生活下去。 二、气质类型

文本情感分析综述

文本情感分析综述? 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001) A Survey of Sentiment Analysis * ZHAO Yan-Yan+, QIN Bing, LIU Ting (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@https://www.360docs.net/doc/6418779464.html, Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信 ?Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)

微博短文本细粒度情感分析毕业设计论文

摘要 题目:微博短文本细粒度情感分析 摘要 微博作为是移动互联网起步最早也发展最快的业务之一,在经历了最初几年的高速增长和热捧之后,一度有些沉寂。但是,伴随着4G网络、WiFi网络大规模覆盖,移动终端智能设备的极速增长,越来越多的人频繁地使用微博。移动端用户的增长,让微博有了日活跃用户超过1亿的基础。基于该庞大的用户群体,利用微博文本对用户进行情感分析,不仅有利于新生代商业模式探索、社会舆情监控与分析,而且对人工智能发展的积极意义也不容小觑。文本情感分析为人工智能在人类情感领域的探索做出了积极的贡献。 微博具有典型的网络语言特点,语法规范性差、口语化、新词汇层出不穷、大量的表情符号和文本噪声等。基于传统规范书面语言词典的微博情感分析效果差强人意。为了解决这个问题,本文一方面通过对传统情感词典进行网络语言的扩充,构建了新的适用于微博文本分析的词典,并通过实验验证了词典的有效性;另一方面,使用对特殊情感词汇依赖性小的RAE网络模型,性能得到了提高。 含有否定词的文本情感判别较为复杂,否定词的加入可能使原文本情感极性发生转变,也可能极性保持不变,程度有所削弱。传统本文传统的情感分析方法通常对文本模型进行简化,假设一个词语仅和其前一个词语有关,对含有否定词的文本的积极/消极判别较差。RNTN模型没有进行类似简化,保持了词向量之间的强相关性。本文通过对RNTN模型的训练,使其在含有否定词中文文本情感极性判别上有良好的表现。 RNTN模型对词语或短语级细粒度情感分析上表现出色,而且不需要大量的人工标注;RAE模型作为较为成熟的深度学习模型,抛弃了传统的词袋模型,利用层次结构和成分语义来进行情感分类;SVM作为传统机器学习方法,通用性强,适用范围广。结合以上方法的特点以及情感分类的任务目标,本文设计了微博短文本的双极性、细粒度情感分类方案,首先使用SVM对微博篇章进行主客观分类,RAE和RNTN对判定为主观情感的文本的每一个句子进行正负极性判断,并选出极性最强的句子,该句子的情感极性即为整个微博的情感极性。若RAE和RNTN评判结果一致,即为最终结果。并通过实

情绪和情感的性质与功能

(一)什么是情绪和情感 情绪(emotion)和情感(feeling)是人的需要是否得到满足时所产生的一种对客观事物的态度和内心体验。人们在认识和改造世界的过程中,客观事物对人会有某种意义,因而人对这些事物也就会产生某种态度。这种对客观事物的态度总是以带有某些特殊色彩的内心体验的形式表现出来。医学|教育网搜集整理例如,体育竞赛中取得优胜使人兴奋和愉快,亲人故去使人痛苦和悲伤,遇到蛮不讲理的人引起激动和愤慨,自然灾害可能引起震惊和恐惧,所有这些喜、怒、哀、乐、悲、恐、惊等,都是人的具有某种独特色彩的内心体验,这些体验是以人的不同态度为转移的。因此,情绪和情感也可以说是人对周围现实和对自己的独特的态度体验。 (二)情绪与情感的区别与联系 情绪和情感是与人的特定的主观愿望或需要相联系的,有人把它们统称为感情(affection)。人们的感情是非常复杂的,既包括感情发生的过程,也包括由此产生的种种体验,因此用单一的感情概念难以全面表达这种心理现象的全部特征。在当代心理学中,人们分别采用个体情绪和情感来更确切地表达感情的不同方面。情绪主要指感情过程,即个体需要与情境相互作用的过程,如高兴时手舞足蹈,医学|教育网搜集整理愤怒时暴跳如雷。情绪具有较大的情景性、激动性和短暂性,往往随着情景的改变和需要的满足而减弱或消失。而情感经常用来描述那些具有稳定的、深刻的社会意义的感情,如对祖国的热爱,对敌人的憎恨以及对美的欣赏等。作为一种体验和感 受,情感具有较大的稳定性、深刻性和持久性。 情绪和情感又相互依存、不可分离。稳定的情感是在情绪的基础上形成的,而且它又通过情绪来表达。情绪也离不开情感,情绪的变化反映情感的深度,在情绪中蕴含着情感。心理学主要研究感情的发生、发展的过程和规律,因此较多地使用情绪这一概念。 (三)情绪的维度与两极性 情绪的维度是指情绪所固有的一些特征,主要指情绪的动力性、激动性、强度和紧张度等方面。这些特征的变化幅度又具有两极性,每个特征都存在两种对立的状态。 1.情绪的动力性有增力和减力两极一般地讲,需要得到满足时产生的积极情绪是增力的,可 提高人的活力;需要得不到满足时产生的消极情绪是减力的,会降低人的活动能力。 2.情绪的激动性有激动与平静两极激动是一种强烈的、外显的情绪状态,如激怒、狂喜、极度恐惧等,它是由一些重要的事件引起的,如突如其来的地震会引起人们极度的恐惧。平静是指一种平稳安静的情绪状态,它是人们正常生活、学习和工作时的基本情绪状态,也是基本的工作 条件。 3.情绪的强度有强、弱两极如从愉快到狂喜,从微愠到狂怒。在情绪的强弱之间还有各种不同的强度,如在微愠到狂怒之间还有愤怒、医学|教育网搜集整理大怒和暴怒等。情绪强度的大小 决定于情绪事件对于个体意义的大小。 4.情绪还有紧张和轻松两极人们情绪的紧张程度决定于面对情境的紧迫性,个体心理的准备状态以及应变能力。如果情境比较复杂,个体心理准备不足而且应变能力比较差,人们往往容易紧张,甚至不知所措。如果情境不太紧急,个体心理准备比较充分,应变能力比较强,人就不会 紧张,而会觉得比较轻松自如。 社会行为特性时所产生的内心体验。

文本情感分析论文总结

文本情感分析 赵妍妍,秦兵,刘挺- 软件学报, 2010 - https://www.360docs.net/doc/6418779464.html, 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。 情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。 一、情感信息抽取(评价词语、评价对象、观点持有者) 1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。 2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评 价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。 3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做 序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。 4.组合评价单元的抽取: 主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。 评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。 二、情感信息分类 1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于 分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图); 2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语 特征和词性特征、位置特征、评价词特征)。 三、情感信息的检索与归纳 1.情感信息检索 2.情感信息归纳 基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。 基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。 基于新闻评论的文摘 四、情感分析的评测与资源 1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析), 国内的COAE。 2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料, Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。 3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英 文),HowNet评价词词典(简体中文、英文) 问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;

情感分析简述

情感分析简述 分类:NLP2012-04-08 12:38 1022人阅读评论(3) 收藏举报情感classification算法测试translationmatrix 情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL 和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处 (https://www.360docs.net/doc/6418779464.html,/s/blog_48f3f8b10100irhl.html)。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(https://www.360docs.net/doc/6418779464.html,/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(https://www.360docs.net/doc/6418779464.html,/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则/无监督学习

情绪和情感的影响

情绪和情感的影响 看到这个题目有点无从下手的感觉,但是,仔细思考一下。其实,生活中人们对事物的反映主要就是通过情绪和情感来表达的,我们可能产生积极的情绪,也有可能产生消极的情绪,这些情绪和情感刺激着我们的大脑,从而对我们的生活,工作和学习产生重要的影响。正是这些喜悦,痛苦,郁闷,惆怅,烦躁,高兴丰富了我们的生活,从而使的生活不再是一张白纸,他开始被填满色彩,充满生机。下面,我分三个部分来阐述情绪和情感的影响。一.情绪和情感对人们工作和学习之效率影响 在工作和学习之中,无论什么时候,我们都能听到,效率,做事要提高办事效率,效率一词很容易理解,可是又有几个人可以真正的做到高效率的工作和学习,研究调查表明,情绪对效率会产生直接影响,良好的办公和学习环境有助于员工和学生保持一种良好积极的情绪,使大脑保持在一种兴奋的状态,从而使员工和学生全心全意的投入到工作和学习之中。心无旁鹜的认真工作和学习才能真正的提高效率。反之,消极的情绪导致大脑处于一种脱机的状态,无法集中注意力去工作和学习。 二.情绪和情感对人们健康的影响 谈到健康,我觉得情绪和情感是另外的一种隐性疾病,很多人都没有注意到,这种疾病对自身的危害性,我自己给他命名为情绪疾病,不同于精神和心理疾病,它是另一领域的新型疾病。很简单,先从结婚的角度来谈,一般单身的寿命短于有配偶的人的寿命,因为长时间的单身会导致一个人精神和心理的孤独,沟通的障碍,从而导致情绪和情感的缺失,情绪和情感就像一个天平,一边是你的消极情绪和情感,另一边是你的积极情绪和情感,试问,一个人只有消极,而没有积极,他的身体之中的天平如何平衡,生命的齿轮如何平稳的运转,停滞的齿轮,我们的生命如何继续,又何谈健康。 三.情绪和情感对人们的人际关系的影响 情绪本身带有一种无法言明的感染力,人际交往之时,相比于那些低落的人,情绪高涨的人群往往更受欢迎。这个世界,是一个交流的世界,交流产生的情感组成了人脉。不断的利用不断的循环,或许这么说悲观,但是,这是现在社会的一个现状,一条横流,我们只能顺流而行,跳出河流,也只能像没有了水的鱼儿等待生命的终结。

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sentiment Classification on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwang@https://www.360docs.net/doc/6418779464.html,。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Web can help us to identify users' implicit sentiments and find the evolution laws of their emotion. To this end, this paper is a survey about the sentiment classification on the Web text. We divided the process of classification into three categories:subjective and objective classification,polarity identification and intensity identification and respectively summarize the resent research achievements in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural language processing. What is more, the choice of corpus and potential research problems are discussed. At last, this paper summarized the status quo of application and pointed out the direction of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classification/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP 领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP 算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。

图1 情感分析五要素 举例如下图: 图2 情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

第九章情绪和情感

第九章情绪和情感 一、单项选择题 1.情绪情感是以哪种选项为中介的反映? A.需要 B.动机 C.态度 D.兴趣 2.“先天下之忧而忧,后天下之乐而乐”反映了人的 A.道德感 B.美感 C.理智感 D.成就感 3.热爱追求真理是哪种情感体验? A.道德感B.美感 C.理智感D.荣誉感 4.情绪情感是下列哪种选项关系的反映 A.现实与人B.人与人 C.生理与心理需要D.现实与人的需要 5.“易喜易悲、忽冷忽热”是情绪的哪种特性? A.兴奋性B.深刻性 C.稳定性D.效能性 6.“人逢喜事精神爽”是下列哪种情绪状态? A.心境 B.激情 C.应激 D.热情 8.“手舞足蹈”是人的 A.面部表情 B.言语表情 C.身段表情 D.外部表情 9.情感主要是指和下列哪种选项相联系的态度体验? A.生理需要B.交往性需要 C.成就需要D.社会性需要 10.情绪、情感是在下列哪种心理活动基础上产生的 A.态度B.动机 C.认识D.个性 11.“暴跳如雷、欢喜若狂”反映的情绪状态是 A.心境 B.激情 C. 应激 D.兴奋 二、填空题 1.情绪、情感是客观事物是否满足人的而产生的。 2.情绪情感的外部表情变化主要表现在为面部表情、和三个方面。 3.人的原始的情绪有快乐、、愤怒和。 4.微弱而持久的情绪状态是,强烈、短暂、爆发的情绪状态是。 描述。 5.人的高级社会情感有道德感、和。 6.道德感有三个水平,即直觉的道德感、和。 7.心境状态的主要特点是非定向的。

8.理智感是人在活动中表现出来的情感体验。 9.詹姆斯、兰格认为情绪产生于的活动;坎农、巴德则认为情绪的中心是。 三、名词解释 1.情绪 2.需要 3.心境 4.激情 5.应激 6.道德感 7.美感 8.理智感 9.表情 四、简答题 1.情绪、情感有什么区别? 2.情绪情感同认识过程的关系如何? 3.心境的特点及产生原因有哪些? 4.激情的特点及产生原因有哪些? 5.应激的特点是什么? 6.高尚道德情感包括哪些内容与形式? 7.表情动作有何意义? 8.情绪、情感过程有何作用? 五、论述题 1.怎样培养训练学生具有良好的心境? 2.怎样控制和调节人的激情? 3.怎样培养学生的高尚情操和调适不良情绪? 参考答案 一、单项选择题 1.A 2.A 3.C 4.D 5.C 6.A 7.C 8.D 9.D 10.C 11.B 二、填空题 1.需要态度体验 2.身段表情言语表情 3.悲哀恐惧 4.心境激情 5.美感理智感 6.想象的道德感伦理的道德感 7.弥散性(感染性) 8.认识(智力) 9.植物性神经系统丘脑

文本情感分析

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/6418779464.html, Journal of Software, V ol.21, No.8, August 2010, pp.1834?1848 https://www.360docs.net/doc/6418779464.html, doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563 ? by Institute of Software,the Chinese Academy of Sciences. All rights reserved. 文本情感分析 ? 赵妍妍+ , 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨150001) Sentiment Analysis ZHAO Yan-Yan + , QIN Bing, LIU Ting (Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: E-mail: yyzhao@https://www.360docs.net/doc/6418779464.html, Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834?1848.https://www.360docs.net/doc/6418779464.html,/ 1000-9825/3832.htm Abstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field,making detailed comparison and analysis. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信 息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分 析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前 沿进展进行概括、比较和分析. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391 文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯 的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主

情感与情绪的影响

一、情绪情感与身心健康 人的情绪、情感的好与坏对于人的社会生活有着直接的影响。乐观积极的情绪、情感赋予人崭新的精神面貌和愉快的生活情趣;消极悲观的情绪、情感则损害着人们健康积极的生活情趣,妨碍人们在发展过程中机会的获得、事业的成功和生活的幸福。 在现实生活中,尤其在与情绪心理学密切相关的实际业务部门中,情绪情感问题是十分突出的。“情绪和情感究竟是怎样产生的? 情绪和情感是客观事物是否符合人的需要与愿望、观点而产生的体验,是人对客观事物与人的需要之间关系的反应,是人对客观事物反映的另一种形式。 人类在认识和改造客观世界的过程中,总会产生一定的需要而这些又不可能都得到满足。因而,人们有时感到兴奋和快乐,有时感到悲哀与沮丧,有时感到骄傲与自豪,等等。这些不同的主观感受或体验就是情感与情绪的不同表现形式。 随着社会经济转型期的到来,人们都在争取跻身社会成员中最优的位置,都在力争实现自己最高的期望值,都具有很强烈的发展自己的愿望。在这种高动机的支配下,人们就会采取各种各样的行动,以期实现自我。行动有可能成功,也有可能失败,于是,相应地就会产生积极或消极情绪。情绪作为社会属性的产物,它是人们交际手段和活动动机,要受到社会规范的制约。情绪作为自然属性的产物,它又受脑的低级中枢的支配,在某种程度上具有不可控性。再加上刺激情境及其对人的意义的复杂性,以及情绪在种类和维度上的多样交织,致使情绪发生时的变异性较大,其产生的频率与强度均有不同。如果某些复兴情绪发生过多过强过过少过弱时,或在不同情绪之间以及情绪与认知、情绪与固有的人格特性之间发生冲突时,就引起个体能否经受得住情感变化以及要进行适当的情绪调节问题。 情绪是多因素的组合,科学研究证明,所有的心理问题最终都是通过不良的情绪所体现出来的。科学研究表明,如果出现的是负向情绪,如恐惧、焦虑时,会抑制消化腺的活动和肠胃蠕动,导致消化不良、食欲不振等;长期紧张、恐惧会使人的植物神经错乱,引 发神经症;影响肛肠系统,出现腹泻、便秘;影响心脏血管,出现心跳加速、血压升高、呼吸困难等,这些皆由情绪因素所引起,可见情绪状态紧关个人身心健康。 因此,我们需要学会控制自己的情绪以增进身体健康。只有学会有效地控制自己的情绪、管理自己的情绪、优化自己的情绪,才能够成为身心健康的人,才能更好地成长。么该如何有效地控制管理以致优化我们的的情绪情感呢? 首先,培养乐观的情绪至关重要。这就要求我们做到:第一,树立崇高理想,使精神有所寄托、生活感到充实。第二,要学会忘却经历中不愉快的往事。经常回顾一些愉快的往事,会导致乐观情绪的产生。每个人在一生中总会遇到不快之事,如果经常回忆这些事会给自己造成无形的压力,引起紧张情绪。紧张与乐观正好相反,对心理健康危害很大。故要学会忘却不快的往事。最后一点,就是要善于控制自己的情绪。一个心理正常的人的情绪都是由适当原因引起来的。如欢乐是由可喜现象引起的,悲哀是由不愉快事件或不幸事故造成的。一定的事物引起相应的情绪是心理健康的标志之一。如果一个人受到挫折,就会情绪不正常,情绪一旦过度,也会损害身心健康,故应善于控制住自己的情绪,做到坦然地应付各种意外事件,谨慎地应付重大事件,冷静地从正反两个方面去考虑、分析、判断每一件事。力争做到胜不过喜,败不过悲,气不暴怒。 二、情绪情感与工作效率

情绪与情感的种类

情绪与情感的种类 一、情绪的种类 1、心境 心境是一种微弱而持久的情绪状态,它构成人的心理活动的背景。当一个人出现愉快心境的时候,无论遇到什么事情都会感到是愉快的;当一个人处在苦闷心境的时候,无论遇到什么事情都会感到闷闷不乐。这就是心境。 心境具有弥漫性的特点。所谓弥漫性,是指心境并不是对某一特定事物的情绪体验,而是某一种特定情绪发生后并不马上消失,还要保留一段时间。在此时间内,人们把这种特定情绪投射到其他事物上面,使这些事物都带上先前的情绪性质和特点。 心境产生的原因是多方面的。如工作的好坏,学习万贯的优劣,生活习惯的改变,人际关系的融洽程度,甚至季节的变化等,都可能引起某种心境的原因。但在很多情况下,人并不能意识么引起心境的原因。 心境对人的工作、学习和健康有很大的影响。积极的心境有助于工作和学习,能促使人的主观能动性的发挥,提高人的活动效率,并且有助于人的健康。消极的心境使人意志消沉,降低人的活动效率,妨碍工作和学习,有害于人的健康。因此,要善于调节和控制自己的心境,形成和保持积极、良好的心境。 2、激情 激情是一种强烈的、爆发式的、时间短暂的情绪状态。如暴怒、恐惧、绝望、狂喜等都属于这种情绪体验。在激情状态下,主体往往伴随明显的生理和外部表情变化,如心跳加快,血压升高,呼吸急促,大发雷霆,暴跳如雷等。 激情通常是由对个人有重大意义的事情引起的。如重大成功、惨遭失败和亲人突然去世等,都是对当事人有巨大意义的能引起激情状态的强烈刺激。 激情有积极和消极之分。积极的激情常常能调动人的身心的巨大潜能,激励人们奋不顾身地克服艰难险阻,朝着正确的目标奋进。消极的激情往往使人产生“意识狭窄”现象,致使注意范围缩小,自我控制能力减弱,从而使行为失去控制,做出后悔莫及的事情,对此我们应该采取措施加以控制。 3、应激 应激是出乎意料的紧迫情况所引起的急速而高度紧张的情绪状态,在应激状态下,整个机体的激活水平高涨,使人的肌张力、血压、内分泌、心率、呼吸系统发生明显的变化。由于身体各部分机能的改变,从而使个体发生不同的心理和行为变化。 在应激状态中,人可能有两种行为反应。一种是行为紊乱,忙中生错,不能准确地采取符合当时目的的行动。同时,由于意识的自觉性降低,也会出现思维混乱、分析判断能力减弱、感知和记忆力下降、注意力的分配与转移困难等情况。另一种是虽然身心紧张,但精力旺盛,思维敏捷,活动量增强,从而能更好地利用过去的经验和生理激活状态,急中生智,摆脱困境,化险为夷。 二、情感的种类 1、道德感 道德感是人们运用一定的道德标准评价自身或他人行为时产生的情感体验。如果自己或他人的行为符合道德标准,便会产生肯定的道德体验,如敬佩、爱慕、赞赏、欣慰等;不符合时,便产生否定的道德体验,如厌恶、羞愧、憎恨等。 道德感是人类所特有的一种高级情感。它是人们把自己的或别人的行为与已有的社会行为规范加以比较的后果,体现了客观事物与主体的道德需要之间的关系。 道德标准是社会历史的发展的产物,道德感也受社会历史条件的制约。不同的时代、不同阶级和不同的社会制度具有不同的道德标准,因而也具有不同的道德感。在阶级社会中,许多道德感带有明显的阶级性。 道德感对人的实践活动有重要作用。它可以帮助人们按照道德准则的要求,正确地去衡量周围人们的各种思想行为,同时也可以使自己的思想、行为自觉地符合社会道德准则,做一个道德

相关文档
最新文档