一种面向中文微博的情感分析方法[发明专利]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201810304972.8
(22)申请日 2018.04.08
(71)申请人 天津大学
地址 300072 天津市南开区卫津路92号
(72)发明人 喻梅 张功 于瑞国 于健
徐天一 刘春岩
(74)专利代理机构 天津市北洋有限责任专利代
理事务所 12201
代理人 李林娟
(51)Int.Cl.
G06F 17/27(2006.01)
G06F 17/30(2006.01)
G06K 9/62(2006.01)
(54)发明名称
一种面向中文微博的情感分析方法
(57)摘要
本发明公开了一种面向中文微博的情感分
析方法,包括以下步骤:通过检测预处理后的微
博样本集L '中是否有表情符号,挑选含有表情符
号的组成训练集M;使用表情符号来标记训练集M
中样本的情感极性,作为弱标记,将弱标记的样
本作为监督机器学习的训练样本;通过降噪方法
SAT对训练集M进行降噪,得到样本集K;通过降噪
后的样本集K结合监督学习方法构造分类器C;使
用准确率、精确率、召回率和F值作为评价标准,
并通过已标记样本集P检测分类器C的精度;所述
方法还包括:依据弱标记样本进行自动更新。
本
发明在于利用微博中的关于情感符号的信息,研
究面向中文微博的情感分析问题,解决了在使用
情感符号对微博进行弱标记时产生噪声信息的
问题。
权利要求书1页 说明书5页 附图2页CN 108681532 A 2018.10.19
C N 108681532
A
1.一种面向中文微博的情感分析方法,其特征在于,所述方法包括以下步骤:
通过检测预处理后的微博样本集L '中是否有表情符号,挑选含有表情符号的组成训练集M;
使用表情符号来标记训练集M中样本的情感极性,作为弱标记,将弱标记的样本作为监督机器学习的训练样本;通过降噪方法SAT对训练集M进行降噪,得到样本集K;
通过降噪后的样本集K结合监督学习方法构造分类器C;使用准确率、精确率、召回率和F值作为评价标准,并通过已标记样本集P检测分类器C的精度;
所述方法还包括:依据弱标记样本进行自动更新。
2.根据权利要求1所述的一种面向中文微博的情感分析方法,其特征在于,所述预处理具体为:
对新的样本集提取出微博的主要内容;将表情符号转变为其所对应的情感词汇;去除分词结果中无法代表文本特征的停用词和低频词。
3.根据权利要求1所述的一种面向中文微博的情感分析方法,其特征在于,所述使用表情符号来标记训练集M中样本的情感极性,
作为弱标记具体为:
其中,pN、nN分别代表积极表情符号的加权和、以及消极表情符号情感值的加权和。
4.根据权利要求1所述的一种面向中文微博的情感分析方法,其特征在于,所述通过降噪方法SAT对训练集M进行降噪,得到样本集K具体为:
先对训练集M进行弱标记,使用弱标记样本构建一个原始分类器,使用原始分类器对训练样本集M进行检测;
将检测后得到的标记结果中,与原先弱标记不一样的样本作为错误标记,从训练样本集M中剔除,获得过滤后的样本集K。
5.根据权利要求1所述的一种面向中文微博的情感分析方法,其特征在于,所述通过降噪后的样本集K结合监督学习方法构造分类器C具体为:
使用降噪后的样本集K以通过已知效果较好的Be rnoulliN B 、Multinomia N B 、LinearSVC、NuSVC四种监督学习方法,构造分类器C。
权 利 要 求 书1/1页CN 108681532 A
一种面向中文微博的情感分析方法
技术领域
[0001]本发明涉及机器学习和自然语言处理领域,尤其涉及一种面向中文微博的情感分析方法。
背景技术
[0002]目前针对中文微博的情感分类方法可以分为基于情感词典的情感分析算法和基于机器学习的情感分析算法。
对于基于情感词典的方法,根据情感词典所提供的词的情感倾向性,从而进行不同粒度下的文本情感分析。
对于机器学习方法,在使用各种机器学习方法的模型中,使用带有朴素贝叶斯支持向量机(Naive Bayes Support Vector Machines, NB-SVM)的重新加权的监督方法具有最高的准确性。
现在的情感分析算法通常结合这两种方法的优点来获得比较好的情感分析效果。
[0003]表情符作为一种直接表达情感的方式很受现在的用户喜爱,从使用了什么表情符号可以看出用户的观点。
进行中文情感分析有很多困难,很多的与英文的表达不同,中文的语言特性导致情感分析特征无法很明显的显示出来,中文微博中没有足够的情感词用来提取分析。
另一个困难在于如何对微博文本中的表情符号进行处理。
[0004]部分研究选择在研究时对表情符号删除,“如果我们让表情符号在句子里进行分析,那么对MaxEnt(Maximum Entropy)和SVM(Support Vector Machines)分类器的准确性有负面影响”。
一些研究选择使用文本中的某一个表情符代表整个文本的情感,“假设消息中的一个表情符号代表了整个消息的情感,并且消息的所有单词都与这种情感有关”。
以上方法都未能重视微博表情符号众多的特点,在情感分析时,未对微博中出现的表情符号进行有效分析,在一定程度上影响了分析结果。
发明内容
[0005]本发明在于利用微博中的关于情感符号的信息,研究面向中文微博的情感分析问题,解决了在使用情感符号对微博进行弱标记时产生噪声信息的问题,详见下文描述:[0006]一种面向中文微博的情感分析方法,所述方法包括以下步骤:
[0007]通过检测预处理后的微博样本集L'中是否有表情符号,挑选含有表情符号的组成训练集M;
[0008]使用表情符号来标记训练集M中样本的情感极性,作为弱标记,将弱标记的样本作为监督机器学习的训练样本;通过降噪方法SAT对训练集M进行降噪,得到样本集K;[0009]通过降噪后的样本集K结合监督学习方法构造分类器C;使用准确率、精确率、召回率和F值作为评价标准,并通过已标记样本集P检测分类器C的精度;
[0010]所述方法还包括:依据弱标记样本进行自动更新。
[0011]其中,所述预处理具体为:
[0012]对新的样本集提取出微博的主要内容;将表情符号转变为其所对应的情感词汇;去除分词结果中无法代表文本特征的停用词和低频词。
[0013]进一步地,所述使用表情符号来标记训练集M中样本的情感极性,作为弱标记具体为:
[0014]
[0015]其中,pN、nN分别代表积极表情符号的加权和、以及消极表情符号情感值的加权和。
[0016]进一步地,所述通过降噪方法SAT对训练集M进行降噪,得到样本集K具体为:[0017]先对训练集M进行弱标记,使用弱标记样本构建一个原始分类器,使用原始分类器对训练样本集M进行检测;
[0018]将检测后得到的标记结果中,与原先弱标记不一样的样本作为错误标记,从训练样本集M中剔除,获得过滤后的样本集K。
[0019]其中,所述通过降噪后的样本集K结合监督学习方法构造分类器C具体为:[0020]使用降噪后的样本集K以通过已知效果较好的BernoulliNB、MultinomiaNB、LinearSVC、NuSVC四种监督学习方法,构造分类器C。
[0021]本发明提供的技术方案的有益效果是:
[0022]1、在情感分析的过程中,通过对表情符号的处理,以及对情感词的细粒度分析,来提高情感分析的准确性;
[0023]2、本发明解决了在使用情感符号对微博进行弱标记时产生噪声信息的问题;[0024]3、由于微博更新频率快,旧的分类器对新的微博集分类效果可能会产生影响,本方法可以依据弱标记样本自动更新,远远超过人工标记的方法效率,而且也大大降低了成本,从这个角度,此方法要优于普通的监督机器学习方法。
附图说明
[0025]图1为一种面向中文微博的情感分析方法的流程图;
[0026]图2为SAT算法的流程图;
[0027]图3为在验证降噪算法效果的实验中,样本中标记正确的样本比例变化。
具体实施方式
[0028]为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
[0029]实施例1
[0030]为了实现上述目的,本发明实施例提出一种面向中文微博的情感分析方法,包含以下步骤:
[0031]101:文本预处理;
[0032]其中,该步骤101包括:对文本进行分词、词性标记、以及停用词等自然语言技术。
[0033]102:情感信息提取;
[0034]该步骤102的目的在于抽取文本中有价值的情感信息,根据原先在情感词典中给定的情感词倾向定义,抽取微博中带倾向性特征的单元要素。
[0035]103:情感分类。
[0036]该步骤103利用步骤102中的情感信息提取的结果将文本单元分为若干类别,对主观性文本极性以及强度进行分类。
[0037]具体实现时,步骤101对微博文本进行预处理,具体步骤包括:提取主要内容、分词、以及去停用词。
[0038]该步骤为本领域技术人员所公知,本发明实施例对此不做赘述。
[0039]上述步骤102是在步骤101的基础上进行情感信息提取,具体步骤如下:[0040]微博的表情符号可以看作是微博的一种自带标记,但是这些标记中存在一些错误,所以称之为弱标记。
而利用这些弱标记样本作为监督机器学习的训练样本,则可以快速获得大量标记好的样本,节省人工标记时的人力物力上的开销。
[0041]通过检测微博样本集L中是否有表情符号,挑选含有表情符号的微博组成训练集M,然后使用表情符号来标记训练集M中样本的情感倾向性来对训练文本进行弱标记。
[0042]本发明实施例使用SAT(SelfAlternative Training)降噪方法对训练集M进行降噪,得到样本集K。
在SAT降噪方法中,先对训练集M进行弱标记,也可以先使用弱标记样本构建一个原始分类器,接着使用此原始分类器对训练样本集M进行检测,检测得到的标记结果有一些会和原来的弱标记不一样,这些不一样的样本就可以认为是错误标记,将其从训练样本集M中剔除,获得过滤后的样本集K。
[0043]在上述剔除的过程中,虽然也会剔除一些标记正确的样本,但是噪声也会随之减少。
这样迭代几次,就能够降低弱标记样本中的错误标记样本的比例,使得样本集训练的分类器精度也会随之得到提高。
[0044]综上所述,本发明实施例利用微博中的关于情感符号的信息,研究面向中文微博的情感分析问题,解决了在使用情感符号对微博进行弱标记时产生噪声信息的问题。
[0045]实施例2
[0046]下面结合图1-图3对实施例1中的方案进行进一步地介绍,详见下文描述:[0047]自训练算法是一种半监督学习方法,用来解决标注样本不充分的问题。
它的主要思想是:通过监督学习的模型,使用已有的少数带标注样本构建一个原始分类器,用原始分类器对其他未标注样本分类,并将其中置信度最高的样本添加到标注样本集中,来扩充带标注样本集。
本发明实施例使用的自训练算法流程如图1所示。
[0048]SAT降噪方法是通过迭代训练、自我优化的方式来实现对弱标记样本降噪的目的的,其中SAT算法的流程如图2所示,SAT降噪方法的主要思想是:
[0049]使用弱标记样本L作为训练集,训练分类器C,然后使用训练后的分类器C检测训练集L,将检测后结果与原弱标记结果不同的样本集记作样本M,从训练集L中剔除检测错误的样本M,得到新的训练集L',即L'=L-M,然后重新训练分类器C,再次检测优化训练集L,如此迭代,以得到噪声较小的样本集。
[0050]在验证降噪算法效果的实验中,样本中标记正确的样本比例变化如图3所示。
这说明SAT降噪方法取得了很好的效果,有效降低了弱标记样本中的噪声。
[0051]采用如图1所示的自训练算法的情感分析方法具体分为以下6个步骤:
[0052]201:对新的样本集L'预处理,提取主要内容、分词、去停用词,去除微博上的无用信息,提取出微博的主要内容;将表情符号转变为其所对应的情感词汇;去除分词结果中无
法代表文本特征的停用词和低频词;
[0053]202:通过检测微博样本集(即新的样本集)L'中是否有表情符号,挑选含有表情符号的组成训练集M;
[0054]203:使用表情符号来标记训练集M中样本的情感极性,作为弱标记;
[0055]具体实现时,有的微博中有很多个表情符号,并且可能含有极性不同的表情符号,所以一条微博的整体情感倾向需要通过对微博中所有的表情符号情感值进行加权计算得到。
对于含有情感符号的微博样本,判定情感倾向采取的规则如公式(1)所示:
[0056]
[0057]其中,pN、nN分别代表积极表情符号的加权和、以及消极表情符号情感值的加权和。
[0058]204:通过降噪方法SAT对训练集M进行降噪,得到样本集K;
[0059]其中,SAT降噪的流程在实施例1中已进行详细说明,本发明实施例在此不做赘述。
[0060]205:使用降噪后的样本集K结合监督学习方法构造分类器C;
[0061]使用降噪后的样本集K以通过已知效果较好的BernoulliNB、MultinomiaNB、LinearSVC、NuSVC四种监督学习方法,构造分类器C,通过已标记样本集P检测分类器C的精度。
[0062]以准确率为评价标准对测试集进行了性能检测,通过实验筛选从四种分类器中选择效果最好的MultinomiaNB、LinearSVC作为分类模型。
[0063]206:使用准确率、精确率、召回率和F值作为评价标准,并通过已标记样本集P检测分类器C的精度。
[0064]综上所述,相比于需要人工标记样本的监督机器学习,本发明实施例可以使用带有弱标记的样本进行训练,并根据新的微博及时地进行更新,所以它具有更强的时效性。
[0065]实施例3
[0066]下面结合图3对实施例1和2中的方案进行可行性验证,详见下文描述:
[0067]实验选择效果最好的Unigram+Bigram作为文本特征,MultinomiaNB、LinearSVC分别作为分类模型,来测试本方法的性能。
同时,实验使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F值(F-measure)作为评价标准。
[0068]实验使用的微博数据集来自于2012年CCF自然语言处理与中文计算会议(NLP& CC2012)的中文微博情感倾向性分析&词汇语义关系抽取评测任务所提供的数据集。
测试SVM-SAT、NB-SAT、Lexicon、SVM、NB、SVM-week、NB-week七种方法判定情感倾向的准确率,对比结果可以看出,SVM-SAT和NB-SAT的准确率和F值远超过Lexicon、SVM-week、NB-week三种方法,接近于SVM和NB两种方法,说明SAT降噪方法取得了很好的效果,构造出的分类器性能优异。
[0069]通过本方法进行情感倾向性分析得到的分类器、与使用人工标记的样本得到的分类器的结果相接近,这是因为数次迭代之后,样本中错误标记的样本经SAT降噪方法降噪后比例大大下降。
[0070]为了检测降噪的效果,实验选取了一定数量人工标记好的带表情符号的样本,使
用表情符号得到它们的弱标记信息,以弱标记信息为标记,采用MultinomiaNB作为分类模型、Unigram+Bigram作为文本特征,使用论文中的SAT算法对数据进行降噪,每次迭代后统计剩下的样本中标记正确的人数和标记错误的人数,计算正确标记所占的比例,如图3所示。
[0071]本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
[0072]本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0073]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
图1
图2
图3。