基于神经网络的文本倾向性分析系统的研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Micr ocomputer Applica tions V ol.27,No.12,2011研究与设计微型电脑应用2011年第27卷第12期文章编号:1007-757X(2011)12-0020-04

基于神经网络的文本倾向性分析系统的研究

佘正炜,钱松荣

摘要:随着信息时代的到来,网络评论数量急剧增加,对于这些网络评论的倾向性分析是网络舆情研究中的重要课题。为了对网络评论的倾向性进行分析,提出了基于神经网络的网络舆情文本倾向性分析算法,使用神经网络训练的方法构建了较好的情感词倾向值词典,对网络评论的倾向性预测达到了较高的准确率。对算法进行了细致的描述,同时提出了基于神经网络的网络舆情文本倾向性分析系统框架。最后通过实验进行测试,证明了该系统能够达到较好的准确率。

关键词:倾向性分析;神经网络;文本处理;网络舆情

中图分类号:TP311文献标志码:A

0引言

随着互联网的飞速发展,我们已经进入了信息时代。上网逐渐成为了人们的日常生活方式,据统计,截止至2011年2月份,我国的网民人数已达4亿。如此众多的网民人数逐渐形成了一种新的现象——网络舆情,对于网络舆情的研究是当前的一大热点。

网络舆情主要是由网民们在博客、BBS以及论坛上的发表自己对于某些事件或者热点问题的看法以及见解来体现的。通过对带有网民们的主观情感色彩的评论的分析,可以了解大众舆论对于某一事件或者产品的看法。然而,飞速发展的互联网使得这些评论的规模越来越大,单单通过人工进行分析已经不能满足我们的分析需求,由此文本倾向性分析技术应运而生。本文使用神经网络训练的方式改进对应的词语倾向度词典,并且在实践中取得较好的效果。

1相关工作

文本情感分析按照不同的文本粒度可分为词汇、句子以及篇章3个层面进行分析。词汇的情感分析主要分为基于语料库和基于词典两种方法[1]。基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察现象来挖掘语料库中的评价词语并判断极性。另一种是基于HowNet[2]之类的知识库,首先选择两组具有明显正向和负向极性的词语作为种子词,对于一个情感倾向未知的词,计算这个词与两组种子词的相似度,与正向种子词组相似度高的则判定为正面倾向,反之则判定为负面倾向。本文采用的神经网络的倾向词权重的初始值就是采用第二种方法计算得到的。

在句子和篇章级的文本倾向性分析方面,将主观文本的极性分为褒义和贬义两类。目前主要有两种方法:基于情感知识的方法以及基于特征分类的方法。基于情感知识的方法主要是依靠一些已有的情感词典或领域词典以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性。比如文献[3]首先分析句子/篇章中的评价词语或组合评价单元的极性,然后进行极性加权求和。在这种方法中,获得评价短语的极性,得到具体的评价短语的情感度倾向值词典是主要工作。这个算法就是构建了一个较为合理的情感词倾向值词典,已取得了较好的效果。基于特征分类的方法则主要使用神经网络NB,支持向量机ME和SVM(Support Vector Machine)等分类模型对一部分语料进行训练,得到对应的分类器,然后对其他语料进行分类。其中SVM的方法是该分类方法中效果最好的,本文的对比试验就采用了该方法。

2基于神经网络的网络舆情文本倾向性分析

前面已经说到基于情感知识的句子和篇章级的文本倾向性分析方法前人已经取得了一些成果,比如文献[3]已经构建了一个情感度倾向值词典。但是现今社会网络评论的规模已经变得越来越大。随着网络文化的发展,网民的语法用语的习惯也在不断地发生改变。同时由于用户群的不同,评论中情感词在不同的领域中所能表达的情感度倾向也是不同的。所以使用固定的情感词词典,由于语料库的过时,以及语料库的领域过于广泛,运用在具体的情感分析中效果不佳。我们研究的基于神经网络的网络舆情文本倾向性分析技术将会使用最新的语料库进行训练,从而调整情感词倾向值词典,能够获得较好的效果。

2.1神经网络的训练模型

人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。神经网络实现了一个从输入到输出的映射功能,而数学理论已证明它具有实现任何复杂非线性映射的功能,这使得它特别适合于求解内部机制复杂的问题,足以进行文本倾向性判断的处理。

在本文中,使用神经网络对于正负面情感词的权重进行训练,得到一个更为合理的权重,以对文本的倾向性进行分析。

———————————

作者简介:佘正炜(1986-),男,江苏苏州,复旦大学硕士研究生,研究方向:文本倾向性分析,网络舆情,上海,200433钱松荣(1963-),男,复旦大学教授,博士,研究方向:网络与数据通信,RFID的研究与应用,上海,200433

20

Microcomputer Applications V ol.27,No.12,2011研究与设计微型电脑应用2011年第27卷第12期

神经网络训练模型图,如图1

所示:图1神经网络训练模型

n X ...X X 21,为输入层,是文本分词统计的情感词的TF 。Oi H 是隐藏层输出,On O O h h h W W W ...21,是每个倾向词的倾向度权重,

O Y 是输出层输出,即为最后的文本倾向值。O i H 和O Y 满足:h i Oi b X f H

(1)以及

i O h oi Oi O b W H f Y *(2)

式中x f 为激活函数;h b 和o b 分别为隐藏层和输出层

的阈值。

在训练时,每个样本的输入都有一个对应的期望输出

值,计算的结果与这个期望的输出有一个误差,我们训练的

方法就是由这个误差来逐步修正对应的隐藏层到输出层的

权值,即每个词语的倾向度。

2.2神经网络的输入确定

本文采用通用的VSM (Vector Space Model )向量空间

模型来进行文本分析的。一般可以选择3种类型的权值来代

替具体的文本,即TF 、DF 以及TFIDF 。在文献[4]中,经

过比较使用特征加权进行中文文本倾向性判断的各个方法,

得出结论:TF 加权要好于DF 加权和TFIDF 加权。

鉴于此,使用ICTCLAS 分词系统来对文本进行分词,

然后进行相关的倾向词的TF 的统计,最后得到一个使用情

感词作为特征的向量来具体表征文本。

此外,在网民的各类评论中,存在着大量的副词修饰情

感词汇,比如“太不周到了”这句话中的“太”、以及“不”。前

者加强了周到这个词的感情色彩,“太不周到”明显比“不周

到”的情感色彩要强烈;后者则进行了否定。所以需要对这

样的程度修饰词进行加权。为此构建了程度修饰词字典。词

典共收录了224个修饰词,并且对于这224个词进行不同的

权重标示。比如“不”的权重为-1,“极度”的权重为2,“稍微”的权重为0.6等等。

为了验证,根据使用TF 、DF 、TFIDF 、以及加不加上

程度修饰词的加权,进行了验证,结果基本和预想相同。由

于这不是本文重点,此处简略。

2.3神经网络的各个参数确定

有了以上神经网络的模型以及样本输入以后,就可以对

于神经网络的各种参数进行确定以及调整了。

2.3.1激活函数

标准神经网络的激活函数为“S ”型函数:

net e net f y 11

)((3)

对于应用来说,需要一个关于原点中心对称的升函数,

然而“S ”型函数是将输入范围),(

映射到输出范围)1,0(上去,故需要对它进行相应的改进以使之满足要求。经变换使用的激活函数为:

2111

*2)(b ne t e net f y (4)

b 是一个确定常数,取值需要看具体的样本的情况来确定。经过统计,在对于本文实验的文本进行分词以及统计TF 值后,得到的TF 值的平均值大概为1.4左右,最大值为34。整个系统搭建完成之后,将b 的范围由2到17进行变化,经测试发现73b 时,结果最好,故取b=3。由此得

到的激活函数的图像,如图2

所示:图1激活函数

2.3.2阈值阈值是神经网络中的一个重要的参数,可采用固定值,也可采用变化的阈值。采用变化阈值即在神经网络训练的过程中,在误差反转改变权值同时改变阈值,相当于再把输入样本增加了一维,更有利于解决问题。但是在本文的实验中,为简单起见将隐藏层及输出层的阈值均固定设为0。2.3.3倾向词的初始权重的选取在标准神经网络的权重选择中,一般是在一个范围内随机选择权重,随后的权重修改过程都由训练过程来决定,但是这样的方法放在实验系统中并不理想,因为这样会使得训练的时间变得过长。所以本文的初始倾向词权重的选取使用文献[5]中的结果,当然是为了适应本文系统还是有一定的修

21

相关文档
最新文档