网络评论中情感词的获取及极性判断方法比较

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

网络评论中情感词的获取及极性判断方法比较

许璐蕾

(苏州市职业大学，江苏苏州 215104)

[ 摘要] 研究了情感分析中情感词的识别、褒贬分析。情感词识别是根据词义并结合上下文判断这个词是否有情感倾

向性。阐述了情感词识别和情感词极性判断的两种方法和技术。实验结果表明两种方法都得到了较好的效果。

[ 关键词] 情感词；机器学习；极性判别

i n f o rm a t i on )来判断极性[4]。方法三：找出语料中包含种子情

感词和候选情感词的并列型复句和转折型复句，统计候选情感词与任意种子情感词共现频数等参数后判定，加入种子词典[5]。

在获取情感词的任务中，选择了基于种子词典加统计的方式和基于机器学习的方式进行了实验，并比较它们之间的优劣。

3.1 基于种子词典加统计的方式该算法思路是以种子词典为基础，确定候选词，并根据统计模型计算候选词的置信度，将置信度大于阈值的候选词加到扩展词典中 [5]。极性的判断依赖种子词在上下文 (con t e x t )语境中的语义信息和位置信息。

(1) 种子词典的选择利用 H o wN e t 提供的“中英文情感分析用词语集”中的中文正面情感词、负面情感词、正面评价词、负面评价词四个文件挑选出情感词构成种子情感词库。

(2) 语料准备

从互联网中使用爬虫抓取“手机、笔记本、数码相机、汽车”等多个领域带有倾向性的产品评论，去除无关信息和代码后作为语料。

(3) 候选情感词获取首先对语料进行分句、分词，得到包含种子情感词的句子。对于包含标点符号的句子，根据每个子句的长度来识别它属于单句还是复句。这是一种比较粗略的划分，但在没有对句子进行较为精确地句法分析时，这也是一个比较简单和有效地策略。

接着对复句需要确定复句关系。我们将复句关系归为两大类：并列关系和转折关系。我们根据出现在子句开头的复句关系词来判断复句关系。对于不含复句关系词的复句，无法借助句法深层的结构关系和语义关系来精准地确定复句关系，可以根据经验粗略地将其均归为并列复句。

我们在选择候选情感词时，需要基于如下的判断： (1) 情感词的词性可能为形容词和动词；

(2) 情感词在句子中会并列出现或对称出现。比如： A 这台笔记本漂亮、大方、便宜。这是并列出现。 B 这台笔记本外观很漂亮，散热也很优秀。这是对称出

1．引言

随着 web2.0 的盛行，人们喜欢在网上购物，也喜欢对商品进行评价。这些评价除了可以给商家厂家提供改进的意见外，还可以给其他购买者提供不小的指导性意见。比如一台笔记本的评价为：

图 1 评价示例

在这些评价中屏幕的“宽”，键盘的“舒服”等都是直接给予我们信息的词，我们常常把它们叫做情感词。

2．情感词及情感词典

在评论性文章里，情感词常常表达了作者的某种情感倾向[1]。情感词的获取是褒贬分析的基础。情感词的获取对文章褒贬的极性判别有着重大的意义。在情感词中，大体分为褒义、贬义和中性三类。其中褒义表示对产品正面的评价，比如：“这个型号的笔记本运行速度快”等。贬义表示对产品负面的评价，比如：“这个产品有危险”。中性词一般不能表达出评论者的倾向，比如：“我今天买了新手机”。

我们需要通过有限的褒贬种子词典和语料资源构建起褒义词词典与贬义词词典，词典中有情感词、词性、褒贬性等元素。其中褒贬性为“1”表示这个词是褒义词，褒贬性为

“-1”为贬义词，褒贬性为“0”为中性词[1]

。实验显示，部分情感词极性相同但是它们之间有数量上的区别，因此比较合理的方法是采用 -1 至 1 的实数表示。正的数字范围表示褒义词，负的实数范围表示贬义词，中性词仍然用 0 表示。

3．情感词的获取及判断

在众多的情感词获取的方法中，目前有：方法一：以

H o wN e t [2]情感分析用词表作为基本辞典[3]

，人工整理带有褒贬性标注信息的句子后对词典中的情感词作频率统计，以此为依据标识词语的极性的褒贬。方法二：从 H o wN e t 中挑选出情感词构建种子情感词典，找出与词典中的词在同一个句子中共同出现的情感词，计算这个候选情感词和种子情感词之间的 S 0-P M I (s e m a n t i c o ri e n t a t i on -p o i n t w i s e m u t u a l

——————————————

作者简介：许璐蕾，女，江苏苏州人，硕士，讲师，研究方向：计算机网络。

— 53 —

屏幕宽，键盘舒服，内存大。缺点：硬盘小了点，音效差。既然买了，就用着。

(1) 构造训练文件

训练文件的格式为每行包含一个t o k e n，每个token 包

含多个列，各列之间用空格或制表格间隔。最后一列为分类

结果，其余各列则为特征向量，特征向量可根据具体的任务

确定。

选取的特征能否有效地指导分类关系到识别效果的好

坏。本文选取词、词性作为特征向量。

分类结果选用二值分类，Y 代表褒贬词，N 代表非褒贬

词；也可以与褒贬词极性判断同步完成，C 代表褒义词，D 代

表贬义词，N 代表非褒贬词。在训练文件中，分类结果我们使

用H o wN e t的褒贬词典让程序自动进行粗标注，再由人工完

成校对。

训练文件的样例如下：

已知“漂亮”是

将种子词典记

r，进行如下统

计算

频数越大。

计算出频

单位计数，得到C r，D。通常当一个词r 与x 共现的时候，在并

列句子中，词r 的褒贬性与x 褒贬性相同，在转折结构中，词

r 的褒贬性与x 的褒贬性相反。分别计算出词r 与褒义词的

共现次数和与贬义词的共现次数。

基于小规模的实验得到阈值的设置：频数大于30，与褒

义词共现次数大于10，与贬义词共现次数大于10。将高于阈

值的词归为情感词扩充词典。最后通过候选情感词和种子

情感词共现次数计算得到该词的褒贬性。在基于点间互信

息SO－PMI 中，一个候选情感词r 的褒贬性是通过它和一

组褒义词汇Pwords 的点间互信息减去一组贬义词汇

Nwords 的点间互信息计算得到，公式[1]为：

S O－P MI(r)=

联想

电脑

很

安静

，

外观

也

很

漂亮

。

a d v

a d j

n c

a d v

a d j

(2) 特征模板选取

使用CRF++ 必须自己确定特征模板，专门的宏% x

[ro w，co l]用于确定输入数据中的一个token。row 用于确定

与当前的token 的相对行数。col 用于确定绝对行数。如已知

下面的输入数据：

p w o w d∈P w o r d s

n w o w d∈Nw o r d s

P MI(r，p w o rd)－P MI(r，n w o rd)(1)

两个词w1 和w2 的同时出现的概率P M I[1]计算公式为：

联想

电脑

很

安静

，

外观

也

很

漂亮

。

a d v

a d j

n c

a d v

a d j

N << 当前的t o k e n

P M I(w1，w2)=l og( P(w1&w2) )(2)

P(w1)P(w2)

通过公式(1)和公式(2)计算得到的S O－P M I(r)，当值为

正时该词为褒义词，当为值为负时该词为贬义词。

上述方法可以多次滚雪球式进行，即在得到扩展词典后

将扩展词典与种子词典合并，得到一个较大规模的种子字

典，并重新开始抽取流程，得到一个新的扩展词典。如此往

复，直到扩展词典不再增加。

3.2 基于机器学习的方式[6]

该算法思路是，首先标注一部分语料，并以此为训练集，

让计算机自动地学习，并将学习到的知识运用于测试集。

机器学习模型选用CRF [7]。条件随机场(Co nd i t i on a l

Random F i e l d s，CRF s)是一种新的概率图模型，它具有表达

元素长距离依赖性和交叠性特征的能力，能方便地在模型

中包含领域知识，且较好地解决了标注偏置问题等优点。

CRF 模型在中文分词、命名实体识别等自然语言处理

领域都取得了很好的表现，本文使用广泛使用的CRF++ 开

源工具，目前最新版本为0.53。CRF++ 用C++ 编写，包括

Linux 环境下的源代码和W i ndo w s下的可执行程序。

步骤如下：

特征模板形式为：

%x[0，0] = 很

%x[0，1] = a d v

%x[-1，0] = 电脑

%x[-2，1] = nz

%x[0，0]/%x[0，1] = 很/ a d v

ABC%x[0，1]123 = ABC 很123

模板类型U n i g ra m t e m p l a t e：第一个字符是U，这是用于

描述un i g ra m f ea t u re的模板。对给出一个模板如：U01：% x

[0，1]，CRF 会自动的生成一个特征函数集合(f unc1．．．—54 —