网络评论中情感词的获取及极性判断方法比较

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络评论中情感词的获取及极性判断方法比较

许璐蕾

(苏州市职业大学,江苏 苏州 215104)

[ 摘 要] 研究了情感分析中情感词的识别、褒贬分析。情感词识别是根据词义并结合上下文判断这个词是否有情感倾

向性。阐述了情感词识别和情感词极性判断的两种方法和技术。实验结果表明两种方法都得到了较好的效果。

[ 关键词] 情感词;机器学习;极性判别

i n f o rm a t i on )来判断极性[4]。方法三:找出语料中包含种子情

感词和候选情感词的并列型复句和转折型复句,统计候选情 感词与任意种子情感词共现频数等参数后判定,加入种子词 典[5]。

在获取情感词的任务中,选择了基于种子词典加统计的 方式和基于机器学习的方式进行了实验,并比较它们之间的 优劣。

3.1 基于种子词典加统计的方式 该算法思路是以种子词典为基础,确定候选词,并根据 统计模型计算候选词的置信度,将置信度大于阈值的候选词 加 到 扩 展 词 典 中 [5]。 极性的判断依赖种子词在上下文 (con t e x t )语境中的语义信息和位置信息。

(1) 种子词典的选择 利用 H o wN e t 提供的“中英文情感分析用词语集”中的 中文正面情感词、负面情感词、正面评价词、负面评价词四个 文件挑选出情感词构成种子情感词库。

(2) 语料准备

从互联网中使用爬虫抓取“手机、笔记本、数码相机、汽 车”等多个领域带有倾向性的产品评论,去除无关信息和代 码后作为语料。

(3) 候选情感词获取 首先对语料进行分句、分词,得到包含种子情感词的句 子。对于包含标点符号的句子,根据每个子句的长度来识别 它属于单句还是复句。这是一种比较粗略的划分,但在没有 对句子进行较为精确地句法分析时,这也是一个比较简单和 有效地策略。

接着对复句需要确定复句关系。我们将复句关系归为两 大类:并列关系和转折关系。我们根据出现在子句开头的复 句关系词来判断复句关系。对于不含复句关系词的复句,无 法借助句法深层的结构关系和语义关系来精准地确定复句 关系,可以根据经验粗略地将其均归为并列复句。

我们在选择候选情感词时,需要基于如下的判断: (1) 情感词的词性可能为形容词和动词;

(2) 情感词在句子中会并列出现或对称出现。比如: A 这台笔记本漂亮、大方、便宜。这是并列出现。 B 这台笔记本外观很漂亮,散热也很优秀。这是对称出

1.引言

随着 web2.0 的盛行,人们喜欢在网上购物,也喜欢对 商品进行评价。这些评价除了可以给商家厂家提供改进的 意见外,还可以给其他购买者提供不小的指导性意见。比如 一台笔记本的评价为:

图 1 评价示例

在这些评价中屏幕的“宽”,键盘的“舒服”等都是直接 给予我们信息的词,我们常常把它们叫做情感词。

2.情感词及情感词典

在评论性文章里,情感词常常表达了作者的某种情感 倾向[1]。情感词的获取是褒贬分析的基础。情感词的获取对 文章褒贬的极性判别有着重大的意义。在情感词中,大体分 为褒义、贬义和中性三类。其中褒义表示对产品正面的评 价,比如:“这个型号的笔记本运行速度快”等。贬义表示对 产品负面的评价,比如:“这个产品有危险”。中性词一般不 能表达出评论者的倾向,比如:“我今天买了新手机”。

我们需要通过有限的褒贬种子词典和语料资源构建起 褒义词词典与贬义词词典,词典中有情感词、词性、褒贬性 等元素。其中褒贬性为“1”表示这个词是褒义词,褒贬性为

“-1”为贬义词,褒贬性为“0”为中性词[1]

。实验显示,部分情 感词极性相同但是它们之间有数量上的区别,因此比较合 理的方法是采用 -1 至 1 的实数表示。正的数字范围表示褒 义词,负的实数范围表示贬义词,中性词仍然用 0 表示。

3.情感词的获取及判断

在众多的情感词获取的方法中,目前有:方法一:以

H o wN e t [2]情感分析用词表作为基本辞典[3]

,人工整理带有褒 贬性标注信息的句子后对词典中的情感词作频率统计,以 此为依据标识词语的极性的褒贬。方法二:从 H o wN e t 中挑 选出情感词构建种子情感词典,找出与词典中的词在同一 个句子中共同出现的情感词,计算这个候选情感词和种子 情感词之间的 S 0-P M I (s e m a n t i c o ri e n t a t i on -p o i n t w i s e m u t u a l

——————————————

作者简介:许璐蕾,女,江苏苏州人,硕士,讲师,研究方向:计算机网络。

— 53 —

屏幕宽,键盘舒服,内存大。缺点:硬盘小了点,音效差。既然买了,就用着。

(1) 构造训练文件

训练文件的格式为每行包含一个t o k e n,每个token 包

含多个列,各列之间用空格或制表格间隔。最后一列为分类

结果,其余各列则为特征向量,特征向量可根据具体的任务

确定。

选取的特征能否有效地指导分类关系到识别效果的好

坏。本文选取词、词性作为特征向量。

分类结果选用二值分类,Y 代表褒贬词,N 代表非褒贬

词;也可以与褒贬词极性判断同步完成,C 代表褒义词,D 代

表贬义词,N 代表非褒贬词。在训练文件中,分类结果我们使

用H o wN e t的褒贬词典让程序自动进行粗标注,再由人工完

成校对。

训练文件的样例如下:

已知“漂亮”是

将种子词典记

r,进行如下统

计算

频数越大。

计算出频

单位计数,得到C r,D。通常当一个词r 与x 共现的时候,在并

列句子中,词r 的褒贬性与x 褒贬性相同,在转折结构中,词

r 的褒贬性与x 的褒贬性相反。分别计算出词r 与褒义词的

共现次数和与贬义词的共现次数。

基于小规模的实验得到阈值的设置:频数大于30,与褒

义词共现次数大于10,与贬义词共现次数大于10。将高于阈

值的词归为情感词扩充词典。最后通过候选情感词和种子

情感词共现次数计算得到该词的褒贬性。在基于点间互信

息SO-PMI 中,一个候选情感词r 的褒贬性是通过它和一

组褒义词汇Pwords 的点间互信息减去一组贬义词汇

Nwords 的点间互信息计算得到,公式[1]为:

S O-P MI(r)=

联想

电脑

安静

外观

漂亮

nz

n

a d v

a d j

w

n c

a d v

a d j

w

N

N

N

C

N

N

N

N

C

N

(2) 特征模板选取

使用CRF++ 必须自己确定特征模板,专门的宏% x

[ro w,co l]用于确定输入数据中的一个token。row 用于确定

与当前的token 的相对行数。col 用于确定绝对行数。如已知

下面的输入数据:

Σ

p w o w d∈P w o r d s

Σ

n w o w d∈Nw o r d s

P MI(r,p w o rd)-P MI(r,n w o rd)(1)

两个词w1 和w2 的同时出现的概率P M I[1]计算公式为:

联想

电脑

安静

外观

漂亮

nz

n

a d v

a d j

w

n c

a d v

a d j

w

N

N

N << 当前的t o k e n

C

N

N

N

N

C

N

P M I(w1,w2)=l og( P(w1&w2) )(2)

P(w1)P(w2)

通过公式(1)和公式(2)计算得到的S O-P M I(r),当值为

正时该词为褒义词,当为值为负时该词为贬义词。

上述方法可以多次滚雪球式进行,即在得到扩展词典后

将扩展词典与种子词典合并,得到一个较大规模的种子字

典,并重新开始抽取流程,得到一个新的扩展词典。如此往

复,直到扩展词典不再增加。

3.2 基于机器学习的方式[6]

该算法思路是,首先标注一部分语料,并以此为训练集,

让计算机自动地学习,并将学习到的知识运用于测试集。

机器学习模型选用CRF [7]。条件随机场(Co nd i t i on a l

Random F i e l d s,CRF s)是一种新的概率图模型,它具有表达

元素长距离依赖性和交叠性特征的能力,能方便地在模型

中包含领域知识,且较好地解决了标注偏置问题等优点。

CRF 模型在中文分词、命名实体识别等自然语言处理

领域都取得了很好的表现,本文使用广泛使用的CRF++ 开

源工具,目前最新版本为0.53。CRF++ 用C++ 编写,包括

Linux 环境下的源代码和W i ndo w s下的可执行程序。

步骤如下:

特征模板形式为:

%x[0,0] = 很

%x[0,1] = a d v

%x[-1,0] = 电脑

%x[-2,1] = nz

%x[0,0]/%x[0,1] = 很/ a d v

ABC%x[0,1]123 = ABC 很123

模板类型U n i g ra m t e m p l a t e:第一个字符是U,这是用于

描述un i g ra m f ea t u re的模板。对给出一个模板如:U01:% x

[0,1],CRF 会自动的生成一个特征函数集合(f unc1...—54 —

相关文档
最新文档