从产品评论中挖掘观点_原理与算法分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
点互信息法 (Point-wiseMutualInformation, P来自百度文库I)通
过计算 名词或者名词短语与一定的区分符之间共现的 程度
来找出产品的属性 。 假定 待选 属性 为 f, 区分 符为 d, 那
么二者共现的 PMI度量值的计算方法如公式 (1)所示 :
PMI(f, d) =HitsH(idts)(·dH+ift)s(f)
h2 , … , hn}为评论者集合 , F= {f1, f2 , … , fn}为产 品属
性集合 , R= {r1 , r2, … , rn}为评论集合 , 每 一篇评 论 ri
都是若 干个句子所构成 , ri= {s1, s2, … , sn}, 集合 {s1,
s2, … , sn}为 集 合 {os1 , os2, … , osa} 和 集 合 {ss1, ss2,
— 124 —
为素材 , 研究如何从大量的评论中判断人们对某一个 事件 是持赞扬还是批 评态 度 [ 4] ; Fung等 人从 多个 网站 上把 用 户对于 产品的评论收集起来 , 进行定量分析 , 得到一 条波 动曲线 , 把这个 波动曲线和产品的波动曲线进行比 较 , 发 现二者具有一定的同步性 [ 5] 。 这些研究逐渐形成一个新的 研究领域 , 称为观点挖掘 (OpinionMining)。 尽管观点 挖
和最小可信度 (Minimum Confidence)的关 联规 则 。 关 联
规则是形如 X※Y的蕴 涵式 (其中 X, Y均 为集 合中的 元
素 );规则 X※Y在 集合 中的 支持 度是 集合 中包 含 X和 Y
的句子 (或者语块 )数与所 有句子 (或 者语块 )数之比 ,
记作 Support(X※Y);规则 X※Y在集 合中的 可信度是 指
ing)去掉没有 意 义的 多 词 短 语 , 利 用 冗 余剪 枝 法 (Re-
dundancyPruning)去 掉冗余 的单 个词构 成的 词汇 [ 11] 。 作
为目前常用的 一种 方法 , 关联 规则 法 的优 点在 于 算法 简
单 , 易 于统计 , 缺点是可能产生大量的冗余 。
2.2 点互信息法
· 第 32卷 2009年第 7期 ·
ITA
信息系统
一个主观性语句 ssi可以表 示为若 干个 三元组 所构 成的集 合 {<hi, fj, ok >, … }其中 hi∈ H, fj∈ F, ok∈ {正面 , 负面 , 中性 }。 那 么从产 品评 论中进 行观 点挖 掘就是 构建 产品属性集合 {f1 , f2, … , fn}和态度极 性集合 {<hi, fj, ok >, … }的过程 。
实现上述过程的 思路可描述如下 : 1)评论的收集和预处 理 。 评论的 收集可 以从 指定的 网站上获取 , 也可以借助网络 爬虫来实现 。 预处理包括取 出停用词 、 词性标注 、 进行适当的转换 , 等 等 。 预处理主 要是为了减少干扰项 , 提高后 续工作的准确率 。 2)识别产 品 属 性 , 即 构建 属 性 集合 {f1, f2 , … fn}。 产品属性在句子中通常为名词 或者名词短语 。 依据可见程 度的不同 , 可 以 将 属性 分 为 显 性属 性 (ExplicitFeature) 和隐性属性 (ImplicitFeature)。 显性属性在句 子中可以找 到相对照的 词汇 ;隐性 属性 在句 子 中找 不到 相 对照 的词 汇 。 由于隐性属性识别存在较 大的技术难度 , 目前自动识 别通常局限于显性属 性识别方面 。 3) 判 定 评 论 者 的 态 度 , 即 构 建 观 点 极 性 集 合 {<hi, fj, ok >, … }, 也就是从用户的评 论中找 到和产品 属 性 fj相关的评价者 hi和观点极性 ok(ok∈ {正面 , 负面 , 中性 })。 要从用户的评 论中 找到 观点 极性 , 首 先需 要找 到评价词汇 , 然后借助评价词 汇的极性来进行判断 。 由于 词汇所代表的极性往往与词汇 的背景上下文是相关的 , 这 增加了 极性 判断 的 难度 。 例 如 , 同 一个 词汇 “长 ” 在句 子 “数码相机的待 机时 间 很长 ” 中代 表 正面 的 评价 , 而 在句子 “这个 产品的 送货 时间 太长 了 ” 中 却代 表负 面的 评价 。 由于网络上的评价者大多具有匿 名性 , 因此 , 在多 数情况下 , 三元 组中的 hi往 往被 缺省 或者 忽略 , 从 而使 得研究的重点主要集 中在对产品属性 fj的极性判断上 。
掘的研 究目前尚处在初级阶段 , 然而却异常活跃 , 既 有词 的层次 [ 6-7] , 又有句子 [ 8] 和篇章 层次 [ 9] ;既有 基于词典 的 研究 [ 4] , 又有基 于语 料库的 研究 [ 10] 。 这些方 法对 研究 者 进行实证研究具有很好的借鉴意义 。
1 从产品评论中进行观点挖掘的基本思路
等 ;有监督学习方 法 , 需 要 在训 练 集 中手 工 标注 产 品属
·情报理论与实践 ·
性 , 训 练并求出相关参数 , 进而应用到测试集中 , 常 用方
法包括最大熵模型 、 条件随机场等 。
2.1 关联规则法
关联规则法 , 是指给定一个集合 D, 产 生支持度 和可
信度分别大于用户给定的 最小支 持度 (Minimum Support)
为了解决上述问题 , 研究者开始考 虑使用自动化的方 式对网上评论进行分 析 。 Wiebe等 人采用 机器学 习算法对 电影评论网页的极性进行分类 , 即判断 评论者对某一部电 影是持赞扬 还是批 评态 度 [ 3] ; Chen等 人以 新闻 和博 客作
* 本文为国家自然科学基金 (项目 编号 :70871082)、 上海 市第 三期重点学科 (项目编号 :S30504)和上海市 第三期本科教 育高 地 (电子商务 )项目资助成果之一 。
(1)
例如 , 在句 子 “相 机 的 待 机 时 间 很 长 ” 中 , 如 果
“相机的 ” 出现在区分符列表 , 并且 “待机 时间 ” 和它 共
现的程度超过阈值 , 则认为 “待机时间 ” 为产品 属性 。
在 Popescu等人的研究中 , 共现的度 量值可 以直接 通
过搜索引擎来实 现 [ 12] 。 与 关联 规则 法相 似 , 点互 信息 法
特殊意义的词汇所共同出现的 频度 , 主 要方法包括关联规
则法和点互信息法 。 另一种思路是通过 机器学习算法来进
行抽取 , 这又可以分为无监督学习方法 和有监督学习方法
两种 。 无监督学习方法是一种 动态的方式 , 它无须依赖手
工标注 , 可以动态识别产品的 属性 , 主 要方法包括概率潜
在语义分析法 、 潜 在 狄利 克 雷分 布 法 、 相 关 主题 模 型法
Keywords:opinionmining;sentimentclassification;textmining
随着 Web2.0的迅速发展 , 互联网开始成为人们表达 观点 、 情感的重要 工 具 , 互 联网 上 的 主观 信 息呈 指 数增 长 , 网上最大的调查公司 Zoomerang2007年的 一项调查表 明 , 在受访者之中 , 44%的人在论坛和评论中 发表过自己 的观点 , 而两 年前 仅为 23%[ 1] 。 对这 些观 点和 评论 进行 分析具有非常重要的 意义 , 原 因在于 :①网络评 论和观点 对客户购买行 为具 有非 常重 要的 影响 作用 。 Deloitte公司 2007年的一项调查表明 , 在受访者之中 , 82%的人表明在 购买产品或服务时会参考网上 评论 , 网 上评论影响了他们 的购买决策 [ 2] 。 ②自动化地分析网络评论和观点 , 能够帮 助企业改进产品 , 提高质量 , 并及时修 复可能潜在恶化的 客户关系 。 在这样的背景下 , 越来越多 的公司把目光投向 互联网上的产品评论 , 开始分析这些评 论背后所传递的重 要信息 。 然而 , 由于产品评论数量巨大 且呈现无结构化特 点 , 通过人工阅读的方式难以 完成 。如 何解决评论信息的 海量化与人工阅读能力有限之 间的矛盾 , 成为摆在研究者 面前的一个重要问题 。
从产品评论中进行观点挖掘 , 笔者认为 , 就是在 大规
模产品评论中 , 识别 产 品属 性 , 分 析 带 有主 观 评价 的 句
子 , 并 判断这些句子中所传递的对于产品的某项属性 的态
度 。可 以通过以下形式化语言来描述 。
假定
P= {p, 1
p, 2
…,
pn}为 产 品 集 合 ,
H = {h1,
也非常简单 , 但是区分符的统计往往需要利用词典或 者加
入较多的人工因素 。
2.3 概率潜在语义分析法
概率潜在语义分析法 (ProbabilisticLatentSemanticA-
nalysis), 是在信息检 索中 用来 对文 档进 行维 度简 约的 一 种方法 [ 13] 。 它使用分面模型 (AspectModel)来对文 档进
信息系统
ITA
○余传明 (上海理工大学 管理学院 , 上海 200093)
从产品评论中挖掘观点 :原理与算法分析 *
摘 要 :本文首先对产品评论中的观点挖掘进行了形式化 的描述 , 给出了基本的研究思路 ;接着分析 了从产品评论中识别产品属性的原理 , 并对基于词汇共现的方法和基于 机器学习的方法进行了比较 ;然后 分析了对相关属性进行极性判断的原理 , 并对各种现行方法进行了比较 ;最后对 观点挖掘在未来的发展热 点进行了展望 。
… , ssb}的并集 , 其中 , {os1, os2 , … , osa}为客观性 语句
(ObjectiveSentence, OS)集合 , {ss1, ss2 , … , ssb}为 主观
性语句 (SubjectiveSentence, SS)集 合 。 每一 个主观性 语
句 ssi都由若干个词所构成 , 即 ssi= {w1, w2 … , wn}, 每
2 产品属性识别
所谓产品 属 性识 别 ,
就 是从 句 子
ssi
=
{w, 1
w 2
,
…,
wn}所构成的序列中找到 {f1, f2 , ..., fn}集合中的产品 属性 fi。 由于属性多表现为名词和名词短语 , 因此属性识 别可以理解为被评论的名词或 名词短语的识别 。 一种思路
是通过研究名词或名 词短语出现的频度或者它与某些具有
关键词 :观点挖掘 ;情感分类 ;文本挖掘
Abstract:Thepaperfirstgivestheformaldefinitionofopinionmininginproductreview, describesthebasic researchideas, analyzestheprinciplesofidentifyingproductattributesfromproductreview, andcomparestheword concurrence-basedmethodandthemachinelearning-basedmethod.Then, thepaperanalyzestheprinciplesofdeterminingthepolarityofrelatedattributes, andcomparestheexistingmethods.Finally, thepaperpredictsthedevelopmentofopinionmininginfuturehotspot.
集合中包含 X和 Y的 句子 (或者语 块 )数 与包含 X的 句
子 (或者语块 )数之比 , 记为 Confidence(X※Y)。 在 Hu
等人的研究中 , 他们将词性标注后的句子中的名词和 名词
短语抽 取 出 来 , 置 于 集 合 D, 将 Minimum Support设 为
1%, 基于 Apiori算 法 得到 候选 频繁 特征 集合 (Candidate FrequentFeatures), 利 用 紧凑 剪 枝 法 (CompactnessPrun-