基于内容分析的用户评论质量的评价与预测_聂卉

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于内容分析的用户评论质量的评价与预测
*
■聂卉
[摘
要]以获取高质量的用户评论为直接目标,研究评论质量的评估和“有用评论”的自动识别。

主要从
评论内容的语言特征、语义内容、情感倾向等多个特征维度来探索文本特征对用户可感知的效用的影响力,采用深层次的文本内容分析技术提取特征指标,并结合计量分析和机器学习方法验证指标的科学性,设计可行的面向效用价值的预测模型。

研究证明,依据评论内容可有效探测评论质量,辨识高质量评论,提高评论的效用价值。

[关键词]用户生成内容文本挖掘
用户评论
情感分析
内容分析
[分类号]TP391
DOI :10.13266/j.issn.0252-3116.2014.13.014
*本文系广东省哲学社会科学“十二五”规划2013年度项目“基于情境和用户感知的知识推荐机制研究”(项目编号:CD13CTS01)研究成果之一。

[作者简介]聂卉,中山大学资讯管理系副教授,博士,硕士生导师,E-mail :issnh@mail.sysu.edu.cn 。

收稿日期:2014-05-04
修回日期:2014-06-01
本文起止页码:83-89
本文责任编辑:
王善军
近几年,电子商务等类别的网站上涌现出大量针对商品或服务的用户评论。

在电子商务领域,在线网络评论有着重要的利用价值。

这些被称为“网络口碑”的资讯对消费者与商家间的互动发挥着意想不到的影响力。

对于消费者,评论中对商品质量的评价为其提供了决策购买的重要衡量指标。

对于商家,用户为导向的在线评论是他们获得用户反馈的重要来源。

通过从这些反馈中提炼有价值的信息,商家能够把握客户需求,提高产品质量,改善服务,增强市场竞争力。

然而,因缺乏有效监控,网络上的用户生成内容良莠混杂,低质量甚至虚假信息充斥其中,使得这块富含价值的资讯难以真正得到利用,亟需一套有效的信息评价机制和过滤方法,帮助人们“去伪存真,去粗取精”,最大程度地发挥其价值。

在这一背景下,评论效用分析研究被关注,成为电子商务研究领域的热点问题。

信息源的语言特征和语义内容对信息阅读者的判断和行为表现有直接影响
[1]。

商品评论内容常常左右
用户对商品的认知、态度以及购买意愿。

网络用户在带着购买意愿浏览评论、寻求商品信息和推荐时,会特别留意评论的正文内容,并依据对评论内容质量的认同感明确自己的购买意向。

因而,很大程度上,评论内容形成了用户对商品的判断,而用户感知的评论价值
也更多地体现在用户对评论内容的肯定。

基于这一分析,笔者认为对评论内容的深层次分析挖掘是探测评论效用评价机制最直接有效的方法。

因此,本文的研究关注点是用户评论内容,从评论内容的语言特征、语义内容、情感倾向等多个特征维度来探索评论内容对用户感知的效用价值的影响力,通过深层次的文本内容分析提取评论效用价值的评价指标,并结合计量分析和机器学习方法验证指标的科学性,设计可行的面向效用价值评估的预测模型。

本文的研究以获取高质量评论资源为直接目标,进而实现“有用评论”的自动识别和基于效用指标的评论推荐排名。

相关研究中,评论效用通常被理解为评论内容对
于有目的的信息使用的影响程度。

随着大数据时代的到来,在线评论日益增多,海量的数据及其良莠不齐的质量使评论的效用研究具有了更实际意义
[2]。

在电子
商务领域,大部分商务网站或第三方评论网站往往构建有自己的评价体系,通过让用户参与评论效用评价评估其质量。

此法简单易行,被广泛采用,但效用评估值的累积需要时间,延迟将导致无法及时反映最新评论的效用,实际应用中会产生偏差。

对这一问题,研究人员从不同方面系统分析了影响评论效用的因素,希望通过探测与评论效用价值相
关的要素,来实现对评论质量的自动评估,而不再局限于累积的投票统计。

这些研究中,评论效用分析被转化为一个分类或排序任务,抽取与评论相关的多个层面的特征,利用计量或机器学习方法构建效用评价的分类预测模型。

如,S.Kim等[3]利用支持向量机(SVM)的回归方法分别从结构、词法、句法、语义、元数据5个文本特征对评论有用性进行自动评价。

实验结果表明,评论长度、一元文法以及产品的评级是判断评论有用性的关键要素。

Zhang Zhu等的研究[4]同样采用SVM回归预测评论质量,探测了评论的语言特征、情感特征和与主题关联的内容特征与效用价值之间的关系,发现简单语法,如专有名词、数字、情态动词等语言特征在预测在线商品评论的效用时的贡献最显著。

Liu Jingjing等的研究[5]则注意到投票累计导致的评价偏差问题,于是采用人工标注的数据进行研究,并从信息含量、主观性、可读性三个方面刻画评论质量。

其中信息含量反映评论内容与产品的关联,主观性量化情感因素,可读性刻画语言的表达,这些特征从不同角度提炼出评论文本的内容实质,以提高评价的合理性。

可以看出,以自动识别有用性评论为目标的这组研究中,自动识别采用有指导的机器学习来实现,特征选择是研究要点。

由于SVM在文本分类上的出色表现,SVM成为首选的分类预测方法,但SVM类算法的评价无法对特征因素与预测变量(评论效用)之间的关系进行比较直观合理的解释,结论不易被很好理解。

另一组面向商品评论的效用评价研究以计量分析为主,采用线性回归模型解释影响评论效用的重要因素。

与评论相关的更多元化的特征因素被引入。

如J.Otterbacher[6]对Amazon.com上的用户评价质量进行了分析,提取了22个特征来描述评论内容、评论人信誉及产品特色,利用因子分析揭示出这22个特征所蕴含的5个信息质量的评价维度(关联度、信誉度、描述性、可信度以及客观度),并进一步利用相关分析和回归分析验证了这5个质量评价维度与信息质量的关联。

A.Ghose等的研究[1,7]提取了所有可获得的与评论相关的元数据特征,尤其是评论人特征以及面向评论内容的情感特征来探究评论对消费者和商家的效用价值,用线性回归模型进行假设检验和分析预测,揭示出评论的主客观性、信息含量、可读性和拼写错误率与可感知的评论的效用价值的影响,得出混合了客观内容和高度主观性句子的评论会负面影响产品销售,但对用户感知的效用价值却起着积极的作用等有趣的研究结论。

对比分析表明,基于计量的方法能得到一组有价值的结论,但因为研究关注点是评论的可用性评价,因而引入了多个层面的特征,反而弱化了评论内容与效用间的关联。

由于文本挖掘的难度或精准度的不确定性,相当一部分研究回避了对评论文本的特征因素的实质性探究,而存在的内容分析研究也相对浅层。

如J.Otterbacher[6]的研究没有分析评论中蕴含的主客观性和情感倾向,A.Ghose等的研究[1,7]只进行了主客观分析,没有对评论的文本内容进行更深层次的语义挖掘。

而以机器学习为主要方法的研究揭示出对信息源的文本及语言特征的选择和描述对信息质量的评估起着至关重要的作用。

本文强调对文本内容的深层次分析,也重视对预测模型的可解释性描述。

因此,围绕本文的研究目标———评论内容对用户感知的评论效用影响的研究,特别应用了深层次的文本挖掘方法,并尝试结合机器学习和计量分析,来探知影响评论质量的评论内容的特征因素和预测方法。

本文研究也借鉴了A.Ghose等的思路,但A.Ghose等的研究面向英文,并利用了现成的文本分析和情感挖掘工具Lingpipe(http://alias-i.com/lingpipe/)。

本文面向中文,在探索评论效用评价机制与模型的同时,研究中文领域面向语义和情感的特征提取。

对于用户生成的网络评论,笔者尝试给出一个合理的面向文本内容的评价指标体系,探究内容特征对用户可感知效用价值的影响力,通过设计可行的测度方法,评价用户评论质量,辨识高质量用户评论,提高用户生成内容的可利用价值。

依据这一研究目标,本文提出三个研究问题:①评估评论质量的重要的文本因素有哪些面向中文领域,如何利用自然语言处理技术自动获取这些特征因素?②评论的文本特征如何影响用户感知的评论的效用价值?③依据评论的文本特征如何有效判断评论的效用价值,自动识别高质量的评论资讯
3.1用户评论的质量评价指标体系
对于信息质量评价,Wang Y.Richand等[8]提出的信息质量描述框架被广泛采纳。

他们将信息特质分为内在特质、内容特质和描述特质三个方面。

内在特质强调信息固有特性;内容特质反映信息含量和完备性;而描述特质则刻画语言风格。

笔者参考这一指标体系,针对研究对象具有情感丰富、内容随意、形式多变
的特点,重新设计整合了相应指标,抽取文本内容中的6个特征并分别归属到主客观、信息量和语义三个类别的特质描述中,如表1所示:
表1
评论质量评价指标体系
类型
(Type )特征属性(Feature )说明
(Explanation )
主客观
(Subjectivity )Avg_Sub Avg_SD 评论的主观度均值评论的主观度标准差
信息量
(Informativeness )
Num-wd Num -sen Num-wd-sen
评论长度(以词条数统计)评论长度(以句数统计)
评论的平均句长(单句中所包含词条数的均值)
语义特性
(Semantic )
Topic-relevancy
评论内容与目标产品的关联度
主客观特质:作为用户生成的评论性文本,产品评论内容中通常混杂着主观的用户评价和客观的商品描述。

评论文本既反映用户观点,也具有和产品特征密切相关的客观事实描述。

信息量:一方面刻画信息含量,如词量和句量。

另一方面则描述其语言风格,如平均句长。

通常,信息含量指标对应的特征值越大,评论的信息量越大,但语言风格越趋于复杂,比如长句。

语义特性:描述评论内容与目标产品的相关性,读者通过语义特性获知评论的主题内容。

3.2
文本特征的提取
文本分析模块用于实现特征的提取。

处理流程如图1所示。

分析过程分为三个阶段:预处理、情感分析以及面向内容的主题关联度计算。

由于研究面向中文领域,笔者利用了开源的中文自然语言处理平台Fun-danNLP (http ://code.google.com /p /fudannlp /),采用机器学习方法,用JAVA 语言编程实现整个文本处理流程。

图1文本分析处理流程
预处理采用一组自然语言分析模块对文本内容进行初始化处理。

原始评论内容依次经过分句、分词、词性标注、实体识别以及词性过滤等环节的处理。

可直
接提取与信息含量关联的文本特征词量、句量以及反映语言风格的平均句长。

在词性过滤环节,抽取动词、形容词、副词、名词、专业名词及数词用于主客观分析(情感分析)。

主题关联度的计算则利用动词、名词及实体词描述文本矢量。

与主客观特质相关的特征指标采用A.Ghose 等
[1]
提出的评论主观度均值Avg _Sub 以及主观度标准差Avg _SD ,计算公式如下:
Avg _Sub (R)=1n ∑n
i =1
Pro Subjectivity (Sentence i )(1)
Avg _SD (R)=
1n ∑n
i =1
(Pro Subjectivity Sentence ()i -Avg _Sub (R))槡
2
(2)
n 为评论R包含的句子的数量,通过计算每个句子Sentence i (i =1,
2,…,n )的主观倾向度Pro Subjectivity (Sentence i )获取评论R的主观度均值Avg _Sub ,反映评论文本中蕴含的情感因素。

评论内容与目标产品关联越显著,Avg _Sub 越大,说明评论内容主要反映评论人的观点,倾向主观。

Avg _SD 反映的则是评论的主客观
混合度。

A.Ghose 等[1]
指出,
具有效用的评论应该既能提供产品信息,也能展现出令人信服的评论者观点,这反映出评论内容是主客观两类信息的混合。

而作为情感因素指标,笔者认为,Avg _SD 还能够间接体现评论者的情绪波动。

尤其当Avg _Sub 相对高的情况下,Avg _SD 低,表明评论者的主观情绪始终饱满;反之,评论者对产品的有评(主观)有述(客观),
应更趋理性。

由计算公式可见,获取这两个指标的关键是句子级的主观度估计Pro Subjectivity Sentence ()i 。

通过手工标注训练集,利用FudanNLP 平台构建了SVM 回归预测模型,预测出单句的主观度。

测试集上进行了十折交叉验证,精度达到85%。

有参考价值的评论内容与产品密切关联,和目标产品无关的评论往往得不到用户认同。

评论内容与产品的关联度对可感知的评论效用有直接影响。

笔者以权威的官方产品评测文本为基准,计算评论内容与官方评测的内容相似度,以此测度主题关联度。

评论文本及评测文本为输入,经过分词、词性标注、停用词过滤、特征词提取(取动词、名词、实体词、数词及专用名词),构建基于TF*IDF 权值的文本特征矢量,采用经典的余弦相似度计算评论内容与产品描述的语义相似
度,获取面向语义内容的特征指标Topic-relevancy 。

分析处理流程见图2。

3.3
基于回归分析的解释模型
采用计量法构建解释模型,探测影响用户感知的
图2
主题相关度计算框架
评论效用价值的影响因素。

解释模型中评论效用为预测变量,源自评论内容的文本特征值为解释变量。

构建解释模型,提出如下假设:
假设1:评论中主客观情感因素对用户可感知的评论效用有显著影响。

假设2:评论主题关联度的变化对用户可感知的评论效用有显著影响。

假设3:评论与信息量关联的特征因素的变化对用户可感知的评论效用价值有显著影响。

依据假设,建立预测评论效用的多元回归模型,定义如下:
Rhelpfulness =α+β1Ln RNum _()wd +β2RNum _sen +β3
RNum _wd _sen +β4RAvg _sub +β5RAvg _SD +β6RTopic _relevancy +ε
(3)
因变量Rhelpfulness 为评论效用,取有用投票数与总投票数的比值为该变量代理。

自变量则引入Ln RNum _()wd 、RNum _sen 、RNum _wd _sen (反映评论的信息含量和语言风格)、
RAvg _sub 、RAvg _SD (体现评论的情感特征)以及RTopic _relevancy (反映评论的语义内容)。

模型强调源自内容的文本特质对评论效用的作用。

笔者并未考虑其他相关因素(如评论人特征)的影响力。

因为实际运作中,笔者认为对于阅读者,评论内容,尤其是包含了阅读者感兴趣产品的评论内容对阅读者有直接影响,内容是阅读者判断评论是否有帮助的主要依据。

3.4
基于规则的预测模型
解释模型揭示了影响评论效用的重要因素,进一步需要探知对一个缺少投票积累的评论,如何根据其评论内容预测其效用。

笔者尝试构建一个二分类的预测模型。

首先,连续性的效用变量Rhelpfulness ∈(0,1)被转换为一个0/1变量。

取阈值τ,Rhelpfulness 大于τ,判定评论有帮助,否则无帮助。

许多研究采用SVM 构建分类器,笔者则选取决策树。

基于规则的决策树模型能够对结论进行合理解释,更易被理解。

决策树的构建过程中,取属性信息增益(information gain )为分支判断,信息增益反映分裂属性蕴含的信息量。

信息增益越高的特征属性,对分类结果的影响力越大。

因此,可
以根据决策树的分支结构比较特征的相对重要性。

另一方面,为更好地理解决策规则,笔者采用聚类算法,将连续的特征变量转换为名义型变量,如依据特征变量RAvg _sub 和RAvg _SD 、
评论的主观度(subjectivity )聚类为三种类型(Cluter_0,
Cluter_1,Cluter_2)。

主题相关度(topical relevancy )分为强、较强、弱三个层次。

信息量特质(informativeness )则为多、适量和少三个等级。

4.1
数据采集
中关村在线(www.zol.com.cn )是最具商业价值的
IT 行业的第三方评价网,笔者以其为目标数据源,利用爬虫软件Locoy (http ://www.locoy.com /,火车头采集器)共采集了1569条有关手机Moto ME525的评论,自动抽取评论的文本内容和相关元数据,并取赞成票数与总投票数的比值作为评论效用的代理,即
Rhelpfulness =RNum _helpful _voters
RNum _total _voters
(4)
4.2
实验与分析
对实验数据进行深度的文本分析,获取文本特征
变量,进而设计两组实验对用户评论质量进行评价与预测研究。

4.2.1实验一:影响评论可感知效用的重要特征因素
探测
实验目标:探测文本特征对评论效用价值的影响力,提取影响用户感知效用的重要的文本特征因素。

实验平台:R语言。

研究方法:统计分析,建立基于文本特征的解释变量对评论效用价值(预测变量)的回归模型(见上文)。

实验结果:见图3-图5。

实验分析:由图3可见,研究提出的假设模型总体拟合指标—
——调整系数(adjust R2)约为0.20。

对每个解释变量,在0.001显著性水平上,评论信息量在词量上的统计特征Ln RNum _()wd 表现出对Rhelpfulness 的显著影响。

在0.01显著性水平上,评论的主题相关度RTopic _relevancy 和主观度均值RAvg _sub ,均表现出对Rhelpfulness 显著的正向影响。

但情感因素的另一指标RAvg _SD 以及反映语言风格的RNum _sen 和与信息量相关的RNum _wd _sen 指标未表现出对Rhelpfulness 的显著影响。

进一步的探测中,引入非线性的变量间的交互因素,发现RAvg _sub 与RTopic _relevancy 的内积对评论效用价值在0.01水平上有显著负向影响力,表明评论效用的感知度的提升会随着主题相关性与主观情感度增长有所降低,即评论中蕴
含的情感因素同感知效用的关系与内容密切相关。

内容丰富且和主题相关度高的评论易得到阅读者的认同,但有充分信息量、与主题内容密切关联而过于主观和情感强烈的评论却会使阅读者对其认同感打折扣。

图3回归分析的结果(运行截图)
可见并非所有文本特质都会对评论效用价值的感知有正向作用。

为了全面探测所有变量及其可能组合对评论效用价值预测的影响,笔者在所有的特征子集上进行了回归分析,以期获得最佳的解释模型。

如图4所示

图4
基于adjusted R2
指标的最佳模型排名(截图)
图4展示了基于所有特征子集的回归模型及其在
性能评估指标adjust R2
上的表现。

横坐标对应自变量,纵坐标对应adjust R2

从大到小依次排列。

最好的两个模型位于顶部。

Ln RNum _()wd 、RAvg _sub 、RAvg _SD 、RTopic _relevancy 为两个模型中有显著影响作用的解释变量(暗色区域对应的横坐标),两个模型的调整系数达到
0.2,相比其他子集模型有更佳的拟合度。

从两个模型中提取有显著影响的文本特性,分别为词量(RNum _wd )、情感特征RAvg _sub 、RAvg _SD 以及主题的相关度Topic_rele-vancy 。

进一步分析三组特征的相对重要性。

笔者采用了相对权重法(relative weight ),
它是对所有可能子集模型添加一个预测变量引起的R2
平均增加量的一个近
似值
[9-10]
,利用这一模型生成预测变量的相对权重。

如图5可示,词量的影响作用最大,其次是主题相关度,再次是情感因素。

结论表明,富含信息的评论内容是读者认同评论效用的最重要因素。

图5
解释变量的相对重要性结果(运行截图)
4.2.2实验二:基于决策树的评论效用价值的预测
实验目标:采用机器学习方案进行分类预测研究,以验证解释模型的分析结果,并挖掘能够有效辨识有用评论的规则。

实验平台:开源的数据挖掘软件平台RapidMiner (http ://rapid-i.com /content /view /181/190/)。

研究方法:通过聚类生成文本特征的定性描述,构建基于规则的决策树分类模型。

实验结果与分析:根据上文的分析,采用决策树进行分类预测。

取1569条手机评论为实验数据,对每条评论计算基于用户投票的效用评分Rhelpfulness 。

同时设阈值τ=0.6,若Rhelpfulness 大于τ,评论有效,否则无效,
据此标注评论效用的类属标签,同时通过聚类对有显著影响作用的文本特征进行类型化(具体见上文)。

如对情感因素聚类后结果如表2所示:
表2
情感特征的聚类结果
情感类型Cluster_0Cluster_1Cluster_2RAvg _sub 0.9790.7950.591RAvg _SD
0.014
0.374
0.460
Cluster_0主观度均值最高,但情绪波动不大,因而为感性类评论,且情感强烈。

Cluster_1为感性偏理性的评论,评论主观性较强,但也有较为客观的评述,评论的情感起伏波动比Cluster_0大。

Cluster_2为理性偏感性的评论,主观性评论不及Cluster_1,相对客观,且方差较大,表明有客观内容但不乏主观评述。

对所有相关特征进行定性描述后,在实验数据集上构建决策树,进行十折交叉验证,结果如表3所示:
表3
决策树模型的预测精度
Accuracy :82.61%
True 1
True 0Class precision Pre.17370.00%Pre.011292.31%
Class recall
87.50%
80.00%
可见,正例(有帮助评论)的识别精度为70%,反例(无帮助评论)的识别精度为92.31%,预测分类模型的分类准确率达到82.6%,结果是比较理想的。

但树结构体现出更有意义的结果,见图6。

根据决策树构建原则,属性分裂的选择依据是信息增益。

该指标反映对应分支属性对分类的贡献值,信息增益越大,属性越重要,越靠近根节点。

图6结构显示,三个分支属性的重要度依次是词量、主题相关度和情感类型,和回归分析得出的特征相对重要性的结论一致。

而根据树的结构,还可以得到一组清晰的辨识有用评论的规则。

如图6所示的Rule1和Rule2:
Rule 1:if (Num _wd =“多”and Topic _relevancy =“强”and Sentimental style =(Cluter _1or Cluter _2))then (评论R有效用

图6RapidMiner 运行结果截图
Rule 2:if (Num _wd =“多”and Topic _relevancy =“强”and Sentimental style =Cluter _0)then (评论R无效用)
两条规则隐含揭示出:词量达到一定量度,才容易得到用户关注和认同,成为有效评论的几率较高。

但是与主题相关度高的评论,如果情感过于强烈则(Clut-er_0类型)有过褒或过贬嫌疑,往往得不到认可,被判别为“无用评论”的可能性高。

既有主观评价又有客观描述、情感表达适度的评论内容易被用户感知有用。

从整个决策树的结构分布亦可看出:词量适量,表明有一定的信息量,但若主题相关度不足,往往得不到认可。

若主题相关度高,则需进一步探测评论的情感类型,情感过于强烈的和偏感性的评论普遍不被认可,偏理性的评论比较容易受到青睐,获得用户的感知效用,从而有较高的可利用价值。

这一研究结论与人们的经验判断是一致的,同时也印证了实验一关于文本特征重要性比较的结论。

本文以获取高质量评论资讯为直接目标,对评论质量的评估和“有用评论”的自动识别进行了实证研究。

研究关注点为评论内容,探讨评论正文内容中表现出的语言、语义、情感特征对评论可被感知的效用的影响,并据此提出高质量评论的自动辨识方法和依据。

参考信息质量评估的一套指标,笔者首先提出了一个针对用户评论内容的评价指标体系。

针对中文领域,利用自然语言处理技术,通过深层次的文本内容分析提取了与评论效用价值相关的文本特征,并结合计量分析和机器学习方法解释并验证指标特征的科学性,据此设计出面向效用价值评估的高质量评论的预测模型。

依据对真实数据的分析,笔者的研究揭示出了评论的文本特征,包括信息量、主题关联度及情感特征与可感知的评论效用价值有显著关联。

最优回归模型则表明丰富的信息含量、围绕产品主题的内容关联以及适度的情感的表达是评论内容被感知具有效用价值的。

相关文档
最新文档