垃圾评论识别

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种对垃圾评论进行筛选的数学模型

摘要:目前商务网站或博客论坛允许用户发表针对产品或话题的一些评论看法,难免会存在一些虚假的或是与产品及话题无关的评论信息,这极大地误导了商家、读者以及观点挖掘系统,造成了资源的浪费。本文通过建立合理的数学模型,通过C++及matlab编程求解,实现对产品垃圾评论的有效识别。

针对问题一,对给定的四类不同情形,首先建立文本处理模型,通过C++进行文本统计,根据统计结果,生成产品标准关键词向量和评论向量;再次,通过垃圾评论判断进行初级判断;再通过matlab相似度计算模型,得到评论与产品关键词的相似度;最后通过与设定阈值比较判定评论是否为垃圾评论,判断正确率为100%。

针对问题二,相对问题一,评论数量增加,因此充分考虑主题词、广告词、情感词、违禁词、相似度、评论重复数及特殊符号等评论特征对评论结果的影响,首先采用AdaBoost算法训练出合理的强分类器,对垃圾评论和正常评论实现有效分类;其次,通过建立准确率和召回率综合指标评价模型最筛选结果做出评价。

针对问题三,对一般产品的产品评价集合,在问题(2)模型的基础上建立更一般的改进模型,通过对样本权重的限制和相似度的改进,提高算法的识别率。针对该类问题识别的特征,从关键词词库的扩充、产品评论特征的识别、样本的选择权重及相似度确定等角度提出了针对该类问题建立模型的合理建议

关键字:垃圾评论识别,C++,matlab,评论特征,AdaBoost算法,权重

一、问题重述

评论筛选是对给定的语料集合中,要求系统识别出文档是否为垃圾观点文档。要求完成以下问题:

1)针对给定的情形,建立合理的数学模型进行识别,制定算法流程。并通过程序验证,得到正确识别率。

2)在网络上收集一个更大的关于小米手机的评价集合,建立合理的数学模型和算法进行识别,并得到结论。

3)对一般的产品评价集合,讨论并建立更一般的模型,并给出该类识别问题的看法。

四种垃圾评论分类如下:

(1)确实是评论,但只对品牌和制造商,甚至是站点评论,而没有针对当前产品本身进行评论,因此这种评论是无意义的。

(2)确实是对产品进行了评论,但是评错了产品。

(3)广告评论。

(4)无关的文本,大致包括个人的消费体经历、人身攻击和其它无关文本。

二、模型假设与符号说明

模型假设

1.从产品说明中提取的一个标准特征向量可以代表产品说明;

2.从评论中提取的一个评论特征向量可以代表此评论;

3.本文所建立的相关词库能够涵盖所有评论内容;

4.本文所提出的评论特征能够有效反映当前网络评论的特征。

主要符号说明

Wis:表示关键词在关键词特征向量中值的大小;

相似度,衡量评论与产品标准描述之间的相似程度;

Si milarity

:

Recall:评论筛选召回率;

Precision:评论筛选精确率;

Mistake:评论筛选误判率;

εε :评论分类错误率;

h:评论分类器

三、问题分析

问题(1)分析

问题(1)所给评论特征明显,通过以主题词、广告词、情感词等基本关键词筛选,初步筛选出部分垃圾评论,对其余评论,通过相似度计算完成筛选对评论进行筛选。首先要进行的是文本处理,通过文本处理提取出评论中的关键词。再次,

应建立一个标准关键词向量,通过对产品说明进行关键词统计与权重计算,得到标准关键词向量。最后,确定一个评论判定阈值,以便通过相似度比对确定出是否需要筛选评论。

问题(2)的分析

针对实际产品中的大量评论,充分考虑主题词、广告词、情感词、违禁词、相似度、评论重复数及特殊符号对评论结果的影响,采用AdaBoost算法训练出合理的强分类器,实现对垃圾评论的有效识别,并通过评价模型做出合理评价。

问题(3)的分析

针对一般产品的产品评价集合,在问题(2)模型的基础上建立更一般的改进模型,通过对样本权重的限制和相似度的改进,提高算法的识别率,使其更具有应用价值。针对该类问题识别的特征,从关键词词库的扩充、产品评论特征的识别、样本的选择权重及相似度确定等角度提出了针对该类问题建立模型的合理建议。

四、模型建立与求解

模型准备

产品评论特征

在提取产品评论特征之前,首先对文本数据作预处理。采用中国科学院计算技术研究所分词系统ICTCLAS对产品标准描述和评论进行分词,并去掉与评论内容无关的停用词,对剩余的有效关键词进行分析处理。

产品评论特征是商品评论有效性筛选的重要指标,能否有效识别出垃圾评论很大程度上决定与所选垃圾评论特征是否具有代表性及尽可能多的覆盖到所有评论,。通过对常见垃圾评论特征的统计分析,通过以下特征来描述产品评论并提取出其特征值:

(1)主题词

产品主题词是描述产品的核心词,也是产品评论的核心词,一般是与产品相关的核心名词。采用中国科学院计算技术研究所分词系统ICTCLAS提取关键词中的产品标准描述及待评价评论中的核心词,并逐一进行比对。如果评论中没有产品标准描述中的任何主题词,即特征值为0,则认为该评论为垃圾评论,否则,其特征值为1,作为有效评论暂时保留。

(2)超链接与广告词

产品垃圾评论是包含超链接和广告词,超链接和广告词都是广告信息的典型表现形式,大多包括产品推销、店铺或网站推荐、公司宣传等。

针对超链接垃圾评论,由于超链接一般以网址出现,会出现多个连续英文字母字符,如,本文通过扫描评论中这类连续的字符,判定是否含有超链接。若含有超链接,即认为该评论可能为垃圾评论,其特征值为0,优先排除,否则,其特征值为1,作为有效评论暂时保留。

针对广告词,通过对现阶段热门评论分析总结,首先建立常用广告词词典,如QQ、特价、热购、淘宝、全场包邮等;其次考虑到广告词中包含产品价格及QQ号码等信息,一般以数字出现,因此若扫描到多个数字及汉字“元”,即认为包含广告词。同样,

若含有广告词,即认为该评论为垃圾评论,其特征值为0,优先排除,否则,其特征值为1,作为有效评论暂时保留。

(3)违禁词

违禁词即含有恶性攻击的词,如tm、脑残、烂货等,同样建立违禁词词典。对

相关文档
最新文档