基于文本挖掘的京东商城手机网评分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于文本挖掘的京东商城手机网评分析
摘要:随着互联网的迅速发展、电子商务的快速崛起,网络购物已成为一
种趋势。各大电商平台每天都产生着数以万计的评论数据。这些海量的评论数据
中潜藏着丰富的有价值的信息。本文主要使用朴素贝叶斯方法对京东商城五款手
机评论数据进行挖掘分析。根据分析得出的结果,为生产商进一步提高商品质量
满足消费者需求提出指导性建议;同时为潜在消费者购买决策提供合理的参考也
具有一定的意义。
关键词:文本挖掘;朴素贝叶斯方法;京东评论
1 引言
大数据时代的到来,互联网数据呈现快速增长模式。随着网络购物用户的不
断增加,交易规模也在逐年增长,从而商品评论数量日趋庞大。各大网购平台关
于一件商品的用户评论能够达到几万条甚至几十万条,数量越来越大、内容越来
越复杂,如果仅仅依靠人工阅读的方式来获取有价值的信息,所以想必也是非常
困难的。
近年来文本挖掘技术的兴起,已成为分析文本评论数据的主要方法,它可以
为生产商和消费者准确的提供有价值的信息,对网络购物的每一环节都有着重要
意义。
2 实证分析
2.1 数据来源
以销量作为筛选条件,本文选取了2018年京东商城销量前五的五款手机,
它们的货号分别是:16580586466、100008630664、43769030870、100010260230、100010658548(对应是手机型号分别是iPhone8 Plus、小米9Pro、红米Note7、
华为荣耀V30、OPPO Reno3),选取用户评论作为文本挖掘分析的对象。确定好
研究对象之后,通过使用Python分别对五个手机型号的用户评论内容进行爬取。
2.2 文本数据预处理
2.2.1 数据清洗
文本评论数据中包含着各种各样的信息,有的评论内容对文本分析来讲,利
用价值很低甚至一点价值都没有,如果把它们也引入到分析过程中来,必然会对
最后的结果造成较大的影响。因此,在正式进入分析工作之前,首先要进行的是
对评论内容进行数据清洗。
2.2.2 文本分词及去除停用词
数据清洗工作完成后,接下来对评论语料进行预处理,主要有中文分词、去
停用词等过程。这一过程是利用Jupyter软件调用“jieba”分词包实现。
存在很多像“的”“了”“呢”一些并没有实际意义的语气词,分词结果中
常常会出现“但是”、“然而”之类的转折词,又或者是一些特殊的字母、符号,这都统称为停用词。进行文本分类之前,需要将停用词剔除掉。
2.2.3 词云词频
词云作为Python中极具灵动特色的展示库,在通常情况下使用在显示词频
最终结果展示上,能够自定义背景,还可以设置不同的字体,其展示方式同其他
同种工具比较,具有更立体、简练的优点。为加强对上文所爬取文本的研究,本
文把Python的jieba词频分析和Wordcloud展开结合使用,在词频基础上,达
到了更直接的情感分析和展示目的。
对于第一款手机iPhone8 Plus,出现较多的高频词汇除了“手机”本身之外,还有“不错”“喜欢”“值得”“满意”等等,由此可以知道,大部分消费者对
于这款手机的评价较好,除此之外,他们对于发货速度方面的问题比较关注。对
于第二款手机小米9Pro,出现较多的高频词汇除了“手机”本身之外,还有“老人”“喜欢”“不错”“满意”等等,由此可以知道,购买或使用这款手机的消
费者大部分为老年人,他们对这款手机的使用体验较好,除此之外。对于第三款
手机红米Note7,出现较多的高频词汇有“老人”“不错”“声音”“喜欢”,
由此可以知道,这款手机的使用群里老年人居多,同时他们对这款手机的声音较
为满意。所以对于第四款手机华为荣耀V30,出现较多的高频词汇有“手
机”“问题”“不错”“客服”,除此之外还有“充电”“系统”,从这里可以
看出这款手机有可能出现了一定的问题,可以是系统方面的,也可能是充电方面的。对于最后一款手机OPPO Reno3,出现较多的高频词汇有“手机”“问
题”“不错”“正品”,除此之外还有“质量”“物流”“客服”,由此可得,
消费者对于这款手机的总体评价较好,但是在购物过程中也出现了一些问题,同
时对于物流、客服方面的问题较为关注。
最后,将五款手机的高频词提取结果进行对比验证,iPhone8 Plus、小米9Pro、红米Note7这三款手机的结果显示为积极性评价,其词云显示的关键
词多为“喜欢”“不错”“满意”;而华为荣耀V30、OPPO Reno3这两款手机的
结果显示为正向和负向都有包含,其词云显示的关键词多为“问题”“客服”。
由此可得,词云显示的高频词可以真实有效的反映消费者对于一款商品的评价。
2.3 朴素贝叶斯文本分类
2.3.1 训练预料收集
朴素贝叶斯模型是一种有监督的机器学习方法,所以需要收集一些已经标注
好的语句,训练语句数量越多,模型预测效果越准确[1]。对于中文文本情感分类
来讲,已经添加好标注的语料是十分匮乏的,而且大部分标注语料主要集中于手
机评论、酒店评论、微博评论等。由于中文标注语料资源的缺乏,在网上只搜集
到 521 条已标注好的笔记本电脑方面的正负评论语料,其中正面评论211条,
负面评论310条。由于中文标注语料资源的缺乏,本文从五款手机的评论中分别
抽取100条语句进行了人工标注,所以需要进一步加大训练集的数量。
2.3.2 实验步骤设计
(1)数据准备阶段:在网上搜集关于电脑方面的已标注好的语料,并做好
标签。在本文中正面评论用“0”表示,负面评论用“1”表示。考虑到较长的评
论语句包含的价值信息更多,文中并对语料进行了排序,分别在好评集与差评集
各抽取500条语句组成训练语料。