基于文本挖掘的京东商城手机网评分析
基于电商评论的文本情感分类效果研究
基于电商评论的文本情感分类效果研究
计文丽
【期刊名称】《科学技术创新》
【年(卷),期】2024()3
【摘要】挖掘分析评论文本的情感倾向成为近年来自然语言处理领域的研究热点之一。
本文以挖掘京东商城商品评论数据价值为研究视角,以深度学习中的循环神经网络为理论基础,将循环神经网络的各变体模型应用到文本情感分类任务中,对比不同改进模型的评论文本分类效果。
本文首先研究了循环神经网络的变体模型长短期记忆模型LSTM、门控循环单元模型GRU在京东商品评论文本上的分类效果。
实验表明,GRU模型在训练过程中的准确率更高且更早达到优化值,总体上GRU网络模型在文本分类上的效果优于LSTM网络模型。
其次研究了以情感词驱动的、基于循环神经网络各变体模型的注意力神经网络模型,将各深度神经网络模型与注意力机制相结合,对比分析各组合模型的情感分类效果。
实验表明,引入注意力机制的神经网络模型,较传统网络模型分类准确率都有所提升,且会更快地达到优化值。
【总页数】6页(P100-105)
【作者】计文丽
【作者单位】吉利学院
【正文语种】中文
【中图分类】TP181
【相关文献】
1.基于BLSTM和注意力机制的电商评论情感分类模型∗
2.基于文本情感分析的电商产品评论数据研究
3.基于深度学习的体育评论文本情感分类研究
4.基于电商评论的文本情感分类
因版权原因,仅展示原文概要,查看原文内容请购买。
基于文本情感分析的电商在线评论数据挖掘
现代经济信息340基于文本情感分析的电商在线评论数据挖掘张 昊 湖北第二师范学院计算机学院摘要:这些年来,互联网的迅猛发展使电子商务迅速崛起,在几乎全民网上购物的时代使得各大电商之间、同样平台的不同商家之间的竞争日益激烈。
用户在线评论除了是对商品信息的反馈和与店家的沟通,更重要的是为新的购买用户提供重要的参考、和商家后续改进服务及商品的重要参考。
因此,基于文本情感分析的电商在线评论数据挖掘变得尤为重要。
在电商评论中进行文本情感分析,构建包含情感信息的在线评论模型,可以更加细致的了解客户需求,帮助商家有效掌握消费者的情感变化,进而,把握整个行业的趋势。
关键词:电商;文本情感分析;在线评论;数据中图分类号:TP39 文献识别码:A 文章编号:1001-828X(2019)025-0340-01通过这些年我国电子商务的蓬勃发展,互联网的流量红利已经不复存在,商家的获客成本越来越高。
线上商家该如何降低在行业的竞争成本,识别出有效客户,了解客户的情感需求及消费偏好,从而进行又快又准的营销,是一个重要的研究议题。
而用户的在线评论及情感倾向,是这一议题的重要信息来源。
一、电商用户在线评论研究(一)在线评论对消费者购买行为的影响消费者在线评论,是发生在购买行为之后的体验和反馈,这些评论根据消费者的使用感受包含正面和负面的。
不同于线下实体店口口相传的口碑形式。
在线评论是以文字的形式,长久的存在和产生影响。
是作为后续购买者决策的重要参考信息,更是电商企业在后续发展决策中的考量信息。
就以往的研究结论来讲,由于人们对风险的厌恶,负面的评论通常会比正面的评价影响力更大,人们往往会更关注负面评价,尽管大部分情况下,正面的好评数量远远大于差评,同时,这些差评对于不同消费者影响的强度也不同,消费者对于与所购买的店铺越熟悉越不易被负面评价影响,反之则更容易被影响[1]。
评论对消费者的购买意愿影响还体现在,同类产品评论数量越多,越容易吸引消费者的注意力,从而产生更大的影响。
基于文本挖掘的网络商品评论情感分析
二、基于文本挖掘的商品评论情 感分析的流程
1、数据预处理:这一步骤主要包括去除无关字符、标点符号和停用词,将 文本转化为小写字母,分词等操作。此外,还需要进行数据清洗,以消除或修正 错误的数据。
2、特征提取:通过词袋模型(Bag of Words)、TF-IDF、词嵌入(Word Embedding)等方法,提取出评论中的关键词和语义信息。
文本挖掘技术是一种从大量文本数据中提取有用信息的技本次演示将首先简 要介绍文本挖掘技术在电商评论中的应用。术,包括文本分类、文本聚类、情感 分析和文本摘要等。在电商评论领域,文本挖掘技术可以用于分析用户的购买体 验、产品特点以及服务水平等方面。情感分析作为文本挖掘的一个重要分支,可 以帮助我们更好地理解用户的情感倾向和意见观点。
接下来,我们将通过一个具体的案例来展示情感分析在电商评论中的应用。 假设我们选取了一个智能音箱作为分析对象,该智能音箱在电商平台上有大量的 用户评论数据。首先,我们可以通过文本预处理技术,将这些评论数据进行清洗 和预处理,例如去除无关字符、停用词等。然后,我们使用情感分析技术对这些 评论进行分类和归纳。通过这种方法,我们可以提取出用户对该智能音箱的关键 观点和结论,如音质如何、操作是否方便等。
随着互联网技术的发展和大数据时代的到来,文本挖掘技术在电商评论中的 应用将越来越广泛。未来,我们可以期待看到更多的创新和改变,例如更加智能 化的推荐系统、更加精准的营销策略以及更加完善的产品设计等。而这些改变和 创新都离不开文本挖掘技术的支持和发展。
谢谢观看
而对于负面情感的评论,例如:“我购买的这款耳机漏音严重,完全无法在 嘈杂的环境中使用。而且,连接速度也特别慢。”在这段评论中,作者表达了对 耳机漏音和连接速度的不满,这是负面情感的表现。
基于文本挖掘的蚕丝被在线评论分析——以京东商城为例
研究与技术丝绸JOURNALOFSILK基于文本挖掘的蚕丝被在线评论分析以京东商城为例Analysisofonlinereviewsaboutsilkquiltsbasedontextmining AcaseofJingdongMall刘佳锴aꎬ李㊀敏aꎬb(东华大学a.服装与艺术设计学院ꎻb.现代服装设计与技术教育部重点实验室ꎬ上海200051)摘要:为挖掘消费者在线购买蚕丝被时的关注因素ꎬ文章以京东商城为例分析了蚕丝被商品的品牌信息㊁价格区间分布㊁优惠信息和商品标签ꎬ使用文本挖掘方法对商品评论进行情感分析和共现聚类分析ꎬ并从行业和企业角度提出相关建议ꎮ研究结果表明:消费者具有较强的品牌意识ꎬ认可蚕丝被的较高价格定位ꎬ销量较好的蚕丝被大多带有自营㊁放心购㊁闪购和满减等标签ꎻ消费者在网络购买蚕丝被时ꎬ主要关注产品质量㊁价格和促销㊁包装和快递㊁客服服务四个方面ꎮ关键词:蚕丝被ꎻ文本挖掘ꎻ京东商城ꎻ在线评论ꎻ情感分析ꎻ聚类分析中图分类号:F724.78ꎻTS941.751㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀文章编号:10017003(2023)08001110引用页码:081102DOI:10.3969/j.issn.1001 ̄7003.2023.08.002收稿日期:20220929ꎻ修回日期:20230710基金项目:上海高校知识服务平台资助项目(13S107024)ꎻ上海市设计学Ⅳ类高峰学科资助项目(DD18005)作者简介:刘佳锴(1998)ꎬ女ꎬ硕士研究生ꎬ研究方向为服装产业经济与品牌营销管理ꎮ通信作者:李敏ꎬ教授ꎬfidlimin@dhu.edu.cnꎮ㊀㊀随着科技发展和居民可支配收入的增长ꎬ网络购物成为中国消费者习以为常的购物方式ꎬ消费者获取产品信息的途径也从传统的口碑传播转变成在线评论ꎬ超过75%的消费者在网购前会参考商品评论信息ꎬ90%以上的企业则相信评论意见会对消费行为产生决定性作用[1]ꎮ在线评论不受调研人员的影响ꎬ能真实地反映消费者的内心想法ꎬ既为消费者提供参考ꎬ也为商家提供优质的反馈信息ꎮ在此背景下ꎬ大数据逆向牵引的消费模式研究显得尤其重要ꎮ蚕丝被在GB/T24252 2019«蚕丝被»国家标准中被定义为填充物含蚕丝50%及以上的被类产品ꎬ2021年蚕丝被产量达1340万条ꎬ同比增长21.31%ꎬ它因具有透气透湿㊁亲肤保暖等优良性能而受到广大消费者的认可和青睐ꎬ是中国丝绸行业发展的支柱产品[2 ̄3]ꎮ蚕丝被在学术界也受到广泛关注ꎬ相关研究集中在国内ꎬ这与中国是茧丝绸的最大生产国及悠久的蚕丝文化密切相关[4]ꎬ当前研究主要包括三大方向ꎮ1)以产品为中心ꎬ包括从材料生产到回收利用的全过程ꎬ如家蚕培育㊁产品研发和循环利用等ꎮ蚕丝性能的差异与结构有关ꎬ纤维直径越粗㊁长度越长㊁交错网络越多ꎬ其整体力学性能越好[5]ꎬ学者们也通过杂交育种等方法培育出适合不同地区的蚕丝被用家蚕新品种[6 ̄7]ꎮ近年来ꎬ智能型蚕丝被研发开始受到关注ꎬ有学者将温度传感器植入蚕丝被以实现幼童睡眠监护功能[8]ꎮ伴随需求增长ꎬ蚕丝被废旧弃物也随之增加ꎬ如何解决废弃物污染和资源浪费问题是可持续发展的重要议题ꎬ对此学者们尝试将蚕丝被废弃物制成再生纤维[9]和生物炭[10]等ꎮ这些研究为蚕丝被的研发㊁应用和再利用等方面提供了有益参考ꎮ2)以质量探讨为重点ꎬ包括纺织品检验和标准解读ꎮ有纺织品检验工程师就市场抽检或日常检测结果总结了常见的产品问题ꎬ如标记不规范㊁含油率超标和回弹性不佳等[11 ̄12]ꎻ也有学者通过暖体假人实验或真人评价实验ꎬ探讨了不同被子的隔热性能差异和最佳舒适温度[13 ̄14]ꎻ亦有相关专业人士对国家标准进行解读并提出改进和实施建议[2]ꎮ此外ꎬ学者们对标准中的检验细节也进行了深入研究ꎬ如丝绵长度的鉴别定性方法[15]㊁含胶率检验装置的改进[16]㊁填充物纤维含量的取样方法[17]㊁含油率检测的影响因素[18]等ꎮ这些研究为蚕丝被的生产和质量控制提供了指导ꎮ3)以市场分析为导向ꎬ通过一手或二手资料来分析消费者和市场ꎮ有学者从蚕丝被销售数据推算ꎬ认为茧丝绸外销占比下降而内销占比不断上升[19]ꎻ也有学者基于百度指数分析了公众对蚕丝被的网络关注度变化趋势和消费者画像特征[20]ꎮ于永霞等[21]调研发现ꎬ与蚕业研究院和超市相比ꎬ消费者倾向于在商场和专卖店购买蚕丝被ꎬ但该研究只讨论了线下购买渠道ꎮ事实上ꎬ蚕丝被的电商成交量非常可观ꎬ早在201611Vol.60㊀No.8Analysisofonlinereviewsaboutsilkquiltsbasedontextmining:AcaseofJingdongMall年阿里巴巴蚕丝被网店的半年营业额就达803万元[22]ꎮ了解蚕丝被的消费趋势和消费者偏好对产业和企业规划未来发展和制定营销策略具有重要意义ꎬ但目前这方面的研究还相对较少ꎬ尤其是 大数据+蚕丝被 方面的研究ꎮ通过文献梳理可知ꎬ目前还未有学者从电商大数据逆向牵引角度探讨消费者在购买和使用蚕丝被时的关注因素ꎮ因而ꎬ本文以京东商城为例采集蚕丝被的销售特征信息和商品评论数据ꎬ分析蚕丝被的销售特征并对商品评论进行文本挖掘ꎬ探讨消费者在线购买蚕丝被时的关注重点并提出相关建议ꎬ从而帮助商家更好地了解消费者需求和市场情况ꎬ为电商企业的战略决策提供参考ꎬ具有较强的创新性和实用意义ꎮ1㊀研究方案设计1.1㊀研究方法文本挖掘是指对非结构化文本进行数据挖掘ꎬ如情感分析㊁词频分析和语义网络分析等ꎬ该方法被国内外学者广泛应用于评论分析[23 ̄26]ꎮ林伟振等[27]分析了亚马逊平台上2款Fitbit产品的在线评论ꎬ通过LDA算法自动提取98个主题并人工归类成13个影响顾客满意度的中心主题ꎮKim等[28]先将42款骑行裤的电商评论按照评分归为正面评论和负面评论ꎬ而后通过词云图和共现聚类找到消费者对产品满意和不满意之处ꎮ与市场调研法和专家访谈法相比ꎬ文本挖掘法可以更方便快速地找出消费者的关注点和偏好ꎬ节省时间和人力物力[29]ꎮ1.2㊀数据采集京东商城是中国第二大电商平台ꎬ拥有广大的客户群体ꎬ其在线评论模块较为全面㊁精细且方便消费者阅读ꎬ具有较强的代表性[30]ꎮ本文使用Python3.8.5编写程序收集京东商城的蚕丝被数据ꎬ首先ꎬ以 蚕丝被 为关键词检索并按照销量从高到低排序ꎬ获取前500款商品的品牌㊁价格㊁优惠㊁标签㊁好评率等基本信息ꎮ由于蚕丝被的价格与填充蚕丝重量密切相关ꎬ且产品信息中通常更强调填充物净重而非被子总重ꎬ为后续探讨蚕丝被的单位质量价格ꎬ需要依据商品详情手动补充填充物净重数据ꎮ其次ꎬ为了解蚕丝被商品评论的满意度和关注因素ꎬ获取前20款产品的前50页商品评论ꎬ共收集评论数据9264条ꎬ记为评论集A(包含正负评论)ꎮ经初步分析发现好评数量远多于差评ꎬ为后续了解差评原因ꎬ继续爬取销量前20名产品的所有差评ꎬ共获取数据2504条ꎬ记为评论集B(仅负面评论)ꎮ评论集A和评论集B的部分原始数据如表1所示ꎮ表1㊀部分原始评论数据Tab.1㊀Partofrawreviewdata评论集AZ∗∗∗复早就想买蚕丝被了ꎬ空调房里不盖太冷ꎬ盖多了又热ꎬ夏天用蚕丝被很透气ꎬ空调房里盖着暖和而不闷ꎮ这个价格买到的蚕丝被非常不错ꎬ颜色柔和ꎬ重量克数还可以ꎬ很柔软ꎬ摸在手上很丝滑ꎮ被子可以和被套固定ꎬ不用担心卷成一团ꎮu∗∗∗∗真心喜欢这款蚕丝被ꎬ真的很不错ꎬ柔软ꎬ轻薄ꎬ丝滑集于一身ꎬ这就是蚕丝被的特色ꎬ被子带有拉链ꎬ可以直观地看到里面的蚕丝ꎬ很喜欢子母被的设计ꎬ一年四季都能用ꎮ∗∗∗∗G被子收到质量不错ꎬ面料加厚的ꎬ很柔软ꎬ还留了一个口ꎬ可以看到里面的填充物ꎬ轻便又暖和ꎬ颜色也是我喜欢的ꎮ1.3㊀数据预处理评论数据属于非结构化数据ꎬ其中存在大量冗余词汇㊁表情符号和无效评论ꎬ若直接进行分析会导致文本挖掘效果不佳ꎬ因而需要对文本进行数据去重㊁删除短评论㊁自定义词库㊁文本分词㊁去除停用词和同义词替换等预处理[1ꎬ31]ꎮ经过预处理后ꎬ评论集A的有效数据共6910条ꎬ评论集B的有效数据共1442条ꎮ1.4㊀数据分析在完成数据预处理后ꎬ本文对商品基本信息进行绘图分析ꎬ使用TextMining6.0软件(TM6.0)对评论集A进行情感分析ꎬ基于TF ̄IDF算法分别提取评论集A和评论集B的特征关键词并进行共现聚类分析ꎮ研究思路与技术路线如图1所示ꎮ21第60卷㊀第8期基于文本挖掘的蚕丝被在线评论分析以京东商城为例图1㊀技术路线Fig.1㊀Technologyframe2㊀商品销售特征为了解京东商城的蚕丝被销售特征ꎬ本文对销售排名前500款商品的品牌㊁价格㊁产品优惠和产品标签等数据展开分析ꎮ2.1㊀蚕丝被品牌定位对京东商城的蚕丝被商品进行调研ꎬ发现被列入的品牌有恒源祥㊁富安娜㊁太湖雪㊁南极人等超过400个ꎮ销量排名前100款商品分别来自31个品牌ꎬ各品牌蚕丝被的单位质量价格区间分布如图2所示ꎮ品牌内的价格区间跨度较大ꎬ主要因为蚕丝被的定价与填充蚕丝的品质紧密相关ꎮ品牌间的价格层级明显ꎬ蚕丝被品牌定位可分为平价型(150~700元/kg)㊁中高端型(400~2500元/kg)㊁高端型(800~6000元/kg)和奢华型(2000~20000元/kg)ꎮ销量排名前20款商品的评论量主要集中在2000~50000元/kgꎬ分别来自南极人㊁水星㊁恒源祥㊁富安娜㊁京东京造㊁太湖雪㊁博洋㊁钱皇和罗莱等知名度较高的品牌ꎬ消费者选购蚕丝被时具有较强的品牌意识ꎮ图2㊀品牌价格定位Fig.2㊀Brandpricepositioning2.2㊀产品价格区间如图3(a)所示展示了500款蚕丝被商品在不同价格区间的分布情况ꎬ分布数量最多的前4个区间依序为:1000~图3㊀蚕丝被的价格分布Fig.3㊀Pricedistributionofsilkquilts31Vol.60㊀No.8Analysisofonlinereviewsaboutsilkquiltsbasedontextmining:AcaseofJingdongMall1500元/kgꎬ500~1000元/kgꎬ1500~2000元/kg和2000~2500元/kgꎮ图3(b)为该500款商品的价格散点图ꎬ可知单位质量价格平均值约为2000元/kgꎬ其中纯桑蚕丝被价格最高ꎬ纯柞蚕丝被次之ꎬ混合蚕丝被价格最低ꎮ混合蚕丝被仅仅占总数的10%ꎬ可见消费更倾向于购买纯蚕丝被商品ꎻ此外ꎬ销量排名在前300的纯桑蚕丝被价格明显高于300名往后的ꎮ由此可见ꎬ消费者认可蚕丝被的较高价格定位ꎬ相对于价格而言他们在购买时可能更关注产品质量或其他因素ꎮ2.3㊀产品优惠情况满减㊁商品券㊁会员价㊁赠送礼品和折扣是常见的优惠形式ꎮ在500款产品中ꎬ有155款可以满200减30元(因占比太高未呈现于图4(a)ꎬ大多数满减条件低于1000元ꎬ满减优惠在10~400元不等)ꎻ大部分商品券的用券条件也在1000元以内ꎬ但是优惠主要集中在5~200元(图4(b))ꎬ商品券的优惠力度低于满减ꎻ京东PLUS会员可享会员价ꎬ优惠5~150元ꎻ赠品主要有蚕丝眼罩㊁枕头㊁被子洗护服务等ꎻ折扣主要有单件9折㊁8折㊁6折或5折ꎬ两件9折或8.8折ꎮ图4㊀满减和优惠券促销情况Fig.4㊀Moneyoffandcouponpromotions2.4㊀产品标签占比本文分别统计销量前100和前500名蚕丝被商品的标签占比ꎬ以研究高销量商品和整体商品的标签差异ꎬ如图5所示ꎮ高销量蚕丝被的自营㊁放心购和闪购标签比例高于整体水平ꎻ满减㊁厂家配送㊁商品券㊁会员价㊁赠品和折扣标签比例图5㊀商品标签占比Fig.5㊀Proportionofproductlabels与整体差别不大ꎻ免邮标签比例低于整体水平ꎮ总体来看ꎬ自营㊁放心购㊁满减和闪购对购买有一定的促进作用ꎮ京东自营店铺有较好的口碑形象ꎬ放心购提供运费险或闪电退款等服务ꎬ闪购促销及满减促销意味着价格优惠ꎬ此类标签可以满足消费者追求价格优惠的心理或降低感知风险进而促进购买ꎮ3㊀文本评论分析为进一步探索蚕丝被在线评论中所蕴藏的信息㊁了解网络消费者对蚕丝被的评价和关注点ꎬ本文采用情感分析探索消费者对现有蚕丝被商品的满意度ꎬ采用词频分析和共现聚类分析探讨消费者的关注重点ꎮ3.1㊀情感分析评论集A的情感分析得分如图6所示ꎬ情感得分在0到1之间ꎬ以0.5为分界点ꎬ越接近1表示评论越积极ꎬ越接近0表示评论越消极ꎮ情感得分高于0.5的评论约占95%ꎬ而相关商品在平台上的平均好评度为97%ꎮ由此可见ꎬ大部分消费者对热销的蚕丝被商品比较满意ꎮ41第60卷㊀第8期基于文本挖掘的蚕丝被在线评论分析以京东商城为例图6㊀评论的情感得分Fig.6㊀Sentimentscoreofcomments有学者认为负面评论比中立㊁正面评论更能影响消费者的决策ꎬ差评会增加感知风险和负面预期进而降低购买意愿[32]ꎮ聂爽爽等[23]使用语义网络关联法对跨境电商平台销量前60款连衣裙的所有评论和负面评论分别进行研究ꎬ挖掘了跨境电商消费者购买连衣裙时的偏好㊁关注因素及负面评论的主因ꎮ为了解消费者在线购买蚕丝被时的关注点和差评的主要影响因素ꎬ本文将分别对评论集A和评论集B展开分析ꎮ3.2㊀特征关键词本文在分词时使用的停用词表主要来源于哈尔滨工业大学停用词表和四川大学停用词表ꎬ并补充 蚕丝被 被子 以及品牌名称等自定义停用词ꎮ通过停用词表可以去除大部分高频且研究意义不大的干扰词ꎬ但无法保证所有无意义的高频词汇都被剔除ꎬ对此ꎬ学者们通常会在文本挖掘时引入TF ̄IDF算法ꎮTF ̄IDF(TermFrequency ̄InverseDocumentFrequency)算法在词频的基础上考虑词汇的逆文本频率ꎬ能更好地衡量词汇在数据集中的重要性ꎬ保证提取的关键词能有效代表评论文本[1ꎬ27ꎬ33 ̄34]ꎮ本文使用TM6.0软件的TF ̄IDF算法分词功能提取评论文本的特征关键词ꎬ并基于分词结果绘制词云图ꎬ如图7所示ꎮ图7㊀特征关键词Fig.7㊀Featurekeywords评论集A存在较多 很好 不错 满意 和 喜欢 一类的情感词ꎬ可见消费者整体对所购产品和服务感到满意ꎮ消费者主要关注点集中在 包装 做工 柔软 舒服 京东 品牌 面料 物流 暖和 子母被 等方面ꎮ评论集B的高频词主要有 味道 客服 京东 差评 蚕丝 不好 不是 包装 价格 降价 等ꎬ其中 味道 和 客服 占比非常高ꎮ3.3㊀聚类分析词云图可以呈现消费者所关注的主要因素ꎬ但是无法展示因素之间的关联ꎮ为深入探索其中的主题分布ꎬ本文使用TM6.0软件对分词后的文本进行共现聚类ꎬ该聚类的原理是:两个关键词共同出现的频率越高则表示它们的关系越密切ꎬ更容易被聚成一类ꎮ3.3.1㊀整体评论的聚类分析评论集A的聚类结果如表2和图8所示ꎬ消费者的评论内容包括6个主题ꎮ1)功能质量:消费者比较关注蚕丝被的保暖性㊁透气性和实用性等整体特征ꎬ其中子母被的设计颇受消费者喜爱ꎬ子母被由薄厚两条被子组成ꎬ可以根据季节和自身需求调节被子的厚度ꎬ方便且实用ꎮ2)外在品质:消费者对蚕丝被的面料非常讲究ꎬ关注做工是否精细㊁款式是否好看㊁触感是否柔软舒适ꎬ对被套质量的预期较高ꎮ3)内在品质:许多购买者会通过拉链检测口来观察内部填充蚕丝的味道和丝绵长度ꎬ从而判断填料质量好坏ꎮ4)价格促销:京东商城上常有优惠活动ꎬ消费者虽然认可蚕丝被的高价格定位但在购买时仍会货比三家ꎬ倾向于选择既有品牌背书又物美价廉的产品ꎮ5)快递服务:消费者整体上对京东购物的物流速度和服务态度非常满意ꎮ6)满意度:不少消费者表示会回购ꎬ或者已经二次甚至多次购买ꎬ并乐意推荐给朋友㊁同事或家人ꎮ表2㊀聚类结果(基于评论集A)Tab.2㊀Clusteringresults(basedonreviewsetA)功能质量子母被㊁冬天㊁保暖㊁夏天㊁透气㊁春秋㊁方便㊁实用外在品质柔软㊁舒服㊁手感㊁做工㊁精细㊁面料㊁好看㊁款式内在品质蚕丝㊁被套㊁打开㊁味道㊁两天㊁淡淡的㊁拉链㊁长丝价格促销价格㊁京东㊁活动㊁优惠㊁物美价廉㊁对比㊁桑蚕丝㊁品牌㊀㊀整体而言ꎬ消费者在线购买蚕丝被时重点关注产品质量(面料填料的品质和整体的功能质量)㊁价格促销和快递服务ꎬ这些因素会影响消费者的购物满意度㊁回购意愿及推荐意愿ꎮ51Vol.60㊀No.8Analysisofonlinereviewsaboutsilkquiltsbasedontextmining:AcaseofJingdongMall图8㊀聚类共现网络图(基于评论集A)Fig.8㊀Clusterco ̄occurrencenetworkdiagram(basedonreviewsetA)3.3.2㊀负面评论的聚类分析评论集B的聚类结果如表3㊁图9所示ꎬ差评内容包括8个主题ꎮ1)功能质量:少数消费者认为所购蚕丝被的保暖性不好ꎮ2)外在品质:部分消费者认为面料不佳且做工粗糙ꎬ产品质量缺乏保障ꎮ3)内在品质:许多消费者表示蚕丝被里面散发浓郁刺鼻的味道ꎬ因而质疑蚕丝的品质和真假ꎮ实际上ꎬ异味可能是质量问题导致的ꎬ也有可能是正常加工工艺引起的ꎬ如柞蚕丝通常需要用氧漂工艺处理使得外观更白亮ꎬ酸味大多来自工业双氧水ꎻ桑蚕丝在加碱脱胶之后一般加入醋酸中和pH值ꎬ酸味来自醋酸ꎮ4)价格促销:一部分消费者因为无法退差价而不满ꎬ这表面上是因为缺少保价服务ꎬ但本质上是由于商品的标价改动及促销活动过于频繁ꎮ5)产品包装:有评论提及产品包装过于简陋㊁影响购物体验ꎬ包装与价格定位不匹配ꎮ6)产品宣传:少数评论提到实物与图片不符ꎬ部分店铺可能夸大宣传ꎮ7)客服服务:消费者同样表达了对客服的不满ꎬ因为部分客服回应态度冷漠而强硬㊁回复时间缓慢ꎮ8)满意度:消费者认为自己遇到无良商家ꎬ表示再也不愿意购买该店铺产品并呼吁大家不要上当受骗ꎮ总体上看ꎬ差评的影响因素包括产品质量(面料填料的品质和整体的功能质量)㊁价格促销㊁产品包装㊁产品宣传及客服服务ꎮ表3㊀聚类结果(基于评论集B)Tab.3㊀Clusteringresults(basedonreviewsetB)外在品质里面㊁不是㊁蚕丝㊁面料㊁差㊁线头㊁粗糙㊁不值内在品质味道㊁大㊁刺鼻㊁气味㊁通风㊁洗㊁晒㊁几天价格促销差评㊁降价㊁价格㊁不能㊁保价㊁天㊁不到㊁申请产品包装包装㊁退货㊁京东㊁购物㊁体验㊁太差㊁失望㊁严重产品宣传图片㊁实物㊁商品㊁不符㊁差劲㊁消费者㊁差别㊁看到4㊀蚕丝被网购满意度分析对评论集A和评论集B的分析结果进一步归类ꎬ可将蚕丝被网购满意度的影响因素划分为产品质量㊁价格和促销㊁包装和快递㊁客服服务四个方面ꎮ1)产品质量方面:包括功能质量(整体的保暖性㊁透气性和实用性)㊁外在品质(被套的工艺㊁款式和手感)和内在品质(填充物的气味和丝绵长度)ꎮ产品是品牌的物质基础ꎬ品牌应当严格做好质量管控ꎬ保证商品图文信息的真实性ꎬ同时也要注意向消费者普及 蚕丝被的酸味来源 蚕丝被的洗护方式 蚕丝被的使用温度 等基础61第60卷㊀第8期基于文本挖掘的蚕丝被在线评论分析以京东商城为例图9㊀聚类共现网络图(基于评论集B)Fig.9㊀Clusterco ̄occurrencenetworkdiagram(basedonreviewsetB)知识ꎮ2)价格和促销方面:主要关注产品折扣和保价服务ꎬ虽然消费者对蚕丝被的高价定位接受度很高ꎬ但他们在购买时仍非常注重促销折扣优惠ꎬ然而频繁促销加上没有保价服务容易让错失优惠的消费者感到不满ꎮ尽管降价可以提升短期销量ꎬ但不建议商家频繁地修改价格以免折损品牌形象ꎮ3)包装和快递方面:消费者对快递速度比较满意但认为包装过于简陋ꎬ与价格定位不符ꎬ商家应当改进产品包装和快递包装细节ꎮ4)客服服务方面:客服人员在网络购物过程中起着非常重要的作用ꎬ消费者在购买前通常会向客服咨询ꎬ在购买后可能因对产品不满意而联系客服退货ꎬ客服的回应方式不妥或不及时则会降低顾客的购物体验ꎮ因此ꎬ客服人员需要熟知产品信息和售前售后流程中潜在问题的应对方式ꎬ保证良好的服务态度和服务水平ꎮ5㊀结㊀语本文以京东商城为例对蚕丝被的品牌㊁价格㊁产品优惠和产品标签进行分析ꎬ总结了蚕丝被的电商销售特征ꎬ同时对商品评论进行情感分析和聚类分析ꎬ挖掘消费者的关注因素和差评原因ꎬ并提出相关建议ꎮ1)消费者有较强的品牌意识ꎬ认可蚕丝被的较高价格定位ꎬ但更青睐有优惠活动的商品ꎮ最常见的促销方式是满减和优惠券ꎬ同时销量较好的蚕丝被大多带有自营㊁放心购㊁闪购和满减等标签ꎮ2)大部分消费者对蚕丝被的网络购买体验感到满意ꎬ且良好的购买和使用体验可以促进回购和推荐意愿ꎮ消费者在购买时最为关注产品质量㊁价格和促销㊁包装和快递㊁客服服务四个方面ꎬ负面评论的原因包括产品异味㊁价格波动大且没有保价服务㊁包装简陋㊁保暖性欠缺㊁面料和做工差㊁图片和实物不符及服务态度不佳等ꎮ对此ꎬ企业仍需加强品牌建设ꎬ行业要进一步完善相关检测标准和监督规范ꎮ3)在线评论信息已成为消费者购买前了解和对比商品的重要途径ꎬ在传播信息透明化的时代ꎬ蚕丝被行业和相关企业要科学把握机遇与挑战ꎮ一方面ꎬ行业应当完善相关标准和监督体系ꎬ普通消费者作为非专业人员不一定能判断出蚕丝的品质是否合格ꎬ为保障消费者的权益及产业的可持续发展ꎬ行业应当完善蚕丝被检测体系并定期或不定期抽检ꎬ加强监督和管理ꎬ对信誉较差的企业和产品应给予严厉打击和限期整改ꎬ从源头上保障蚕丝被质量ꎮ另一方面ꎬ品牌应当注重品质把控和品牌建设ꎬ品牌信誉需要建立在产品和服务之上ꎬ企业应当做好品质把关㊁注重产品包装㊁避免夸大宣传㊁避免频繁的价格波动㊁加强对客服人员的培训等ꎬ为消费者提供良好的消费体验ꎬ从而增强品牌口碑和消费者黏性ꎮ本文还存在不足之处ꎬ首先由于商品评论的自身特点和现有分析技术的限制ꎬ本文的分析结果中与产品质量相关的71Vol.60㊀No.8Analysisofonlinereviewsaboutsilkquiltsbasedontextmining:AcaseofJingdongMall指标还不够细化ꎻ其次ꎬ本文仅以京东商城为例ꎬ未探讨不同电商平台之间的蚕丝被销售特征和消费者评论有何差异ꎬ以及线上线下的消费者关注点有何不同ꎻ第三ꎬ由于平台的用户隐私保护机制ꎬ在线评论难以直接和消费者画像建立关联ꎮ未来研究可通过访谈法或问卷法深入探讨消费者所关注的产品质量指标ꎬ以及性别㊁年龄㊁地域㊁购买渠道等不同因素对蚕丝被购买的影响ꎮ«丝绸»官网下载㊀中国知网下载参考文献:[1]毕达天ꎬ楚启环ꎬ曹冉.基于文本挖掘的消费者差评意愿的影响因素研究[J].情报理论与实践ꎬ2020ꎬ43(10):137 ̄143.BIDatianꎬCHUQihuanꎬCAORan.Researchontheinfluencingfactorsofconsumers badcommentintentionbasedontextmining[J].InformationStudies:Theory&Applicationꎬ2020ꎬ43(10):137 ̄143.[2]伍冬平ꎬ周颖ꎬ李鹏ꎬ等.«蚕丝被»国家标准修订解析及实施建议[J].丝绸ꎬ2020ꎬ57(3):1 ̄6.WUDongpingꎬZHOUYingꎬLIPengꎬetal.AnalysisandimplementationsuggestionsontherevisionofthenationalstandardofSilkQuilt[J].JournalofSilkꎬ2020ꎬ57(3):1 ̄6.[3]刘文全ꎬ柳恩见.中国丝绸行业2021年运行分析及2022年展望[J].丝绸ꎬ2022ꎬ59(7):1 ̄6.LIUWenquanꎬLIUEnjian.AnalysisonoperationofChinesesilkindustryin2021andprospectin2022[J].JournalofSilkꎬ2022ꎬ59(7):1 ̄6.[4]李建琴ꎬ顾国达ꎬ何樟勇ꎬ等.中国茧丝绸产业区域布局与发展重点[J].蚕业科学ꎬ2018ꎬ44(6):936 ̄946.LIJianqinꎬGUGuodaꎬHEZhangyongꎬetal.RegionaldistributionanddevelopingemphasisofChina scocoonsilkindustry[J].ActaSericologicaSinicaꎬ2018ꎬ44(6):936 ̄946.[5]陈芳艳ꎬ潘世俊ꎬ盛家镛ꎬ等.双宫丝绵纤维的性能检测[J].丝绸ꎬ2018ꎬ55(1):9 ̄13.CHENFangyanꎬPANShijunꎬSHENGJiayongꎬetal.Performancedetectionofduppionsilkflossfiber[J].JournalofSilkꎬ2018ꎬ55(1):9 ̄13.[6]张凤林ꎬ周丽霞ꎬ王安皆ꎬ等.蚕丝被用家蚕品种鲁41ˑ鲁42的育成[J].蚕业科学ꎬ2022ꎬ48(2):118 ̄126.ZHANGFenglinꎬZHOULixiaꎬWANGAnjieꎬetal.BreedingofsilkwormvarietyLu41ˑLu42forsilkquilt[J].ActaSericologicaSinicaꎬ2022ꎬ48(2):118 ̄126.[7]何秀玲ꎬ杜鑫ꎬ姚陆松ꎬ等.蚕丝被生产专用家蚕新品种丝棉1号的选育[J].蚕业科学ꎬ2021ꎬ47(4):328 ̄334.HEXiulingꎬDUXinꎬYAOLusongꎬetal.BreedingofnewsilkwormvarietySimian1specializedforsilkquiltproduction[J].ActaSericologicaSinicaꎬ2021ꎬ47(4):328 ̄334.[8]黄阳阳ꎬ刘伟ꎬ华英ꎬ等.幼童用智能示警蚕丝被的研发[J].纺织学报ꎬ2020ꎬ41(10):150 ̄157.HUANGYangyangꎬLIUWeiꎬHUAYingꎬetal.Developmentofnovelintelligentsilkquiltforyoungchildren[J].JournalofTextileResearchꎬ2020ꎬ41(10):150 ̄157.[9]ZHANGXꎬPANZJ.Preparationandformationmechanismanalysisofregeneratedsilkfibroin/polyvinylalcoholblendedfiberswithwastesilkquilt[J].FibersandPolymersꎬ2022ꎬ23(8):2090 ̄2102.[10]计海洋ꎬ汪玉瑛ꎬ吕豪豪ꎬ等.不同炭化温度制备的蚕丝被废弃物生物炭对重金属Cd2+的吸附性能[J].应用生态学报ꎬ2018ꎬ29(4):1328 ̄1338.JIHaiyangꎬWANGYuyingꎬLÜHaohaoꎬetal.Cadmiumadsorptionbybiocharpreparedfrompyrolysisofsilkwasteatdifferenttemperatures[J].ChineseJournalofAppliedEcologyꎬ2018ꎬ29(4):1328 ̄1338.[11]李胜臻ꎬ徐建东.蚕丝被内在质量的分析及探讨[J].纺织导报ꎬ2014(6):153 ̄155.LIShengzhenꎬXUJiandong.Analysisanddiscussionoftheintrinsicqualityofsilkquilts[J].ChinaTextileLeaderꎬ2014(6):153 ̄155.[12]汪为华.蚕丝被检测中的质量问题及对策[J].上海纺织科技ꎬ2014ꎬ42(4):15 ̄17.WANGWeihua.Problemsandcountermeasuresinqualitydetectionofsilkquilt[J].ShanghaiTextileScience&Technologyꎬ2014ꎬ42(4):15 ̄17.[13]LUYHꎬNIUMMꎬSONGWFꎬetal.Investigationonthetotalandlocalthermalinsulationofthebeddingsystem:Effectsoffillingmaterialsꎬweightsandbodypostures[J].BuildingandEnvironmentꎬ2021ꎬ204:1 ̄10.[14]ZHENGQꎬYANFYꎬWANGHBꎬetal.Effectsofquiltsoncomfortableindoortemperaturesandhumanthermalresponsesduringsleep[J].IndoorAirꎬ2022ꎬ32(9):1 ̄11.[15]张惠芳ꎬ姚伟慧ꎬ何波ꎬ等.标准解读:蚕丝绵纤维长度试验方法解析[J].丝绸ꎬ2022ꎬ59(3):150 ̄154.ZHANGHuifangꎬYAOWeihuiꎬHEBoꎬetal.Standardinterpretation:Analysisonthetestmethodforfiberlengthofsilkfloss[J].JournalofSilkꎬ2022ꎬ59(3):150 ̄154.[16]苏日娜.半自动机制桑蚕丝绵片含胶率检验装置的设计探索[J].丝绸ꎬ2019ꎬ56(4):8 ̄11.SURina.Explorationondesignofsemi ̄automaticdetectiondevice81。
基于文本挖掘技术的用户评论情感分析与评价研究
基于文本挖掘技术的用户评论情感分析与评价研究随着互联网的快速发展,用户评论成为人们获取商品和服务信息的重要途径。
用户的评论可以提供对产品的评价、意见和建议,对企业来说,了解用户的情感态度对于改进产品或服务非常重要。
因此,基于文本挖掘技术的用户评论情感分析与评价研究具有重要的实际意义。
一、用户评论情感分析1. 分析背景和目的:用户评论情感分析旨在通过分析用户对商品或服务的评论来判断其情感倾向,即正面、负面或中性。
这对于企业来说,有助于了解用户的满意度和改进的方向,进而提升产品的竞争力。
2. 分析方法:基于机器学习的文本分类技术是一种常见的用户评论情感分析方法。
这种方法通过构建一个情感标注数据集,并使用算法来训练模型,进而对新的用户评论进行情感分类。
常见的机器学习算法包括朴素贝叶斯、支持向量机和深度学习等。
3. 实施步骤:(1)数据收集:收集包含用户评论和情感标签的数据集。
(2)文本预处理:对用户评论进行分词、去除停用词等预处理操作,以便后续的特征提取。
(3)特征提取:将预处理后的用户评论转化为可供算法使用的特征表示。
常见的特征提取方法包括词袋模型和词嵌入等。
(4)模型训练:使用机器学习算法,如朴素贝叶斯和支持向量机,训练情感分类模型。
(5)模型评估:使用测试集评估模型的性能,包括准确率、召回率和F1值等指标。
4. 应用领域:用户评论情感分析可以应用于各个行业和领域,比如电商、旅游、餐饮等。
通过对用户评论的情感进行分析,商家可以了解用户的满意度和需求,进而优化产品或服务。
二、用户评论评价研究1. 分析背景和目的:用户评论评价旨在通过对用户评论的内容进行分析,挖掘有价值的信息。
这对于企业来说,可以了解用户对产品的具体评价,发现存在的问题和优势,进而进行改进和提升。
2. 分析方法:基于文本挖掘技术的用户评论评价研究方法主要包括主题提取、关键词抽取和情感词汇分析等。
主题提取可以帮助企业发现用户评论中提到的主要问题或需求,关键词抽取可以帮助企业把握用户评论的重点内容,情感词汇分析可以帮助企业了解用户对产品的态度和评价。
基于文本挖掘的在线评论感知有用性评价及应用研究
基于文本挖掘的在线评论感知有用性评价及应用研究随着互联网的发展,用户在购物、餐饮、旅游等方面越来越依赖于在线评论来做出决策。
因此,准确评价在线评论的有用性对用户和商家都具有很高的价值。
为了更好地研究在线评论的感知有用性,文本挖掘技术成为了一种重要的工具。
首先,文本挖掘方法在在线评论感知有用性评价中起到了关键作用。
其中最常见的方法包括情感分析、主题建模和关键词提取等。
情感分析是对评论中所表达的情绪进行分析,一般划分为正面、负面或中性。
通过情感分析,可以推测评论的有用性,如果大部分评论都是正面的,那么这个产品或服务可能是有价值且被认可的。
主题建模则是通过统计方法,识别出评论中的关键主题,例如餐饮评论中的食物质量、服务态度等。
关键词提取则是通过自然语言处理技术,从评论文本中提取出最具代表性的关键词,这些关键词可以帮助用户快速了解产品或服务的特点。
其次,基于文本挖掘的在线评论感知有用性评价在实际应用中有广泛的应用前景。
例如,在餐饮行业中,商家可以通过对在线评论的感知有用性进行评价,了解用户对其产品的满意度,从而不断改进菜品和服务,提升用户体验。
在电商领域,用户可以通过在线评论的有用性评价,更好地选择产品并避免购买劣质商品。
另外,在旅游领域,用户可以通过对酒店、景点等评论的感知有用性进行评价,选择最适合自己的旅行方式。
最后,目前基于文本挖掘的在线评论感知有用性评价研究已经取得了一定的成果。
许多研究者通过机器学习算法,构建了感知有用性的评价模型。
这些模型在大规模的在线评论数据集上进行训练和验证,得到了较好的评价效果。
同时,还有些研究者将多种技术结合,例如将情感分析与主题建模相结合,提高了评论感知有用性评价的准确性和可靠性。
总的来说,基于文本挖掘的在线评论感知有用性评价在互联网时代具有重要意义。
随着文本挖掘技术的不断发展和完善,相信在线评论感知有用性评价将会在更多领域得到应用,帮助用户和商家做出更准确的决策。
基于文本挖掘的电商用户评论情感分析
基于文本挖掘的电商用户评论情感分析汇报人:日期:•引言•文本挖掘基础•电商用户评论情感分析方法和步骤•基于文本挖掘的电商用户评论情感分析应用案目例•总结与展望录引言互联网普及电商竞争激烈消费者决策参考030201背景介绍提升用户体验分析用户评论情感,可以针对性地制定营销策略,实现精准营销,提高转化率。
精准营销拓展研究领域研究目的和意义研究范围数据收集分析方法评估指标研究范围和方法文本挖掘基础文本挖掘的主要目的是利用自然语言处理、机器学习和数据挖掘等技术,自动或半自动地从文本数据中抽取知识,以支持各种业务和应用。
目的定义数据收集数据预处理对文本进行清洗、分词、去除停用词等预处理特征提取模型构建模型训练与优化结果评估文本挖掘常用技术电商用户评论情感分析方法和步骤数据获取获取。
析。
数据预处理除停用词等操作。
•文本清洗主要是去除一些无用的符号、空格、HTML标签等。
01 02特征提取•在进行情感分析时,需要提取出评论中的特征,包括词语、短语、词性、语法等特征。
•可以使用词袋模型、TF-IDF等方法进行特征提取。
01020304情感分类与结果评估基于文本挖掘的电商用户评论情感分析应用案例案例一:某电商平台整体用户情感分析01020304分析目的数据来源分析方法结果展示分析目的数据来源分析方法结果展示案例二:不同商品类别用户情感分析比较营销策略根据分析结果,制定相应的营销策略,如针对用户需求推出新品、优化商品描述、改进售后服务等,提高用户满意度和购买转化率。
分析目的挖掘用户评论中的情感倾向和需求,指导营销策略制定。
数据来源采集平台内与用户评论相关的数据,如浏览历史、购买记录等。
分析方法综合运用文本挖掘技术和关联分析等方法,对用户评论数据进行深入挖掘,发现用户需求和购买意愿。
案例三总结与展望研究总结研究不足与展望对未来电商用户评论情感分析的建议和探索方向感谢观看。
文本挖掘在电商评论分析中的应用研究
文本挖掘在电商评论分析中的应用研究随着互联网的兴起和电子商务的迅猛发展,电商平台上产生了大量的用户评论数据。
这些评论包含了消费者对商品和服务的评价、意见和建议。
对这些评论进行分析和挖掘,对电商平台和商家来说具有重要的意义。
文本挖掘作为一种快速和有效地分析大量文本数据的技术手段,被广泛应用于电商评论分析中,为商家提供客观的市场反馈和消费者洞察,帮助其改进商品和服务、提升用户体验、增加销售额。
在电商评论分析中,文本挖掘主要涉及到以下几个方面的应用。
1. 情感分析情感分析是文本挖掘中的一个重要任务,它旨在识别和分类文本中蕴含的情感倾向,如正面、负面或中性。
对电商评论进行情感分析可以帮助商家了解用户对商品和服务的态度和满意度,发现潜在的问题或改进的空间,并及时采取相应的调整措施。
通过情感分析,商家可以针对消费者的不同需求和喜好进行个性化营销,提高用户体验。
2. 主题提取电商评论中涉及的主题多种多样,可能包括商品的性能、质量、价格、客服等方面。
通过文本挖掘技术,可以对评论进行主题提取,识别出用户关注的热点问题和重要话题。
商家可以根据提取出的主题进行反馈和回应,改进相关问题,并针对主题进行有针对性的产品经营和宣传。
3. 关键词提取关键词提取是文本挖掘中的一个常用技术,通过提取关键词来发现文本中的重要信息和关键点。
在电商评论分析中,通过关键词提取可以帮助商家快速了解用户对商品和服务的关注点和评价要素。
商家可以根据关键词提取的结果,对商品和服务进行调整和优化,提高用户满意度。
4. 用户分类通过对用户评论进行文本挖掘分析,可以将用户分为不同的分类。
这些分类可以基于性别、年龄、地域等维度进行划分,也可以根据用户对商品和服务的评价和行为进行划分。
商家可以通过对用户的分类分析,制定不同的营销策略和服务方案,提高用户忠诚度和回购率。
5. 用户评论关联分析在大量的用户评论数据中,可以通过文本挖掘技术发现用户评论之间的关联和相关性。
基于文本挖掘评论情感分析
基于文本挖掘评论情感分析一、概述在当今信息爆炸的时代,网络评论已成为消费者表达意见、分享体验的重要渠道。
这些评论中蕴含着丰富的情感信息,对于企业和研究者而言,深入挖掘这些情感倾向具有重要的商业价值和研究意义。
文本挖掘作为一种有效的信息处理技术,能够自动化地从大量文本数据中提取有用的信息和模式。
基于文本挖掘的评论情感分析逐渐成为了一个热门的研究领域。
评论情感分析旨在通过自然语言处理技术和文本挖掘算法,识别出文本中表达的情感倾向,包括积极、消极和中性等。
这一过程不仅涉及到对词汇、句子和段落层面的情感识别,还需要考虑到上下文信息和文本结构的影响。
通过情感分析,企业和研究者可以了解消费者对产品或服务的满意度、发现潜在的市场需求、优化产品设计和改进服务策略。
评论情感分析也面临着一些挑战。
文本数据的规模和复杂性使得情感分析任务变得尤为艰巨。
文本中存在着大量的噪声和冗余信息,这些信息可能干扰情感识别的准确性。
不同领域和背景下的文本具有不同的情感表达方式和语言特点,这也增加了情感分析的难度。
为了克服这些挑战,研究者们提出了各种基于文本挖掘的评论情感分析方法。
这些方法通常包括文本预处理、特征提取、情感分类等步骤。
文本预处理是情感分析的基础,包括分词、去除停用词、词性标注等操作;特征提取则是将文本转换为数值特征表示,以便机器学习算法进行处理;情感分类则是利用分类器对文本进行情感倾向的判别。
基于文本挖掘的评论情感分析是一种具有广泛应用前景的信息处理技术。
通过深入研究和发展相关方法和技术,我们可以更好地理解和利用网络评论中的情感信息,为企业决策和学术研究提供有力支持。
1. 文本挖掘和情感分析的定义与重要性在数字化时代,信息呈现爆炸式增长,其中文本数据占据了重要地位。
作为一种从大量文本数据中提取有用信息和知识的技术,已经引起了广泛关注。
它利用自然语言处理、统计学和机器学习等方法,对文本数据进行深度分析和处理,从而揭示隐藏在文本背后的模式、趋势和关联。
基于LDA的电商平台用户评论挖掘与情感分析研究——以京东商城App为例
基于LDA的电商平台用户评论挖掘与情感分析研究——以京
东商城App为例
杜利明;郭文艳;崔蕾;王凤英
【期刊名称】《江苏科技信息》
【年(卷),期】2024(41)12
【摘要】用户评论文本挖掘与分析在多个领域具有重要实际应用价值。
文章选取京东商城用户评论数据集作为研究对象,运用多种方法对其进行深入的数据挖掘与分析。
首先,通过TF-IDF提取关键词揭示评论的核心主题,进而通过分析高频词了解用户对京东商城服务的关注点和整体评价。
其次,采用情感分析技术对评论文本进行情感倾向性分类,旨在判断评论的情绪色彩,为京东商城的产品改进和市场定位提供有益参考。
最后,借助LDA主题模型对评论文本进行主题剖析,挖掘出评论中的隐性主题和话题分布,进一步揭示用户对产品或服务的不同观点和需求,从而为京东商城提供针对性的改进策略和意见。
【总页数】5页(P125-129)
【作者】杜利明;郭文艳;崔蕾;王凤英
【作者单位】宿迁学院信息工程学院;沈阳建筑大学计算机科学与工程学院
【正文语种】中文
【中图分类】F724.6;F426.8
【相关文献】
1.基于文本挖掘的在线用户追加评论内容情报研究——以京东商城手机评论数据为例
2.基于LDA主题分析模型的电商平台用户评论数据情感分析
——以生鲜农产品苹果为例3.基于在线评论的临期食品主题挖掘与情感倾向性分析--以京东临期牛奶为例4.基于文本挖掘的蚕丝被在线评论分析——以京东商城为例5.基于文本挖掘的电商平台茶类商品消费者满意度研究——以京东商城苦丁茶在线评论为例
因版权原因,仅展示原文概要,查看原文内容请购买。
基于商品评论的客户满意度分析以京东手机类评价数据为例
三、应用与建议
4、优化产品分类:通过对主题模型的分析,我们可以了解到客户对手机的不 同方面有不同的程度。电商平台可以根据客户的不同需求,优化产品分类和页面 布局,使客户在购物时能够更方便地找到自己需要的产品。
参考内容
内容摘要
随着电子商务的飞速发展,商品评价信息越来越成为消费者和企业的重要参 考指标。中文情感分析技术在此领域的应用也日益广泛。本次演示以手机评价数 据为例,探讨商品评价信息的中文情感分析。
二、客户满意度分析
1、情感分析
1、情感分析
通过情感分析技术,我们可以了解客户对手机的评价是积极还是消极。这可 以通过计算评论中正面词汇和负面词汇的数量来实现。如果正面词汇的数量多于 负面词汇,那么客户的满意度就可能较高。
2、主题模型
2、主题模型
主题模型可以用于分析客户评论中涉及的主要方面。例如,客户可能会对手 机的外观设计、性能配置、拍照能力等方面进行评价。通过主题模型,我们可以 提取出评论中涉及这些方面的关键词,进而了解客户对哪些方面最为。
三、结论
三、结论
以手机评价数据为例,中文情感分析技术在商品评价信息处理中具有广泛的 应用前景。通过对评价数据的情感极性分类、情感词典构建、情感深度分析、评 价趋势预测和竞品对比分析等方面的应用,可以为消费者和企业提供更加全面、 准确的参考信息
三、结论
。然而,中文情感分析技术在实际应用中仍存在一些挑战,如情感词典的覆 盖面和准确性、跨领域适应等问题。未来研究可以进一步探讨如何提高中文情感 分析技术在商品评价信息处理中的性能表现,以满足不同领域的需求。
文本挖掘是一种从大量非结构化文本数据中提取有价值信息的技术。它包括 了一系列的处理过程,如文本预处理、特征提取、模式识别、结果表达和解释等。 文本挖掘技术的应用范围广泛,如情感分析、主题识别、趋势预测等。
《2024年基于文本与用户行为挖掘的虚假评论识别研究》范文
《基于文本与用户行为挖掘的虚假评论识别研究》篇一一、引言随着互联网的迅猛发展,网络评论已经成为消费者决策的重要依据。
然而,虚假评论的存在严重影响了评论的可信度,对消费者决策造成了误导。
因此,识别虚假评论成为了当前研究的热点问题。
本文将基于文本与用户行为挖掘技术,对虚假评论识别进行研究,旨在提高评论的真实性和可信度。
二、研究背景及意义虚假评论的存在已经对电子商务、社交媒体等平台的声誉和用户信任造成了严重威胁。
这些虚假评论可能是由商家、竞争对手或专业刷单团队发布的,其目的在于误导消费者,提高产品销量或损害竞争对手的声誉。
因此,研究虚假评论识别技术具有重要的现实意义。
三、相关研究综述目前,虚假评论识别研究主要基于文本分析和用户行为分析。
在文本分析方面,研究者们通过分析评论的语言特征、情感极性、语义依存关系等来识别虚假评论。
在用户行为分析方面,研究者们则通过挖掘用户的评论历史、互动行为、社交网络关系等来识别虚假评论。
然而,由于虚假评论的多样性、复杂性和隐蔽性,单一的识别方法往往难以达到理想的效果。
四、基于文本的虚假评论识别技术研究本文提出了一种基于文本的虚假评论识别技术。
首先,通过爬虫技术收集评论数据,然后利用自然语言处理技术对评论进行分词、词性标注、命名实体识别等预处理操作。
接着,提取评论的语言特征、情感极性等,运用机器学习算法构建分类模型,对评论进行真实性与虚假性的分类。
此外,还可以结合语义依存关系、语法结构等进一步优化模型性能。
五、基于用户行为的虚假评论识别技术研究除了文本分析外,用户行为分析也是识别虚假评论的重要手段。
本文提出了一种基于用户行为的虚假评论识别技术。
首先,收集用户的评论历史、互动行为、社交网络关系等数据。
然后,利用数据挖掘技术分析用户的行为模式,如评论频率、互动频率、社交网络中的影响力等。
通过分析这些行为模式,可以识别出可能的虚假评论发布者。
此外,还可以结合用户的行为变化、异常行为等进一步提高识别准确率。
浅议商品在线评论的商业价值研究——以京东为例
浅议商品在线评论的商业价值研究———以京东为例■王一茜肖彤孙博文王英力王顺中国矿业大学(北京)摘要:本文以京东商品的在线评论为例,研究其中的商业价值,主要通过文本挖掘的方法,提取商品的真实性能,借助Excel 、Python 等工具进行分类,识别每种类别商品消费者重点关注的属性,以期为消费者乃至企业提供更具权威性的决策支持,浅议商品在线评论的商业价值研究。
关键词:在线评论;商业价值;文本挖掘;京东一、引言中国网络购物市场报告的调查显示,在购买不熟悉的产品时,用户评价在网络购物决策中占据主导地位,三分之一以上的网购用户主要考虑的因素为用户评价,其次是网站知名度和口碑,比例为28%。
随着电子商务的快速发展与渗透,现存的在线评价形式主要为:客户在购买产品确认收货后,以传送图片、文字描述等形式将消费体验和使用感受表达出来,并在商品页面展示,为后续消费者提供参考。
同时消费者参评的积极性呈不断提高的趋势,商家需更加关注消费者购买后评论的关注点,围绕消费者针对不同商品重点关注的焦点采取差别化的营销策略,提高用户的线上购买体验和线下使用满意度,鼓励消费者更多地参与线上评论,对满意度高的商家和商品品牌予以激励,限制满意度偏低的商家和商品品牌,有针对性地加大精品营销、品牌营销,提升诚信营销和服务营销,提高商品和服务的质量及水平,促进电子商务的持续健康有序发展。
图1参评率折线图二、商品在线评论的商业价值研究的意义从“商品的在线评论是否会成为消费者购买某一产品的决定因素”这一具体问题出发进行研究,进一步挖掘商品在线评论的商业价值。
在线评论作为消费者与消费者、消费者与卖家之间沟通的重要内容,也是商品页面的重要构成模块,从大量数据中提取出有用信息对总结消费者评论内容的规律和推动电子商务的良性发展,都具有重要意义。
2016年6月中国互联网络信息中心(CNNIC)发布的《2015年中国网络购物市场研究报告》中指出,在线评论成为网购用户决策时最为关注的因素,关注度超过四分之三,而现有研究主要集中在在线评论的内容上,针对在线评论传递的信息涉及哪些方面展开研究,对于在线评论价值的挖掘还不够,还没有充分发挥这一信息资源的重要商业价值。
基于手机商品评论文本的情感分析与挖掘
基于手机商品评论文本的情感分析与挖掘作者:***来源:《企业科技与发展》2019年第05期【摘要】目的:随着互联网技术的发展和智能设备的普及,电商平台出现了大量商品评论信息,分析和挖掘商品评论文本的情感,对于研究用户需求、商品口碑具有极其重要的价值。
方法:文章利用编程语言python获取电商平台的商品评论信息,采用算法与人工相结合的方式,从数据预处理、特征词表的构建、修饰词表和情感词表的扩充等方面分析商品的评论信息和用户对相应属性的评价观点。
结果:实现了商品属性和评价情感词的抽取和分类,实现了商品评论的情感倾向性分析,深入了解用户需求和产品口碑。
局限:依赖情感词典进行情感分析,为取得更加精确的结果,情感词典需要不断完善。
【关键词】情感分析;产品评论;文本挖掘【中图分类号】TP391.1 【文献标识码】A 【文章编号】1674-0688(2019)05-0130-031 背景介绍和研究目的智能手机作为最主要的智能移动终端,深刻地影响着人们生活的方方面面。
有报告显示,2017年上半年,中国手机市场出货量达2.81亿部,智能手机用户规模达到6.55亿人[1]。
消费者面对日益同质化的手机难以选择,同时手机厂商也难以捕捉用户需求,从而进行针对性的产品更新和升级。
情感分析又称为情感挖掘、意见抽取、倾向性分析,是指通过用户对某一事件或商品的评论文本进行分析、归纳,进而发现其观点和倾向性情感[2]。
基于手机评论文本的情感分析,能有效地解决上述问题,对研究消费者需求和推动产品更新换代具有积极的指导意义。
2 情感分析方法(1)数据的获取与预处理。
本文利用编程语言python,从电商平台“京东商城”抓取了手机产品的评论文本,包括会员姓名、评价内容、追评内容、评价时间等字段,考虑到抓取数据存在冗余和无效数据,必须对抓取到的数据进行预处理,包括对获取的数据进行冗余的删除、字符的过滤、词形的转换等,然后借助中文分词工具Jieba去除停用词和分词。
Python实现购物评论文本情感分析操作【基于中文文本挖掘库snownlp】
Python实现购物评论⽂本情感分析操作【基于中⽂⽂本挖掘库snownlp】本⽂实例讲述了Python实现购物评论⽂本情感分析操作。
分享给⼤家供⼤家参考,具体如下:昨晚上发现了snownlp这个库,很开⼼。
先说说我开⼼的原因。
我本科毕业设计做的是⽂本挖掘,⽤R语⾔做的,发现R语⾔对⽂本处理特别不友好,没有很多强⼤的库,特别是针对中⽂⽂本的,加上那时候还没有学机器学习算法。
所以很头疼,后来不得已⽤了⼀个可视化的软件RostCM,但是⼀般可视化软件最⼤的缺点是⽆法调参,很死板,准确率并不⾼。
现在研⼀,机器学习算法学完以后,⼜想起来要继续学习⽂本挖掘了。
所以前半个⽉开始了⽤python进⾏⽂本挖掘的学习,很多⼈都推荐我从《》这本书⼊门,学习了半个⽉以后,可能本科毕业设计的时候有些基础了,再看这个感觉没太多进步,并且这⾥通篇将nltk库进⾏英⽂⽂本挖掘的,英⽂⽂本挖掘跟中⽂是有很⼤差别的,或者说学完英⽂⽂本挖掘,再做中⽂的,也是完全懵逼的。
所以我停了下来,觉得太没效率了。
然后我在⽹上查找关于python如何进⾏中⽂⽂本挖掘的⽂章,最后找到了snownlp这个库,这个库是国⼈⾃⼰开发的python类库,专门针对中⽂⽂本进⾏挖掘,⾥⾯已经有了算法,需要⾃⼰调⽤函数,根据不同的⽂本构建语料库就可以,真的太⽅便了。
我只介绍⼀下这个库具体应⽤,不介绍其中的有关算法原理,因为算法原理可以⾃⼰去学习。
因为我在学习这个库的时候,我查了很多资料发现很少或者基本没有写这个库的实例应⽤,很多都是转载官⽹对这个库的简介,所以我记录⼀下我今天的学习。
PS:可以直接使⽤pip install snownlp命令进⾏snownlp模块的快速安装(注:这⾥要求pip版本⾄少为18.0)。
下⾯正式介绍实例应⽤。
主要是中⽂⽂本的情感分析,我今天从京东⽹站采集了249条关于笔记本的评论⽂本作为练习数据,由于我只是想练习⼀下,没采集更多。
然后⼈⼯标注每条评论的情感正负性,情感正负性就是指该条评论代表了评论者的何种态度,是褒义还是贬义。
基于文本挖掘的京东商品评论分析
通过爬取笔记本电脑的商品信息来了解京东的商品
摘 要:
供应商、
价格等现状,
通过爬取具体的一个笔记本电脑的页面中的评论文本,
通过结巴来分词,
基于构建
的词云图对评论进行了情感极性分析,
希望通过结果可视化的分析,
能够帮助电子商务的商家们来优化
商品属性,
更好地满足消费者的需求,
并指引用户制定合理的购买决策.
关键词:
数据挖掘;
文本挖掘;
评论
中图分类号:
TP
3
9
1.
1 文献标识码:
A 文章编号:
1
0ቤተ መጻሕፍቲ ባይዱ
0
7—6
9
2
1(
2
0
2
0)
0
3—0
0
4
1—0
1
随着信息时代 的 快 速 发 展,互 联 网 已 经 深 深 渗
透入民众的生活的方方面面,
人们越来越离不开它,
影响力的电子商务网站之一.并且无论是在校生还
向服务器
关重要的作用,
正确把握电商模式与发展,
能够让群
发送网页请求.之 后 请 求 网 页,得 到 响 应 之 后 利 用
众有一个更好的购物环境和购物体验.而京东商城
b
s
4 选择器 进 行 下 一 步 的 数 据 采 集. 根 据 源 代 码,
笔者发现所需要的商品目 标 信 息 是 存 在 余 <l
购物、
阅读、
医疗、
社交等各方面都被贴上了“
互联网
标签.基于互联 网 + 的 电 子 商 务 使 得 我 国 经 济
+”
基于文本挖掘的电商评论情感分析
文档都是各种主题的混合,通过抽样的方式从 Dirichlet 分布 中产生[3]。在原有 的 传 统 的 空 间 向 量 模 型 上 把 概 率 的 信 息
考虑进来,不仅能 对 数 据 集 中 的 主 题 进 行 挖 掘,同 时 也 有 利 于提取数据集的热门关注点和相关特征词深入分析[4]。
模型首先假设每条评论文本都是包含多种主题,且主题
样对参数!、φ 进行近似估计。依据式如下:
V
P(
zi
= s | Z - i ,W)
∝(
ns,- i
+ βi )
/(
∑
i =1
ns,-
i
+ βi )
× ( ns,- j
+ αs)
式中,Zi = s | 为第 s | 个主题中词 Wi 出现的概率,Z - i 为除
去 Wi 词外的概率,ns,- i 、ns,- j 分别为主题 zs 下除去 Wi 、dj 之
分虽然达到了预期的效果。但网络部署过程仍受诸多问题 的限制,例如网络 硬 件 设 备 的 性 能、数 量 无 法 满 足 网 络 部 署 的功能以及如何实现 IPV4 到 IPV6 的安全平稳过渡等。
【参考文献】 [1]周亚军. 思科 CCIE 路由交换 v5 实验指南[M]. 北京: 电 子工业出版社,2016: 271 ~ 272 [2]Regis Desmeules,Cisco IPv6 网络实现技术( 修订版) [M]. 北京: 人民邮电出版社,2013,185 ~ 230 [3]Rick Graziani. IPv6 精 要[M]. 北 京: 人 民 邮 电 出 版 社, 2013: 299 ~ 232
一、LDA 主题模型的构建 在多数情况下,LDA 有着两层含义。本文的 LDA 主题 模型是指潜在狄利克雷分配,即 LDA( LatentDirichlet Allocation) 模型,是由 David Blei,Andrew Ng 和 Michael I. Jordan 等 人 2003 年在依据 PLSA 的基础上构建而成的,它会将文本集 中的每篇文本的主题以概率分布的形式展现出来[1]。“一定 的概率选择了某个主题,并从这个主题中以一定的概率选择 了某个词语”这是生成模型的核心定义,它认为任何一篇文 本的所有词都应是符合这一规则的[2]。采用袋型模型( Bag Of Words,BOW) 是 LDA 模型的常规方法,把每篇文本都看作 是一个词频向量,这使得文本信息在转化成数字信息后更便 于建模分析; LDA 模型通常由文档( d) 、主题( z) 和词( w) 三 层结构组成,所以又被称作 3 层贝叶斯概率模型,假定任意
京东热销手机评论中的 数据分析及简单挖掘
毕业设计(论文)题目京东热销手机评论中的数据分析及简单挖掘学生姓名:指导教师:理学院数学与应用数学专业101 班京东热销手机评论中的数据分析及简单挖掘Analysis of data and simple mining Jingdong selling mobile phone in comments学生姓名:所在专业:数学与应用数学班级:101指导教师:申请学位:理学学士论文提交日期:2013 -05-20论文答辩日期:2013 -06-16学位授予单位:摘要手机已然成为人们生活中的必需品,正因为存在着广阔的市场需求,手机的种类也越来越多。
如何在这繁多的手机中选择出一部适合于自己的,自然成为即将购买手机用户的一个绕不过去的话题。
由此,本文将对所采集的京东的14部热销手机的评论进行数据分析和数据的简单挖掘。
考虑到对手机评价的直观印象是依赖于star字段,所以本文先取出每部手机所有的star字段。
由于事先并不知道star的分布情况,先求出基本统计量,如均值、峰度、偏度等,接下来对其进行探索性分析,通过Kolmogorov-Smirnov检验计算出数据不呈正态分布,然后通过Kruskal-Wallis检验得出手机间存在显著性差异,可是这并不知道每两部手机间的具体情况,所以又对数据进行Nemenyi 检验,即多独立样本间均值的两两比较检验,从而得出每两部手机间的具体差异情况。
最后,通过计算每个分值在所有得分中的占比来衡量手机间的得分情况,得出id编号为982040的手机得分情况最好,858025和1005766两部手机得分情况最差。
并且,所得结果与前文所作检验得到的结果也相一致。
接下来我们考察每部手机从开始到2014年4月24日为止的每天的销售情况。
我们发现,在2013年6月18日之前就开始销售的五部手机,在6月18日这一天销售量都有所增长,经查阅新闻可知,这是三星和华为那几日的相关活动或新闻所导致。
基于文本挖掘的跑鞋用户评价及情感分析
基于文本挖掘的跑鞋用户评价及情感分析
罗向东;强威;张希莹;吴梦
【期刊名称】《丝绸》
【年(卷),期】2024(61)6
【摘要】为了挖掘消费者在线购买跑鞋时的关注信息,文章用大数据分析视角,以“京东商城”为例按照销量排序分析了前600款跑鞋品牌定位、价格分布、优惠信息、标签占比,使用LDA模型对10万条跑鞋在线评论进行文本挖掘,对商品评论数据进行词频共现分析、主题聚类与情感分析,从品牌、技术和售后服务的维度分析了问题的原因并提出相关建议。
研究表明:国产品牌跑鞋在各价位段布局完整,销量高的跑鞋多使用满减和商品券,自营和优惠券标签对跑鞋购买具较为显著的促进作用;消费者购买跑鞋时主要关注外观细节、功能属性、性价比、穿着感受、服务优惠等方面。
【总页数】12页(P108-119)
【作者】罗向东;强威;张希莹;吴梦
【作者单位】陕西科技大学鞋服大数据与标准化研究中心;陕西科技大学设计与艺术学院
【正文语种】中文
【中图分类】TS101.91
【相关文献】
1.基于文本挖掘的高校网络舆情用户情感分析研究
2.基于文本挖掘的鸿蒙系统用户评论情感分析与研究
3.基于文本挖掘的新能源轿车用户情感分析
4.网红图书馆用户体验分析及提升策略——基于KH Coder的用户评价文本挖掘
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于文本挖掘的京东商城手机网评分析
摘要:随着互联网的迅速发展、电子商务的快速崛起,网络购物已成为一
种趋势。
各大电商平台每天都产生着数以万计的评论数据。
这些海量的评论数据
中潜藏着丰富的有价值的信息。
本文主要使用朴素贝叶斯方法对京东商城五款手
机评论数据进行挖掘分析。
根据分析得出的结果,为生产商进一步提高商品质量
满足消费者需求提出指导性建议;同时为潜在消费者购买决策提供合理的参考也
具有一定的意义。
关键词:文本挖掘;朴素贝叶斯方法;京东评论
1 引言
大数据时代的到来,互联网数据呈现快速增长模式。
随着网络购物用户的不
断增加,交易规模也在逐年增长,从而商品评论数量日趋庞大。
各大网购平台关
于一件商品的用户评论能够达到几万条甚至几十万条,数量越来越大、内容越来
越复杂,如果仅仅依靠人工阅读的方式来获取有价值的信息,所以想必也是非常
困难的。
近年来文本挖掘技术的兴起,已成为分析文本评论数据的主要方法,它可以
为生产商和消费者准确的提供有价值的信息,对网络购物的每一环节都有着重要
意义。
2 实证分析
2.1 数据来源
以销量作为筛选条件,本文选取了2018年京东商城销量前五的五款手机,
它们的货号分别是:16580586466、100008630664、43769030870、100010260230、100010658548(对应是手机型号分别是iPhone8 Plus、小米9Pro、红米Note7、
华为荣耀V30、OPPO Reno3),选取用户评论作为文本挖掘分析的对象。
确定好
研究对象之后,通过使用Python分别对五个手机型号的用户评论内容进行爬取。
2.2 文本数据预处理
2.2.1 数据清洗
文本评论数据中包含着各种各样的信息,有的评论内容对文本分析来讲,利
用价值很低甚至一点价值都没有,如果把它们也引入到分析过程中来,必然会对
最后的结果造成较大的影响。
因此,在正式进入分析工作之前,首先要进行的是
对评论内容进行数据清洗。
2.2.2 文本分词及去除停用词
数据清洗工作完成后,接下来对评论语料进行预处理,主要有中文分词、去
停用词等过程。
这一过程是利用Jupyter软件调用“jieba”分词包实现。
存在很多像“的”“了”“呢”一些并没有实际意义的语气词,分词结果中
常常会出现“但是”、“然而”之类的转折词,又或者是一些特殊的字母、符号,这都统称为停用词。
进行文本分类之前,需要将停用词剔除掉。
2.2.3 词云词频
词云作为Python中极具灵动特色的展示库,在通常情况下使用在显示词频
最终结果展示上,能够自定义背景,还可以设置不同的字体,其展示方式同其他
同种工具比较,具有更立体、简练的优点。
为加强对上文所爬取文本的研究,本
文把Python的jieba词频分析和Wordcloud展开结合使用,在词频基础上,达
到了更直接的情感分析和展示目的。
对于第一款手机iPhone8 Plus,出现较多的高频词汇除了“手机”本身之外,还有“不错”“喜欢”“值得”“满意”等等,由此可以知道,大部分消费者对
于这款手机的评价较好,除此之外,他们对于发货速度方面的问题比较关注。
对
于第二款手机小米9Pro,出现较多的高频词汇除了“手机”本身之外,还有“老人”“喜欢”“不错”“满意”等等,由此可以知道,购买或使用这款手机的消
费者大部分为老年人,他们对这款手机的使用体验较好,除此之外。
对于第三款
手机红米Note7,出现较多的高频词汇有“老人”“不错”“声音”“喜欢”,
由此可以知道,这款手机的使用群里老年人居多,同时他们对这款手机的声音较
为满意。
所以对于第四款手机华为荣耀V30,出现较多的高频词汇有“手
机”“问题”“不错”“客服”,除此之外还有“充电”“系统”,从这里可以
看出这款手机有可能出现了一定的问题,可以是系统方面的,也可能是充电方面的。
对于最后一款手机OPPO Reno3,出现较多的高频词汇有“手机”“问
题”“不错”“正品”,除此之外还有“质量”“物流”“客服”,由此可得,
消费者对于这款手机的总体评价较好,但是在购物过程中也出现了一些问题,同
时对于物流、客服方面的问题较为关注。
最后,将五款手机的高频词提取结果进行对比验证,iPhone8 Plus、小米9Pro、红米Note7这三款手机的结果显示为积极性评价,其词云显示的关键
词多为“喜欢”“不错”“满意”;而华为荣耀V30、OPPO Reno3这两款手机的
结果显示为正向和负向都有包含,其词云显示的关键词多为“问题”“客服”。
由此可得,词云显示的高频词可以真实有效的反映消费者对于一款商品的评价。
2.3 朴素贝叶斯文本分类
2.3.1 训练预料收集
朴素贝叶斯模型是一种有监督的机器学习方法,所以需要收集一些已经标注
好的语句,训练语句数量越多,模型预测效果越准确[1]。
对于中文文本情感分类
来讲,已经添加好标注的语料是十分匮乏的,而且大部分标注语料主要集中于手
机评论、酒店评论、微博评论等。
由于中文标注语料资源的缺乏,在网上只搜集
到 521 条已标注好的笔记本电脑方面的正负评论语料,其中正面评论211条,
负面评论310条。
由于中文标注语料资源的缺乏,本文从五款手机的评论中分别
抽取100条语句进行了人工标注,所以需要进一步加大训练集的数量。
2.3.2 实验步骤设计
(1)数据准备阶段:在网上搜集关于电脑方面的已标注好的语料,并做好
标签。
在本文中正面评论用“0”表示,负面评论用“1”表示。
考虑到较长的评
论语句包含的价值信息更多,文中并对语料进行了排序,分别在好评集与差评集
各抽取500条语句组成训练语料。
(2)数据分析阶段:首先对评论语句进行分词以及去停用词,;其次,对预处理后的词组进行向量空间表示,转化为语料库,并将语料划分为训练集和测试集,其中训练集占比 80%,测试集占比 20%;然后训练语料库和测试语料库生成文档—词条矩阵(稀疏矩阵),最后得到训练矩阵和测试矩阵。
(3)模型训练及预测阶段:使用朴素贝叶斯方法对训练矩阵进行分类器的训练,把训练好的分类器应用到测试矩阵中预测出分类,然后评估模型的预测效果;最后,把爬取的五款手机评论经过前期的数据处理后放入训练好的朴素贝叶斯分类器中进行文本情感的分类得到好评率和差评率。
2.3.3 实验结果分析
从测试结果来看,iPhone8 Plus和红米Note7的好评率较高,分别达到了79%和70%,说明消费者对这两款手机的整体是比较满意的。
对于华为荣耀V30和OPPO Reno3,这两款手机的好评率分别是60%和67%,说明消费者对这两款手机满意度不是很好。
好评率最低的是小米9Pro,这款手机好评率只有57%,说明它很可能存在一些问题,从而使得消费者对其的满意度较低。
3 结论与建议
随着互联网的快速发展,电子商务的迅速崛起,各大电商平台每天都产生着数以万计的评论数据。
这些海量的评论数据中潜藏着丰富的有价值的信息。
文本挖掘技术可以对评论数据进行深度的挖掘分析,能够对生产商完善产品质量提升市场竞争力提供较多的价值信息,而且能够帮助潜在消费者购买心仪的商品决策也提供了一定的参考。
可见,文本挖掘在数据时代扮演着重要角色,具有重大意义,未来会是一重要的研究领域。
(1)iPhone8 Plus的总体评价较好,在过去的消费者中深受好评,其中发货速度也占了很大优势,总体上它是一款比较好的机型,可以作为更换手机的备选方案。
(2)红米Note7的总体评价也较好,并且深受老年人的喜爱,其中好评中物流占了较大的比重,可以为准备为父母够买手机的人提供参考。
(3)华为荣耀V30和OPPO Reno3的总体评价在五款手机中也很占优势,其中华为荣耀V30的系统更受消费者的好评,而OPPO Reno3的客户服务是优势。
(4)小米9Pro的总体评价在本文研究的五款手机中并不占优势,消费者在购买手机时或许可以避免这款机型。
最后总之,五款手机各有自身的优势,同时也存在着不足。
对生产商而言,优点继续保持,不足之处则需要不断的改进完善,满足广大消费者需求并做好售后服务工作,才会在激烈的市场竞争中取得优势。
对消费者而言,希望可以利用一些有价值的信息供自己参考,根据自身需求做出正确的购买决策。