数据挖掘 电商情感分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要:近年来,随着互联网的广泛应用和电子商务的迅速发展,网络文本及 用户评论分析意义日益凸显, 因此网络文本挖掘及网络文本情感分析技术应运而 生,通过对文本或者用户评论的情感分析,企业能够进行更有效的管理等。本文 针对电商平台的电热水器的评论数据,利用基于半监督递归自编码(RAE)的深 度学习模型, 进行评论的情感分析。 为了保证评论数据挖掘分析的质量和全面性, 我们重新从京东和苏宁易购平台爬取了评论数据集, 对数据进行预处理——评论 “去空、去重 ”、中文分词、停用词过滤等,再利用半监督 RAE 深度学习模型对 这些评论进行情感分析。之后,本文主要进行两个方面的数据挖掘分析工作:一 方面是根据不同品牌电热水器的评论数据情感分析结果, 提炼出各个品牌产品的 差异化卖点;另一方面是根据不同电商平台的评论数据情感分析结果,进行不同 电商平台的服务质量比较,进而可以使电商平台根据自身优势吸引消费者。
图 2 美的 F50-21W6 评论页面 为采集该商品的所有评论数据,这里采用批量网址采集,将 203 个网址导入 进行数据采集,如图 3 所示:
第3页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
图 3 批量网址采集规则设置
2)设置采集内容规则 为了抽取出网页中有用的网络商业评论信息, 还需要对采集内容规则进行设 置。首先在京东网上打开美的 F50-21W6 的评论页面,可以看到在京东网上评论 的标签为“心得 ”。接下来打开该页面的源代码,搜索到 “心得 ”部分,可以发现它 的结构如下: <dl> <dt>心 得:</dt>
第2页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
进采集队列中,设置采集内容的规则,从评论网页上爬取实验需要的评论文本数 据,详细步骤如下: 1)采集网址规则 我们首先采集美的 F50-21W6 的评论数据,打开它的评论页面我们要采集的 评论共有 6065 条,分 203 页显示,如图 2 所示:
<dd>不错!性价比非常高!</dd> </dl> 其中的“不错!性价比非常高! ”就是我们想要的网络商业评论文本。最后, 根据评论在 HTML 文档中的结构分布,设置采集内容规则,如图 4 所示
第4页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
图 4 采集内容规则设置
3)结果发布 为了后续研究工作的方便, 本文选择将采集到的网络商业评论存储在同一个 txt 文件中,文件编码为 ”UTF- 8”,最终得到一个存储全部评论文本的 txt 文件。 美的 F50-21W6 的评论示例如下: 美的电热水器质量不错,价格比店里要便宜。 物流给力机子不错很好 很好看也很实用,配送很快,安装师傅人也很好的。 头天下单,第二天就到货安装好了,非常满意
Байду номын сангаас
本文实验中:从京东上选择了三个品牌的电热水器的评论数据进行抓取—— 美的 F50-21W6、海尔 EC5002-D、格兰仕 G50E302T,用于提炼不同品牌产品的 差异化卖点;从苏宁易购上爬取了美的 F50-21W6 电热水器的评论数据,用于比 较和京东电商平台的服务特点。本次实验数据见附件。
关键词:深度学习,情感分析,RAE,差异化卖点
第1页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
Data Mining on Comments of Electric water heater Based on Deep Learning
Abstract: Recently, with the wide application of Internet and the rapid development of electronic commerce, network text and user review analys is is of great significance, text mining and sentiment analysis of network text arise at the historic moment, and the emotional analysis of the text or user comments is more effective in enterprise management and so on. Electric business platform, this paper apply a deep learning method based on semi-supervised recursive encoding (RAE) on analysis of the emotion of comments which users delivered about electric water heater. In order to ensure the quality of the data mining analysis, we crawled the relevant comments data sets from Jingdong and Suning platform. Then we preprocessed comments data on wiping "empty and heavy" out, Chinese word segmentation, filtering stop words, word frequency statistics, etc. Next we analyze sentiment on these comments using a method based on semi-supervised RAE. Later, this paper analyzed mainly comments in two aspects of data mining work: on the one hand, according to sentiment analysis result of the comments of different brand electric water heater, extracting differentiation of various brand products selling point; On the other hand, according to the comments of different electric business platform data sentiment analysis results, and compare different electric business platform of service quality, and electric business platform can take measures to attract consumers according to their own advantages .
2)
对不同电商平台对应相同电热水器的评论数据进行情感分析,根据分析结果 得出各个电商平台服务的优势与劣势。
2. 分析方法与过程
2.1. 总体流程
图 1 总体流程图
第1页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
本用例主要包括以下几个步骤: 步骤一:爬取网络评论数据,评论数据的获取是本次数据挖掘分析的第一步。本 文中利用火车头数据采集器, 对评论文本进行抽取, 最后将评论文本批量存进 txt 文件中,得到实验数据。 步骤二:数据预处理,直接从网上爬取的评论数据中往往不能直接分析需要进行 数据预处理。第一步要“去空、去重 ”;第二步对评论数据进行中文分词,将一句 评论分成多个词语进一步分析;第三步进行停用词过滤,去除掉评论中与情感判 定不相关的词。 步骤三:文本矩阵转化,使用基于半监督 RAE 深度学习模型进行情感分析,需 要将文本词语全部转换为词向量,本论文中构建了一个词表和词向量表,词表中 为全部文本词语和词语的编号,词向量表中为全部词语的词向量。 步骤四:情感分析,构建基于半监督 RAE 的深度学习模型,利用选出的积极、 消极评论各占一半左右的数据集训练情感分析模型,并进行测试,得到符合要求 的模型。利用构建的模型分析得出评论数据的情感倾向。 步骤五:属性提取并统计,将所有提及到电热水器的某些属性的评论数据从实验 数据集中筛选出来, 统计各个属性相关评论数据的积极评论和消极评论占该产品 的积极评论和消极评论的百分比。 步骤六:结果分析,根据分析结果提取产品的差异化卖点或者每个电商平台的竞 争优势和劣势,进而制定合适的营销策略。
Key words: deep learning; sentiment analysis; RAE; differentiation of selling point
第2页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
目
1. 2.
录
挖掘目标 .................................................................................... 1 分析方法与过程 ......................................................................... 1
2.2. 具体步骤
步骤一:爬取网络评论数据 随着电子商务的迅速发展,网购的消费者越来越多,他们不再只是被动的获 取网络知识,而是可以通过网络发表产品评论来分享自己的用户体验,而评论中 所包含的丰富信息, 对企业管理具有重要的价值。通过数据挖掘等技术手段实现 对客户评论的智能分析,商家可以获得客户对产品的意见和态度,获取网络评论 数据中的有价值的信息,做出相应的营销策略和产品改进方案等。而网络数据挖 掘分析的第一步就是爬取网络评论数据。 本次论文中采用火车头数据采集器爬取网上评论数据,将批量的 URL 存放
2.1. 总体流程 ......................................................................................................... 1 2.2. 具体步骤 ......................................................................................................... 2 2.3. 结果分析 ....................................................................................................... 18
3. 4.
结论.......................................................................................... 20 参考文献 .................................................................................. 21
第1页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
1. 挖掘目标
本次建模针对电商平台上关于电热水器的评论数据,采用基于半监督 RAE 深度学习模型的数据挖掘方法,达到以下两个目标: 1) 利用半监督 RAE 模型对同一品牌电热水器的评论进行情感分析,根据分析 结果得到用户针对各属性的满意度,从而提炼出该产品的优势和劣势。分析 不同品牌电热水器的评论数据,提炼出其差异化卖点。
第三届“泰迪杯” 全国大学生数据挖掘竞赛 优 秀 作 品
作品名称:基于电商平台家电设备的消费者评论数据挖掘分析 荣获奖项:一等奖 作品单位:华南师范大学 作品成员:赵晓荣 指导老师:薛云 叶呈成 黄佳锋
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
基于深度学习的电热水器评论数据挖掘分析
图 2 美的 F50-21W6 评论页面 为采集该商品的所有评论数据,这里采用批量网址采集,将 203 个网址导入 进行数据采集,如图 3 所示:
第3页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
图 3 批量网址采集规则设置
2)设置采集内容规则 为了抽取出网页中有用的网络商业评论信息, 还需要对采集内容规则进行设 置。首先在京东网上打开美的 F50-21W6 的评论页面,可以看到在京东网上评论 的标签为“心得 ”。接下来打开该页面的源代码,搜索到 “心得 ”部分,可以发现它 的结构如下: <dl> <dt>心 得:</dt>
第2页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
进采集队列中,设置采集内容的规则,从评论网页上爬取实验需要的评论文本数 据,详细步骤如下: 1)采集网址规则 我们首先采集美的 F50-21W6 的评论数据,打开它的评论页面我们要采集的 评论共有 6065 条,分 203 页显示,如图 2 所示:
<dd>不错!性价比非常高!</dd> </dl> 其中的“不错!性价比非常高! ”就是我们想要的网络商业评论文本。最后, 根据评论在 HTML 文档中的结构分布,设置采集内容规则,如图 4 所示
第4页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
图 4 采集内容规则设置
3)结果发布 为了后续研究工作的方便, 本文选择将采集到的网络商业评论存储在同一个 txt 文件中,文件编码为 ”UTF- 8”,最终得到一个存储全部评论文本的 txt 文件。 美的 F50-21W6 的评论示例如下: 美的电热水器质量不错,价格比店里要便宜。 物流给力机子不错很好 很好看也很实用,配送很快,安装师傅人也很好的。 头天下单,第二天就到货安装好了,非常满意
Байду номын сангаас
本文实验中:从京东上选择了三个品牌的电热水器的评论数据进行抓取—— 美的 F50-21W6、海尔 EC5002-D、格兰仕 G50E302T,用于提炼不同品牌产品的 差异化卖点;从苏宁易购上爬取了美的 F50-21W6 电热水器的评论数据,用于比 较和京东电商平台的服务特点。本次实验数据见附件。
关键词:深度学习,情感分析,RAE,差异化卖点
第1页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
Data Mining on Comments of Electric water heater Based on Deep Learning
Abstract: Recently, with the wide application of Internet and the rapid development of electronic commerce, network text and user review analys is is of great significance, text mining and sentiment analysis of network text arise at the historic moment, and the emotional analysis of the text or user comments is more effective in enterprise management and so on. Electric business platform, this paper apply a deep learning method based on semi-supervised recursive encoding (RAE) on analysis of the emotion of comments which users delivered about electric water heater. In order to ensure the quality of the data mining analysis, we crawled the relevant comments data sets from Jingdong and Suning platform. Then we preprocessed comments data on wiping "empty and heavy" out, Chinese word segmentation, filtering stop words, word frequency statistics, etc. Next we analyze sentiment on these comments using a method based on semi-supervised RAE. Later, this paper analyzed mainly comments in two aspects of data mining work: on the one hand, according to sentiment analysis result of the comments of different brand electric water heater, extracting differentiation of various brand products selling point; On the other hand, according to the comments of different electric business platform data sentiment analysis results, and compare different electric business platform of service quality, and electric business platform can take measures to attract consumers according to their own advantages .
2)
对不同电商平台对应相同电热水器的评论数据进行情感分析,根据分析结果 得出各个电商平台服务的优势与劣势。
2. 分析方法与过程
2.1. 总体流程
图 1 总体流程图
第1页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
本用例主要包括以下几个步骤: 步骤一:爬取网络评论数据,评论数据的获取是本次数据挖掘分析的第一步。本 文中利用火车头数据采集器, 对评论文本进行抽取, 最后将评论文本批量存进 txt 文件中,得到实验数据。 步骤二:数据预处理,直接从网上爬取的评论数据中往往不能直接分析需要进行 数据预处理。第一步要“去空、去重 ”;第二步对评论数据进行中文分词,将一句 评论分成多个词语进一步分析;第三步进行停用词过滤,去除掉评论中与情感判 定不相关的词。 步骤三:文本矩阵转化,使用基于半监督 RAE 深度学习模型进行情感分析,需 要将文本词语全部转换为词向量,本论文中构建了一个词表和词向量表,词表中 为全部文本词语和词语的编号,词向量表中为全部词语的词向量。 步骤四:情感分析,构建基于半监督 RAE 的深度学习模型,利用选出的积极、 消极评论各占一半左右的数据集训练情感分析模型,并进行测试,得到符合要求 的模型。利用构建的模型分析得出评论数据的情感倾向。 步骤五:属性提取并统计,将所有提及到电热水器的某些属性的评论数据从实验 数据集中筛选出来, 统计各个属性相关评论数据的积极评论和消极评论占该产品 的积极评论和消极评论的百分比。 步骤六:结果分析,根据分析结果提取产品的差异化卖点或者每个电商平台的竞 争优势和劣势,进而制定合适的营销策略。
Key words: deep learning; sentiment analysis; RAE; differentiation of selling point
第2页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
目
1. 2.
录
挖掘目标 .................................................................................... 1 分析方法与过程 ......................................................................... 1
2.2. 具体步骤
步骤一:爬取网络评论数据 随着电子商务的迅速发展,网购的消费者越来越多,他们不再只是被动的获 取网络知识,而是可以通过网络发表产品评论来分享自己的用户体验,而评论中 所包含的丰富信息, 对企业管理具有重要的价值。通过数据挖掘等技术手段实现 对客户评论的智能分析,商家可以获得客户对产品的意见和态度,获取网络评论 数据中的有价值的信息,做出相应的营销策略和产品改进方案等。而网络数据挖 掘分析的第一步就是爬取网络评论数据。 本次论文中采用火车头数据采集器爬取网上评论数据,将批量的 URL 存放
2.1. 总体流程 ......................................................................................................... 1 2.2. 具体步骤 ......................................................................................................... 2 2.3. 结果分析 ....................................................................................................... 18
3. 4.
结论.......................................................................................... 20 参考文献 .................................................................................. 21
第1页
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
1. 挖掘目标
本次建模针对电商平台上关于电热水器的评论数据,采用基于半监督 RAE 深度学习模型的数据挖掘方法,达到以下两个目标: 1) 利用半监督 RAE 模型对同一品牌电热水器的评论进行情感分析,根据分析 结果得到用户针对各属性的满意度,从而提炼出该产品的优势和劣势。分析 不同品牌电热水器的评论数据,提炼出其差异化卖点。
第三届“泰迪杯” 全国大学生数据挖掘竞赛 优 秀 作 品
作品名称:基于电商平台家电设备的消费者评论数据挖掘分析 荣获奖项:一等奖 作品单位:华南师范大学 作品成员:赵晓荣 指导老师:薛云 叶呈成 黄佳锋
泰迪杯大学生数据挖掘竞赛论文报告
www.tipdm.org
基于深度学习的电热水器评论数据挖掘分析