最新大众点评网数据分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大众点评网数据分析

广西大学数学与信息科学学院

商务智能课程论文

题目：商务智能在大众点评中的应用

小组成员：1111200139 蓝承妙

1111200202 刘金香

摘要：大众点评是中国领先的本地生活信息及交易平台，也是全球最早建立的独立第三方消费点评网站，它不仅为网友提供商户信息、消费点评及消费优惠等信息服务，同时亦提供团购及餐厅预订等O2O（Online To Offline）交易服务。本文通过分类回归树和关联规则挖掘出大众点评数据中关于全国各地美食商家的可用信息。

关键字：大众点评分类回归树关联规则 SPSS

一、背景

随着互联网的出现与飞速发展，人们的生活方式一直在发生着巨大的变化。特别是交通、购物、饮食、住宿、教育等各方面均受到来自互联网的极大的影响。大众点评便是一个影响人们日常生活，方便人们娱乐、饮食的点评网站。大众点评是中国领先的本地生活信息及交易平台，也是全球最早建立的独立第三方消费点评网站。大众点评不仅为网友提供商户信息、消费点评及消费优惠等信息服务，同时亦提供团购、电子会员卡及餐厅预订等O2O（Online To Offline）交易服务。大众点评是国内最早开发本地生活移动应用的企业，已经成长为一家移动互联网公司，大众点评移动客户端已成为本地生活必备工具。

本文使用的数据为大众点评网在2014年4月份更新后的商家数据，其中包含全国各地区1000家美食店相关数据，包括商户ID（shop_id）、商户名称(name)、所处省份(province)、城市(city)、区(area)、具体地址(address)、联系电话(phone)、营业时间(hours)、平均物价(avg_price)、会员卡服务、大众对其产品的各类评价等级、环境、服务等级等数据项。

为了有效的使用该数据，本文运用分类回归树、关联规则两种数据挖掘方法对该数据进行分析。

二、分类回归树(C&RT)

2.1 C&R tree

分类回归树(C&R tree，全称为the classification and regression tree)是一种基于树的分类和预测方法，模型使用简单，易于理解（规则解释起来更简明易），该方法通过在每个步骤最大限度降低不纯洁度，使用递归分区来将训练记录分割为组。

2.2 目的

通过分析数据中存在的预测因子变量，如店铺的环境等级、产品等级和服务等级等预测并分类，为新用户在选择是否光顾某家店铺提供决策依据。

2.3 数据整理

原始数据中包含的内容多而繁杂，为了方便研究，我们从中筛选了涉及店家评价的数据项avg_price、product_rating、environment_rating、service_rating、

very_good_remarks、good_remarks、common_remarks、bad_remarks、very_bad_remarks进行整理，将very_good_remarks、good_remarks、common_remarks这三个字段处理为积极评价，字段jiji的值为这三个字段的总和，视为对该店家的积极评价，将bad_remarks、very_bad_remarks这二个字段处理为消极评价，字段xiaoji的值为这二个字段的总和，为该店家的消极评价。新增字段hh取值为0和1，判定该店铺是否值得新客户选择，如果该店铺消极评价(xiaoji)的值小于总评价（jiji+xiaoji）的10%，则认为该店铺值得选择，hh 的值为1；反之，则为0，该店铺不值得选择。

整理后的数据：avg_price、product_rating、environment_rating、service_rating、hh。

2.4 创建决策树

将整理后的数据添加到SPSS工作区域，再添加一个类型节点。在类型节点中，选择Read Value来为指定的字段读取数据。选择hh字段，将其type设为Flag，Direction设为Out，如图1所示。其余所有字段都作为预测因子变量，将Direction设为In。

图1 在类型节点中设置相关参数

在类型节点上连接一个C&RT节点，设置其参数，选择简单模式（Simple Mode），如图2所示。

图2 Simple标签

运行C&RT节点，出现交互式窗口，完全展开的决策树如图3所示。

图3 C&RT决策树

2.4 分析决策树

从图3可以看到第一层的划分是根据product_rating，第二层的划分根据environment_rating，第三层service_rating。从节点1中，可以看出若大众对某店家product的综合评分在8.25分以上，那么该店家值得光顾；product的综合评分在8.25分以下，则可以参考其环境评分，若environment_rating大于6.75分，说明其环境优美，值得光顾；同理，若其环境评分低于6.75，则可参考其员工服务质量。从店铺角度也能通过该决策树以及其自身在大众点评网上的各项评分来做相应的调整，以提高自身的收益。

2.5 评估模型

根据创建当前决策树生成评估模型（Generate Model）hh1，工作区中将hh1与类型节点连接起来，在模型设置标签中选择“Calculate confidence”和“Rule identifier”，如图4所示。最后，连接一个数据表节点，并运行当前数据流，如图5所示。

图4 计算置信度与规则识别

图5 数据流示意图

运行后的数据表列出了那些有可能大众点评中总评价好的美食店家记录，如图6所示。$R-hh列的值表明预测结果，若其值为1，预测该店家值得新用户光顾。

图6 数据表

2.6 小结

通过整理原始数据中大众对1000家全国各地的店家的积极、消极评价，分析预测因子变量，例如avg_price、product_rating、environment_rating、service_rating，可以预测并分类1000家店铺是否值得光顾，并且能够为提高店家自身评价、收益做出决策。

三、关联规则分析

3.1 目的