基于数据挖掘的大众点评网美食类商家评分 (统计建模论文大赛二等奖)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于数据挖掘方法下的大众点评网美食类商家评分研究上海立信会计学院曾晨、张瑾、张瑞

目录

一、引言 (2)

二、研究方法综述 (3)

(一)数据来源 (3)

(二)变量选择 (3)

(三)理论简介 (3)

三、数据分析 (8)

(一)各省份受欢迎的美食即当地饮食习惯的关联分析 (8)

(二)探究商家是否连锁与其星级的关系 (13)

(三)聚类分析 (15)

(四)利用决策树建立消费者选择模型 (18)

四、结论和建议 (22)

参考文献 (23)

附录 (24)

图目录

图1决策树树形结构 (7)

图2各个省、直辖市餐饮类商家数目 (9)

图3不同美食种类的商家数目 (9)

图4第1到22项关联规则 (10)

图5第23到44项关联规则 (11)

图6辽宁省与其饮食习惯的关联规则 (11)

图7上海市与其饮食习惯的关联规则 (12)

图8广东省与其饮食习惯的关联规则 (12)

图9四川省与其饮食习惯的关联规则 (13)

图10连锁店与非连锁店比例 (13)

图11非连锁店商家的星级频数分布图 (14)

图12连锁店商家的星级频数分布图 (15)

图13餐饮类商家星级系谱图 (16)

图14餐饮类商家聚类数目 (16)

图15第一类餐饮商家星级 (17)

图16第二类餐饮商家星级 (17)

图17第三类餐饮商家星级 (17)

图18第四类餐饮商家星级 (18)

图19好评与非好评的商家数量条形图 (19)

图20决策树模型的基本信息 (20)

图21各节点的重要性 (21)

图22决策树 (21)

图23决策树模型预测效果 (22)

表目录

表1连锁与非连锁商家的总体情况 (13)

摘要

随着互联网的飞速发展与智能手机的普及,人们的生活方式发生了巨大的变化。手机APP作为互联网发展的重要产物,为人们的日常生活,例如交通、购物、饮食、住宿、教育等提供了极大的便利。大众点评作为人们日常使用率最高、商家覆盖面最广的手机软体之一,极大地影响了人们的日常生活,不仅方便了人们的休闲娱乐,还满足了人们对衣食住行的多样性需求。“民以食为天”,消费者在选择餐厅时往往会通过点评网站去浏览相关餐厅的用户评价、商家评分以及是否具有优惠,并以此作为参考来做出选择。因此,研究影响消费者选择商家的因素,不仅对消费者本身做出决策有意义,对创业者选择投资方向和商家改善自身管理同样提供了参考依据和有效信息。

本文根据数据堂()提供的大众点评2014年4月更新后的1000家美食类商家数据,筛选出15个变量进行关联分析、聚类分析、决策树等数据挖掘方法探索地域与饮食偏好的关联度,为对消费者和创业者都提供了良好的经营决策方向;通过对所有商家进行系统聚类来探索每类商家与商家星级的关系,让消费者在选择餐厅时注意星级标准,以满足自身的用餐需求;最后利用决策树建立消费者选择模型,让消费者浏览餐厅信息时理性做出就餐选择,同时根据消费者市场的需求,餐厅经营者可以做出相应的营销策略的调整,改善餐厅服务质量,迎合消费者心理,在纷繁复杂的餐饮业增强竞争力,赢得自己的市场份额。在模型的建立和数据分析过程中,本文采用R.3.2.1和Microsoft Excel 2010软件。

关键字:大众点评关联分析聚类分析决策树饮食习惯消费者选择模型一、引言

互联网改善了人们的沟通方式,学习方式,也改变了商务的方式。随着互联网的普及,网络技术和电商平台也日趋完善。如今,消费者不止满足于电商带来的便捷,更对电商平台的口碑评价越来越关注,也使得电商平台口碑评价成为打造电商品牌的重要途径。大数据时代下,客户洞察、营销规划、物流管理、流程规划、风险控制等,都将受益于大数据相关技术。相比于线下零售,电子商务网站具备非常丰富的客户历史数据。通过这些数据的分析,能够进一步了解客户的购物习惯、兴趣爱好和购买意愿,并可以对客户群体进行细分,从而正对不同的用户对服务经行调整和优化,进行有针对性的广告营销和推送,实现个性化服务。

智能手机和手机APP同样也是电商中不可缺少的重要组成部分,随着智能手

机的普及与APP的蓬勃发展,人们将生活重心转移到手机软体中,手机APP有很多,涵盖了一切人们所需,包括购物、旅行、健身等等,此次我们选择大众点评这一手机软体的数据来进行分析有两个原因。首先,大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站,它不仅为网友提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购及餐厅预订等O2O(Online To Offline)交易服务。其次,大众点评属于较早的软件,使用人群广,受众人群普遍,没有特别明显的年龄差距,并且大众点评涵盖了日常的衣食住行等,数据齐全,可以反映较为精准的有效信息。由于大众点评涵盖门类过多,本文我们具体选择“食”这一大类进行数据挖掘。根据1000家餐饮类商家的数据,我们挑选出消费者浏览餐饮类商家信息时最关注的指标,然后对这些指标进行分析,分别研究了美食种类与地域分布的关系即当地饮食习惯的研究、餐饮类商家连锁与否是否与其评分星级有对应关系以及建立消费者选择模型为创业者确立投资目标、消费者理性选择餐厅和餐厅经营者营销策略的调整提供理论依据。

二、研究方法综述

(一)数据来源

本文采用的数据来自数据堂(/data/46472)的大众点评网2014年4月份数据(样例),数据集共有2014年4月大众点评1000家美食类商家的样本,共1001行45列,主要包括商家店名、地理位置、主营食物、联系方式、商家评分等信息。

(二)变量选择

样本包含45个变量,本文主要选取了消费者关心的信息指标以及直接影响消费者决策判断的变量,分别是:商家店名(name)、商家所在省份(province)、商家经营的美食种类(small_cate)、商家星级(stars)、人均价格(avg_price)、菜品质量评分(product_rating)、环境评分(environment_rating)、服务评分(service_rating)、所有评价(all_remarks)、非常好评(very_good_remarks)、好评(good_remarks)、一般评价(common_remarks)、差评(bad_remarks)、极差评(very_bad_remarks)、是否连锁(is_chains)15个变量,剔除掉与分析过程无关的30个变量。

(三)理论简介

数据挖掘(Data mining),又译为资料探勘、数据采矿。就是从大量数据中

相关文档
最新文档