基于数据挖掘技术的红酒评分预测模型的设计与分析

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于数据挖掘技术的红酒评分预测模型的设计与分析

作者:王柏

来源:《现代商贸工业》2019年第07期

摘要:随着现代社会的快速发展,红酒行业已慢慢走向全球化与大众化,更多的红酒品牌和品种也逐渐被世人所知。然而,红酒品质也分三六九等,如何判断一款红酒是优是劣?利用SPSS,Excel等软件,使用回归、决策树、聚类等经典机器学习算法,对红酒的价格、评分、产地等因素进行统计与分析。最终得出红酒的原产国,省份以及品种基本可以决定红酒的优劣。

关键词:红酒;数据挖掘;机器学习

中图分类号:TB文献标识码:Adoi:10.19311/ki.1672-3198.2019.07.100

1前言

红酒,是一种有着漫长历史的饮品。早在公元前1000年,红酒就在地中海沿岸大部分地区繁衍传播,并逐漸发展成为高档饮品。在全世界的基督教信徒的眼中,红酒被视为耶稣的血液,这一点也促进了红酒的平民化。红酒不仅仅给人以高雅和浪漫的感觉,在很多女性心中还有美容驻颜的功效,随着时间的推移,社会也在快速发展,人们生活水平逐步提升,红酒市场目前拥有着巨大的发展潜力和良好的发展前景,红酒也将逐渐走向全球化与大众化,让越来越多的人有机会去品尝。

近年来,越来越多的人更加讲究红酒的品质,传统红酒的品鉴,要考虑红酒的香气、口感、结构、酿造工艺、风土和价格等综合因素。但这些复杂的品鉴技术需要积年累月的品酒经验,对于大多数普通人来说,学习这门技术并不容易。因此,人们对于红酒的品质界定十分地模糊,并不清楚哪些红酒档次较高,而哪些红酒档次相对较低。为了帮助人们通过更简单直接的方法去了解红酒的品质,本文根据Kaggle网站上Wine Reviews专题提供的129970组数据,使用决策树,聚类等经典机器学习算法,分析数据规律,建立了根据红酒产地、品种、制造商等因素预测红酒品质的模型;并探索了影响红酒档次的最主要因素。该模型可以为喜欢红酒的人们提供参考,从而使他们对于红酒品质有着更加清晰的认识。

2数据介绍和预处理

本文使用的Wine Reviews数据集的原始出处是WineEnthusiast网站上不同国家用户对众多红酒的评论。本数据集主要包含了129970款红酒的产地国(Country)、省份(Province)、

城市(Region)、评分(Points)、描述(Description)、制造商(Winery)、品种(Variety)、价格(Price)等重要因素。

数据集中,评分和价格都是数值型属性,为了构建决策树模型,在预处理过程中,要对这两个属性进行离散化处理。本文根据分数的高低初步划分这些红酒的档次,大于等于90分的为高等(High),大于等于85分,小于90分的为中等(Medium),小于85分的则为低等(Low)。同时,本文对价格进行排序,将红酒的价格划分为三个档次:大于等于500美元的为贵(Expensive),大于等于100美元,小于500美元的为普通(Normal),小于100美元的为便宜(Cheap)。

同时在这129970组数据当中,缺失部分数据的红酒样本会对计算产生影响,为消除这部分影响,本文删除了部分数值或资料缺失的样本,保证红酒数据的完整性,为后文中的预测模型的准确性提供更加科学的依据。

3单因素数据分析

3.1原产国、价格与评分

首先,本文将对129970款红酒按照国家(country)分类,分别求出不同国家红酒的平均价格和平均评分。使用了Excel的“分类汇总”功能,将国家作为“分类字段”,将“价格”和“评分”作为“汇总方式”,使用“平均值”作为汇总项。得到分类汇总的结果后,本文使用“定位”功能,将汇总结果单独取出,使用EXCEL图表中的“组合图”,分别用柱形图表示“评分”,用折线图表示“价格”,得到结果如图1所示。

通过比较每个国家红酒的平均价格与平均评分,我们可以判断哪些国家的红酒更加物美价廉。根据图1我们分析得出,法国、匈牙利、卢森堡、德国、意大利等这些我们熟知的红酒发展历史悠久的欧洲国家的红酒性价比反而比较低。反而,如印度、摩洛哥、阿尔巴尼亚、塞尔维亚、智利、土耳其等国家,其红酒拥有不俗的品质,但是价格并不高,他们出产的红酒往往是性价比高的选择。

其次,我们重点观察了高品质红酒的原产地。红酒平均得分最高的五个国家均在欧洲,分别是英国、奥地利、法国、德国和意大利。在亚洲国家中,评分最高的三个国家是土耳其、印度和以色列。韩国、中国、黑山共和国的红酒的平均评分是最差的。

由此可见,原产国对于红酒的评分与价格或多或少产生了一定的影响,本文会将在多因素分析中进一步解释与说明。

3.2省份、价格与评分

本文使用同3.1相似的办法,对各个原产国中不同省区(province)的性价比进行了计算,发现每个原产国都会有至少一个较大的红酒产区。这些较大的红酒产区出产的红酒评分都相对较高,同时价格也相对较昂贵。例如,我们熟知的法国波尔多红酒产区,其红酒的平均得分在所有的省份中并不算很高,但红酒的平均价格高达57.3美元(约合372.45元人民币)。

由此可见,出自著名产区的红酒并不一定都是性价比可行的红酒。同样,本文将会在多因素分析中运用决策树算法进一步研究省份对于价格与评分的影响。

3.3描述、价格与评分

如何预测一款红酒的价格与评分,评价者们对红酒的描述(description)也成为了一个不可或缺的因素。我们使用python NLTK package对描述中词进行解析统计。其中,出现频率最高的Top10名词是:wine,flavor,fruit,acid,cherri,aroma,tannin,palat,spice,间接说明了描述的内容主要是以红酒的气味、口味为主,“果味”、“香料”、“酸甜度”都是评价一款红酒很重要的因素。

为了简单分析红酒描述对于价格和评分的影响,本文主要提取了6个不同方面的关键词:丝滑(Smooth),纯正(Pure),余味(Aftertaste),百分百(100%),颜色(Color)和新鲜(Fresh),并计算出含有这些高频词汇的红酒平均价格与平均评分的关系。在性价比方面含有“新鲜”关键词的红酒性价最低,含有“百分百”关键词的红酒性价比最高。在评分方面,平均得分最高的是描述中含有“纯正”关键词的红酒,为9041;但这些红酒价格不菲,平均价格为51.12美元。同时我们发现,性价比相对较低的红酒组平均得分也不是很高。

由于描述众多,不便于统计,并且经过初步分析,描述对于红酒的性价比影响并不是很大,因此在下面的多因素分析中将暂时不作为自变量进行分析。

3.4品种、價格与评分

如何更加全面准确地预测红酒的评分,红酒的品种也是一个不可或缺的重要因素。本文运用Excel当中的“分类汇总”功能,将红酒的性价比根据红酒的种类进行分类汇总并进行比较。其中Nebbiolo的性价比最高,为0.68;最低的是Rosé,为0.20。而Nebbiolo品种的红酒得分普遍较高,为90.22分,但价格也较为昂贵,平均价格为61.70美元(约合401.05人民币),总体来看,评分较高的红酒品种价格都相对较高,评分较低的红酒品种也相对较便宜,因此红酒的品种对于红酒评分的预测基本呈正相关,即越高档的品种,预测的评分也会越高。

3.5综述

在单因素数据分析中,本文主要通过比较平均价格与平均得分的比值,初步对各个影响因素进行初步的分析。本文初步认为,原产国有可能会成为预测红酒得分、价格模型中一个较为

相关文档
最新文档