(整理)数据挖掘-关联
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据收集及处理
数据描述:
本文的所采用的数据集来源于网络数据中心数据堂所提供的,来自主要电商平台:京东,淘宝,天猫,亚马逊,一号店的2013年10月20日至2013年10月22日的爽肤水交易信息。数据集主要分为3个部分,第一部分为各平台上爽肤水的交易记录,单日的交易数据包含了19203条交易记录,14个变量,变了包括商品ID,电商名称,日期,商品名称,商品URL,促销价,商品销量销售额,店铺名称,店铺等级,品牌功效,适合皮肤,容量,如图所示为在EXCEL中打开的京东在2013年10月20日的交易数据。第二部分为买家购买后的评价,单日包含925条的评论信息,6个变量,变量包含商品ID,购买时间,评论时间,昵称,评分,评论内容,如图所示就是2013年10月20日京东的评论信息。第三部分为品牌数据集,一共51990条数据,7个变量,包括类目,品牌,电商平台,平均价格,日总销量,对应商品ID。如图所示就是2013年10月20日所有电商平台的评判信息。
本论文所采用的数据全部来自于知名网络数据中心数据堂,具有相当的可信度。经过对数据的观察,为了使得研究过程能够更加方便,我们选择数据较为完整并且有序的自于京东平台的交易信息。由于本文目的是建立如何选择商品的模型,因此不会对结果造成影响。
数据初步处理:
本轮问所有的数据都采用SAS中SQL语言与EXCEL相结合进行
处理。
先对对京东平台上爽肤水的交易记录进行处理。首先应该去掉与本文研究不相关的信息。由于电商名称,日期,店铺名称与本文研究目标不匹配,同时在京东平台上并没有店铺信息,商品名称内容包含于品牌名称等其他变量中。因此我们只选择其中的变量:商品ID,促销价,商品销量销售额,品牌功效,适合皮肤,容量。
将源数据导入SAS之后采用EM模块的InputData节点对销量变量进行描述性统计如图所示:
我们可以发现,其中大多数商品的销售额都为0,是因为这里仅仅采用3天的交易数据,所以大多都没有销量。因为没有销量的商品对本文的并无研究意义,因此我们只研究销售量大于0的商品。
采用SQL语言将3日的交易数据合并,并选取所需变量,并且将相同的商品进行合并。
Proc sql;
CREATE table Homework.JD as
select * FROM Homework.JINGD1
UNION ALL
select * FROM Homework.JINGD2
UNION ALL
select * FROM Homework.JINGD3;
Proc sql;
CREATE table Homework.JDNEW as
select ID,PRICE,SUM(Q) as Q,SUM(INCOME) as INCOME,
BRAND,EFFECT,SKIN,CAP from Homework.JD
where Q>0
GROUP BY ID;
处理后的结果在SAS中打开的部分内容如下:
为了使得变量能够满足分析的要求我们将利用EXCEL对数据进行预处理。
对于容量这一变量,格式为“500ml”或者“100ml + 10ml + 10ml”因此我们采用两个变量来描述,CAP和COMB,CAP表示容量的大小,我们这里将100ml以下定为小瓶,300ml以下为中瓶,以上为大瓶。COMB为一个二元变量,1表示存在套装的情况,0则表示为单瓶。处理之后结果为:
对于功能这一变量,我们通过建立数据透视表查看结果。
EFFECT 汇总
NULL 22
保湿补水687
保湿补水,控油平衡17
保湿补水,控油平衡,美白祛斑 1
保湿补水,控油平衡,美白祛斑,细致毛孔25
保湿补水,控油平衡,美白祛斑,细致毛孔,祛皱抗衰8
保湿补水,控油平衡,美白祛斑,细致毛孔,深层清洁 2
保湿补水,控油平衡,美白祛斑,细致毛孔,深层清洁,祛皱抗衰26
因此我们将采用一系列的二元变量E_BS(保湿),E_KY(控油),E_MB(美白),E_XZ(细致毛孔),E_KS(抗衰老),E_QJ(清洁0来表示该品牌是否具有该种功效。处理结果为:
对于适合肤质这一变量同样采用数据透视表来查看:
SKIN 汇总
干性38
干性、混合性 1
混合型至油性 1
混合性48
混合性,干性 1
混合性,油性 5
混合性,油性,干性 1
混合性,中性24
混合性,中性,干性 1
混合性,中性,干性,敏感性 3
混合性,中性,油性12
混合性,中性,油性,干性20
混合性,中性,油性,干性,敏感性7
混合性,中性,油性,干性,敏感性,所有肤质 2
混合性,中性,油性,干性,所有肤质 6
敏感性11
偏干 1
是 2
所有肤质880
推荐中性、干性、混合性及各种缺水性干燥肌肤。 1
油性31
油性及混合性肤质 2
中性23
中性,干性 1
中性,油性 1
中性及干性 1
我们可以发现其中大多数产品都适用于所有肤质,因此我们将采用一个二元变量BSKIN来描述适合肤质这一变量,1带表适合所有肤质,0代表针对部分肤质。处理部分结果如下:
之后,对买家购买后的评价数据集进行处理。由于技术方面的缺
乏,本论文仅采用评分作为消费者对商品评价的唯一方式。评价数据集中的数据来源于2013年10月20号到22号三天的时间产生的评论信息,因此有部分评论并不针对在这三天中所交易的商品,没有研究意义。用SQL选择研究所需数据,并求评分的均值,方法如下:
Proc sql;
CREATE table Homework.SCORCE as
select ID,A VG(SCORCE) as SCORCE from Homework.PL
GROUP BY ID;
Proc sql;
CREATE table Homework.JINGDONG as
select * from Homework.SCORCE a FULL JOIN Homework.JDNEW
on a.ID=b.ID
根据EM节点产生的统计信息如下
我们可以发现SCORCE变量存在缺失值,因为并非所有商品都被评价,我们将保留缺失值。
对于品牌信息的描述:
根据EM节点查看BRAND变量的统计信息如下: