(整理)数据挖掘-关联

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据收集及处理

数据描述:

本文的所采用的数据集来源于网络数据中心数据堂所提供的,来自主要电商平台:京东,淘宝,天猫,亚马逊,一号店的2013年10月20日至2013年10月22日的爽肤水交易信息。数据集主要分为3个部分,第一部分为各平台上爽肤水的交易记录,单日的交易数据包含了19203条交易记录,14个变量,变了包括商品ID,电商名称,日期,商品名称,商品URL,促销价,商品销量销售额,店铺名称,店铺等级,品牌功效,适合皮肤,容量,如图所示为在EXCEL中打开的京东在2013年10月20日的交易数据。第二部分为买家购买后的评价,单日包含925条的评论信息,6个变量,变量包含商品ID,购买时间,评论时间,昵称,评分,评论内容,如图所示就是2013年10月20日京东的评论信息。第三部分为品牌数据集,一共51990条数据,7个变量,包括类目,品牌,电商平台,平均价格,日总销量,对应商品ID。如图所示就是2013年10月20日所有电商平台的评判信息。

本论文所采用的数据全部来自于知名网络数据中心数据堂,具有相当的可信度。经过对数据的观察,为了使得研究过程能够更加方便,我们选择数据较为完整并且有序的自于京东平台的交易信息。由于本文目的是建立如何选择商品的模型,因此不会对结果造成影响。

数据初步处理:

本轮问所有的数据都采用SAS中SQL语言与EXCEL相结合进行

处理。

先对对京东平台上爽肤水的交易记录进行处理。首先应该去掉与本文研究不相关的信息。由于电商名称,日期,店铺名称与本文研究目标不匹配,同时在京东平台上并没有店铺信息,商品名称内容包含于品牌名称等其他变量中。因此我们只选择其中的变量:商品ID,促销价,商品销量销售额,品牌功效,适合皮肤,容量。

将源数据导入SAS之后采用EM模块的InputData节点对销量变量进行描述性统计如图所示:

我们可以发现,其中大多数商品的销售额都为0,是因为这里仅仅采用3天的交易数据,所以大多都没有销量。因为没有销量的商品对本文的并无研究意义,因此我们只研究销售量大于0的商品。

采用SQL语言将3日的交易数据合并,并选取所需变量,并且将相同的商品进行合并。

Proc sql;

CREATE table Homework.JD as

select * FROM Homework.JINGD1

UNION ALL

select * FROM Homework.JINGD2

UNION ALL

select * FROM Homework.JINGD3;

Proc sql;

CREATE table Homework.JDNEW as

select ID,PRICE,SUM(Q) as Q,SUM(INCOME) as INCOME,

BRAND,EFFECT,SKIN,CAP from Homework.JD

where Q>0

GROUP BY ID;

处理后的结果在SAS中打开的部分内容如下:

为了使得变量能够满足分析的要求我们将利用EXCEL对数据进行预处理。

对于容量这一变量,格式为“500ml”或者“100ml + 10ml + 10ml”因此我们采用两个变量来描述,CAP和COMB,CAP表示容量的大小,我们这里将100ml以下定为小瓶,300ml以下为中瓶,以上为大瓶。COMB为一个二元变量,1表示存在套装的情况,0则表示为单瓶。处理之后结果为:

对于功能这一变量,我们通过建立数据透视表查看结果。

EFFECT 汇总

NULL 22

保湿补水687

保湿补水,控油平衡17

保湿补水,控油平衡,美白祛斑 1

保湿补水,控油平衡,美白祛斑,细致毛孔25

保湿补水,控油平衡,美白祛斑,细致毛孔,祛皱抗衰8

保湿补水,控油平衡,美白祛斑,细致毛孔,深层清洁 2

保湿补水,控油平衡,美白祛斑,细致毛孔,深层清洁,祛皱抗衰26

因此我们将采用一系列的二元变量E_BS(保湿),E_KY(控油),E_MB(美白),E_XZ(细致毛孔),E_KS(抗衰老),E_QJ(清洁0来表示该品牌是否具有该种功效。处理结果为:

对于适合肤质这一变量同样采用数据透视表来查看:

SKIN 汇总

干性38

干性、混合性 1

混合型至油性 1

混合性48

混合性,干性 1

混合性,油性 5

混合性,油性,干性 1

混合性,中性24

混合性,中性,干性 1

混合性,中性,干性,敏感性 3

混合性,中性,油性12

混合性,中性,油性,干性20

混合性,中性,油性,干性,敏感性7

混合性,中性,油性,干性,敏感性,所有肤质 2

混合性,中性,油性,干性,所有肤质 6

敏感性11

偏干 1

是 2

所有肤质880

推荐中性、干性、混合性及各种缺水性干燥肌肤。 1

油性31

油性及混合性肤质 2

中性23

中性,干性 1

中性,油性 1

中性及干性 1

我们可以发现其中大多数产品都适用于所有肤质,因此我们将采用一个二元变量BSKIN来描述适合肤质这一变量,1带表适合所有肤质,0代表针对部分肤质。处理部分结果如下:

之后,对买家购买后的评价数据集进行处理。由于技术方面的缺

乏,本论文仅采用评分作为消费者对商品评价的唯一方式。评价数据集中的数据来源于2013年10月20号到22号三天的时间产生的评论信息,因此有部分评论并不针对在这三天中所交易的商品,没有研究意义。用SQL选择研究所需数据,并求评分的均值,方法如下:

Proc sql;

CREATE table Homework.SCORCE as

select ID,A VG(SCORCE) as SCORCE from Homework.PL

GROUP BY ID;

Proc sql;

CREATE table Homework.JINGDONG as

select * from Homework.SCORCE a FULL JOIN Homework.JDNEW

on a.ID=b.ID

根据EM节点产生的统计信息如下

我们可以发现SCORCE变量存在缺失值,因为并非所有商品都被评价,我们将保留缺失值。

对于品牌信息的描述:

根据EM节点查看BRAND变量的统计信息如下:

相关文档
最新文档