回归与神经网络

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归和神经网络

分析目标

零售行业拥有大量消费者特征和行为数据,通过对数据进行探索挖掘得到的信息,可以帮助企业针对特定的客户进行营销,用最少的成本取得最佳的收益。分类决策树模型是一种对实例进行分类的树形结构。决策树学习算法包含特征选择、决策树的生成与剪枝过程。开始时,构建根节点,选择最优特征,该特征有几种值就分割为几个子集,每个子集分别递归调用此方法,返回节点,返回的节点就是上一层的子节点。直到数据集为空,或者数据集只有一维特征为止。logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。本文旨在通过建立决策树模型、逻辑回归模型、神经网络模型对企业的Organics 数据进行分析,通过划分训练集和验证集判断模型拟合优劣,最终选择最优模型来得到购买Organics的消费者的特征,从而为企业提供精准营销的客户。

数据情况

1.添加数据源

我们发现AGEGRP1与AGEGRP2与Age内容相似,只是用不同形式表示年龄,因此选择拒绝这两组变量;同时,Number of Organic Products Purchased代表购买的有机产品的数量,而我们分析的目的是对消费者是否购买有机产品进行预测,因此该变量相关性较弱,可以拒绝;最后,我们将Organics Purchased?设为目标变量进行分析。

2.数据集右键探索

从图中可以看到,该数据集共有18个变量,22223个观测。

从样本统计量中可以看到,大部分变量缺失值都比较严重,后面应该进行相应的补缺处理。

上图显示了数据集的前面15条数据。

从所有变量的频数统计图中可以看到,除了已经拒绝的变量,其余大部分呈现正态分布,只有变量BILL和LITME变量呈现偏态分布,因此后期数据预处理时应该对这两个变量进行转化处理。

3.统计探索

从目标变量的频数分布图可以看到购买人数占比大概是25%,而不购买的人数占比大概是75%,说明我们的样本还是有意义的。

数据预处理

1.数据分区

设置训练集比例70%,验证集比例30%。经过上次决策树实验得出70%&30%比例较好,因此本次建模直接这样分区。

分区结果如上

2.转换变量

根据以上数据探索分析,将BILL变量转换为对数,将LTIME变量转换为对数。

转换结果如上,将BILL和LTIME变量转换为对数。

3.替换变量

分类变量TV_REG明显有多个重复情况,但是用不同名称表示,因此我们将部分变量值进行替换,将数据规约成较为简洁的结果。

4.补缺

模型建立

所有模型的流程图如下:

模型一:默认回归查看-结果

从结果看,默认回归模型选择的变量太多,并且将P 值较大的变量也选入了模型中,这种模型并不能很好地反映出现实情况,因此我们将改进算法,设置回归属性参数,从而得出更好的回归模型。 模型二:逐步回归 查看-结果

设IMP_GENDER_F 为X 1,IMP_GENDER_M 为X 2,IMP_REP_AFFL 为X 3,IMP_REP_AGE 为X 4 则logistic 方程如下:

()4

3

2

1

4

3

2

1

0537.02513.00.0450X -0.8743X 0858.10537.02513.00.0450X -0.8743X 0858.11X

X X

X e

e Y E -++--++-+=

模型三:自动神经查看-权重(最终)

神经网络图如下:

模型四:自动神经(4)

选择只用Tanh激活函数

由图中可以看到,模型选择了第1步迭代的结果

模型五:神经网络

由图中可以看到,模型迭代了18步,已经在现有的条件下满足停止条件。

由图中可以看到,模型选择了第6步迭代的结果

模型六:神经网络(2)

在网络中设置隐藏单元数为13,在优化中设置最大迭代次数为200(尝试过几次,发现一共需要迭代189次才能满足停止条件),并且将模型选择准则改为“误分类率”。

模型结果

由图中可以看到,模型迭代了189步,已经在现有的条件下满足停止条件。查看-迭代图-误分类率

由图中可以看到,模型选择了第27步迭代的结果

查看-模型-权重(最终)

模型七:默认回归-神经网络(3)

由图中可以看到,模型迭代了17步,已经在现有的条件下满足停止条件。查看-迭代图-误分类率

由图中可以看到,模型选择了第1步迭代的结果

查看-权重(最终)

模型八:默认回归-自动神经(2)

由图中可以看到,模型选择了第5步迭代的结果

模型九:逐步回归-神经网络(4)

本模型的神经网络参数和前面神经网络(2)的设置保持一致查看-迭代图-误分类率

由图中可以看到,模型选择了第1步迭代的结果

查看-权重

神经网络图如下:

模型十:逐步回归-自动神经(3)

查看-迭代图-误分类率

由图中可以看到,模型选择了第18步迭代的结果查看-权重

分析结果

1.训练集和验证集的ROC曲线如下:

2.拟合统计量如下

从拟合统计量中,我们可以看到模型比较中的选择准则是验证数据集的误分类率,从误分类率结果看,最后选中了神经网络(4),也就是在逐步回归后面再加上一个神经网络模型,并且在网络中设置隐藏单元数为13,在优化中设置最大迭代次数为200,模型选择准则改为“误分类率”。对比自动神经,可以知道在本数据集中,隐藏单元数越多误分类率月低,选择的准则为“误分类率”也会相应地降低。

同时,我们可以看到神经网络的效果普遍比回归效果好,回归效果普遍比决策树好。神经网络通过自学习不断修正误差,最终得到较好的效果。

结果讨论与建议

通过对十二个模型(自动决策树、优化决策树、回归、逐步回归,自动神经、神经网络、回归+自动神经、回归加神经网络、逐步回归加自动神经、逐步回归加神经网络)的比较,我们最终选择了逐步回归加神经网络模型。先通过逐步回归选择变量,再通过神经网络优化参数。接下来对每种类型的模型选择一个结果较优的进行分析,最后对商家提供建议。

决策树模型中,我们最终选择40%&60%进行数据分区,设置最大分支数为3、评估测度为ASE的模型。

表1模型二购买人群特征

AGE AFFL GENDER

<39.5 (7.5,34.5) F

<39.5 (11.5,34.5) F,M,缺失

(39.5,44.5) (9.5,14.5) F

>44.5 (18.5,34.5) ALL

>44.5 (15.5,34.5) F

我们从图中可以看到购买人群女性居多,其中小于39.5岁的女性,只要财富等级大于7.5就会购买有机产品,39.5岁到44.5岁之间的女性只要财富等级达到11.5就会购买有机产品,大于44.5岁的女性只要财富等级达到15.5就会购买

相关文档
最新文档