SPSS Modeler数据挖掘操作之分类回归树的基本应用示例
基于IBM SPSS Modeler 14.2的数据挖掘
基于IBM SPSS Modeler14.2的数据挖掘对某公司销售记录进行分析。
该公司在2012.7.13-2010.8.17进行了发放优惠劵活动,产生了1291条记录,9个字段,每个字段的意义如表1所示。
数据可以到下面地址下载:http://61.129.34.202/BIweb/eBay_business_case_v3.0.xlsx。
表1 记录中字段的意义字段名字段类型字段意义Cmpgn_name 标志活动名,均为Coupon campaign nameControl_yn 标志购买者类型: 控制:'c', 测试:'t'Redeemer_YN 标志是否为重复购买者: 是:'y', 否:'n'USER_ID 连续购买者IDGender 名义购买者性别: 女:'F',男:'M', 未知:'U'sge 连续购买者年龄, age=-99 意味着信息丢失CK_DATE 连续购买日期BUY_QTY 连续购买商品数量GMB 连续购买金额(美元)下面利用IBM SPSS Modeler 14.2进行决策树、聚类分析、关联分析和回归分析。
(1)决策树分析启动IBM SPSS Modeler 14.2,导入文件。
在工作平台上,添加一个Excel源节点。
双击该节点,文件类型设为“Excel 2007,2010(*.xlsx)”,导入文件为源Excel文件的路径,按名称DATA选择工作表,其他默认设置,如图15.87所示。
图15.87 导入文件查看源数据。
添加一个“表”节点,运行该表节点。
如图15.88所示,共有9个字段,1291条记录。
图15.88源数据下面首先利用C5.0算法进行决策树分析,探讨客户的年龄、性别、单次购买量、单次购买金额与购买者是否重复购物的关系。
添加“类型”节点。
在数据源节点后添加一个类型节点,把gender、age、BUY_QTY和GMB的角色设为数据流的输入,redeemer_yn的角色设为目标,其他的角色设为无,如图15.89所示。
SPSS Modeler数据挖掘 第四讲
确定每一步特征空间划分标准时,都同时兼顾由此将 形成的两个区域,希望划分形成的两个区域所包含的 样本点尽可能同时“纯正”
决策树算法概述:核心问题
第一,决策树的生长 利用训练样本集完成决策树的建立过程 第二,决策树的剪枝 利用测试样本集对所形成的决策树进行精简
决策树算法概述:树生长
P(u 2 | v1 ) P11 P21 P(u 2 | v2 ) P12 P22
C5.0算法:熵
先验不确定性:通信发生前,信宿对信源的状态具 有不确定性 后验不确定性:通信发生后,信宿收到发自信源的 信息,先验不确定性部分被消除,信宿对信源仍有 一定程度的不确定性 后验不确定性等于先验不确定性,表示信宿没有 收到信息; 后验不确定性等于零,表示信宿收到了全部信息 信息是用来消除随机不确定性的,信息量的大小 可由所消除的不确定性大小来计量
分类预测:决策树(一)
主要内容
决策树算法概述 从学习角度看,决策树属有指导学习算法 目标:用于分类和回归 C5.0算法及应用 分类回归树及应用 模型的对比分析
决策树算法概述:基本概念
得名其分析结论的展示方式类似一棵倒置的树
•根节点 •叶节点 •中间节点 •2叉树和多 叉树
决策树算法概述:特点
信息熵等于0,表示只存在唯一的信息发送可能, P(ui)=1,没有发送的不确定性; 如果信源的k个信号有相同的发送概率,P(ui)=1/k, 则信息发送的不确定性最大,信息熵达到最大 P(ui)差别小,信息熵大,平均不确定性大;反之
C5.0算法:信息增益
已知信号U的概率分布P(U)且收到信号V=vj,发出信 号的概率分布为P(U|vj),信源的平均不确定性:
基于IBM-SPSS-Modeler-14.2的客户数据挖掘
基于IBM SPSS Modeler 14.2的客户数据挖掘IBM SPSS Modeler 14.2是一个从大量数据中挖掘有用模式的企业级数据分析平台,遵循跨行业数据挖掘流程标准(CRISP-DM)。
从数据源到数据建模,IBM SPSS Modeler 14.2提供了丰富的数据挖掘流程各个阶段需要的组件。
IBM SPSS Modeler 14.2包含数据获取、数据预处理、数据建模、评估和部署等一系列步骤,分析人员可通过拖放方式组合节点完成数据挖掘流程(以下简称数据流)。
IBM SPSS Modeler 14.2主界面如图 1 所示,包括流工作区、节点选项卡、管理器和IBM SPSS Modeler工程。
其中流工作区主要是用于创建数据流,用户可以把节点选项卡下的组件直接拖放到流工作区。
节点选项卡有多种节点:数据源、记录选项、字段选项、图形、建模、输出和导出等。
管理器主要用于管理输出和模型,用户可以对这些输出和模型进行打开、重命名、保存和删除等操作。
IBM SPSS Modeler工程允许用户以CRISP-DM模式管理数据流。
图1 IBM SPSS Modeler主界面IBM SPSS Modeler 14.2允许用户直接手动输入数据和把可变文件、Statistics文件、SAS文件、Excel和XML等多种数据导入,以供数据分析。
在导入数据后,需要对数据进行预处理。
IBM SPSS Modeler 14.2提供丰富的数据预处理组件,主要包括记录预处理和字段预处理。
其中在记录预处理中,提供了选择、抽样、汇总、排序、合并和追加等组件。
字段预处理包括类型、过滤、导出、分箱、字段重排、自动数据准备和分区等组件。
IBM SPSS Modeler 14.2提供了各种来自机器学习和统计学的建模方法,如分类、关联、聚类、序列和回归等模型。
本章应用IBM SPSS Modeler 14.2平台的几种常用数据挖掘算法,对客户交易的数据进行分析,获取客户管理有用的知识。
数据挖掘第19讲SPSSModeler分类课件
习方式
基于连
接方式
神经网络节点构成
W1
W2
加
法
器
激活函
数
神经网络激活函数
➢ 阀值函数(阶跃函数)
() =
1 (当v大于等于0时)
0 (当v小于0时)
➢ 分阶段函数
➢ Sigmoid函数(S型函数)
1
() =
1 − −
神经网络建立步骤
① 数据处理(去除变量间的量纲影响、分类型变量
案例背景
中国电信市场的用户通常都为刚需用户,不存
A
在用户不再使用电信业务。但各大运营商之间
却存在巨大的竞争,尤其是各家运营商之间的
很多服务几乎都是交叉重叠的服务,因此用户
D
ABCD
B
通常会由于某些原因离网转而使用其它运营商
的服务。为有效减少自家用户的流失,运营商
通常会基于自身的数据做一些分析来最大限度
否
是
阴天
凉爽
正常
是
是
阴天
凉爽
高
是
是
阴天
热
正常
否
是
下雨
凉爽
高
是
否
C5.0计算步骤
① 计算目标变量(是否打球)不确定性
I(是否打球)
② 计算各个输入变量的熵
E(是否打球|天气)、……、E(是否打球|是否有风)
③ 计算各个输入变量的信息增益
Gain(是否打球|天气)、 ……、 Gain(是否打球|是否有风)
14 14
14
计算步骤
Step 2:计算每个属性的信息增益(以天气为例)
天气
是否打球
=
“是”
是否打球
SPSS Modeler数据挖掘 第五讲
异质性下降指标:
Nl Nr R(t ) R(t ) R(t r ) R(t l ) N N
•从分组变量的众多取值中找到最佳分割点:同上
CART:剪枝算法
预修剪策略 决策树最大深度 父节点和子节点所包含的最少样本量或比例 树节点中输出变量的最小异质性减少量 后修剪策略 根据一定的规则,剪去决策树中的那些不具有 一般代表性的叶节点或子树 CART依次给出所有可能子树,从中挑选一棵 如何得到这些子树?挑选标准是什么?
效益评价:收益评价(单个节点)
响应%和收益%:意味追求高响应%吗? 低响应%和低收益%的规则,不理想 例:甲壳虫人群100人,90人购买,10不购买
IF 年轻富婆 THNE 买 10人,响应%=100%(高),收益%=10/90(低) 90人,响应%=70%(中低),收益%=63/90(高)
( s, t ) pl pr | p( j | tl ) p( j | tr ) | j
2
Ordered策略:适用于定序型输入变量,只 有两个连续的别类才可合并成超类
CART:生长算法(回归树)
异质性指标:方差
1 N R(t ) ( yi (t ) y (t ))2 N 1 i 1
效益评价:收益评价(单个节点)
收益:对具有某类特征的数据,输入和输出变量 取值规律的提炼的能力 针对用户关心的“目标”类别。例:流失 yes 收益评价指标 【收益:n】:节点中样本属目标类别的样本量 【响应(%)】:节点中样本属目标类别的样本 量占本节点样本的百分比(置信程度) 【收益(%)】:节点中样本属目标类别的样本 量占目标类别总样本的百分比(适用广泛性)
数据挖掘SPSSMODELER教程第二十课:回归与决策树增补
连续、分类、标志 、名义、有序
连续、分类、标志 、名义、有序
连续、分类、标志 、名义、有序
连续、分类、标志 、名义、有序
连续、分类、标 志、名义、有 序
分类、标志、名 义
连续、分类、标 志、名义、有 序
标志、名义、有 序
目标 数量
1
1
1
1
SPSS Modeler 数据挖掘项目
第二十课:回归与决策树增补回顾
回归分析
基本理解:常见分布、步进方法、交互效应、回归系数、标化、无量纲化、显著性、 置信水平、置信区间、修正R2、Z分数、T检验、F检验、条件数、VIF。。。。。。 迭代算法的理解(牛顿迭代、Fisher迭代、欧拉迭代、雅克比迭代。。。。)
代算法的理解;
标志、名义
、有序
COX
与时间相关;可以无输入,但必须选择一个时 连续、分类、
标志
1
间字段;
标志、名义
、有序
决策树
算法
特点
input output
C&R QUEST CHAID C5.0
二叉;离差;可先验;
二叉;卡方检验与方差检验;可 先验;
多叉;卡方检验;不可先验;
多叉;信息度量;不可先验;
模型 回归
特点 线性、变量独立、正态分布、方差齐性
input
连续
output
连续
目标 数量
1பைடு நூலகம்
Logistic 可作为建模基准; 线性 线性、变量独立、正态分布、方差齐性
连续、分类、 标志、名义
1
标志、名义
、有序
连续、分类、 连续
1
标志、名义
、有序
Genlin 灵活、适用性强;分布与链接函数的理解;迭 连续、分类、 连续、标志 1
数据挖掘-决策树-分类和回归树
– 将信息传输看做一种统计学现象,并且为通信 工程师提供一种方法,使用普通的二进制位流 确定通信信道的容量 —bit 。
4.2.2 信息论和信息熵
? 熵:
– 源于热力学概念; – 热力学熵( S):物理系统中不能用来做功的
能量的一种度量,也是系统无序性的一种度量; – 在构造决策树上的应用;
? 利用卡方自动交互检测法可以快速、有效 地挖掘出主要的影响因素,它不仅可以处 理非线性和高度相关的数据,而且可以将 缺失值考虑在内,能克服传统的参数检验 方法在这些方面的限制,结果的解释也简 单明了。
4.3.3 CHAID 算法
? 卡方自动交互检测法的分类过程是:
– 首先选定分类的反应变量;
– 然后用解释变量与反应变量进行交叉分类,产 生一系列二维分类表,分别计算二维分类表的 X2值,比较P 值的大小,以 P 值最小的二维表作 为最佳初始分类表,在最佳二维分类表的基础 上继续使用解释变量对反应变量进行分类;
? 决策树的主要作用是揭示数据中的结构化 信息。
4.1 引言
? 决策树算法用于树生长的策略,主要问题:
– 选择分类变量的标准; – 找到被选择的变量的分裂点的标准; – 确定何时停止树生长过程的标准。
? 本章所讨论的算法,他们主要差别是用来 处理上述问题1 ,2 的标准不同。
4.1 引言
? 如果目标变量(相应变量或类变量)是标 称/ 分类变量,称此树为分类树;
? 如果目标变量是连续的(收入),则称为 回归树。
4.2 构造分类树
? 4.2.1 用于标称属性的ID3 算法
– ID3 :归纳决策树版本 3,是一种用来数据构 造决策树的递归过程;
– 我们试探性的选择一个属性放置在根节点,并 对这个属性的每个值产生一个分支;
SPSS Modeler 建立线性回归模型
Modeler 建立线性回归模型示例线性回归模型是一种常用的统计学模型。
IBM SPSS Modeler 是一个强大的数据挖掘分析工具,本文将介绍如何用它进行线性回归预测模型的建立和使用。
在本文中,将通过建立一个理赔欺诈检测模型的实例来展示如何利用IBM SPSS Modeler 建立线性回归预测模型以及如何解释及应用该模型。
回归分析(Regression Analysis)是一种统计学上对数据进行分析的方法,主要是希望探讨数据之间是否有一种特定关系。
线性回归分析是最常见的一种回归分析,它用线性函数来对因变量及自变量进行建模(自变量和因变量都必须是连续型变量),这种方式产生的模型称为线性模型。
线性回归模型由于其运算速度快、直观性强以及参数易于确定等特点,在实践中应用最为广泛,也是建立预测模型的重要手段之一。
IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。
在后面的文章中,将通过一个理赔欺诈检测的实际商业应用来介绍如何用IBM SPSS Modeler 建立、分析及应用线性回归分析模型。
用线性回归建立理赔欺诈检测模型在本例中,用于建立模型的数据存放在InsClaim.dat 中,该文件是一个CSV 格式的数据文件,存储了某医院以往医疗保险理赔的历史记录。
该文件共有293 条记录,每条记录有 4 个字段,分别是ASG(疾病严重程度)、AGE(年龄)、LOS(住院天数)和CLAIM(索赔数额)。
图1 显示了该数据的部分内容。
图 1. 历史理赔数据文件任务与计划基于已有的数据,我们的任务主要有如下内容:∙建立理赔金额预测模型,该模型将基于病人的疾病严重程度、住院天数及年龄预测其索赔金额。
∙假设模型匹配良好,分析那些与预测误差较大的病人资料。
∙通过模型来进行索赔欺诈预测。
根据经验及对数据进行的初步分析(这个数据初步分析可以通过IBM SPSS Modeler 的功能实现,此处不是重点,故不做深入介绍),可以猜测理赔金额与疾病严重程度、住院天数以及年龄存在线性相关关系,因此我们将首先选用线性回归模型进行建模,因此可以得到下面这样一个初步计划:∙应用线性回归分析来建立模型。
回归树和分类树例子
回归树和分类树例子
回归树和分类树是两种不同类型的决策树,它们在数据挖掘中有着广泛的应用。
回归树主要用于预测连续的目标变量,例如预测房价、股票价格等。
以预测房价为例,我们可以使用回归树来建立一个模型,通过输入房屋的各个特征(如面积、卧室数量、所在区域等),模型可以预测出房屋的售价。
在回归树中,每个叶节点表示一个连续的目标变量的值,而非叶节点表示一个特征和该特征的阈值,用于将数据集分成更小的子集。
分类树主要用于预测离散的目标变量,例如预测疾病类型、用户分类等。
以预测用户是否会购买某产品为例,我们可以使用分类树来建立一个模型,通过输入用户的各个特征(如年龄、性别、收入等),模型可以预测出用户是否会购买该产品。
在分类树中,每个叶节点表示一个离散的目标变量的类别,而非叶节点表示一个特征和该特征的阈值,用于将数据集分成更小的子集。
总之,回归树和分类树都是通过建立决策树来对数据进行分类或回归预测,但它们所处理的目标变量类型不同。
SPSS数据分析——应用实例指导
5
图 4-4 Extraction 对话框 (5)单击主对话框中的[OK]按钮,输出结果如表 4-1 所示。 表 4-1 主成份分析结果输出
6
(6)应该注意的是,表 4-1 输出结果中给出的是因子负荷,并没有给出主成分。我们 可以把因子负荷除以相应的相关矩阵特征值平方根,即:
ei
pi '
i
利用 SPSS 软件对上述资料进行回归分析,分别建立 Y 与 t 的一元线性回归方程,并输 出结果。 2, 某种商品的需求量 Y、 价格 X1 和消费者收入 X2 的统计资料如表 3 所示, 利用 SPSS 软件试估计 Y 对 X1 和 X2 的线性回归方程。 表 3 某商品的统计资料 年份 1 2 3 4 5 6 7 8 9 10 需求量 Y(吨) 59190 65450 62360 64700 67400 64440 68000 72400 75710 70680 价格 X1(元) 23.56 24.44 32.07 32.46 31.15 34.14 35.3 38.7 39.63 46.68 收入 X2(元) 76200 91200 106700 111600 119000 129200 143400 159600 180000 193000
图 3-1
图 3-2
1
图 3-3 (3)单击[OK]按钮,得到如下结果:
图 3-4 散点图显示变量间具有线性相关趋势,因此可以进一步做线性回归。 (4)选择主菜单[Analyze]=>[Regression]=>[Linear](如图 3-5 所示),在左边列表框中 选 定 变 量 Y , 单 击 按 钮, 使 之 进 入 [Dependent] 框 , 选 定 变量 X , 单 击按 钮 使 之 进入 [Independent(s)]框。 打开[Statistics]对话框 (如图 3-6 所示) , 选择[Model Fit], 并在[Regression Coefficients]栏中选择[Estimates]。
数据挖掘第16讲SPSSModeler回归分析课件
逻辑回归
= + 1 1 + 2 2 +. . . + +误差
p = + 1 1 + 2 2 +. . . + +误差
ln
1−
= + 1 1 + 2 2 +. . . + +误差
逻辑回归
参数求解
极大释然估计法:
在总体概率密度函数和样本信息的基础上,求解模型中未
知参数估计值的方法。
模型保证样本出现的可能性是最大的。ห้องสมุดไป่ตู้
逻辑回归
衍生变量
ln
1−
= + 1 1 + 2 2 +. . . + +误差
二分类变量
(是或否)
ln
1−
= + 1 1 + 2 2 +. . . + +误差
逻辑回归
线性关系的显著性检验
① 定义截距(常量)模型,似然值记为0
① 假设0 : = 0
② 计算统计量
③ 统计决策
给定一个显著性水平a=0.05,
如果| | > ,拒绝零假设,说明回归方程线性显著;
2
2
如果 | | ≤ ,接受零假设,说明回归方程线性不显著;
求出显著性水平P值,
如果 < ,拒绝零假设,说明回归方程线性显著;
如果 ≥ ,接受零假设,说明回归方程线性不显著;
Y估计值
参数估计:最小二乘法
回归
判定系数
= − ത
2
= +
SPSSLogistic回归分析及其应用图文
第10页/共62页
模型中回归系数的含义
• 回归系数表示当其他自变量取值保持不变 时,该自变量取值增加一个单位引起发生 比(OR)自然对数值的变化量
• 用发生比(OR=p/(1-p))测量自变量xi变化 对发生概率的影响程度
p b0 b1x1 bp x p
logit
(
p)
ln( 1
p
p
)
b0
b1x1
bp xp
logit ( p) b0 b1x1 bp x p
其中:p为因变量取值为1(y=1)的概率,p/(1-p)称为发生比(OR)
第5页/共62页
• 最终可得p值:
第11页/共62页
分析的一般步骤
• 变量的编码 • 哑变量的设置和引入(设置参照类) • 各个自变量的单因素分析 • 变量的筛选 • 交互作用的引入 • 建立多个模型 • 选择较优的模型 • 模型应用条件的评价 • 输出结果的解释
第12页/共62页
Logistic回归的分类
• 二项Logistic回归 (Binary Regression)
概述
一般概念
• 一元直线回归
y= a + b x
• 多元直线回归
y = a + b1x1 + b2x2 + … + bkxk
• (曲线估计)
第1页/共62页
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
0.00 -4.00 -2.00 0.00 2.00 4.00
SPSS Modeler数据挖掘操作之分类汇总
多重分类汇总设置
5
本例的第二个操作目标术语 多重分类汇总问题。
其中第一个分组变量为流失, 第二个分组变量为套餐类型, 汇总变量为基本费用,如图 所示
运行结果如下
6
将【表】节点添加到数据流中并运行,可以看到汇总后的结果
SPSS Modeler数据挖掘操作之 分类汇总
分类汇总说明
1
数据的分类汇总:首先根据指定的分组变量将数据分成若干组;然后在各个 组内计算汇总变量的基本描述统计量
在【记录选项】选项卡中的【汇总】节点可实现数据的分类汇总
数据说明
2
本例以虚拟的电信客户数据为例,说明分类汇总的具体操作: 操作目标如下:
一、分别计算未流失客户和流失客户的基本费用的均值和标准差 二、分别针对未流失客户和流失客户群,计算选用不同套餐类型的客户,其基本费用的
均值和标准差
基本操作简介
3
一、选择【Stastistics文件】节点,添加到数据流区,并读入 Telephone.sav文件数据。
二、选择【记录选项】中的【汇总】节点,将其添加到数据流中,右击鼠标, 选择弹出的【编辑】选项进行参数设置,如下
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
具体操作
3
将Telephone.sav数据源添加到数据流编辑窗口,并在该节点的【类型】选 项卡,完成读取数据。
选择【建模】选项卡中的【C&R树】节点,连接到数据源后面,如图所示
具体操作
4
右键单击【C&R树】节点,选择【编辑】选 项进行节点参数设置。
【 C&R树】节点的参数设置包括“字段”、 “构建选项”、“模型选项”和“注释”, 此处只介绍“构建选项”选项卡。
具体操作-【构建选项】选设置分类 回归树的主要参数,包括目标、基 本、停止规则、成本和先验、整体、 高级六类,如图所示
具体操作-【构建选项】选项卡设置
6
【目标】选项中指定决策树的建立模 式。
具体操作-【构建选项】选项卡设置
7
【基本】选项中设置分类回归树的与 修剪和后修剪的基本参数。
在【最大树状图深度】框中指定分类 回归树不包括根节点在内的最大数深 度
8
【停止规则】选项中设置分类回归树 与修剪的其他参数
9
在【成本和先验】选项卡中设置损失矩阵 和先验分布,通常先验分布可以使基于训 练样本的,也可以指定为等概论分布。
10
在【整体】选项卡中指定使用策略时建立 模型的个数,以及与测试应如何采纳个模 型的预测结果。
11
【高级】选项卡中设置分类回归树建立和 修剪过程的高级参数。
SPSS Modeler数据挖掘操作之
分类回归树的基本应用示例
版权说明
1
本文档操作案例选编自中国人民大学出版社《基于SPSS Modeler的数据挖掘》薛 薇编著,若作者对本资料持有异议,请及时与本网站联系,我们将第一时间妥善 处理。
数据说明
2
以虚拟的典型客户数据为例,讨论回归树的具体操作以及如何通过交互操作 控制决策树的生长和修剪过程