数据挖掘模型介绍2016
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2聚类分析—举例说明
客户关系管理是一个以客户为中心保持企业与客户互动的过程。销售客户是哪些客 户层、哪些客户需要这样的产品、是否考虑客户生命周期、是否建立以客户为导向的 客户关系、谁是公司最有价值的客户等等。要回答以上问题,综合各种数据,从不同 角度对客户进行分群、分组划分。从与公司有较大业务联系的客户交易额出发:
数据挖掘模型
刘海飞
目录
1. 数据挖掘概念与流程 2. 数据挖掘模型介绍
• 决策树模型 • 聚类模型
• 关联模型
• 回归模型 • 时间序列模型 • 主成分与因子模型 • 神经网络模型
2
数据挖掘--CRISP-DM模型
数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其 规律的技术。
测试集 评估模 式 训练数 据集 决策树 分类算 法 预测 类别未 知的数 据集
预测结 果 1、创建决策树过程 2、使用决策树模型预测过程
决策树分类模型的工作过程图 6
Building Tree
基本思想:提取分类规则,进行分类预测
input 判定树分类算法
output
训练集
决策树
决策树进行分类步骤
3个步骤:数据准备、规律寻找和规律表示。 挖掘任务:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分 析等。
由Daimler Chrysler、SPSS和NCR三家机构共同发展起来的数据挖掘 方法论(Http://www.crisp-dm.org) CRISP-DM(Cross-Industry Standard Process for Data Mining, 跨行业数据挖掘标准流程)注重数据挖掘技术的应用。CRISP-DM过 程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统 的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署 紧密结合。
停止分割的条件源自文库
一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行分割
伪代码(Building Tree)
Procedure BuildTree(S) 用数据集S初始化根节点R 用根结点R初始化队列Q While Q is not Empty do { 取出队列Q中的第一个节点N if N 不纯 (Pure) { for 每一个属性 A 估计该节点在A上的信息增益 选出最佳的属性,将N分裂为N1、N2 } }
23
1决策树——案例
24
2聚类分析
聚类分析无处不在
挖掘有价值的客户,并制定相应的促销策略:
如,对经常购买酸奶的客户 对累计消费达到12个月的老客户
针对潜在客户派发广告,比在大街上乱发传单命中率更高 ,成本更低!
2聚类分析
聚类分析无处不在
谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“ 黄金客户”! 这样银行可以…… 制定更吸引的服务,留住客户!比如: • 一定额度和期限的免息透资服务! • 百盛的贵宾打折卡! • 在他或她生日的时候送上一个小蛋糕!
21
1决策树——案例
一家金融服务公司为客户提供房屋净值贷款。该公司在过 去已经拓展了数千净值贷款服务。但是,在这些申请贷款 的客户中,大约有20%的人拖欠贷款。通过使用地理、人 口和金融变量,该公司希望为该项目建立预测模型判断客 户是否拖欠贷款。
22
1决策树——案例
SAMPSIO.HMEQ数据集中的变量,分析数据之后,该公司选择了12个预测变量来建立 模型判断贷款申请人是否拖欠。回应变量(目标变量)标识房屋净值贷款申请人是否会 拖欠贷款。变量,以及它们的模型角色、度量水平、描述,在下表中已经显示。 SAMPSIO.HMEQ数据集中的变量,
X2
50.33 41.51 52.02 26.66 61.04 39.54 36.94 52.16 34.92 59.31
* I(s1j+ ……+smj)
• A为属性,具有V个不同的取值 • 信息增益:Gain(A)= I(s1,s2,……,sm) - E(A)
训练集(举例)
age <=30 <=30 30…40 >40 >40 >40 31…40 <=30 <=30 >40 <=30 31…40 31…40 >40 income student credit_rating high no fair high no excellent high no fair medium no fair low yes fair low yes excellent low yes excellent medium no fair low yes fair medium yes fair medium yes excellent medium no excellent high yes fair medium no excellent buys_computer no no yes yes yes no yes no yes yes yes yes yes no
信息增益度度量
任意样本分类的期望信息:
I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m) • 其中,数据集为S,m为S的分类数目, Pi
| Si | |S|
• Ci为某分类标号,Pi为任意样本属于Ci的概率, si为分类 Ci上的样本数 由A划分为子集的熵: • E(A)= ∑(s1j+ ……+smj)/s
聚类分析条件
相似性Similar的度量(统计学角度) Q型聚类
主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类):
• • • • 明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离
R型聚类
用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义 距离
3
数据挖掘--CRISP-DM模型
CRISP-DM模型过程的挖掘流程包括:业务理解、数据理解、数据准 备、建立模型、模型评价、模型实施。
业务理解
数据理解
数据准备
实施
数据
建立模型
评价
CRISP-DM数据挖掘流程 4
数据挖掘技术
数据挖掘(Data Mining)技术主要无监督和有监督两大类。无监督数据挖掘:不区别对 待各个变量,而只是考察变量间的关系。有监督数据挖掘:从数据中获得深度细 致的信息,根据一些变量建立模型,来预测另一些变量。 有监督数据挖掘方法:聚类分析、因子分析、主成分分析、神经网络、预测等; 无监督数据挖掘方法: 关联规则挖掘、时序挖掘、偏差分析等。
no
yes
excellent
fair
no
yes
no
yes
1决策树
优点: 1)可以生成可以理解的规则; 2)计算量相对来说不是很大; 3) 可以处理连续和种类字段、对数据没有特殊要求; 4) 决策树可以清晰的显示哪些字段比较重要。 缺点: 1) 对连续性的字段比较难预测;
2) 对有时间顺序的数据,需要很多预处理的工作;
x11 x 21 xn1 x12 x22 xn 2 x1m x2 m xnm
相异度矩阵:存储n个对象两 两之间的近似度,通常用一个 维的矩阵表示
0 d 2,1 0 d 3,1 d 3, 2 0 d n,1 d n, 2 0
2聚类分析
聚类就是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同 类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能 的数据属性之间的相互关系。目前常见的聚类算法有基于划分的算法、基于层次的 算法、基于密度算法和基于网格的算法等等。 聚类对数据没有特殊要求:离散的、连续的数值型、字符型 不指定类别数:针对小样本 制定类别数:针对大样本 要注意变量之间的相关性(相对独立) 数据矩阵:用m个变量(也称 为属性)来表现n个对象
3) 当类别太多时,错误可能就会增加的比较快; 4) 一般的算法分类的时候,只是根据一个字段来分类。
20
1决策树
决策树法属于风险型决策方法,不同于确定型决策方法,二者适用的 条件也不同。
应用决策树决策方法必须具备以下条件: (1)具有决策者期望达到的明确目标; (2)存在决策者可以选择的两个以上的可行备选方案; (3)存在着决策者无法控制的两种以上的自然状态; (4)不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计算出来; (5)决策者能估计出不同的自然状态发生概率。
决策树生成算法分成两个步骤
树的生成 • 开始,数据都在根节点 • 递归的进行数据分片 树的修剪 • 去掉一些可能是噪音或者异常的数据
决策树使用: 对未知数据进行分割
按照决策树上采用的分割属性逐层往下,直到一个叶子节点
决策树算法
基本算法(贪心算法)
自上而下分而治之的方法 开始时,所有的数据都在根节点 属性都是种类字段 (如果是连续的,将其离散化) 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain:信息增益)
27
聚类分析原理介绍
相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论)
主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类):
• • • • 明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离
相似系数R型聚类
用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义 距离
5
分类算法
找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述, 并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集 通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常 见的分类算法有决策树算法、贝叶斯分类和支持向量机算法(Support Vector Machine)等等。
使用信息增益进行属性选择
5 4 Class P: E (age) I (2,3) I (4,0) 14 14 buys_computer = “yes” 5
Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940
14
I (3,2) 0.971
公司 1 2 3 4 5 6 7 8 9 10 X1
18.27 22.22 17.16 17.38 20.41 15.8 18.65 20.84 16.17 15.47
X2
50.48 60.77 45.09 48.45 56.86 41.34 52.8 59.99 49.18 42.56
X3
9.99 11.7 10.32 8.95 11.4 10.18 9.44 11.61 8.27 9.17
>40 3 2 0.971
使用信息增益进行属性选择
使用信息增益进行属性选择
使用信息增益进行属性选择
使用信息增益进行属性选择
使用信息增益进行属性选择
Decision Tree (结果输出)
age?
<=30
overcast 30..40
>40
student?
yes
credit rating?
Hence
Gain(age) I ( p, n) E (age)
Compute the entropy for Similarly age: Gain(income) 0.029 age pi ni I(pi, ni) Gain( student ) 0.151 <=30 2 3 0.971 30…40 4 0 0 Gain(credit _ rating ) 0.048
X4
78.74 94.7 72.56 74.78 88.67 67.32 80.89 92.44 73.62 67.2
公司 11 12 13 14 15 16 17 18 19 20
X1
16.41 17.68 17.86 12.06 21.93 14.31 16.33 19.75 12.8 22.51