数据仓库与数据挖掘 第五讲 分类---决策树分类、贝叶斯分类、神经网络分类
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
增益率 (C4.5)
信息增益倾向于有大量不同取值的属性(划分更细,更纯)
Yes
No
测试数据
Refund Marital Taxable Status Income Cheat
No
Married 80K
?
10
NO
MarSt
Single, Divorced
Married
< 80K
TaxInc
NO > 80K
NO
YES
决策树的应用
Refund
Yes
No
测试数据
Refund Marital Taxable Status Income Cheat
yes
>40 low >40 low
yes fair yes excellent
yes
Gain(credit _ rating) 0.048
no
31…40 low
yes excellent
yes
<=30 medium no fair
no
<=30 low
yes fair
yes
>40 medium yes fair
Test Set
Class ? ? ? ? ?
Learning algorithm
Induction Learn Model
Apply Model
Deduction
Model
分类: 一个两步的过程
模型构建:描述一组预先定义的类 假定每个元组/样本 属于一个类, 由类标签属性设定 用于构建模型的元组集合称为训练集training set 模型可以表示为分类规则,决策树, 数学公式
no
A nne A ssociate P rof 3
no
Classifier (Model)
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
Process (2): 用模型预测
Classifier
Testing Data
NAME RANK
No
Married 80K
?
10
NO
MarSt
Single, Divorced
Married
Cheat预测为No
< 80K
TaxInc
NO > 80K
NO
YES
有监督 vs. 无监督学习
有监督学习 (分类) 监督:训练数据(观察,测量等)都带有类标签,指示 观察的类别 根据训练集分类新数据
无监督学习 (聚类) 训练集的类别(标签)未知 给定一个观察、测量等的集合,目标是建立数据中存 在的数据的类或簇
模型使用: 分类将来/未知对象 估计模型的准确率
测试集:独立于训练集的样本 (避免过度拟合overfitting) 比较测试样本的已知标签/由模型预测(得到)标签 准确率:测试样本集中模型正确预测/分类的样本的比率
如果准确率合时,使用模型来分类标签为未知的样本
Process (1): 模型构建
Training Data
属性是分类属性(若是连续值,事先离散化)
基于选择的属性,样本被递归地分割 基于启发式/统计量来选择测试属性 (例如 信息增益) 终止划分的条件 一个给定节点的所有样本属于一个类别 没有属性剩下,用于进一步划分 –运用多数投票来标记 此节点 没有样本剩下
属性选择度量
属性选择度量 分裂规则,决定给定节点上的元组如何分裂 具有最好度量得分的属性选定位分裂属性
YEARS TENURED
T om A ssistant P rof 2
no
M erlisa A ssociate P rof 7
no
George Professor
5
yes
Joseph A ssistant P rof 7
yes
Unseen Data (Jeff, Professor, 4)
Tenured?
决策树另一实例
Tid Refund Marital Taxable Status Income Cheat
1 Yes 2 No 3 No 4 Yes 5 No 6 No 7 Yes 8 No 9 No 10 No
10
Single 125K No
Married 100K No
Single 70K
No
分类: 一个两步的过程
Tid 1 2 3 4 5 6 7 8 9 10
10
Attrib1 Attrib2
Yes
Large
No
Medium
No
Small
Yes
Medium
No
Large
No
Medium
Yes
Large
No
Small
No
Medium
No
Small
Attrib3 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
根据训练集,构照分类模型(训练集中每个元组的 分类标号事先已经知道)
估计分类模型的准确性,如果其准确性可以接受的 话,则利用它来对未知数据进行分类 Prediction: 构造、使用模型来对某个样本的值进行估计,例如预 测某个不知道的值或者缺失值 主要用于对连续或有序的数据进行预测 应用
根据邮件标题、正文关键字、发件人等信息推测是否 是垃圾邮件;根据自然人月收入、家庭负债等信息推 测是否是潜在贷款对象。
yes student?
31…40 high yes fair
yes
>40 medium no excellent
no
no
yes
age?
31..40
yes
>40 credit rating? excellent fair
no
yes
yes
决策树归纳的算法
基本算法 (贪心算法) 树构建:自顶向下递归地分治方式 开始,所有的训练样本位于根节点
上升序排序 A 典型地, 每对相邻值的中点是一个可能的分裂点
(ai+ai+1)/2 is the midpoint between the values of ai and ai+1
具有最小期望信息需求的点选为A的分裂点 Split:
D1 为D中元组满足 A ≤ split-point, D2 是元组满足 A > splitpoint
age income student credit_rating buys_computer
<=30 high <=30 high
no fair no excellent
no no
Gain(income) 0.029
31…40 high
no fair
>40 medium no fair
yes
Gain(student) 0.151
数据仓库与数据挖掘
第五讲 分类
蒲飞
分类(Classification)与预测(Prediction)
什么是分类? 什么是预测? 分类和预测的相关问题 模型评估与优化
分类(Classification)与预测(Prediction)
Classification 主要用于对离散的数据进行预测 分为两步:
NO
YES
决策树的应用
Refund
Yes
No
测试数据
Refund Marital Taxable Status Income Cheat
No
Married 80K
?
10
NO
MarSt
Single, Divorced
Married
< 80K
TaxInc
NO > 80K
NO
YES
决策树的应用
Refund
Married 120K No
Divorced 95K
Yes
Marriห้องสมุดไป่ตู้d 60K
No
Divorced 220K No
Single 85K
Yes
Married 75K
No
Single 90K
Yes
训练集Training Data
Married NO
MarSt Single, Divorced
Refund
yes
>40 low yes excellent
no
31…40 low yes excellent
yes
<=30 medium no fair <=30 low yes fair
no yes
<=30
>40 medium yes fair
yes
<=30 medium yes excellent
yes
31…40 medium no excellent
yes
<=30 medium yes excellent
yes
31…40 medium no excellent
yes
31…40 high
yes fair
yes
>40 medium no excellent
no
计算信息增益-连续值属性
令 A 为连续属性 必须为A确定一个最佳分裂点 best split point
三种度量 信息增益、增益率、Gini指标
数学符号 D为元组的训练集,元组属于m个不同的类Ci(i=1…m) Ci,D是D中的Ci类的元组集合 |Ci,D|和|D|分别表示各自的元组个数
属性选择度量: 信息增益(ID3/C4.5)
选择具有最高信息增益的属性
令 pi 为D中的任一元组属于类 Ci概率, 估计为 |Ci, D|/|D|
分类D中元组需要的期望信息(entropy) :
m
Info(D) pi log 2 ( pi ) i 1
(利用 A 分裂D 为v个部分后)分类D 需要的信息为:
InfoA(D)
v j 1
| |
Dj D
| |
Inf
o(
D
j
)
以属性A分枝得到的信息增益
Gain(A) Info(D) Info A(D)
Classification Algorithms
NAME RANK
YEARS TENURED
M ike A ssistant P rof 3
no
M ary A ssistant P rof 7
yes
B ill P rofessor
2
yes
Jim A ssociate P rof 7
yes
D ave A ssistant P rof 6
决策树归纳: 例子
age income student credit_rating buys_computer
<=30 high no fair
no
<=30 high no excellent
no
31…40 high no fair
yes
>40 medium no fair
yes
>40 low yes fair
简单例子
分类
三岁小孩,给他看几个水果,并告诉他:红的圆的是苹果,橘黄 的圆的是橘子 (建模型) 拿一个水果问小孩:这个水果,红的圆的,是什么?(用模型)
聚类
三岁小孩,给他一堆水果,告诉他:根据颜色分成两堆。小孩会 将苹果分成一堆,橘子分成一堆。假如告诉他:根据大小分成3堆 ,则宝宝会根据大小分成3堆,苹果和橘子可能会放在一起。
21
Class P: 买电脑 = “yes” Class N: 买电脑 = “no”
Info(D)
9 14
log2
(9 14
)
5 14
log2
(5 14
)
0.940
age pi ni I(pi, ni)
<=30 2 3 0.971
30…40 4 0 0
>40
3 2 0.971
Gain(age) Info (D) Infoage (D) 0.246
< 80K
TaxInc
NO > 80K
NO
YES
决策树的应用
Refund
Yes
No
测试数据
Refund Marital Taxable Status Income Cheat
No
Married 80K
?
10
NO
MarSt
Single, Divorced
Married
< 80K
TaxInc
NO > 80K
Training Set
Class No No No No Yes No No Yes No Yes
Tid 11 12 13 14 15
10
Attrib1 Attrib2
No
Small
Yes
Medium
Yes
Large
No
Small
No
Large
Attrib3 55K 80K 110K 95K 67K
分类和预测相关问题 : 对分类方法进行评价
准确性: 分类准确性和预测准确性 速度和可伸缩性
构造模型的时间 (训练时间) 使用模型的时间 (分类/预测时间) 鲁棒性 能够处理噪声和缺失数据 可伸缩性 对磁盘级的数据有效 易交互性 模型容易理解,具有较好的洞察力
分类技术
决策树Decision Tree based Methods 基于策略的分类Rule-based Methods 人工神经网络Neural Networks 朴素贝叶斯分类与贝叶斯信念网络Naïve Bayes and Bayesian Belief Networks 支持向量机Support Vector Machines
Yes
No
NO
TaxInc
< 80K
> 80K
NO
YES
模型Model
决策树的应用
从决策树根部开始
Refund
Yes
No
测试数据
Refund Marital Status
Taxable Income Cheat
No
Married 80K
?
10
NO
MarSt
Single, Divorced
Married