决策树和模型评估
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
差 错 率 错 预 误 测 预 总 测 数 数 =f1 1ff1 1 0 0 ff0 0 1 1f1 1
实际 的数
类=1 类=0
预测的类
类=1 类=0
f11
f10
f01
f00
Tid Attrib1 Attrib2
分类过程 1 Yes
Large
Attrib3 Class
125K
No
2 No
Medium 100K
Small
95K
?
Medium 80K
?
验
1135 YNeos
LLaragrege
11607KK ? ?
集
10
Learning algorithm
学习算L法earning
Inductiaolngorithm
Induction Learn Model
学习模型
Learn
Model 模型
Apply Model
Single 70K
4 Yes Married 120K
5 No
Divorced 95K
6 No
Married 60K
7 Yes Divorced 220K
8 No
Single 85K
9 No
Married 75K
10 No
10
Single 90K
训练数据
拖欠 贷款者
No No No No Yes No No Yes No Yes
决策树定义
决策树是由结点和有向边组成的层次结构。
树中包含三种结点:
– 根结点 – 内部结点
非终结点。包含属性测试条件 ,用于分开不同特性的记录
– 叶结点
每个叶结点都赋予一个类标号
决策树 例1
Tid 有房者 婚姻 收入 状况
1 Yes Single 125K
2 No
Married 100K
3 No
90K
Yes
10
Tid AttriTb1rainAitntrigb2SeAt ttrib3 Class
11 No
Small
55K
?
12 Yes
Medium 80K
?
Tid Attrib1 Attrib2 Attrib3 Class
13 Yes 11 No
Large Small
110K
?
55K
?
检
14 No 12 Yes
No
T3id ANtotrib1 14 YYeess
SAmttarilbl 2 LMaregde ium
A7tt0rKib3 12152K0K
ClNasos NoNo
训 练
25 NNoo
MLeadriguem
10905KK
集 NoYes
36 NNoo
SMmeadllium 706K0K NoNo
47 YYeess MLeadriguem 12202K0K NoNo
58 NNoo
LSarmgeall
958K5K YeYs es
69 NNoo
MMedeiduimum 607K5K
710 YNeos
LSarmgeall
22900KK
10
8 No
Small
85K
Training Set
9 No
Medium 75K
NoNo NoYes Yes No
10 No
Small
Single, Divorced
Married
Fra Baidu bibliotek
< 80K
TaxInc
NO > 80K
NO
YES
使用模型测试数据-3
Refund
Yes
No
Test Data
Refund Marital Taxable Status Income Cheat
No
10
Married 80K ?
NO
MarSt
Single, Divorced
Married
< 80K
TaxInc
NO > 80K
NO
YES
使用模型测试数据-4
Refund
Yes
性的转换函数),实现对未知分类的记录进行 尽可能精确地分类。
– 通常,将给定的数据集分为训练集(training set ) 和检验集(test set ) 。训练集用来创建模型,检 验集用来验证模型的有效性。
分类性能度量:
准 确 率 正 预 确 测 预 总 测 数 数 =f1 1ff1 1 0 1 ff0 0 0 1f1 1
属性划分
有房产
Yes
No
NO
婚姻状况
Single, Divorced
Married
< 80K
收入
NO > 80K
NO
YES
模型:决策树
决策树 例2
Tid 有房者 婚姻 收入 状况
1 Yes Single 125K
2 No
Married 100K
3 No
Single 70K
4 Yes Married 120K
NO
MarSt
Single, Divorced
Married
< 80K
TaxInc
NO > 80K
NO
YES
使用模型测试数据-2
Refund
Yes
No
Test Data
Refund Marital Taxable Status Income Cheat
No
10
Married 80K ?
NO
MarSt
Refund
Yes
No
NO
TaxInc
< 80K
> 80K
NO
YES
对于相同的数据,能构造多种不 同的决策树
决策树应用过程:使用模型测试数据-1
从树根开始
Refund
Yes
No
检验数据
Refund Marital Taxable Status Income Cheat
No
10
Married 80K ?
学习模型Apply
DeductionModel
Deduction
分类技术
基于决策树的方法 Decision Tree based Methods 基于规则的方法 Rule-based Methods 基于记忆的推理 Memory based reasoning 神经网络 Neural Networks 朴素贝叶斯和贝叶斯信念网络 Naïve Bayes and Bayesian Belief Networks 支持向量机 Support Vector Machines
5 No
Divorced 95K
6 No
Married 60K
7 Yes Divorced 220K
8 No
Single 85K
9 No
Married 75K
10 No
10
Single 90K
拖欠 贷款者
No No No No Yes No No Yes No Yes
Married NO
MarSt Single, Divorced
章 分类:基本概念、决策树和模型评估
4.1 预备知识 4.2 解决分类问题的一般方法
分类例子
预测癌细胞是良性还是恶性 将信用卡交易分为合法和欺诈
……
分类:定义
给定一个记录集
– 每个记录包含一个属性集,通常最后一个属性是该 记录的分类(class )属性.
目标:找到一个模型(从其余属性值到分类属