数据挖掘-分类-
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
64
32 32 63 1
青
中 中 老 老
中
中 高 中 中
是
否 是 否 否
优
优 良 优 优
买
买 买 不买 买
19
2 决策树算法
计 数 64 64 128 60 64 64 64 128 64 132 64 32 32 63 1 年龄 青 青 中 老 老 老 中 青 青 老 青 中 中 老 老 收入 高 高 高 中 低 低 低 中 低 中 中 中 高 中 中 学生 否 否 否 否 是 是 是 否 是 是 是 否 是 否 否 信誉 良 优 良 良 良 优 优 良 良 良 优 优 良 优 优 归类:买计算机? 不买 不买 买 买 买 不买 买 不买 买 买 买 买 买 不买 买
第1步计算决策属性的熵
决策属性“买计算机?”。该属性分 两类:买/不买 S1(买)=641 S2(不买)= 383 S=S1+S2=1024 P1=641/1024=0.6260 P2=383/1024=0.3740 I(S1,S2)=I(641,383) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9537
中
高 中 中
否
是 否 否
优
良 优 优
买
买 不买 买
22
2 决策树算法
计 数 64 64 128 60 64 64 64 年龄 青 青 中 老 老 老 中 收入 高 高 高 中 低 低 低 学生 否 否 否 否 是 是 是 信誉 良 优 良 良 良 优 优 归类:买计算机? 不买 不买 买 买 买 不买 买
训练集中的记录称为样本。在这个训练集中,每一个记录都被赋予一个 类别的标记。
3
一 分类问题综述
2 例子
信用卡公司根据信誉程度将一组持卡人记录分为良好、一般和较差三类, 且把类别标记赋给每个记录。
分类问题就是分析该组记录数据,对每个信誉等级建立分类模型。如 “信誉良好的客户是那些收入在5万元以上,年龄在40-50岁之间的人士”, 得出这个分类模型后,就可根据这个分类模型对新的记录进行分类,从而判 断一个新的持卡人的信誉等级。
2.2.3 ID3 决策树建立算法
(1) 决定分类属性; (2) 对目前的数据表,建立一个节点N (3) 如果数据库中的数据都属于同一个类,N就是树叶,在树叶上标出 所属的类 (4) 如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数服从 多数的原则在树叶上标出所属类别 (5) 否则,根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N 的测试属性 (6)节点属性选定后,对于该属性中的每个值: 从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节 点的数据表,在表中删除节点属性那一栏,如果分支数据表非空,则运用以 上算法从该节点建立子树。
注:测试属性集的组成以及测试属性的先后顺序对决策树的学习具有举足 轻重的影响。
10
2 决策树算法
2.1.3 例子
人员 1 2 3 4 5 6 眼睛颜色 黑色 蓝色 灰色 蓝色 灰色 黑色 头发颜 色 黑色 金色 金色 红色 红色 金色 所属人 种 黄种人 白种人 白种人 白种人 白种人 混血
眼睛颜色 黑色 蓝色 [2,4,8] 灰色 [3,5,7]
15
例子:
属性1 A A A A A B B B B C C C C C
训练例子的简单平面数据库
数据库T: 属性2 70 90 85 95 70 90 78 65 75 80 70 80 80 96 属性3 真 真 假 假 假 真 假 真 假 真 真 假 假 假 属性4 类1 类2 类2 类2 类1 类1 类1 类1 类1 类2 类2 类1 类1 类1
64 12 8 64 13 2 64 32 32
老
中 青 青 老 青 中 中
低
低 中 低 中 中 中 高
是
是 否 是 是 是 否 是
优
优 良 良 良 优 优 良
不买
买 不买 买 买 买 买 买
21
2 决策树算法
计 数 年龄 收入 学生 信誉 归类:买计算机?
第2-1步计算年龄的熵
年龄共分三个组: 青年、中年、老年 青年买与不买比例为128/256 S1(买)=128 S2(不买)= 256 S=S1+S2=384 P1=128/384 P2=256/384 I(S1,S2)=I(128,256) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9183
p
i
p n n 其中,
i i
为S中的样本属于第i类 C i 的概率,n为S中样本的个数。
13
2 决策树算法
期望熵
属性A划分样本集S导致的期望熵E(S, A)为:
E ( S , A)
vValues ( A )
S E S S
v v
其中,Values(A)为属性A取值的集合
S S 为S中A取值为v的样本子集, v s S | A s v
要性、减少变量的数目提供参考。
7
二 决策树分类
1.4 构造
决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。 它通常由两个步骤组成:
(1)构建决策树 开始时,所有的训练样本都在根节点;递归地通过选定的属性来划分样 本。 (2)树剪枝 许多分支反映的是训练数据中的噪声和孤立点,通过剪去最不可靠的分 支,提高树独立于测试数据正确分类的可靠性。
4
一 分类问题综述
3 一般解决方法
分类问题一般是用一种学习算法确定分类模型,该模型可以很好地拟合 输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好拟 合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主 要目标就是要建立能够准确地预测未知样本类标号的模型。
通过以上描述,可以看出解决分类问题一般包括两个步骤: (1)模型构建(归纳) 通过对训练集合的归纳,建立分类模型。
[1,6]
7
8
灰色
蓝色
黑色
黑色
混血
混血
不属于同一类,非叶结点
11
2 决策树算法
眼睛颜色
黑色
头发颜色
蓝色 头发颜色
灰色 头发颜色
黑色
金色
金色 红色
黑色
金色
黑色 红色
混血[7]
黄种人[1] 混血[6] 白种人[2]
白种人[4] 混血[8]
白种人[3] 白种人[5]
12
2 决策树算法
2.2 ID3算法
18
计数
64 64 128 60 64 64 64 128 64 132
年龄
青 青 中 老 老 老 中 青 青 老
收入
高 高 高 中 低 低 低 中 低 中
学生
否 否 否 否 是 是 是 否 是 是
信誉
良 优 良 良 良 优 优 良 良 良
归类:买计算机?
不买 不买 买 买 买 不买 买 不买 买 买
(2)预测应用(推论) 根据建立的分类模型,对测试集合进行测试。
分类方法包括:决策树分类、贝叶斯分类、基于规则的分类、神经网络 分类、支持向量机分类等。
5
二 决策树分类
1 基本概念
1.1定义
决策树(也称判定树)是类似于流程图的树结构;其中,每个内部结点表 示在一个属性上的测试,每个分支代表一个测试输出,每个树叶结点代表类 或类分布。
16
2 决策树算法
其中:9个样本属于类1,5个样本属于类2,因此有:
E (T )
9 9 5 5 log 2 log 2 0.940 14 14 14 14
根据属性1把初始样本集分成3个子集,得出结果:
5 2 2 3 3 4 4 4 E ( x1 , T ) log 2 log 2 log 2 0 14 5 5 5 5 14 4 4
分类
2011-12-3 1
主要内容
分类问题综述 决策树分类 基本概念 决策树算法 小结 贝叶斯分类
2
一 分类问题综述
1 定义
分类就是通过分析训练集中的数据,为每个类别建立分类模型;然后用 这个分类模型对数据库中的其他记录进行分类。
分类模型的输入集是一组记录集合和几种类别的标记,这个输入集又称 为示例数据或训练集。
第2-1步计算年龄的熵
中年买与不买比例为256/0 S1(买)=256 S2(不买)= 0 S=S1+S2=256
128
64 132 64 32 32 63 1
青
青 老 青 中 中 老 老
中
低 中 中 中 高 中 中
否
是 是 是 否 是 否 否
良
良 良 优 优 良 优 优
不买
买 买 买 买 买 不买 买
5 3 3 2 2 log 2 log 2 Fra Baidu bibliotek4 5 5 5 5
0.694
通过检验 x1 获得的信息增益是:
Gain( x1 , T ) 0.940 0.694 0.246
17
2 决策树算法
v
E S v 为将 S v 中的样本划分为C个类的信息熵
S
v
S
为 S v 和S中得样本个数之比
14
2 决策树算法
信息增益
属性A划分样本集S的信息增益为:
Gain(S , A) E (S ) E (S , A)
其中, E(S)为划分样本集S为c个类的熵; E(S, A)为属性A划分样本集S导致的期望熵。
64
64 128 60 64 64 64 128 64 132 64
青
青 中 老 老 老 中 青 青 老 青
高
高 高 中 低 低 低 中 低 中 中
否
否 否 否 是 是 是 否 是 是 是
良
优 良 良 良 优 优 良 良 良 优
不买
不买 买 买 买 不买 买 不买 买 买 买
32
32 63 1
中
中 老 老
20
2 决策树算法
计 数 64 64 年 龄 青 青 收入 高 高 学生 否 否 信誉 良 优 归类:买计算 机? 不买 不买
第2步计算条件属性的信息增益
条件属性共有4个,分别是年龄、收 入、学生和信誉,则计算这4个不同属性 的信息增益。
12 8
60 64
中
老 老
高
中 低
否
否 是
良
良 良
买
买 买
64
1.2决策树的表示 基本组成部分:决策结点、分支和叶子。
青 学生? 否 不买 是 中 买 优 不买 年龄? 老
信誉? 良 买
买
6
二 决策树分类
1.3 决策树的优点
(1)推理过程容易理解,决策推理过程可以表示成If -Then形式; (2)推理过程完全依赖于属性变量的取值特点; (3)可自动忽略目标变量没有贡献的属性变量,也为判断属性 变量的重
P1=256/256 P2=0/256
I(S1,S2)=I(256,0) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0
23
2 决策树算法
计 数 64 64 128 60 64 64 64 128 64 132 64 32 年龄 青 青 中 老 老 老 中 青 青 老 青 中 收入 高 高 高 中 低 低 低 中 低 中 中 中 学生 否 否 否 否 是 是 是 否 是 是 是 否 信誉 良 优 良 良 良 优 优 良 良 良 优 优 归类:买计算机? 不买 不买 买 买 买 不买 买 不买 买 买 买 买
8
2 决策树算法
2.1 CLS算法
CLS(概念学习系统)算法是早期的决策树学习算法。它是许多决策树 学习算法的基础。 2.1.1 基本思想
从一棵空决策树开始,选择某一属性(分类属性)作为测试属性。该测 试属性对应决策树中的决策结点。根据该属性的值的不同,可将训练样本分 成相应的子集,如果该子集为空,或该子集中的样本属于同一个类,则该子 集为叶结点,否则该子集对应于决策树的内部结点,即测试结点,需要选择 一个新的分类属性对该子集进行划分,直到所有的子集都为空或者属于同一 类。
2.2.1 基本思想 以信息熵为度量,用于决策树节点的属性选择,每次优先选取信息量最 多的属性,亦即能使熵值变为最小的属性,以构造一颗熵值下降最快的决策 树,到叶子节点处的熵值为0。
2.2.2 基本概念
熵 划分样本集S为c个类的熵E(S) 为:
E ( S ) p log
i 1 i c 2
9
2 决策树算法
2.1.2 决策树的构建
(1) 生成一颗空决策树和一张训练样本属性集; (2) 若训练样本集T 中所有的样本都属于同一类,则生成结点T , 并终止 学习算法;否则转(3), (3) 根据某种策略从训练样本属性表中选择属性A 作为测试属性, 生成 测试结点A (4 )若A的取值为v1,v2,…,vm, 则根据A 的取值的不同,将T 划分成 m个 子集T1,T2,…,Tm; (5) 从训练样本属性表中删除属性A; (6) 转步骤(2), 对每个子集递归调用CLS;