决策树 ——【人工智能 精品讲义】
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Mild
High Strong
D13 Overcast
Hot
Normal Weak
D14 Rain
Mild
High Strong
Play No No Yes Yes
调用:
n
H(X ) p(xi)log2 p(xi)
i1
H
(
X
)
194
log2
(194)
5 14
log2
(154)
0.941
Yes Let A=outlook
No H (X | A) Yes H (X | A Sunny)P(A Sunny)
H (X | A Rain)P(A Rain)
No H (X | A overcast)P(A overcast)
Yes
Yes
Yes
Yes
Yes
No
Day outlook Temperature humidity Wind
H (X | outlook) 0.971154 0.971154 0(144) 0.694
Gain(X,outlook) H(X)H(X |outlook) 0.247 值越大,表示划分后各类的期望信息越小
例子: ◆今天去打球吗?
如果天气晴朗并且湿度正常
Yes
如果是阴天.
Yes
如果今天下雨并且风很小.
决策树算法
决策树简介
决策树学习是以事例学习为基础的归纳推理算法,着眼 于从一组无次序,无规则的事例中推出决策树表示形式 的规则,学习到的决策树也能再表示为多个If-Then的规 则。
决策树归纳方法是目前许多基于规则进行归纳数据挖掘商 用系统的的基础,它在分类,预测和规则提取等领域运用 最为广泛。
(83)
5 8
log2
(85)
0.95
H
(
X
)
4 8
log2
(84)
4 8
log2(
84)
1
H
(
X
)
5 8
log2
(85)
3 8
log2
(83)
0.95
H
(
X
)
7 8
log2
(78)
1 8
log2(18)
0.54
√
H(x) xlog2(x)(1 x)log2(1 x)
同一类中的数据比较单一时,期望信息值较小,数 据的不确定性就越小。
属性选择度量:信息增益(ID3/C4.5)
▼启发式策略:选择具有最高信息增益的属性。
▼期望信息:设样本集合X含有si 个类为Ci 的元组, i =
{1, …, n},则对一个给定的样本分类所需的期望信息是:
n
H(X ) p(xi)log2 p(xi) i1
▼熵(Entropy):具有值 {a1,a2,…,av}的属性A的熵E(A)为
2.3.2 令Examplesvi 为Examples中
满足A属性值vi的子集。 Root
v1
vn
……
决策树算法描述
Root
v1
vn
Subtree ……
如果Examplesvi不为空,在这 个新分枝下加一个子树 ( Examplesviห้องสมุดไป่ตู้,Attribute-A)
该属性没有满足的样本( Examplesvi为空) ,生成 叶节点并标记为最普遍 类,返回
D6 Rain
Cool
Normal Strong
D7 Overcast
Cool
Normal Strong
D8 Sunny
Mild
High Weak
D9 Sunny
Cool
Normal Weak
D10 Rain
Mild
Normal Weak
D11 Sunny
Mild
Normal Strong
D12 Overcast
1.计算原数据的期望信息
Outlook
Sunny Overcast Rain
2.选择一个属性并标记数据
3.按照不同的属性值把数据归类,对各类分别计算期望信息
划分的根据
使划分后各类的期望信息尽可能小,即同一类中的数据尽可能单一。
H(X ) 0.941
H(X ) 0.971
H(X ) 0 H(X ) 0.971
D1 Sunny
Hot
High Weak
D2 Sunny
Hot
High Strong
D3 Overcast
Hot
High Weak
D4 Rain
Mild
High Weak
D5 Rain
Cool
Normal Weak
D6 Rain
Cool
Normal Strong
D7 Overcast
Cool
Normal Strong
训练数据可能包含缺少属性值的实例
决策树学习要解决的主要问题
●数据标注:这些数据的所有属性应该是完全标注的。 ●特征选择:数据的哪些属性可以被用来分类。 ●分支准则:即在众多分支准则中,每一步选择哪一准则使 最终的树更令人满意。 ●分类停止条件:树增长满足什么条件时停止。
决策树算法描述
ID3(Examples,Attributes) Examples即训练样例集,Attributes是决策属性列表。 输出:一棵能分类Examples的决策树。
Yes
其他情况?
No
Day outlook Temperature humidity Wind
D1 Sunny
Hot
High Weak
D2 Sunny
Hot
High Strong
D3 Overcast
Hot
High Weak
D4 Rain
Mild
High Weak
D5 Rain
Cool
Normal Weak
属性A导致的s的划分的期望信息的加权平均和:
v
H (X | A) p(1)H (X |1) i1
▼信息增益:在A上分枝将获得的信息增益是:
Gain(A) H(X) H(X | A)
期望信息跟数据的不确定程度有关
H
(
X
)
1 8
log2(18)
7 8
log2
(78)
0.54
√
H
(
X
)
3 8
log2
决策树算法描述
Step 1:创建树的根节点。
如果不是这两种情况,往下执行。
Root
决策树算法描述
Step 2: 2.1 A Attributes中分类Examples能力最 好的属性。 2.2 Root的决策属性A。
决策树算法描述
2.3 对于A的每一个可能值vi
2.3.1 在Root下加一个新的 分枝对应测试A= vi
根节点
个子小
个子大
内部节点
表示一个属性
不会吱吱叫
会吱吱叫 脖子短
节点分支
脖子长 表示一个属性值
松鼠
老鼠
鼻子短
长颈鹿 鼻子长
叶子节点
表示一个分类结果
犀牛
大象
个子大∧脖子短∧鼻子长→大象
决策树适用的问题
决策树最适合解决具有以下特征的问题:
实例是由“属性——值”对表示的 目标函数具有离散的输出值 可能需要析取的描述 训练数据可能包含噪声错误
D8 Sunny
Mild