决策树-上-ID3C45CART及剪枝

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ቤተ መጻሕፍቲ ባይዱ
C
C
Gain(S, F ) pi log2 ( pi )
p(v) pvj log2 ( pvj )
i 1
vVofF
j 1
– 设样本集S按离散属性F的V个不同的取值划分为,S1,.., SV共V个子集

定义Split(S,
F):
Split ( S ,
F)
vV
| |
Sv S
| |
*
log
2
2 5
0.970951
4 40 0 Entropy(Soutlookovercast ) 4 log 4 4 log 4 0 定义同属于一类的情况,熵是0
C
C
(
| |
Sv S
| |
)
– 则用F对S进行划分的信息增益率为:
GainRatio(S, F ) Gain(S, F ) Split(S, F )
ID3
• 1986年由Quilan提出的ID3算法 • 选择具有最高信息增益的属性作为测试属性。 • ID3(DataSet, featureList):
– 创建根节点R – 如果当前DataSet中的数据都属于同一类,则标记R的类别为该类 – 如果当前featureList 集合为空,则标记R的类别为当前 DataSet中
样本最多的类别
– 递归情况:
• 从featureList中选择属性F(选择Gain(DataSet, F)最大的属性) • 根据F的每一个值v,将DataSet划分为不同的子集DS,对于每一个DS:
Entropy(S )
C i 1
pi
log2 ( pi )
9 14
log 9 14
5 log 5 14 14
0.940286
Entropy(Soutlook sunny
)
2 5
log
2 5
3 5
log
3 5
0.970951
Entropy(Soutlook rain
)
3 5
log
3 5
2 5
log
– 图示:
决策树
ID3=>C4.5=>C5.0
• Ross Quinlan
– ID3 1986年 – C4.5 1993年 – C5.0 1998年 – 2011年获得KDD创新奖
•/ • http://rulequest.com/download.html • http://
ID3/C4.5/C5.0的分类基础
Normal
Weak
Yes
D14 Rain
Mild
High
Strong
No
示例-1
属性及值域:
outlook = { sunny, overcast, rain },temperature = {hot, mild, cool }
humidity = { high, normal },wind = {weak, strong }
– 创建节点C – 如果DS为空,节点C标记为DataSet中样本最多的类别 – 如果DS不为空,节点C=ID3(DS, featureList - F) – 将节点C添加为R的子节点
• C源码:
Day Outlook Temperature Humidity Wind Play ball
D1 Sunny
• 信息熵 – 1948年,香农提出了“信息熵”的概念,解决了对系统信息的量 化度量问题。
– 香农认为信息的准确信息量可以用下面的信息熵公式计算:
C
Entropy(S) pi log2 ( pi ) i 1
其中,S表示样本集,
C表示样本集合中类别个数(只含有正负样本,则C=2),
p i
表示第i个类的概率,
决策树-上
• 决策树基础 • 经典决策树 • 剪枝
内容
决策树
• 决策树: 用来表示决策和相应的决策结果对应关系的树。树中每一个 非叶节点表示一个决策,该决策的值导致不同的决策结果(叶节点)或 者影响后面的决策选择。
• 示例:
天 气











不玩

不玩

决策树
• 决策树类型 – 分类树:叶节点对应于一类别 – 回归树:叶节点对应于一连续值
j 1
说明:设样本集S按离散属性F的V 个不同的取值划分为,S1,...SV 共V 个子集 其中,pvj表示Sv中第j类的概率
• 信息增益率(information gain ratio)
– 由划分个数引起的偏置问题(划分越多=>引起每个划分内部数据 纯度的变化,分块越小,数据纯度可能越高=>进而引起偏置问 题):
• ID3, C4.5 and C5.0 ( Ross Quinlan ) • CART ( L.Breiman,J.Friedman,R.Olshen和C.Stone )
• 思想:空间划分!
– 比如,用变量y表示因变量(分类变量),用x1, x2, x3,...,xm表示自变量。通过递归 的方式把关于自变量的m维空间划分为不重叠的矩形。
Hot
High
Weak
No
D2 Sunny
Hot
High
Strong
No
D3 Overcast Hot
High
Weak
Yes
D4 Rain
Mild
High
Weak
Yes
D5 Rain
Cool
Normal
Weak
Yes
D6 Rain
Cool
Normal
Strong
No
D7 Overcast Cool
Normal
Strong
Yes
D8 Sunny
Mild
High
Weak
No
D9
Sunny
Cool
Normal
Weak
Yes
D10 Rain
Mild
Normal
Weak
Yes
D11 Sunny
Mild
Normal
Strong
Yes
D12 Overcast Mild
High
Strong
Yes
D13 Overcast Hot
(p 可由类别i中含有样本的个数除以总样本数得到) i
– 一个系统越是有序,信息熵就越低;反之,一个系统越乱,信息 熵就越高。所以,信息熵也可以说是系统有序化程度的一个衡量。
• 信息增益(information gain) – 是指期望信息或者信息熵的有效减少量。
Gain(S, F ) Entropy(S) ExpectedEntropy(SF )
C
pi log2 ( pi ) p(v)Entropy(Sv )
i 1
vVofF
C
C
pi log2 ( pi )
p(v){ pvj log2 ( pvj )}
i 1
vVofF
j 1
C
C
pi log2 ( pi )
p(v) pvj log2 ( pvj )
i 1
vVofF
相关文档
最新文档