082第八章机器学习决策树ID3算法的实例解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解:出现正面与反面的概率分别是1/4,3/4, 它们的信息量是
I(正)= -lbp(正)= -lb1/4=2b
I(反)= -lbp(反)= -lb3/4=0.415b
信源含有的信息量是信源发出的所有可
能消息的平均不确定性,香农把信源所含有 的信息量称为信息熵,是指每个符号所含信 息量的统计平均值。m种符号的平均信息量 为
风速 弱 强 弱 弱 弱 强 强 弱 弱 弱 强 强 弱 强
活动 取消 取消 进行 进行 进行 取消 进行 取消 进行 进行 进行 进行 进行 取消
是否进行垒球活动
进行 取消
晴
阴
雨
进行 取消 晴 阴 雨
活动的熵
进行 取消
活动有2个属性值,进行,取消。其熵为:
H(活动) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94
I (xi | y j ) log p(xi | y j )
12
条件熵
在给定yj条件下,xi的条件自信息量为I(xi| yj), X集合的条件熵H(X|yj)为
H ( X | y j ) p(xi | y j )I (xi | ห้องสมุดไป่ตู้ j )
i
– 在给定Y(即各个yj )条件下,X集合的条件熵H(X|Y)
H (X ) p(xi )I (xi ) p(xi ) log p(xi )
i
i
抛一枚均匀硬币的信息熵是多少? 解:出现正面与反面的概率均为0. 5,信息熵 是
q
H x pxi log pxi i 1
(0.5log 0.5 0.5log 0.5)
1b
抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息量 是多少? 解:出现正面与反面的概率分别是1/4,3/4, 信息熵是
H (X | Y ) p( y j )H (X | y j )
j
条件熵H(X|Y)表示已知Y后,X的不确定度
13
是否适合打垒球的决策表
天气 晴 晴 阴 雨 雨 雨 阴 晴 晴 雨 晴 阴 阴 雨
温度 炎热 炎热 炎热 适中 寒冷 寒冷 寒冷 适中 寒冷 适中 适中 适中 炎热 适中
湿度 高 高 高 高 正常 正常 正常 高 正常 正常 正常 高 正常 高
46
1998 Brin, S.
45
1997 Freund, Y.
45
1996 Hastie, T
45
2001 Hand, D.J
34
1984 L.Breiman
陈述人
Hiroshi Motoda Joydeep Ghosh QiangYang Christos Faloutsos Joydeep Ghosh Christos Faloutsos Zhi-Hua Zhou Vipin Kumar Qiang Yang Dan Steinberg
决策树模型
ICDM 2006会议的算法投票结果
共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种 候选算法进行投票,选出了数据挖掘10大算法
排名 挖掘主题 算法
1 分类
C4.5
2 聚类
k-Means
3 统计学习 SVM
4 关联分析 Apriori
5 统计学习 EM
6 链接挖掘 PageRank
对 信 息 量 的 认 识 理 解
信息量的定义
若一个消息x出现的概率为p,则这一消息所含的信息量为 I log p 其中,对数的底大于1
信息量单位
以2为底时,单位为 bit(binary unit,比特) 以e为底时,单位为 nat(natural unit,奈特) 以10为底时,单位为 hart(Hartley,哈特)
信息的定量描述
衡量信息多少的物理量称为信息量。
若概率很大,受信者事先已有所估计,则该消息信 息量就很小;
若概率很小,受信者感觉很突然,该消息所含信息 量就很大。
信息量的定义
根据客观事实和人们的习惯概念,函数f(p) 应满足以下条件:
1. f(p)应是概率p的严格单调递减函数,即当p1>p2, f(p1)<f(p2); 2. 当p=1时,f(p)=0; 3. 当p=0时,f(p)=∞; 4. 两个独立事件的联合信息量应等于它们分别的信息量之和。
已知户外的天气情 况下活动的条件熵
进行 取消 晴
阴
雨
户外有三个属性值,晴,阴和雨。其熵分别为:
H(活动|户外=晴) = - (2/5)*log2(2/5) - (3/5)*log2(3/5) = 0.971 H(活动|户外=阴) = - (4/4)*log2(4/4) = 0 H(活动|户外=雨) = - (3/5)*log2(3/5)- (2/5)*log2(2/5) = 0.971
抛一枚均匀硬币,出现正面与反面的信息量 是多少?
解:出现正面与反面的概率均为0. 5,它们的 信息量是
I(正)= -lbp(正)= -lb0.5=1b
I(反)= -lbp(反)= -lb0.5=1b
抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息量 是多少?
7 集装与推进 AdaBoost
8 分类
kNN
9 分类
Naïve Bayes
10 分类
CART
得票数 发表时间
作者
61
1993 Quinlan, J.R
60
1967 MacQueen, J.B
58
1995 Vapnik, V.N
52
1994 Rakesh Agrawal
48
2000 McLachlan, G
已知户外时活动的条件熵
晴
阴
雨
H(活动|户外)=5/14*H(活动|户外=晴)+4/14*H(活动|户外=阴) +5/14* H(活动|户外=雨)
= (5/14)*0.971 + (4/14)*0 +(5/14)*0.971 = 0.693
平均互信息
I(活动;户外) = H(活动) - H(活动|户外) = 0.94- 0.693 = 0.246
q
H x pxi log pxi i 1
(1/ 4 log1/ 4 3 / 4 log1/ 4)
0.811b/symbol
例:气象预报
X 晴 阴 大雨 小雨
p( x)
1/
2
1/ 4
1/8
1/
8
条件自信息量
在事件yj出现的条件下,随机事件xi发生 的条件概率为p(xi | yj) ,则它的条件自信息量 定义为条件概率对数的负值:
I(正)= -lbp(正)= -lb1/4=2b
I(反)= -lbp(反)= -lb3/4=0.415b
信源含有的信息量是信源发出的所有可
能消息的平均不确定性,香农把信源所含有 的信息量称为信息熵,是指每个符号所含信 息量的统计平均值。m种符号的平均信息量 为
风速 弱 强 弱 弱 弱 强 强 弱 弱 弱 强 强 弱 强
活动 取消 取消 进行 进行 进行 取消 进行 取消 进行 进行 进行 进行 进行 取消
是否进行垒球活动
进行 取消
晴
阴
雨
进行 取消 晴 阴 雨
活动的熵
进行 取消
活动有2个属性值,进行,取消。其熵为:
H(活动) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94
I (xi | y j ) log p(xi | y j )
12
条件熵
在给定yj条件下,xi的条件自信息量为I(xi| yj), X集合的条件熵H(X|yj)为
H ( X | y j ) p(xi | y j )I (xi | ห้องสมุดไป่ตู้ j )
i
– 在给定Y(即各个yj )条件下,X集合的条件熵H(X|Y)
H (X ) p(xi )I (xi ) p(xi ) log p(xi )
i
i
抛一枚均匀硬币的信息熵是多少? 解:出现正面与反面的概率均为0. 5,信息熵 是
q
H x pxi log pxi i 1
(0.5log 0.5 0.5log 0.5)
1b
抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息量 是多少? 解:出现正面与反面的概率分别是1/4,3/4, 信息熵是
H (X | Y ) p( y j )H (X | y j )
j
条件熵H(X|Y)表示已知Y后,X的不确定度
13
是否适合打垒球的决策表
天气 晴 晴 阴 雨 雨 雨 阴 晴 晴 雨 晴 阴 阴 雨
温度 炎热 炎热 炎热 适中 寒冷 寒冷 寒冷 适中 寒冷 适中 适中 适中 炎热 适中
湿度 高 高 高 高 正常 正常 正常 高 正常 正常 正常 高 正常 高
46
1998 Brin, S.
45
1997 Freund, Y.
45
1996 Hastie, T
45
2001 Hand, D.J
34
1984 L.Breiman
陈述人
Hiroshi Motoda Joydeep Ghosh QiangYang Christos Faloutsos Joydeep Ghosh Christos Faloutsos Zhi-Hua Zhou Vipin Kumar Qiang Yang Dan Steinberg
决策树模型
ICDM 2006会议的算法投票结果
共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种 候选算法进行投票,选出了数据挖掘10大算法
排名 挖掘主题 算法
1 分类
C4.5
2 聚类
k-Means
3 统计学习 SVM
4 关联分析 Apriori
5 统计学习 EM
6 链接挖掘 PageRank
对 信 息 量 的 认 识 理 解
信息量的定义
若一个消息x出现的概率为p,则这一消息所含的信息量为 I log p 其中,对数的底大于1
信息量单位
以2为底时,单位为 bit(binary unit,比特) 以e为底时,单位为 nat(natural unit,奈特) 以10为底时,单位为 hart(Hartley,哈特)
信息的定量描述
衡量信息多少的物理量称为信息量。
若概率很大,受信者事先已有所估计,则该消息信 息量就很小;
若概率很小,受信者感觉很突然,该消息所含信息 量就很大。
信息量的定义
根据客观事实和人们的习惯概念,函数f(p) 应满足以下条件:
1. f(p)应是概率p的严格单调递减函数,即当p1>p2, f(p1)<f(p2); 2. 当p=1时,f(p)=0; 3. 当p=0时,f(p)=∞; 4. 两个独立事件的联合信息量应等于它们分别的信息量之和。
已知户外的天气情 况下活动的条件熵
进行 取消 晴
阴
雨
户外有三个属性值,晴,阴和雨。其熵分别为:
H(活动|户外=晴) = - (2/5)*log2(2/5) - (3/5)*log2(3/5) = 0.971 H(活动|户外=阴) = - (4/4)*log2(4/4) = 0 H(活动|户外=雨) = - (3/5)*log2(3/5)- (2/5)*log2(2/5) = 0.971
抛一枚均匀硬币,出现正面与反面的信息量 是多少?
解:出现正面与反面的概率均为0. 5,它们的 信息量是
I(正)= -lbp(正)= -lb0.5=1b
I(反)= -lbp(反)= -lb0.5=1b
抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息量 是多少?
7 集装与推进 AdaBoost
8 分类
kNN
9 分类
Naïve Bayes
10 分类
CART
得票数 发表时间
作者
61
1993 Quinlan, J.R
60
1967 MacQueen, J.B
58
1995 Vapnik, V.N
52
1994 Rakesh Agrawal
48
2000 McLachlan, G
已知户外时活动的条件熵
晴
阴
雨
H(活动|户外)=5/14*H(活动|户外=晴)+4/14*H(活动|户外=阴) +5/14* H(活动|户外=雨)
= (5/14)*0.971 + (4/14)*0 +(5/14)*0.971 = 0.693
平均互信息
I(活动;户外) = H(活动) - H(活动|户外) = 0.94- 0.693 = 0.246
q
H x pxi log pxi i 1
(1/ 4 log1/ 4 3 / 4 log1/ 4)
0.811b/symbol
例:气象预报
X 晴 阴 大雨 小雨
p( x)
1/
2
1/ 4
1/8
1/
8
条件自信息量
在事件yj出现的条件下,随机事件xi发生 的条件概率为p(xi | yj) ,则它的条件自信息量 定义为条件概率对数的负值: