决策树模型概述(PPT 52张)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:气象预报
条件自信息量
在事件yj出现的条件下,随机事件xi发生 的条件概率为p(xi | yj) ,则它的条件自信息量 定义为条件概率对数的负值:
I ( xi | y j ) log p ( xi | y j )
12
条件熵
在给定yj条件下,xi的条件自信息量为I(xi| yj), X集合的条件熵H(X|yj)为
这一消息所含的信息量为
信息量单位
以2为底时,单位为 bit(binary 以e为底时,单位为 nat 以10为底时,单位为 hart
unit,比特)
(natural unit,奈特)
(Hartley,哈特)
抛一枚均匀硬币,出现正面与反面的信息量 是多少? 解:出现正面与反面的概率均为0. 5,它们 的信息量是 I(正)= -lbp(正)= -lb0.5=1b I(反)= -lbp(反)= -lb0.5=1b
得票数 发表时间
61 60 58 52 48 1993 1967 1995 1994 2000
作者
Quinlan, J.R MacQueen, J.B Vapnik, V.N Rakesh Agrawal McLachlan, G
陈述人
Hiroshi Motoda Joydeep Ghosh QiangYang Christos Faloutsos Joydeep Ghosh
– 在给定Y(即各个yj )条件下,X集合的条件熵H(X|Y)
条件熵H(X|Y)表示已知Y后,X的不确定度
13
是否适合打垒球的决策表
天气 晴 晴 阴 雨 雨 雨 阴 晴 晴 雨 晴 阴 阴 雨 温度 炎热 炎热 炎热 适中 寒冷 寒冷 寒冷 适中 寒冷 适中 适中 适中 炎热 适中 湿度 高 高 高 高 正常 正常 正常 高 正常 正常 正常 高 正常 高 风速 弱 强 弱 弱 弱 强 强 弱 弱 弱 强 强 弱 强 活动 取消 取消 进行 进行 进行 取消 进行 取消 进行 进行 进行 进行 进行 取消
已知户外时活动的条件熵
晴 阴 雨
源自文库
H(活动|户外)=5/14*H(活动|户外=晴)+4/14*H(活动|户外=阴) +5/14* H(活动|户外=雨) = (5/14)*0.971 + (4/14)*0 +(5/14)*0.971 = 0.693
平均互信息
I(活动;户外) = H(活动) - H(活动| 户外) = 0.94- 0.693 = 0.246
抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息量是 多少? 解:出现正面与反面的概率分别是1/4, 3/4,它们的信息量是 I(正)= -lbp(正)= -lb1/4=2b I(反)= -lbp(反)= -lb3/4=0.415b
信源含有的信息量是信源发出的所有可 能消息的平均不确定性,香农把信源所含有 的信息量称为信息熵,是指每个符号所含信 息量的统计平均值。m种符号的平均信息量 为
天 气
雨
户外有三个属性值,晴,阴和雨。其熵分别为:
H(活动|户外=晴) = - (2/5)*log2(2/5) - (3/5)*log2(3/5) = 0.971 H(活动|户外=阴) = - (4/4)*log2(4/4) = 0 H(活动|户外=雨) = - (3/5)*log2(3/5)- (2/5)*log2(2/5) = 0.971
f(p)应是概率p的严格单调递减函数,即当p1>p2, f(p1)<f(p2); 当p=1时,f(p)=0; 当p=0时,f(p)=∞; 两个独立事件的联合信息量应等于它们分别的信息量之和。
1. 2. 3. 4.
对 信 息 量 的 认 识 理 解
信息量的定义
若一个消息x出现的概率为p,则
其中,对数的底大于1
是否进行垒球活动
活 动
进行 取消
活 动
进行 晴 阴 取消
晴
阴
雨
天 气
雨
活动的熵
活 动
进行 取消
活动有2个属性值,进行,取消。其熵为:
H(活动) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94
已知户外的天气情 况下活动的条件熵
活 动
进行 晴
阴
取消
6
7 8 9 10
链接挖掘
集装与推进 分类 分类 分类
PageRank
AdaBoost kNN Naï ve Bayes CART
46
45 45 45 34
1998
1997 1996 2001 1984
Brin, S.
Freund, Y. Hastie, T Hand, D.J L.Breiman
Christos Faloutsos
决策树模型
ICDM 2006会议的算法投票结果
共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种 候选算法进行投票,选出了数据挖掘10大算法
排名 挖掘主题
1 2 3 4 5 分类 聚类 统计学习 关联分析 统计学习
算法
C4.5 k-Means SVM Apriori EM
抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息量是 多少? 解:出现正面与反面的概率分别是1/4, 3/4,信息熵是
H x
px log px
i i i 1
q
(1 / 4 log1 / 4 3 / 4 log1 / 4) 0.811b/symbol
Zhi-Hua Zhou Vipin Kumar Qiang Yang Dan Steinberg
信息的定量描述
衡量信息多少的物理量称为信息量。
若概率很大,受信者事先已有所估计,则该消息信 息量就很小; 若概率很小,受信者感觉很突然,该消息所含信息 量就很大。
信息量的定义
根据客观事实和人们的习惯概念,函数f(p) 应满足以下条件:
H ( X ) p( xi ) I ( xi ) p( xi ) log p( xi )
i i
抛一枚均匀硬币的信息熵是多少? 解:出现正面与反面的概率均为0. 5,信息 熵是
H x
px log px
i i i 1
q
(0.5 log 0.5 0.5 log 0.5) 1b