【课件】08-2第八章机器学习-决策树ID3算法的实例解析PPT
完整版ID3算法课件
❖ 每个样例属于不同的类别,此例仅有两个类别,分别 为P,N。P类和N类的样例分别称为正例和反例。将 一些已知的正例和反例放在一起便得到训练集。
❖ 表6.4.1给出一个训练集。由ID3算法得出一棵正确分 类训练集中每个样例的决策树,见下图。6BACK天气晴湿度
高
正常
多云 P
雨 风
有风
无风
N
P
7
该算法的计算时间是例子个数、属性个数、结点个数之 积的线性函数。对有4761个关于苯的质谱例子作了试验。 其中正例2361个,反例2400个,每个例子由500个属性描 述,每个属性取值数目为6,得到一棵1514个结点的决策树。 对正、反例各100个测试例作了测试,正例判对82个,反例 判对80个,总预测正确率81%,效果是令人满意的。
18
S={D1,D2,D3,……,D14} 天气
晴 多云
雨
S1={D1,D2,D8,D9,D11}S2={D3,D7,D12, D13}S3={D4,D5,D6,D10,D14} 全为正例
19
⒌ 递归建树
分别对S1和S3子集递归调用ID3算法,在每个子集中对各 属性求信息增益.
(1)对S1,湿度属性信息增益最大,以它为该分枝的根结 点,再向下分枝。湿度取高的例子全为N类,该分枝标记N。取 值正常的例子全为P类,该分枝标记P。
24
总的来说,ID3由于其理论的清晰,方法简 单,学习能力较强,适于处理大规模的学习问 题 ,在世界上广为流传,得到极大的关注,是 数据挖掘和机器学习领域中的一个极好范例,也 不失为一种知识获取的有用工具。
25
表6.4.1 气候分类数据集
NO.
属性
类别
天气
气温
决策树算法演示文稿
益比率,以保证选择的划分使得增益最大。
第9章 决策树算法
28 第28页,共65页。
9.2.2.3 C4.5对缺失数据的处理
为了评估属性A是否是决策节点n的最佳测试属性,要计算决策树 在该节点的信息增益Gain(D,A)。假定< , c( )>是S中di的一d个i 训
将要介绍的算法的共同点也是在于都是利 用了相同的属性度量标准Gini指标。
第9章 决策树算法
31 第31页,共65页。
9.2.3 CART算法
Gini指标主要是度量数据划分或训练数据 集D的不纯度为主,系数值的属性作为测试 属性,Gini值越小,表明样本的“纯净度” 越高。Gini指标定义为如下公式:
6 第6页,共65页。
9.1 决策树算法原理
定义 9.1 给定一个训练数据集D=,其中每 个实例,称为例子,训练数据集中包含以 下属性A=。同时给定类别集合C。对于训 练数据集D,决策树是指具有以下性质的树:
每个内部节点都被标记一个属性Ai。
每个弧都被标记一个值,这个值对应于相 应父结点的属性。
9.2.2.1 C4.5的分裂属性选择度量
为了避免这个偏置,弥补ID系列算法的不足就要舍弃
信息增益这个度量而选择别的决策属性作为度量标准。
Quinlan在他1986年中的论文中提出了一种可以使用 的度量标准:增益比率。
增益比率通过加入一个被称为分裂信息(split information)的项来惩罚类似Date这样的属性,分
第9章 决策树算法
19 第19页,共65页。
9.2.1 ID3算法
I ( p, n)
p p n log2
决策树ID3算法ppt课件
决策树基本概念
决策树的优点
1、推理过程容易理解,决策推理过程可以表示成If Then形式;
2、推理过程完全依赖于属性变量的取值特点;
3、可自动忽略目标变量没有贡献的属性变量,也为判断属性 变量的重要性,减少变量的数目提供参考。
第6章 决策树 在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确
第6章 决策树
关于分类问题
决策树基本概念
名称 人类
体温 恒温
表皮覆 盖
毛发
胎生 是
水生动 物
否
飞行动 物
否
有腿 是
冬眠 否
海龟 冷血 鳞片
否
半
否
是
否
鸽子 恒温 羽毛
否
否
是
是
否
鲸
恒温 毛发
是
是
否
否
否
X
分类与回归 分类目标属性y是离散的,回归目标属性y是连续的
类标号
哺乳动 物
爬行类 鸟类 哺乳类
y
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
第6章 决策树 在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确
决策树基本概念
关于归纳学习(2)
归纳学习的过程就是寻找一般化描述的过程。这种一般性 描述能够解释给定的输入数据,并可以用来预测新的数据。
锐角三角形内角和等于180度; 钝角三角形内角和等于180度; 直角三角形内角和等于180度;
1、模型构建(归纳) 通过对训练集合的归纳,建立分类模型。
决策树_ID3算法
决策树_ID3算法决策树是一种用于分类和预测的机器学习算法,其中ID3(Iterative Dichotomiser 3)是一种常用的决策树算法。
ID3算法通过选择最佳特征将数据集划分为更小的子集,直到达到预定的条件或者无法进一步划分为止。
在此过程中,它使用信息增益来选择最佳划分特征。
ID3算法的核心思想是利用信息增益来判断每个特征的重要性。
信息增益是指在划分数据前后的熵的差值,熵表示数据的混乱程度。
熵越大,数据越混乱,熵越小,数据越有序。
在决策树中,我们希望选择使得熵减最大的特征作为划分依据,即信息增益最大的特征。
以下是ID3算法的具体步骤:3. 计算数据集的熵。
熵的计算公式为:E(S) = -p1*log2(p1) -p2*log2(p2) - ... - pn*log2(pn),其中pi表示数据集中属于类别i的实例占总实例数的比例。
4.对于每个特征,计算划分后的熵和信息增益,并选择信息增益最大的特征作为划分依据。
5.根据选择的特征将数据集进行划分,形成子集。
6.递归地对每个子集应用上述步骤,生成决策树的左右子树。
7.返回决策树。
ID3算法的优点是简单易懂,效率高,在处理具有大量特征的数据集时也能取得较好的结果。
然而,由于ID3算法倾向于选择具有较多取值的特征作为划分依据,可能导致生成的决策树过于复杂,容易出现过拟合现象。
此外,ID3算法只能处理离散型特征,无法处理连续型特征。
为了解决ID3算法的缺点,后续的决策树算法如C4.5和CART进行了改进。
C4.5算法在ID3算法基础上引入了对连续型特征的处理,同时使用信息增益比来选择划分特征。
CART算法则使用基尼指数来衡量划分的质量,划分后的熵越小,基尼指数越小,表示数据越有序。
综上所述,决策树算法是一种基于特征选择的分类和预测方法,其中ID3算法通过信息增益选择最佳特征进行划分。
ID3算法简单有效,但有部分局限性。
进一步改进的决策树算法能够处理连续型特征和更好地提高划分的质量。
决策树ppt课件
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。
决策树ID3算法
• 因此,这种划分的信息增益是 因此, • Gain(学生 学生)=I(s1,s2) - E(学生 学生)=0.940-0.789=0.151。 学生 学生 = 。 • 计算“信用等级”的熵。 计算“信用等级”的熵。 • 对于信用等级=“一般”: s11=6,s21=2,p11=6/8,p21=2/8, 对于信用等级= 一般” , , , , 6 6 2 2 I ( s 11 , s 2 1 ) = I ( 6 , 2 ) = − lo g 2 − lo g 2 = 0 .8 1 1 8 8 8 8 • 对于信用等级=“良好”: s12=3,s22=3,p12=3/6,p22=3/6, 对于信用等级= 良好” , , , , 3 3 3 3 I ( s1 2 , s 2 2 ) = I ( 3, 3 ) = − lo g 2 − lo g 2 = 1 6 6 6 6
2 2 2 2 lo g 2 − lo g 2 =1 4 4 4 4 对于收入= 中等” 对于收入=“中等”: s12=4,s22=2,p12=4/6,p22=2/4, , , , , 4 4 2 2 I ( s 1 2 , s 2 2 ) = I ( 4 , 2 ) = − lo g 2 − lo g 2 = 0 .9 1 8 6 6 6 6 I ( s 11 , s 2 1 ) = I ( 2 , 2 ) = −
收入
高 高 高 中等 低 低 低 中等 低 中等 中等 中等 高 中等
类别: 学生 信用等级 类别:购买电脑
否 否 否 否 是 是 是 否 是 是 是 否 是 否 一般 良好 一般 一般 一般 良好 良好 一般 一般 一般 良好 良好 一般 良好 不会购买 不会购买 会购买 会购买 会购买 不会购买 会购买 不会购买 会购买 会购买 会购买 会购买 会购买 不会购买
决策树ID3算法的实例解析
根据票数排名筛选出10大算法 (如果票数相同,则按字母顺序进行排名)
数据挖掘10大算法产生过程
1 2 3 4
三步鉴定流程 18种通过审核的候选算法 算法陈述 数据挖掘10大算法:一览
5
开放式讨论
18种通过审核的候选算法
§分类(Classification)
1. C4.5: Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc. 2. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, Belmont, CA, 1984. 3. K Nearest Neighbours (kNN): Hastie, T. and Tibshirani, R. 1996. Discriminant Adaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). 18, 6 (Jun. 1996), 607-616. 4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiot's Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, 385-398.
共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种 候选算法进行投票,选出了数据挖掘10大算法
排名 挖掘主题
机器学习-决策树之ID3算法
机器学习-决策树之ID3算法概述决策树(Decision Tree)是⼀种⾮参数的有监督学习⽅法,它是⼀种树形结构,所以叫决策树。
它能够从⼀系列有特征和标签的数据中总结出决策规则,并⽤树状图的结构来呈现这些规则,以解决分类和回归问题。
决策树算法容易理解,适⽤各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核⼼的各种集成算法,在各个⾏业和领域都有⼴泛的应⽤。
决策树的核⼼有三种算法:ID3:ID3 是最早提出的决策树算法,他就是利⽤信息增益来选择特征的。
C4.5:他是 ID3 的改进版,他不是直接使⽤信息增益,⽽是引⼊“信息增益⽐”指标作为特征的选择依据。
CART:这种算法即可以⽤于分类,也可以⽤于回归问题。
CART 算法使⽤了基尼系数取代了信息熵模型。
ID3算法是本教程的重点要讲的内容,其余两种算法将会后续推出。
数据集下⾯举个例⼦,会使⽤ID3算法帮助我们判断今天的天⽓适不适合出去打球。
进⾏判断之前,需要历史天⽓数据和打球活动数据,以下为历史数据集S。
天数天⽓⽓温湿度风⼒是否打球D1晴朗热湿弱否D2晴朗热湿强否D3⼤⾬热湿弱是D4⼩⾬中等湿弱是D5⼩⾬凉爽正常弱是D6⼩⾬凉爽正常强否D7⼤⾬凉爽正常强是D8晴朗中等湿弱否D9晴朗凉爽正常弱是D10⼩⾬中等正常弱是D11晴朗中等正常强是D12⼤⾬中等湿强是D13⼤⾬热正常弱是D14⼩⾬中等湿强否ID3算法ID3算法会选择当前信息增益最⼤的特征作为树中新的节点。
计算过程如下:步骤1假设S为完整的数据集,数据标签(数据类别)共有n个类别,分别为C1,...,Cn。
Si对应Ci类别下数据⼦集,因此,数据集S的信息熵计算如下:\[Entropy(S)=-\sum_{i=1}^{n}p_{i}\log_{2}{p_{i}} \]其中,pi是数据样本为Ci的概率,因此:\[p_i=\frac{|S_i|}{|S|} \]|Si|是类别Ci在数据集S中的数据数量,|S|是数据集S中的数据数量。
决策树_ID3算法
信息熵即所有信息在发出前的平均不确定性:
H (U) P(ui) logP(ui) i
后验熵即接收到消息后对输入消息的平 H (U | vj) P(ui | vj) logP(ui | vj) 均不确定性: i 条件熵:后验熵对输出符号集V求平均 H (U | V) P(vj) P(ui | vj) logP(ui | vj)
买
由决策树产生规则
规则1 IF A=Y AND B=Y THEN +
A Y B Y N N 负 C N 负
规则2 IF A=Y AND B=N AND C=Y THEN + 规则3 IF A=Y AND B=N AND C=N THEN –
正
正
Y
规则4 IF A=N THEN -
在沿着决策树从上到下的遍历过程中,在每个结点都有一个 测试。对每个结点上问题的不同测试输出导致不同的分枝,最后 会达到一个叶子结点。这一过程就是利用决策树进行分类的过程, 利用若干个变量来判断属性的类别
是
是 是 否 是 是 是 否 是 否 否
良
优 优 良 良 良 优 优 良 优 优
买
不买 买 不买 买 买 买 买 买 不买 买 学生? 否 不买 是 买 信誉? 优 不买 良 买
决策树的表示 决策树的基本组成部分:决策结点、分支和叶子。
年龄? 青
中 买
老
学生?
否 不买 是 买
信誉?
优 不买 良
决策树中最上面的结点称为根结点。 是整个决策树的开始。每个分支是一 个新的决策结点,或者是树的叶子。 每个决策结点代表一个问题或者决策. 通常对应待分类对象的属性。 每个叶结点代表一种可能的分类结果
机器学习--决策树(ID3)算法及案例
机器学习--决策树(ID3)算法及案例1基本原理决策树是一个预测模型。
它代表的是对象属性与对象值之间的一种映射关系。
树中每个节点表示某个对象,每个分支路径代表某个可能的属性值,每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。
一般情况下,决策树由决策结点、分支路径和叶结点组成。
在选择哪个属性作为结点的时候,采用信息论原理,计算信息增益,获得最大信息增益的属性就是最好的选择。
信息增益是指原有数据集的熵减去按某个属性分类后数据集的熵所得的差值。
然后采用递归的原则处理数据集,并得到了我们需要的决策树。
2算法流程检测数据集中的每个子项是否属于同一分类:If 是,则返回类别标签;Else计算信息增益,寻找划分数据集的最好特征划分数据数据集创建分支节点(叶结点或决策结点)for 每个划分的子集递归调用,并增加返回结果到分支节点中return 分支结点算法的基本思想可以概括为:1)树以代表训练样本的根结点开始。
2)如果样本都在同一个类.则该结点成为树叶,并记录该类。
3)否则,算法选择最有分类能力的属性作为决策树的当前结点.4 )根据当前决策结点属性取值的不同,将训练样本根据该属性的值分为若干子集,每个取值形成一个分枝,有几个取值形成几个分枝。
匀针对上一步得到的一个子集,重复进行先前步骤,递归形成每个划分样本上的决策树。
一旦一个属性只出现在一个结点上,就不必在该结点的任何后代考虑它,直接标记类别。
5)递归划分步骤仅当下列条件之一成立时停止:①给定结点的所有样本属于同一类。
②没有剩余属性可以用来进一步划分样本.在这种情况下.使用多数表决,将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时也可以存放该结点样本的类别分布[这个主要可以用来剪枝]。
③如果某一分枝tc,没有满足该分支中已有分类的样本,则以样本的多数类生成叶子节点。
算法中2)步所指的最优分类能力的属性。
这个属性的选择是本算法种的关键点,分裂属性的选择直接关系到此算法的优劣。
课件08 2第八章机器学习 决策树ID3算法的实例解析
活动 取消 取消 进行 进行 进行 取消 进行 取消 进行 进行 进行 进行 进行 取消
是否进行垒球活动
进行
取消
晴
阴
雨
进行
取消
晴 阴 雨
活动的熵
进行
取消
活动有2个属性值,进行,取消。其熵为:
H(活动) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94
? 例:气象预报
? X ? ? 晴 阴 大雨 小雨?
??p(x)?? ? ??1/ 2 1/ 4 1/ 8
1/
8
? ?
条件自信息量
在事件yj出现的条件下,随机事件xi发生 的条件概率为p(xi | yj) ,则它的条件自信息
量定义为条件概率对数的负值:
I ( xi | y j ) ? ? log p ( xi | y j )
4. 两个独立事件的联合信息量应等于它们分别的信息量之和。
对 信 息 量 的 认 识 理 解
? 信息量的定义
? 若一个消息x出现的概率为p,则这一消息所含的信息量为 I ? ? log p 其中,对数的底大于1
? 信息量单位
? 以2为底时,单位为 bit(binary unit,比特) ? 以e为底时,单位为 nat(natural unit,奈特) ? 以10为底时,单位为 hart(Hartley,哈特)
6 链接挖掘 PageRank
7 集装与推进 AdaBoost
8 分类
kNN
9 分类
Na?ve Bayes
10 分类
CART
得票数 发表时间
作者
61
1993 Quinlan, J.R
最新08-2第八章 机器学习-决策树ID3算法的实例解析精品课件
第十八页,共52页。
平均(píngjūn)互信息
I(活动(huó dòng);户外) = H(活动(huó dòng)) - H(活动(huó dòng)|户外)
= 0.94- 0.693 = 0.246
第十九页,共52页。
是否适合(shìhé)打垒球的决策表
天气 晴 晴 阴 雨 雨 雨 阴 晴 晴 雨 晴 阴 阴 雨
决策树模型(móxíng)
第一页,共52页。
ICDM 2006会议的算法投票(tóu piào)结果
共有(ɡònɡ yǒu)145人参加了ICDM 2006 Panel (会议的专题讨论),并对18 种候选算法进行投票,选出了数据挖掘10大算法
排名 挖掘主题 算法
1 分类
C4.5
2 聚类
k-Means
第十页,共52页。
例:气象预报
X 晴 阴 大雨 小雨
p(
x)
1/
2
1/ 4
1/8
1/
8
第十一页,共52页。
条件(tiáojiàn)自信息量
在事件(shìjiàn)yj出现的条件下,随机事 件(shìjiàn)xi发生的条件概率为p(xi | yj) ,则 它的条件自信息量定义为条件概率对数的负 值:
已知户外(hù wài)时活动的条
件熵
晴
阴
雨
H(活动(huó dòng)|户外)=5/14*H(活动(huó dòng)|户外= 晴)+4/14*H(活动(huó dòng)| 户外=阴) +5/14* H(活动(huó dòng)|户外=雨)
= (5/14)*0.971 + (4/14)*0 +(5/14)*0.971
决策树ID3算法
IF 年龄=“31...40”
THEN 购买电脑=“会购买”
IF 年龄=“>40” AND 信用等级=“良好” THEN 购买电脑=“不会购买”
IF 年龄=“>40” AND 信用等级=“一般” THEN 购买电脑=“会购买”
论文中的应用
• 题目: 决策树算法的研究与应用
• 作者: 杨静1,张楠男2,李建1,刘延明1,梁美红1
决策树 ID3算法
(1)决策树技术
构造决策树的基本算法是贪心算法,它以自顶向下递归的各个击 破方式构造决策树。一种著名的决策树算法是ID3,算法的基本策略 如下: • ①创建一个节点。如果样本都在同一类,则算法停止,把该节点改成 树叶节点,并用该类标记。 • ②否则,选择一个能够最好的将训练集分类的属性,该属性作为该节 点的测试属性。 • ③对测试属性中的每一个值,创建相应的一个分支,并据此划分样本。 • ④使用同样的过程,自顶向下的递归,直到满足下面的三个条件中的 一个时就停止递归。 • 给定节点的所有样本都属于同一类。 • 没有剩余的属性可以用来划分。 • 分支没有样本。
• 由于 “年龄” 属性具有最高信息增益,它被选作测试属性。创建一个
节点,用“年龄”标记,并对每个属性值引出一个分支。样本据此划
分,如图所示。
年龄
<=30
31…40
>40
收入
高 高 中等 低 中等
学生
否 否 否 是 是
信用等级
一般 良好 一般 一般 良好
类
不会购买 不会购买 不会购买 会购买 会购买
I
3, 3
3 6
log2
3 6
3 6
log2
3 6
1
• 如果样本按“信用等级”划分,对一个给定的样本分类所需的期望信
决策树完整PPT课件
第7页/共39页
信息增益
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得 的“纯度提升”越大。
决策树算法第8行选择属性 著名的ID3决策树算法
第8页/共39页
举例:求解划分根结点的最优划分属性
数据集包含17个训练样例:
8个正例(好瓜)占 9个反例(坏瓜)占
8 p1 17
p2
9 17
对于二分类任务
1,2,3,4,5 6,8,15
10
6
8,15
8
15
第(2)种情形:设定为该结点所含样本 最多的类别 利用当前结点的后验分布
第(3)种情形:设定为其父结点所含样 本最多的类别 把父结点的样本分布作为当前结点的先验 分布
第4页/共39页
决策树学习的关键是算法的第8行:选择最优划分属性
什么样的划分属性是最优的?
我们希望决策树的分支结点所包含的样本尽可能属于 同一类别,即结点的“纯度”越来越高,可以高效地从根 结点到达叶结点,得到决策结果。
三种度量结点“纯度”的指标: 1. 信息增益 2. 增益率 3. 基尼指数
第5页/共39页
1. 信息增益 信息熵
香农提出了“信息熵”的概念,解决了对信息的量化 度量问题。
第28页/共39页
现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑
第29页/共39页
1. 属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 2. 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中)
包含14个样例:
14
17
好瓜(6个)
坏瓜(8个)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
已知户外时活动的条件熵
晴
阴
雨
H(活动|户外)=5/14*H(活动|户外=晴)+4/14*H(活动|户外=阴) +5/14* H(活动|户外=雨)
= (5/14)*0.971 + (4/14)*0 +(5/14)*0.971
j
条件熵H(X|Y)表示已知Y后,X的不确定度
是否适合打垒球的决策表
天气 晴 晴 阴 雨 雨 雨 阴 晴 晴 雨 晴 阴 阴 雨
温度 炎热 炎热 炎热 适中 寒冷 寒冷 寒冷 适中 寒冷 适中 适中 适中 炎热 适中
湿度 高 高 高 高 正常 正常 正常 高 正常 正常 正常 高 正常 高
风速 弱 强 弱 弱 弱 强 强 弱 弱 弱 强 强 弱 强
解:出现正面与反面的概率分别是1/4, 3/4,它们的信息量是
I(正)= -lbp(正)= -lb1/4=2b
I(反)= -lbp(反)= -lb3/4=0.415b
信源含有的信息量是信源发出的所有可
能消息的平均不确定性,香农把信源所含有
的信息量称为信息熵,是指每个符号所含信
息量的统计平均值。m种符号的平均信息量
活动 取消 取消 进行 进行 进行 取消 进行 取消 进行 进行 进行 进行 进行 取消
是否进行垒球活动
进行
取消
晴
阴
雨
进行
取消
晴 阴 雨
活动的熵
进行
取消
活动有2个属性值,进行,取消。其熵为:
H(活动) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94
条件熵
在给定yj条件下,xi的条件自信息量为I(xi| yj), X集合的条件熵H(X|yj)为
H ( X | y j ) p(xi | y j )I (xi | y j )
i
– 在给定Y(即各个yj )条件下,X集合的条件熵H(X|Y)
H (X | Y ) p( y j )H (X | y j )
信息的定量描述
衡量信息多少的物理量称为信息量。
若概率很大,受信者事先已有所估计,则该消息信 息量就很小;
若概率很小,受信者感觉很突然,该消息所含信息 实和人们的习惯概念,函数
f(p)应满足以下条件:
1. f(p)应是概率p的严格单调递减函数,即当p1>p2, f(p1)<f(p2); 2. 当p=1时,f(p)=0; 3. 当p=0时,f(p)=∞;
已知户外的天气情 况下活动的条件熵
进行
取消
晴
阴
雨
户外有三个属性值,晴,阴和雨。其熵分别为:
H(活动|户外=晴) = - (2/5)*log2(2/5) - (3/5)*log2(3/5) = 0.971 H(活动|户外=阴) = - (4/4)*log2(4/4) = 0 H(活动|户外=雨) = - (3/5)*log2(3/5)- (2/5)*log2(2/5) = 0.971
46
1998 Brin, S.
45
1997 Freund, Y.
45
1996 Hastie, T
45
2001 Hand, D.J
34
1984 L.Breiman
陈述人
Hiroshi Motoda Joydeep Ghosh QiangYang Christos Faloutsos Joydeep Ghosh Christos Faloutsos Zhi-Hua Zhou Vipin Kumar Qiang Yang Dan Steinberg
7 集装与推进 AdaBoost
8 分类
kNN
9 分类
Naïve Bayes
10 分类
CART
得票数 发表时间
作者
61
1993 Quinlan, J.R
60
1967 MacQueen, J.B
58
1995 Vapnik, V.N
52
1994 Rakesh Agrawal
48
2000 McLachlan, G
0.811b/symbol
例:气象预报
X 晴 阴 大雨 小雨
p(
x)
1
/
2
1/ 4
1/8
1/
8
条件自信息量
在事件yj出现的条件下,随机事件xi发生 的条件概率为p(xi | yj) ,则它的条件自信息
量定义为条件概率对数的负值:
I (xi | y j ) log p(xi | y j )
抛一枚均匀硬币,出现正面与反面的信息量 是多少?
解:出现正面与反面的概率均为0. 5,它们 的信息量是
I(正)= -lbp(正)= -lb0.5=1b
I(反)= -lbp(反)= -lb0.5=1b
抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息 量是多少?
4. 两个独立事件的联合信息量应等于它们分别的信息量之和。
对 信 息 量 的 认 识 理 解
信息量的定义
若一个消息x出现的概率为p,则这一消息所含的信息量为 I log p 其中,对数的底大于1
信息量单位
以2为底时,单位为 bit(binary unit,比特) 以e为底时,单位为 nat(natural unit,奈特) 以10为底时,单位为 hart(Hartley,哈特)
为
H (X ) p(xi )I (xi ) p(xi ) log p(xi )
i
i
抛一枚均匀硬币的信息熵是多少? 解:出现正面与反面的概率均为0. 5,信息 熵是
q
H x pxi log pxi i 1
(0.5log 0.5 0.5log 0.5)
1b
抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息 量是多少? 解:出现正面与反面的概率分别是1/4, 3/4,信息熵是
q
H x pxi log pxi i 1
(1/ 4 log1/ 4 3 / 4 log1/ 4)
决策树模型
ICDM 2006会议的算法投票结果
共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种 候选算法进行投票,选出了数据挖掘10大算法
排名 挖掘主题 算法
1 分类
C4.5
2 聚类
k-Means
3 统计学习 SVM
4 关联分析 Apriori
5 统计学习 EM
6 链接挖掘 PageRank