第7章 决策树与贝叶斯网络
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.3 构造决策树
• 决策树分类过程 • 从根节点开始,首先对某一属性的取值提问
• Color? 与根节点相连的不同分支,对应这个属性的不同取值 • green; yellow; red; 根据不同的回答,转向相应的分支 • green 在新到达的节点处做同样的分支判断• Size? – big. 这一过程持续,直到到达某个叶节点,输出该叶节点的类别标记 • Watermelon
研究生特色精品课程-机器学习
1.2 决策树的表示法
• 决策树通过把实例从根节点排列到某个叶子节点来分类实 例,叶子节点即为实例所属的分类。树上的每一个节点说 明了对实例的某个属性的测试,并且该节点的每一个后继 分支对应于该属性的一个可能值。
研究生特色精品课程-机器学习
图
研究生特色精品课程-机器学习
研究生特色精品课程-机器学习
决策树的应用举例
• 问题及数据集 – 根据其他属性,判断周六是否玩网球play Tennis=Y/N?
Step1: 确定根节点
• 分别计算4个属性的信息增益 – Outlook: 0.246 • =Sunny [2+,3-] • =Overcast [4+,0-] • =Rain [3+,2-] – Wind: 0.048 • =weak的样例是 [6+,2-] • =strong的样例[+3,-3] – Humidity : 0.151 – Temperature : 0.029
几个重要原理
链规则(chain rule)
研究生特色精品课程-机器学习
贝叶斯定理(Bayes’ theorem) 利用变量间条件独立性
研究生特色精品课程-机器学习
C4.5
• C4.5是对ID3的改进算法 –对连续值的处理 –对未知特征值的处理 –对决策树进行剪枝
研究生特色精品课程-机器学习
研究生特色精品课程-机器学习
CART
• CART是Classification And Regression Tree的简称,可以处理高度倾斜或 多态的数值型数据,也可处理顺序或无序的类属型数据。CART选择 具有最小gini系数值的属性作为测试属性,gini值越小,样本的“纯净 度”越高,划分效果越好。
Gain(S
,Wind
)
E
ntropy(S
)
v{Weak,
Strong
}
| |
Sv S
| |
E
ntropy(S
v)
Entropy(S) (8 /14)Entropy(SWeak) (6 /14)Entropy(SStrong )
0.940 (8/14)0.811 (6 /14)1.00
0.048
贝叶斯网络是为了处理人工智能研究中的不确定性 (uncertainty)问题而发展起来的。
贝叶斯网络是将概率统计应用于复杂领域进行不确定性推 理和数据分析的工具。
用概率论处理不确定性的主要优点是保证推理结果的正确 性。
研究生特色精品课程-机器学习
贝叶斯网络的发展历史
• 1958年英国统计杂志 Biometrika 重新全文刊登了贝叶斯的论文。 • 20 世纪 50 年代,以罗宾斯(Robbins H.)为代表,提出了经验贝叶斯方
• 因此:根节点为Outlook
研究生特色精品课程-机器学习
Step 2: 分枝
研究生特色精品课程-机器学习
选择哪个属性进行划分?
Step 3: 循环
研究生特色精品课程-机器学习
选择哪个属性进行划分?
研究生特色精品课程-机器学习
5 贝叶斯网络的形成与发展
研究生特色精品课程-机器学习
5.1 贝叶斯网络
• 与C4.5算法类似,CART算法也是先建树后剪枝,但在具体实现上有 所不同。由于二叉树不易产生数据碎片,精确度往往高于多叉树,因 此CART算法采用2分递归划分,在分支节点上进行布尔测试,判断条 件为真的划归左分支,否则划归右分支,最终形成一棵二叉决策树。 对于连续属性A,判断A≤V是否成立(同C4.5算法);对于离散型属性A, 判断A∈S’是否成立,其中S’是属性A所有取值的子集,可用贪心算 法或穷举法确定,
–
Entropy(S) -plog2p-pΘlog2pΘ
其中p是在S中正例的比Байду номын сангаас,pΘ是在S中负例的比例。在有关熵的所有计
算中我们定义0log0为0。
例子
C1
0
C2
6
C1
1
C2
5
C1
3
C2
3
研究生特色精品课程-机器学习
Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0 Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650 Entropy = 1-(3/6)log(3/6)-(3/6)log(3/6)=1
第七章 决策树与贝叶斯网络
研究生特色精品课程-机器学习
1 决策树的形成与发展
研究生特色精品课程-机器学习
1.1 简介
• 决策树方法的起源是概念学习系统CLS,然后发展到ID3方 法而为高潮,最后又演化为能处理连续属性的C4.5。有名 的决策树方法还有CART
• 是应用最广的归纳推理算法之一 • 语义可表示性 • 对噪声数据有很好的健壮性
研究生特色精品课程-机器学习
2 决策树的基本原理: 统计学角度
2.1 决策树的判决面
研究生特色精品课程-机器学习
研究生特色精品课程-机器学习
2.2 构造决策树
• 基本过程
• 从上到下,分而治之(divide-and-conquer),递归生长 • 最初,所有的样本都在根节点 • 所有属性都是标称型的(如果是连续数值型的,则需要先离散化ID3) •所有样本根据每次选择出的属性递归的逐渐划分开来 •满足如下条件之一时,划分操作停止
A Attributes中分类能力最好的属性 Root的决策属性A 对于每个可能值
在Root下加一个新的分支对应测试A=vi 令Example-vi为Examples中满足A属性值为vi的子集 如果Examples-vi为空
在这个新分支下加一个叶子结点,节点的lable=Examples中最普遍的 目标属性值 否则在这个新分支下加一个子树ID3(example-vi, targetattribute , attributes-|A| 结束 返回 Root
• SPRINT定义了两种数据结构,分别是属性表和直方图。属性表由属性值、类 别属性和样本号3个字段组成,它随节点的扩展而划分,并附属于相应的子节 点。直方图附属在节点上,用来描述节点上某个属性的类别分布。当描述连 续属性的类分布时,节点上关联两个直方图Cbelow和Cabove,前者描述已处 理样本的类别分布,后者描述未处理样本的类别分布,两者的值皆随算法进 行而更新;当描述离散属性的类分布时,节点上只关联一个直方图count matrix。
值是在知道属性A的值后可以节省的二进制位数
研究生特色精品课程-机器学习
例子
• 假设S是有关天气的训练样例集 [9+,5-] • 其中:
–wind=weak的样例是 [6+,2-] –wind=strong的样例[+3,-3] • 问题:计算属性wind的信息增益 –S的熵: E(S)= -(9/14)log(9/14) – (5/14)log(9/14)=0.940
•所有落入某一节点的样本均属于同一类别 •没有特征能够进一步用于划分样本集 •没有任何样本落入某一节点
研究生特色精品课程-机器学习
属性选择
• 构造好的决策树的关键在于如何选择好的逻辑判断或属性。 对于同样一组例子,可以有很多决策树能符合这组例子。 人们研究出,一般情况下或具有较大概率地说,树越小则 树的预测能力越强。要构造尽可能小的决策树,关键在于 选择恰当的逻辑判断或属性。由于构造最小的树是NP-难 问题,因此只能采取用启发式策略选择好的逻辑判断或属 性。
选择最好的分类属性
研究生特色精品课程-机器学习
研究生特色精品课程-机器学习
3 决策树经典算法介绍
研究生特色精品课程-机器学习
ID3算法
创建树的Root结点 如果Examples都为正,那么返回label=+中的单结点Root 如果Examples都为反,那么返回lable=-单结点树Root 如果Attributes为空,那么返回单节点树Root,lable=Examples中最普遍的目标属性值 否则开始
研究生特色精品课程-机器学习
SPRINT
• 与SLIQ算法不同,SPRINT算法采取传统的深度优先生成树策略,SLIQ算法 要求类表驻留内存。
• 当训练集增加导致类表放不进内存时,算法就无法进行,这限制了SLIQ处理 数据的最大规模。为此,IBM研究人员提出可伸缩、可并行化的决策树算法 SPRINT,它消除了所有内存限制,运行速度快,且允许多个处理器协同创建 一个决策树模型。
法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示 出它的优点,成为很活跃的一个方向。 • 随着人工智能的发展,尤其是机器学习、数据挖掘等兴起,为贝叶斯 理论的发展和应用提供了更为广阔的空间。贝叶斯理论的内涵也比以 前有了很大的变化。20 世纪 80 年代贝叶斯网络用于专家系统的知识 表示,90 年代进一步研究可学习的贝叶斯网络,用于数据挖掘和机器 学习。近年来,贝叶斯学习理论方面的文章更是层出不穷,内容涵盖 了人工智能的大部分领域,包括因果推断、不确定性知识表达、模式 识别和聚类分析等。并且出现了专门研究贝叶斯理论的组织和学术刊 物ISBA。
研究生特色精品课程-机器学习
SLIQ
• 上述算法由于要求训练样本驻留内存,因此不适合处理大规模数据。 • 为此,IBM研究人员提出了一种快速的、可伸缩的、适合处理较大规模数据
的决策树分类算法SLIQ(Supervised Learning In Quest)。该算法利用3种数据结 构来构造树,分别是属性表、类表和类直方图。 • 属性表含有两个字段:属性值和样本号。 • 类表也含有两个字段:样本类别和样本所属叶节点。类表的第k条记录对应于 训练集中第k个样本(样本号为k),所以属性表和类表之间可以建立关联。 类表可以随时指示样本所属的划分,所以必须长驻内存。每个属性都有一张 属性表,可以驻留磁盘。 • 类直方图附属在叶节点上,用来描述节点上某个属性的类别分布。描述连续 属性分布时,它由一组二元组<类别,该类别的样本数>组成;描述离散属性 分布时,它由一组三元组<属性值,类别,该类别中取该属性值的样本数>组 成。随着算法的执行,类直方图中的值不断更新。
研究生特色精品课程-机器学习
2.3性能度量——信息增益
• 属性的信息增益 –使用这个属性分割样例而导致的期望熵降低的数量
Gain ( S ,
A)
Entropy(S )
vValues( A)
| Sv |S
| |
Entropy( S v
)
• Values(A)是属性A所有可能值的集合
• Sv 是S中属性A的值为v的子集 ,即 Sv={sS|A(s)=v} • 当对S的一个任意成员的目标值编码时,Gain(S,A)
研究生特色精品课程-机器学习
4 决策树的应用
研究生特色精品课程-机器学习
4.1 决策树的适用范围和应用前景
• 决策树法作为一种决策技术,已被广泛地应用于企业的投资决策之中,它是 随机决策模型中最常见、最普及的一种规策模式和方法此方法,有效地控制 了决策带来的风险。所谓决策树法,就是运用树状图表示各决策的期望值, 通过计算,最终优选出效益最大、成本最小的决策方法。决策树法属于风险 型决策方法,不同于确定型决策方法,二者适用的条件也不同。应用决策树 决策方法必须具备以下条件:
• ① 具有决策者期望达到的明确目标; • ② 存在决策者可以选择的两个以上的可行备选方案; • ③ 存在着决策者无法控制的两种以上的自然状态(如气候变化、市场行情、
经济发展动向等); • ④ 不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计
算出来; • ⑤ 决策者能估计出不同的自然状态发生概率。
研究生特色精品课程-机器学习
度量标准——熵
• 熵(Entropy)
– 信息论中广泛使用的一个度量标准
– 刻画任意样例集的纯度(purity)
– 一般计算公式为:
c
Entropy(S) pi log 2 pi
i 1
– 对于二元分类:给定包含关于某个目标概念的正反样例的样例集S, 那么S相对这个布尔型分类的熵为:
• 决策树分类过程 • 从根节点开始,首先对某一属性的取值提问
• Color? 与根节点相连的不同分支,对应这个属性的不同取值 • green; yellow; red; 根据不同的回答,转向相应的分支 • green 在新到达的节点处做同样的分支判断• Size? – big. 这一过程持续,直到到达某个叶节点,输出该叶节点的类别标记 • Watermelon
研究生特色精品课程-机器学习
1.2 决策树的表示法
• 决策树通过把实例从根节点排列到某个叶子节点来分类实 例,叶子节点即为实例所属的分类。树上的每一个节点说 明了对实例的某个属性的测试,并且该节点的每一个后继 分支对应于该属性的一个可能值。
研究生特色精品课程-机器学习
图
研究生特色精品课程-机器学习
研究生特色精品课程-机器学习
决策树的应用举例
• 问题及数据集 – 根据其他属性,判断周六是否玩网球play Tennis=Y/N?
Step1: 确定根节点
• 分别计算4个属性的信息增益 – Outlook: 0.246 • =Sunny [2+,3-] • =Overcast [4+,0-] • =Rain [3+,2-] – Wind: 0.048 • =weak的样例是 [6+,2-] • =strong的样例[+3,-3] – Humidity : 0.151 – Temperature : 0.029
几个重要原理
链规则(chain rule)
研究生特色精品课程-机器学习
贝叶斯定理(Bayes’ theorem) 利用变量间条件独立性
研究生特色精品课程-机器学习
C4.5
• C4.5是对ID3的改进算法 –对连续值的处理 –对未知特征值的处理 –对决策树进行剪枝
研究生特色精品课程-机器学习
研究生特色精品课程-机器学习
CART
• CART是Classification And Regression Tree的简称,可以处理高度倾斜或 多态的数值型数据,也可处理顺序或无序的类属型数据。CART选择 具有最小gini系数值的属性作为测试属性,gini值越小,样本的“纯净 度”越高,划分效果越好。
Gain(S
,Wind
)
E
ntropy(S
)
v{Weak,
Strong
}
| |
Sv S
| |
E
ntropy(S
v)
Entropy(S) (8 /14)Entropy(SWeak) (6 /14)Entropy(SStrong )
0.940 (8/14)0.811 (6 /14)1.00
0.048
贝叶斯网络是为了处理人工智能研究中的不确定性 (uncertainty)问题而发展起来的。
贝叶斯网络是将概率统计应用于复杂领域进行不确定性推 理和数据分析的工具。
用概率论处理不确定性的主要优点是保证推理结果的正确 性。
研究生特色精品课程-机器学习
贝叶斯网络的发展历史
• 1958年英国统计杂志 Biometrika 重新全文刊登了贝叶斯的论文。 • 20 世纪 50 年代,以罗宾斯(Robbins H.)为代表,提出了经验贝叶斯方
• 因此:根节点为Outlook
研究生特色精品课程-机器学习
Step 2: 分枝
研究生特色精品课程-机器学习
选择哪个属性进行划分?
Step 3: 循环
研究生特色精品课程-机器学习
选择哪个属性进行划分?
研究生特色精品课程-机器学习
5 贝叶斯网络的形成与发展
研究生特色精品课程-机器学习
5.1 贝叶斯网络
• 与C4.5算法类似,CART算法也是先建树后剪枝,但在具体实现上有 所不同。由于二叉树不易产生数据碎片,精确度往往高于多叉树,因 此CART算法采用2分递归划分,在分支节点上进行布尔测试,判断条 件为真的划归左分支,否则划归右分支,最终形成一棵二叉决策树。 对于连续属性A,判断A≤V是否成立(同C4.5算法);对于离散型属性A, 判断A∈S’是否成立,其中S’是属性A所有取值的子集,可用贪心算 法或穷举法确定,
–
Entropy(S) -plog2p-pΘlog2pΘ
其中p是在S中正例的比Байду номын сангаас,pΘ是在S中负例的比例。在有关熵的所有计
算中我们定义0log0为0。
例子
C1
0
C2
6
C1
1
C2
5
C1
3
C2
3
研究生特色精品课程-机器学习
Entropy = -(0/6)log(0/6)-(6/6)log(6/6)=0 Entropy = 1-(1/6)log(1/6)-(5/6)log(5/6)=0.650 Entropy = 1-(3/6)log(3/6)-(3/6)log(3/6)=1
第七章 决策树与贝叶斯网络
研究生特色精品课程-机器学习
1 决策树的形成与发展
研究生特色精品课程-机器学习
1.1 简介
• 决策树方法的起源是概念学习系统CLS,然后发展到ID3方 法而为高潮,最后又演化为能处理连续属性的C4.5。有名 的决策树方法还有CART
• 是应用最广的归纳推理算法之一 • 语义可表示性 • 对噪声数据有很好的健壮性
研究生特色精品课程-机器学习
2 决策树的基本原理: 统计学角度
2.1 决策树的判决面
研究生特色精品课程-机器学习
研究生特色精品课程-机器学习
2.2 构造决策树
• 基本过程
• 从上到下,分而治之(divide-and-conquer),递归生长 • 最初,所有的样本都在根节点 • 所有属性都是标称型的(如果是连续数值型的,则需要先离散化ID3) •所有样本根据每次选择出的属性递归的逐渐划分开来 •满足如下条件之一时,划分操作停止
A Attributes中分类能力最好的属性 Root的决策属性A 对于每个可能值
在Root下加一个新的分支对应测试A=vi 令Example-vi为Examples中满足A属性值为vi的子集 如果Examples-vi为空
在这个新分支下加一个叶子结点,节点的lable=Examples中最普遍的 目标属性值 否则在这个新分支下加一个子树ID3(example-vi, targetattribute , attributes-|A| 结束 返回 Root
• SPRINT定义了两种数据结构,分别是属性表和直方图。属性表由属性值、类 别属性和样本号3个字段组成,它随节点的扩展而划分,并附属于相应的子节 点。直方图附属在节点上,用来描述节点上某个属性的类别分布。当描述连 续属性的类分布时,节点上关联两个直方图Cbelow和Cabove,前者描述已处 理样本的类别分布,后者描述未处理样本的类别分布,两者的值皆随算法进 行而更新;当描述离散属性的类分布时,节点上只关联一个直方图count matrix。
值是在知道属性A的值后可以节省的二进制位数
研究生特色精品课程-机器学习
例子
• 假设S是有关天气的训练样例集 [9+,5-] • 其中:
–wind=weak的样例是 [6+,2-] –wind=strong的样例[+3,-3] • 问题:计算属性wind的信息增益 –S的熵: E(S)= -(9/14)log(9/14) – (5/14)log(9/14)=0.940
•所有落入某一节点的样本均属于同一类别 •没有特征能够进一步用于划分样本集 •没有任何样本落入某一节点
研究生特色精品课程-机器学习
属性选择
• 构造好的决策树的关键在于如何选择好的逻辑判断或属性。 对于同样一组例子,可以有很多决策树能符合这组例子。 人们研究出,一般情况下或具有较大概率地说,树越小则 树的预测能力越强。要构造尽可能小的决策树,关键在于 选择恰当的逻辑判断或属性。由于构造最小的树是NP-难 问题,因此只能采取用启发式策略选择好的逻辑判断或属 性。
选择最好的分类属性
研究生特色精品课程-机器学习
研究生特色精品课程-机器学习
3 决策树经典算法介绍
研究生特色精品课程-机器学习
ID3算法
创建树的Root结点 如果Examples都为正,那么返回label=+中的单结点Root 如果Examples都为反,那么返回lable=-单结点树Root 如果Attributes为空,那么返回单节点树Root,lable=Examples中最普遍的目标属性值 否则开始
研究生特色精品课程-机器学习
SPRINT
• 与SLIQ算法不同,SPRINT算法采取传统的深度优先生成树策略,SLIQ算法 要求类表驻留内存。
• 当训练集增加导致类表放不进内存时,算法就无法进行,这限制了SLIQ处理 数据的最大规模。为此,IBM研究人员提出可伸缩、可并行化的决策树算法 SPRINT,它消除了所有内存限制,运行速度快,且允许多个处理器协同创建 一个决策树模型。
法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示 出它的优点,成为很活跃的一个方向。 • 随着人工智能的发展,尤其是机器学习、数据挖掘等兴起,为贝叶斯 理论的发展和应用提供了更为广阔的空间。贝叶斯理论的内涵也比以 前有了很大的变化。20 世纪 80 年代贝叶斯网络用于专家系统的知识 表示,90 年代进一步研究可学习的贝叶斯网络,用于数据挖掘和机器 学习。近年来,贝叶斯学习理论方面的文章更是层出不穷,内容涵盖 了人工智能的大部分领域,包括因果推断、不确定性知识表达、模式 识别和聚类分析等。并且出现了专门研究贝叶斯理论的组织和学术刊 物ISBA。
研究生特色精品课程-机器学习
SLIQ
• 上述算法由于要求训练样本驻留内存,因此不适合处理大规模数据。 • 为此,IBM研究人员提出了一种快速的、可伸缩的、适合处理较大规模数据
的决策树分类算法SLIQ(Supervised Learning In Quest)。该算法利用3种数据结 构来构造树,分别是属性表、类表和类直方图。 • 属性表含有两个字段:属性值和样本号。 • 类表也含有两个字段:样本类别和样本所属叶节点。类表的第k条记录对应于 训练集中第k个样本(样本号为k),所以属性表和类表之间可以建立关联。 类表可以随时指示样本所属的划分,所以必须长驻内存。每个属性都有一张 属性表,可以驻留磁盘。 • 类直方图附属在叶节点上,用来描述节点上某个属性的类别分布。描述连续 属性分布时,它由一组二元组<类别,该类别的样本数>组成;描述离散属性 分布时,它由一组三元组<属性值,类别,该类别中取该属性值的样本数>组 成。随着算法的执行,类直方图中的值不断更新。
研究生特色精品课程-机器学习
2.3性能度量——信息增益
• 属性的信息增益 –使用这个属性分割样例而导致的期望熵降低的数量
Gain ( S ,
A)
Entropy(S )
vValues( A)
| Sv |S
| |
Entropy( S v
)
• Values(A)是属性A所有可能值的集合
• Sv 是S中属性A的值为v的子集 ,即 Sv={sS|A(s)=v} • 当对S的一个任意成员的目标值编码时,Gain(S,A)
研究生特色精品课程-机器学习
4 决策树的应用
研究生特色精品课程-机器学习
4.1 决策树的适用范围和应用前景
• 决策树法作为一种决策技术,已被广泛地应用于企业的投资决策之中,它是 随机决策模型中最常见、最普及的一种规策模式和方法此方法,有效地控制 了决策带来的风险。所谓决策树法,就是运用树状图表示各决策的期望值, 通过计算,最终优选出效益最大、成本最小的决策方法。决策树法属于风险 型决策方法,不同于确定型决策方法,二者适用的条件也不同。应用决策树 决策方法必须具备以下条件:
• ① 具有决策者期望达到的明确目标; • ② 存在决策者可以选择的两个以上的可行备选方案; • ③ 存在着决策者无法控制的两种以上的自然状态(如气候变化、市场行情、
经济发展动向等); • ④ 不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计
算出来; • ⑤ 决策者能估计出不同的自然状态发生概率。
研究生特色精品课程-机器学习
度量标准——熵
• 熵(Entropy)
– 信息论中广泛使用的一个度量标准
– 刻画任意样例集的纯度(purity)
– 一般计算公式为:
c
Entropy(S) pi log 2 pi
i 1
– 对于二元分类:给定包含关于某个目标概念的正反样例的样例集S, 那么S相对这个布尔型分类的熵为: