数据仓库与数据挖掘技术 第六章 决策树

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第6章决策树方法6.1信息论的基本原理

6.1.1信息论原理

6.1.2互信息的计算

1. 定义

2. 出现概率

3. 条件概率

4. 子集概率

5. 子集条件概率

6. 信息熵

7. 互信息

6.2常用决策树算法

6.2.1ID3算法

1. 基本思想

数据仓库与数据挖掘技术

图6-1ID3决策树2. 主算法

数据仓库与数据挖掘技术

图6-2ID3算法流程

3. 建树算法

4. 实例计算

6.2.2C4.5算法

1. 信息增益比例的概念

2. 连续属性值的处理

3. 未知属性值的处理

4. 规则的产生

5. 案例计算

数据仓库与数据挖掘技术

图6-3天气结点及其分支

图6-4C4.5算法形成的决策树

数据仓库与数据挖掘技术6.3决策树剪枝

6.3.1先剪枝

6.3.2后剪枝

6.4由决策树提取分类规则

6.4.1获得简单规则

图6-5决策树6.4.2精简规则属性

数据仓库与数据挖掘技术

6.5利用SQL Server 2005进行决策树挖掘6.5.1数据准备

6.5.2挖掘模型设置

6.5.3挖掘流程

图6-6选择数据挖掘技术

数据仓库与数据挖掘技术

图6-7选择数据源视图

图6-8指定表类型

数据仓库与数据挖掘技术

图6-9指定定型数据

图6-10指定列的内容和数据类型

图6-11完成数据挖掘结构的创建

数据仓库与数据挖掘技术6.5.4挖掘结果分析

图6-12挖掘得到的“次级”决策树

图6-13挖掘得到的依赖关系图

数据仓库与数据挖掘技术

图6-14“余额”结点的依赖关系图

图6-15与“余额”结点链接强度最强结点示意图

数据仓库与数据挖掘技术

6.5.5挖掘性能分析

图6-16列映射图

数据仓库与数据挖掘技术

图6-17属性“次级”的预测提升图

习题6

1. 概率分布[0:0625;0:0625;0:125;0:5]的熵是多少?

2. 汽车保险例子。假定训练数据库具有两个属性: 年龄和汽车的类型。年龄——序数分类。

汽车类型——分类属性。

类——L: 低(风险),H: 高(风险)。

使用ID3算法做出它的决策树。

3. 简述ID3和C

4.5算法之间的异同。

4. 简述决策树剪枝的步骤。

5. 练习SQL Server 2005决策树挖掘模型的构建。

相关文档
最新文档