第三章 决策树分类算法的应用、进展和发展前景

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、数据预处理
• 数据挖掘处理的是海量数据集不仅样本容量大、 含有的属性集大而且数据中往往含有一些与挖 掘任务不相关和无意义的部分。在这样的数据 集上进行分析会花费很长时间使得挖掘任务不 可行。此外决策者有时需要在数据的多个抽象 层上进行分析以获得有价值的信息。在这种情 况下我们需要先用过滤、概化和归约等方法对 数据进行预处理然后再对预处理后的数据集进 行挖掘。
1、数据预处理
• 数据概化是指将数据集从较低的概念层抽象到 较高的概念层。面向属性的归纳(AOI)是一 种有用的概化方法它考查数据集中每个属性的 不同取值,通过属性删除或者属性概化等操作 在给定的概念分层上概化数据库,由此抽取有 意义的知识。使用AOI方法可能出现的问题是: 如果属性概化得太高可能导致过分概化,产生的 规则可能没有多少信息;而如果属性概化不到足 够高的层次,则可能概化不足,得到的规则可能 也不含多少信息。因此面向属性的概化应当把 握好尺度。
2、抽样方法
• 树构造阶段在内部节点(属性)进行属性选择时,如 果面对的是连续值属性,我们一般按如下方法选择最 优分裂点(split):设A为连续值属性,最多可能有n个 属性值。先对数据集按照属性A从小到大进行排序排序 后的结果为a1,a2,… 。按照排序后的顺序依次取分 裂点,计算其属性选择度量值,如信息增益、基尼指 数等,从而得到最优划分。若ai属性选择度量值最优, 通常取split=(a(i)+a(i+1))/2。对于连续值属性, 为了在内部节点选择最优分裂点需要对每个属性的每 个取值计算其相应的基尼指数。。当训练样本非常大 时,计算量也会很大。针对这一问题,B.Chandra等人指 出,可以选择一个合适的间隔,利用它来选择每个数值 型属性的某些取值而不是全部取值来计算其基尼指数, 这样计算量会大大降低。但是在间隔如何选择的问题 上人为的因素比较多。
1、数据预处理
• 针对这个问题 ,有专家提出了一种新的基于信息增益比的数 据概化方法ITA。其基本思想是给定一组候选的提取分 层,ITA选择一个最优的提取并对原始数据库进行概化。其操 作步骤可以概括为从原始数据库中选定某一属性,计算属性 的信息增益比,假设其值为I1;对于候选提取分层中的每一种 提取,计算其针对选定属性的信息增益比,选择信息增益比最 大的提取,假设该提取的信息增益比为I2;计算I2/I1, 若商大 于给定阈值,则对属性值进行概化,否则删除该属性。 • ITA较好地保留了原始数据库中的类分布,数据库的尺寸也大 大减小。这使得产生的决策树更加紧凑,大大减小了树的尺 寸,而且精度也没有明显地降低。此外它适当地控制了面向 属性归纳中的概化过程,自动选择对数据库的最优概化,弥补 了AOI的缺陷。之后,又进一步提出了迭代ITA的思想,并将其 应用于C4.5的每一次属性选择的迭代过程,更好地保留了原 始数据库中的类分布。
决策树分类算法的来自百度文库展
• 传统的决策树分类算法主要是针对小数据集 的,大都要求训练集常驻内存,这使得在处 理数据挖掘任务时,传统决策树算法在可伸 缩性、精度和效率方面受到了很大的限制。 而在实际的数据挖掘应用中我们面临的数据 集往往是容量巨大的数据库或者数据仓库, 在构造决策树时需要将庞大的数据在主存和 缓存中不停的导入导出使得运算效率大大降 低。针对以上问题许多学者提出了处理大型 数据集的决策树算法。下面我们分三个方面 对一些算法的改进进行讨论。
机器学习
第3章 决策树学习
• 决策树分类算法的进展 • 决策树分类算法的发展前景
主要决策树算法
• 最早的决策树算法是由Hunt等人于1966 年提出的CLS 。当前最有影响的决策树 算法是Quinlan于1986年提出的ID3和1993 年提出的C4.5。 • 其它早期算法主CART、FACT、CHAID 算法 。后期的算法主要有SLIQ、 SPRINT 、PUBLIC等。
2、抽样方法
Khaled Alsabti等人提出了一种新的决策树分类器 CLOUDS,提供了两种确定数值型属性最优分裂点的新 方法SS和SSE.其中SS采用分位技术将每一个数值型属 性的取值范围分为若干个区间(每一个区间包含的数据 点基本相等),计算每个区间两个端点的基尼指数并将基 尼指数最小的点作为最优分裂点进行下一步的分枝。 SSE是SS的改进算法,它利用求出最小基尼指数并估计 出每一个区间上基尼指数的下限。若区间的基尼指数 下限小于最小基尼指数,则将区间保留;否则删除,然后 对于那些被保留区间中的每一个点,计算其基尼指数,取 基尼指数最小的点为最优分裂点。SSE的精度要高于 SS,但是计算量也大。CLOUDS通过一个"估计步" 对数 值型属性的所有取值进行抽样,由此可以缩小寻找最优 分裂点的搜索空间。与传统的决策树算法相比,明显地 降低了运算的复杂度而且产生的决策树在精度和规模 上也保持了较高的质量。
1、数据预处理
• 在实际应用中数据集往往含有很多的属 性,而有一些属性是多余的。直接利用 这种数据集来产生决策树会增加存储和 计算方面的负担。在这种情况下,对数 据集进行压缩或者精简是必要的。利用 粗糙集理论中的不可分辨关系将数据集 进行属性归约和数据过滤,去除与决策 无关的多余信息也是当前比较热门的研 究。将利用粗糙集简化后的数据集作为 输入产生的决策树会更加紧凑。
c i 1
pi log2 pi
2、抽样方法
• 在进行数据挖掘的分类任务时利用抽样方法也可以提 高决策树的效率,特别是当我们对算法的效率要求很 高时。在构建决策树时可以对数据集进行抽样,也可 以在产生节点的过程中对节点进行抽样。对数据集进 行抽样是指利用统计抽样方法抽取整个数据集的一个 子集,用该子集产生一棵决策树对未知样本进行分类 或者从中抽取分类规则。这种做法的缺点在于,通过 子集产生的决策树只能捕捉到整个数据集的大体的信 息,有可能漏掉数据集中有价值的模式。因此这种做 法是以牺牲精确度为代价来提高运算效率的。另一种 抽样方法节点抽样是决策树方法中特有的我们主要对 其进行介绍。
相关文档
最新文档