连续属性离散化

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

离散化结果的评价
• 完全离散化:指算法要能够完成数据集的多个 连续属性的离散化处理。因为我们不太可能只 需要对数据集的某一个连续属性进行离散化处 理,除非数据集只包含一个连续属性。 • 具有最简单的离散化结果:如果离散化处理完 成后,属性空间的规模越小,由这些离散化处 理所产生出来的数据所生成的规则越简单。因 此,由这样的属性所获得的知识就更是通用。
根据学习环境选择离散化方法
虽然已有很多离散化方法,但是没有一种离散 化方法对任何数据集以及任何算法都是有效的,也 没有一种离散化方法一定比其他方法产生更好的离 散化结果。因为离散化本身就是一个NP-hard 问题, 所以在使用时一定要根据数据集的特点和学习环境 以及使用者个人的偏好理解等选择合适的离散化方 法,以取得尽可能好的离散化效果。如决策树学习 容易受到碎片问题(碎片是指一个给定分枝中的样 本数太小,没有统计意义)的影响,所以离散化时 更偏好得到较少的离散化区间;决策规则希望离散 化得到的区间中的实例的类标号是唯一的;关联规 则重视特征间的相关性,所以在离散化时不能对各 个特征进行单一的离散化。
在实际数据库中存在较多的连续属性, 而现有的很多数据挖掘算法只能处理离散 型的属性 ,因此连续属性离散化是应用这 些算法的前提。此外,有效的离散化能够 减少算法的时间和空间开销、提高系统对 样本的聚类能力、增强系统抗数据噪音的 能力以及提高算法的学习精度。
离散化处理的一般过程
• 1.对连续属性值按照某种指定的规则进行排 序;插入排序、冒泡排序、选择排序、快 速排序、堆排序、归并排序、基数排序、 希尔排序 • 2.初步确定连续属性的划分断点; • 3.按照某种给定的判断标准继续分割断点或 合并断点; • 4.如果第三步得到判定标准的终止条件,则 终止整个连续属性离散化过程,否则继续 按第三步执行。
有监督离散化
• IR方法 : IR是一种使用分箱的有监督的方法。它把 连续的区间分成小的区间,然后再使用类标号对小 区间的边界进行调整。每个区间至少包含6个实例, 除了最后一个区间外,最后一个区间包含所有未被 列入其他区间的实例。从第一个实例开始,把前6 个实例列入第一区间,如果下一个实例与此区间中 大多数实例的类标号相同,则把此实例加入区间中, 再判定下一个实例按照前述操作能否加入刚才的区 间中,否则形成下一个含6个实例的新的区间,对 下一个实例重复类似的操作,直至结束。然后把区 间中的大多数实例的共同类标号作为此区间的类标 号,如果相邻区间经过此操作后有相同的类标号, 则应把这两个相邻区间合并。
连续属性离散化方法
1.连续属性离散化的定义? 2.为什么要对连续属性离散化?
3.连续属性离散化方法有哪些?
定义
连续属性离散化就是采取各种方法将 连续的区间划分为小的区间,并将这连续 的小区间与离散的值关联起来。
连续属性离散化的问题本质是:决定 选择多少个分割点和确定分割点位置。
为什么要对连续属性离散化
• 基于熵的离散化方法:该方法使用类信息计算 和确定分割点,是一种有监督的、自顶向下的 分裂技术。首先,将初始值切分成两部分,让 两个结果区间产生最小熵;然后,取一个区间, 通常选取具有最大熵的区间,重复此分割过程, 直到区间的个数达到用户指定的个数,或满足 终止条件(当得到的每个区间中的类标号都是 一样时,即停止离散化过程)。 最常用的基于熵的离散化方法是:基于最 短描述长度原则(MDLP)方法。
• 基于聚类分析的方法:此方法包括两个步 骤,首先是将连续属性的值用聚类算法 (如K-means 算法)划分成簇。然后是将聚 类得到的簇进行再处理,可分为自顶向下 的分裂策略或自底向上的合并策略。 缺点:聚类分析的离散化方法也需要 用户指定簇的个数,从而决定产生的区间 数。
ቤተ መጻሕፍቲ ባይዱ 无监督离散化现状
现阶段,无监督的方法还比较少,在 没有类信息的情况下,要得到好的离散化 结果比较困难,并且离散化的结果也比较 难衡量。但是实际数据集在多数情况下又 是没有类标号的,我们可以考虑先使用聚 类算法人为地为数据集添加类标号,然后 再用添加了类标号的数据集进行离散化。
无监督离散化
• 等宽分箱法:将属性的值域分成具有相同宽度的区 间,而区间的个数由用户指定。 • 等频分箱法:将相同数量的对象放进每个区间。 缺点:这两种方法简单,易于操作,但都需要 人为地规定划分区间的个数这个参数。同时,使用 等宽法的缺点在于它对异常点比较敏感,倾向于不 均匀地把实例分布到各个箱中,有些箱中包括许多 实例,而另外一些箱中又一个实例都没有。这样会 严重地损坏特征建立好的决策结构的能力。而等频 的方法虽然避免了上述问题的产生,却可能将具有 相同类标号的相同特征值分入不同的箱中以满足箱 中数据的固定个数的条件。
分类
连续属性离散化的方法有很多,基本上可分为 三种分类方法: ◆无监督离散化和有监督离散化。在离散化过程中使 用类信息的方法是有监督的,而不使用类信息的方 法。 ◆全局离散化和局部离散化。全局离散化指使用整个 样本空间进行离散化,而局部离散化指在样本空间 的一个区域内进行离散化。 ◆动态离散化和静态离散化。动态的离散化方法就是 在建立分类模型的同时对连续属性进行离散化,而 静态离散化方法就是在进行分类之前完成离散化处 理。
• 一致性:离散化处理应该最大程度保证经过 离散化处理后所得到的数据集的一致性水 平与原始数据集的一致性水平接近。 • 预测精度:连续属性的最优离散化问题是一 个NP难题。因此,人们只能试图获得一个 次最优的离散化算法,在保证离散化结果 性能要求的前提下,用尽可能少的断点将 属性空间划分成尽可能少的子空间。
• 基于卡方的离散化方法: 首先将数据取值 范围内的所有数据值列为一个单独的区间, 再递归地找出最佳邻近可合并的区间,然 后合并他们,进而形成较大的区间。在判 定最佳邻近可合并的区间时,会用到卡方 统计量来检测两个对象间的相关度。 最常用的基于卡方的离散化方法是: ChiMerge方法。
缺点:应用卡方统计量检验两个对象 是否相关时,需要人为设定置信水平参数, 由统计学知识算出一个与计算量相比较的 阈值。对于置信水平的设置要合理,过高 会导致过分离散化,过低又会导致离散化 不足。并且 ChiMerge 算法的缺陷在于每次 循环只能归并两个区间,当样本集比较大 时离散化速度较慢。
相关文档
最新文档