连续数据离散化分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用卡方统计量检验两个对象是否相关时,需要人为设定置信水平参数, 由统计学知识算出一个与计算量相比较的阈值。对于置信水平的设置要合理, 过高会导致过分离散化,过低又会导致离散化不足。并且 每次循环只能归并 两个区间,当样本集比较大时离散化速度较慢。
离散化结果的评价
➢ 完全离散化:指算法要能够完成数据集的多个连续属性的离散化处理。因为我 们不太可能只需要对数据集的某一个连续属性进行离散化处理,除非数据集 只包含一个连续属性。
➢ 具有最简单的离散化结果:如果离散化处理完成后,属性空间的规模越小,由 这些离散化处理所产生出来的数据所生成的规则越简单。因此,由这样的属 性所获得的知识就更是通用。
2、连续属性离散化的目的
在实际数据库中存在较多的连续属性,而现有的 很多数据挖掘算法只能处理离散型的属性,因此连续 属性离散化是应用这些算法的前提。此外,有效的离 散化能够减少算法的时间和空间开销、提高系统对样 本的聚类能力、增强系统抗数据噪音的能力以及提高 算法的学习精度。
连续属性离散化的好处
*异常点敏感问题
离散化前首先设定某个阈值将异常数据移除。
方法1: 设定阈值为90%。将数据从小到大排序,移除全部数据
最小的5%和最大的5%数据。
方法2: 设定阈值为90%。将数据从小到大排序,然后对所有数
据求和,并计算每个数据占总和的比例,移除最大的占比 10%的数据。
➢ 聚类分析的方法:
首先是将连续属性的值用聚类算法(如K-means 算法)划分成簇。 然后是将聚类得到的簇进行再处理,可分为自上而下的分裂策略或自
停止准则: 当卡方检验不显著(P-值>=α )时,继续合并相邻区间; 当卡方检验显著(P-值<α )时,停止合并区间;
对其进行卡方检验,列联表如下:
A
B
C
[2 , 3.5)
4
0
2
6
[3.5, 5]
1
2
0
3
5
2
2
9
计算得到chisq=2.25,p值0.3247,接受原假设,A、B、C有显著差异。
卡方检验方法的缺点:
连续属性离散化
吴志强 20151204
1.连续属性离散化的定义? 2.进行离散化的目的?有什么好处? 3.连续属性离散化方法有哪些? 4.离散化结果的评价
1、定义
连续属性离散化就是采取各种方法将连续的区 间划分为小的区间,并将这连续的小区间与离散 的值关联起来。
连续属性离散化的问题本质是:决定选择多少 个分割点和确定分割点位置。
➢ 减少给定连续特征值的个数 ➢ 相对连续特征更接近于知识层面的表达 ➢ 离散化的数据更易于理解,使用和解释 ➢ 很多不适用于连续型数据的算法得以适用 ➢ 可以有效地客服数据中隐藏的缺陷,使模型结果更加稳定
离散化处理的一般过程
➢ 1、对连续属性值按照某种指定的规则进行排序 ➢ 2、初步确定连续属性的划分断点 ➢ 3、按照某种给定的判断标准继续分割断点或合并断点 ➢ 4、如果第三步得到判定标准的终止条件,则终止整个连续
➢ 自定义法:根据研究目的,业务需求或数据分布情况进行分段。
优点:方法简单,易于操作 缺点:(1)需要人为地规定划分区间的个数。
(2)等宽法对异常点比较敏感,倾向于不均匀地把实例分布到 各个箱中。
(3)等频法虽然避免了上述问题,却可能将具有相同类标号的 相同特征值分入不同的箱中以满足箱中数据的固定个数的条件。
属性离散化过程,否则继续按第三步执行
分类
属性离散化的方法有很多,基本上可分为三种分类方法:
➢ 无监督离散化和有监督离散化。在离散化过程中使用类信息 的方法是有监督的,而不使用类信息的方法是无监督的。
➢ 全局离散化和局部离散化。全局离散化指使用整个样本空间 进行离散化,而局部离散化指在样本空间的一个区域内进行 离散化。
下而上的合并策略。 缺点:需要指定簇的个数,从而决定产生的区间数。
无监督离散化现状
现阶段,无监督的方法还比较少,在没有类信息 的情况下,要得到好的离散化结果比较困难,并且离 散化的结果也比较难衡量。但是实际数据集在多数情 况下又是没有类标号的,我们可以考虑先使用聚类算 法人为地为数据集添加类标号,然后再用添加了类标 号的数据集进行离散化。
停止准则:
最小描述长度原则:选择分裂区间,使得理论尺寸与理论期望之和最小化。 共有信息理论:当前分裂不显著时停止分裂。
Example:
数据如下:
信息计算如下: 第一次分裂:
→ 第一次分裂出现在断点3.5处 重复上述过程,得到最终的分段区间为:
[2,3.5), [3.5,16.5), [16.5,19]
对其进行卡方检验,列联表如下:
A
B
[2, 3.5)
4
0
[3.5, 19]
6
6
10
6
Cห้องสมุดไป่ตู้
2
6
2
14
4
20
计算得到chisq=3.8095,p值0.1489,接受原假设,A、B、C无显著差异。
➢ 卡方合并算法(自下而上):
把每一个属性值当作一个离散的属性值,然后逐个反复合并相邻的属性 值,直到满足某种停止条件。关键要素是如何确定应该合并的相邻区间、最 终的停止判断。
➢ 卡方分裂算法(自上而下):
把整个属性值区间当作一个离散的属性值,然后对该区间一分为二,即 把一个区间分为两个相邻的区间,每个区间对应一个离散的属性值,该划分 可以一直进行下去,知道满足某种停止条件,其关键是划分点的选取。
停止准则: 当卡方检验显著(P-值<α)时,继续分裂区间; 当卡方检验不显著(P-值>=α)时,停止分裂区间;
➢ 动态离散化和静态离散化。动态的离散化方法就是在建立分 类模型的同时对连续属性进行离散化,而静态离散化方法就 是在进行分类之前完成离散化处理。
3、属性离散化的方法—无监督离散化
➢ 等宽分箱法:将数据均匀划分成n等份,每份的间距相等。
➢ 等频分箱法:把观察点均匀分为n等份,每份包含的观察点数相同。
属性离散化的方法—有监督离散化
➢ 基于熵的离散化方法:
使用类别信息计算和确定分割点,是自顶向下的分裂技术。
步骤1:定义区间的熵; 步骤2:把每个值看成分割点,将数据分成两部分,在多种可能的分法中寻找
一种产生最小熵的分法; 步骤3:在分成的两个区间中,找较大熵的区间,继续步骤1; 步骤4:满足用户指定个数时,结束过程。
相关文档
最新文档