连续数据离散化分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

应用卡方统计量检验两个对象是否相关时，需要人为设定置信水平参数，由统计学知识算出一个与计算量相比较的阈值。对于置信水平的设置要合理，过高会导致过分离散化，过低又会导致离散化不足。并且每次循环只能归并两个区间，当样本集比较大时离散化速度较慢。
离散化结果的评价
➢ 完全离散化:指算法要能够完成数据集的多个连续属性的离散化处理。因为我们不太可能只需要对数据集的某一个连续属性进行离散化处理，除非数据集只包含一个连续属性。
➢ 具有最简单的离散化结果:如果离散化处理完成后，属性空间的规模越小，由这些离散化处理所产生出来的数据所生成的规则越简单。因此，由这样的属性所获得的知识就更是通用。
2、连续属性离散化的目的
在实际数据库中存在较多的连续属性，而现有的很多数据挖掘算法只能处理离散型的属性，因此连续属性离散化是应用这些算法的前提。此外，有效的离散化能够减少算法的时间和空间开销、提高系统对样本的聚类能力、增强系统抗数据噪音的能力以及提高算法的学习精度。
连续属性离散化的好处
*异常点敏感问题
离散化前首先设定某个阈值将异常数据移除。
方法1：设定阈值为90%。将数据从小到大排序，移除全部数据
最小的5%和最大的5%数据。
方法2：设定阈值为90%。将数据从小到大排序，然后对所有数
据求和，并计算每个数据占总和的比例，移除最大的占比 10%的数据。
➢ 聚类分析的方法：
首先是将连续属性的值用聚类算法（如K-means 算法）划分成簇。然后是将聚类得到的簇进行再处理，可分为自上而下的分裂策略或自
停止准则：当卡方检验不显著（P-值>=α ）时，继续合并相邻区间；当卡方检验显著（P-值<α ）时，停止合并区间；
对其进行卡方检验，列联表如下：
A
B
C
[2 , 3.5)
4
0
2
6
[3.5, 5]
1
2
0
3
5
2
2
9
计算得到chisq=2.25，p值0.3247，接受原假设，A、B、C有显著差异。
卡方检验方法的缺点：
连续属性离散化
吴志强 20151204
1.连续属性离散化的定义？ 2.进行离散化的目的？有什么好处？ 3.连续属性离散化方法有哪些？ 4.离散化结果的评价
1、定义
连续属性离散化就是采取各种方法将连续的区间划分为小的区间，并将这连续的小区间与离散的值关联起来。
连续属性离散化的问题本质是：决定选择多少个分割点和确定分割点位置。
➢ 减少给定连续特征值的个数 ➢ 相对连续特征更接近于知识层面的表达 ➢ 离散化的数据更易于理解，使用和解释 ➢ 很多不适用于连续型数据的算法得以适用 ➢ 可以有效地客服数据中隐藏的缺陷，使模型结果更加稳定
离散化处理的一般过程
➢ 1、对连续属性值按照某种指定的规则进行排序 ➢ 2、初步确定连续属性的划分断点 ➢ 3、按照某种给定的判断标准继续分割断点或合并断点 ➢ 4、如果第三步得到判定标准的终止条件，则终止整个连续
➢ 自定义法：根据研究目的，业务需求或数据分布情况进行分段。
优点:方法简单，易于操作缺点:(1)需要人为地规定划分区间的个数。
(2)等宽法对异常点比较敏感，倾向于不均匀地把实例分布到各个箱中。
(3)等频法虽然避免了上述问题，却可能将具有相同类标号的相同特征值分入不同的箱中以满足箱中数据的固定个数的条件。
属性离散化过程，否则继续按第三步执行
分类
属性离散化的方法有很多，基本上可分为三种分类方法：
➢ 无监督离散化和有监督离散化。在离散化过程中使用类信息的方法是有监督的，而不使用类信息的方法是无监督的。
➢ 全局离散化和局部离散化。全局离散化指使用整个样本空间进行离散化，而局部离散化指在样本空间的一个区域内进行离散化。
下而上的合并策略。缺点：需要指定簇的个数，从而决定产生的区间数。
无监督离散化现状
现阶段，无监督的方法还比较少，在没有类信息的情况下，要得到好的离散化结果比较困难，并且离散化的结果也比较难衡量。但是实际数据集在多数情况下又是没有类标号的，我们可以考虑先使用聚类算法人为地为数据集添加类标号，然后再用添加了类标号的数据集进行离散化。
停止准则：
最小描述长度原则：选择分裂区间，使得理论尺寸与理论期望之和最小化。共有信息理论：当前分裂不显著时停止分裂。
Example：
数据如下：
信息计算如下：第一次分裂：
→ 第一次分裂出现在断点3.5处重复上述过程，得到最终的分段区间为：
[2,3.5), [3.5,16.5), [16.5,19]
对其进行卡方检验，列联表如下：
A
B
[2, 3.5)
4
0
[3.5, 19]
6
6
10
6
Cห้องสมุดไป่ตู้
2
6
2
14
4
20
计算得到chisq=3.8095，p值0.1489，接受原假设，A、B、C无显著差异。
➢ 卡方合并算法（自下而上）：
把每一个属性值当作一个离散的属性值，然后逐个反复合并相邻的属性值，直到满足某种停止条件。关键要素是如何确定应该合并的相邻区间、最终的停止判断。
➢ 卡方分裂算法（自上而下）：
把整个属性值区间当作一个离散的属性值，然后对该区间一分为二，即把一个区间分为两个相邻的区间，每个区间对应一个离散的属性值，该划分可以一直进行下去，知道满足某种停止条件，其关键是划分点的选取。
停止准则：当卡方检验显著（P-值<α）时，继续分裂区间；当卡方检验不显著（P-值>=α）时，停止分裂区间；
➢ 动态离散化和静态离散化。动态的离散化方法就是在建立分类模型的同时对连续属性进行离散化，而静态离散化方法就是在进行分类之前完成离散化处理。
3、属性离散化的方法—无监督离散化
➢ 等宽分箱法：将数据均匀划分成n等份,每份的间距相等。
➢ 等频分箱法：把观察点均匀分为n等份,每份包含的观察点数相同。
属性离散化的方法—有监督离散化
➢ 基于熵的离散化方法：
使用类别信息计算和确定分割点，是自顶向下的分裂技术。
步骤1：定义区间的熵；步骤2：把每个值看成分割点，将数据分成两部分，在多种可能的分法中寻找
一种产生最小熵的分法；步骤3：在分成的两个区间中，找较大熵的区间，继续步骤1；步骤4：满足用户指定个数时，结束过程。