连续特征离散化

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

连续特征离散化

连续特征离散化是采取各种方法将连续的区间划分为小的区间,并将这连续的小区间与离散值关联起来。连续特征离散化的本质是:决定选择多少个分割点和确定分割点的位置。

一.离散化处理的一般过程为:

1.对连续特征值按照某种指定的规则进行排序

2.初步确定连续属性的划分断点

3.按照某种给定的判断标准继续分割断点或合并断点

4.如果第三步得到判断标准的终止条件,则终止整个连续特征离散化的过程,否则继续

按第三步执行

二.离散化方法的分类:主要的分类体系有无监督的和有监督的(又分为建立在错误码率、熵值或者统计信息基础上的离散化方法,典型代表是等频、等宽的连续特征离散化方法)、动态的和静态的、全局的和局部的、分列式的(从上至下)和合并式的(从下至上)、单变量的和多变量的以及直接的和增量式的。

三.离散化方法的评价

1.区间的个数:是对模型简洁性的要求

2.离散化所导致的不一致性:离散化后的不一致性不能比离散化之前高。

3.预测准确性:通常通过交叉检验模式建立分叉树来衡量。

4.具有最简单的离散化结果

四.优点:

1. 易于模型的快速迭代

2.稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展

3.离散化后的特征对异常数据有很强的鲁棒性

4提升了逻辑回归模型的表达能力,加大拟合

5.模型更稳定

6.简化逻辑回归模型,降低其过拟合风险

没有任何离散化算法可以适用于任何环境下,在实际应用时需要根据数据集的特点和学习环境等选择合适的离散化方法,而关联规则分析中的离散化既需要考虑各特征间的内在联系,又需要考虑在没有类信息的情况下对数据集进行有效的离散化。

相关文档
最新文档