一种新的无监督连续属性离散化方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

决策树算法使用前对数值型属性预先处理。预处理的过程通 常是由离散算法来完成, 离散算法就是将排序数据划分为多 个空间, 每个空间由一个离散的值来标识, 离散算法的研究主 要集中在两个方面: 数字型属性区间数的确定; 数字型属性区 间跨度。 国内外有很多学者已做了深入研究, 并提出许多方法, 比 较著名的有等距离划分方法、 等频率划分方法、 Holte’ s 1RD 、
bute) 算法。CAMNA 算法通过聚类过程将数值值域划分为多个离散区间, 根据类分布的指导信息优化合并相邻区间, 实现理想 的离散方案。通过实验证明该算法在保持执行效率较高的前提下, 离散结果更加合理, 生成的决策树结构简单, 获得较少的分类 规则, 分类准确率也有提高。 关键词: 决策树; 数值型属性; 聚类区间; 分类 DOI: 10.3778/j.issn.1002-8331.2011.06.057 文章编号: 1002-8331 (2011) 06-0208-04 文献标识码: A 中图分类号: TP18
信息熵[5]、 统计检验方法[6]等方法。等距离划分方法、 等频率划 分方法属于无监督离散算法, 由于没有类分布信息的指导, 离 散结果随机性较大, 结果难以控制; Holte’ s 1RD、 信息熵、 统计 检验方法属于有监督离散算法, 在算法离散过程中, 需要类分
基金项目: 中国科学院创新基金 (No.A050414) 。
CAMNA 算法中的聚类部分原理如下: (1) 给定大小为 M 的样本集, 令 I=1, 选取 k 个初始聚类中
(2)
相异度计算满足如下数学要求: (1)d ( x y) ≥0, 距离是一个非负的数值。 (2)d ( x y) : 一个对象与自身的距离是 0。 (3)d ( x y) = d ( y x) , 距离函数具有对称性。 (4)d ( x y) ≤ d ( x z) + d ( z y) , 从对象 i 到对象 j 的直接距 离不会大于途径任何其他对象的距离。
花海洋, 赵怀慈: 一种新的无监督连续属性离散化方法
D:{[d0 d1](d1 d 2](d n - 1 d n]}
2011, 47 (6)
209
(1)
其中 d0 是 F 的最小值, dn 是 F 的最大值。方案 D 就是决策树生 成多分枝的依据, 如图 1。

1 输入: 数值型属性 A, 样本数 N 个, 目标类别 S 个, 初始离散区 间数 K, 理想区间数 K hold , 离散区间数修正步 K step 2 开始 3 找到 A 的上限值 d n 和下限值 d1 , 在数据空间中升序排列 4 在 A 的值域中随机选取 K 个值作为初始聚类中心 Part1: 聚类部分 5 Do 6 { 7 For i=1 to n 8 For j=1 to k 9 计算第 i 个取值与聚类中心 j 的相异度, 如果相异度最小, 则分配 di Î K ; 10 重新计算第 K 个聚类中心; 11 } 12 While 聚类中心有变化 13 聚 类 过 程 结 果 , 获 得 离 散 方 案 D, 包括 K 个离散区间: [d1 d 2][d 2 d3][d k d k + 1] ; Part2: 区间合并部分 14 计算离散方案 D 中 K 个区间的重心类 S, 并用其标识每个离 散区间; 15 while 有重心类相同的相邻区间 16 For i=1 to n 17 if 相邻区间的重心类相同 then [di - 2 di - 1] [di di + 1] = [di + 2 di + 1] 18 19 重心类 Si 标识新的合并区间 20 重新计算新离散方案 D′ 和聚类中心数 K ′ 21 If K ′ > K hold K ′ = K ′ - K step , goto Part1
208
2011, 47 (6)
Computer Engineering and Applications 计算机工程与应用
一种新的无监督连续属性离散化方法
花海洋, 赵怀慈 HUA Haiyang, ZHAO Huaici
中国科学院 沈阳自动化研究所, 沈阳 110016 Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China HUA Haiyang, ZHAO Huaici.New discretization method for numerical attributes based on clustering and puter Engineering and Applications, 2011, 47 (6) : 208-211. Abstract: This paper proposes such an algorithm, called CAMNA (Clustering and Merging on Numerical Attributes) , which is a new algorithm of unsupervised discretization based on clustering.The method divides a set of the numerical attribute values into many intervals based on clustering in the first step.Then in the second step, the cluster quality is optimized by computing the class label of the adjacent intervals.This procedure can not stop until a satisfactory discretization schema is reached.Experimental evaluation of several discretization algorithms shows that the proposed algorithm is more efficient and can generate a better discretization paring the output of C4.5, resulting tree is smaller, less classification rules, and high accuracy of classification. Key words:decision tree; numerical attributes; clustering intervals; classification 摘 要: 提出了一种基于聚类方法的无监督连续属性离散化算法, 称为 CAMNA (Clustering and Merging on Numerical Attri-
3
CAMNA 算法
在描述 CAMNA 算法之前, 介绍算法中的几个基本概念: 重心类: 指离散区间中计算属于各个类别的样本, 样本数 量最多的类, 称为该区间的重心类, 定义描述如下: Si=max (S[di, di+1]) , i=0, 1, …, n, 则 Si 称为[di, di+1]区间的重心 Si Î{S1 S 2 S n} 。 类, 其中[di, di+1]为执行聚类后的离散区间, 区间合并规则: 如果相邻区间的重心类相同, 那么算法将 这两个区间视为一个区间, 进行区间合并, 并用此重心类标识 新区间。 相异度计算公式: 相异度决定数据的差异性, 算法基于数 据间的欧几里德距离来计算:
大量数据有目的分类, 从中找到一些有价值的信息, 其主要优 点是描述简单, 分类速度快。 在构造决策树时, 数据集经常是由数字型和类别型混合 组成, 很多决策树算法对于数字型属性无法处理, 如 ID3 算法[1]; 或功能受限制, 只能生成二叉树, 如 C4.5 和 CART , 必须在
[2] [3]
M n + 代表所有属于第 n 类别的成员个 于第 S 类别的成员个数, M n + 代表所有属于区间 [d n - 1 d n] 的成员个数。 数,
表1
类别 C1 … Cs 区间总数 [d0, d1] q11 … qs1 M+1
二维矩阵
区间 … … … … … [dn-1, dn] q1n … qsn M+n 类总数 M1+ … Mn+ M
作者简介: 花海洋 (1978—) , 男, 助理研究员, 主要研究领域为数据挖掘, 数据仓库; 赵怀慈 (1974—) , 男, 博士, 研究员。E-mail: c3i11@ 收稿日期: 2009-06-17; 修回日期: 2009-10-15; CNKI 出版: 2011-2-14; /kcms/detail/11.2127.TP.20110214.1456.201106.208_124.html
心 z j (I ) , j=1, 2, …, k。 (2) 计算每个样本与聚类中心的相异度 D( xi,z j ( I )) i=1, 2, …, n; j=1, 2, …, k, 满足 D( xi,z j ( I )) = min{ D( xi z j ( I )} , i=1,
w k 表示第 k 个聚类。 2, …, n, 则 xi Î w k ,
1
引言
决策树算法是机器学习中最重要的分类方法, 它通过将
布信息的不断监督执行, 过程复杂, 导致算法执行效率低下。 本文针对这些离散算法的问题, 提出了一种基于聚类过 程的无监督连续属性离散化算法, 该方法通过聚类过程将数 值值域划分为多个离散区间, 而后根据类分布的指导信息优 化合并相邻区间。聚类过程属于无监督离散过程, 具有效率 高, 过程简单等优点, 同时算法中的合并规则过程则将无监督 离散过程加入类分布信息指导内容, 提高了离散算法的稳定 性和可靠性。通过实验分析, 证明算法在保证执行效率的前 提下, 离散结果更加合理, 并且生成的决策树结构简单, 规则 数较少, 分类准确率较高。
K hold 个 A 数值属性的离散区间 22 输出: 离散方案 D′ ,
[d0 d1] (d1 d 2]
(d n - 1 d n]
图1
Hale Waihona Puke 数值型属性分裂方案属性 F 的每一个值都可以划分到由公式 (1) 中定义的 n 个 区间中的一个, 最后生成一个表示属性与划分方案之间的关 系的二维矩阵 (表 1 所示) 。其中, qsn 代表在区间 [d n - 1 d n] 中属
(3) 计算 k 个新的聚类中心
( j) z j ( I + 1) = 1 å xi , j=1, 2, …, k n i=1 nj
3.1 算法步骤
图 2 是 CAMNA 算法的伪代码, 算法在第 3 行找到数值属 性 A 的上下限值, 第 4 行根据指定的初始聚类数 K, 随机选取 K 个样本作为初始聚类中心, 第 5 行到第 12 行是算法聚类部分, 算法将遍历值域计算所有样本与 K 个聚类中心的相异度, 聚 类样本到相异度最小的聚类中心, 重新计算 K 个聚类的聚类 中心, 如果满足第 12 行的稳定条件, 即聚类中心无变化, 聚类 过程结束并输出离散方案 D, 否则继续返回第 5 行以新的聚类 中心继续执行聚类样本过程。第 14 行到第 21 行是算法的区 间合并部分, 基于 Part1 部分输出的离散方案, 第 14 行计算每 个离散区间的重心类, 第 15 行到第 19 行依据区间合并规则合 并重心类相等的相邻区间; 第 20 行计算合并后的新方案 D'和 新聚类中心数 K'; 第 21 行判断是否满足算法结束条件, 即新聚 类中心数 K'小于 Khold, 不满足则利用修正步长 Kstep 调整 K, 并跳
d ( x y) = ( xi - yi)2 å i=1
n
图 2 CAMNA 算法的伪代码
转 Part1, 重新开始聚类样本操作; 满足结束条件时, 第 22 行输 出最终离散区间方案 D'。 通过算法的伪代码可以看到, CAMNA 算法中包括两个核 心部分: 聚类部分和区间合并部分。
3.2
聚类部分
[4]
2
离散化问题的描述
决策树生成中的数值型属性离散化处理过程是将其分割
为多个有限的区间, 过程如下: 假设一个训练数据集 Data, 包括 M 个样本, 属于 S 个不同 的类别, F 描述为样本中的一个数值型属性, 离散算法就是在 F 上找到一个最佳方案 D, 将 F 分割成包含有多个数据的离散 区间:
相关文档
最新文档