一般分布区间型符号数据的K均值聚类方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作者简介 : 郭均鹏 ( 1 9 7 3 一) , 男, 山东昌邑人, 博士 , 教授 . E m a i l : g u o j p @t j u . e d u . c n

2 2一







2 0 1 3年 3月
更为丰富. 文献 [ 6 ] 介绍 了基 于欧式距离 的划分 聚类 方法 , 以及 各种 对聚类 结果 进行解 释 的工具 ;
郭均鹏 ,陈 颖, 李汶华
( 天津 大学 管理 与经 济学部 ,天津 3 0 0 0 7 2 )
摘要 : 对于区间型符号数据聚类分析的研 究, 现有方法大多假设个体在 区间 内服从均 匀分布 , 这往往 并 不符合 实 际情况 . 针 对 此 问题 , 研 究一般 分 布 的 区 间型符 号数 据 K均值 聚 类 方法 , 给
分必 要 . 符号 数据 的聚类 分 析是符 号数 据分 析领域中 的研 究热 点 , 近年 来 提 出 了许 多 针 对 各种 类 型 的
要知识资源¨ J . 符号数据分析 ( s y m b o l i c d a t a a n a l -
y s i s , 简称 S D A) 是研 究如 何 从 海量 数 据 中发 掘 系 统 知 识 的 理 论 和 方 法 j , 其 运 用 数 据 打 包 的 思 想, 不 仅使得 计算 量减 少 , 并 且 能从整 体上 把握样 本 的特性 . 例如 , 对 股 票进 行 评 价 , 若决 策 者 希望
中图分 类号 : O 2 1 2 . 4
文 献标识 码 : A
文章 编 号 :1 0 0 7— 9 8 0 7 ( 2 0 1 3 ) 0 3— 0 0 2 1— 0 8
0 引 言
现代社会中数据信息的丰富促进了对高效的 数 据分 析方 法 的需 求 . 传 统 的数据 分 析 技 术 在处
从 全 局上研 究各 股 票 板 块 的表 现 , 而不 关 心 个股 的表 现 , 这样 就 可 对股 票 按 板块 打 包 , 此处 , 打包
符号数据 的聚类分析方法. 文献 [ 3 ] 提 出了转换
算法来 对分 布式符号 变量进 行聚类划 分 , 文 献
后 的样 本个 体称 为符 号对 象. 相 应地 , 样本 数据 的 性 质 就发生 了变化 , 由原 来 的 “ 点数据” 变为“ 符 号数 据” . 符 号数 据 可能 是 定量 数 据 , 也 可 能 是定
出了一般 分布 区间型 符号 数 据 的 定 义 , 并基 于 经验 分 布理 论 研 究其描 述 统计 . 基于 H a u s d o r f 距离, 考虑 区间数 所 包含 个 体 的分布信 息 , 提 出 了一 种 新 的 区 间型 符 号数 据距 离度 量. 给 出了

般 分布 的区间型符 号数据 均值聚类算法. 通过随机模拟试验对该方法进行 了有效性评
文献 [ 7 ] 提 出 了基 于 马 氏 距 离 ( Ma h a l a n o b i d i s — t a n c e s ) 的模 糊 聚 类 分 析 方法 ; 文献 [ 8 ] 介 绍 了 基


。 6
1 n

。 印 6
] J ㈩ ‘ ’
理 数据 结构 过 于冗 杂 的 数据 集 合 时 , 有 很 大 的局 限性 , 主要 困难在 于 : 由于样 本 容量和 变量 维数 的 影响 , 往往使 得计 算工 作量很 大 , 并且难 以把握数 据 属性 的 内在关 系 , 无 法 获 得 隐含 在 数 据 中的重
是最常用 的一种符号数据类 型 I 3 J . 例如研究某 股票板块符号对象 , 由该板块 的所有股票在某天 的收盘价的最小值 和最大值 , 构成区问型符号数
据 =[ 2 5 , 3 6 ] . 聚 类 分 析是 知识 发 现 最 重 要 的
技术 手段 之一 , 常 用 的 聚类 分 析 方 法包 括 系统 聚
类、 K均值聚类等. 然而 , 当传统的“ 点数据” 通过
S D A的数据 打包 技术 变 为“ 符 号 数据 ” 之后 , 传 统
的聚类分析方法无法奏效。 此时 , 对传统的聚类分 析方法进行拓展研究 , 使其能够处理符号数据 , 十
( 2 )
于二次距离的模糊 K均值 聚类方法 ; 文献 [ 9 ] 给
出 了基 于城 市一 街 区距 离 ( c i t y . b l o c k d i s t a n c e s ) 和
[ 5 ] 针对有约束的多值型符号数据提 出了数据分
解规 则 和与之 相 适应 的相 似 性 度 量及 聚类 方 法.
由于 区问型符号数据在 S D A中的重要地位 , 国内 外学者对区间型符号数据的聚类分析的研究成果
性数据, 可有多种表现形式 , 其中区间型符号数据
① 收稿 日 期: 2 0 1 1 — 0 6— 1 5 ; 修订 日 期: 2 0 1 2 —1 0 — 1 9 . 基金项 目: 国家 自然科学基金资助项 目( 7 1 2 7 1 1 4 7 ; 7 1 0 0 3 0 7 2 ) .
价, 结论 表 明 , 在 各种 实验设 计 的条件 下 , 考 虑 一般 分布 的 K均值 聚 类算 法有 效 性均 优 于 均 匀 分布假 设 下的 均值 聚 类算 法. 最后 将 文 中方 法应 用 于汽 车 的 聚 类分 析 , 进 一 步 体现 了文 中
方 法在 解 决 实际 问题 中的优 势. 关 键词 :区间数 ;一般 分布 ;符 号数据 分析 ;聚类 分析
第 1 6卷第 3期 2 0 1 3年 3月






V0 1 . 1 6 N o . 3
Ma r . 2 01 3
J OURNA L O F MANAGE ME NT S CI ENC E S I N C HI NA

般 分 布 区间型 符 号数 据 的 K 均值 聚 类 方 法①
相关文档
最新文档