聚类算法的研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 3 卷第 6期 l
V0 _ 1 No6 l 3 .
长春师 范 学 院学报 ( 自然科 学版 )
Jun lf h ncu oma U i rt(a r cec) orao agh nN r l nv sy t a Si e C ei N u l n
21 0 2年 6月
J n.01 u 2 2
G
数. x可分为 G个类 , 仃 为 X来 自第 k 设 令 个类 的权重 ( 丌 ) ∑ 1 ,则数据集 x模型的一般框架为 , = (
=l
G
k l - Baidu Nhomakorabea
∑订
n G
I ∞,假设 x,2 3 x 彼此独立 ,9 ( , ,观测数据 x的联合模型为 f 。 2 …, ; = 。 ,, n X X …, =8 o 一 a (,, x X ,
兀 ∑7 ( . r XI
:lt =1
2 . 混 合模 型聚 类 的理论 .2 4
对观测数据集 { l 2 …,n x, , x , x} 建立一个有限维的混合模型 ,对给定数据集 X,Lg 似然函数直接极 o一 大化很 困难. ,引入 x最有可能的分类标签向量集 B f 2 3 ,X 的分类标签记为 B=( …, 为此 =B, , , B B …, i b, i ,
称 群 分 析 ,它 是研 究 对样 品或 指 示进 行 分类 的一 种 多元 统 计 方法 . 所谓 的 “ ” 类 ,通 俗地 说 ,就 是 相似 元素
的集 合 . 类 有 两种 情 形 ,一是 对 当前 所研 究 的 问题 已知它 的类 别数 目及 类 特征 ,只 需将 一 些 未 知类 的个 分
Dsoey I 9 82: 3 3 4 i vr , 9 () 8 — 0 . c I1 2
[ 谢娟英, 帅, 3 】 蒋 王春霞, 一种改进的全局 K 等. 一均值聚类算 法[. J 陕西师范大学学报: ] 自然科学版, 0 0 ) 82 . 2 1( : ,2 21
聚类 算法 的研 究
刘 洋
( 大庆 师 范学 院数 学科 学学 院 ,黑龙 江 大庆 13 1) 6 7 2
【 摘
要】 聚类算法是多元统计 的一个重要 分支 ,在理论和实 际生 活中都有重要 的意 义。本文对聚类算
法的发展历程 以及近年来发展的一些 聚类算法进行研究 。
【 关键词】 聚类算法 ;算法优缺点 ;混合模型聚类 算法
确定 ,转 化为模 型选择 问题 ;对 观测 噪音 的处理 ,通 过添 加一个 或 多个 观测数 据 的不 同成分 来处 理 .
241 .. 聚类 的混 合模 型
观测数据集记为 X=x,2 3 x} {1 , , n x x …, ,设 ( 是数据 向量 X所在第 血 XI 个类 的概率密度函数 , 为参
r
,
若 数 据 X 来 自第 七 (= , …,) 个类 ,则 = ;否则 = . 常 情况 下假 定 B,2 … ,n 立 同分 kl, G 2 1 0通 , B 伤, B 独
布 ,以概率 丌。 , 丌 ,( = )来 自 , , …, G ∑ 仃 1 一个多维分布. 则有
G
据.
22 K m as . — en 聚类 算法
16 年 ,M c ue 首次提出了 K m as 97 aQ en — en 聚类算法 ,大体思想是在最初 的观测样本或指标 中找 出 K个
观 测样 本 作为 始 聚类 中心 ,然 后计 算 每一 观测 样本 与 每一个 聚类 中心 的距 离 ,把有 最 短距 离 的样 本 划分 为
P[ = ]仃 , l = XI 1 = P B, Ⅱ ( ∞ . I
r _I
’
利用分类标签向量集 B ,观测数据集的 l 一似然函数可 以表示成 o g
n G
l L ()∑ ( =)g 7 f I , o 88= 乏J  ̄1o ( ★ g b l r
・
再 发 生变 化为 止.
H ag un 为克服仅适用于数值型数据聚类 的局限性提出 K m dsH ag — oe— un 算法[ 2 1 ,针对初始聚类 中心的选择 ,谢
娟英等给出一种改进的全局 K 一均值聚类算法[ 3 1 等.
23 基于 密度 的聚类 . 此 聚类算 法 的主要思 想 是 以观测 样本 的密度 为依 据 ,把拥 有较 大 密度 的观 测样 本 聚成 一类 . 样本 的 观测
2 聚类 算法
21 分层 聚类 算 法 . 分 层 聚类 算 法是 对 于给 定 的观 测样 本 或指 标进 行 层 次上 的分 解 的一 种 聚类 算法 ,可 以分 为凝 聚算 法 和
【 稿 日期 】 0 2 0 — 5 收 2 1 — 4 0
【 作者简介】 刘 洋(9 5 ,女 ,黑龙 江大庆人 ,大庆 师范学院数 学科学学院助教 ,硕士 ,从事 多元统计分析研 究。 18 一)
型.
3 结论
随着 科 学 的不 断进 步. 呈现 维数 大 、分 布复杂 等 特点 ,对 聚类算 法 的要求 也越 来越 严格 . 后 的发 数据 在今 展 中 ,如何 聚类 不 同类 型 的数 据 集 ,特 别是 观测 数 据 的分 量 问结 构不 统一 ,彼 此 不独立 的数据 集 . 为此 ,应 该融 合不 同聚类 算法 的思 想 ,利 用不 同算 法 的优缺 点构 建新 的 、解 释性更 合理 的聚类 算 法 .
[ 考 文 献】 参
【 高惠璇. 1 ] 应用多元统计分析【 . : 京大学 出版社,0 5 M] 北京 I L 20 .
【 Hu n .x n i s o h — e n g r h r ls r g ag a t w t ctgr a vle [ . a nn n n we g 2 ] a g E t s n e m a s l i m f u t i r e t s s i eo cl a s ]D t Mii a dK o l e Z e o tt K a ot oc en l d a e h a i u J a g d
数 据 集 ,此 算 法 仍 需 进 一 步 完 善 . nL a nMF eatnP20 出 了 多项 式 混 合 模 型 聚 类 方 法 , Wag ,R moi ,Sbsai 0 6 提 i E  ̄ 提 供 了一 个 自动选 择 有 最 大后 验概 率 的聚类 数 目的方 法 ,特别 适用 于有 孤立 点 数据 的聚类 . a n a 等 Xi f g i oe D (0 9[ 立 了独 立 的 G us n与 Bt 20 )建 6 1 asi a e a分布 数据 的有 限维混 合 联合 模 型 ,讨 论 了两 种不 同类 型数 据 的混 合模
一
类 ,重新计算 ( 求平均值)每个有变化的聚类中心 ,则得到新 的聚类 中心 ,如此下去 ,直到每一类都不
K m as — en 聚类算法 的优 点是 思 想直 观 ,聚类 速度 较快 ;缺点 是 它太 依 赖 于初 始 聚类 中心 的选 取 ,不 能 自动 给 出 聚类 数 目 ,仅适 用 于 数 值 型数 据 . 为此 ,很 多学 者 针对 K m as 法 的缺点 给 出改进 算 法 :比如 — en 算
体 ,正确 地 归属 于其 中某 一类 ;二 是 事先 不 知道 研究 的 问题 应 分 为几 类 ,更 不知 道 观测 数 据 的具 体分 类情 况 ,需要 对 观 测数 据进 行 分析 处理 ,选定 一 种度 量数 据 接 近程 度 的统计 量 ,确定 分类 数 目,建 立一 种 分类 方 法 ,并按 接 近程 度对 观 、对 象 给 出合理 的分类 . 原则 是 使分 到 同一类 间样本 性 质特 征尽 可能 相似 ,不 钡 0 聚类
等 研 究方 向的重要 内容 之 一 . 过 聚类 ,可 以给 出数据 稀疏 和密集 的区域 ,发 现数 据 整体 的分 布模 式 ,以及 通 数 据 彼此 之 间 的相 互关 系等. 分析 对 较大 数据 集 的分 析处理 也 有重要 应用 . 聚类 不仅 如此 ,聚类分 析 在其 他 领域 也有 重 要 的地位 . 如 ,商业 上 聚类 分析 用 于研 究消 费者 行 为 ;环 境上 例 聚类 分 析是 检 验环 境 污染 程度 ,对 污 染成 分 归类 的有效 工 具 ;天 文学 中聚类 分析 用来 对 天 体归 类 ;生 物学
1 ・ 0
其中 J =) ( 1 为示性 函数. 把分类标签向量集 B看成缺失 向量集 ,利用 E M算法估计式子 中的参数 0 ,使得似 然函数最大化. 令参数 0 的极大似然估计为 0,X来 自第 k 个类的后验概率为 ,表达式为
P : ] [ 1x, = I
J=l
同类 间样 本性 质特 征尽 可 能分 开 . 根据不 同的分 类标 准 ,聚类 算 法有 多 种分 类 方式 . 对 观测 数据 先验 知 识 的有无 ,聚类被 划 分为无 监 根据
督 聚类 和有 监 督 聚类 . 督 聚类 为上 述 的第一 种情 形 ,无监 督 聚类 为上述 的第 二种 情形 . 据对 观测 数据 内 有监 根 在 的 概率 框 架 的有 无 ,聚类 又 可 以分 为基 于模 型 和基 于判 断 的聚类 . 实 际 问题 的 背景 ,观 测 数据 类 型 , 根据 又 提 出基 于 网格 的聚类 、基 于最 小生 成树 聚类 、模 糊 聚类 算 、 自组 织 映射聚类 、蚁 群 聚类等 .
中聚 类分 析 被用 来 对动 植 物 和基 因进 行 分类 ,获取 对种 群 固有 结 构 的认 识 及 发现 新 的基 因 ;计 算机 中聚类
分 析 用来 进行 图像 的分 析 处理 等 .
1 聚 类及 聚类 的简 单分 类
迄今 为 止 ,聚类 还 没有 一 个被 公 认 的定 义. 在此 介 绍 应用 多 元 统计 分 析 l l l 聚类 的描 述 :聚类 分 析 又 中对
【 图分 类号 】 2 2 中 O 1 【 献 标 识 码】 文 A 【 章 编 号 ] 0 8 18 ( 1)6 0 0 — 3 文 10 — 7 X2 20 — 0 9 0 0
聚类 分 析研 究 已有 很 长 的历史 ,它不 仅 是 多元统 计 中的一 个 重要 分 支 ,而且 也 是数 据 挖掘 、模 式 识别
整个样本空间被低密度的观测样本划分为若干区间. 算法的优点是预先不需要知道聚类的数 目;缺点是只能 处理数值型观测数据 ,但是基于网格 的聚类算法解决了这一弊端.
24 基 于模 型聚类 算法 .
基于模型聚类算法是 以概率数理理论为基础 的聚类算法. 可以解决无监督聚类 对观测 噪音不能恰当处 理 、对观测样本不能 自 动给出最优的聚类数 目的弊端. 基于模型的聚类算法与 E M算法结合 ,对聚类数 目的
_ )
.
∑音 f Xl f ( ) 0
根 据 后 验 概 率 对 样 本 进 行 聚 类 ,将 观 测数 据 分 类 到 有 最 大 后 验概 率 的类 牙0 模 型 选 择 准 则 A C 用 I, B C等给 出观 测数 据 集 的聚类 数 目 x 的最优 选择 . I
基于模型的聚类算法 ,特别是基于混合模型的聚类算法应用广泛 ,但是对于非正态数据以及高维混合
・
9 ・
分裂算法. 分类的方法 : 一开始将所有 的对象置于一个类 中,计算每两个类间距离 ,把距离最小 的两个类合
并 为 一个 新类 ,如此 下去 ,直 到每 个类 只包 含一个 对象 ,或者达 到一 个终 止条 件为止 .
分层聚类算法优点是可以得到各个数 目的类 ;缺点是分到各个类问的观测样本不能 自 动调整 ,聚类计 算量太大,且在聚类时易忽略新类临时产生的信息 ,不能 自动给出最优聚类数 E. 1 此聚类算法适用于小型数
V0 _ 1 No6 l 3 .
长春师 范 学 院学报 ( 自然科 学版 )
Jun lf h ncu oma U i rt(a r cec) orao agh nN r l nv sy t a Si e C ei N u l n
21 0 2年 6月
J n.01 u 2 2
G
数. x可分为 G个类 , 仃 为 X来 自第 k 设 令 个类 的权重 ( 丌 ) ∑ 1 ,则数据集 x模型的一般框架为 , = (
=l
G
k l - Baidu Nhomakorabea
∑订
n G
I ∞,假设 x,2 3 x 彼此独立 ,9 ( , ,观测数据 x的联合模型为 f 。 2 …, ; = 。 ,, n X X …, =8 o 一 a (,, x X ,
兀 ∑7 ( . r XI
:lt =1
2 . 混 合模 型聚 类 的理论 .2 4
对观测数据集 { l 2 …,n x, , x , x} 建立一个有限维的混合模型 ,对给定数据集 X,Lg 似然函数直接极 o一 大化很 困难. ,引入 x最有可能的分类标签向量集 B f 2 3 ,X 的分类标签记为 B=( …, 为此 =B, , , B B …, i b, i ,
称 群 分 析 ,它 是研 究 对样 品或 指 示进 行 分类 的一 种 多元 统 计 方法 . 所谓 的 “ ” 类 ,通 俗地 说 ,就 是 相似 元素
的集 合 . 类 有 两种 情 形 ,一是 对 当前 所研 究 的 问题 已知它 的类 别数 目及 类 特征 ,只 需将 一 些 未 知类 的个 分
Dsoey I 9 82: 3 3 4 i vr , 9 () 8 — 0 . c I1 2
[ 谢娟英, 帅, 3 】 蒋 王春霞, 一种改进的全局 K 等. 一均值聚类算 法[. J 陕西师范大学学报: ] 自然科学版, 0 0 ) 82 . 2 1( : ,2 21
聚类 算法 的研 究
刘 洋
( 大庆 师 范学 院数 学科 学学 院 ,黑龙 江 大庆 13 1) 6 7 2
【 摘
要】 聚类算法是多元统计 的一个重要 分支 ,在理论和实 际生 活中都有重要 的意 义。本文对聚类算
法的发展历程 以及近年来发展的一些 聚类算法进行研究 。
【 关键词】 聚类算法 ;算法优缺点 ;混合模型聚类 算法
确定 ,转 化为模 型选择 问题 ;对 观测 噪音 的处理 ,通 过添 加一个 或 多个 观测数 据 的不 同成分 来处 理 .
241 .. 聚类 的混 合模 型
观测数据集记为 X=x,2 3 x} {1 , , n x x …, ,设 ( 是数据 向量 X所在第 血 XI 个类 的概率密度函数 , 为参
r
,
若 数 据 X 来 自第 七 (= , …,) 个类 ,则 = ;否则 = . 常 情况 下假 定 B,2 … ,n 立 同分 kl, G 2 1 0通 , B 伤, B 独
布 ,以概率 丌。 , 丌 ,( = )来 自 , , …, G ∑ 仃 1 一个多维分布. 则有
G
据.
22 K m as . — en 聚类 算法
16 年 ,M c ue 首次提出了 K m as 97 aQ en — en 聚类算法 ,大体思想是在最初 的观测样本或指标 中找 出 K个
观 测样 本 作为 始 聚类 中心 ,然 后计 算 每一 观测 样本 与 每一个 聚类 中心 的距 离 ,把有 最 短距 离 的样 本 划分 为
P[ = ]仃 , l = XI 1 = P B, Ⅱ ( ∞ . I
r _I
’
利用分类标签向量集 B ,观测数据集的 l 一似然函数可 以表示成 o g
n G
l L ()∑ ( =)g 7 f I , o 88= 乏J  ̄1o ( ★ g b l r
・
再 发 生变 化为 止.
H ag un 为克服仅适用于数值型数据聚类 的局限性提出 K m dsH ag — oe— un 算法[ 2 1 ,针对初始聚类 中心的选择 ,谢
娟英等给出一种改进的全局 K 一均值聚类算法[ 3 1 等.
23 基于 密度 的聚类 . 此 聚类算 法 的主要思 想 是 以观测 样本 的密度 为依 据 ,把拥 有较 大 密度 的观 测样 本 聚成 一类 . 样本 的 观测
2 聚类 算法
21 分层 聚类 算 法 . 分 层 聚类 算 法是 对 于给 定 的观 测样 本 或指 标进 行 层 次上 的分 解 的一 种 聚类 算法 ,可 以分 为凝 聚算 法 和
【 稿 日期 】 0 2 0 — 5 收 2 1 — 4 0
【 作者简介】 刘 洋(9 5 ,女 ,黑龙 江大庆人 ,大庆 师范学院数 学科学学院助教 ,硕士 ,从事 多元统计分析研 究。 18 一)
型.
3 结论
随着 科 学 的不 断进 步. 呈现 维数 大 、分 布复杂 等 特点 ,对 聚类算 法 的要求 也越 来越 严格 . 后 的发 数据 在今 展 中 ,如何 聚类 不 同类 型 的数 据 集 ,特 别是 观测 数 据 的分 量 问结 构不 统一 ,彼 此 不独立 的数据 集 . 为此 ,应 该融 合不 同聚类 算法 的思 想 ,利 用不 同算 法 的优缺 点构 建新 的 、解 释性更 合理 的聚类 算 法 .
[ 考 文 献】 参
【 高惠璇. 1 ] 应用多元统计分析【 . : 京大学 出版社,0 5 M] 北京 I L 20 .
【 Hu n .x n i s o h — e n g r h r ls r g ag a t w t ctgr a vle [ . a nn n n we g 2 ] a g E t s n e m a s l i m f u t i r e t s s i eo cl a s ]D t Mii a dK o l e Z e o tt K a ot oc en l d a e h a i u J a g d
数 据 集 ,此 算 法 仍 需 进 一 步 完 善 . nL a nMF eatnP20 出 了 多项 式 混 合 模 型 聚 类 方 法 , Wag ,R moi ,Sbsai 0 6 提 i E  ̄ 提 供 了一 个 自动选 择 有 最 大后 验概 率 的聚类 数 目的方 法 ,特别 适用 于有 孤立 点 数据 的聚类 . a n a 等 Xi f g i oe D (0 9[ 立 了独 立 的 G us n与 Bt 20 )建 6 1 asi a e a分布 数据 的有 限维混 合 联合 模 型 ,讨 论 了两 种不 同类 型数 据 的混 合模
一
类 ,重新计算 ( 求平均值)每个有变化的聚类中心 ,则得到新 的聚类 中心 ,如此下去 ,直到每一类都不
K m as — en 聚类算法 的优 点是 思 想直 观 ,聚类 速度 较快 ;缺点 是 它太 依 赖 于初 始 聚类 中心 的选 取 ,不 能 自动 给 出 聚类 数 目 ,仅适 用 于 数 值 型数 据 . 为此 ,很 多学 者 针对 K m as 法 的缺点 给 出改进 算 法 :比如 — en 算
体 ,正确 地 归属 于其 中某 一类 ;二 是 事先 不 知道 研究 的 问题 应 分 为几 类 ,更 不知 道 观测 数 据 的具 体分 类情 况 ,需要 对 观 测数 据进 行 分析 处理 ,选定 一 种度 量数 据 接 近程 度 的统计 量 ,确定 分类 数 目,建 立一 种 分类 方 法 ,并按 接 近程 度对 观 、对 象 给 出合理 的分类 . 原则 是 使分 到 同一类 间样本 性 质特 征尽 可能 相似 ,不 钡 0 聚类
等 研 究方 向的重要 内容 之 一 . 过 聚类 ,可 以给 出数据 稀疏 和密集 的区域 ,发 现数 据 整体 的分 布模 式 ,以及 通 数 据 彼此 之 间 的相 互关 系等. 分析 对 较大 数据 集 的分 析处理 也 有重要 应用 . 聚类 不仅 如此 ,聚类分 析 在其 他 领域 也有 重 要 的地位 . 如 ,商业 上 聚类 分析 用 于研 究消 费者 行 为 ;环 境上 例 聚类 分 析是 检 验环 境 污染 程度 ,对 污 染成 分 归类 的有效 工 具 ;天 文学 中聚类 分析 用来 对 天 体归 类 ;生 物学
1 ・ 0
其中 J =) ( 1 为示性 函数. 把分类标签向量集 B看成缺失 向量集 ,利用 E M算法估计式子 中的参数 0 ,使得似 然函数最大化. 令参数 0 的极大似然估计为 0,X来 自第 k 个类的后验概率为 ,表达式为
P : ] [ 1x, = I
J=l
同类 间样 本性 质特 征尽 可 能分 开 . 根据不 同的分 类标 准 ,聚类 算 法有 多 种分 类 方式 . 对 观测 数据 先验 知 识 的有无 ,聚类被 划 分为无 监 根据
督 聚类 和有 监 督 聚类 . 督 聚类 为上 述 的第一 种情 形 ,无监 督 聚类 为上述 的第 二种 情形 . 据对 观测 数据 内 有监 根 在 的 概率 框 架 的有 无 ,聚类 又 可 以分 为基 于模 型 和基 于判 断 的聚类 . 实 际 问题 的 背景 ,观 测 数据 类 型 , 根据 又 提 出基 于 网格 的聚类 、基 于最 小生 成树 聚类 、模 糊 聚类 算 、 自组 织 映射聚类 、蚁 群 聚类等 .
中聚 类分 析 被用 来 对动 植 物 和基 因进 行 分类 ,获取 对种 群 固有 结 构 的认 识 及 发现 新 的基 因 ;计 算机 中聚类
分 析 用来 进行 图像 的分 析 处理 等 .
1 聚 类及 聚类 的简 单分 类
迄今 为 止 ,聚类 还 没有 一 个被 公 认 的定 义. 在此 介 绍 应用 多 元 统计 分 析 l l l 聚类 的描 述 :聚类 分 析 又 中对
【 图分 类号 】 2 2 中 O 1 【 献 标 识 码】 文 A 【 章 编 号 ] 0 8 18 ( 1)6 0 0 — 3 文 10 — 7 X2 20 — 0 9 0 0
聚类 分 析研 究 已有 很 长 的历史 ,它不 仅 是 多元统 计 中的一 个 重要 分 支 ,而且 也 是数 据 挖掘 、模 式 识别
整个样本空间被低密度的观测样本划分为若干区间. 算法的优点是预先不需要知道聚类的数 目;缺点是只能 处理数值型观测数据 ,但是基于网格 的聚类算法解决了这一弊端.
24 基 于模 型聚类 算法 .
基于模型聚类算法是 以概率数理理论为基础 的聚类算法. 可以解决无监督聚类 对观测 噪音不能恰当处 理 、对观测样本不能 自 动给出最优的聚类数 目的弊端. 基于模型的聚类算法与 E M算法结合 ,对聚类数 目的
_ )
.
∑音 f Xl f ( ) 0
根 据 后 验 概 率 对 样 本 进 行 聚 类 ,将 观 测数 据 分 类 到 有 最 大 后 验概 率 的类 牙0 模 型 选 择 准 则 A C 用 I, B C等给 出观 测数 据 集 的聚类 数 目 x 的最优 选择 . I
基于模型的聚类算法 ,特别是基于混合模型的聚类算法应用广泛 ,但是对于非正态数据以及高维混合
・
9 ・
分裂算法. 分类的方法 : 一开始将所有 的对象置于一个类 中,计算每两个类间距离 ,把距离最小 的两个类合
并 为 一个 新类 ,如此 下去 ,直 到每 个类 只包 含一个 对象 ,或者达 到一 个终 止条 件为止 .
分层聚类算法优点是可以得到各个数 目的类 ;缺点是分到各个类问的观测样本不能 自 动调整 ,聚类计 算量太大,且在聚类时易忽略新类临时产生的信息 ,不能 自动给出最优聚类数 E. 1 此聚类算法适用于小型数