基于时间衰减的分布式数据流聚类算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
r 一

( 2 )
2 . 1 . 1 时 间 衰 减 模 型
在 实际 的应用 领域 中 , 新 数据往往 比旧数据 所包含 的有 价值 的信息更 多 , 根 据数 据流 的遗忘特 性来对 数 据 流进行 逐 步衰减 . 遗忘 特性是 指数据 流应 用 中对数据 流 中的近期 数据 比久远 的数据 更关 注 , 对近 期 的数 据 会 更多 地关 注其 细节 , 而对较 远的过 去 的数 据 , 需要 的主要 是其 大 略 的概 况 . 因此 采 用 时问 衰减 模 型逐 步 衰 减历史 元组 l 3 j .
要 信 息通 过分 析处 理得 到 全局 聚类 结果 . 因此 , 分 布式 数据 流 聚类必 须考 虑通信 开销 问题 , 在处 理数 据流 时 ,
需 要 考虑 其分 布 的本质 特 征 , 在 聚类 精度 与 网络 开销 之 间进 行 折 中.
样 本数 据 集 的微 聚 类可 用六 元 组 特 征 结 构 进 行定 义 : C F= = = ( C F2 , C F 1 , W, , △T, S W) 口 ] , 其中C F 2
为各 元 组 的 向量平方 和 , C F 1 为 各元 组 的线性 和 , 叫 为权重 , 为 元组 的个 数 , △ T为元组 在 滑动窗 口的停 留 的时 间 , S W 为 滑动 窗 口的实 际 大小. 权重 W 定 义如 下 :
分 布式数 据 流模 型有 若干 数据 流来 自多个平 行 的数据 源 , 称之 为局 部站 点. 每个局部 站 点可 以 自行处 理
数据 流 , 形成 各 自局部 站 点数 据流 的 聚类模 型. 在分 布式 环境 中 , 不 需要 提交 全部 数据 到 中心站点 , 而是 在局 部站 点 根据 衰减 模型 将局 部站 点得 到 的概 要结 构发 送到 中心 站点 . 分布 式结 点对 近期数 据进 行 聚类时 , 局部
站点 才 与 中心站 点通 信. 这种模 型 各局 部站 点 的进度 同时进 行 , 响应速 度 更快 , 由于 向 中心 结 点发 送 的是 局
部站 点计 算 过 的局部 模 型 , 所 以潜 在地 降低 了通 信负 载 . 本 文根 据 数据 流 的处 理模 型 , 提 出 了基 于时 间衰 减 的分 布 式数 据流 聚类 算法 ( TAD C L U) .
2 时 间 衰 减 的 分 布 式 数 据 流 聚 类 算 法
2 . 1 问 题 定 义
定 义 1 微 聚类特 征
数 据流 模 型 的定 义 如下 : 数据 流 D S是 由数 据项< , t >, < , t >, …, 组 成 D 维元 组 的无 限集合 . 这
个 元组 随着 时 间在 不断 变化 , i 表 示数 据流 中的样本 点 , t 表示 该样 本点 进入 或流 出滑 动窗 口的 时间.
[ 关键 词] 分 布 式数据 流 ; 聚类 ; 时间衰减 ; 滑动 窗 口 [ 文 章编 号] l 6 7 2 — 2 0 2 7 ( 2 0 1 3 ) 0 2 — 0 0 8 7 — 0 4 ( 中 图分类 号] TP3 1 1 ( 文 献标 识码] A
近年来 , 随着 i n t e r n e t 技 术 的广泛 应用 , 在许 多领 域 中 出现 了速 度快 、 规模 大 、 连续 以流 的形 式存 在 的数 据, 称 之 为数 据流 . 对数 据流 的挖 掘 , 尤其 是 聚类 已经成 为 数据 库 领域 研 究人 员 关 注 的热 点. 在传 感 器 网络 、 通 信 数据 管理 等领 域 中 , 数 据往 往是 分布 式 的. 传统 的集 中式 挖 掘方法 在分 布式 网络 环境 中显现 出 了很大 的 弊端 . 由于硬 件技术 的快速 发展 , 使从 各个 局 部站 点传输 的数 据 更容 易存储 . 分 布式数 据 流聚类 算法 要求 : 每 个 站 点能 够对 自己 的数 据 流进行 聚类 , 然 后将 聚类 概要 信息 传送 给 中心结 点. 中心结 点对 所有其 他结 点 的概
( 2 01 1 ZR1 1 ) .
作者简 介: 陈春 燕 ( 1 9 8 1 一 ) , 女, 山西霍州人 , 硕士 , 蚌埠医学院讲师 , 主 要 从 事 数 据挖 掘 、 聚类 分 析 研 究 .
8 8
太 原 师 范 学 院 学 报( 自然 科 学 版 )
第 l 2 卷
微簇 半径 为 :
W 一 f ( t —t ) ( 1 )
收 稿 日期 : 2 0 1 3 - 0 1 — 2 7
基金项 目: 安 徽 省 优 秀青 年 人 才 基 金 项 目( 2 0 1 0 S QRL1 2 6 ) ; 安 徽 省 自然 科 学 基 金 项 目( 1 1 0 4 0 6 0 6 M1 5 1 ) ; 蚌 埠 学 院 自然 科 学 基 金 项 目
u n .
基于时 问衰减 的分布式数据 流聚类算法
陈春 燕 吕俊 龙 郭有 强。
( 1 . 蚌 埠 医学 院 , 安徽 蚌 埠 2 3 3 0 0 0 ; 2 . 蚌 埠 学 院 计 算机 科 学 技 术 系 , 安徽 蚌埠 2 3 3 0 0 0 )
[ 摘 要] 为 了发 现 分 布 式 数 据 流 环 境 下 的微 簇 , 针 对数据 流 的遗 忘特性 , 提 出 一 种 基 于 时 间 衰
第1 2 卷
第 2 期
太 原 师 范 学 院 学 报 ( 自然 科 学 版 )
V o l ・ 1 2 No ・ 2
2 0 1 3 年 6月
J OUR NAL OF TAI Y UA N NO RMAL UN I VE R S I TY ( N a t u r a l S c i e n c e E d i t i o n )
减 的数 据 流聚 类算 法. 根 据 衰减模 型 增量 式的 处理 局部 站 点 , 将 局 部 模 型 发 送 给 中 心 站 点 .中 心 站
点对局 部 站点 的微 簇进行 合 并 , 生成 全局 聚类模 型 . 通 过 真 实数 据和 仿 真 数据 的 实验表 明 , 该 算 法
能够得 到 较好 的聚 类质 量 , 并且 有较 好 的伸缩 性.
相关文档
最新文档