一种新的空间多维关联规则模型与算法_黄添强
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在生态、环境等空间应用领域, 人们希望知道 空间对象的不同属性之间的关系, 如温度、湿度、高 程、植物类型与森林火灾之间的联系。 这类属性通 常是多值的、连续的, 而且空间对象的属性之间不 是独立的, 具有空间相关性[1, 7]。 在某种范围内, 空
能取一个值。 如影响域{p 1, p 2}中{c1, c2}不构成属 性集, 因为 c1, c2 属于同种属性 c, c1 只可与 a2 等不 同属性构成属性集, 如{a2, c1}。
如图 1 中的{p 7, p 8}是对象 p 9 的对象影响域。 定义 4 影响域 IM P: 如果对象集 P ′是 P 中 每一对象的对象影响域, 则称 P ′是 P 的影响域。 定义 5 空间项目集 A : 由不同属性 ai 的属性 值 aij 构成的集合为 A = {aij 1< i< m , 1< j < n}, 称A 为空间项目集。如温度 t= t1、湿度 h= h3、植物 类 型 p = p 4, 可 以 构 成 空 间 项 目 集 t1h3 h3 p 4 t1h3p 4 等。 空间属性值要求是离散的, 如果是连续值要进 行离散处理。 在同一影响域内, 同一属性的多个值 不构成属性集, 即同一空间项目集中相同的属性只
生导师, 1953 年 6 月生; 叶水生, 男, 教授, 1957 年 6 月生; 包 磊, 男, 讲师, 1977 年 4 月生。
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第3期
黄添强, 等: 一种新的空间多维关联规则模型与算法
303
含的实例个数为N , 则比值M N 为属性值 aij 参与 据库中的同一影响域中的属性项值生成, 而不是由
定义 2 空间相关: 空间的两个对象 A , B 之 间存在某种对称的空间关系, 称这两个对象空间相 关。 如图 1 中的 p 1 与 p 2, p 3 与 p 4, p 8 与 p 9 等。
如第 6 节实验中表 1~ 5 所示的实例集。 定义 9 属性值参与度 PR (A , aij ) : 若 aij ∈A , 空间项目集 A 的实例集在属性集{aij }的实例集中 投影所得的不同元素个数为M (可能有多个实例 属于相同的对象) , 空间项目集{aij }的实例集所包
享的, 并且空间关系是不明确的, 空间粒度可大可 小[ 1 ]。所以空间关联规则挖掘比传统的关系型关联 规则挖掘更复杂[ 2 ]。虽然空间特征类型或空间属性 可以对应传统关联规则的项, 但由于空间特征具有 连续性,“事务”这个概念不明确, 很难准确定义。传 统的关联规则技术并不适合挖掘空间数据, 挖掘空 间关联规则需有新的模型与方法。
基金项目: 国家自然科学基金 (49971063) 资助项目; 江苏省自然科学基金 (B K2001045) 资助项目。 收稿日期: 2004210208; 修订日期: 2005201207 作者简介: 黄添强, 男, 博士研究生, 1971 年 8 月生, E2m ail: huangtianqiang2000@yahoo. com. cn; 秦小麟, 男, 教授, 博士
第 37 卷第 3 2005 年 6 月
期 Jou
百度文库
南 京 航 空 航 天 大 学 学 报
rnal of N an jing U n iversity of A eronautics & A stronau
t
ics V oJl.u3n.7
N o. 3 2005
一种新的空间多维关联规则模型与算法
302
南 京 航 空 航 天 大 学 学 报
第 37 卷
已有研究空间对象关系的方法大体上可分为
三 类: ( 1 ) 空 间 统 计[3]; ( 2 ) 基 于 空 间 概 化
( generalization ) 的 方 法[4, 5 ]; ( 3 ) 空 间 关 联 规 则[6~ 10 ]。 空间关联规则挖掘着重研究空间事务的
数字地球的提出使人们对空间数据产生了前 所未有的兴趣。 随着生态、地质与环境等空间数据 库的扩大, 人类拥有了海量的空间数据。 空间数据 的研究具有极其重要的意义。关联规则挖掘技术在 传统的数据库挖掘中广泛应用, 但在空间数据挖掘 中应用有它的特点与难点。传统数据中的事务是独 立的、不相交的, 而空间数据是连续的、相交的、共
黄添强, 秦小麟, 叶水生, 包 磊
(南京航空航天大学信息科学与技术学院, 南京, 210016)
摘要: 空间对象具有自相关、连续性、多尺度等特点, 导致空间关联规则挖掘与传统的统计关联规则挖掘不同, 不 存在统计的“事务”, 挖掘更加复杂。本文用基于空间相关的影响域来创建“空间事务”, 以代替传统关联规则挖掘 中 的 事 务, 建 立 了 一 种 新 的 应 用 于 挖 掘 空 间 多 维 数 据 的 空 间 多 维 关 联 规 则 模 型 (Spatial m ultidim en sional association rules m odel, SM A RM )。设计并实现了一种新的挖掘算法 SM A RB IA , 用基于影响域、空间支持度等剪 枝技巧, 克服了空间多维关联规则挖掘过程中候选项目集庞大的困难。实验表明, 该算法能有效地减少候选项目 集而获得较好的性能。 关键词: 数据挖掘; 空间多维关联规则; 空间数据; 影响域 中图分类号: T P 311113; T P 392; T P 18 文献标识码: A 文章编号: 100522615 (2005) 0320301206
New Spa tia l M ul ti-D im en siona l A ssoc ia tion Rule M odel and Its A lgor ithm
H UA N G T ian2qiang , Q IN X iao2lin, Y E S hu i2sheng , B A O lei
创建。 最经典的是 Kopersk i 与 H an 提出的模型[6]
(简称 KH 模型)。KH 模型列举了用户指定的参考
特征周边的领域作为事务, 主要应用于与某个布尔
空间特征有关的领域。它的缺点是不能发现所有的
关联规则, 而且, 因为它是用参考特征周围的邻居
作为实例, 这些邻居在下一个参考特征的统计中可 能 被 再 次 计 数, 于 是 产 生 重 复 计 数 的 现 象。 M o rim o to 提出把空间事例分成不相邻的部分来统 计它们的频繁相关模式[7] (简称为M 模型) , 主要 应用于类似移动通讯等领域的与位置有关的数据 处理。缺点是这种人工强加的划分事务在边界处常 常会少计数或多计数, 从而产生支持度误差。 近两 年, 有人提出了用相关位置来表达空间关系[8~ 10 ], 但这些方法不能处理多维空间对象或算法效率低。
定义 6 频繁空间项目集QA (类似于传统的 “频繁项目集”) : 空间支持度 (在下面定义) 大于阈
间对象的属性可能相互影响, 所以应该建立属性相 值的空间项目集。
关的空间模型, 而不是人为的独立分割。 用影响域 来作为统计单位, 可以克服上面提出的已有模型的 缺点。
定义 1 空间关系: 是指空间对象之间在一定 区域上构成的与空间特性有关的联系, 这种联系可 分为拓扑关系、度量关系及方位关系。 拓扑关系指
当前国内外提出的空间关联规则模型存在许 多不足之处, 本文提出了一种新的空间多维关联规 则模型, 并设计与实现了有效的挖掘空间多维关联 规则算法。
1 基于影响域的空间多维关联规则 模型 (SM ARM ) 的构建
图 1 空间对象与空间属性示意图
定义 3 对象影响域 IM L : 如果对象集 P = {p 1, p 2, …, p i}中的每一个对象与对象 q 空间相关, 则称 P 为 q 的对象影响域。
定义 7 实例 T P: 如果对象集 T P {p 1, p 2, …, p k} (k= 1, 2, …, n) 是它自身的影响域, 并且空 间项目集 A 中的每一个属性值 aij 在 T P 中的某一 个对象 p k 中出现, 并且 T P 中的每一个对象 p k 具 有空间项目集 A 中的属性值 aij , 则称 T P 为 A 的 实例。
(Co llege of Info rm ation Science and T echno logy, N an jing U n iversity of A eronautics & A stronautics, N an jing, 210016, Ch ina)
Abstract: Spatial association rule m in ing based on spatial objects is m o re difficult than relational association rule m in ing because the spatial object attributes are spatially auto2co rrelated, con tinuous and m ultidim en sional. It is m o re difficult to define tran saction s in traditional association rule m in ing. T h is paper establishes a new spatial m ulti2dim en sional association rules m odel (SM A RM ) fo r m ulti2dim en sional spatial data m in ing, w here spatial tran saction s are defined by a no tion of im pact zone based on spatial autoco rrelation and rep laced by a traditional tran saction defin ition. A new m in ing algo rithm (SM A RB IA ) is realized. T he algo rithm can avo id eno rm ous candidate item s in m in ing p rocess by p run ing techn iques based on im pact zone and spatial suppo rt. F inally the experim en t show s that it can decrease the num ber of candidate item s. Key words: data m in ing; spatial m ulti2dim en sional association rules; spatial data; im pact zone
空间项目集A 的参与度。 它表示每个属性项的实 12项频繁空间项目集进行表连接生成, 这样大大地
例集参与属性集的实例集的分量。
减 少 了 22项 候 选 空 间 项 目 集 的 数 量。 ( 3) 利 用
拓扑变换下的拓扑不变量, 如空间对象相邻与连通 关系; 度量关系是用某种度量空间中的度量来描述 的对象间的关系, 如对象间的距离; 方位关系用来
如图 1, p 1 是 a2 的实例, p 1p 2 是 a2b2 的实例。 定义 8 实例集 T PS: 所有的空间项目集A 的 实例的集合称为实例集。
描述目标在空间中整体和局部的某种顺序关系, 如 前后、左右等。