空间关联规则挖掘技术的研究及应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(6% ,80% ) [9] ,说明 80% 靠近郊区的房子价格是便宜
的,并且只有 6% 的数据符合这一规则。 在上述例子
中,close_to 是一种空间谓词,而 is_cheap 是非空间谓
词。 在空间谓词的知识库中还有很多其他空间谓词,
如 left_to( 左边) ,north_to( 北边) ,是表示空间方向的;
· 28 · 计算机技术与发展 第 23 卷
务 A 同时也包含事务 B 的百分比,即式(2)。
s(A → B) = P(A ∪ B)
(1)
c(A → B) = P(B | A)
0 引 言
随着数据库技术发展的不断成熟以及数据应用的 普及,人们日常生活中接触到的数据中不断涌现出各 种形式的复杂数据类型。 为了从各种复杂数据中提取 有用的信息,必须对这些数据进行数据挖掘。 数据挖 掘技术的研究是一个比较年轻而充满生机的领域,它 的诞生是在 1989 年 8 月的第一届国际联合人工智能 学术会议上,当时是由一些从事数据库、人工智能、数 理统计和可视化等技术的学者们首次提出。
Research and Application of Spatial Association Rules Mining Technology
LU Xin-hui,WU Chen,YANG Xi-bei
( College of Computer Science and Engineering,Jiangsu University of Science and Technology, Zhenjiang 212003,China)
空间关系,通常也称为空间相关关系。 挖掘日常生活
中接触到的空间对象之间的关联模式或相互关系是目
前空间关联规则挖掘的主要目的。
由于空间数据的复杂性,所以与传统关联规则相
比,空间关联规则的形式种类较多,如空间目标间的相
邻( close_to) 、相离( far_away) 、包含、被包含、覆盖、被
覆盖等。 目前使用最广泛的一种形式是 A → B(s% ,
c% ),这种形式是从事务型关系数据库的关联规则延
伸过来的,不过其中的 A 和 B 是空间和非空间谓词的
集合。
其实这种形式的空间关联规则只是一种比较狭义
的定义方式,还有很多更为复杂的形式,比如 is_a( X ,
'house ') ∧ close _ to ( X , ' suburbs ') → is _ cheap ( X )
Abstract:Spatial data mining ( SDM) refers to picking up interesting rules from spatial database,such as spatial patterns and characteristics,the universal relations of spatial and non-spatial data and other universal implicated in spatial data. Introduce the spatial data mining and the spatial association rules technology first. Based on the shortage of the traditional association rule mining method,propose three algorithms for spatial association rules including spatial topological relation based mining method,spatial distance based mining method and spatial direction based mining method,which was proved to be effective through the experiment. Finally,made the analysis and forecast to the possible direction of future research. Key words:spatial data mining;spatial association rule;topological relation;distance relation;direction relation
·Βιβλιοθήκη Baidu7·
空间数据中的客观世界的本质规律、内在联系和发展 趋势,提供技术决策与经验决策的依据。
相对于传统数据挖掘,空间数据挖掘较为复杂,其 主要原因在于其挖掘对象空间数据本身的复杂性。 空 间数据具有空间位置和距离属性,并且数据本身就具 有一定的空间相关性。 1. 1 空间数据的特点
(1)空间数据的自相关性[2] 。 由于数据的空间相 关性而产生的空间差异、空间依赖、空间回归[3] 以及属 性数据与空间数据不可分,使得空间数据挖掘比传统 数据挖掘复杂得多。
(3) 方位关系。 首先找准一个参考对象 A 和一个需要定位的对象 B,则方位关系可以做如下定义( 如图 2) 。 设 R(A) 是参照对象 A 中的一个特征点[7] : a. 若 B 在 A 的东北方向,if∀b ∈ B:bx ≥ R ( A) x ∧ by ≥ R ( A) y。 同理可得东南、西北南、西北等方向的确 定条件。 b. 若 B 在 A 的北方,if∀b ∈ B:by ≥ R ( A) y。 同理 可得东,南,西方向的确定条件。 c. 若 B 在 A 的某个方向,则对于所有的 A 和 B,此 关系为真。
(2)
在实际研究中,所谓强规则是指既满足最小支持
度阈值又同时满足最小置信度阈值的规则,如果项集
A ⊂ I,s( A → B) ≥ min_s ,则称 A 是频繁项集;如果
c( A → B) ≥ min_c,则称规则 A → B 成立。
2. 2 空间关联规则
空间关联规则主要是指空间对象之间的空间或非
关的数据。 随着计算机、网络、遥感、GPS 技术、GIS 等 技术的快速发展,各种先进数据采集技术的应用、数据 获取手段的更新和提高,空间数据增长飞速,其膨胀速 度远远超出了常规的事务型数据。 在这样的背景下, 空间数据挖掘作为数据挖掘的一个重要分支应运而 生。 空间数据挖掘( Spatial Data Mining) 是指从空间 数据仓库中提取隐含的、用户感兴趣的空间模式与规 则、空间与非空间数据的普遍关系及其他一些隐含在 数据库中的普遍的数据特征过程[1] 。
1 空间数据挖掘
空间数据 挖 掘 的 主 要 目 的 就 是 挖 掘 人 们 感 兴 趣 的、事先未知的并且最终可以被理解的知识。 与传统 数据挖掘不同的是,空间数据挖掘以空间数据库为基 础,综合利用神经网络、模式识别、人工智能等学科的 理论技术来实现数据的挖掘,并且最终揭示出蕴含在
第 5 期 陆新慧等:空间关联规则挖掘技术的研究及应用
(2)空间数据的尺度特征。 空间数据所遵循的规 律以及体现出的特征根据观察层次的变化而不尽相 同。 故空间数据的尺度特征是其复杂性的又一表现形 式。
(3)空间数据维度的增高。 空间对象属性的迅速 增长,导致空间数据维度相应增高。 如遥感领域, 随 着感知器技术的飞速发展, 波段的数目由最初的几个 增加到几十甚至上百个。
在人们日常生活中,接触和利用的数据大部分都 是空间数据,即地理位置信息和属性及其空间分布有
收稿日期:2012 -08 -20 ;修回日期:2012 -11 -25 基金项目:江苏省自然科学基金( BK2011492) 作者简介:陆新慧(1988 -) ,女,江苏盐城人,硕士研究生,研究方向 为空间数据挖掘;吴 陈,教授,研究方向为计算机应用技术和模式 识别与智能系统。
图 1 拓扑关系图 (2) 距离关系。
在传统数据库中,距离关系是给两个元组之间进 行的人为的概念定义,通常任取两个属性 x 和 y,则元 组 A 和 B 之间的距离通常定义为:f( A,B) = ( Ax - Bx)2 + (Ay - By)2。 但在空间数据库中, 距离函数[6] f(A, B) 是有它的实际意义的。 一般情况, f( A,B) = 100, 可能是指 AB 两地的距离为 100km。 所以在空间数据 库中,定义距离关系 r,r ∈ { < , > , =}。 根据距离函 数 f(A,B),有 ArB 当且仅当 f(A,B) rK,其中 K 为一个 阈值。
摘 要:空间数据挖掘是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间的普遍关系及其它一些隐 含在空间数据库中的普遍数据特征。 文中首先介绍了空间数据挖掘和空间关联规则挖掘技术。 结合空间数据的关联特 性,针对传统关联规则挖掘方法的不足,提出了三种适合空间数据挖掘的空间关联规则挖掘算法:基于空间拓扑关系挖掘 算法、基于空间距离挖掘算法和基于空间方位关系挖掘算法,并通过实例验证了方法的有效性。 最后对未来可能研究的 方向做了分析和展望。 关键词:空间数据挖掘;空间关联规则;拓扑关系;距离关系;方向关系 中图分类号:TP31 文献标识码:A 文章编号:1673-629X(2013)05-0026-04 doi:10. 3969 / j. issn. 1673-629X. 2013. 05. 007
(4)空间数据是海量的。 空间数据具有多源、多 维、时态性的特点,所以其数据量是惊人的。 很多算法 因为计算量过大而根本无法实施。 因此如何克服海量 数据,提出高效 算 法 是 空 间 数 据 挖 掘 的 主 要 任 务 之 一[4] 。 1. 2 空间数据的关联特性
(1) 拓扑关系。 通常使用点、线、面这三种空间数据类型来描述空 间对象,分别将它们表达为:节点( Node) 、弧段( Arc) 和多边形( Polygon) 。 它们的拓扑关系可以表达为以 下 3 种[5] :拓扑邻接,描述的是同类元素间的拓扑关 系,如 N1 / N2 ,N1 / N3 ,P1 / P2( 如图1) ;拓扑关联,描述的 是不同类之间的拓扑关系,如 N1 / C1 C3 C6 ,P1 / C1 C4 C6 ; 拓扑包含,描述的是同类但不同级的元素之间的拓扑 关系,在拓扑包含中有简单包含, 如 P3 / P4 、 多层包含 和等价包含。
第
23 卷 2013 年
第5 5月
期
计算机技术与发展
COMPUTER TECHNOLOGY AND DEVELOPMENT
Vol. 23 No. 5 May. 2013
空间关联规则挖掘技术的研究及应用
陆新慧,吴 陈,杨习贝
( 江苏科技大学 计算机科学与工程学院,江苏 镇江 212003)
图 2 方位关系图
2 空间关联规则
2. 1 关联规则 关联规则是目前在数据挖掘中最活跃、研究最为
广泛的一种知识类型。 关联规则模式属于描述性模 式,对数据间的重要关系非常敏感,可以用简单的形式 来表达,并且很容易解译,是无监督学习的方法之一。
数学模型来描述关联规则如下[8] : 设有项的集合: I = { I1 ,I2 ,…,Im} 。 任务相关的数 据 D 是数据库事务的集合,每个事务 T 都是项的集合, 使得 T ⊆ I。 每个事务 T 有一个唯一的标识符 TID。 假 设 A 是一个项集,事务 T 包含 A,当且仅当 A ⊆ T。 则关 联规则是形如 A → B 的蕴含式,其中 A ⊂ I,B ⊂ I,并且 A ∩ B = ∅。 规则 A → B 要在事务 D 中成立,受到支持 度 s 和置信度 c 的约束。 支持度 s 是指 D 中事务包含 A ∪ B 的百分比,即式(1);置信度 c 是指在 D 中包含事