数据空间自相关性对关联规则的挖掘与实验分析pdf
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
& ) ! " # ! $ 8 " < # > 3 N 8 % 8 ! $ > < 8 # $ ! ! 8 $ $ ! $ A
子的相互关系与作用的规律% 构成地理现象的各
! 引言
空间数据挖掘 # 3 O1$ 是一个从空间数据中 提取出有效的( 新颖的( 潜在有用的( 并能最终被人
+ # 理解的模式的非平凡过程* 揭示出蕴含在数据背 ! * + !
下载% 实验数据是以 3 其存 L N 文件的形式存储的! 储属性数据的是 O \ , 文件% 使用 * K D 6 K D算法进 I 行挖掘时! 数据源要从 O \ , 格式的文件转换为 . ] / 生成的文件中! 每一行代表一个 4 . + 工作表格式! 共! 而第 ! 列为花粉热发病数目 # 郡! $ $ 行" F C S 9 / U 第# ! $ ! ' ^ 9 K "列为! ! # 月的气温数据 # R K C G ! H 第! 'T $ ! ' R K 9 E ! > # @列为 ! ! # 月的降水数据 # R K 第# 'T $ ! C G " R K 9 E " ; " ! 列为 ; 中植被类型覆盖 H 率的数据# 即耕地( 阔叶林( 针 $ ! 7 C G T Q J 9 !7 C G T Q J 9 ; 叶林( 改良草地( 山地沼泽和半天然草地! 第" # " ;
陈江平 黄炳坚
# $ 武汉大学遥感信息工程学院! 武汉 > " $ $ < A
摘要传统的空间关联规则挖掘 ! 一般是使用属性关联规则的挖掘算法 ! 对空间数据进行泛化处理 ! 不考虑空间 也没有考虑空间自相关与空间关联规则的关系 % 本文运用改进的 * 数据的空间自相关性 ! K D 6 K D算法对某一数据 I 并对同一数据进行空间自相关分析 ! 比较两种方法反映的属性的相关性 ! 探讨了数据的 进行空间关联规则挖掘 ! 空间自相关性对空间关联规则挖掘的影响 % 论文采用 # 降 $ $ $ 年英国的 L* M , . 5 . 患病数据集和当时的气温 ( 即* 发现二者的结果中 雨数据作为实验数据 % 采用两种方法处理相同的数据集 ! K D 6 K D方法和空间自相关方法 ! I 证明了通过研究数据的空间自相关性也能获得准确的关联规则 ! 且数 所得的一项关联规则和二项关联规则一致 ! 据的空间自相关性对关联规则的挖掘存在作用和影响 % 如何定量度量一元空间自相关对空间关联规则的影响 ! 以及利用二元空间自相关结果作为空间关联规则候挖掘的候选频繁项集 ! 进而提高挖掘效率是本文的进一步工 作% 关键词空间自相关" 关联规则挖掘" 空间数据挖掘" * K D 6 K D I
第! "卷 第 !期 # $ ! !年 #月
地 球 信 息 科 学 学 报
% & ' ( ) * +& ,. & / 0 ) , & (1* 2 0 & )3 4 0 . ) 4 .
! 5 6 7 百度文库 ! " ) 6 8 ! ! , 9 : 8 # $ ! !
数据空间自相关性对关联规则的挖掘与实验分析
% 空间关联规
的贡献率能从庞大的空间数据库中提取有用的空 间关联规则% 如何衡 量 影 响 地 理 现 象 的 各 因 子 的 关 系 呢定性的有& 地理学第一定律地表所有事物和现象在 距离越近! 关联程度就越强! 距 空间上都是关联的!
+ <? % 定量的衡量方法一 离越远! 关联程度就越弱* * + * + A! $ ! 般有 1 和等方法%1 . . . 6 K C G J 0 9 C K J4! 6 K C G J U
$ = $ 实验数据 本文所使用的实验数据是英国 # $ $ $ 年的花粉
# 研究方法与数据
$ = % 方法 传统的关 联 规 则 挖 掘 中 ! 假设数据之间是没
独立的 ! 在进行关 联 规 则 挖 掘 时 ! 要不 有关联的 ( 停地扫描数据库 ! 得到候选频繁项集 ! 再与最小支 持度和最小可信度进行对比 ! 得出频繁项集 ! 最终 得到关 联 规 则 ! 这也是经典的 * K D 6 K D算 法 的 思 I * + ! < 想 % 国内外不少学者提 出 了 对 * K D 6 K D算 法 的 I 改进 ! 使其不需重复对数据库进行扫描 ! 提高算法 的运行效率 % 在空间关联规则挖掘中! 单个变量的空间自相 关是不容忽视的因素% 当某个变量的自相关系数 很大时! 说明了该变量存在很强的空间聚集性! 即 该变量同高或同低的概率高! 在空间数据库中表现 为该变量相同或者相近的数据出现的次数较多! 也 就是空间数据库中的记录数出现次数较多% 除了 单个变量自身的空间自相关外! 研究两个变量间的 二元自相关! 可以 得 到 两 个 变 量 之 间 的 空 间 相 关
% 9 6 O *$ A @ D
英国# # $ ! " $ $ $ 年各郡的降水数据 # ! ! # 月$ 授权从网站 F 下载" & ) ) ) R R V V V= B 9 R 6 S S D E 9 = 6 K = Q W I X 英国# 植被类型覆盖率 # $ ) > $ $ $年各郡的土地 数据! 包括耕地( 阔叶林( 针叶林( 改良草地( 山地沼 泽! 以及半 天 然 草 地 覆 盖 率 数 据! 授权从网站 F R /
热患病人数! 以及相关影响因素数据! 主要包括& 英国# # $ ! $ $ $年各郡的花粉热患病人数数据! & ) ) ) 授权从网站 F R R V V V= 9 J T J = C E = Q W S D G T D G O C / I X
) -J R C J G O 9 J E K D R D 6 G = C J G Y @ @ @ ?下载" I I
+ ; 效识别因子间的相互关系* % 探测各因子对模型
后的客观世界的本质规律( 内在联系和发展趋势! 实现知识的自动获取! 从而提供技术决策与经营决 策的依据
* + "
% 空间关联规则挖掘是空间数据挖掘
* + >
的重要内容! 其目的是发现现实世界中空间对象之 间的有趣的关联模式或相互关系 一般形式是&
! ! $
地 球 信 息 科 学 学 报 # $ ! !年
+ ! ; % 在空间关联规则挖 系数据库的关联规则挖掘*
性! 从而知道对主变量影响最大的变量! 在进行关 相关系数较大的变量间的关系! 往 联规则挖掘时! 定义 往是感兴趣的空间关联规则% 按照这个思路! 一个主变量! 通过空间自相关分析! 找出对因变量 可得到& 影响大的变量! 形成感兴趣的空间关联规则" # $ ! 为关联规 则 的 进 一 步 挖 掘 提 供 频 繁 二 项 # $ # 集% 最后可通过扫描数据库! 验证所得到的空间关 联规则的支持度与置信度% 论文通过两种不 同 的 方 式 ! 对同一数据集进 行空间关联规则挖掘和空间相 关 性 分 析 ! 旨在研 探 究空间自相关在空间关联规则 挖 掘 中 的 作 用 ! 讨空间关联规则挖掘时的属性变量之空间自相关! 以及将二元空间相关的结果作为空间关联规则挖 掘的先验知识! 以提高传统的空间关联规则挖掘的 效率%
列为所属地区数据! 分别是东北地区( 东南地区( 西 北地区( 西南地区和中部地区的数据% 为了数据更 有统计意义! 对数据进行了对数处理! 使其满足正 态分布%对空间自相关分析时! 直接使用经对数处 理后的 3 L N 文件进行分析% 本文对 * 是作 K D 6 K D挖掘部分所使用的工具! I 者编写的程序! 空间分析部分所使用的分析软件是
# $ + 使用文献 * 提供的改进的 * ! # $ K D 6 K D算法 I 得出一项( 二项( 对属性数据库进行关联规则挖掘!
国内外学者提出了很多方 掘中考虑空间自 相 关! 空间自相关和空间关联 法%如引入空间权重矩阵! 的 度 量 函 数! 并结合空间数据的地理位置构造 通过直观的方法来发现 5 6 K 6 G 6 D图! O 9 7 C Q G C U 图! * + < 空间关联规则 ! % 或者将空间信息泛化后转化成 属性关系数据库! 将空间自相关用数据的形式表 达! 然后采用属性关联规则的挖掘算法进行挖 掘
. 0和 9 C K J4 常用来度量时间序列相邻数值间的 U * + #! " 相关关系 ! %
空间自相关的存在! 产生的空间差异( 空间依
+ ! > ! 赖( 空间回归等* 加之属性数据与空间数据不可 + ! @ 分性* ! 使得空间关联规则的挖掘不同于一般的关
" 收稿日期 修回日期 # $ ! $ $ " ! ; # $ ! $ ! $ # < = 基金项目国家自然科学基金青年科学资金项目# 教育部留学科研基金项目# $ " $ % > $ ? $ ! ! @ # # ! " ! @ " # > A ! & ' 作者简介陈江平# 女! 湖北洪湖人! 副教授%研究方向为空间分析! 数据挖掘等%. ! A < @ $ / B C D 7 E F 9 G 7 D J C ! ; " = E 6 B ! H I
& ) ) ) ) ) ! A # = ! < ! = ! @ " = # ! " J 9 E R D 6 G J J 9 6 7 E B # $ $ $ = F R / R I # $ B 7 4 9 G R K 9S 6 K. E 6 7 6 [L T K 6 7 6 WV 9 : J D R 9 X U U X U'
它们的关系是复杂 种地理因子都不是独立出现的! 的! 可能是相互抑制! 也可能是相互促进的% 对地 理现象的多因子分析! 有助于我们了解空间因子间
+ ; 的关联模式或者相互关系! 即空间关联规则* %但
是! 多因子交互作用识别是一个理论难题! 缺少有 效方法%目前有效的方法是王劲峰等提出的建立 地理探测器模型! 分析各因子对模型的影响! 能有
则挖掘是空间数据挖掘的一个重要组成部分% 其
! ! ! # , ! " #$ ! $ # , $ % ! ! ,! ! ! ,! ! ! # ! "! $ ! $ # $ % 是空间 谓词 !
和非空间谓词的 集 合! 其中至少有一个是空间谓 词" 令 ! #! 称为规则的前件" 令 ! # "! ! ,! 称为规则的后件! $#$ ! # ,$ %! !$#&" $ $ ! 'P是规则的支持度 # J Q 6 K R (P 表示规则的置 I I * + @ 信度# $ % E 6 G S D T 9 G E 9 空间关联规则本质上也是地理现象的多个因
!期
陈江平 等& 数据空间自相关性对关联规则的挖掘与实验分析
! ! !
图! 技术路线图
, D 8 ! 6 K W S 7 6 VB C Z X I
# $ ! 英国 # # $ $ $ 年各郡的气温数据 # ! ! #月$ 授权从网站 F 下载 " & ) ) ) R R V V V= B 9 R 6 S S D E 9 = 6 K = Q W I X
三项( 四项频繁项集组成关联规则! 用于与自相关 分析得到的规则进行对比分析% 使用 包 # $ # 9 6 O * 软件进行空间自相关分析! 括一元自相关分析和二元自相关分析! 可按照各因 素! 以及各因素之间的相关系数的大小! 包括各因 素一元自相关的大小( 因素间的二元自相关系数的 大小% 将改进的 * 二项关联规 K D 6 K D算法中的一项( I 则与空间自相关分析中的一元自相关( 二元自相关 的结果进行对比% 观察关联规则中置信度大的频 繁一项集与一元自相关系数大的因素之间的关系% 通过观察上述各组合的关系! 可以得出关联规则与 自相关强度的对应关系! 换言之! 通过单个或者多 个因素之间自相关的强度可以作为先验知识判断 该因素间是否能构成关联规则! 以及关联规则的强 度! 为空间关联规则挖掘提供背景知识% 具体的技术路线图如图!所示%
* + ! ?
分类的依据是类 %再是将空间数据进行分类!
标签属性! 即类的唯一标识! 继而用决策树等办法 将空间数据库的目标以叶子节点的方式置于各类 上! 根据决策树得到空间关联规则
* + ! A
%
将空间数 据 泛 化 为 属 性 数 据 的 过 程 中 ! 数据 之间的空间 关 系 可 能 会 被 削 弱 或 者 忽 略 % 当 数 据量很大时 ! 通过图表等直观的方式进行空间关 联规则的挖掘显然不现实 % 采用决策树的方式进 行挖掘时 ! 类标签属性的选择决定了类的属性 ! 也 就是分类的结果 ! 决策树选择的 失 误 会 极 大 影 响 关联规则挖掘的结果 % 本文通过对同一数据集进 行两种方法 # 即空间相关性的分析法和空 间 关 联 规则挖掘方法 $ 的实验 ! 将结果进行对 比 ! 讨论空 间自相关 对 空 间 关 联 规 则 挖 掘 的 指 导 作 用 及 影 响%