论土地利用变化统计分析中的多重共线性问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
论土地利用变化统计分析中的多重共线性问题
——以深圳市宝安区为例
(资环学院土地资源管理专业彭菁学号:S040367)
摘要:针对土地利用变化统计分析中普遍存在的自变量个数不多而多重共线性严重这一类问题,本文在分析共线性识别方法和当前处理共线性问题时常用的逐步回归法优缺点的基础上,引入全子集法来解决多重共线性问题。以宝安区土地利用变化的统计分析为例,采用全子集法建立了土地利用变化解释和模拟模型,取得了较好的效果。
关键词:土地利用变化回归分析多重共线性全子集法
一、引言
土地利用变化统计分析中多重共线性问题的识别和处理方法研究,选择深圳市宝安区作为研究区域。该区地处珠江口,毗邻深圳经济特区,与香港隔海相望,具有优越的区位优势。从1978年至1 998年期间宝安(包括宝安县以及撤县建区后的宝安区)统计年鉴资料可以看出,改革开放以来,宝安区抓住两次发展契机,经济社会出现了快速持续的发展,经济结构逐渐从以农业生产为主转变为以现代化工业生产为主,总体经济规模不断扩大,总人口数量和外来人口比重也迅速增长。宝安区的土地利用结构变化剧烈且具有阶段性,主要表现为城市建设用地的扩张和农业用地的急剧减少,同时出现了大量的已推未建用地,使土地资源浪费严重,并产生了一系列环境和生态问题。因此,有必要对其进行定量分析并探讨其发展规律,为科学地引导宝安区的经济发展和生态保护提供理论依据。
二、原始数据来源及预处理
用于土地利用结构变化研究的基础数据为1988年至1998年10年间6个时点(1988、1990、1992、1994、1996、1998)的TM遥感影像。遥感影像的几何纠正和行政界限、地貌数据的提取,采用了1986年的地形图。遥感解译过程中,进行了野外训练区的选取,并参考了土地利用现状资料和社会经济统计资料。应用ENVI遥感影像处理系统,对深圳市宝安区1988~1998年6个时段的TM影像进行处理,获得了各年的土地利用分类图及6种主要土地利用类型(建成区、已推未建用地、耕地、林地、鱼塘和果园)的面积和比例(见表1 ) ,即
表1:宝安区主要土地利用类型的面积单位:km2
三、变量的选择
通过对6种主要土地利用类型的相关分析发现(见表 2 ) :建成区与已推未建用地正相
关关系显著,在研究期内表现为同向增减;而建成区与已推未建用地同耕地、林地、鱼塘、园
地均存在很强的负相关关系;耕地、林地、鱼塘、果园4者之间则表现为正相关关系。总的
来看,建成区和已推未建用地的增长是以耕地、林地、鱼塘、园地的减少为代价的,这与遥感
解译的结果相吻合。可以说,宝安区土地利用结构的变化是以建成区和已推未建用地的增长
拉动的,因此本文只对影响土地利用结构的3种主要土地利用类型建成区、已推未建用地和
耕地的社会经济驱动力进行分析。
表2:宝安区土地利用结构相关系数表
建成区已推未建耕地林地鱼塘园地建成区Pearson
Correlation
1
Sig.
(2-tailed)
.
N 6
已推未建Pearson
Correlation
.943(*
*)
1
Sig.
(2-tailed)
.005 .
N 6 6
耕地Pearson
Correlation
-.942(
**)
-.983(
**)
1
Sig.
(2-tailed)
.005 .000 .
N 6 6 6
林地Pearson
Correlation
-.869(
*)
-.951(
**)
.956(*
*)
1
Sig.
(2-tailed)
.025 .004 .003 .
N 6 6 6 6
鱼塘Pearson
Correlation
-.972(
**)
-.861(
*)
.894(*
)
.803 1
Sig.
(2-tailed)
.001 .028 .016 .054 .
N 6 6 6 6 6
园地Pearson -.883(-.964(.937(*.984(*.793 1
Correlation *) **) *) *)
Sig.
(2-tailed)
.020 .002 .006 .000 .060 .
N 6 6 6 6 6 6 注: ** Correlation is significant at the 0.01 level (2-tailed).
* Correlation is significant at the 0.05 level (2-tailed).
确定上述3种主要土地利用类型的面积为因变量y1、y2和y3(km2)。从大量的社会经
济统计数据中选择有可能影响土地利用结构的3组1 0个变量作为备选的自变量集合:第一
组为经济因子,包括国内生产总值x1 (万元) ,第一、二、三产业产值分别占国内生产总值的
比重x2、x3和x4(百分比) ,社会消费品零售总额x5(万元) ,实际利用外资额x6 (万美元)
和固定资产投资总额x7(万元) ;第二组为人口因子,包括总人口x8(人)和外来人口比x9(百
分比) ;第三组为政策因子,选用的是行政区划级别x1 0 (级别) 。其中,政策因子“行政区划
级别”为分级变量(设县级为0 ,区级为1 ,由于研究区域在1992年已经被国务院批准撤县建
区,于1993年才正式成立宝安区,因此,将之间的这段时间称为“准区级”,变量值设为0 .5)。
四、多重共线性的识别和处理
以宝安区为例,利用遥感、GIS等先进技术手段获得土地利用变化的历史和现状资料,运
用多元回归分析的定量化方法,并采用全子集法对自变量间的多重共线性问题进行处理,最终
可以建立区域土地利用变化的模拟和预测模型。据此可以探讨宝安区土地利用结构的动态变
化规律,并分析其背后的驱动机制。
由于已知10个自变量中存在一个完全共线性组合(三次产业比重之和为1) ,在回归中将
同时包含这三个变量的模型剔除。因此,在对变量进行共线性分析时,参数的计算也只对余下
的9个自变量进行(不妨设去掉x2 ,见表3 )。从自变量相关系数矩阵看,各自变量之间的简单
相关系数均大于0 .5,相关系数矩阵的行列式值趋近于0 ;主成分分析结果表明,第5~9主成
分的方差趋近0。综合以上结果分析表明,样本自变量之间存在严重的共线性。
表3:自变量共线性分析
相x1x3x4x5 x6x7x8 x9x10
关x1 1
系x3 0.84 1
数x4 0.82 0.67 1
距x5 0.99 0.82 0.79 1
阵x6 0.80 0.72 0.77 0.78 1
x7 0.92 0.89 0.80 0.89 0.74 1
x8 0.96 0.94 0.84 0.840.94 0.94 1
x9 0.83 0.95 0.80 0.81 0.76 0.86 0.941
x10 0.83 0.86 0.84 0.790.78 0.940.910.861
︳R︴=8.55E-11
主成分λ
1λ
2
λ
3
λ
4
λ
5
λ
6
λ
7
λ
8
λ
9
分析7.79 0.42 0.32 0.27 1.71E-01 2.46E-02 1.12E-02 1.88E-03 4.01E-04 由于数据样本量较小(6个样本) ,且变量之间共线性严重(变量个数≥4的模型自变量系数的VIF ) ,方程不宜选入过多的变量。而且,由于本次研究建立回归方程的主要目的是模拟土地利用变化的过程,为了使方程自变量能够解释因变量变动中最重要的部分,我们趋向于选择含较少变量的模型。因此,只对变量个数<4的变量子集(共174个)进行研究。分别对3种主要用地类型用所有的变量子集建立起回归方程,并利用F检验和t检验分别对各回归方程及其回归系数的显著性进行检验,将方程与系数分别通过F0.05和t0.1的模型筛选出来,列出