地理数据分布的集中化
计量地理学论文1
基于集中化分析的云南省“一极集中”现象分析(地理科学13A,董一凡,134130004)摘要:20世纪中后期以来,中国开启了举世无双的城镇化进程,在这一过程中,作为行政中心的省会首府往往创造或巩固了其所在行政区经济中心的地位,这一现象在中西部地区更加明显。
本文是基于集中度指数研究云南省的人口集中进程,阐述本世纪初的10年,云南省城镇化进程宏观上的得失。
关键词:集中化指数,“一极集中”,云南省1.概念解析1.1洛伦兹曲线洛伦兹曲线是使用累计频率曲线研究工业化的集中化程度的曲线。
与均匀分布累计频率直线相比,洛伦兹曲线是上凸的。
洛伦兹曲线上凸水平越高,就意味着数据越集中,研究对象的分布更集中。
洛伦兹曲线越接近均匀分布累计曲线,就以为数据越分散,研究对象的分布更均匀。
1.2集中化指数集中化指数是一个描述地理数据分布的集中化程度的指数。
集中化指数越大,就说明数据分布的集中化程度越高,反之则集中化程度越低、数据分布越均衡。
通过计算集中化指数,可以定量化地比较地理数据分布的集中化程度。
只有数据个数相同、横坐标划分一致的情况下,才有可比性。
集中化指数的公式:I=(A-R)/(M-R)其中A——实际数据的累计百分比总和R——均匀分布时的累计百分比总和M——集中分布时的累计百分比总和1.3“一极集中”这一概念最早是阐述日本在20世纪80年代开始经济要素从向“第一国土轴”集中,进一步变成向首都圈单独集中的现象。
一极集中往往建立在有“中央指向传统”的国家和地区。
由于我国的现代化进程中,中国共产党和中国政府的权威领导和国有企业发挥顶梁柱作用,我国的行政中心往往是区域内最大的城市,更容易形成省会的“一极集中”。
2.数据图像和分析2.1“五普”和“六普”1各地州常驻人口对比图一2000年和2010年云南省常住人口分布洛伦茨曲线按照第五次人口普查数据显示,各地州2人口占全省人口比例累计百分比为1071.09%。
按照第六次人口普查数据显示,各地州人口占全省人口比例累计百分比为1076.27%。
计量地理学复习资料(整合版)
计量地理学复习资料一、填空题1、近代地理学的发展,曾形成了三种主要学派,即区域学派、人地关系学派、景观学派。
2、计量运动,主要是美国地理学家发起的。
3、计量运动的三大学派(依阿华的经济派)、(威斯康星的统计派)、(普林斯顿的社会物理学派)。
4、计量地理学的应用:相互关系分析、趋势面分析、空间相互分析、分布型分析、网络分析(总共12点,只要写几点,其余自己看书)5、标准正态分布的偏度系数、峰度系数与0的关系。
偏度系数:g1<0表示负偏,即均值在峰值左边;g1>0即正偏,均值在峰值右边,g1=0,对称分布。
峰度系数:g2=0表示标准正态分布,g2>0高于正态分布,g2<0低于正态分布。
6、锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。
7、趋势拟合方法:㈠平滑法⒈移动平均法(公式,可能考计算,74页)⒉滑动平均法(同上)⒊指数平滑法(填空,75页的最后一段)8、地理数据的统计处理内容包括哪两个方面: 进行统计整理;计算有关统计指标和参数。
9、地理数据的基本特征:一、数量化、形式化与逻辑化二、不确定性三、多种时空尺度四、多维性10、地理数据采集的渠道来源----书上25页11、填写下图的偏态类型(1)(正态分布); (2)(正偏态); (3)(负偏态)12、判断下列图中平均数、中位数、众数的大小。
(1)(=Me =Mo );(2)( > Me>Mo ); (3)( <Me<Mo ) 13、空间分布的类型:点状分布类型、线状分布类型、面状分布类型(离散区域分布类型、连续区域分布类型)。
14、根据测度标准,可以将数量标志数据划分为_间隔尺度数据_和 比例尺度数据。
15、地理现象的分布格局,常常用地理数据分布的 集中化程度 和 均衡度 来描述。
16、地统计学:以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性或空间相关和依赖性的自然现象的科学。
计量地理学——精选推荐
计量地理学名词解释1.统计分组:根据研究目的,按照一定的分组标志将地理数据分成若干组。
2.间隔尺度数据:是以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。
3.定性数据:表示地理现象或要素只有性质上的差异,而没有数量上的变化。
4.属性数据:主要用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征的数据。
5.计量地理学:是把数学和电子计算机技术应用于地理学的一门综合性学科。
6.众数:众数就是一个地理观测(或调查)系列中出现频数最多的那个数。
7.中位数:将各个数据从小到大排列,居于中间位置的那个数就是中位数。
8.计量革命:20世纪50年代末期,一些地理学者开展地理学定量化研究,建立定量模式。
这种定量化研究之热潮,就是所谓的计量运动。
9.空间数据:主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系的数据。
10.多样化指数:研究一个国家、地区或城市综合发展的评定指数。
11.峰度系数:测量地理数据在均值附近的集中程度。
12.计算地理学:以向量或并行处理器为基础的超级计算机为工具,对“整个”“大容量”资料所表征的地理问题实施高性能计算,探索构筑新的地理学理论应用模型。
13.集中化指数:是一个描述地理数据分布的集中化程度的指数。
14.偏度系数:测度地理数据分布的不对称性情况,刻画了以平均值为中心的偏向情况。
15.变异系数:是标准差与平均数的比值,表示地理数据的相对变化(波动)程度。
16.锡尔系数:用于对经济发展、收入分配等均衡(不均衡)状况进行定量化的描述。
17.基尼系数:就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而作出洛伦兹曲线,然后再计算得出的集中化指数。
18.方差:从平均概况衡量一组地理数据与平均值的离散程度。
19.洛伦兹曲线:使用累计频率曲线研究工业化的集中化程度的曲线。
20.复相关系数:表示几个要素与某一个要素之间的复相关程度的指标。
计量地理学
正确答案:A
8单选(2分)
基尼系数的定义缘于几个变量的罗伦次曲线( )?
A.
一个变量
B.
两个变量
C.
三个变量
D.
四个变量
正确答案:B
9多选(3分)
一般而言,地理数据的基本特征有( )。
A.
数量化、形式化与逻辑化
B.
不确定性
C.
A.
B.
C.
D.
正确答案:C
4单选(2分)
在事件的发展过程中,若每次状态的转移都仅与前一时刻的状态有关,而与过去的状态无关,则这样的过程称为( )。
A.
状态
B.
状态转移过程
C.
状态转移概率
D.
马尔可夫过程
正确答案:D
5单选(2分)
0
4
2
0
0
x3
12
1
3
1
0
x4
9
2
1
0
1
A.
1
B.
2
C.
3
D.
4
正确答案:B
11单选(2分)
下图为多目标规划的劣解与非劣解图。以下选项中正确的是( )。
A.
方案④是非劣解
B.
方案⑤是劣解
C.
方案⑥是非劣解
D.
A.
B.
C.
D.
正确答案:B
5单选(2分)
最小二乘法的基本思想是( )。
A.
拟合的误差平方和达到最小
地理集中指数公式
地理集中指数公式地理集中指数(concentration index)是一个衡量经济、人口、资源等区域分布不均衡程度的重要指标。
该指数主要通过计算不同区域的资源分布占总量的比例来衡量它们之间的差异。
下面是地理集中指数公式的详细介绍:1. 集中指数的定义地理集中指数是一种数值化的指标,它表示一个经济或人口特定变量(如收入、就业、教育水平)在特定地理区域内的分布情况,并将它们与整个地理区域的总体水平作比较。
地理集中指数可以用来衡量一个经济或人口特定变量的分布是否集中在某些区域或群体中。
2. 集中指数的计算公式地理集中指数的计算方法与基尼系数计算方法相同。
具体而言,该指数可以通过以下公式计算:CI = 2 * A / (B + C) - 1其中:CI:地理集中指数A:累积变量值的乘积除以变量总值B:位置i相对位置平均值的累积频率C:位置i相对位置平均值和整个地理区域位置平均值的差值的累积频率3. 集中指数的解释地理集中指数的取值范围为[-1,+1]。
当集中指数越接近1时,意味着经济、人口等特定变量越集中在少数几个区域中。
反之,当集中指数越接近-1时,意味着经济、人口等特定变量越分散在不同的区域中。
如果CI=0,则表示各个区域之间的分布相等,不存在集中现象。
4. 集中指数的应用场景地理集中指数广泛应用于经济学与人口学等领域中,可以用来分析不同地理区域中的收入差异、工业分布、文化传承等情况,并为政策决策者和规划师提供相关的信息和建议。
除此之外,地理集中指数还可以用来比较不同城市、国家或世界各地的经济、人口、资源等方面的差异性,以便更好地制定国家或地区的发展战略。
地理集中指数(concentration index)是经济学、人口学、社会学等领域中常用的一种指标。
它用于衡量一个特定变量在区域范围内的分布情况,以及这种分布是否不均衡。
在这种指标中,越接近1的值代表着集中度越高。
计算地理集中指数需要用到变量的累积频率、位置i的相对位置平均值以及整个地理区域位置平均值等。
地理空间数据采集、分析和处理相结合的课程体系设置与研究—以哈尔滨师范大学为例[1]
地理空间数据采集、分析和处理相结合的课程体系设置与研究—以哈尔滨师范大学为例[1]摘要:地理空间数据的获取与处理是近年来地理信息科学的热点,也是地理信息技术中发展较快的一个领域。
因此,科学地分析不同类型地理空间数据的分布、发展和变化规律,既有助于维护国家经济安全,也对提高GIS专业本科学生认识地理对象也具有重要的意义。
针对地理空间数据相关课程缺乏完整的课程体系这一问题,本文结合哈尔滨师范大学地理信息科学专业特色,深入研究了地理空间数据采集、分析与处理相结合的课程体系,并给出了具体的课程体系设置方案。
Abstract: The acquisition and processing of geospatial data is a hotspot of geographic information science in recent years, which is also a rapidly developing filed in geographic information technology. Scientifically analyzing the distribution, development and changing laws of different types of geospatial data is therefore both helpful to safeguard the country's economic security and significant to improve the understanding of geographic objects for the students majoring in GIS. Aiming at the lack of a complete curriculum system for geospatial data related courses, this paper deeply studies the curriculum system combining geospatial data collection, analysis and processing, and gives a specific curriculum plan.1.引言:在现今经济全球化和信息技术快速发展的社会背景下,地理信息科学在空间数据采集与处理、数据挖掘、空间分析、地学建模、智慧城市及高等教育等各领域均取得了重要的进展。
计量地理学重点
计量地理学重点第一章 绪论1、综观地理学的发展史,可划分三个基本阶段,即古代地理学阶段 ;近代地理学阶段 ;现代地理学阶段。
(填空)2、近代地理学的发展,曾形成三种主要学派,即区域学派;人地关系学派; 景观学派 。
(填空)3、第一阶段,计量地理学的发展大致从20世纪50年代末到60年代末期,是计量地理学发展的初期阶段。
第二阶段,20世纪60年代末期开始到70年代末期的十年时间,属于中期阶段。
第三阶段,计量地理学走向成熟和更加完善的阶段是指20世纪70年代末期开始到 80年代末期。
第四阶段,从20世纪90年代开始,由传统意义上的计量地理学开始向计量地理学发展。
(填空)4、 老三论主要指系统论、控制论和信息论;新三论主要指突变论、耗散结构和协同学。
5、 对计量地理学产生三种观点,第一是 定量化,第二是逆定量化,第三是非定量化。
6、 在运用计量地理学方法中,为了达到定量化研究的目的,必须注意几个问题,一是地理数据的筛选与质量检验问题;二是模型的建造问题;三是与GIS 结合的问题。
(填空)第二章1、 根据地理数据性质的不同,可将地理数据分为空间数据和属性数据两种基本类型。
在计量地理学中,属性数据可以分为两种类型,一是数量标志数据,二是品质标志数据。
根据测度标准,可以将数量标志数据划分为两种类型:一是间隔尺度数据,二是比例尺度数据。
根据测度标准,可以将品质标志数据划分为三种类型:一是有序数据,二是二元数据 , 三是名义尺度数据。
(填空)2、在计量地理学中,地理数据具有的基本特征:一、数量化、形式化与逻辑化,二、不确定性,三、多种时空尺度, 四、多维性。
(填空)3、地理数据统计整理的基本步骤大致可分为三步,即统计分组、计算各组数据的频数、频率,编制统计分组表 和作分布图。
3、下表给出了某农场各农田地块的面积,试分别计算其平均值、中位数、众数、离差。
(13分)(1)平均值:根据未分组的地理数据平均值公式:25.54758312(12/111=++==∑= ni i x n x (3分)(2)中位数: 根据计算中位数的方法得52.5 (3分) (3)众 数: 根据计算众数的方法得50 (3分)4、 下表给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试分别计算其平均值、中位数、众数。
计量地理试题答案
一、选择题1.地理问题研究的核心环节是A 地理数据采集B 地理数据教学方法C 地理数据描述D 地理数据的处理答案:D 参考课本P26页2.在单峰负偏态的分布上,下列叙述正确的是A 算数平均数=中位数=众数B 算数平均数<中位数<众数C 算数平均数> 众数>中位数D 算数平均数>中位数>众数答案:B 参考课本P33页3.下列哪个数据不是属性数据A 人口数量B 村庄河流的分布C 国内生产总值D 土地面积答案:B 参考课本P20页4.偏相关系数的性质有①偏相关系数分布的范围在-1到1之间;②__________;③偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数;A.偏相关系数的绝对值越大,表示其偏相关程度越大B.偏相关系数的绝对值越大,表示其偏相关程度越小C.偏相关系数的绝对值越小,表示其偏相关程度越大D.偏相关系数的绝对值越小,表示其偏相关程度越小答案:A 参考课本P57页5. 时间序列的组合成分包括长期趋势T 、__________循环变动C 和不规则变动I ; A季节变动 B.灰色模型C马尔科夫 D.乘法模型答案:A参考课本P72-P73页6. 主成分分析是在的基础上进行的;A.回归分析B.时间序列分析C.相关分析D.系统聚类分析答案:C参考课本P95页7.在地理学中,主要对于“状态”的预测方法是 A.主成分分析法 B.马尔可夫预测法 C.灰色模型分析法 D.趋势面分析发答案:B 参考课本P108页8.建立在变异函数理论及结构分析基础之上的空间插值法是A.RBF神经网络方法B.克里格插值法C.反距离权重倒数插值法D.三次样条函数插值法答案:B 参考课本P141页9. 下面哪一个不是AHP决策的基本步骤A.明确问题B.建立层次结构模型C.分层计算特征值D.层次总排序答案:C参考课本227—230页10. 下列属于图G=V,E所必须包含的基本要素的是A.边集 B. 子图 C. 关联边 D. 基础图答案:A 参考课本P57页11.下列不属于一个网络图的基础指标的是A.连线数目B.结点数目C.网络中亚图数目D.回路数答案:D 参考课本P281页12.下列哪个数据不是属性数据A 人口数量B 村庄河流的分布C 国内生产总值D 土地面积答案:B 参考课本P20页二、填空题1.锡尔系数,就说明分配差异越大;反之,锡尔系数,说明收入分配越均衡;答案:越大、越小参考课本P43页2.地理数据的统计处理内容包括哪两个方面:;答案:一是进行统计整理;二是计算有关统计指标和参数; 参考课本P27页3. 标准正态分布的峰度系数;,表示地理数据分布的集中程度高于正态分布;表示地理数据分布的集中程度低于正态分布答案:g1>0、g1<0, 参考课本P33页4. 地理现象的分布格局,常常用地理数据分布的_________与______来描述;答案:集中化程度、均衡度参考课本P355. 回归分析方法,就是研究要素之间_________的一种强有力的工具,运用这种方法能够建立反映地理要素之间具体数量关系的数学模型,即_________;答案:具体数量关系、回归模型参考课本P596.趋势面分析是利用数学曲面模拟地理系统要素在_及变化趋势的一种数学方法; 答案:空间上的分布参考书课本本P1007.常见的聚类分析方法有、模糊聚类法、动态聚类法等;答案:系统聚类法参考课本P828.空间局部自相关分析方法包括三种分析方法:、、;答案:LISA、G统计、Moran散点图参考课本P123页9变异函数四个非常重要的函数:、、、;答案:基台值、变程空间依赖范围、块金值区域不连续性值、分维数参考课本P137 10. 最短路径的三方面含义:、、;答案:纯距离意义上的最短距离、经济距离上的最短距离、时间意义上的最短距离; 参考课本P283页11. 中心选址问题的质量判断依据:;答案:使最佳位置所在的顶点的最大服务距离最小; 参考课本P286页12.地理系统本身的从本质上决定着地理数据的不确定性;答案:复杂性参考课本P23名词解释1.地理数据:用一定的测度方式描述和衡量地理对象的有关量化标志2.有序数据:当测度标准不是连续的量,而是指表示其顺序关系的数据,则称为有序尺度或等级尺度数据;3.洛伦兹曲线:使用累计频率曲线研究工业化集中化程度的曲线被称之为罗伦次曲线;4. 秩相关系数:又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量;5. 马尔可夫过程:在事件的发展过程中,若每次状态的转移都只仅与前一时刻的的状态有关,而与过去的状态无关,或者说状态转移过程是无后效性的,则这样的状态转移过程就称为马尔可夫过程;6.聚类分析:亦称群分析或点群分析,它是研究多要素事物分类问题的数量方法; 7.AHP决策分析法:是一种将决策者对复杂问题的决策思维过程模型化、数量化的过程;8. 地统计学:以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性或空间相关和依赖性的自然现象的科学;9. 最小支撑图:在一个图的所有支撑图中权重之和最小的那个叫做该图的最小支图;10. 基础图:从一个有向图D中去掉所有边上的箭头所得到的无向图;问答题1. 为什么进行主成分分析它的几何意义和数学意义是什么答案:变量太多,增加分析问题的难度与复杂性一些变量之间是具有一定的相关性从几何意义看,找主成分的问题,就是找出p维空间中椭球体的主轴问题;从数学上看,主成分是初始变量的相关矩阵中m个较大特征值所对应的特征向量;2.回归分析研究的范式老师补充的内容答案: 1. 确定研究目标与变量2.进行相关分析因变量与自变量,自变量间3.制作散点图判断线性或非线性4.计算回归常数与回归系数5.回归模型的检验6.建立回归方程与模型解释3. 简述主成分分析的计算步骤;1计算相关系数矩阵2计算特征值与特征向量3计算主成分贡献率及累计贡献率4计算主成分载荷;答案:优点:思路简单明了,它将决策者的思维过程条理化、数量化,便于计算,容易被人们所接受,所需要的定量化数据较少,对问题的本质,问题所涉及的因素及其内在联系分析的比较透彻、清楚; 缺点:过于粗略,存在较大的随意性,带有较强的主观性;5.地理学中的经典统计分析方法有哪些答案:相关分析,回归分析,时间序列分析,系统聚类分析,主成分分析,趋势面分析方法,马尔科夫预测方法;6. 对计量地理学的评价1世界上的任何事物都可以用数值来度量;2在现代地理学中,传统方法是数学方法的基础,数学方法是传统方法的重要补充;3数学方法是人们进行数学运算和求解的工具,能以严密的逻辑和简洁的形式描述复杂的问题、表述丰富的实质性思想;4地理学研究中,数学方法有其局限性; 5现代地理学中数学方法的形成和发展与计算机应用技术密切相关;计量地理学期末考试样卷一单项选择题本题共10小题1、近代主要由美国地理学家发起的计量运动中,主要形成了三种学派,下列选项中哪一个不是A 依阿华的经济派B 威斯康星的统计派C 普林斯顿的社会物理派D 由赫特纳首倡的区域学派答案:D2、计量地理学发展的四个阶段中,不包括下列选项中的哪一个A 20世纪40年代末到50年代末B 20世纪50年代末到60年代末C 20世纪60年代末到70年代末D 20世纪70年代末到80年代末答案:A 参照教材第一章第5—6页3、空间数据主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围和;A. 区域联系B. 地理范围C. 地理属性D. 空间联系答案:D 参照教材第二章第19页4、下列地理数据哪一组分别属于空间数据和属性数据A.有台基值模型B.无台基值模型C.抛物线模型D.孔穴效应模型答案:C 参照教材第四章第138页二填空题1、空间相互作用分析,主要是定量地分析各种“地理流”在不同区域之间流动的________; 答案:方向和强度参照教材第一章第4节第13页2、相互关系分析这类研究主要是对_________、________之间的相互关系进行定量分析; 答案:地理要素、地理事物参照教材第一章第4节第12页3、根据测度标准,可以将数量标志数据划分为_____和比例尺度数据;答案:间隔尺度数据参照教材第20页4、地理数据的基本特征有数量化、形式化、逻辑化__、__、;答案:不确定性、多种时空尺度、多维性参照课本24页5、地理现象的分布格局,常常用地理数据分布的和来描述;答案:集中化程度;均衡度参照教材第35页第一段6、地理要素之间相互关系密切程度的测定,主要是通过来完成的;答案:对相关系数的计算和检验参照教材第47页第三段7、___是事物之间差异性的度量,差异性越大,则相似性越小;答案:距离参照课本第84页第一段8、在事件的发展过程中,若每次状态的转移都只仅与前一时刻的装态,而与过去的发展的状态;这样的状态转移过程就叫马尔可夫过程;答案:有关;无关参照教材第108页第五段9、为揭示现象之间的空间关系,首先需要定义空间对象的;答案:相互邻接关系参照教材第120页最后一段10、局部空间自相关分析方法包括三种分析方法、、;答案:LISA;G统计;Moran散点图参照课本第123页第三段三、名词解释1、现代地理学:______________________________________答案:是一门研究地理环境及其与人类活动之间相互关系的综合性、交叉性学科; 参照教材第一章第4节第12页2、地理学:__________________________________________答案:研究地球表面的地理环境中各种自然现象和人文现象,以及它们之间相互关系的学科; 参照计量地理学全PPT的第4张幻灯片第一章第1节3、属性数据:_______________________答案:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征; 参照课本第20页4、二元数据:_______________________答案:用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题; 参照课本第21页5、集中化指数:______________________答案:是一个描述地理数据分布的集中化程度的指数参照课本第36页第一段回归模型:_________________________答案:运用回归分析方法建立的能反映地理要素之间具体数量关系的数学模型参照课本第59页第三段状态转移概率:_______________________答案:在事件的发展变化过程中,从一种状态出发,下一时刻转移到其他状态的可能性,称为状态转移概率;参照教材第108页第六段8、主成分分析:______________________答案:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术; 参照课本第95页第三段9、地理学第一定律:____________________答案:在地理空间中邻近的现象比距离远的的现象更相似参照教材第120页第一段10,区域化变量:______________________答案:当一个变量呈现为空间分布时,就称之为区域化变量参照教材第132页第五段四、问答题1、问:计量地理学发展的四个阶段的时间各阶段的特征第一阶段:20世纪50年代末—60年代末特征:统计学方法的应用第二阶段:20世纪60年代末—70年代末特征:多元统计分析方法和电子计算机技术在地理学研究中的广泛应用第三阶段:20世纪70年代末—80年代末特征:运筹学、投入产出分析方法、GIS 等第四阶段:20世纪90年代初至今由传统计量地理学开始向现代计算地理学发展特征:GPS、RS、GIS技术、神经网络、遗传算法模型、细胞自动模型、模糊逻辑模型、改进了的地理加权回归等高性能计算所依赖的计算方法与理论模型;2、写出对地理数据进行统计处理时常用到的统计指标与参数;并解释偏度系数和峰度系数的含义;描述地理数据一般水平的指标:平均值、中位数、众数;描述地理数据分布的离散程度的指标:极差、离差、离差平方和、方差与标准差、变异系数;描述地理数据分布特征的参数:偏度系数、峰度系数;偏度系数测度了地理数据分布的不对称情况,刻画了以平均值为中心的偏向情况;峰度系数测度了地理数据在均值附近的集中程度; 参照教材第29—33页3、简述回归分析法的一般步骤;答案:1确定研究目标与变量2进行相关分析因变量与自变量、自变量之间3制作散点图判断线性与非线性4计算回归常数与回归系数5回归模型的检验6建立回归方程模型解释参照计量学地理PPT第176页4、简述主成分分析法的计算步骤答案:⑴计算相关系数矩阵⑵计算特征值和特征向量⑶计算主成分贡献率及累计贡献率⑷计算主成分载荷参照教材第96—97页5、简述AHP决策分析方法的基本过程并举例说明答案:⑴明确问题⑵建立层次结构模型⑶构造判断矩阵⑷层次单排序⑸层次总排计量地理学期末试卷A参考答案2013——2014学年第一学期1.填空题本题20分1.一般而言,地理数据具有以下几个方面的基本特征:数量化、形式化、逻辑化,不确定性,多种时空尺度, 多维性;2.描述地理数据一般水平的指标有平均值、中位数、众数;描述地理数据分布的离散程度的指标有极差、离差、离差平方和、方差与标准差、变异系数;描述地理数据分布特征的参数有标准偏度系数、标准峰度系数;3.什么是秩相关系数:是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量4.多元线性回归模型中常数b0及偏回归系数bi的求解公式请用矩阵形式表达b=5. 线性规划问题的可行解:在线性规划问题中,满足约束条件的一组变量x=x1,x2,…,xnT 为可行解1分,最优解:使目标函数取最大或最小值的可行解称为最优解;1分6.在目标规划模型中,除了决策变量外,还需引入正、负偏差变量,其中,正偏差变量表示决策值超过目标值的部分,负偏差变量表示决策值未达到目标值的部分每空0.5分7.网络图中的三个基础指标为连线边或弧数目m,节点顶点数目n,网络中互不连接的亚图数目p,由它们产生的更为一般性的测度指标为β指数=m/n,回路数k=m-n+p,α指数=m-n+p/2n-5p,γ指数=m/{3n-2p}每空0.5分8.主成分分析的计算步骤:①计算相关系数矩阵,②计算特征值与特征向量,③计算主成分贡献率及累计贡献率,④计算主成分载荷;每空0.5分9.多元线性回归模型的显著性检验中,回归平方和U的自由度为自变量的个数k ,剩余平方和的自由度为n-k-1,n为样本个数每空0.5分2.聚类分析20分①聚类第一步,在9×9阶距离矩阵中,非对角元素中最小者是d94=0.04,故首先将第4区与第9②地理解释3.树型决策法20分1画出决策树10分4.地统计方法20分1结合自己的专业特点,简述该方法应用于地理学、生态学、环境科学等学科研究之中,解决具体的问题;52变异函数的四个基本参数分别是,基台值、变程或空间依耐范围、块金值或区域不连续值、分维数;地统计学的理论模型分为三大类:①有基台值的模型,包括球状模型、指数模型、高斯模型、线性有基台值模型和纯块金效应模型;②无基台值模型,包括幂函数模型、线性无基台值模型、抛物线模型;③孔穴效应模型;该模型是球状模型的一般形式;5分3下面模型1为球状模型;球状模型的四个参数分别为:块金值是0C,一般为常数;基台值为CC0;变程为;其中C为拱高;当c0=0,c=1时,称为标准球状模型;球状模型是地统计分析中应用最广泛的理论模型,许多区域化变量的理论模型都可以用该模型去拟合;10分5.随机型决策分析20分随机型决策问题指决策者所面临的各种自然状态将是随机出现的; 随机型决策问题,必须具备以下几个条件:①存在着决策者希望达到的明确目标;②存在着不依决策者的主观意志为转移的两个以上的自然状态;E4>E5 7③存在着两个以上的可供选择的行动方案;④不同行动方案在不同自然状态下的益损值可以计算出来; 3分随机型决策问题可进一步分为风险型决策问题和非确定型决策问题;1风险型决策问题:每一种自然状态发生的概率是已知的或者可以预先估计的;2非确定型决策问题:各种自然状态发生的概率也是未知的和无法预先估计的;解决风险型决策问题的方法有:1最大可能法——将大概率事件看成必然事件,小概率事件看成不可能事件的假设条件下,通过比较各行动方案在那个最大概率的自然状态下的益损值进行决策;2期望值决策法——计算各方案的期望益损值,并以它为依据,选择平均收益最大或者平均损失最小的方案作为最佳决策方案;3树型决策法——树型决策法的决策依据是各个方案的期望益损值;计算过程一般从每一个树梢开始,经树枝、树杆、逐渐向树根进行;决策的原则一般是选择期望收益值最大或期望损失成本或代价值最小的方案作为最佳决策方案;4灵敏度分析法——由于状态概率的预测会受到许多不可控因素的影响,因而基于状态概率预测结果的期望益损值也不可能同实际完全一致,会产生一定的误差;对可能产生的数据变动是否会影响最佳决策方案的选择进行分析,这就是灵敏度分析;5效用分析法——考虑决策者个人的主观因素对决策过程产生影响,即决策者的主观价值概念效用值,并将其应用于决策过程的方法;解决非确定型决策问题的方法有:乐观法——其决策原则是“大中取大”; 悲观法——其决策原则是“小中取大”; 折衷法——特点是,既不乐观,也不悲观,而是通过一个系数10,表示决策者对客观条件估计的乐观程度;等可能性法——以各状态发生的概率相等为假设的期望值决策分析方法;后悔值法——后悔值,是后悔值法决策的主要依据;所谓后悔值,是指某状态下的最大效益值与各方案的效益值之差;后悔值法,也称最小最大后增值法;计量地理学期末试卷B参考答案2013——2014学年第一学期1.填空题本题20分1地理网络中,关联矩阵是对网络图中顶点与边的关联关系的一种描述;邻接矩阵是对图中各顶点之间的连通性程度的一种描述;2请写出线形规划问题:Min Z=2X1+3X2+4X3 满足X1+2X2+X3≥32X1-X2+3X3≥4X1,X2,X3≥0 的对偶问题3变异函数有四个非常重要的参数,分别为:基台值,变程或称空间依赖范围,块金值或称区域不连续性值, 分维数;每空0.5分4克里格方法是建立在变异函数理论及结构分析基础上的,它是在有限区域内对区域化变量的取值进行无偏最优估计估计的一种方法;每空0.5分5全局空间自相关的度量指标有Moran指数, Geary系数;局部空间自相关分析方法包括:LISA空间联系的局部指标,G统计量, Moran散点图. 每空0.5分7将非线性关系y=debx,转化为线性形式: 2.5分8描述地理数据一般水平的指标有平均值、中位数、众数;描述地理数据分布的离散程度的指标有极差、离差、离差平方和、方差与标准差、变异系数;描述地理数据分布特征的参数有标准偏度系数、标准峰度系数;每空0.5分9主成分分析的计算步骤:①计算相关系数矩阵,②计算特征值与特征向量,③计算主成分贡献率及累计贡献率,④计算主成分载荷;每空0.5分2. 最短路径计算:3. 回归模型4.线性规划方法20分5.随机型决策分析20分随机型决策问题指决策者所面临的各种自然状态将是随机出现的; 随机型决策问题,必须具备以下几个条件:②存在着决策者希望达到的明确目标;②存在着不依决策者的主观意志为转移的两个以上的自然状态;③存在着两个以上的可供选择的行动方案;④不同行动方案在不同自然状态下的益损值可以计算出来;随机型决策问题可进一步分为风险型决策问题和非确定型决策问题;1)风险型决策问题:每一种自然状态发生的概率是已知的或者可以预先估计的;2)非确定型决策问题:各种自然状态发生的概率也是未知的和无法预先估计的;解决风险型决策问题的方法有:1最大可能法——将大概率事件看成必然事件,小概率事件看成不可能事件的假设条件下,通过比较各行动方案在那个最大概率的自然状态下的益损值进行决策;2期望值决策法——计算各方案的期望益损值,并以它为依据,选择平均收益最大或者平均损失最小的方案作为最佳决策方案; 3树型决策法——树型决策法的决策依据是各个方案的期望益损值;计算过程一般从每一个树梢开始,经树枝、树杆、逐渐向树根进行;决策的原则一般是选择期望收益值最大或期望损失成本或代价值最小的方案作为最佳决策方案; 4灵敏度分析法——由于状态概率的预测会受到许多不可控因素的影响,因而基于状态概率预测结果的期望益损值也不可能同实际完全一致,会产生一定的误差;对可能产生的数据变动是否会影响最佳决策方案的选择进行分析,这就是灵敏度分析; 5效用分析法——考虑决策者个人的主观因素对决策过程产生影响,即决策者的主观价值概念效用值,并将其应用于决策过程的方法;解决非确定型决策问题的方法有:乐观法——其决策原则是“大中取大”; 悲观法——其决策原则是“小中取大”; 折衷法——特点是,既不乐观,也不悲观,而是通过一个系数10,表示决策者对客观条件估计的乐观程度;等可能性法——以各状态发生的概率相等为假设的期望值决策分析方法;后悔值法——后悔值,是后悔值法决策的主要依据;所谓后悔值,是指某状态下的最大效益值与各方案的效益值之差;后悔值法,也称最小最大后增值法;。
地理数据分布的集中化(精)
结果分析
罗伦次曲线的上凸程度,表示农户家庭 经营性纯收入的部门集中化程度。上凸程度 越大,就表示农户家庭经营性纯收入越是集 中于某些产业部门。 如果各个产业部门的收入是均等的,则 罗伦次曲线正好就变成了正方形的对角线。
比较图2.5.1和图2.5.2,可以看出该地 区1999年农户家庭经营性纯收入的部门集中 化程度高于2004年。
其原理方法如下:
(1) 列出每一个区域(部门)的人口与 收入占全区(各部门总计)的比重p与w;
(2)计算 值,由小到大将每一地区 (部门)排序; (4) 按照上述顺序分别计算 p 和 w 的累计 值X和Y;
(5) 以 X 为横坐标,以 Y 为纵坐标,在直 角坐标系中依次连接各点,得到一条下凸的 罗伦次曲线。
二、基尼系数
基尼系数(gini coefficient)
就是通过两组数据的对比分析,纵、横坐标均 以累计百分比表示,从而做出罗伦次曲线,然后再 计算得出的集中化指数。它是通过对人口和收入两 组数据进行比较分析,然后将纵、横坐标均以累计 百分比表示,作出罗伦次曲线,再计算集中化指数 而得到的一个判断收入分配不平等程度的指标。
G 1 pi (2Qi wi )
i 1
i
n
(2.5.8)
式中: Qi wk 为从第1组到第i组的累积收入比重。
k 1
根据中国大陆1978-2002年各省(直 辖市、自治区)的人口数和按照可比价格折 算的GDP数据,计算基尼系数,结果如图 2.5.4。可以看出,在1978-1990年期间, 基尼系数虽然出现过几次上升和下降的微小 波动,但基本趋势是缓慢地下降的;而在 1991-2002年期间,基本上呈现上升趋势。 这一结论,与上节计算的加权变异系数是相 互印证的。
计量地理学
计量地理学1、计量地理学:它是一门在研究中结合计算机技术、信息技术等,采用数学方法定量化解决地理问题的学科。
2、地理数据:就是用一定的测度方式描述和衡量地理对象的有关量化标志。
是对地理问题进行定量化描述和研究的基础,是一切数学方法在地理学中应用的先决条件。
3、间隔尺度数据:这种数据,是以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。
4、比例尺度数据:这种数据,是以无量纲的数据形式表示测度对象的相对量。
5、有序数据:当测度标准不是连续的量,而是只表示其顺序关系的数据,则称其为有序尺度或等级尺度数据。
6、二元数据:即用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。
7、名义尺度数据:即用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。
8、洛伦兹曲线:意大利统计学家洛伦兹,首先使用累计频率曲线研究工业化的集中化程度。
9、集中化指数:是一个描述地理数据分布的集中化程度指数。
10、回归分析方法:就是研究要素之间具体数量关系的一种强有力的工具,运用这种方法能够建立反映地理要素之间具体数量关系的数学模型,即回归模型。
11、时间序列:也叫时间序列或动态数列,是要素的数据按照时间顺序变动排列而形成的一种数列,它反映了要素随时间变化的发展过程。
12、空间数据主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程的产生、存在和发展的地理位置、区域范围及空间联系。
13、属性数据主要用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征,包括数量标志数据与品质标志数据两种14、秩相关系数又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
15、聚类分析,亦称群分析或点群分析,它是研究多要素事物分类问题的数量方法。
其基本原理是,根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。
第二章计量地理集中化程度和洛伦兹曲线
集中化程度和洛伦兹曲线学生实验报告题目集中化程度和洛伦兹曲线一、实验说明地理现象的分布格局,常常用地理数据分布的集中化程度与均衡度来描述。
为了解释某种地理现象分布的基本格局,常常要计算相关地理数据分布的集中化和均衡度指数。
基尼系数就是通过两组数据的对比分析,纵哼坐标均以累计百分比表示,从而作出洛仑兹曲线,然后再计算得出的集中化指数。
它是通过对人口和收入两组数据进行比较分析,然后将纵横坐标均以累计百分比表示,作出洛仑兹曲线,再计算集中化指数而得到一个判断收入分配不平等程度的指标。
二、实验内容利用Excel对人口和收入两组数据进行比较分析,然后将纵横坐标均以累计百分比表示,作出洛仑兹曲线,再计算基尼系数。
三、实验目的通过本节实验掌握Excel的操作方法,以及在进行绘制洛仑兹曲线绘制和基尼系数计算过程中,切实体会分析过程,分析产生结果,增进对课堂知识的认识。
四、实验步骤4.1作洛伦兹曲线、计算集中化指数估算集中化程度。
1.原始数据2.按99年排序数据3.计算百分比值。
4.计算累计百分比:5.按同样方法计算得到其他年份的累计百分比如下表所示:6.插入图表:6.添加1990-2004年实际分布情况为5个系列,并添加如前步骤计算出的集中化分布:其中分类x轴标志选择自然序号0~9得到生成的折线图像:4.2将数据横纵坐标均以累计百分比表示,作洛伦兹曲线,计算基尼系数。
1. 导入源数据2.计算横纵坐标累计百分比。
3.绘制洛伦兹曲线。
4.计算基尼系数。
第一步计算p(人口数权重百分比)和w(GDP权重百分比)第二步计算出w/p的值并将所有字段按w/p升序排列第三步计算p和w的累计百分比第四步根据基尼系数公式求出相关的系数lnx,lny,lnx*lny和lnx.^2得到分子11.28分母9.07,相除得到基尼系数1.24β=∑(ln X i∗ln Y i) ki=0∑(ln X i)2ki=0。
计量地理复习重点
1.地理数据:就是用一定的测度方式描述和衡量地理对象的有关量化标志。
两大基本类型:空间数据和属性数据。
2.属性数据:主要用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。
划分两种类型:数量标志数据(包括间隔尺度数据和比例尺度数据)和品质标志数据(包括有序数据、二元数据和名义尺度数据)。
3.间隔尺度数据:这种数据,是以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。
4.比例尺度数据:这种数据,是以无量纲的数据形式表示测度对象的相对量。
5.有序数据:当测度标准不是连续的量,而是只表示其顺序关系的数据,则称其为有序尺度或等级尺度数据。
6.二元数据:即用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。
7.名义尺度数据:即用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。
8.洛伦兹曲线:意大利统计学家洛伦兹,首先使用累计频率曲线研究工业化的集中化程度。
9.集中化指数:是一个描述地理数据分布的集中化程度指数。
10.回归分析方法:就是研究要素之间具体数量关系的一种强有力的工具,运用这种方法能够建立反映地理要素之间具体数量关系的数学模型,即回归模型。
11.时间序列:也叫时间数列或动态数列,是要素(变量)的数据按照时间顺序变动排列而形成的一种数列,它反映了要素(变量)随时间变化的发展过程。
12.图的定义:从数学本质上揭示了地理实体与地理事物空间分布格局,地理要素之间的相互联系以及它们在地域空间上的运动形式,地理事件发生的先后顺序等。
设V是由n个点所组成的集合,E是由m条线所组成的集合,而且E中任意一条线都是以V中的点为端点,任意两条线除了端点外没有其他公共点。
那么V和E在一起就构成了图记G。
图的两个基本要素:点集(或称顶点集)、边集(或称弧集)13.地理学的三个基本阶段:古代地理学(19世纪以前)、近代地理学(19世纪-20世纪50年代)、现代地理学(20世纪60年代以来)。
计量地理学第二章——地理数据的类型
属性数据
用于描述地理实体、地理要素、地理现象、 地理事件、地理过程的有关属性特征。
第一节 地理数据的类型
一、空间数据的表达:
1、点——由一个独立的坐标点(x,y)定位,是空间上不可再分 的几何实体
1)实体点:用来代表一个实体。
2)注记点:用于定位注记。
3)内点:用于负载多边 形的属性,存在于多边 形内。
土地利用类型
地块序列号
1
2
3
4
5
6
土地利用类型
13 15 21 14 14
31
第二节 地理数据的基本特征
数量化、形式化与逻辑化 不确定性 多种时空尺度 多维性
第二节 地理数据的基本特征
一、数量化、形式化与逻辑化
定量化的地理数据是建立地理数学模型的基础,作用: ①确定模型的参数、给定模型运行的初值条件; ②检验模型的有效性。
11
12
平均 值
中位 数
众数
面积 (ha) 12 83 50 35 55 50 72 40 85 29 65 75 54.25 52.5 50
应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。
第四节 地理数据的统计处理
二、几种常用的统计指标与参数
1、描述地理数据一般水平的指标
例2:下表给出了中国西部地区某城市2000年家庭月收入的抽样调查结 果,试计算其平均值、中位数和众数。
四、多维性
描述该地理对象所处的地理位置和空间范围, 空间方面 一般需要2~3个变量 ;
描述该地理对象的具体内容,至少需要1个以 属性方面 上,多则需要十几个、甚至几十个变量 ; 时间方面 描述该地理对象产生、发展和存在的时间范围,
需要1个变量 。
第5节 地理数据分布的集中化与均衡度指数
第5节地理数据分布的集中化与均衡度指数地理现象的分布格局,常常用地理数据分布的集中化程度与均衡度来描述。
为了揭示某种地理现象分布的基本格局,常常需要计算相关地理数据分布的集中化和均衡度指数。
一、罗伦次曲线与集中化指数(1)罗伦次曲线20世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业化的集中化程度。
后来,这种曲线就被称之为罗伦次曲线。
下面我们通过实例,说明罗伦次曲线的做法和集中化指数的计算方法。
表2.5.1 某地区农户家庭经营性纯收入水平及其构成表 2.5.1描述了某地区农户家庭经营性纯收入水平及其构成情况。
为了形象、直观地描述农户家庭经营性纯收入在某些产业部门的集中化程度,可以按照以下步骤绘制罗伦次曲线:(1)将各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比,得到表2.5.2和表2.5.3;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线。
这里,要求作图时,将纵坐标轴和横坐标轴取成相等长度,使整个绘图区成正方形。
罗伦次曲线的上凸程度,就表示农户家庭经营性纯收入的部门集中化程度。
上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。
如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。
比较图2.5.1和图2.5.2,从罗伦次曲线的上凸程度可以看出,该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。
罗伦次曲线,不但可以按部门,而且也可以按空间(地区),形象、直观地描述要素分布在地域空间上的集中化程度。
如果按照部门构成,绘制出不同时期某要素数据分布的罗伦次曲线,就可以比较、分析不同时期该要素在部门之间分布的集中化程度;同样,对于一个特定的时期,如果按照空间(地区)构成,绘制出某要素数据分布的罗伦次曲线,就可以描述该时期该要素在地域空间上分布的集中化程度。
地理数据分布的集中化
结果如图2.5.5所示。可以看出,在1978— 1990年期间,锡尔系数虽然有微小波动,但 基本上呈下降趋势;而在1991—2002年期间, 基本上呈现出上升趋势。这一结论,与前面 计算出的基尼系数也是相互印证的。
0.165 0.16
0.155 0.15
显然,该曲线下方区域的面积为:A
n
0
f
(X
)dX
。
当数据均匀分布时,A就变成了对角线以下三角形
的面积(R);当数据集中于一点时,A就变成了整个
正方形的面积(M)。
显然,I越大,就说明数据分布的集中化程度 越高;反之,I越小,就说明数据分布的集中化程 度越低(越均衡)。
常采用如下近似取值方法: A——实际数据的累计百分比总和; R——均匀分布时的累计百分比总和; M——集中分布时的累计百分比总和。
如果用幂函数拟合,则基尼系数的近似 计算公式为
G 1 1
(2.5.7)
式中: 可以通过最小二乘法(详见第3 章)拟合,即
k
(ln X i ln Yi )
i1 k (ln X i )2 i 1
根据分组数据,基尼系数也可以按照如下方法近 似地计算:
按人均收入由低到高进行排序,分成若干组(如 果不分组,则每一户或每一人为一组),每组收入占
集中化指数在[0,1]区间上取值。 只有数据的个数相同而且横坐标划分一致时, 才有可比性。
二、基尼系数
基尼系数(gini coefficient)
就是通过两组数据的对比分析,纵、横坐标均 以累计百分比表示,从而做出罗伦次曲线,然后再 计算得出的集中化指数。它是通过对人口和收入两 组数据进行比较分析,然后将纵、横坐标均以累计 百分比表示,作出罗伦次曲线,再计算集中化指数 而得到的一个判断收入分配不平等程度的指标。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(二)集中化指数
集中化指数
是一个描述地理数据分布的集中化程 度的指数。
A R I M R
(2.5.3)
Y 假若罗伦次曲线的解析式为: f ( X ) X 0,1,2,, n, n A 显然,该曲线下方区域的面积为: 0 f ( X )dX 。 当数据均匀分布时,A就变成了对角线以下三角形 的面积(R);当数据集中于一点时,A就变成了整个 正方形的面积(M)。
显然,I越大,就说明数据分布的集中化程度 越高;反之,I越小,就说明数据分布的集中化程 度越低(越均衡)。
常采用如下近似取值方法: A——实际数据的累计百分比总和; R——均匀分布时的累计百分比总和; M——集中分布时的累计百分比总和。
集中化指数在[0,1]区间上取值。 只有数据的个数相同而且横坐标划分一致时, 才有可比性。
G 1 pi (2Qi wi )
i 1
i
n
(2.5.8)
式中: i wk 为从第1组到第i组的累积收入比重。 Q
k 1
根据中国大陆1978-2002年各省(直 辖市、自治区)的人口数和按照可比价格折 算的GDP数据,计算基尼系数,结果如图 2.5.4。可以看出,在1978-1990年期间, 基尼系数虽然出现过几次上升和下降的微小 波动,但基本趋势是缓慢地下降的;而在 1991-2002年期间,基本上呈现上升趋势。 这一结论,与上节计算的加权变异系数是相 互印证的。
收入/元
1 645.53 79.66 390.24 74.12 167.38 44.55 150.88 211.62 136.7 2 900.68
占总收入的 比重/%
56.73 2.75 13.45 2.56 5.77 1.54 5.2 7.3 4.71 100
图2.5.1 1999年农户家庭经 图2.5.2 2004年农户家庭经 营性纯收入构成的罗伦次曲线 营性纯收入构成的罗伦次曲线
二、基尼系数
基尼系数(gini coefficient)
就是通过两组数据的对比分析,纵、横坐标均 以累计百分比表示,从而做出罗伦次曲线,然后再 计算得出的集中化指数。它是通过对人口和收入两 组数据进行比较分析,然后将纵、横坐标均以累计 百分比表示,作出罗伦次曲线,再计算集中化指数 而得到的一个判断收入分配不平等程度的指标。
yi T y i log pi i 1
n
(2.5.10)
锡尔系数越大,就表示收入分配差异越 大;反之,锡尔系数越小,就表示收入分配越 均衡。
根据各省(直辖市、自治区)的人口和 按照可比价格折算的GDP数据,计算1978— 2002年中国大陆省际差异的锡尔系数T 值, 结果如图2.5.5所示。可以看出,在1978— 1990年期间,锡尔系数虽然有微小波动,但 基本上呈下降趋势;而在1991—2002年期间, 基本上呈现出上升趋势。这一结论,与前面 计算出的基尼系数也是相互印证的。
0.165 0.16 0.155 0.15 0.145 0.14 0.135 0.13 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002
图2.5.5 1978-2002年中国大陆省际收入差异的锡尔系数
如果以人口比重加权,锡尔系数 L 的 计算公式为
pi L pi log( ) yi i 1
n
(2.5.9)
式中:n为区域(部门)个数;yi 为i地 区(部门)收入占全区(各部门总计)的份 额;p i 为i地区(部门)的人口占全区(各部 门总计)的份额。
如果以收入比重加权,则锡尔系数 T 的计算公式为
(1)将表2.5.1各产业部门的收入及其占总收 入比重(百分比),从大到小重新排序;
(2)从大到小,逐次计算累计百分比;
(3)以自然序号为横坐标(x),累计百分比为 纵坐标(y);以(部门代码,累计百分比)为坐标点, 连成一个上凸的曲线(图2.5.1和图2.5.2),即罗 伦次曲线。
表2.5.1
某地区农户家庭经营性纯收入水平及其构成
2004 1999 占总收入的 比重/% 42.82 2.25 10.34 3.45 6.91 2.57 8.09 17.42 6.15 100
部门代码 1 2 3 4 5 6 7 8 9 合计
产业部门 种植业 林业 畜牧业 渔业 工业 建筑业 运输业 商饮服务业 其他 家庭经营纯 收入
收入/元 2 735.93 143.57 660.61 220.67 441.57 163.95 516.87 1 112.72 393.16 6 389.05
0.41 0.40 0.39 0.38 0.37 0.36 0.35 0.34 0.33 1978 1980 1982 1984 1986 1988 1990
1992 1994 1996 1998 2000 2002
图2.5.4 1978—2002年中国大陆省际收入差异的基尼系数
三、锡尔系数
基尼系数(gini coefficient),用于 对经济发展、收入分配等均衡(不均衡)状 况,进行定量化的描述。 锡尔系数又称锡尔熵,有两个锡尔系数 指标,即锡尔系数T 和锡尔系数L。 两者的不同之处在于锡尔系数T 以收入 比重加权计算,而锡尔系数 L 则以人口比重 加权计算。
基尼系数(G)就可以按照如下公式计算
G 1/ 2 f ( X )
0 1
1/ 2
1 2 f ( X )dX
0
1
(2.5.6)
Y 假若罗伦次曲线的解析式为: f ( X ) X [0,1] , A 显然,该曲线下方区域的面积为: f ( X )dX 。 对应于绝对均衡分布,其罗伦次曲线就是正 方形的对角线,其下方区域的面积为R=1/2。
第5节 地理数据分布的集中化 与均衡度指数
罗伦次曲线与集中化指数 基尼系数 锡尔系数
一、罗伦次曲线与集中化指数
(一)罗伦次曲线
20世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业 化的集中化程度。后来,这种曲线就被称之 为罗伦次曲线。
绘制罗伦次曲线实例
结果分析
罗伦次曲线的上凸程度,表示农户家庭 经营性纯收入的部门集中化程度。上凸程度 越大,就表示农户家庭经营性纯收入越是集 中于某些产业部门。 如果各个产业部门的收入是均等的,则 罗伦次曲线正好就变成了正方形的对角线。
比较图2.5.1和图2.5.2,可以看出该地 区1999年农户家庭经营性纯收入的部门集中 化程度高于2004年。
1 0
如果用幂函数拟合,则基尼系数的近似 计算公式为
1 G 1
(2.5.7)
式中: 可以通过最小二乘法(详见第3 章)拟合,即
(ln X
i 1 k i 1
k
i
ln Yi )
(ln X i ) 2 源自根据分组数据,基尼系数也可以按照如下方法近 似地计算: 按人均收入由低到高进行排序,分成若干组(如 果不分组,则每一户或每一人为一组),每组收入占 总收入比重为 w ,每一组人口比重为 pi ,则基尼系 i 数可以按照下式近似地计算
其原理方法如下:
(1)列出每一个区域(部门)的人口与 收入占全区(各部门总计)的比重p与w;
(2)计算每一区域(部门)的比率w/p;
(3)根据w/p值,由小到大将每一地区 (部门)排序; (4)按照上述顺序分别计算p和w的累计 值X和Y;
(5)以X为横坐标,以Y为纵坐标,在直 角坐标系中依次连接各点,得到一条下凸的 罗伦次曲线。