聚类分析(数据分析)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.2
人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项指标中有四项指标是不能直接获取的,分别是:人均社会消费品零售总额、人均财政收入、人均工业增加值和全员劳动生产率。这四项指标通过了一定的计算得到。相应的公式如下:
1.人均社会消费品零售总额=社会消费品零售总额/年末人口总数;
总结
此次通过相关分析得到了人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项指标之间存在了一定的相关关系。各个指标在现实中相互的影响着。通过聚类分析将黑龙江的13个市分成了3类。分别是如下。第一类发达地区:大庆市。第二类中等发达:哈尔滨市、七台河市。第三类欠发达地区:齐齐哈尔市、鸡西市、鹤岗市、双鸭山市、伊春市、佳木斯市、牡丹江市、黑河市、绥化市、大兴安岭地区。通过分类我们可以看出黑龙江的各市发展差距有点偏大。需要调控。
人均工业增加值
Pearson 相关性
.975
.207
.711
.769
1
.996
.875
显著性(双侧)
.000
.498
.006
.002
.000
.000
全员劳动生产率
Pearson 相关性
.970
.196
.695
.798
.996
1
.884
显著性(双侧)
.000
.521
.008
.001
.000
.000
职工平均工资
写这篇论文数据刚开始并不好找。最初我也是想找2010县的数据来做,毕竟题目是要2010县市。可是虽然《黑龙江统计年鉴2011》已经出来了,但是在上面仅仅能找到5项指标,我就认为不行了。那时候《中国区域经济统计年鉴2011》还没有出来,到现在也没出来。去找2009的县市吧,可是仅仅就能找出来5项,感觉也不行。2010的市也找不出几项来,所以最后找了2009的市,很可惜指标还是差一个(农村居民人均生活消费支出)。这篇论文黑龙江统计局上数据很少,基本没有。
第三类:齐齐哈尔市、鸡西市、鹤岗市、双鸭山市、伊春市、佳木斯市、牡丹江市、黑河市、绥化市、大兴安岭地区。相对于大庆市、哈尔滨市和七台河市相对落后,所以是欠发达地区。
从图1看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大时,13个地区被依次聚类。当距离为0时,每个样本为单独的1类;当距离为5时,则13个地区被聚为3类;当距离为大于10小于25时,则13个地区被聚为2类;最终,当聚类标准(距离)扩大到25时,13个地区被聚为了1类。
2
1、计算相关系数
2相关性的说明
一般的假如两个变量的相关系数r满足|r|>0.95,则可以说明这两个变量存在显著性相关;
假如r满足|r|≥0.8则可以说明这两个变量存在高度相关;假如r满足0.5≤|r|<0.8则可以说明这两个变量存在高度相关;假如r满足|0.5≤|r|<0.8则可以说明这两个变量存在中度相关;假如r满足0.3≤|r|<0.5则可以说明这两个变量存在低度相关;假如r满足|r|<0.3.则可以说明这两个变量不相关;
职工平均工资
人均GDP
Pearson 相关性
1
.349
.838
.835
.975
.970
.912
显著性(双侧)
.242
.000
.000
.000
.000
.000
农民人均纯收入
Pearson 相关性
.349
1
.584
.392
.207
.196
.246
显著性(双侧)
.242
.036
.185
.498
.521
.417
附录:
地区
人均GDP
农民纯收入
人均社会消费品零售总额
人均财政收入
人均工业增加值
全员劳动生产率
职工平均工资
哈尔滨市
32053
7614
15206.74
4824.725
8448.366
17614.26
28959
齐齐哈尔市
12714
5586.4
5365.64
1357.341
4038.314
8858.585
24038
参考文献:
梅长林,范金城.数据分析方法.北京.高等教育出版社,2006.
黑龙江省统计年鉴2010.山东省统计局,2010.
中国区域经济统计年鉴2010.国家统计局.2010
百度百科.
黑龙江统计局
http://www.docin.com/p-195341316.html
中国统计年鉴数据库.http://tongji.cnki.net/kns55/index.aspx
Pearson 相关性
.912
.246
.793
.836
.875
.884
1
显著性(双侧)
.000
.417
.001
.000
.000
.000
表1
从表1可以看出,人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资都存在了一定的相关性。其中人均GDP和人均工业增加值、全员劳动生产率是显著相关;和人均社会消费品零售总额、人均财政收入、职工平均工资是高度相关;和农民人均纯收入是低度相关。农民人均纯收入和人均社会消费品零售总额是中度相关;和人均收入是低度相关;和人均工业增加值、全员劳动生产率、职工平均工资无相关。人均社会消费品零售总额和人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资存在中度相关。人均财政收入和职工平均工资存在高度相关;和人均工业增加值、全员劳动生产率存在中度相关。人均工业增加值和全员劳动生产率存在显著相关;和职工平均工资存在高度相关。全员劳动生产率和职工平均工资存在高度相关。
12:绥化市
3
13:大兴安
3
表2
图1
从表一看出第一类:大庆市。人均GDP和人均工业增加值是所有市中最高的市,领先于其他市。总体发展水平相对于其它市比较的好。人民生活相对较好。再则该市的其他各项指标也是中上等的。所以第一类是发达地区。
第二类:哈尔滨市、七台河市。各项指标都比较平衡,各方面发展比较均衡。为中等发达地区。
七台河市
25534
5562
4633.621
4347.435
15589.44
33674.34
25108
牡丹江市
22644.84
7758
8791.574
2825.37
7595.344
16993.51
23739
黑河市
12882
5979.9
2692.308
1255.459
1630.884
4456.582
22326
大庆市
76068
6593
16930.76
5609.411
57535.33
99370.11
41371
伊春市
13530
6139
3770.621
1153.37
4139.827
8859.704
14792
佳木斯市
17172.23
6086
7039.526
1220.719
2948.617
6645.915
23224
农民人均纯收入:指的是按农村人口平均的“农民纯收入”,反映的是一个国家或地区农村居民收入的平均水平。其中,“农民纯收入”指的是农村居民当年从各个来源渠道得到的总收入,相应地扣除获得收入所发生的费用后的收入总和。
社会消费品零售总额:指批发和零售业、住宿和餐饮业以及其他行业直接售给城乡居民和社会集团的会消费品零售总额。
关键词相关分析;聚类分析;分类;
1
1.1
本次的分析指标是2009年黑龙江13个市的人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项。数据经过是从《黑龙江统计年鉴2010》和《中国区域经济统计年鉴2010》上获取的的数据进行相应的计算得到的。
人均财政收入:财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入是衡量一国政府财力的重要指标。
工业增加值:工业企业全部生产活动的总成果扣除了在生产过程中消耗或转移的物质产品和劳务价值后的余额。
全员劳动生产率:指根据产品的价值量指标计算的平均每一个从业人员在单位时间内的产品生产量。是企业生产技术水平、经营管理水平、职工技术熟练程度和劳动积极性的综合表现。
绥化市
10471
5266.7
3807.308
800.0965
342.9852
761.3329
17743
大兴安岭地区
15261
5339
6083.65
1373.403
2509.506
5985.309
19460
所以符合积累分析的要求,既存在一定的相关性。
4.2
将数据输入spss后,使用分类中的系统聚类,并且在其中的聚类成员中的类数选择4类后得到如下表格:
群集成员
案例
3群集
1:哈尔滨
2
2:齐齐哈
3
3:鸡西市
3
4:鹤岗市
3
5:双鸭山
3
6:大庆市
1
7:伊春市
3
8:佳木斯
3
9:七台河
2
10:牡丹江
3
11:黑河市
3
人均社会消费品零售总额
Pearson 相关性
.838
.584
1
.789
.711
.695
.793
显著性(双侧)
.000
.036
.001
.006
.008
.001
人均财政收入
Pearson 相关性
.835
.392
.789
1
.769
.798
.836
显著性(双侧)
.000
.185
.001
.002
.001
.000
2.人均财政收入=财政收入/年末人口总数;
3.人均工业增加值=工业增加值/年末人口总数;
4.全员劳动生产率=工业增加值/全部从业人员平均人数;
其中的年末人口总数和全部从业人员平均人数都能在《黑龙江统计年鉴2010》和《中国区域经济统计年鉴2010》中找到。
1.3
人均GDP:也叫人均生产总值,常作为发展经济学中衡量经济发展状况的指标。是重要的宏观经济指标标之一,它是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具。是衡量各国各地区人民生活水平的一个标准。
职工平均工资:职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。
2
2
相关分析是研究现象之间是否存在某种依存关系,也就是变量之间的相关性密切程度。研究两个变量间线性关系的程度通常用相关系数数r来描述。r的计算方法有很多种,本文仅使用pearson相关系数。Pearson相关系数是用来衡量两个变量是否在一条线上面,也就是用来衡量定距变量间的线性关系。Pearson相关系数计算公式为
利用相关分析法以及聚类分析对黑龙江省
2009年各市按经济实力分类
摘要
本文是运用了相关分析对黑龙江省13个市2009年的人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项指标进行了相关性的检验。然后运用了聚类分析对黑龙江的13个市进行了分类。大致的分为了3大类。
鸡西市ห้องสมุดไป่ตู้
18547
5736
5385.422
2229.549
6939.171
16549.32
23433
鹤岗市
18508.73
3730
5539.305
2534.68
8194.698
18445.78
25747
双鸭山市
19817
5479
3753.316
2351.194
7806.366
20241.69
25501
欧氏距离:
3
(1)确定待分类的样品的指标;
(2)建立指标体系模型;
(3)数据导入spss,使用spss进行处理;
(4)得出一张谱系图;
(5)得出结论;
4.1
将数据导入spss后,使用相关中的双相关分析得出如下表格:
相关性
人均GDP
农民人均纯收入
人均社会消费品零售总额
人均财政收入
人均工业增加值
全员劳动生产率
3
3
聚类分析是依据研究对象的特征,对其进行分类的方法,目标是减少研究对象的数目。前提是各指标之间要具有一定的相关关系。本文仅使用系统聚类方法进行聚类分析。系统聚类的一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的目标首先聚合为一类,而把另一些相似程度较小的目标聚合为另一类,直到所有的目标都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。其相似程度由距离或者相似系数定义。本文仅使用的是欧氏距离。
人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项指标中有四项指标是不能直接获取的,分别是:人均社会消费品零售总额、人均财政收入、人均工业增加值和全员劳动生产率。这四项指标通过了一定的计算得到。相应的公式如下:
1.人均社会消费品零售总额=社会消费品零售总额/年末人口总数;
总结
此次通过相关分析得到了人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项指标之间存在了一定的相关关系。各个指标在现实中相互的影响着。通过聚类分析将黑龙江的13个市分成了3类。分别是如下。第一类发达地区:大庆市。第二类中等发达:哈尔滨市、七台河市。第三类欠发达地区:齐齐哈尔市、鸡西市、鹤岗市、双鸭山市、伊春市、佳木斯市、牡丹江市、黑河市、绥化市、大兴安岭地区。通过分类我们可以看出黑龙江的各市发展差距有点偏大。需要调控。
人均工业增加值
Pearson 相关性
.975
.207
.711
.769
1
.996
.875
显著性(双侧)
.000
.498
.006
.002
.000
.000
全员劳动生产率
Pearson 相关性
.970
.196
.695
.798
.996
1
.884
显著性(双侧)
.000
.521
.008
.001
.000
.000
职工平均工资
写这篇论文数据刚开始并不好找。最初我也是想找2010县的数据来做,毕竟题目是要2010县市。可是虽然《黑龙江统计年鉴2011》已经出来了,但是在上面仅仅能找到5项指标,我就认为不行了。那时候《中国区域经济统计年鉴2011》还没有出来,到现在也没出来。去找2009的县市吧,可是仅仅就能找出来5项,感觉也不行。2010的市也找不出几项来,所以最后找了2009的市,很可惜指标还是差一个(农村居民人均生活消费支出)。这篇论文黑龙江统计局上数据很少,基本没有。
第三类:齐齐哈尔市、鸡西市、鹤岗市、双鸭山市、伊春市、佳木斯市、牡丹江市、黑河市、绥化市、大兴安岭地区。相对于大庆市、哈尔滨市和七台河市相对落后,所以是欠发达地区。
从图1看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大时,13个地区被依次聚类。当距离为0时,每个样本为单独的1类;当距离为5时,则13个地区被聚为3类;当距离为大于10小于25时,则13个地区被聚为2类;最终,当聚类标准(距离)扩大到25时,13个地区被聚为了1类。
2
1、计算相关系数
2相关性的说明
一般的假如两个变量的相关系数r满足|r|>0.95,则可以说明这两个变量存在显著性相关;
假如r满足|r|≥0.8则可以说明这两个变量存在高度相关;假如r满足0.5≤|r|<0.8则可以说明这两个变量存在高度相关;假如r满足|0.5≤|r|<0.8则可以说明这两个变量存在中度相关;假如r满足0.3≤|r|<0.5则可以说明这两个变量存在低度相关;假如r满足|r|<0.3.则可以说明这两个变量不相关;
职工平均工资
人均GDP
Pearson 相关性
1
.349
.838
.835
.975
.970
.912
显著性(双侧)
.242
.000
.000
.000
.000
.000
农民人均纯收入
Pearson 相关性
.349
1
.584
.392
.207
.196
.246
显著性(双侧)
.242
.036
.185
.498
.521
.417
附录:
地区
人均GDP
农民纯收入
人均社会消费品零售总额
人均财政收入
人均工业增加值
全员劳动生产率
职工平均工资
哈尔滨市
32053
7614
15206.74
4824.725
8448.366
17614.26
28959
齐齐哈尔市
12714
5586.4
5365.64
1357.341
4038.314
8858.585
24038
参考文献:
梅长林,范金城.数据分析方法.北京.高等教育出版社,2006.
黑龙江省统计年鉴2010.山东省统计局,2010.
中国区域经济统计年鉴2010.国家统计局.2010
百度百科.
黑龙江统计局
http://www.docin.com/p-195341316.html
中国统计年鉴数据库.http://tongji.cnki.net/kns55/index.aspx
Pearson 相关性
.912
.246
.793
.836
.875
.884
1
显著性(双侧)
.000
.417
.001
.000
.000
.000
表1
从表1可以看出,人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资都存在了一定的相关性。其中人均GDP和人均工业增加值、全员劳动生产率是显著相关;和人均社会消费品零售总额、人均财政收入、职工平均工资是高度相关;和农民人均纯收入是低度相关。农民人均纯收入和人均社会消费品零售总额是中度相关;和人均收入是低度相关;和人均工业增加值、全员劳动生产率、职工平均工资无相关。人均社会消费品零售总额和人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资存在中度相关。人均财政收入和职工平均工资存在高度相关;和人均工业增加值、全员劳动生产率存在中度相关。人均工业增加值和全员劳动生产率存在显著相关;和职工平均工资存在高度相关。全员劳动生产率和职工平均工资存在高度相关。
12:绥化市
3
13:大兴安
3
表2
图1
从表一看出第一类:大庆市。人均GDP和人均工业增加值是所有市中最高的市,领先于其他市。总体发展水平相对于其它市比较的好。人民生活相对较好。再则该市的其他各项指标也是中上等的。所以第一类是发达地区。
第二类:哈尔滨市、七台河市。各项指标都比较平衡,各方面发展比较均衡。为中等发达地区。
七台河市
25534
5562
4633.621
4347.435
15589.44
33674.34
25108
牡丹江市
22644.84
7758
8791.574
2825.37
7595.344
16993.51
23739
黑河市
12882
5979.9
2692.308
1255.459
1630.884
4456.582
22326
大庆市
76068
6593
16930.76
5609.411
57535.33
99370.11
41371
伊春市
13530
6139
3770.621
1153.37
4139.827
8859.704
14792
佳木斯市
17172.23
6086
7039.526
1220.719
2948.617
6645.915
23224
农民人均纯收入:指的是按农村人口平均的“农民纯收入”,反映的是一个国家或地区农村居民收入的平均水平。其中,“农民纯收入”指的是农村居民当年从各个来源渠道得到的总收入,相应地扣除获得收入所发生的费用后的收入总和。
社会消费品零售总额:指批发和零售业、住宿和餐饮业以及其他行业直接售给城乡居民和社会集团的会消费品零售总额。
关键词相关分析;聚类分析;分类;
1
1.1
本次的分析指标是2009年黑龙江13个市的人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项。数据经过是从《黑龙江统计年鉴2010》和《中国区域经济统计年鉴2010》上获取的的数据进行相应的计算得到的。
人均财政收入:财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入是衡量一国政府财力的重要指标。
工业增加值:工业企业全部生产活动的总成果扣除了在生产过程中消耗或转移的物质产品和劳务价值后的余额。
全员劳动生产率:指根据产品的价值量指标计算的平均每一个从业人员在单位时间内的产品生产量。是企业生产技术水平、经营管理水平、职工技术熟练程度和劳动积极性的综合表现。
绥化市
10471
5266.7
3807.308
800.0965
342.9852
761.3329
17743
大兴安岭地区
15261
5339
6083.65
1373.403
2509.506
5985.309
19460
所以符合积累分析的要求,既存在一定的相关性。
4.2
将数据输入spss后,使用分类中的系统聚类,并且在其中的聚类成员中的类数选择4类后得到如下表格:
群集成员
案例
3群集
1:哈尔滨
2
2:齐齐哈
3
3:鸡西市
3
4:鹤岗市
3
5:双鸭山
3
6:大庆市
1
7:伊春市
3
8:佳木斯
3
9:七台河
2
10:牡丹江
3
11:黑河市
3
人均社会消费品零售总额
Pearson 相关性
.838
.584
1
.789
.711
.695
.793
显著性(双侧)
.000
.036
.001
.006
.008
.001
人均财政收入
Pearson 相关性
.835
.392
.789
1
.769
.798
.836
显著性(双侧)
.000
.185
.001
.002
.001
.000
2.人均财政收入=财政收入/年末人口总数;
3.人均工业增加值=工业增加值/年末人口总数;
4.全员劳动生产率=工业增加值/全部从业人员平均人数;
其中的年末人口总数和全部从业人员平均人数都能在《黑龙江统计年鉴2010》和《中国区域经济统计年鉴2010》中找到。
1.3
人均GDP:也叫人均生产总值,常作为发展经济学中衡量经济发展状况的指标。是重要的宏观经济指标标之一,它是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具。是衡量各国各地区人民生活水平的一个标准。
职工平均工资:职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。
2
2
相关分析是研究现象之间是否存在某种依存关系,也就是变量之间的相关性密切程度。研究两个变量间线性关系的程度通常用相关系数数r来描述。r的计算方法有很多种,本文仅使用pearson相关系数。Pearson相关系数是用来衡量两个变量是否在一条线上面,也就是用来衡量定距变量间的线性关系。Pearson相关系数计算公式为
利用相关分析法以及聚类分析对黑龙江省
2009年各市按经济实力分类
摘要
本文是运用了相关分析对黑龙江省13个市2009年的人均GDP、农民人均纯收入、人均社会消费品零售总额、人均财政收入、人均工业增加值、全员劳动生产率、职工平均工资七项指标进行了相关性的检验。然后运用了聚类分析对黑龙江的13个市进行了分类。大致的分为了3大类。
鸡西市ห้องสมุดไป่ตู้
18547
5736
5385.422
2229.549
6939.171
16549.32
23433
鹤岗市
18508.73
3730
5539.305
2534.68
8194.698
18445.78
25747
双鸭山市
19817
5479
3753.316
2351.194
7806.366
20241.69
25501
欧氏距离:
3
(1)确定待分类的样品的指标;
(2)建立指标体系模型;
(3)数据导入spss,使用spss进行处理;
(4)得出一张谱系图;
(5)得出结论;
4.1
将数据导入spss后,使用相关中的双相关分析得出如下表格:
相关性
人均GDP
农民人均纯收入
人均社会消费品零售总额
人均财政收入
人均工业增加值
全员劳动生产率
3
3
聚类分析是依据研究对象的特征,对其进行分类的方法,目标是减少研究对象的数目。前提是各指标之间要具有一定的相关关系。本文仅使用系统聚类方法进行聚类分析。系统聚类的一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的目标首先聚合为一类,而把另一些相似程度较小的目标聚合为另一类,直到所有的目标都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。其相似程度由距离或者相似系数定义。本文仅使用的是欧氏距离。