SPSS聚类分析和判别分析论文
《2024年基于SPSS的聚类分析在行业统计数据中的应用》范文
《基于SPSS的聚类分析在行业统计数据中的应用》篇一一、引言随着大数据时代的到来,数据挖掘与分析技术已成为各行业研究的重要工具。
聚类分析作为一种无监督的学习方法,在处理大量数据并发现数据间的潜在关系方面具有显著优势。
本文将探讨基于SPSS的聚类分析在行业统计数据中的应用,旨在通过实例分析展示其有效性和实用性。
二、聚类分析概述聚类分析是一种将数据集分为几个不同的组或簇的统计方法。
这些组内的数据点在某种度量(如距离)下具有相似性,而不同组之间的数据点则具有较大的差异性。
聚类分析可以帮助我们更好地理解数据的分布和结构,发现数据的潜在规律。
三、SPSS软件在聚类分析中的应用SPSS是一款功能强大的统计分析软件,广泛应用于数据挖掘、数据分析等领域。
在聚类分析方面,SPSS提供了多种聚类方法,如K-均值聚类、层次聚类等。
通过SPSS,我们可以方便地进行聚类分析,快速得到聚类结果。
四、行业统计数据聚类分析实例以某电商平台销售数据为例,我们将利用SPSS进行聚类分析,以发现不同商品之间的潜在关系。
1. 数据准备:收集某电商平台的销售数据,包括商品类别、价格、销量、用户评价等信息。
2. 数据清洗:对收集到的数据进行清洗,去除重复、缺失或异常的数据。
3. 数据预处理:对数据进行标准化或归一化处理,以便进行聚类分析。
4. 聚类分析:利用SPSS进行K-均值聚类分析,将商品分为几个不同的簇。
5. 结果解读:根据聚类结果,分析各簇商品的特点和用户需求。
例如,可以发现某些价格相近、销量较高的商品被归为一类,说明这些商品可能具有相似的用户群体和消费习惯。
6. 结果应用:根据聚类分析结果,电商平台可以制定更精准的营销策略,如针对不同簇的用户群体推出相应的促销活动或定制化服务。
五、结论与展望通过基于SPSS的聚类分析在行业统计数据中的应用实例,我们可以看出聚类分析在数据处理和挖掘方面的优势。
聚类分析可以帮助我们更好地理解数据的分布和结构,发现数据的潜在规律,为决策提供有力支持。
我国主要城市空气质量的聚类分析和判别分析
对我国主要城市空气质量的聚类分析和判别分析摘要本文应用多元统计分析中聚类分析和判别分析的理论,使用SPSS17.0软件和spss13.0对我国主要城市的空气质量进行了聚类分析,将31个城市按照空气质量的类型分为了四类。
在此基础上,对这些城市的空气质量归属进行了回报判别,结果令人满意。
关键词:spss,聚类分析,判别分析,回报判别,空气质量类型Abstract:According to the theory of Cluster Analysis and Return Discrimination in the book of Multivariate Statistical Analysis and according to the software of SPSS17.0 and SPSS13.0 ,and processing the date of our mainly city in our county ,and classify 31 cities into four according to the air of quality .Based on the foundation ,according to Return Discrimination to make process about air quality to decide which rank belong to, the outcome is satisfactory.Keyword: SPSS;Cluster Analysis;Discriminant Analysis;Return Discrimination Type of Air Quality1引言经济发展水平是衡量人民生活水平的重要指标。
对各地区经济发展水平的充分认识与探究有利于调整经济发展战略,有利于各地区经济均衡发展。
聚类分析的基本思想是:在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。
spss判别分析论文12
spss判别分析论文12学校:池州学院系别:数学系班级:12统计学号:120314134姓名:高革非摘要判别分析是判别样品所属类型的一种统计方法~其应用之广可与回归分析媲美.本文通过介绍判别分析的概念和应用领域~对其进行分类~并对其中的某些方法进行具体介绍~如距离判别法和费希尔判别法~然后应用某些常见的判别分析方法解决实际问题.关键词:判别分析,概念,应用领域,距离判别法,费希尔判别;实际问题目录一、引言...................................................…………………………………… (4)1.1 什么是判别分析 (4)1.2 判别分析的方法 (4)1.3 判别分析的统计背景...................................…………………………………………………..5 二、距离判别法 (8)2.1什么是距离判别法 (8)2.2马氏距离 (8)2.2.1概念 (8)2.2.2定义 (8)2.2.3马氏距离的优缺点 (9)2.3距离判别法的基本思想.................................................................................... (9)2.4距离判别法的判别函数和判别准则..........................................................................7 三、贝叶斯判别法. (8)3.1什么是贝叶斯判别法 (8)3.2贝叶斯判别法的基本思想 (8)3.3贝叶斯判别法的准则 (8)3.4贝叶斯判别法的分类函数………………………………………………………………………….8 四、Fisher 判别法.................................................................. ....................... (9)4.1什么是Fisher判别法 (9)4.2Fisher判别法的基本思想 (9)4.3Fisher判别法判别函数和判别准则............................................................................9 五、实例分析 (9)六、参考文献 (14)一、引言1(1什么是判别分析判别分析产生于20世纪30年代~是利用已知类别的样本建立判别模型~为未知类别的样本判别的一种统计方法。
SPSS统计分析第八章聚类分析与判别分析
SPSS统计分析第八章聚类分析与判别分析聚类分析与判别分析是SPSS统计分析中非常重要的两个方法。
聚类分析是寻找数据之间的相似性,将相似的数据划分为一个簇,从而实现对数据的归类和分组。
判别分析则是寻找数据之间的差异性,帮助我们理解不同因素对于数据的影响程度,从而实现对数据的分类预测。
首先,我们来介绍聚类分析。
聚类分析是根据数据之间的相似性进行归类的一种方法,通过度量数据之间的相似性,将相似的数据归为一类。
它在寻找数据内在组织结构和特点上具有很大的作用。
在SPSS中进行聚类分析的步骤如下:1.载入数据集:在SPSS软件中,选择"文件"->"打开"->"数据",选择需要进行聚类分析的数据集。
2.选择聚类变量:在"分析"->"分类"->"聚类"中,选择需要进行聚类分析的变量。
可以选择一个或多个变量作为聚类变量,决定了聚类的维度。
3.设置聚类参数:在设置参数的对话框中,可以选择使用不同的距离测度和聚类算法。
距离测度可以选择欧氏距离、曼哈顿距离、切比雪夫距离等,而聚类算法可以选择层次聚类、K均值聚类等。
根据具体的数据特点,选择合适的参数。
4.进行聚类分析:点击"确定"按钮,SPSS会自动进行聚类分析,并生成聚类的结果。
聚类结果可以通过树状图、散点图等形式展示,便于我们对数据的理解和分析。
接下来,我们来介绍判别分析。
判别分析是一种通过建立数学模型,根据不同的预测变量对数据进行分类和预测的方法。
判别分析可以帮助我们理解不同因素对于数据分类的重要性,从而进行有针对性的分析和预测。
在SPSS中进行判别分析的步骤如下:1.载入数据集:同样,在SPSS软件中,选择"文件"->"打开"->"数据",选择需要进行判别分析的数据集。
最新spss9-聚类分析与判别分析
14.3.4 用分层聚类法进行观测量聚类实例P358
对20种啤酒进行分类(data14-02),变量包括:Beername(啤酒名
具体见下面吴喜之教授有关判别分析的讲义
补充:聚类分析与判别分析
以下的讲义是吴喜之教授有关 聚类分析与判别分析的讲义, 我觉得比书上讲得清楚。 先是聚类分析一章 再是判别分析一章
聚类分析
分类
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很 多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基 础设施等指标; 既可以用某一项来分类,也可以同时考虑多 项指标来分类。
聚类分析
对于一个数据,人们既可以对变量(指标)进 行分类(相当于对数据中的列分类),也可以对 观测值(事件,样品)来分类(相当于对数据 中的行分类)。
Agglomeration Schedule 凝聚状态表 Proximity matrix:距离矩阵 Cluster membership:Single solution:4 显示分为4类时,各观测
量所属的类
Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Value (Range 01/By variable (值-最小值)/极差)
上面啤酒分类问题data14-02。
Analyze→Classify →Hierarchical Cluster:
《2024年基于SPSS的聚类分析在行业统计数据中的应用》范文
《基于SPSS的聚类分析在行业统计数据中的应用》篇一一、引言随着科技的不断进步,数据处理与分析技术逐渐成为各行业研究的重要工具。
聚类分析作为一种无监督学习方法,在行业统计数据中发挥着重要作用。
本文将探讨基于SPSS的聚类分析在行业统计数据中的应用,通过具体案例分析其操作流程、结果解读及实际意义。
二、聚类分析概述聚类分析是一种将数据集按照相似性原则进行分组的方法,使得同一组内的数据具有较高的相似性,而不同组间的数据相似性较低。
SPSS是一款常用的统计分析软件,其聚类分析功能可以帮助研究人员快速实现数据的分类与整合。
三、聚类分析在行业统计数据中的应用1. 数据准备与处理在进行聚类分析前,需要收集行业相关的统计数据,并对数据进行清洗、整理和格式化。
这一阶段需要确保数据的准确性和完整性,以便后续分析的顺利进行。
2. 选择合适的聚类方法SPSS提供了多种聚类分析方法,如K-均值聚类、层次聚类等。
在选择聚类方法时,需要考虑到数据的特性、研究目的以及可解释性等因素。
例如,对于具有明显层次结构的行业数据,层次聚类可能更为合适;而对于具有较为明显差异的行业数据,K-均值聚类可能更有效。
3. 实施聚类分析在SPSS中,选择合适的聚类方法后,需要进行参数设置、运行分析等操作。
在这一过程中,需要注意设置合理的初始条件、选择合适的度量指标等,以确保分析结果的准确性和可靠性。
4. 结果解读与可视化聚类分析的结果可以通过多种方式呈现,如柱状图、散点图、树状图等。
通过这些图表,可以清晰地看到各个行业数据的分布情况和组内差异。
同时,还需要结合实际背景对结果进行解读,以得出有意义的结论。
四、案例分析以某电子产品行业为例,通过收集该行业的统计数据,运用SPSS进行聚类分析。
首先,对数据进行清洗和整理,确保数据的准确性和完整性。
然后,选择合适的聚类方法(如K-均值聚类),设置合理的参数,运行分析。
最后,通过图表呈现结果,并结合实际背景进行解读。
《2024年基于SPSS的聚类分析在行业统计数据中的应用》范文
《基于SPSS的聚类分析在行业统计数据中的应用》篇一一、引言随着科技的不断进步与信息化的发展,数据处理技术日益受到关注。
其中,聚类分析作为数据处理的一种重要手段,已被广泛应用于各个行业统计数据的分析和研究中。
SPSS软件以其强大的数据处理和统计分析功能,在聚类分析中发挥着重要作用。
本文将探讨基于SPSS的聚类分析在行业统计数据中的应用,以期为相关研究提供参考。
二、聚类分析概述聚类分析是一种无监督学习方法,旨在将数据集划分为若干个簇或类,使得同一簇内的数据具有相似性,而不同簇之间的数据差异较大。
聚类分析广泛应用于市场细分、客户分类、图像识别等领域。
在行业统计数据中,聚类分析可以帮助我们了解不同行业的特点、发展趋势以及行业间的关系。
三、SPSS软件在聚类分析中的应用SPSS软件是一款功能强大的统计分析软件,具有操作简便、结果直观等优点。
在聚类分析中,SPSS软件可以有效地处理大量数据,帮助我们快速找出数据之间的潜在关系和规律。
具体而言,SPSS软件在聚类分析中的应用包括以下几个方面:1. 数据准备与预处理:SPSS软件支持多种数据格式的导入与导出,方便我们收集和整理行业统计数据。
此外,SPSS还提供了丰富的数据预处理功能,如缺失值处理、数据标准化等,为后续的聚类分析打下基础。
2. 聚类方法选择:SPSS软件提供了多种聚类方法,如K-means聚类、层次聚类等。
我们可以根据数据的特点和需求选择合适的聚类方法。
3. 聚类结果分析:SPSS软件可以生成直观的聚类结果图和统计量,帮助我们快速理解聚类结果。
此外,我们还可以通过SPSS 软件进行进一步的数据分析和挖掘,以深入了解各行业的特点和发展趋势。
四、基于SPSS的聚类分析在行业统计数据中的应用案例以某地区制造业为例,我们利用SPSS软件进行聚类分析。
首先,我们收集了该地区制造业的相关统计数据,包括企业规模、产品类型、市场份额等。
然后,我们使用SPSS软件进行数据预处理和聚类分析。
聚类分析与判别分析操作及案例
北京航空航天大学研究生课程《数理统计B》论文地区生产总值的聚类分析与判别分析姓名:***学号:SY*******授课教师:***日期:2011-1-2地区生产总值的聚类分析与判别分析姓名:王青云学号:SY1001243摘要:为了了解全国各地区的经济类型,需要对地区进行分类,可以利用社会科学统计软件包(简称SPSS)对地区经济情况进行聚类分析和判别分析。
该工作依据地区生产总值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业八个指标对2009年全国31个省和直辖市的经济类型进行了聚类分析,将不同地区的经济类型划分类别;并随机抽取了北京、福建、山东三省进行判别分析。
关键词:经济类型,聚类分析,判别分析,SPSS一引言人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的基础科学。
统计学中常用的分类统计方法主要是聚类分析与判别分析。
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。
聚类分析与判别分析有很大的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别分析事先已知对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新对象的分类[1]。
二分析方法问题:根据地区各行业收入对全国各地区经济类型进行分类。
方法:先进行聚类分析,再进行判别分析,采用SPSS软件进行。
2009年全国31个省市的地区总产值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业、其他行业表1所示[2]。
2.1聚类分析(1)在SPSS数据编辑窗口中输入表1中数据:表1 2009年地区生产收入地区地区生第一第二产业第三产业工业建筑业交通运输和邮政业批发和零售业住宿和餐饮业金融业房地产业其他北京12153.03118.292303.08552.47556.641525.03262.511603.631062.474168.91天津7521.85128.853622.11365.73471.01836.84131.84461.2308.731195.54河北17235.482207.347983.86975.971491.921157.8247.14525.67612.42033.38山西7358.31477.593518.88474.92523.38557.86203.58361.64173.311067.15内蒙古9740.25929.64503.33610.67773.29915.89294.73291.1286.651134.99辽宁15212.491414.96925.63980.71790.561410.33318.8560.2605.272206.09吉林7278.75980.573054.6487.32341.76673.12157.73180.83200.141202.68黑龙江85871154.333549.73510.99433.55757.36211227.54301.181441.32上海15046.45113.825408.75593.03635.012183.85238.361804.281237.562831.79江苏34457.32261.8616464.942101.431423.253579.81678.361596.982025.394325.28浙江22990.351163.0810518.211390.28888.022119.39416.841899.331316.833278.36安徽10062.821495.454064.72840.5467.92733.19157.14359.6497.941446.36福建12236.531182.745106.38898.92751.421043.42235.98612.2656.611748.86江西7655.181098.663196.56722.89394.9553.89167.59165.1305.91049.69山东33896.653226.6416896.142005.691742.333106.24594.51044.91329.593950.63河南19480.462769.059900.271110.23823.571057.81526.51499.92622.982170.12湖北12961.11795.95183.68854.4642.72979.14337.81479.11546.112142.23湖南13059.691969.694819.4867.79704.831221.2304.93402.57400.112369.17广东39482.562010.2718091.561328.141595.343907.43945.762283.292470.636850.14广西7759.161458.492863.84517.7378.75551.14208336.82348.981095.45海南1654.21462.19300.63142.888.68168.7560.2265.73121.76243.45重庆6530.01606.82917.4531.37347.98524.36132.88389.97229.09850.16四川14151.282240.615678.241033.63520.71868.98405.45524.63548.142330.89贵州3912.68550.271252.67223.95399.77293.53153.41194.44136.15708.49云南6169.751067.62088.17494.36179.45571.03162.1351.74205.141050.16西藏441.3663.8833.11103.5221.1927.0614.723.1713.28141.45陕西8169.8789.643501.25735.17423.24707.39175.01336.21239.921261.97甘肃3387.56497.051203.7323.54213.64231.2188.5288.27101.37640.26青海1081.27107.4470.3310549.3266.1314.5445.6323.05199.87宁夏1353.31127.25520.38141.94114.7774.5225.5975.5447.56225.76新疆4277.05759.741555.84373.75209.095253.662.25198.87115.23748.67(2)定义聚类类型:在“Analyze”菜单“Classify”中选择Hierarchical命令,在弹出的Hierarchical Cluster Analysis 对话框中,从对话框左侧的变量列表中选择地区变量,使之添加到Lable Cases by框中,同样将指标第一产业,工业,建筑业,交通运仓储及邮电通讯业,批发零售贸易及餐饮业,金融保险业,房地产业,其他行业添加到Variable(s)框中。
SPSS统计分析 第八章 聚类分析与判别分析
指标(变量)聚类的基本思想是:先定义类间相似系数,把每个 指标或变量当作一类,逐次并类,并类时总是把最相似的两类或 多类先合为一类,再计算新类与合并类的相似性,最后并为一大 类。
特别注意地是对观测单位不同,观测数量级不同(如:x1为103,x2为103)的指标,求距离之前要先对各指标进行标准化。 与判别分析的区别是:判别分析将个体分成几类是事先已确定的, 而聚类分析事先不知道它们可分成几类及哪些个体属于同一类; 目的不一样,判别分析是判断样本是属于哪个母体,聚类分析主 要是解释样本,其次是做预测。 聚类分析的结果主要靠经验性,使用不同的方法,得到不同的结 果,重复性比较差。
变量聚类实例
有10个测验项目,分别用变量x1~x10表示,50 名学生参加测试。
数据编号data14-03。
要求:对十个变量进行变量聚类;计算并打印 各变量间的相关矩阵,用相关测度各变量间的 距离。打印出聚为两类的结果即各变量属于两 类中的哪一类;打印出聚类全过程的冰柱图, 以便对于变量分类进行进一步的探讨。
(1)分解法
聚类开始把所有个体(观测量或变量)都
视为属于一大类,然后根据距离和相似性 逐层分解,直到参与聚类的每个个体自成 一类为止。
(2)凝聚法
聚类开始把参与聚类的每个个体(观测量
或变量)视为一类,根据两类之间的距离 或相似性逐步合并,直到合并为一个大类 为止。
无论哪种方法其聚类原则都是相近的聚为
Variable:引入要分析
的变量; Lable Case by:指明 个案的标识,如果不 选用此项,默认是按
记录号进行分析。
聚类分析及判别分析案例
一、案例背景随着现代人力资源管理理论的迅速开展,绩效考评技术水平也在不断提高。
绩效的多因性、多维性,要求对绩效实施多标准大样本科学有效的评价。
对企业来说,对上千人进展多达50~60个标准的考核是很常见的现象。
但是,目前多标准大样本大型企业绩效考评问题仍然困扰着许多人力资源管理从业人员。
为此,有必要将当今国际上最流行的视窗统计软件SPSS应用于绩效考评之中。
在分析企业员工绩效水平时,由于员工绩效水平的指标很多,各指标之间还有一定的关联性,缺乏有效的方法进展比拟。
目前较理想的方法是非参数统计方法。
本文将列举某企业的具体情况确定适当的考核标准,采用主成分分析以及聚类分析方法,比拟出各员工绩效水平,从而为企业绩效管理提供一定的科学依据。
最后采用判别分析建立判别函数,同时与原分类进展比拟。
聚类分析二、绩效考评的模型建立1、为了分析某企业绩效水平,按照综合性、可比性、实用性和易操作性的选取指标原那么,本文选择了影响某企业绩效水平的成果、行为、态度等6个经济指标(见表1)。
2、对某企业,搜集整理了28名员工2021年第1季度的数据资料。
构建1个28×6维的矩阵(见表2)。
3、应用SPSS数据统计分析系统首先对变量进展及主成分分析,找到样本的主成分及各变量在成分中的得分。
去结果中的表3、表4、表5备用。
表 5成份得分系数矩阵a成份1 2Zscore(X1) .227Zscore(X2) .228Zscore(X3) .224Zscore(X4) .177Zscore(X5) .186 .572Zscore(X6) .185 .587提取方法 :主成份。
构成得分。
a. 系数已被标准化。
4、从表3中可得到前两个成分的特征值大于1,分别为3.944和1.08,所以选取两个主成分。
根据累计奉献率超过80%的一般选取原那么,主成分1和主成分2的累计奉献率已到达了83.74%的水平,说明原来6个变量反映的信息可由两个主成分反映83.74%。
我国各省市全运金牌情况的 聚类和判别分析 学位论文
应用数理统计(论文)我国各省市全运金牌情况的聚类和判别分析摘要本文以SPSS为分析工具,通过对我国各省份历届全运会金牌榜情况进行了聚类和判别分析,对我国各省份的体育发展状况有了初步的了解。
结果显示,我国的体育强省包括江苏,辽宁,山东,北京、广东和上海,分析所得的模型符合我国当前实际情况,其结果具有统计学和现实意义。
关键词:SPSS;聚类分析;判别分析;全运金牌1 引言体育指的是以身体活动为手段的教育,直译为身体的教育,简称为体育。
随着国际交往的扩大,体育事业发展的规模和水平已是衡量一个国家、社会发展进步的一项重要标志,也成为国家间外交及文化交流的重要手段。
体育可分为大众体育、专业体育、学校体育等种类。
包括体育文化、体育教育、体育活动、体育竞赛、体育设施、体育组织、体育科学技术等诸多要素。
体育家精神是指一种追求公平竞争,对于队友和对手谦和有礼,遵守道德,待人真诚,无论输赢始终保持体面的态度。
对于此,现代奥林匹克之父皮埃尔·德·顾拜旦曾说过:“最重要的……不是输赢,而是参与”,这是对体育家精神的一个经典表述。
中华人民共和国全国运动会简称“全运会”,是中国国内水平最高,规模最大的综合性运动会,首届运动会于1959年9月13日至10月3日在北京举行。
全运会每四年举办一次,一般在奥运会结束后一年举行。
全运会比赛项目的设置除武术外基本与奥运会相同,其原意是为国家的奥运战略锻炼新人,选拔人才。
为了更加调动各省市区的积极性,国家体育总局在1996年奥运会前出台了“将奥运会奖牌带入全运会”的举措。
为了衡量我国个省份的体育发展状况,本文统计了自第一届全运会至第十二届全运会我国各省份获得金牌情况,利用数理统计软件SPSS对各省份获得金牌情况进行聚类和判别分析,分析和评定各省份体育发展情况,同时对各省份进行分类,确定体育发达省份和体育不发达省份。
2 聚类分析和判别分析简介2.1 聚类分析法俗话说:“物以类聚,人以群分”,对研究对象进行适当的分类,进而发现其规律性,是人们认识世界的一种基本方法。
spss数据分析作业-中国区域经济类型的聚类和判别分析
应用数理统计(论文)中国区域经济类型的聚类和判别分析指导老师:**院系名称:材料科学与工程学号:SY********名:***2014年12月20日摘要区域经济发展的指标体系,包括人口总数、第一产业总产值、第二产业总产值、第三产业总产值、财政收入、社会消费品零售总额、货物进出口总额、平均工资、人均可支配收入和居民消费水平等。
本文主要通过系统类聚的方法,将全国31 个省市(自治区)的2013年经济发展状况进行归类分析,得出全国区域经济发展水平的一些基本情况,并进行了相应的判别分析,为我国经济在快速发展的前提下,做好协调发展提供一些启示。
关键字:区域经济聚类分析判别分析中国区域经济类型的聚类和判别分析目录1引言 (4)2数据收集 (5)3聚类分析 (8)3.1聚类分析概述 (8)3.2聚类分析过程及结果输出 (8)3.3讨论 (12)4判别分析 (14)4.1判别分析概述 (14)4.2判别分析过程及结果输出 (14)4.3讨论 (17)5结论 (18)参考文献 (19)应用数理统计(论文)1引言在制定国民经济和社会发展规划时,通常需要按照行政区域进行经济类型的划分,这有助于对不同地区经济发展存在的差异进行宏观调控,从而因地制宜出台相应的经济政策,促进各地区经济的协调发展,为国民经济持续协调健康发展奠定了坚实基础。
明确当前我国发达地区和落后地区的区间格局, 对于进一步的研究和分析我国各区域间经济发展的状况,并探求切实可行的区域协调发展政策以实现我国经济的可持续发展有着极为重要的现实意义。
在多元统计分析中,常常使用聚类分析和判别分析来解决样本的分类问题。
在事先并不知道应将样品或指标分为几类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类;而在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。
本文试图通过聚类分析的方法,分析2013 年中国31 个省市(区域)经济发展发展状况和差异情况,从中寻找一些有用的信息,提出对我国经济如何在快速发展的基础上,做到协调发展的一些思考。
SAS期末论文-聚类分析-判别分析
《统计软件》课程期末论文系(院):理学院专业:数学与应用数学班级:学生姓名:学号:指导教师:耿兴波开课时间:2012-2013 学年一学期目录题目: (2)1.聚类分析 (2)2.判别分析 (2)要求: (2)SAS软件介绍 (2)一、概述 (2)二、SAS系统的特点 (3)聚类分析 (4)基本原理: (4)使用的程序 (5)运行结果 (5)指令介绍 (8)结果分析 (8)判别分析 (9)基本原理: (9)使用的程序 (9)运行结果 (10)指令介绍 (20)结果分析 (22)总结 (22)感谢 (22)参考文献 (23)1题目:1.聚类分析某网站键鼠频道为广大职业玩家及游戏爱好者策划了一次全面的游戏鼠标横向测试,通过专家和消费者打分的形式,收集到了13款游戏鼠标的重要参数,即外观及手感、芯片及微动、功能及驱动、兼容性、游戏性等数据,(数据见Mouse_Cluster.sas7bdat)。
要求以这些指标为依据对所收集的样本进行聚类分析。
2.判别分析在上述聚类分析中,取Ward法聚类结果把13个鼠标分为3类。
假定这13个鼠标的样本来自于已有类别的总体(即已知具体鼠标类别的训练样本)。
现又有两款鼠标的测评数据(Mouce_Discrim.sas7bdat),试利用判别分析的方法把两款鼠标归入对应的类别。
要求:1.介绍SAS软件。
2.介绍聚类分析的基本原理3.介绍使用了哪些命令。
4.介绍题目,结果及最后的分析。
SAS软件介绍一、概述SAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。
SAS现在的版本为9.0版,大小约为1G。
经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。
应用多元分析论文——聚类分析;判别分析;因子分析;主成分分析
对中国各地区农村居民人均消费支出的测评分析————基于SPSS分析12统计学1217020072 韦** 摘要:本文对中国各地区农村居民人均消费支出进行测评分析,以31个地区2013年的8项指标数据为样本。
以聚类分析和判别分析相结合对地区农村居民人均消费支出类型进行分析,利用因子分析对描述各地区的农村居民人均消费支出各项指标变量进行分析,再利用各指标变量间的相关性进行分析,得出结论,我国农村居民消费水平严重不平衡。
关键词:农村居民人均消费支出;聚类分析;判别分析;因子分析;主成分分析一、前言随着经济的发展和人民生活水平的不断提高,我国农村居民人均消费支出数额不断提高,从总体上来说,大部分农村居民实现消费水平上达到了小康水平,并且有向更高层次提升趋势。
消费作为主要宏观经济变量,是社会总需求最重要的组成部分,国民经济的增长速度和质量受到居民的消费增长的影响,因此农村居民消费越来越受到重视。
我国由地域的不同分为东部地区、中部地区和西部地区,由于地区不同,长期以来我国一直存在着严重的地区发展不平衡问题,这一问题在农村居民消费上也表现得十分明显。
农村居民新的消费水平和消费性支出存在着很大的差异,因此需要对农村居民消费水平进行客观、准确、有效的评价[1]。
二、数据说明各地区农村居民人均消费支出各指标变量:x1:食品 x2:衣着x3:居住 x4:家庭设备及用品x5:交通通信 x6:文教娱乐x7:医疗保健 x8:其他原始数据来源:《中国统计年鉴——2014》本文所引用数据如下:三、聚类分析3.1聚类分析的基本思想聚类分析又称群分析,是分类学的一种基本方法,所谓“类”,通俗的讲,就是由相似性的元素构成的集合。
聚类分析是一种探索性的分析,也是多元统计学中应用极为广泛的一种重要方法。
在应用中,聚类分析是通过将一批个案或者变量的诸多特征,按照关系的远近程度进行分析。
关系远近程度的定量描述方式不一样,利用聚类方法也不一样,可以产生有差别的聚类结果。
聚类与判别分析在大学生SCL-90测试结果中的运用
聚类与判别分析在大学生SCL-90测试结果中的运用滕燕【摘要】Objectives Through cluster analysis of freshmen's cores from SCL-90,seeking some effective target variables in the data from cluster analysis.Methods To evaluate the psychology health of 3 638 freshmen by Cluster analysis and stepwise discriminant analysis.Results 3 638 freshmen were divided into 3 groups by cluster analy-sis.In addition,a function on predicting was established by stepwise discriminant analysis,which included 8 target variables out of 11,which were from the scores of SCL-90.3 638 freshmen were evaluated retrospectively by the function with the error rate of 2.9%.Conclusions To evaluate the scores of SCL-90,compulsion,interpersonal sen-sitivity,depression,hostility,terror,paranoid,psychoticism factor and GSI of SCL-90 has larger discriminant signifi-cance to cluster analysis of SCL-90.%目的分析探索SCL-90结果解释中判别效果较好的聚类指标.方法对某高校3638名新生SCL-90测试结果进行K-均值聚类及逐步判别分析.结果采用K-均值聚类的方法分类,将测试结果分成3组,各组之间差异具有统计学意义.其次,通过逐步判别分析,在11个聚类指标中,选出8个有统计学意义的指标构建判别模型,用此模型对3638个新生样本作回顾性评价,误判率为2.9%.结论逐步判别分析发现,通过SCL-90中的强迫症状、人际敏感、抑郁、敌对、恐怖、偏执、精神病性7个因子分及总均分进行聚类分析的判别效果较好.【期刊名称】《中国社会医学杂志》【年(卷),期】2017(034)005【总页数】3页(P460-462)【关键词】大学生;SCL-90;聚类分析;判别分析【作者】滕燕【作者单位】云南大学心理健康咨询服务中心,云南昆明,650091【正文语种】中文【中图分类】R395.6大学阶段是青年学生心理发展的关键时期,在这一时期所面临的环境改变及适应,使得大学生在原生家庭及其社会化过程中形成的一系列问题突显。
聚类分析论文
聚类分析及其在新疆经济研究中的应用孙鹿梅(伊犁师范学院数学与统计学院新疆伊宁835000)摘要:本文论述聚类分析的基础理论和研究方法,包括系统聚类法和K-均值法,并以新疆十四个地州市2009的地区生产总值、人均地区生产总值等十项综合经济指标为样本,利用SPSS软件,对他们的综合发展水平进行类型划分及差异性程度分析.关键词:聚类分析;SPSS软件;综合经济指标;新疆经济区划分一、引言聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似.聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及经济学等各个领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题.聚类分析可用于对某省各地区经济发展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评估等多方面.在社会经济研究中,经常需要对所研究的区域进行经济区划分,以便进行分类指导.如何进行经济区划分呢?利用世界著名统计软件SPSS(Statistical Program for Social Science)的聚类分析功能,效果比较理想.聚类分析包含的内容很广泛,可以有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和K-均值法.由于西部发开发战略的实施和援疆工作的展开,新疆经济的发展迅速,但由于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡发展,就要对新疆各地区的不同实施不同的经济政策.我分别用了SPSS的聚类分析中的系统聚类法和K-均值法对新疆各地区的进行经济区划分,以对新疆各地区实施不同的经济政策做依据.二、基础知识2.1聚类分析的基本思想由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品的多个观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大.2.2聚类分析的种类聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情况下对数据进行分类的分析方法.聚类分析不仅可以对样品进行分类,也可以用来对变量进行分类.对样品的分类常称为Q 型聚类分析,对变量的分类常称为R 型聚类分析. 2.3聚类分析的原理聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类.常见的聚类分析方法有系统聚类法、K -均值法和模糊聚类法等. 2.3.1聚类要素的数据处理假设有m 个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同的量纲,不同的数量级单位,不同的取值范围,为了使不同量纲,不同取值范围的数据能够放在一起比较,通常需要对数据进行变换处理.在聚类分析中,常用的聚类要素的数据处理方法有如下几种.① 总和标准化),2,1,,,2,1(1'n j m i xx x mi ijijij===∑=),2,1(11'n j x mi ij ==∑=且.② 标准差标准化),,2,1,,,2,1('n j m i s x x x jjij ij==-=,∑==m i ijj x m x 1'1,∑=-=m i j ij j x x m s 12'')(1 .011'==∑=m i ij j x m x 且,1)(112''=-=∑=m i j ij j x x m s .变换后的数据,每个变量的样本均值为0,极差为1,且1*<ij x ,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量. ③ 极大值标准化{}()n j m i x x x ij iijij ,,2,1,,,2,1max '===.经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1. ④ 极差的标准化{}{}{}()n j m i xx x x x ijiijiij iijij ,,2,1,,2,1min max min ===.经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间.2.3.2样品间的距离和相似系数 (1)距离的计算描述样品间的亲疏程度最常用的是距离,设观测数据),,1;,,2,1(m j n i x xj ==列成下列X 矩阵的形式.设有n 个样品,每个样品测得p 个变量,原始资料阵为⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X 212222111211,其中ij x 为i 个样品的第j 个变量的观测数据.用ij d 表示第i 个样品的第j 个样品之间的距离,其值越小表示两个样品接近程度越大. 距离的一般要求:① ;0;,,0)()(j i ij ij X X d j i d =⇔=≥当对一切 ② ;,,j i d d ji ij 对一切=③ ).(,,,三角不等式对一切k j i d d d kj ik ij +≤ 常用的距离有以下几种:1)闵氏距离qpk qjk ik ij X X q d 11)()(∑=-=,其中常用的距离有绝对距离和欧氏距离.绝对距离)()1(1∑=-=pk jk ik ij X X d .欧氏距离112)()2(∑=-=pk jk ik ij X X d .欧氏距离是常用的距离,但它也有不足之处,一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的.通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离.2)马氏距离设i X 与j X 是来自均值向量为μ,协方差为()∑>0的总体G 中的p 维样品,则两个样品间的马氏距离为)()()(1'2j i j i ij X X X X M d --=∑-.马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标变量的影响,将原始数据作线性变换后,马氏距离不变.选择不同的距离,聚类结果会有所差异.在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类. (2)相似系数在对多元数据进行分析时,相对于数据的大小,我们更好地对变量的变化趋势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有以下两种: 1)夹角余角变量i X 与j X 是来自均值向量为μ,协方差为()∑>0x 的总体G 在的p 维空间的两个向量,则这两个向量间的夹角余弦可表示为))((cos 12121∑∑∑====pk jk pk ikpk jkikij X X X Xθ.2)相关系数相关系数经常用来试题变量间的相似性.变量i X 与j X 的相关系数定义为∑∑==----=pk j jk i ikpk j jk i ikij X X X XX X X Xr 1221)()())((.在实际问题中,对样品分类常用距离,对变量分类常用相似系数,即Q 型聚类分析常用距离,R 型聚类分析常用相似系数. 2.4聚类分析方法 系统聚类法开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类.系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward法等八种不同的方法.K-均值将给定的样本划分为K类,K预先指定,基于使聚类性能指标最小化,所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和,并使其最小化.比较两种算法,系统聚类是事先并不知道分为几类,根据算法可以直接数据实际情况得出来,K-均值聚类法虽然比较方便迅速,但必须事先定好分类数.两种算法各有优缺点,所以用哪种算法,还要考虑到实际情况.各算法的具体过程在下列实例中有介绍,此处就不做介绍了.三、实例例表1 2009年给出能反映新疆十四个地州市综合经济的十项指标分别为:X1 地区生产总值(亿元),X2人均地区生产总值(元),X3第二产业比重(%),X4第三产业比重(%),X5 人口(万人),X6固定资产投资(亿元),X7规模以上工业总产值(亿元),X8 地方财政一般预算收入(万元),X9 地方财政一般财政支出(万元),X10在岗职工平均货币支出(元).利用数据对新疆十四个地州市进行综合发展水平进行类型划分及差异性程度分析.表1以2010年新疆统计局出版的《新疆统计年鉴》(2009年度的数据)为数据来源,运用上述10项指标(表1) 借助于统计分析软件包SPSS17.0进行聚类分析计算.3.1 系统聚类算法对数据进行聚类分析方法选取上,分别用组间联接、最短距离法和和离差平方和(ward)法得出分析结果的聚类图.组间联接法得到的结果和ward方法一致,但,就类和类的之间区别程度而言,组间法的效果没有ward法的好.最短距离法的结果跟ward的不一致,且,就类和类的之间区别程度而言,其效果远差于ward法和质心法.我们也尝试了使用类平均法、最长距离法及中间距离法.他们的聚类图结果类似于ward法,这里为了简洁起见就没有呈现.计算过程如下:①用标准差标准化方法对10项指标的原始数据进行处理.②采用欧氏距离测度个15个地州市之间的样本间距离.③选用组ward法计算类间的距离,并对样本进行归类.经过上述聚类方法,由分析-描述统计-描述,进行数据的标准化,得到下列标准化后的数据.表2表2表示为标准化的数据,由于我我所选的是反映新疆经济综合指标,这些变量在数量级和计量单位上的差别,要让这些不同单位的变量具有可比性.这是就必须采用某种方法对各变量数值进行标准化处理,或者叫无量纲处理,解决各数值不具综合性的问题.SPSS提供了很方便的数据标准化方法,这里我用的是Z标准化方法.即每一变量与其平均值之差除以该变量的标准差.无量纲化后各变量的平均值为0,标准差为1,从而消除量纲和数量级的影响.分析表中的数据,数据大于0的表示高于平均值,小于0的表示低于平均值.我们看从X1地区生产总值,高于平均地区有乌鲁木齐市、克拉玛依市、昌吉州、伊犁直属县市、巴州、阿克苏地区,低于平均值的地区有吐鲁番地区、哈密地区、塔城地区、阿勒泰地区、博州、克州、喀什地区、和田地区.依次再看X2地区人均生产总值,高于平均值的地区乌鲁木齐市、克拉玛依市、哈密地区、昌吉州、巴州.低于平均值的地区吐鲁番地区、伊犁直属县市、塔城地区、阿勒泰地区、博州、阿克苏地区、克州、喀什地区、和田地区.依次再看其他变量指标,哪些地区高于平均值,哪些地区低于平均值.经过上述聚类方法,由分析-分类-系统聚类,得出聚类表表3通过表3,我们可以看出聚类的过程,第一步看出6,11距离最近首先分为一类.也就是伊犁直属县市和阿克苏地区首先分为一类,下一阶表示下次要用到这一类是在第六步时,把6,11和13合并为一类,即把伊犁,阿克苏地区和喀什地区分为一类,第二步看出7,8分为一类,也就是塔城地区和阿勒泰地区分为一类,下一阶再把塔城地区、阿勒泰地区和博州分为一类.以此类推直至把所有的合并为一类.由于一共有十四个地区,所以至少要用十三步才能把它们都归于一类.也可以通过此表看出系统聚类的基本思想:开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类.图1图1为系统聚类分析得出的冰状图,从此图我们可以直观的看出,左边框的数字代表的是分类数,从下到上我们可以看出,先是将各地区各为一类到14类再到12类再到10类,依次下去,一直到所有地区合为一类.上边框上代表的是分类的各地区.根据新疆实际情况我们把这十五个地州市分为五类.第一类为强经济经济区{乌鲁木齐市};第二类为较强经济区{克拉玛依市};第三类为一般经济区{昌吉州、巴州、伊犁直属县市、喀什地区、阿克苏地区};第四类为较弱经济地区{哈密地区、吐鲁番地区};第五类为弱经济地区{塔城地区、阿勒泰地区、博州、和田地区、克州}.3.2 K-均值算法对数据进行聚类分析K-均值是一种基于划分的聚类算法,因为它有理论上可靠、算法简单、速度快等优点而被广泛使用.K-均值算法是一个迭代计算“质心”并根据样本和质心的距离把各样本指派到各个簇的过程.主要具体步骤如下:①确定初始质心生成K个质心,K由用户指定.②指派样本计算每一个样本到各个质心的距离,把样本指派给距离最小的簇.③更新质心根据每个簇当前所拥有的所有样本,重新计算每个簇的质心.④检查是否满足停止条件.表4通过表4,我们可以看出最终聚类中心间的的距离,第一类与第二类之间的距离为7.564,第一类和第三类之间的距离为7.463,依次可以看出各类之间的距离.表5根据表5可以看出第一类{乌鲁木齐};第二类{克拉玛依市};第三类{巴州、哈密地区、吐鲁番地区};第四类{和田地区、克州、博州、塔城地区、阿勒泰地区};第五类{伊犁直属县市、阿克苏地区、昌吉州}.对所得结果进行差异性分析:乌鲁木齐作为新疆的政治、经济的中心,在经济上的发展上都高于其他各地州市,克拉玛依市由于其石油资源优势和大型央企的进入,使其也获得了较好的发展机遇,具有较强的经济竞争优势.由于政府政策,如进一步加强喀什霍尔果斯两大经济开发区、南疆三地州片区扶贫规划以及其它重点区域战略发展规划的编制和落实执行,积极贯彻落实已出台的区域规划和政策文件,充分发挥重点地区对区域经济的辐射带动作用,培育新的经济增长极.加快制定天山北坡经济带和南坡产业带的发展战略,积极完善扶持南疆三地州、高寒沿边地区加快发展的政策措施,强化的自我发展能力.所以伊犁州,喀什地区,以及阿克苏地区的经济也发展迅速,昌吉州由于受乌鲁木齐经济的带动经济.它们几个地区经济水平都在迅速发展.博州由于人口少,自然资源也少,南疆的克州和和田地区则由于地理原因和经济社会相对落后的发展状态,呈现出较低水平.所以SPSS分类结果较为合理.参考文献[1]高惠璇.应用多元统计分析[M].北京:大学出版社,2005.[2]郝黎仁.SPSS 实用统计分析[M].北京:中国水利水电出版社,2002.[3]李双杰,顾六宝.用聚类分析法评估区域经济[J].中国农村观察,2001(3),52-56.[4]李世伟,丁胜.聚类分析在经济学当中的一个应用[J].商场现代化,2009(3),23-25.[5]卢文岱.SPSS for windows 统计分析[M].北京:电子工业出版社,2002.[6]罗积玉,邢瑛.经济统计分析方法及预测[M].北京:清华大学出版社,1987.[7]Richard A.Johnson,Dean W.Wichern.实用多元统计分析(第四版)[M].北京:清华大学出版社,2001.[8]苏金明.统计软件SPSS系列应用实战篇[M].北京:电子工业出社,2002.[9]吴明隆.SPSS 统计应用实务[M].北京:科学出版社,2003.[10]赵喜仓,吴梦云.江苏城市社会经济发展状况实证分析[J].统计研究,2003(3),32-34.[11]新疆维吾尔自治区统计局,新疆统计年鉴[M],北京:中国统计出版社,2010.Clustering Analysis and Its Application to Economic ResearchSUN Lu-mei(School of mathematics and statistics, Ils Normal University,Yining 835000 ,Xinjiang,China)Abstract: This paper discuss the basic theory of cluster analysis and research methods, including cluster analysis and K-means method and prefectures in Xinjiang fourteen 2009 GDP;per capita GDP and other the comprehensive economic indicators as a sample, using SPSS software for their overall development level differences by type and degree of analysis.Keyword: cluster analysis; SPSS software; comprehensive economic indicators; XIinjiang’’s economic zoning。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于聚类分析的我国城镇居民消费结构实证分析摘要:近年来,我国城镇居民的整体消费水平逐渐提高,但各地区间的消费结构仍存在较大差别。
文章选用8个城镇居民消费结构统计指标,采用欧式距离平方和离差平方和法,对我国31个省、直辖市及自治区的2013年城镇居民消费结构进行聚类分析和比较研究。
这不仅从总体上掌握了我国消费结构类型的地区分布,而且系统分析了我国各地区消费结构的特点及产生原因,为国家制定消费政策提供了决策依据。
关键词:消费结构;聚类分析;判别分析;政策建议;一、引言近年来,随着我国经济的快速发展,城镇居民的收入不断增加,并且在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下,我国各地区城镇居民的消费支出也强劲增长,消费结构发生了巨大的变化,结构不合理现象也得到了一定程度的调整。
但是,由于各地区的经济发展不平衡及原有经济基础的差异,使各地区的消费结构仍存在着明显差别。
为了进一步改善消费结构,正确引导消费,提高我国城市居民的消费水平和生活质量,有必要考察我国各地区城镇居民的消费结构之间的异同并进行比较研究,以期发现特点和规律,从宏观上把握各地区城镇居民的消费现状和不同地区消费水平的差异,为提高我国各地区消费水平和谐增长提供决策依据。
二、消费结构的数据分析消费结构指居民在生活消费过程中,不同类型消费的比例及其相互之间的配合、替代、制约的关系。
就其数量关系来看,消费结构是指在消费过程中不同商品或劳务消费支出占居民总消费支出的比重,反映了一定社会经济条件下人们对各类商品及劳务的需求结构,体现一国或各地区的经济发展水平和居民生活状况。
(一)数据来源为了更加深入地了解我国城镇居民消费结构,先利用2013年全国数据(如表1所示),对全国31个省、直辖市、自治区进行聚类分析。
分析采用选用了城镇居民食品、衣着、居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和服务八项指标,分别用来反映较高、中等、较低居民消费结构。
表1 各地区城镇居民家庭平均每人全年消费支出 (2013年)(二)聚类分析本文使用spss21.0软件作为统计分析工具,采用欧氏距离平方法对全国31个省、直辖市、自治区进行系统聚类分析,得到聚类分析群集成员(表2)、冰柱图(图1)及树状图(图2)。
表2 聚类分析结果图2从表2、图1和图2可以看到,我国各类地区城镇居民消费结构的相似性效果较好,且不同类型地区的消费结构有着各自的特点。
第一类为北京、上海、浙江和广东,居民消费水平较高的地区。
第一类中的北京、上海、浙江、广东等地区的医疗保健支出、交通和通讯支出、娱乐教育文化服务支出、居住支出等方面都远远高出全国平均水平,综合来看,第一类地区经济较发达,各方面的消费能力都较高。
在此类中,北京的娱乐教育文化服务支出在全国个省份中名列前茅,北京的科研机构多,藏书量大,高等院校多,娱乐设施先进齐全,这些都是导致北京该项支出比例高的原因,不愧为我国教育文化交流的中心。
纵观全国,各地区娱乐教育文化服务比重近年来呈现逐渐上升的趋势,这说明国家及各地区对教育的重视程度均有显着提高,并已逐步落实到行为中,初见成效,这也有利于我国进一步推进科教兴国战略。
第二类为天津、辽宁、江苏等,作为第二类的城市天津和江苏有很多相似之处:第一,二者分别都靠近第一类城市北京和上海,他们可以看作是北京和上海的外延;第二,二者分别处于京津唐和沪宁杭地区,经济发达;第三,二者是沿海城市,交通发达,为对外贸易提供极大的便利。
第三类为其他省,市,自治区,经济落后地区,他们大多是欠发达的内陆城市,无论是经济、政治还是文化发展水平都有限,居民人均收入水平不高,致使人们消费能力及消费欲望相比较其他类而言属最低水平。
第四类为安徽、湖北、湖南、四川等地区,作为第四类。
这些地区有着一定的资源和地理优势,但较之一二两类又明显不足,经济水平相对较弱,旅游等行业缺少明显优势,居民消费水平偏低。
(三)指标分析为了进一步分析各类指标特征,对各类指标的均值、方差、标准差、偏差、峰度进行分析,分析结果如表3。
指标特征第一类第二类第三类第四类X1均值6002.25 4527.86 3372.56 4189.27 方差885684.25 292314.143 27703.278 71682.818 标准差941.108 540.661 166.443 267.736 偏度 1.457 0.103 -0.212 -0.003 峰度 2.085 0.216 0.479 -1.049X2 均值1517 1440.14 1253 1046.82从表3可以看出,第一类地区的均值是最大的,其城镇居民消费水平最高,处于领先地位。
同时,第一类地区的方差和标准差相对较高,说明其组内地区差距较大;第三类地区均值最小,其城镇居民消费水平最高,属于经济不发达。
第三类地区方差和标准差相对较低,偏度和峰度也相对较小,组内各地区居民消费结构差距较小,各指标相对集中,且异常值较少,特征更加明显。
(四)判别分析我们已对2013年全国各地区城镇居民家庭平均每人全年消费支出进行聚类分析,将全国31个省、市、自治区2013年各地区城镇居民消费结构分为四类,考察的变量有城镇居民食品、衣着、居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和服务。
现从结果中选取四组样品(数据表4所示),另选4个地区作为待判样品作判别分析,输出判别分析函数系数表(表5)和分析结果(表6)。
表4 各地区城镇居民家庭平均每人全年消费支出 (2013年)对样本进行判别分析,得到判别分析结果如表5所示。
表5 判别分析函数系数表将待判样品数据代入四个函数中,每个样品对应的四个函数值进行比较,其中函数值最大的那个是第几个函数,则判该样品为第几类。
计算后发现,浙江对应的四个函数中第一个大,所以被划分为第一类。
江苏对应的四个函数中,第二个大,所以被划分为第二类。
吉林对应的四个函数中第三个大,所以被划分为第三类。
安徽对应的四个函数中,第四个大,所以被划分为第四类。
表6 判别分析结果 347.882-0.338X8-0.098X7+0.066X6+0.116X5+0.090X4+0.078X3-0.151X2+0.115X1=Y3786.675-0.460X8-0.188X7+0.112X6+0.232X5+0.151X4+0.155X3-0.170X2+0.162X1=Y21342.696-0.532X8-0.296X7+0.143X6+0.318X5+0.186X4+0.236X3-0.205X2+0.197X1=Y1有判别分析结果可知,浙江仍为第一类,属于沪宁杭地区,经济发达;它靠近第一类城市上海,他们可以看作是上海的外延;而且是沿海城市,交通发达,为对外贸易提供极大的便利。
江苏地理位置优越,交通便利,服务业和工业发达,综合经济实力在全国一直处于前列,其消费能力相对较高,所以其居民消费结构被列入第二类,是合理的。
吉林属于内陆城市,没有入海港,对外贸易不发达。
其水路和陆路运输没有绝对优势,经济发展不高,居民消费属偏下水平,归属于第三类。
安徽虽未内陆城市但是其地理位置较好,旅游发达,居民消费能力比第三类地区略高一些。
四、促进我国消费结构合理化的政策建议根据以上分析可以看出,经济发展较好的地区居民的消费水平较高,消费结构也越合理。
而且,居民收入水平是影响居民消费需求最直接、最根本的因素,并最终决定着居民的消费层次和消费结构。
但是,典型地区西藏又可见,除收入水平外,还有很多因素影响居民消费结构,如:价格水平、消费习惯、消费环境、消费心理预期等等,因而,政府也要继续出台切实有效的政策措施,增加居民消费积极性,并引导居民消费结构向更健康、合理的方向演进,以期全面提高我国各地区城镇居民的生活质量。
鉴于此,提出以下几点建议:1. 提高居民收入水平,增强扩大消费的基础。
收入是影响居民消费需求最直接、最根本的因素,并最终决定着居民的消费层次和消费结构。
因此,在国家经济增长的同时,进一步提高城镇居民的收入水平,以提高消费者对国家经济走势的良好预期。
同时,国家还需采取措施改善经济发展不平衡的现象,尽可能地缩小不同地区间的收入差距,真正发挥大国经济的内部拉动作用,使经济发展走上需求投资拉动的良性发展的道路。
2. 刺激消费需求,培育新的消费热点。
当前,我国消费需求相对不足。
这些年来,政府一直花大力气刺激我国的消费需求,取得了积极的成果。
假日旅游消费、通讯及电子产品的消费、住房消费、居民汽车消费等极大的拉动了居民的消费需求。
一方面,我们应该进一步巩固已有成果,另一方面还须培育新的消费热点,如医疗保健、保险等。
北京、上海等经济发达地区往往住房紧张,因此,大力发展这些地区的房地产事业是进一步提高居民消费水平的有效手段;经济发展相对落后的地区,交通和通讯条件是制约其发展的瓶颈,应在交通和通讯方面入手,不断加强城市化建设,以促进城镇居民生活水平地提高。
3. 引导文化消费,丰富精神文化生活。
引导人们自觉提高文化消费,特别是智力性、发展性消费的比重,加大消费中的文化含量和科技含量,提高消费层次和质量,这本身就是人力资本投资。
精神文化领域的扩大,高层次的精神文化消费活动就会增多,消费者的人力资本积累也就提高了,进而提高了整个社会的资本存量,从供给方面带动经济的进一步发展。
4. 加快中西部发展,缩小地区差异。
中西部地区由于地理位置和历史原因,大多数经济基础差,发展相对滞后,因而必须加快这些地区的发展。
政府应从资金、政策上相对倾斜扶持,为其发展创造一个良好的外部投资环境,吸引各方参与西部大开发;各地区也应积极探索发展新思路,借鉴经济发达地区的成功经验,利用自身的资源优势和后发优势,抓住西部大开发的机遇实现跨越式发展,尽可能缩小地区差距。
五、结语本文应用聚类分析和判别的分析方法,对2013年我国31 个省、直辖市及自治区的城镇居民消费结构进行统计分析,分析结果我国的实际情况基本相符,不同类型地区的居民消费结构的相似程度也不同,且有着各自的特点。
在此基础上本文对评价结果进行了比较分析,并提出了促进城镇居民消费结构合理化的政策建议,为我国各地区因地制宜地制定消费政策提供了科学合理的决策借鉴。
参考文献[1]丁咏梅,周晓阳.我国城镇居民消费结构的统计分析.市场研究,2004,(1):15-18.[2]何晓群.多元统计分析.北京:中国人民大学出版社,2004:54-76.[3]余建英,何旭宏. 数据统计分析与SPSS 应用.北京:人民邮电出版社,2003:256-263.[4]李泓欣,丁孟春.我国居民消费结构存在的问题及对策.工业技术经济,2003,(5):54-55.[5]方征. 我国城镇居民消费结构现状及对内需影响之分析.特区经济,2005,(11):19-21.[6]吴恒. 北京居民消费结构升级对优化产业结构的影响分析.首都经济贸易大学,2008.。