多元统计分析之聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 n Kurtosis ( xi x)4 / 4 3 n i 1
当数据分布与标准正态分布的陡峭程度相 同时,峰度值等于0;峰度大于0表示数据的分 布比标准正态分布更陡峭,为尖峰分布;峰度 小于0表示数据的分布比标准正态分布平缓, 为平峰分布。
44
4. 计算基本描述统计量的操作
42
当分布为对称分布时,正负总偏差相等, 偏度值等于0;当分布为不对称分布时,正负 总偏差不相等,偏度值大于0或小于0。偏度值 大于0表示正偏差值大,称为正偏或右偏;偏 度值小于0表示负偏差值大,称为负偏或左偏。 偏度绝对值越大,表示数据分布形态的偏斜程 度越大。
43
(2)峰度(Kurtosis):描述变量取值分布形态 陡峭程度的统计量。其计算公式为:
(2)是一种安全的投资保值方式吗? (3)是抱着试试看的态度购买吗? (4)是亲戚朋友推荐吗? (5)是单位统一组织购买吗?
(6)是保险公司的宣传吗?
(7)是其他吗?
18
SPSS变量名 V1 V2 V3 V4 V5
变量名标签
变量取值 0/1
是使晚年生活有保障吗?
是一种安全的投资保值方式吗? 0/1 是抱着试试看的态度购买吗? 是亲戚朋友推荐吗? 是单位统一组织购买吗?
29
多选项交叉分组下的频数分析的基本操作:
1.【分析】——【多重响应】——【交叉表】; 2.选择列联表的行变量并定义取值范围,或选择 多选项变量集为行变量; 3.选择列联表的列变量并定义取值范围,或选择 多选项变量集为列变量; 4.选择列联表的控制变量并定义取值范围,或选 择多选项变量集为控制变量;
22
表3 V3频数分析结果
想要获得的理想结果:
23
二、多选项分析的基本操作
多选项分析:【多重响应】功能 两步: 第一步,定义多选项变量集:即将多选项问题 分解并设置多个变量后,应指定这些变量为一 个集合。
【分析】 【分析】 【多重响应】 【多重响应】 【定义变量集】 【频数】
第二步,多选项频数分析
7
四 基本操作
(1)选择菜单【分析】-【描述统计】-【频 率】
8
(2)选择若干变量到【变量】框中。比如, 选择“从业状况”。 (3)点击【图表】选择绘制统计图形。在 【图表类型】框中选择条形图、直方图或者扇 形图。
9
五、频数分配表应用举例
例1利用住房状况问卷调查数据,分析被调查者家庭中户 主的从业状况和目前所住房屋的产权情况。
例2. 利用住房状况问卷调查数据,对人均住房面积进行频 数分析。
10
作业:
利用 2013 年中国各地区生产总值数据, 分别对所属地区和地区生产总值进行频 数分析。
11
第三节 多选项分析
本节基本内容:
●多选项分析的目的和思路 ●多选项分析的应用举例
12
一、多选项分析的目的和思路
问题1:在对保险市场的一项调查中,设计了这样一道问题: 按照您自己的实际情况,依次选择您购买商业养老保险 的原因,最多不超过3项:
37
(4)均值标准误差(Standard Error of Mean):描述 样本均值与总体均值之间的平均差异程度的统计量。 其计算公式为:
S .E.of .Mean
其中:
2 ( x X )
M
2
[ x E ( x )]
M
n
为总体标准差,n为样本单位数
38
2、刻画离散程度的描述统计量
4
三、统计图
包括: 条形图(柱形图):bar 直方图:histograms
区别:
适用于定性数据,用宽度相同的条形高度来表示数据 的多少。 适用于分组定量数据的描述,用矩形的宽度和高度表 示频数分布。可以附加正态分布曲线。
直方图适用于定量数据,而条形图适用于定性数据; 条形图中,条形的宽度相同,仅以条形高低反映频数的 差别;直方图中,矩形的高度和宽度有所不同。
24
25
26
三、应用举例:
案例1:为研究影响老年人购买养老保险 的因素,进行问卷调查。现要求根据所 获得的调查数据,分析老年人购买养老 保险的原因。
27
多选项频数分析结果:
28
案例2:为研究影响老年人购买养老保险的因 素,进行问卷调查。现要求根据所获得的调查 数据,分析不同工作单位性质人员购买养老保 险的原因。 分析:本例由于涉及工作单位性质和购买养老 保险原因两个方面,因此应采用多选项交叉分 组下的频数分析方法进行研究,即生成列联表。 其中设列联表的列变量为购买原因,行变量为 工作单位性质。
第4章 SPSS基本统计分析
基本内容:
●频数分析 ●计算基本描述统计量 ●多选项分析
1
第1节 频数分析
基本内容: 频数分配表 统计图
一、频数分析的目的和基本思路
基本统计分析往往从频数分析开始。通过频数 分析能够了解变量取值的状况、对数据的分布 特征是非常有用的。
两个任务:
编制频数分配表 绘制统计图
14
显然,答案不只一个。
高考填报志愿、居民储蓄 多选项问题
回答方式: 第一类,选择的答案有一定的先后顺序。
第二类,选择的答案没有先后顺序。
注意:问题本身的特点,采取不同的策略。
15
一般步骤: 多选项问题分解
多选项频数分析
16
1、多选项问题的分解
为什么要对多选项问题进行分解呢? 不同于单选项问题的一般处理方法,必须设置多个 SPSS变量。
基本思路:
将问卷中的一道多选项问题分解成若干个问题,对应 设置若干个SPSS变量,分别存放描述这些问题的几个 可能被选择的答案。 一个多选项问题 关键环节 多个SPSS变量的分析
17
分解的方法有两种:二分法和分类法
多选项二分法 将多选项问题中的每个答案设为一个SPSS变量,每个 变量只有0或1两个取值,分别表示不选择或选择该答 案。 将多选项问题分解成七个问题: (1)是使晚年生活有保障吗?
30
31
5.点击【选项】,其中【单元格百分比】表示选 择输出哪些百分比;【百分比基于】表示指定 如何计算百分比,【个案】表示分母为个案数, 【响应】表示分母为多选项应答数;【跨响应 集匹配变量】表示,如果列联表的行列变量均 为多选项变量集,则第一个变量集的第一个变 量与第二个变量集的第一个变量作交叉分组, 第一变量集的第二个变量与第二个变量集的第 二个变量作交叉分组。
离散程度: 一组数据远离其“中心值”的程度。 如果数据都紧密地集中在“中心值”的周围, 数据的离散程度较小,说明这个“中心值”对 数据的代表性好;相反,如果数据仅是比较松 散地分布在“中心值”的周围,数据的离散程 度较大,则此“中心值”说明数据特征是不具 有代表性的。
39
常见的刻画离散程度的描述统计量如下: (1)全距(Range):也称极差,是数据的最 大值(Maximum)与最小值(Minimum) 之间的绝对离差。 (2)方差(Variance):也是表示变量取值离 散程度的统计量,是各变量值与算术平均数离 差平方的算术平均数。其计算公式为:
32
33
作业:利用商品房购买意向的数据,实 现以下目标: 1、使用多选项分类法分析被访者选择的 付款方式; 2、分析不同收入段被访者选择的付款方 式,生成多选项交叉表。
34
第2节 数据的数字特征
本节基本内容: 1.刻画集中趋势的描述统计量 2.刻画离散程度的描述统计量 3.刻画分布形态的描述统计量 4.计算描述统计量的应用举例
(年龄特征、职业特点、性别特征等)
3
二、频数分配表
基本内容: ● 频数(Frequency ):变量值落在某个区间(或某个类别)中
的次数。 ●百分比(Percent):各频数占总样本量的百分比。
●有效百分比(Valid Percent):
各频数占总有效样本量的百分比。 这里:有效样本量=总样本-缺失样本量 如果所分析的数据在频数分析变量上有缺失值,那么有效百分比更 能准确的反映变量的取值分布情况。 ●累计百分比(Cumulative Percent): 各百分比逐级累加起来的结果。最终取值为百分之百。
0/1 0/1 0/1
V6
V7
是保险公司的宣传吗?
是其他吗?
0/1
0/1
19
多选项分类法
首先估计多选项问题最多可能出现的答案个数,然后, 为每个答案设置一个SPSS变量,变量取值为多选项问 题中的可选答案。
SPSS变量名
V1 V2 V3
变量名标签
第一原因 第二原因 第三原因
变量取值
1/2/3/4/5/6/7 1/2/3/4/5/6/7 1/2/3/4/5/6/7
20ห้องสมุดไป่ตู้
实际应用中需要考虑两个方面:
是否便于分析; 是否丢失信息。
方法选择的原则:
对于所选答案具有一定顺序的多选项问题,一般采用 分类法分解,对于所选答案没有顺序的问题,一般采 用二分法分解。
21
2、多选项问题作普通频数分析的困难
普通频数分析得到的结果:
表1 V1频数分析结果
、
表2 V2频数分析结果
48
5.计算基本描述统计量的应用举例
案例1:以住房状况问卷调查数据为例,对人均住房面 积计算基本描述统计量,并分别对本市户口和外地户 口家庭进行比较。
注意:
由于进行本地户口和外地户口家庭的比较,应该首先 按照户口状况对数据进行拆分,然后计算人均住房面 积的基本描述统计计量。
数据拆分的基本步骤: 第一步:【数据】——【拆分文件】 出现如下窗口:
41
3、刻画分布形态的描述统计量
数据的分布形态主要指数据分布是否对称,偏 斜程度如何,分布陡峭程度等。 刻画分布形态的统计量主要有两种: (1)偏度(Skewness):描述变量取值分布形 态对称性的统计量。其计算公式为:
1 n 3 3 Skewness ( xi x) / n i 1
n 1 2 2 ( xi x) n i 1
40
(3)标准差(Standard Deviation:Std Dev):表示变量取值距离均值的平均离散程 度的统计量。其计算公式为:
s
1 n 2 ( x x ) i n i 1
标准差值越大,说明变量值之间的差异越大, 距均值这个“中心值”的离散趋势越大。
35
1、刻画集中趋势的描述统计量
集中趋势: 是指一组数据向某一中心值靠拢的倾向。 (1)均值(Mean):即算术平均数,是反映 某变量所有取值的集中趋势或平均水平的指标。 如某企业职工的平均月收入。 其计算公式为:
1 x xi n i 1
36
n
(2)中位数(Median): 即一组数据按升序排序后,处于中间位置上的 数据值。如评价社会的老龄化程度时,可用中 位数。 (3)众数(Mode): 即一组数据中出现次数最多的数据值。如生产 鞋的厂商在制定各种型号鞋的生产计划时应该 运用众数。
(1)选择菜单【分析】-【描述统计】- 【描述】,出现如下窗口:
45
(2)将需计算的数值型变量选择到“变量”框 中。 (3)单击【选项】按钮指定计算哪些基本描述 统计量,出现如下窗口:
46
47
在上面窗口中,用户可以指定分析多变量时结 果输出的次序(Display Order)。其中, Variable list表示按变量在数据窗口中从左到 右的次序输出;Alphabetic表示按字母顺序输 出;Ascending Means表示按均值升序输出; Descending Means表示按均值降序输出。 至此,SPSS便自动计算所选变量的基本描述统 计量并显示到输出窗口中。
(1)使晚年生活有保障;
(2)一种安全的投资保值方式; (3)抱着试试看的态度购买; (4)亲戚朋友推荐; (5)单位统一组织购买; (6)保险公司的宣传; (7)其他。
13
问题2:您择业中考虑的主要因素有(限选三项) 1经济收入 3发展前途 5个人爱好 7劳动强度 9社会地位 2 专业对口 4地理区位 6风险大小 8社会福利 10其他
5
6
饼图(扇形图):piechart 适用于研究事物内在结构组成 散点图:scatter plot 用于对两个定量变量之间的关系进行探索性分 析。反映两变量之间的大致关系,如果绘出的 点大致分布在一条直线周围,称两者之间存在 线性关系;如果绘出的点大致分布在一条曲线 周围,则称为存在非线性关系。
49
50
第二步:选择拆分变量到【分组方式】框中。 第三步:拆分后会使分组统计产生两种不同格式的结 果,其中,【比较组】表示将分组统计结果输出在同 一张表格中,便于不同组之间的比较;【按组织输出】 表示将分组统计结果分别输出在不同的表格中。 第四步:如果数据已经事先进行了排序,就选择【文 件已排序】,否则选择【按分组变量排序文件】。