统计分析与SPSS的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计分析与SPSS的应⽤
统计分析与SPSS的应⽤
第1章SPSS统计分析软件概述
常⽤的统计软件:SAS、SPSS、TSP、STATISTICA、EViews、MINITAB、Excel等。

1.1 SPSS使⽤基础
数据编辑窗⼝是SPSS的主程序窗⼝,在软件启动时⾃动打开,并⼀直保持打
开状态直到退出SPSS。

在运⾏时只能打开⼀个数据编辑窗⼝,它是由数据视图和变量视图组成的。

主要功能是:定义数据结构、录⼊编辑和管理待分析的数据。

结果输出窗⼝,主要功能是显⽰管理SPSS统计分析结果、报表和图形,与数
据编辑窗⼝不同的是:结果输出窗⼝允许同时创建和打开多个窗⼝,⽬的是将同⼀批数据的不同分析结果指定输出到不同的输出窗⼝。

1.2 SPSS的基本运⾏⽅式
SPSS的三种基本运⾏⽅式是:完全窗⼝菜单运⾏⽅式、程序运⾏⽅式、混合运⾏⽅式。

完全窗⼝菜单运⾏⽅式:所有的分析操作通过菜单、按钮、输⼊对话框等⽅式完成。

适合⼀般的统计分析⼈员和SPSS初学者。

程序运⾏⽅式:⾸先根据分析需要,将数据分析的步骤⼿⼯编写成SPSS命令程序,
然后将编写好的程序⼀次性提交给计算机执⾏。

适合⼤规模的统计分析⼯作。

混合运⾏⽅式:完全窗⼝菜单运⾏⽅式和程序运⾏⽅式的综合。

1.3 利⽤SPSS进⾏数据分析的基本步骤
⼀、数据分析的基本步骤
1、明确数据分析的⽬标
2、正确收集数据
3、加⼯整理数据
4、选择恰当的统计分析⽅法进⾏探索分析
5、读懂统计分析结果
⼆、利⽤SPSS进⾏数据分析的⼀般步骤
1、SPSS数据的准备阶段
在数据编辑窗⼝中定义SPSS数据的结构,录⼊和修改SPSS数据等。

2、SPSS数据的加⼯整理阶段
对数据编辑窗⼝中的数据进⾏必要的预处理。

3、SPSS数据的分析阶段
选择正确的统计分析⽅法,对数据编辑窗⼝中的数据进⾏分析建模。

4、SPSS分析结果的阅读和解释阶段
读懂SPSS结果输出窗⼝中的分析结果,明确其统计含义,并结合应⽤背景知识做出切合实际的合理解释。

第2章SPSS数据⽂件的建⽴和管理
2.1 SPSS数据⽂件
⼀、SPSS数据⽂件的特点
有结构也有内容,只能在SPSS软件中才能打开。

建⽴SPSS数据⽂件应该完成两项任务,第⼀,描述SPSS数据的结构;
第⼆,录⼊编辑SPSS的数据内容。

⼆、SPSS数据的基本组织⽅式
原始数据的组织⽅式:原始的调查问卷数据,或是⼀些基本的统计指标。

⾏:个案;列:变量
计数数据的组织⽅式:经过分组汇总后的计数数据(⾏:变量的⼀个分组)
2.2 SPSS数据的结构和定义⽅法
⼀、变量名
变量访问和分析的唯⼀标识,在定义变量名时,字符个数不多于8个,⾸字符应以英⽂字母开头,不能含有:“! ?*”,下划线、圆点不能作为变量名的最后⼀个字母,不区分⼤⼩写字母,不能与内部特定符号相同。

⼆、数据类型、列宽、⼩数位宽
1、数值型
2、字符型
3、⽇期型
三、变量名标签
总长度可达120个字符,可增加变量名的可视性和统计分析结果的可读性。

四、变量值标签
对定序型数据和定类型数据是必不可少的。

五、缺失数据
数据中明显错误或明显不合理的数据以及漏填的数据都可以看出缺失数据。

注意:字符型变量中的空格或空不是系统缺失值。

六、计量尺度
三类:定距型数据、定序型数据、定类型数据。

2.3 SPSS数据的录⼊与编辑2.4 SPSS数据的保存2.5读取其他格式的数据⽂件
⼀、SPSS⽀持的数据格式:SPSS⽂件格式(sav)、Excel⽂件格式(xls)、dbase数据⽂件
格式(dbf)、⽂本格式⽂件等。

SAS⽂件格式(sas7bdat)⼆、扩展名:sav:SPSS数据⽂件;spo:SPSS结果⽂件;sps:SPSS语句程序⽂件
2.6 SPSS数据⽂件合并
⼀、纵向合并【Data】→【Merge File】→【Add Cases】
将数据编辑窗⼝中的数据与另⼀个SPSS数据⽂件中的数据⽂件中的数据进⾏⾸尾对接,在不同数据⽂件中数据含义相同的数据项最好起相同的变量名,含义不同的最好不要同名,否则会出差错。

⼆、横向合并【Data】→【Merge File】→【Add Variables】
将数据编辑窗⼝中的数据与另⼀个SPSS数据⽂件中的数据⽂件中的数据进⾏左右对接,两个数据⽂件应该⾄少要有⼀个名称相同的变量作为关键变量;两个⽂件都必须事先按照关键变量进⾏升序排序。

第3章SPSS数据的预处理
预处理的功能有:数据的排序、变量计算、数据选取、计数、分类汇总、数组分组其他功能:数据转置、加权处理、数据拆分、SPSS变量集
数据的预加⼯处理是服务于数据分析和建模的,需要解决的问题有:
1、缺失值和异常数据的处理
2、数据的转换处理
3、数据抽样
4、选取变量
3.1 数据的排序
【Data】→【Sort Cases】
数据排序在数据分析过程中有很重要的作⽤:
1、便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等。

2、快捷找到数据的最⼤值和最⼩值,计算全距,初步把握和⽐较数据离散程度。

3、快捷地发现数据的异常值,为进⼀步明确它们是否对分析产⽣重要影响提供帮助。

注意:1、数据的排序不是只对某⼀列变量排序,⽽是整⾏数据排序,排序之后,原有的数据次序必然被打乱。

2、多重排序中指定排序变量的次序很关键,先指定的变量优于后指定变量。

3.2 变量计算
【Transform】→【Compute】
⼀、算术表达式
由常量、变量、算术运算符、圆括号、函数等组成的式⼦。

运算的先后顺序:先计算乘⽅,再计算乘除,最后计算加减。

在同级运算中,按从左到右的顺序进⾏计算,通过圆括号改变原有的计算顺序。

⼆、条件表达式
1、简单条件表达式
关系运算符、常量、变量以及算术表达式等组成。

2、复合表达式(逻辑表达式)
逻辑运算符、圆括号、简单条件表达式
三、S PSS函数
算术函数、统计函数、分布函数、逻辑函数、字符函数、缺失值函数、⽇期函数和其他函数。

3.3 数据选取
【Data】→【Select cases】
1、按指定条件选取
2、随机选取(近似选取和精确选取)
3、选取某⼀区域内的样本
4、通过过来变量选取
3.4 计数:【Transform】→【Count】
3.5 分类汇总:【Data】→【Aggregate】
3.6 数据分组:【Transform】→【Recode】→【Into Different Variables】
第4章SPSS基本统计分析
4.1 频数分析
频数分析的基本任务和内容:
1、编制频数分布表,内容:频数、百分⽐、有效百分⽐、累计百分⽐。

2、绘制统计图,内容:柱形图或条形图、饼图、直⽅图
柱形图或条形图:适⽤于定序和定类变量的分析,⽤宽度相同的条形的⾼度或长短来
表⽰频数分布变化的图形。

饼图:⽤圆形及圆内扇形⾯积来表⽰频数百分⽐变化的图形。

直⽅图:适⽤于定距型变量的分析,⽤矩形的⾯积来表⽰频数分布变化的图形,可以在直⽅图上附加正态分布曲线,便于与正态分布的⽐较。

【Analyze】→【Descriptive Statistics】→【Frequencies】
频数分布表的第⼀列显⽰频数分析变量的变量值,第⼆列是相应变量值的频数,第三
列是百分⽐,第四列是有效百分⽐,第五列是累计百分⽐。

如果变量中⽆缺失数据,则频数分布表中的百分⽐与有效百分⽐相同。

在SPSS频数分析中,虽然SPSS给出的频数分布表是完整的,但如果变量是定类变
量,那么累计百分⽐的内容是不应采纳的,原因是定类变量的累计百分⽐是没有意义的。

4.2 计算基本描述统计量
⼀、刻画集中趋势的描述统计量
均值、中位数、众数、总和
⼆、刻画离散程度的描述统计量
样本标准差、样本⽅差、全距
四、刻画分布形态的描述统计量
1、偏度系数:
偏度是描述变量取值分布形态对称性的统计量,当分布是对称分布时,正负总偏差相等,偏度值为0,偏度⼤于0表⽰正偏差值较⼤,为正偏或称右偏,直⽅图中有⼀条长尾拖在右边,偏度绝对值越⼤,表⽰数据分布形态的偏斜程度越⼤,另
外,SPSS 还计算偏度标准误差。

2、峰度系数:
峰度是描述变量取值分布形态陡缓程度的统计量,当数据分布与标准正态的陡缓程度相同时,峰度值等于0,峰度值⼩于0表⽰数据的分布⽐标准正态分布平缓,成为平峰分布,另外,SPSS还计算峰度标准误差。

4.3 交叉分组下的频数分析
4.4 多选项分析
4.5 ⽐率分析
⽤于对两变量间变量值⽐率变化的描述分析,适⽤于定距型变量。

1、加权⽐率均值:属于集中趋势描述指标,是两变量均值的⽐。

2、ADD平均绝对离差:⽤于对⽐率变量离散程度的描述。

3、COD离散系数:⽤于对⽐率变量离散程度的描述。

4、PRD相关价格微分:⽤于对⽐率变量离散程度的描述,是⽐率均值与加权⽐率均值的⽐。

5、COV变异系数:分别基于均值的变异系数和中位数的变异系数。

5.1 参数检验概述
基本步骤:1、提出原假设
2、选择检验统计量
3、计算检验统计量观测值发⽣的概率
4、给出显著性⽔平α,并作出统计决策
5.2单样本t检验
命令:【Analyze】→【Compare Means】→【One-Samples T Test】
前提条件:1、研究的问题仅涉及⼀个总体,
2、样本来⾃的总体应服从或近似服从正态分布。

5.3 两独⽴样本t检验
命令:【Analyze】→【Compare Means】→【Independent-Samples T Test】,
前提条件:1、样本来⾃的总体应服从或近似服从正态分布。

2、两样本相互独⽴,即从⼀个总体中抽取⼀组样本对从另⼀总体中抽取⼀组样
本没有任何影响,两组样本的样本数可以不等。

5.3 两配对样本t检验
命令:【Analyze】→【Compare Means】→【Paired-Samples T Test】
前提条件:要求样本是配对的,在前后两种状态下某属性的不种不同的特征,也可以是对某事物两个不同侧⾯的描述。

抽样不是相互独⽴,⽽是互相关联的。

两组样本的样本数要相同,先后顺序是⼀⼀对应的,不能随意更改。

知识点:
1、进⾏参数检验的最终结果是判断要接受原假设还是拒绝原假设,经过分析之后得到检验统计量的概率P值,如果P值⼩于显著性⽔平α,则认为如果在此时拒绝原假设犯错误的可能性⼩于显著性⽔平α,其概率低于预先控制的⽔平,不太可能会发⽣,可以拒绝原假设,反之,则认为如果在此时拒绝原假设犯错误的可能性⼤于显著性⽔平α,其概率⾼于预先控制的⽔平,很有可能发⽣,不应拒绝原假设。

2、单样本t检验是对总体均值的假设检验,,研究中只涉及到⼀个总体,原假设是:总体均值与检验值之间不存在显著性差异。

3、两独⽴样本t检验是利⽤来⾃两个总体的独⽴样本,推断两个总体的均值是否存在显著性差异。

4、在进⾏两独⽴样本t检验之前,要求将两组样本数据存放在⼀个SPSS变量中,即存放在⼀个SPSS变量列上,为区分哪些样本来⾃哪个总体,还应定义⼀个存放总体标识的标识变量,实验中应对两总体的标识值进⾏分别定义。

5、在两独⽴样本t检验结果中,先看F检验,即对两总体⽅差进⾏检验,根据P值
判断两总体的⽅差是否有显著性差异。

若F检验的P值⼤于α,两⽅差没有显著性差异,在进⾏两总体均值检验时,应看第⼀⾏【Equal variances assumed】的结果,再判断t检验P值与α的⼤⼩;反之,如果F检验的P值⼩于α,认为两⽅差有显著性差异,在进⾏两总体均值检验时,应看第⼆⾏【Equal not variances assumed】的结果,再进⾏t检验。

6、两配对样本t检验是利⽤来⾃两个总体的配对样本,推断两个总体的均值是否存在显著性差异。

它要求样本是配对的,即在个案的前后两种状态下某属性的两种不同特征,或者是某事物两个不同侧⾯的描述,抽样不是相互独⽴的,⽽是相互关联的。

6.1 ⽅差分析概述
两个基本假设前提:
1、观测变量各总体应服从正态分布。

2、观测变量各总体的⽅差应相同。

6.2、单因素⽅差分析
⼀、明确观测变量和控制变量
⼆、剖析观测变量的⽅差
三、⽐较观测变量总离差平⽅和各部分的⽐例
基本步骤:1、提出原假设
2、选择检验统计量
3、计算检验统计量的观测值和概率P值
4、给定显著性⽔平α,并作出决策
命令:【Analyze】→【Compare Means】→【One-Way ANOV A】
进⼀步分析:
⼀、⽅差齐性检验:【Option】
⼆、多重⽐较检验:【Post Hoc】
1、LSD⽅法:最⼩显著性差异法,适⽤于各总体⽅差相等的情况,没有对犯第
⼀类错误的概率加以有效的控制。

2、Bonferroni⽅法:修正差别检验法,对犯第⼀类错误的概率进⾏了有效控制。

3、Turkey⽅法:杜奇法,仅适⽤于各⽔平下观测值个数相等的情况,适⽤于各总
体⽅差相等的情况,有对犯第⼀类错误的概率加以有效的控制。

4、Scheffe⽅法:差别检验法,较Turkey⽅法不灵敏。

5、S-N-K⽅法:⼀种有效的划分相似⼦集的⽅法,适⽤于各⽔平下观测值个数相
等的情况。

知识点:LSD⽅法的检验敏感度是其中最⾼的,⾼的敏感度会使拒绝原假设的可能性增⼤,与低敏感度的⽅法相⽐,犯第⼀类错误的可能性会⽐较⾼。

三、其他检验
1、先验对⽐检验
2、趋势检验
6.3 多因素⽅差分析
命令:【Analyze】→【General Linear Model】→【Univariate】
进⼀步分析:
1、多因素⽅差分析的⾮饱和模型【 Model】
2、多因素⽅差分析的其他功能:均值检验(多重⽐较检验【Post Hoc】和对⽐检验【Contrast】)
控制变量交互作⽤的图形分析【Plots】
6.4 协⽅差分析
协⽅差分析将⼈为很难控制的因素作为协变量,并在排除协变量后,分析控制变量对观测变量的作⽤。

在协⽅差分析中,作为协变量的变量⼀般是定距变量,并要求多个协变量之间⽆交互作⽤,且观测变量与协变量之间有显著的线性关系。

8.1 SPSS的相关分析
相关分析是分析客观事物之间关系的数量分析⽅法,关系有两种:函数关系和统计关系。

8.2 绘制散点图
命令:【Graph】→【Scatter】
通过散点图能够直观发现变量间的统计关系以及强弱程度和数据对的可能⾛向。

当样本量⽐较⼤时,散点图的点很密集,在⼀定程度上影响了图形的观察效果,
可以对散点图进⾏适当的调整,在其基础上绘制葵花式散点图,葵花式散点图通
常将集中在⼀起的数据点的中⼼作为“花⼼”,以“花瓣”的多少表⽰“花⼼”
周围数据点的多少。

8.3 计算相关系数
⼀、利⽤相关系数进⾏变量间的线性关系的分析通常需要完成以下两⼤步骤:
第⼀,计算样本相关系数r
-10,负相关:r<0
完全正相关:r=1,完全负相关:r=-1,零相关:r=0
较强的相关性:r>0.8,线性关系较弱:r<0.3
第⼆,对样本来⾃的两总体是否存在显著的线性关系进⾏推断。

由于存在抽样的随机性和样本数量较少等原因,样本决定系数不能直接⽤来说明
样本来⾃的两总体是否有显著线性相关性,需要通过假设检验对r进⾏检验。

⼆、相关系数的种类:
1、Pearson简单相关系数:定距型变量、⽆量纲化
2、Spearson等级相关系数:定序型变量,不直接⽤原始数据,⽽是⽤数据的秩
3、Kendallτ相关系数:⾮参数检验的⽅法度量定序型变量
【Analyze】→【Correlate】→【Bivarite】
8.3 偏相关分析
⼀、两⼤步骤:
1、计算样本的偏相关系数
2、对样本来⾃的两总体是否存在显著的净相关进⾏推断。

⼆、注意:偏相关分析是在剔除其他相关因素影响的条件下计算变量间的相关,当控制变量
的个数为零时,偏相关系数成为零阶偏相关系数,也就是简单的相关系数【Analyze】→【Correlate】→【Partial】第9章SPSS的线性回归分析
9.1 回归分析概述
⼀般步骤:
1、确定回归⽅程中的解释变量和被解释变量
2、确定回归模型
3、建⽴回归⽅程
4、对回归⽅程进⾏各种检验
5、利⽤回归⽅程进⾏预测
9.2 线性回归分析和线性回归模型
9.3 回归⽅程的统计检验
⼀、回归⽅程的拟合优度检验
⼆、回归⽅程的显著性检验
三、回归系数的显著性检验
四、残差分析
1、残差均值为零的正态性分析
2、残差的独⽴性分析
第⼀、绘制残差序列的序列图
第⼆、计算残差的⾃相关系数
第三、DW检验
3、异⽅差分析
第⼀、绘制残差图
第⼆、等级相关分析
4、探测样本中的异常值
异常值:远离均值的样本数据点对被解释变量中异常值的探测⽅法:(1)、标准化残差
(2)、学⽣化残差
(3)、剔除残差
对解释变量中的异常值的探测⽅法:(1)、杠杆值
(2)、库克距离
(3)、标准化回归系数的变化和标
准化预测值的变化
9.4 多元回归分析中的其他问题
⼀、解释变量的筛选问题
向前筛选、向后筛选、逐步筛选
⼆、变量的多重共线性问题
测度解释变量间多重共线性⼀般有以下⼏种⽅法:
1、容忍度,越接近0多重共线性越强;
2、⽅差膨胀因⼦,⼤于等于10,有严重的多重共线性;
3、特征根和⽅差⽐,某个特征根同时可以刻画两个及两个以上解释变量⽅差的较⼤⽐
例,存在多重共线性;
4、条件指数,在10-100之间多重共线性较强,>100时多重共线性很严重。

9.5 线性回归分析的基本操作9.6 线性回归分析的应⽤举例
【Analyze】→【Regression】→【Liner】
知识点:1、在⼀元线性回归⽅程中,t检验和F检验的结果时⼀致的,多元中不是⼀致的,甚⾄有时还会出现相反的结果。

但回归⽅程的拟合优度越⾼,回归⽅程的显著
性检验也会越显著。

2、多元线性回归分析中,如果引⼊的解释变量较少,回归⽅程将⽆法很好解释说
明被解释变量的变化,但也并⾮引⼊的解释变量越多越好,这些变量之间可能
存在多重共线性,要采取⼀些策略对解释变量引⼊回归⽅程加以控制和筛选。

9.7 曲线估计
变量之间的⾮线性可以划分为:本质线性和本质⾮线性
命令:【Analyze】→【Regression】→【Curve Estimation】
常见的本质现在模型:
⼆次曲线:Quadratic 复合曲线:Compound 增长曲线:Growth 对数曲线:Logarithmic
三次曲线:Cubic
S曲线:S
指数曲线:Exponential
逆曲线:Inverse
逻辑曲线:Logistic
10.1 聚类分析的⼀般问题
“亲疏程度”的度量⽅法:
⼀般有两个⾓度:第⼀,个体间的相似程度;第⼆,个体间的差异程度。

⼀、定距型变量个体间距离的计算⽅式:
1、欧式距离(Euclidean distance)
EUCLID(x,y)=
2、平⽅欧式距离(Squared Euclidean distance)
SEUCLID(x,y)=
3、切⽐雪夫距离(Chebychev)
CHEBYCHEV(x,y)=
4、Block距离
5、明考斯基距离(Minkowski)
MINKOWSKI(x,y)=
6、夹⾓余弦距离(Cosine)
CONSINE(x,y)=
7、⽤户⾃定义距离(Customized)
CUSTOMIZED(x,y)=
⼆、计算变量个体间距离的计算公式:
1、卡⽅距离(Chi-Square measure)
CHISQ(x,y)=
2、Phi⽅(Phi-Square measure)
PHISQ(x,y)=
三、⼆值变量个体间距离的计算公式
1、简单匹配系数(Simple Matching)
2、雅科⽐系数(Jaccard)
⼏点说明:
1、所选变量应符合聚类的需求
2、各变量的变量值不应有数量级上的差异
3、各变量间不应有较强的线性相关关系
10.2 层次聚类
个体与⼩类、⼩类与⼩类间“亲疏程度”的度量⽅法:
1、最近距离⽅法
2、最远距离⽅法
3、组间平均链锁
4、组内平均链锁
5、重点距离
6、离差平⽅法
【Analyze】→【Classify】→【Hierarchical Cluster】
10.3 K-Means 聚类
【Analyze】→【Classify】→【K-Means Cluster】
知识点:1、SPSS中的变量的个体间的距离默认是欧⽒距离,个体与⼩类、⼩类与⼩类间的距离默认为组间平均链锁。

2、利⽤碎⽯图可知,随着类的不断凝聚,类数⽬不断减⼩,类间的距离在增⼤,
在图中可以寻找类间的距离迅速增⼤的点即拐点,根据类间距离⼩形成类的相
似性⼤,类间距离⼤形成类的相似⼩的原则,把拐点作为确定分类数⽬的参考。

11.1 因⼦分析概述
因⼦分析以最少的信息丢失为前提,将众多的原有变量综合成较少⼏个综合指标,名为因⼦。

因⼦有以下⼏个特点:1、因⼦个数远远少于原有变量的个数因⼦能够反映原有变量的绝⼤部分信息
2、因⼦之间的线性关系不显著
3、因⼦具有命名解释性
模型:X=AF+ε,其中F成为因⼦,A称为因⼦载荷矩阵。

⼀、因⼦载荷:-1<=aij<=1,越接近1,表明因⼦与变量的相关性越强。

⼆、变量共同度:hi2 =∑aij2,因⼦载荷矩阵A中⾏的平⽅和。

越接近1,说明因⼦全体解释说明了变量的较⼤部分⽅差,丢失较少。

衡量因⼦分析效果的重要指标。

三、因⼦的⽅差贡献
因⼦载荷矩阵A中列的平⽅和,衡量因⼦重要性的关键指标。

11.2 因⼦分析的基本内容
⼀、因⼦分析的前提条件
要求原有的变量之间存在较强的相关性,通过各种⽅法分析原有变量是否有相关关系。

1、计算相关系数矩阵
2、计算反映像相关矩阵
3、巴特利特球度检验
4、KMO检验
⼆、因⼦提取
三、使因⼦更具有命名解释性
四、计算各样本的因⼦得分
命令:【Analyze】→【Data Reduction】→【Factor】。

相关文档
最新文档