第4章spss基本统计分析

合集下载

SPSS软件学习_spss统计描述过程

变量频数statistics选项统计频数表统计频数图（加正态分布图）
11
分布曲线形状：偏度的含义
偏度：
大于0表示=正偏=右偏=均值在中位数的右边
左偏
右偏
均值中位数众数
众数中位数均值
63
12
分布曲线形状：峰度的布
峰度大于0
13
二、描述统计量过程
Frequency
Horsepower
70
60
50
40
30
20
10
Std. Dev = 38.52
Mean = 104.8
0
N = 400.00
50.0 70.0 90.0 110.0 130.0 150.0 170.0 190.0 210.0 230.0
60.0 80.0 100.0 120.0 140.0 160.0 180.0 200.0 220.0
中位数适用于任意分布类型的资料。用中位数来描述连续变量会损失很多信息，对于对称分布资料，优先考虑使用均数，仅仅均数不能使用时才用中位数加以描述；
中位数对于定序变量、连续变量均可以使用。对定序变量通常采用中位数（不是众数）来反映更多、更精确的信息。
36
4.2.3 其它集中趋势描述指标
1. 截尾均数数据排序去掉最两端的数据（常用的截尾均数有5% 截尾均数，即两端去掉5%的数据，在SPSS 中Explore中可以实现）
如果截尾均数与原均数相差不大，说明数据不存在极端值，反之相反。
37
2.几何平均数
常用于计算百分比、比率、指数、增长率等指标的平均数
几何平均数算术平均数公式（要求 xi > 0 ）

spss教程第四章---时间序列分析

第四章时间序列分析由于反映社会经济现象的大多数数据是按照时间顺序记录的，所以时间序列分析是研究社会经济现象的指标随时间变化的统计规律性的统计方法。

.为了研究事物在不同时间的发展状况，就要分析其随时间的推移的发展趋势，预测事物在未来时间的数量变化。

因此学习时间序列分析方法是非常必要的。

本章主要内容：1. 时间序列的线图，自相关图和偏自关系图；2. SPSS 软件的时间序列的分析方法−季节变动分析。

§4.1 实验准备工作§4.1.1 根据时间数据定义时间序列对于一组示定义时间的时间序列数据，可以通过数据窗口的Date菜单操作，得到相应时间的时间序列。

定义时间序列的具体操作方法是：将数据按时间顺序排列，然后单击Date →Define Dates打开Define Dates对话框，如图4.1所示。

从左框中选择合适的时间表示方法，并且在右边时间框内定义起始点后点击OK，可以在数据库中增加时间数列。

图4.1 产生时间序列对话框§4.1.2 绘制时间序列线图和自相关图一、线图线图用来反映时间序列随时间的推移的变化趋势和变化规律。

下面通过例题说明线图的制作。

例题4.1：表4.1中显示的是某地1979至1982年度的汗衫背心的零售量数据。

试根据这些的数据对汗衫背心零售量进行季节分析。

（参考文献[2]）表4.1 某地背心汗衫零售量一览表单位：万件解：根据表4.1的数据，建立数据文件SY-11（零售量），并对数据定义相应的时间值，使数据成为时间序列。

为了分析时间序列，需要先绘制线图直观地反映时间序列的变化趋势和变化规律。

具体操作如下：1. 在数据编辑窗口单击Graphs→Line,打开Line Charts对话框如图4.2.。

从中选择Simple单线图，从Date in Chart Are 栏中选择Values of individual cases，即输出的线图中横坐标显示变量中按照时间顺序排列的个体序列号，纵坐标显示时间序列的变量数据。

第4章-SPSS基本统计分析课件

– 频数分析：对数据按组进行归类整理，形成变量不同水平的频数分布表和图形，对数据的分布趋势进行初步分析。
– 通过频数分析，了解变量取值的状况，把握分布特征。
– 通过频数分析，能够在一定程度上反映出样本是否具有总体代表性，抽样是否存在系统偏差等，并以此证明以后相关问题分析的代表性和可信性。
第4章-SPSS基本统计分析
目标一：计算存(取)款金额的基本描述统计量，并对城镇储户和农村储户进行比较 (数据拆分)
目标二：分析储户一次存(取)款的数量是否存在不均衡现象。
第4章-SPSS基本统计分析
目标二
基本描述统计
分析储户一次存(取)款的数量是否存在不均衡现象，
可以从分析金额是否有大量异常值入手。
实现方法：
数据标准化处理： zi (xi x)/S
第4章-SPSS基本统计分析
异常值的检测
99.73% 95.45% 68.27%
3 2
2 3 第4章-SPSS基本统计分析
2021/1/24
28
基本描述统计量
l 其他统计量
– 均值标准误差(S.E means)
l 中心极限定理认为：样本均值~N(u,2/n) l 反映样本均值与总体真值间的平均离散程度 l 样本数越大，样本均值的离散程度越小，对真
中趋势栏
可反复操作键入多个百分
位数；
按Remove：删除已键入
的数值
离散趋
分布形态栏
按Change：重新输入新数
势栏输出统计量对话框第4章-SPSS基本统计分析
频数分析
l 频数分析中的其他分析
– 分位数的应用
l 从一个侧面刻画了变量的取值分布状况
– 例：( QL=50,QU=75)

《统计分析与SPSS的应用(第五版)》课后练习答案解析(第4章)

WORD 格式整理《统计分析与SPSS的应用（第五版）》（薛薇）课后练习答案第 4 章 SPSS基本统计分析1、利用第2章第7题数据采用SPSS频数分析，分析被调查者的常住地、职业和年龄分布特征，并绘制条形图。

分析——描述统计——频率，选择“常住地”，“职业”和“年龄”到变量中，然后，图表——条形图——图表值（频率）——继续，勾选显示频率表格，点击确定。

Statistics户口所在职业年龄地Valid282282282NMissing000户口所在地Frequency Percent Valid CumulativePercent Percent中心城市20070.970.970.9 Valid 边远郊区8229.129.1100.0Total282100.0100.0职业Frequency Percent Valid CumulativePercent Percent 国家机关248.58.58.5商业服务业5419.119.127.7文教卫生18 6.4 6.434.0公交建筑业15 5.3 5.339.4Valid 经营性公司18 6.4 6.445.7学校15 5.3 5.351.1一般农户3512.412.463.5种粮棉专业4 1.4 1.464.9户WORD 格式整理种果菜专业10 3.5 3.568.4户工商运专业3412.112.180.5户退役人员17 6.0 6.086.5金融机构3512.412.498.9现役军人3 1.1 1.1100.0Total282100.0100.0年龄Frequency Percent Valid CumulativePercent Percent20 岁以下4 1.4 1.4 1.420~35 岁14651.851.853.2 Valid 35~50 岁9132.332.385.550 岁以上4114.514.5100.0Total282100.0100.0分析：本次调查的有效样本为282 份。

使用SPSS进行统计数据分析

使用SPSS进行统计数据分析第一章：介绍统计数据分析的重要性统计数据分析在各个领域中扮演着重要的角色。

它帮助研究者从大量数据中找出规律、验证假设，并作出科学决策。

为了有效地进行统计数据分析，SPSS（Statistical Package for the Social Sciences）是一个常用的统计分析软件。

本文将重点介绍使用SPSS进行统计数据分析的方法和步骤。

第二章：数据清理和准备在进行统计数据分析之前，首先需要进行数据清理和准备。

这包括检查数据的完整性、解决缺失数据和异常值等问题。

SPSS提供了一系列功能，如数据筛选、数据变换和替代值等，可以帮助我们进行数据清理和准备。

第三章：描述性统计分析描述性统计分析是对数据进行总结和描述的过程，目的是了解数据的基本情况。

SPSS提供了一系列描述性统计方法，如频数、平均值、标准差和百分位数等。

通过这些统计指标，我们可以获取数据的分布情况、中心位置和变异程度等重要信息。

第四章：推断性统计分析推断性统计分析是通过样本数据对总体进行推断的过程。

在SPSS中，我们可以使用各种假设检验方法进行推断性统计分析，如t检验、方差分析和回归分析等。

这些方法可以帮助我们验证研究假设，比较群体差异和预测未来趋势。

第五章：相关性分析相关性分析是研究变量之间关系的一种方法。

在SPSS中，我们可以使用相关矩阵和散点图等工具来分析变量之间的相关性。

此外，SPSS还提供了Pearson相关系数和Spearman等非参数相关系数的计算，用以衡量变量之间的线性关系和排序关系。

第六章：多变量分析多变量分析是一种用于处理多个自变量和因变量的方法。

SPSS 提供了多个多变量分析方法，如因子分析、聚类分析和多元方差分析等。

这些方法可以帮助我们探索多个变量之间的关系，并进行变量的降维和分类。

第七章：时间序列分析时间序列分析是研究随时间变化的数据的一种方法。

在SPSS 中，我们可以使用时间序列图、自相关图和平稳性检验等工具来分析时间序列数据的特征和趋势。

spss4-2(基本统计分析)

频数分析表
Central tendency: 用于定义描述集中趋势的一组指标：均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。
频数分析表
Dispersion:定义描述离散趋势的一组指标： Std.deviation:标准差 Variance:方差 Range :全距 Minimum:最小值 Maximum:最大值 S.E.mean:标准误
众数
(不唯一性)
无众数原始数据: 8 10 5 9 12 6
一个众数原始数据:
6
5
9
8
5
5
多于一个众数原始数据: 25 28 28 36 42 42
中位数
(median)
1. 排序后处于中间位置上的值
50%
2. 不受极端值的影响
Me
50%
3. 主要用于顺序数据，也可用数值型数据，但不能用于分类数据 4. 各变量值与中位数的离差绝对值之和最小，即
8
9
1
2
3
4
5
6
7
n 1 9 1 位置 5 2 2 中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】：10个家庭的人均月收入数据
排序: 660 750 780 850 1630 2000 位置: 960 1080 1250 1500
9
10
n 1 10 1 位置 5.5 2 2
2 众数(Mode)：出现频率最高的数 3 中位数(Median)：将数据排序后位于正中间的数值。适合于所有分布类型的数据 4 总和(Sum)
众数
(mode) 1. 出现次数最多的变量值

第4章 SPSS基本统计分析

• 分析不同居住类型的被访者未来的购房预期是否一致
练习3
• 完成上例
提纲
1
频数分析
2
计算基本描述统计量
复合分组下的频数分析多选项分析
3
4
5
比率分析
多选项分析
实现思路 1）按多选项二分法或多选项分类法将多选项问题分解成若干的问题，并设置若干个SPSS变量 2）采用多选项频数分析或多选项交叉分组下的频
• 选择若干个频数分析的变量
• 选择绘制统计图形
4、频数分析的扩展功能
计算分位数 • 分位数：是变量在不同百分位点上的取值。分位点在0~100之间。 • 分位数差是一种描述数据离散程度的方式。分位数差越大，表示数据在相应分位上的离散程度越大
4、频数分析的扩展功能
频数分布表格式的定义 • 调整频数分布表中数据的输出顺序
– 按变量值的升序或降序输出 – 按频数值的升序或降序输出
• 压缩频数分布表
– SPSS默认如果变量取值的个数或取值区间的个数大于10，则不输出相应的频数分布表
5、频数分析应用举例
分析月住房开销的分布，并对不同居住类型进行比较 • 1）“月住房开销”为定距型变量→先分组，再编制频数分布表
• 2）计算月住房开销的四分位数→按照“居住类型” 将数据拆分，并重新计算四分位数→进行比较
• 累计百分比：即各百分比逐级累加起来的结果，
最终取值为100%。
2、频数分析中常用统计图
• 条形图：适用于定序和定类变量的分析。条形图
的纵坐标可以是频数,也可以是百分比。
• 饼图：饼图中圆内的扇形面积可以表示频数,也可
以表示百分比。
• 直方图：适用于定距型变量的分析。
3、频数分析的基本操作

《SPSS统计分析方法及应用》第四章--基本统计分析课件

（3）众数（Mode）：即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。
学习交流PPT
17
（4）均值标准误差（Standard Error of Mean）：描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为：
S.E.of .Mean ( x X )2 n
按Variables框中的排列顺序输出
按各变量的字母顺序输出按均值的升序排列按均值的降序排列
Options 对话框
学习交流PPT
28
在上面窗口中，用户可以指定分析多变量时结果输出的次序（Display Order）。其中，Variable list表示按变量在数据窗口中从左到右的次序输出； Alphabetic表示按字母顺序输出；Ascending Means 表示按均值升序输出；Descending Means表示按均值降序输出。
至此，SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。
学习交流PPT
29
• 5.2.3 计算基本描述统计量的应用举例
1. 利用商品房购买意向的调查数据，对月住房开销变量计算基本描述统计量。
有以下分析目标：计算月住房开销的基本描述统计量，并分别对不同居住类型进行比较分析：首先按居住类型对数据进行拆分（Split file），然后计算月住房开销的基本描述统计量。
学习交流PPT
19
常见的刻画离散程度的描述统计量如下：
（1）全距（Range）：也称极差，是数据的最大值（Maximum）与最小值（Minimum）之间的绝对离差。
（2）方差（Variance）：也是表示变量取值距均值的离散程度的统计量，是各变量值与算数平均数离差平方的算术平均数。其计算公式为：

spss基本分析

统计分析往往是从了解数据的基本特征开始的。

描述数据分布特征的统计量可分为两类：一类表示数量的中心位置，另一类表示数量的变异程度（或称离散程度）。

两者相互补充，共同反映数据的全貌。

这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。

1 频数分析 (Descriptive Statistics - Frequencies)频数分布分析主要通过频数分布表、条形图和直方图，以及集中趋势和离散趋势的各种统计量来描述数据的分布特征。

下面我们通过例子来学习单变量频数分析操作。

1) 输入分析数据在数据编辑器窗口打开“data1-2.sav”数据文件。

2)调用分析过程在主菜单栏单击“Analyze”，在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上，在出现的次菜单里单击“Frequencies”项，打开如图3-4所示的对话框。

图3-4 “Frequencies” 对话框3)设置分析变量从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。

在这里我们选“三化螟蚁螟 [虫口数]”变量进入“Variable(s):”框。

4)输出频数分布表Display frequency tables，选中显示。

5)设置输出的统计量单击“Statistics”按钮，打开图3-5所示的对话框，该对话框用于选择统计量：图3-5 “Statistics”对话框① 选择百分位显示“Percentiles Values”栏：Quartiles：四分位数，显示25%、50%和75%的百分位数。

Cut points for 10 equal groups：将数据平分为输入的10个等份。

Percentile(s):：用户自定义百分位数，输入值0—100之间。

选中此项后，可以利用“Add”、“Change”和“Remove”按钮设置多个百分位数。

② 选择变异程度的统计量“Dispersion”：（离散趋势）Std.deviation 标准差Minimum 最小值Variance 方差Maximum 最大值Range 极差S.E.mean 均值标准误③ 选择表示数据中心位置的统计量“Central Tendency”：（集中趋势）Mean 均值Median 中位数Mode 众数Sum 算术和④ 选择分布指标“Distribution”：Skewness 偏度Kurtosis 峰度6) 统计图形输出设置单击“Charts”按钮，将弹出如图3-6所示的对话框：图3-6 “Charts”对话框① Chart Type 图形选择栏：○ None：不输出图形；○ Bar charts：输出条形图；○ Pie char ts：输出饼图；⊙ Histograms：输出柱状图。

SPSS统计分析第四章均值比较与T检验

独立样本的T检验用于检验是否两个不相关的样本来自具有相同均值的总体。必须注意使用这种检验的条件是必须具有来自两个不相关组（非配对）的观测量，其均值必须是对你想在两组中都计算的变量的综合测度。
如果分组样本彼此不独立，例如测量的是研究对象用药前后某项指标，要求比较用药前后某项指标均值是否有显著性差异，应该使用配对 T检验的功能（Paired Sample T test）。如果分组不止两个，应该使用One-Way ANOV过程进行单变量方差分析。
练习题
已知某水样中含CaCO3的真值为20.7mg/L，现用某方法重复测定该水样11次CaCO3的含量（mg/L）为：20.99，20.41，20.10， 20.00，20.91，22.60，20.99，20.41， 20.00，23.00，22.00。问该方法测得的均值是否偏高？
2、Independent Sample T test（独立样本T检验）
t-test for Equality of Means为T检验结果栏 t: t值； df：自由度； Sig：显著性概率即P值； Mean Difference:两组均值之差。表现平均当前工资女性低于男性 15409.86元； Std. Error Difference：差值的标准误为131.40； 95％ Confidence Interval of the Difference：差值的95%置信区间。在12816.7～18003.0之间，不包括0即两组均值之差与0有显著性差异。
线性检验结果
Measures of Association R R Square EE d ttaa Squared
身高.8*79 年 .7龄 72 .915 .838
R是因变量身高的观测值与预测值之间的的相关系数，R值越接近1 表明回归方程的预测性越好；

第章 SPSS 基本统计量的描述

存 (取 )款金额
直方图
二、计算基本描述统计量
目的：精确把握变量的总体分布状况。基本操作： ✓ 描述统计－频率过程：统计 ✓ 描述统计－描述过程 ✓ 描述统计－探索过程 ✓ 均值比较－均值过程（分组显示）用途：计算变量的集中趋势、离散趋势、偏度、
峰度等指标，绘制统计图。
几个过程的基本描述统计量比较
农村户口
户口
城镇户口
饼图
Frequency
100
0 0.0
Std. Dev = 10945.57 Mean = 4738.1 10000.0 20000.0 30000.0 40000.0 50000.0 60000.0 70000.0 80000.0 90000.0N10=000208.02.00
McNemar：配对计数资料的卡方检验。零假设
为两变量的阳性率无差别源自2(bc 1)2
bc
Kappa一致性检验：系数取值－1～1。测量同一观测对象在两变量（两变量服从二项分布）上取值的一致性程度。其绝对值越接近1，说明一致性程度越高。一般来说：
✓ 系数>=0.7,一致性程度较高；
✓ 0.4~0.7,一致性程度一般；
卡方检验操作：统计量选项
【单元格】：用于定义列联表单元格中需要计算的指标：
计数：是否输出实际观察数和理论数；
百分比：是否输出行百分数、列百分数以及合计百分数；
残差：选择残差的显示方式；
【格式】：用于选择行变量是升序还是降序排列。
结果：城乡储户的收入水平没有明显差异。
Pearson卡方值的影响因素
C
2 2 n
A11A22A12A21
R1R2C1C2
2

第四章SPSS描述统计分析

本例以上四个复选框全部选择
第4步：设置绘图
点击【图】按钮，弹出“探索：图”对话框。
在“描述”栏内，同时选择“ 茎叶图”、 “直方图”两个复选框，要求作茎叶描述，以及直方图显示。
同时，选择“含检验的正态图”。
第5步：设置选项。点击【选项】按钮，弹出“探索：选项”对话框。
第6步：在主对话框中点击【确定】按钮。SPSS在输出窗口的输出结果。
□描述：输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、范围、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误。
□M-估计量：作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数；
□离群值：输出五个最大值与五个最小值； □百分位数：输出第5%、10%、25%、50%、 75%、90%、95%位数；
SPSS 23.0 统计分析
——在心理学与Leabharlann 育学中的应用第四章描述统计分析
2020/7/9
全书目录
第一章 SPSS 23.0简介与基本操作第二章数据编辑与整理第三章数据转换第四章描述统计分析第五章交叉表分析第六章比较平均值第七章方差分析第八章相关分析第九章回归分析
所谓Z分值是指某原始数值比其均值高多少个标准差。
4.2 描述分析
案例：【例4- 2】被试对某一次测验的测验
总分进行分析，描述该测验分数的基本描述信息，以及将每个被试的分数转化为标准化分数。
第1步：打开分析数据。打开“测验数据文件.sav”文件。
第2步：启动分析过程。点击【分析】【描述
第
四 4.1 频数分析
章
描 4.2 描述分析述 4.3 探索分析

《统计分析与SPSS的应用(第五版)》课后练习答案(第4章)

《统计分析与SPSS的应用（第五版）》（薛薇）课后练习答案第4章SPSS基本统计分析1、利用第2章第7题数据采用SPSS频数分析，分析被调查者的常住地、职业和年龄分布特征，并绘制条形图。

Statistics户口所在地职业年龄N Valid 282 282 282Missing 0 0 0户口所在地Frequency Percent ValidPercentCumulativePercentValid 中心城市200 70.9 70.9 70.9 边远郊区82 29.1 29.1 100.0 Total 282 100.0 100.0职业Frequency Percent ValidPercentCumulativePercentValid 国家机关24 8.5 8.5 8.5 商业服务业54 19.1 19.1 27.7 文教卫生18 6.4 6.4 34.0 公交建筑业15 5.3 5.3 39.4 经营性公司18 6.4 6.4 45.7 学校15 5.3 5.3 51.1 一般农户35 12.4 12.4 63.5 种粮棉专业户4 1.4 1.4 64.9种果菜专业户10 3.5 3.5 68.4 工商运专业户34 12.1 12.1 80.5 退役人员17 6.0 6.0 86.5 金融机构35 12.4 12.4 98.9 现役军人 3 1.1 1.1 100.0 Total 282 100.0 100.0年龄Frequency Percent ValidPercent Cumulative PercentValid 20岁以下 4 1.4 1.4 1.4 20~35岁146 51.8 51.8 53.2 35~50岁91 32.3 32.3 85.5 50岁以上41 14.5 14.5 100.0 Total 282 100.0 100.0分析：本次调查的有效样本为282份。

SPSS数据分析第四章 t检验

2. 反映实际观测到的数据与原假设H0之间不一致的程度
3. 被称为观察到的(或实测的)显著性水平
4. 决策规则：若p值<, 拒绝 H0
双侧检验的P 值
/2
拒绝H0
1/2 P 值
/2
拒绝H0
1/2 P 值
临界值 0
临界值
Z
计算出的样本统计量
计算出的样本统计量
左侧检验的P 值
抽样分布
拒绝H0
P值
异较大。其图形如下：
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图3-3 不同自由度下的t 分布图
3．特征：
① 单峰分布，以 0 为中心，左右对称； ② 自由度越小，则 t 值越分散，t 分布的峰部
越矮而尾部翘得越高； ③当逼近, SX 逼近 X , t 分布逼近 u 分布，故标
解：研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为
H0 ： 10cm H1 ： 10cm
【例】某品牌洗涤剂在它的产品说明书中声称：平均净含量不少于500克。从消费者的利益出发，有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设
行比较
3. 作出决策
双侧检验：统计量的绝对值 > 临界值，拒绝H0
左侧检验：统计量 < 临界值，拒绝H0 右侧检验：统计量 > 临界值，拒绝H0
利用 P 值进行决策
什么是P 值?

第4章：SPSS的统计分析

把“地区标志”作为分组变量，对不同的组进行比较
ADD 平均绝对离差
COD离散系数 Mean centered COV 均值的变异系数
COV变异系数
Median centered COV中位数变异系数
分析analyze描述统计descriptivestatistics频数frequencies点击图表chart选择统计图点击格式format调整频数分布表中数据的输出顺序点击格式format调整分布表中数据的输出顺序统计结果输出结果输出窗口413频数分析的扩展功能spss编制频数分布表和绘制统计图是频数分析的基本任务除此之外在频率窗口中通点击统计量statistics按钮还可以计算其他的统量
数据拆分
表明该数据是进行拆分了的
计算描述统计
分析结果（结果输出窗口）分析结果（结果输出窗口）
4.3 交叉分组下的频数分析
4.3.1 交叉分组下的频数分析的目的和基本任务通过频数分析能够掌握单个变量的数据分布情况。在实际分析中，不仅要了解单变量的特征，还要分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量间的相互影响和关系。对多变量的联合分布特征的分析，常采用交叉分组下的频数分析来完成。交叉分组下的频数分析又称列联表分析，它包括两大基本任务：第一，根据收集到的样本数据编制交叉列联表；第二，在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。
1.多选项二分法 1.多选项二分法多选项二分法就是将多选项问题中的每个答案设为一个 SPSS变量，每个变量只有0或1两个取值，分别表示选择该答案和不选择该答案。例如：多选项二分法. 2. 多选项分类法多选项分类法中，首先估计多选项问题最多可能出现的答案个数；然后，为每个答案设置一个SPSS变量，变脸取值为多选项问题中的可选答案。例如：多选项分类法. 在选择多选项问题分解时，对于所选答案具有一定顺序的多选项问题可采用多选项分类法分解，而没有顺序的问题可采用二分法分解。

SPSS操作步骤及解析

目录第四章统计描述 (2)4。

2 频数分析 (2)4.3描述性统计量 (2)4.4。

1(探索性数据分析）操作步骤 (4)第五章统计推断 (6)5.2单样本t检验 (6)5.3 两独立样本t检验 (7)5。

4 配对样本t检验 (8)第六章方差分析 (9)6.2.2 单因素单变量方差分析（One-way ANOVA）（操作步骤） (10)6。

3.3 多因素单变量方差分析操作步骤 (14)6.3。

5 不考虑交互效应的多因素方差分析 (17)6。

3。

6 引入协变量的多因素方差分析 (18)第八章相关分析 (19)8.2 连续变量相关分析实例 (20)8.3 离散变量相关分析的实例(列联表） (22)第九章回归分析 (24)9.1.3 线性回归（操作步骤) (26)1．多重共线性检验 (26)2。

使用变量筛选的方法克服多重共线性 (29)二、曲线估计（操作步骤） (32)9.2.5二项Logistic回归(操作步骤) (35)第十章聚类分析 (39)10。

3.1 K-均值操作步骤： (39)10。

4。

1 系统聚类法操作步骤 (43)第十一章判别分析 (47)11.3。

1 操作步骤 (48)第十二章因子分析 (53)12.2.2操作步骤 (56)第十三章主成分分析 (64)13。

2 操作步骤 (65)第十四章相应分析 (69)14。

2相应分析实例（操作步骤) (70)第十五章典型相关分析 (75)15。

2操作步骤： (75)第四章统计描述统计描述是指如何搜集、整理、分析、研究并提供统计资料的理论和方法，用于说明总体的情况和特征。

4.1 基本概念和原理4。

1.1 频数分布4。

1。

2 集中趋势指标算数平均值:适用于定比数据、定距数据中位数:适用于定比数据、定距数据和定序数据众数：适用于定比数据、定距数据、定序数据和定类数据4.1.3离散程度指标作用：(1）它可以表明现象的平衡程度和稳定程度；（2)离散性指标可以表明平均指标的代表性,数据离散程度越大，则该分布的平均指标的代表性就越小。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

对多选项问题分解后，就可以进行频数分析了。首先应定义多选项变量集，即将多选项问题分解并设置成多个变量后，指定这些变量为一个集合。只有通过定义多选项变量集，SPSS才能确定应对那些变量取相同值的个案数进行累加。（原因p.96）定义多选项变量集的基本操作：
1.菜单：Analyze→Multiple Response → Define Sets。 2.将进入多选项变量集的变量选择到Variables in Sets中。 3.在Variables Are Coded As中指定多选项变量集中的变量是按照哪种方法分解的。 4.为多选项变量集命名。 5.单击Add将定义好的多选项变量集加到Mult Response Sets 中。
3 原则认为正态分布中大概有0.3％的异常值，超过这个标准就认为数据分布不均衡。
zi
xi x
~ N (0,1)
P案例：分析人均住房面积是否存在不均衡现象。
分析过程： 1、计算人均住房面积的标准化值：Z人均面积； 2、用计数功能找出 Z人均面积 <3的个案，计算其比例并进行判断。
第4章 SPSS基本统计分析
第4章 SPSS基本统计分析
4.1 4.2 4.3 4.4 4.5 频数分析计算基本描述统计量交叉分组下的频数分析多选项分析比率分析
§1 频数分析

目的
粗略把握变量值的分布状况。
例：研究被调查者的特征（如：性别、年龄、收入）研究被调查者对某个问题的总体看法（如：教学方式、选修课程）研究被调查者某方面的状态（如：购买家电的类型、居民月支出状况）
三维列联表有层变量
交叉列联表的卡方检验
卡方检验属于假设检验的范畴，有四个步骤： 1、建立零假设（） H0 列联表分析中卡方检验的零假设为行变量与列变量独立。 2、选择和计算检验统计量列联表分析卡方检验的检验统计量是Pearson卡方统计量，其数学定义为：
2
i 1 j 1 r c
离散趋势分析
①极差：数据最大值减去最小值，最简单的离散程度测度值 ②标准差、方差：最常用的离散程度测侧度值，一般适合于正态分布资料 ③最小值、最大值 ④标准误：样本平均数的标准差
偏度、峰度测量
①偏度系数：Skew ness ②峰度系数：Kurtosis
计算基本描述统计量的基本操作
步骤： 1.菜单：Analyze→Descriptive → Statistics→ Descriptive 2.将若干频数分析变量选择到Variables框中
多选项问题的分解
用SPSS进行问卷处理时，单选题可以一个问题设为一个变量，变量值为该问题的回答。对于多选项问题由于答案不止一个，和单选题的处理就不一样了。解决多选项问题的思路是将问卷中的一道多选题分解成若干问题，对应设置若干SPSS变量，分别存放描述这些问题的几个可能被选择的答案。这样，对一个多选项问题的分析就可以转化成对多个问题的分析，也就是对多个SPSS变量的分析。
户口
城镇户口
农村户口
Total
Count % within 户口 % within 什么合算 Count % within 户口 % within 什么合算 Count % within 户口 % within 什么合算
交叉分组下的频数分析
户口 * 什么合算 Crosstabulation 什么合算买东西存钱 113 87 56.5% 43.5% 65.7% 79.1% 59 23 72.0% 28.0% 34.3% 20.9% 172 110 61.0% 39.0% 100.0% 100.0% Total 200 100.0% 70.9% 82 100.0% 29.1% 282 100.0% 100.0%
案例：对人均住房面积计算基本描述统计量，并分别对本市户口和外地户口家庭进行比较。
先按照户口状况进行拆分（Split file），然后再计算基本描述统计量
案例：分析人均住房面积是否存在不均衡现象。
也就是分析人均住房面积是否有大量异常值。若人均住房面积（x i）服从正态分布，则：
xi x P{ zi 3} 99.7%
4.1 4.2 4.3 4.4 4.5 频数分析计算基本描述统计量交叉分组下的频数分析多选项分析比率分析
交叉分组下的频数分析
目的:
通过频数分析能够掌握单个变量的数据分布情况。实际分析中，不仅要了解单变量的分布特征，还要分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。
例：学习成绩与性别有关联吗？(两变量) 例：职业、性别、爱逛商店有关联吗？(三变量)
交叉分组下的频数分析基本任务:
两大基本任务：
第一是编制交叉列联表根据收集到的样本数据，产生二维或多维交叉列联表；第二在交叉列联表的基础之上，对两两变量间是否存在一定的相关性进行分析。
交叉分组下的频数分析
户口
城镇户口
农村户口
Total
Count % within 户口 % within 什么合算 Count % within 户口 % within 什么合算 Count % within 户口 % within 什么合算
这是一张涉及两变量的二维交叉列联表，反映了不同户口的储户对储蓄是否合算的不同看法。表中的户口变量称为行变量，什么合算称为列变量。行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数和各种百分比。
多选项二分法与多选项分类法各有利弊。在高考志愿的调查中，采用多选项二分法，对变量 V1至 V6作频数分析，就能很方便地分析出各个学校的考生报考情况，但是不能体现考生志愿的填报顺序信息；如果采用多选项分类法分解，对变量V1至V3作频数分析，就能很方便地分析出考生在各个志愿中的报考学校情况，但不便于分析各个学校的考生报考情况。在选择多选项问题的分解方法时，应考虑到具体问题和具体分析目标，在避免信息丢失的前提下，减少稀疏数据。
( RT )( CT ) 3、确定显著性水平和临界值 f e 4、结论和决策 n
例：分析本市和外地家庭对“未来三年是否打算买房”是否持相同的态度。
交叉分组下的频数分析的基本操作
步骤：
1.菜单：Analyze→Descriptive → Statistics→Crosstabs 2.分别选定行变量和列变量。 3.选择Display clustered bar charts，指定绘制各变量交叉分组下频数分布柱型图。Suppress tables表示不输出列联表，在仅分析行列变量间关系时可选择。 4.单击Cells，指定列联表单元格中的输出内容。 5.单击Format指定列联表各单元的输出排列顺序。 6.单击Statistics指定用哪种方法分析行变量和列变量之间的关系。
案例：利用住房状况调查数据，分析被调查家庭中户主的从业状况、目前所住房屋的产权情况。
案例：分析人均住房面积的分布情况，并对本市和外地户口家庭进行比较。该分析的特点是： ◆涉及的变量是定距型变量 ◆需要分别对本市和外地户口的家庭进行分析 ◆利用频数分析的扩展功能进行分析分析思路： ◆由于人均住房面积是定距型变量，直接采用频数分布不利于对其分布形态的把握，因此考虑对数据分组后再编制频数分布表。 ◆进行数据拆分，分别计算本市和外地家庭的人均住房面积的四分位数，并通过四分位数比较两者分布上的差异。
定义多选项变量集完成后，便可进行多选项频数分析了。 1.菜单：Analyze→Multiple Response → Frequencies。 2.把待分析的变量集选择到Tables For中。 3.指定是否处理缺失数据。SPSS规定，只要样本在多选项变量集中的某一个变量上取缺失值，分析时就将该样本剔除。
第4章 SPSS基本统计分析
4.1 4.2 4.3 4.4 4.5 频数分析计算基本描述统计量交叉分组下的频数分析多选项分析比率分析
基本描述统计量
集中趋势分析：
①均值：一组数据的简单算术平均数或加权算术平均数。适合于正态分布或对成分布资料；②中位数：将数据排序后位于正中间的数值。适合于所有分布类型的数据；③众数：出现频率最高的数。
多选项问题的分解方法
多选项二分法
多选项分类法
多选项二分法
是将多选项问题中的每个答案设为一个SPSS变量，每个变量只有0或1两个取值，分别表示选择了该答案和不选择该答案。
例如，高考志愿的调查中，志愿选择有6个答案，（1）北大；（2）清华；（3）人大；（4）北京理工；（5）北师大；（6）北外。对应设置6 个SPSS变量，取值为1或0。
交叉列联表的主要内容
编制交叉列连表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。
户口 * 什么合算 Crosstabulation 什么合算买东西存钱 113 87 56.5% 43.5% 65.7% 79.1% 59 23 72.0% 28.0% 34.3% 20.9% 172 110 61.0% 39.0% 100.0% 100.0% Total 200 100.0% 70.9% 82 100.0% 29.1% 282 100.0% 100.0%
( f ij0 f ije ) 2 f ije
~ 2 (行数－ 1 （列数－ ) 1）
交叉列联表的卡方检验
2
i 1 j 1 r c
( f ij0 f ije ) 2 f ije
~ 2 (行数－ 1 （列数－ ) 1）
其中，r为列联表的行数，c为列联表的列数； e 0 f ij f ij 为观察频数，为期望频数。期望频数的分布反映的是行列变量互不相干下的分布。