SPSS第四章基本统计分析

合集下载

统计分析及SPSS的应用课后练习答案解析

统计分析及SPSS的应用课后练习答案解析

《统计分析与SPSS的应用(第五版)》(薛薇)

课后练习答案

第4章SPSS基本统计分析

1、利用第2章第7题数据采用SPSS频数分析,分析被调查者的常住地、职业和年龄分布特征,并绘制条形图。

分析——描述统计——频率,选择“常住地”,“职业”和“年龄”到变量中,然后,图表——条形图——图表值(频率)——继续,勾选显示频率表格,点击确定。

Statistics

户口所在

职业年龄

N Valid282282282

Missing000

户口所在地

Frequency Percent Valid Percent Cumulative

Percent

Valid 中心城市200

边远郊区82

Total282

职业

Frequency Percent Valid Percent Cumulative

Percent

Valid 国家机关24商业服务业54文教卫生18公交建筑业15经营性公司18学校15一般农户35种粮棉专业

4

种果菜专业

10

工商运专业

34

退役人员17

金融机构35

现役军人3

Total282

年龄

Frequency Percent Valid Percent Cumulative

Percent

Valid 20岁以下4 20~35岁146 35~50岁91 50岁以上41 Total282

分析:本次调查的有效样本为282份。常住地的分布状况是:在中心城市的人最多,有200人,而在边远郊区只有82人;职业的分布状况是:在商业服务业的人最多,其次是一般农户和金融机构;年龄方面:在35-50岁的人最多。由于变量中无缺失数据,因此频数分布表中的百分比相同。

《统计分析与SPSS的应用(第五版)》课后练习答案(第4章)

《统计分析与SPSS的应用(第五版)》课后练习答案(第4章)

《统计分析与SPSS的应用(第五版)》课后练习答案(第4

章)

《统计分析与SPSS的应用(第五版)》(薛薇)

课后练习答案

第4章SPSS基本统计分析

1、利用第 2 章第7 题数据采用SPSS频数分析,分析被调查者的常住地、职业和年龄分布特征,并绘制条形图。

分析——描述统计——频率,选择“常住地”,“职业”和“年龄”到变量中,然后,图表——条形图——图表值(频率)——继续,勾选显示频率表格,点击确定。

Statistics

户口所在职业年龄

N V alid 282 282 282

Missing 0 0 0

户口所在地

Frequency Percent Valid Cumulative

Percent Percent

中心城市200 70.9 70.9 70.9

Valid 边远郊区82 29.1 29.1 100.0 Total 282 100.0 100.0

职业

Frequency Percent Valid Cumulative

Percent Percent 国家机关24 8.5 8.5 8.5

商业服务业54 19.1 19.1 27.7

文教卫生18 6.4 6.4 34.0

公交建筑业15 5.3 5.3 39.4 Valid 经营性公司18 6.4 6.4 45.7 学校15 5.3 5.3 51.1

一般农户35 12.4 12.4 63.5

种粮棉专业

4 1.4 1.4 64.9

种果菜专业

10 3.5 3.5 68.4

工商运专业

34 12.1 12.1 80.5

退役人员17 6.0 6.0 86.5

第4章-SPSS基本统计分析课件

第4章-SPSS基本统计分析课件
分析变量之间的关系 l 数据的多选项分析 l 其他探索性分析
第4章-SPSS基本统计分析
采用两种方式实现上述分析:
第一,数值计算,即计算常见的基本统计量的值 ,通过数值来准确反映数据的基本统计特征
第二,图形绘制,通过图形来直观展示数据的分 布特点
第4章-SPSS基本统计分析
4.1 频数分析表
l 目的
l quartiles:计算四分位数25%(QL)、50%(中位数)、 75%(QU)
l cut points for n equal groups: n等份
l percentile: 自定义百分位点
计算其他基本描述统计量。描述集中趋势、离散 程度、分布形态的统计量。
第4章-SPSS基本统计分析
在计算百分位数值和中位数
第4章-SPSS基本统计分析
应用举例
频数分析表
以“居民储蓄调查数据”为例,进行频数分析。有两 个分析目标:
目标一:分析储户的户口和职业的基本情况。
目标二:分析储户一次存(取)款金额的分布,并对城 镇储户和农村储户进行比较
第4章-SPSS基本统计分析
目标一:分析储户的户口和职业的基本情况。 频数分析表 分析特点:
绘制统计图
– 柱形图或条形图(Bar Chart) – 饼图( Pie Chart ) – 直方图(Histograms)
第4章-SPSS基本统计分析

《统计分析与SPSS的应用(第五版)》课后练习答案解析(第4章)

《统计分析与SPSS的应用(第五版)》课后练习答案解析(第4章)

WORD 格式整理

《统计分析与SPSS的应用(第五版)》(薛薇)

课后练习答案

第 4 章 SPSS基本统计分析

1、利用第2章第7题数据采用SPSS频数分析,分析被调查者的常住地、职业和年龄分布特征,并绘制条形图。

分析——描述统计——频率,选择“常住地”,“职业”和“年龄”到变量中,然后,图表——条形图——图表值(频率)——继续,勾选显示频率表格,点击确定。

Statistics

户口所在职业年龄

Valid282282282

N

Missing

000

户口所在地

Frequency Percent Valid Cumulative

Percent Percent

中心城市20070.970.970.9 Valid 边远郊区8229.129.1100.0

Total282100.0100.0

职业

Frequency Percent Valid Cumulative

Percent Percent 国家机关248.58.58.5

商业服务业5419.119.127.7

文教卫生18 6.4 6.434.0

公交建筑业15 5.3 5.339.4

Valid 经营性公司18 6.4 6.445.7学校15 5.3 5.351.1

一般农户3512.412.463.5

种粮棉专业

4 1.4 1.464.9

WORD 格式整理

种果菜专业

10 3.5 3.568.4

工商运专业

3412.112.180.5户

退役人员17 6.0 6.086.5

金融机构3512.412.498.9

现役军人3 1.1 1.1100.0

Total282100.0100.0

spss4-2(基本统计分析)

spss4-2(基本统计分析)

练习:居民储蓄调查数 2 分析储户一次存(取)款金额的分布 (2)分别对城镇和农村储户进行四分位数分析
SORT CASES BY a13 . SPLIT FILE SEPARATE BY a13 . FREQUENCIES VARIABLES=a5 /FORMAT=NOTABLE /NTILES= 4 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM MEAN MEDIAN /ORDER= VARIABLE . SPLIT FILE OFF.
x
i 1
n
i
M e min
数值型数据的中位数
(9个数据的算例)
【例】:9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置:
1 n S ( xi x) 2 n 1 i 1
③最小值、最大值(Maxium,Minimum) ④均值标准误(S.E.of.Mean): 样本均值的标准差 S / n ⑤极差(Range):数据最大值减去最小值
极差
(range)
1. 2. 3. 4. 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布

第4章 SPSS基本统计分析

第4章 SPSS基本统计分析

数分析来分析数据
应用举例
分析被访者选择的付款方式 分析不同收入段被访者选择的付款方式
1、定义多项选择变量集
• 1)分析→多重响应→定义变量集
• 2)选择进入多选项变量集的变量
• 3)指定多选项变量集中的变量是按照哪种方法分
解的
• 4)给多选项变量集命名
• 5)将定义好的多选项变量集添加到“多响应集”
• 刻画分布形态的描述统计量
– 偏度、峰度
平均指标
算术平均数 数值平均数 几何平均数
平均指标 众数
位置平均数 中位数
1.当总体分布呈对称状态时,三者合而为一,
即X M e M 0
如图: f
X Me M0
2. 当总体分布呈非对称状态时
(1). 如果分布右偏,则 X M e M 0
提纲
1
频数分析
2
计算基本描述统计量
复合分组下的频数分析 多选项分析
3
4
5
比率分析
1、基本操作
• 分析→描述统计→交叉表
• 选择行变量和列变量
• 指定绘制各变量交叉分组下的频数分布图
• 指定列联表单元格中的输出内容
• 指定列联表各单元格的输出顺序
• 指定用哪种方法分析行变量和列变量之间的关系
2、应用举例
• 累计百分比:即各百分比逐级累加起来的结果,

第 章 SPSS 基本统计量的描述

第 章 SPSS 基本统计量的描述

Lower Bound Upper Bound
Lower Bound Upper Bound
Statistic 2687.20 1930.02
3444.38
1692.35 900.00 3.3E+07 5737.566
3 50250 50247 2300.00 4.570 26.996 1944.97 98.41
实际频数与期望频数之差 期望频数的大小 列联表的单元格子数 样本量大小
2、卡方检验的校正
A. 自由度为1时,期望频数均大于5 :连续 性校正
B. 20%的单元格期望频数小于5:似然比卡 方检验
C. T<5 and n<40或 T<1时:确切概率法
3、行列变量的关联度分析
该关联度类似于参数检验中相关系数的含 义,取值多在(-1,1)区间
数据中若存在缺失值,使用有效百分比。
取款金额(定量数据)的分析
不显示频数分析表 统计 图表:直方图
不同户口(城镇、农村)的人群取款目的分析: 首先做数据拆分,再进行频数分析
收入水平
200
100
0 300元以下
收入水平
条图
300~800元
800~1500元
1500元以上
存(取)款金额
200
4、配对计数资料的卡方检验
例子:海尔公司的市场调查数据:对每个 消费者调查两个问题:1、是否购买过海尔 冰箱(是、否) ?2、是否购买过海尔洗衣机 (是、否) ?

SPSS统计分析第四章均值比较与T检验

SPSS统计分析第四章均值比较与T检验
Fema2 $le1 26 03$17.,9558. 0 $2 514. 258
左第一栏为分析变量标签和分类变量标签 N观测量数目 Mean均值 Std. Deviation标准差 Std. Error Mean标准误
独立样本T检验结果
Levene’s Test for Equality of Variances:方差齐性检 验结果。 F方差值119.669 Sig:P值为0
如果你试图比较的变量明显不是正态分布的,则应该 考虑使用一种非参数检验过程(Nonparametric test)。 如果想比较的变量是分类变量,应该使用Crosstabs 功能。
Use special values:按分组变量的值进行分组
Cut point:当分组变量为连续变量时,选择该选项后,在后 面的矩形框中输入一个连续变量值,将观测量分为大于该值 和小于该值的两个组,检验在这两个组之间进行,比较其因 变量在两组的均数间是否有显著性差异。
F值的计算公式是:F=S12(较大)/S22(较小)
进行均值比较及检验的过程
MEANห้องสมุดไป่ตู้ 过程 T test 过程
单一样本T检验 独立样本的T检验 配对样本的T检验 单因素方差分析
一、MEANS过程
MEANS过程计算指定变量的综合描述统计 量。当观测量按一个分类变量分组时, MEANS过程可以进行分组计算。例如要计算 学生的平均身高,SEX变量把学生按性别分 为男、女生两组,MEANS过程可以分别计算 男、女生平均身高。用于形成分组的变量应 该是其值数量少且能明确表明其特征的变量。

上机实验四基础统计分析

上机实验四基础统计分析

上机实验四基础统计分析

一、实验目的

通过本次实验,了解各类基本统计分析的作用,掌握如何进行基本的统计分析。

二、实验性质

必修,基础层次

三、主要仪器及试材

计算机及SPSS软件

四、实验内容

1.频次分析

2.描述性统计分析

3.探索分析

五、实验学时

4学时

六、实验方法与步骤

1.开机;

2.找到SPSS的快捷按纽或在程序中找到SPSS,打开SPSS;

3.打开一个已经存在的数据文件;

4.按要求完成上机作业;

5. 关闭SPSS,关机。

七、实验注意事项

1.实验中不轻易改动SPSS的参数设置,以免引起系统运行问题。

2.遇到各种难以处理的问题,请询问指导老师。

3.为保证计算机的安全,上机过程中非经指导老师和实验室管理人员

同意,禁止使用软盘与移动硬盘。

4.每次上机,个人应按规定要求使用同一计算机,如因故障需更换,

应报指导老师或实验室管理人员同意。

5.上机时间,禁止使用计算机从事与课程无关的工作。

八、上机作业

1、以实验3中保存的“数据8.sav”为例,要求用基本统计分析完成

以下任务:

(1)求出性别、工资等级的频次分布表,性别的众数、工资等级的中位数,并用工资等级做条形图。

(2)求工资的均值、最大值、最小值、标准差、四分位数、十分位数,并用工资做带正态曲线的直方图。

(3)分性别求工资的标准分。

(4)求工资的峰度、偏度,对照带正态曲线的直方图理解结果。

*(5)对工资进行探索性分析。(自学)

2、试以spss自带的某一个数据文件(建议使用1991U.S.General

Social Survey数据)为例进行分析,了解数据分布的基本特征,发掘其中的规律,完成实验报告一。

薛薇-《SPSS统计分析方法及应用》第4章--基本统计分析

薛薇-《SPSS统计分析方法及应用》第4章--基本统计分析

包括:
✓【 】:频数分析过程,特色是产生频数表(主 要针对分类变量)
✓【 】:数据描述过程,进行一般性的统计描述 (主要针对数值型变量)
✓【 】:数据探察过程,用于对数据概况不清时 的探索性分析
✓【 析)
】:多维频数分布交叉表分析(列联表分
✓【 】:比率分析
4
4.1 频数分析
1、目的:通过频数分析能够了解变量取值的状况,对 把握数据的分布特征是非常有用的。
15
4.1 频数分析
利用商品房购买意向的调查数据进行频数分析,有 以下两个分析目标: 目标一:分析被调查者的户籍状况以及他们认为房
价的变化状况。 目标二:分析月住房开销的分布,并对不同居住类
型进行比较。
16
4.2 计算基本描述统计量 常见的基本描述统计量有三大类:
刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量
SPSS统计分析方法及应用 第四章
2020/2/16
本章重点
➢编制交叉列联表 ➢行列变量之间的关系
2020/2/16
描述性统计分析

的第一步,做好这
第一步是下面进行正确统计推断的先决条件。
SPSS的许多模块均可完成描述性分析,但专门
为该目的而设计的几个模块则集中在【
】菜单中,包括:
2020/2/16
17

第四章SPSS描述统计分析

第四章SPSS描述统计分析

通过【分析】【描述统计】菜单中的过程来 完成描述统计分析。描述统计分析( Descriptive Statistics)包括子菜单:【 频率】、【描述】、【探索】 、【交叉表】
、【PP图】等 。Baidu Nhomakorabea
【交叉表】涉及到卡方检验、品质相关检验 等,本书将交叉表分析及其检验分析方法作 为第五章进行讲述。
4.1 频数分析
P-P图还可检验的很多分布:对数正态分布、t分布 、均匀分布、帕累托分布等等。
在选择某一分布时,“自由度”的复选框变亮:在 该文本框中输入正整数,表示所选分布的自由度。
在分布参数栏:在该栏中可输入所选分布类型的 参数,选择的分布不同,参数输入窗口也不同。“ 根据数据估算”:为系统默认选项。选择此项,系 统将自动从数据中推测数据分布的参数,否则就要 在该选项下方的参数框中根据需要自行指定。
第7步:结果分析。 第一个统计表:个案处理摘要(略) 第二个统计表:描述统计表。
在该表中,分男 、女分别输出各 种统计量。通过 此表,能较全面 地反映数据的集 中趋势、离散趋 势。
第三个统计表:M-估计
相应统计知识还没学,不管它。
第四个统计表:输出百分位数。
有两种计算方式:加权平均、图基枢纽。计算的 百分位数能较好分析数据的百分位参照点。
第十章 信度和效度分析 第十一章 非参数检验 第十二章 多选变量分析 第十三章 SPSS应用案例——问卷调查分析 第十四章 SPSS应用案例——测验质量分析 第十五章 探索性因子分析及案例应用 第十六章 基本统计图表的制作 第十七章 SPSS应用分析归纳小结

SPSS基本统计分析

SPSS基本统计分析

SPSS基本统计分析

SPSS(Statistical Package for the Social Sciences)是一种常

用的统计分析软件,广泛应用于社会科学研究、市场调研、医学研究等领域。SPSS提供了各种统计分析方法和工具,既可以进行描述性统计分析,也可以进行推断性统计分析。

在SPSS中进行基本统计分析需要以下步骤:

1. 导入数据:首先需要将数据导入SPSS软件中,可以选择从Excel

等格式导入数据,也可以直接在SPSS中输入数据。

2.描述性统计:描述性统计是对数据的基本特征进行总结和分析,包

括均值、中位数、最大值、最小值等。可以使用频数统计、描述性统计和

十分位数查看数据的分布情况。

3.数据清理:对数据进行清洗,去除异常值、缺失值等。可以使用

“变量查看”功能查看数据是否有问题。

4. 正态性检验:正态性检验用于检验数据是否服从正态分布。可以

使用直方图、正态Q-Q图、Kolmogorov-Smirnov检验等方法进行判断。

5.相关性分析:相关性分析用于评估两个或多个变量之间的关系强度

和方向。可以使用皮尔逊相关系数、斯皮尔曼相关系数等进行分析。

6.单样本t检验:单样本t检验用于比较样本的均值和理论上预期的

均值是否有显著差异。可以使用单样本t检验来评估样本均值与已知值之

间的差异。

7.独立样本t检验:独立样本t检验用于比较两组独立样本均值是否

有显著差异。可以根据比较对象的特征选择相应的统计方法。

8.配对样本t检验:配对样本t检验用于比较两个相关样本的均值是

否有显著差异。可以根据样本之间的关系选择相应的统计方法。

第四章 SPSS的基本统计分析

第四章 SPSS的基本统计分析

计算描述统计量
描述集中趋势的统计量
– 均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。 适用于定距数据。 特点:利用了全部数据,易受极端值的影响。
描述离散程度的统计量
– 标准差(standard deviation--Std Dev):表示某变量的所有变量值离散程度的 统计量。 SPSS中计算的是样本标准差。
(2)选择一个变量作为行变量到row框. (3)选择一个变量作为列变量到column框. (4)可选一个或多个变量作为控制变量到layer框.
– 控制变量的层次设置:同层为水平数加;不同层为水平数积.
(5)是否显示各分组的棒图(display clustered bar charts )
产生交叉列联表
•统计量服从(r-1)*(c-1)个
优 良 中 及格 总数
自由度的卡方分布
•count:观察(实际)频数 男 10 5
5
3
23
•expected count:期望频数
(期望频数反映的是H0成立情 女 8
12 4
1
25
况下的数据分布特征)
•Residual:剩余
总数 18 17 9
4
48
(观察频数-期望频数)
多选项分析
多选项频数分析
– 菜单选项:analyze->multiple response->frequencies

spss基本统计分析

spss基本统计分析

h 箱式图和误差图
箱式图用于显示数据的分布,误差图显示置信 箱式图用于显示数据的分布 误差图显示置信 区间、标准差,显示数据所来自的总体, 区间、标准差,显示数据所来自的总体,从而 估计其离散度。 估计其离散度。
i 高低图和 高低图和ROC图 图
图常用于研究股票、商品、 高低图常用于研究股票、商品、货币及其他 市场数据每周、每日甚至每时的变化, 市场数据每周、每日甚至每时的变化,既能图 示数据长期变动的趋势,又能知道短期的变化。 示数据长期变动的趋势,又能知道短期的变化。 ROC曲线一般用于比较两种诊断性试验的效果, 曲线一般用于比较两种诊断性试验的效果, 曲线一般用于比较两种诊断性试验的效果 并判断这些试验的合适的分界点, 并判断这些试验的合适的分界点,自变量是连 续性变量,因变量是两分类变量。 续性变量,因变量是两分类变量。
依次连接各点, 依次连接各点, 即可得分布折线图。 即可得分布折线图。
0.70
? 0.60
0.50
0.40
0.30
0.40
0.60
0.80
1.00
1.20
1.40
1.60
n
f P-P图和 图和Q-Q图 图和 图
直方图和茎叶图是评估数据分布的常用图形, 直方图和茎叶图是评估数据分布的常用图形 P-P 图和Q-Q图是直观表示数据分布是否正态。 图是直观表示数据分布是否正态。 图和 图是直观表示数据分布是否正态 P-P图是根据变量的累积概率对应于所指定的理论 图是根据变量的累积概率对应于所指定的理论 分布累积概率绘制的散点图;Q-Q图是根据变量数据 图是根据变量数据 分布累积概率绘制的散点图 分布的分位数与所指定分布分位数之间的曲线来进行 检验。 检验。

第4章:SPSS的统计分析

第4章:SPSS的统计分析

4.3.4 交叉分组下的频数分析应用举例
案例: 案例: 利用“住房状况.sav”,分析本市户口和外地户口家庭对“ 未来三年是否买房”是否持相同的态度。 分析: 分析: 本案例可以利用交叉分组下的频数分析来实现。列联表的 行变量为“户口状况”,列变量为“未来三年”,在列联表中 输出各种百分比、期望频数、剩余、标准化剩余。同时,显示 各交叉分组下的频数分布条形图,并利用卡方检验方法,对本 市户口和外地户口家庭对该问题的态度是否一致进行检验。
第二步, 第二步,计算检验统计量 列联表分析的卡方检验统计量是Pearson卡方统计量。 第三步,确定显著性水平( level) 第三步,确定显著性水平(significant level)和临界值 显著性水平a是指原假设为真却将其解决的风险,即弃真的 概率。通常设为0.05或0.01,在卡方检验中,由于卡方统计量 服从一个“(行数-1)×(列数-1)”个自由度的卡方分布, 因此,在行列数目和显著性水平a确定时,卡方临界值是唯一 的。 第四步, 第四步,结论和决策 对统计做决策通常有以下两种方式:
4.2.2 计算基本描述统计量的应用举例
案例一: 案例一: 利用“住房状况.sav”,对人均住房面积计算基本描述统 计量,并分别对本市户口和外地户口家庭进行比较。 分析: 分析: 由于进行本市户口和外地户口家庭进行比较,因此应首 先对数据进行拆分(split file),然后计算人均住房面积的基本 描述统计量。 操作: 操作: 数据拆分: 数据拆分:【数据(data)】【spilt file(拆分个案)】 计算描述统计: 计算描述统计:【分析(analyze)】 【描述统计(descriptive statistics)】 【描述(descriptives)】
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
行列变量相关性的其他测度指标 n Nominal(定类变量): phi系数:在2×2列联表中 ,通常[-1,1],负号 无实际意义 列联C系数(contingency coefficient), 通常 n 为[0,1) V V系数 [0,1] n min[( r 1), (c 1)] 值越大表示行列变量的相关性越大
1 - 24
优 男 女 总数 10 8 18 37.5

2
( fo f e ) fe
中 5 4 9 18.8
2
良 5 12 17 35.4
及格 3 1 4 8.3
总数 23 25 48 100
分析列联表中变量间的关系
卡方检验基本步骤
(3)计算卡方统计量的值,并得到该统计量值的概率P 值 (4)决策。概率P与显著性水平比较,小于等于则拒绝 H0,否则不能拒绝 statistics选项 Pearson Chi-Square:常用于行列变量独立性检验 Likelihood Ratio:可用于对数线性模型检验 Fisher‘s Exact Test:N<40,或Fe<5 Linear-by-Linear Association:线性相关卡方检验
1 - 23
分析列联表中变量间的关系
•卡方检验基本步骤
(1)H0:行列变量之间无关联 或相互独立 (2)构造卡方统计量 •统计量服从(r-1)*(c-1) 个自由度的卡方分布 •count:观察(实际)频数 •expected count:期望频 数
(期望频数反映的是H0成立 情况下的数据分布特征)
采用的方法
制作频数分布表:包括计算 频数、累计频数、 百分比、累计百分比 绘制统计图形:条形图(品质数据)、饼图、 直方图(数量数据)

1-3
频数分析
基本操作步骤
(1)菜单选项:Analyze->Descriptive Statistics->Frequencies (2)选择几个待分析的变量到variables框. (3)chart选项,选择所需要的图形 例:班级男女生频数分布表、成绩分布表
2 2
2
C
2
1 - 27
分析列联表中变量间的关系
Ordinal(定序变量)



反映定序变量一致性指标 行变量等级越高,列变量等级也越高或越低 ——一致性高 行变量等级越高,列变量等级不定——不一 致 指标绝对值越大越相关,越接近0越无关
1 - 28
定序变量一致性检验
年龄与工资收入交叉列联表 低 青 400 一致 中 0 老 0
购买流行服装
交叉分组下的频数分析
针对定类数据和定序数据的频数分析(用于定类 定序数据分析有custom table\logistic\loglinear) 目的:通过了解不同变量在不同水平下的数据 分布情况 ,判断水平对变量是否有影响
例:女生的学习成绩比男生好吗?(两变量) 不同专业的女生学习成绩都比男生好吗? (三变量)
n 3
3
计算描述统计量
描述陡峭程度的统计量

峰度(kurtosis):描述某变量所有变量值 分布形态陡缓程度的统计量。
峭度为0表示与正态分布峭度相同。 大于0表示比正态分布陡,尖峰。 小于0表示比正态分布缓;平峰。
Kurtosis
1 - 12
1 n -1
i 1 ( xi x) / SD 3
1-7
频数分析
• 频数分析中的其他分析
• 分位数的应用
• 从一个侧面比较两组样本数据的集中趋势
– 例:( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
• 在排除极端值影响的条件下,通过计算分位数差,比 较两组样本数据的离散程度
– 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
数据标准化处理应用举例
快速找到移动话费出众的客户 网通集团企业效益评价

1 - 15
探索性描述分析
目的:在未知数据分布特点情况下,通过计算详尽描述统计量, 辅助全面的统计图,认识数据分布。 基本操作步骤 (1)菜单选项:analyze->descriptive statistics->Explore (2)选择将参加计算的数值型变量名到Dependent list框 (3)进行分组描述分析时,将分组变量选入Fact list框 描述统计量: M统计量:集中趋势的估计值,不受极端值影响。用于判断 有无异常值。
1 - 16
探索性描述分析
相关图形

箱线图 茎叶图 直方图 正态分布图:检验变量是否符合正态分布 方差齐性检验:各组离散程度是否相同

H0:方差相等
举例:两班学生成绩分布情况,离散程度 是否相同。
1 - 17
购买数量 多 少 列总计 个案数
全部样本 37.3% 62.7% 100% 1000
购买数量 多 少 列总计 个案数
已婚者 31% 69% 100% 700
单身者 52% 48% 100% 300
男性 女性 购买数量 已婚者 单身者 已婚者 单身者 多 35% 40% 25% 60% 少 列总计 个案数 65% 100% 400 60% 100% 120 75% 100% 300 40% 100% 180
1 - 32
多选项分析
多选项二分法
将每个答案作为一个变量,每个变量只有两个取值 (0或1)。 例如:
变量名 X1 X2 X3 X4 X5 X6 变量名标签 北京大学 清华大学 人民大学 北京理工大学 北京师范大学 北京外国语大学 编 码 方案 0 1 0 0 0 0 0 1 1 1 1 1
1-4
频数分析
• 应用举例
移动通话的漫游类型分析 特点:定类数据 使用频数、百分比、总数(不可缺少的) 不使用频数表中给出的累计频数和累计百分比 移动通话时间分析、移动客户话费分析 特点:定序数据、数量数据 除使用频数、百分比、总数外,还可以充分使 用累计频数和累计百分比
1-5
频数分析
• 数据中存在缺失值 • 使用有效百分比(分母为有效样本数) • 例:学生成绩得优率、得良率 Frequencies->Format 频数分布表输出按变量值、频数升序、降 序输出
1-6
频数分析
• 频数分析中的其他分析
• 计算中位数、分位数:适用于定序、定距数据 – 数据按升序排序后,找到若干个分位点上的变 量值 – quartiles:计算四分位数25%(QL)、50%(中位数)、 75%(QU) – cut points for n equal groups: n等份 – percentile: 自定义百分位点 • 计算众数:适用于定类数据(但必须是数值型)
进一步计算

cells选项:选择在频数分析表中输出各种百 分比. row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);
1 - 22
分析列联表中变量间的关系 目的:
通过列联表分析,检验行列变量之 间是否独立。
方法:

卡方检验:对品质数据的相关性进 行度量(这里两变量均为定类数据 或定序数据)

实现步骤
1 - 25
卡方检验的要求:



一般要求列联表中期望频数小于5的格子数 不超过20%,否则会夸大卡方值,容易得wenku.baidu.com出拒绝结论,可以采用精确检验。 N>=40, T>=5, Pearson卡方检验,若 P≈α ,改用确切概率法检验 N<40,或T<5, 确切概率法检验
1 - 26
分析列联表中变量间的关系
n 4 4
计算描述统计量
其他统计量

均值标准误差(S.E means)
中心极限定理认为:样本均值~N(u,2/n) 反映样本均值与总体真值间的平均离散
程度 样本数越大,样本均值的离散程度越小 ,对真值的估计越准确
1 - 13
计算描述统计量
基本操作步骤
(1)菜单选项:Analyze->Descriptive Statistics ->Descripive (2)选择将参加计算的数值型变量名到Variables框。 ——仅适用于数值型变量

分析的主要步骤

产生交叉列联表 分析列联表中变量间的关系
1 - 19
产生交叉列联表
•什么是列联表 多个变量在不同取值下的数据分布频数表
控制变量 列变量
行变量
工商管理
性别 优
成绩 良

频数
男 女
1 - 20
产生交叉列联表
基本操作步骤 (1)菜单选项: analyze->descriptive statistics> crosstabs
中 0 500 0
高 0 0 600
一致
1 - 29
青 中 老
低 0 0 400
中 0 600 0
高 500 0 0
应用举例
受教育程度越高通信支出越高吗? 受教育程度越高通信支出比例越高吗?
1 - 30
多选项分析
什么是多选项问题?
(1)即:在回答某些问题时,答案在两个以上 例如:请问您平时主要的休闲娱乐方式是: a.看电视、听广播 b.玩游戏 c.体育运动 d.逛街购物e.经常去港澳游玩 f.看书学习 g.喝酒聊天 h.工作太忙,没时间休闲娱乐 又如:您经常浏览的网站?在下列品牌中您信任哪些 品牌? (2)多选项问题不能直接处理。因为SPSS中的一个变 量对每一个答案只能取一个值。
分析比较男生和女生的学习成绩
比较集中趋势 比较离散趋势 比较偏斜程度 比较陡峭程度 实现方式:数据拆分

1 - 14
计算描述统计量
其他功能
数据标准化处理

zi ( xi x) / SD
新变量的均值为0,标准差为1; 小于0表示在平均水平下,大于0反之. 正态分布的数据标准化后呈标准正态分布(68%, 95%,99%) save standardized values as variables选项 将变量作标准化后,结果存入名为“Z+原变量名” 的新变量中.
1 - 31
多选项分析
多选项问题的处理方法
(1)思路: 将一个问题定义成几个变量,用这几个变量 来描述该问题的几个可能被选择的答案。 分别做频数分析或交叉分组下的频数分析 (2)方法:


多选项二分法(multiple dichotomies method)和多选 项分类法(multiple category method) 普通频数分析和交叉分组下的频数分析
计算描述统计量
描述对称程度的统计量

偏度(skewness):描述某变量所有变量 值分布形态的偏斜程度和方向的统计 量.
偏度为0表示对称;
大于0表示正偏差大(右偏),众数比均值小,
极值大于均值; 小于0表示负偏差大(左偏)。
Skewness
1 - 11
1 n -1
i 1 ( xi x) / SD
(2)选择一个变量作为行变量到row框. (3)选择一个变量作为列变量到column框. (4)可选一个或多个变量作为控制变量到layer框. (5)是否显示各分组的条图(display clustered bar charts )
1 - 21
产生交叉列联表 scale数据可做适当分组后再产生列联表 仅利用频数,信息利用不充分
第四章 SPSS的基本统计分析
1-1
SPSS的基本统计分析
频数分析-对应图表法 计算描述统计量-对应数值法 探索性描述分析-结合 交叉分组下的频数分析
多选项分析
统计图-对应图形法
1-2
频数分析
目的
粗略把握变量的总体分布状况。
例: 对某个问题的总体看法,如新业务的使用愿望、教学效 果等 对某事物的客观描述,如通话的漫游类型、大客户的行 业分布
分位数、中位数、众数的应用举例
不同类型的移动客户月话费比较(数据拆分) 利用分位数(不显示频数分布表),比较男女生成绩 集中程度
1-8
计算描述统计量
目的

精确把握变量的总体分布状况,了解 数据的集中趋势、离散趋势、对称程 度、陡峭程度。
基本方法

计算基本描述统计量
1-9
计算描述统计量
描述集中趋势的统计量 均值(mean):表示某变量所有变量值集中趋势或平均水平 的统计量。 适用于定距定比数据。 特点:利用了全部数据,易受极端值的影响。 描述离散程度的统计量 标准差(standard deviation--Std Dev):表示某变量的所有 变量值离散趋势的统计量。 SPSS中计算的是样本标准差。 方差(variance):标准差的平方。 SPSS中计算的是样本方差。 极差 (range):最大值(minimum)-最小值(minimum) 1 - 10
相关文档
最新文档