第4章-SPSS基本统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算分位数。分位数从一个侧面刻画了变量的取 值分布形态。分位数差可描述离散程度。适用于 定序、定距数据。 – 数据按升序排序后,找到若干个分位点上的 变量值 – quartiles:计算四分位数25%(QL)、50%(中 位数)、75%(QU) – cut points for n equal groups: n等份 – percentile: 自定义百分位点 计算其他基本描述统计量。描述集中趋势、离散 程度、分布形态的统计量。
在计算百分位数值和中位数 频数分析表 时,假设数据已分组,且用 各组的组中值代替各组数据
集 中 趋 势 栏
分布形态栏 离散趋 势栏 输出统计量对话框
频数分析
• 频数分析中的其他分析
• 分位数的应用
• 从一个侧面刻画了变量的取值分布状况
– 例:( QL=50,QU=75)
• 在排除极端值影响的条件下,通过计算分位数差, 比较两组样本数据的离散程度
案例

利用“大学生职业生涯规划数据”进行 以下分析:
1. 计算专业和职业认知得分的基本描述统计
量,并比较男女生的得分差异; 2. 分析是否存在专业和职业认知得分的异常 值。

应用举例
基本描述统计
以“居民储蓄调查数据”为例,对一次存(取)款金 额。有两个分析目标: 目标一:计算存(取)款金额的基本描述统计量,并对 城镇储户和农村储户进行比较 (数据拆分)
20 15 10
SK 0
右(正)偏态
5
0
152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175
Mo Me
x
20 18 16 14 12 10 8 6 4 2 0

合 计
频数分析表

频数分析的任务: 编制频数分布表
用宽度相同的条形的高度或长短来表示频数分布变化的图 如果有缺省值,那 – 各组的名称 形。使用于定序和定类变量的分析 么有效百分比能更 – 频数(Frequency) 加准确地反映取值 用圆形及圆内扇形的面积来表示频数百分比变化的图形。 – 百分比(Percent) 分布状况
控制频数表输出的分 类数量。默认为10 Format 对话框
案例

利用“大学生职业生涯规划数据”,进 行以下分析
1. 分析被调查者的专业分布状况,以及学生
对职业规划相关知识的了解程度; 2. 分析专业和职业认知得分的分布,并比较 男女生的得分差异。

应用举例
频数分析表
以“居民储蓄调查数据”为例,进行频数分析。有 两个分析目标: 目标一:分析储户的户口和职业的基本情况。 目标二:分析储户一次存(取)款金额的分布,并对城 镇储户和农村储户进行比较
– 有效百分比(Valid Percent) 用矩形的面积来表示频数变化的图形。使用于定距型变量 的分析。 – 累计百分比(Cumulative Percent)
绘制统计图
– 柱形图或条形图(Bar Chart)
– 饼图( Pie Chart )
– 直方图(Histograms)
频数分析中的扩展功能:
– 例: ( QL=50,QU=75) 和 (QL=70,QU=75) 的比较
分位数、中位数、众数的应用举例
不同类型的移动客户月话费比较(数据拆分) 利用分位数(不显示频数分布表)
频数分析表
不输出任何图形,为默认 输出柱形图或条形图,各条高度代表变量各分类的频数或百 分比。 输出饼图,各块的数值表示各分类变量的频数或百分比 输出直方图,此图仅适用于区间型数值变量。选择此项后, 还可选择With normal curve,画出的直方图带有正态曲线
SK 0
左(负)偏态
x
M M
152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 e 169o170 171 172 173 174 175
基本描述统计量

描述陡峭程度的统计量
– 峰度(kurtosis): 描述某变量取值分布形态陡缓程
目标一:分析储户的户口和职业的基本情况。
频数分析表
分析特点:
涉及的两个变量都是分类变量。
户口、职业
分析方法: 通过基本频数分析实现
频数分析表
目标二:分析储户一次存(取)款金额的分布, 并对城镇储户和农村储户进行比较. 分析特点: 1、 涉及的变量是定距型变量。 2、需要分别对城镇和农村户口的储户进行分析, 以便比较。 分析方法: 1、 对定距变量不能直接采用频数分析; 2、应对数据分组后,再编制频数分布表 分析方法: 1、 进行数据拆分; 2、利用四分位数等标志变异指标比较城镇和农 村储户的一次存款金额分布上的差异
第4章 SPSS基本统计分析
4.1 频数分析 4.2 计算基本描述统计量 4.3 交叉分组下的频数分析 4.4 多选项分析 4.5 比率分析

对数据的基本统计分析通常包括:
编制单个变量的频数分布表 计算单个变量的描述统计量以及不同分 组下的描述统计量 编制多变量的交叉频数分布表,并以此 分析变量之间的关系 数据的多选项分析 其他探索性分析
征。
– 通过频数分析,能够在一定程度上反映出样本是否
具有总体代表性,抽样是否存在系统偏差等,并以 此证明以后相关问题分析的代表性和可信性。
某班学生按性别分组 性别 人数(人)

女 合计
30
20 50
某班学生按性别和年龄分组(交叉式复合分组)

性别 20以下 男 女 合计 1 3 4 20-22 25 15 40 22以上 4 2 6 30 20 50
描述对称程度的统计量
偏度(skewness): 描述某变量所有变量值分布形态的偏斜程 度和方向的统计量.

偏度为0表示对称; 大于0表示正偏差大,称为正偏或右偏,众数小于均值;
小于0表示负偏差大,称为负偏或左偏,众数大于均值。
偏度的绝对值越大,表示数据分布形态的偏斜程度越大。
n 1 3 3 Skewness ( x x ) S i i 1 n-1
目标二:分析储户一次存(取)款的数量是否存在不均 衡现象。
目标二
基本描述统计
分析储户一次存(取)款的数量是否存在不均衡现象, 可以从分析金额是否有大量异常值入手。 实现方法: 数据标准化处理:
zi ( xi x) / S
标准化值:反映的是变量值与变量均值的差是几个标
准差单位
新变量的均值为0,标准差为1; 小于0表示在平均水平下,大于0反之.
Descriptive 对话框
基本统计量 分布
当Variables框中有多个变量 时,此框确定其输出顺序: 按Variables框中的排列顺 序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列
Options 对话框
基本描述统计
结果分析
– 对标准化的数据分析

分为三组(低金额组≤-3, 中金额组(3,3) , 高金额≥3) 异常组的总比例大于理论值0.3%,则存在一定的不均衡现 象
2016/12/25
21
基本描述统计量
描述离散程度的统计量
离散程度:指一组数据远离“中心值”的程度。 即考查所有数据相对于“中心值”分布的疏密程度。 如果数据都紧密地集中在“中心值”的周围,数 据的离散程度较小,则说明“中心值”对数据的 代表性就好; 如果数据比较松散地分布在“中心值”的周围, 数据的离散程度较大,则 “中心值”说明数据特 征是不具有代表性的。
输出百分位数: 输出四分位数,显示 25%、50%、75%的百分 位数; 将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则输 出第25、50、75百分位数 自定义百分位数,可输 入0—100 的整数。输入值 后按Add添加百分位数, 可反复操作键入多个百分 位数; 按Remove:删除已键入 的数值 按Change:重新输入新数
样本数越大,样本均值的离散程度越小,对真 值的估计越准确
计算描述统计量的基本操作
(1)菜单选项: [Analyze]→[Descriptive statistics]→ [Descripive] (2)选择将参加计算的数值型变量名到Variables框。 ——仅适用于数值型变量 (3) 单击Options 按钮指定计算哪些基本描述统计量
度的统计量。

峰度为0表示与正态分布峭度相同。 大于0表示比正态分布陡,为尖峰分布。

小于0表示比正态分布缓,为平峰分布。
1 n 4 4 Kurtosis ( x x ) / S 3 i i 1 n -1
尖顶峰度
正态分布
平顶分布
这里所说的 峰度高、低, 都是与标准 正态分布比 较而言的。
操作:
① ② ③

[analyze] →[descriptive statistics] → [frequencies]。 选择待分析的变量到[variable(s)]框。 按Chart按钮,选择所需要绘制的图形。 在[Chart Values]框中选择柱形图纵坐标 或条形图横坐标的含义。 按Format按钮,调整频数分布表中数据 的输出顺序:按变量值的升(降)序排 列,按频数的升(降)序排列。

save standardized values as variables 选项将变量 作标准化后,结果存入名为“Z+原变量名”的新变量中.
如选中此框,将对 Variables框中选择的 变量进行标准化产 生相应的Z分值,并 作为新变量保存到 数据窗口,其变量 名在原变量名前加z。
选一个或 多个变量 移入
只有选择了条形图和饼图项 才有效,决定纵轴表示的统 计量 纵轴或横轴表示频数 纵轴或横轴表示百分比
Chart 对话框
频数分析表
设置频数表输出的格式 选择频数表中排 列顺序 按变量值升序 排列,此为默认 按变量值降序 排列 按变量各种取 值发生的频数的 升序排列 按变量各种取 值发生的频数的 降序排列 多变量框中可设定多 变量表格输出的格式
据的集中趋势、离散趋势、对称程度、 陡峭程度。
基本方法
– 计算基本描述统计量
基本描述统计量
描述集中趋势的统计量
均值ห้องสมุดไป่ตู้mean):
表示某变量所有变量值集中趋势或平均水平的统计量。 适用于定距数据。利用了全部数据,易受极端值影响。

中位数(Median)
排序后处于中间位置的那个变量值。 不适用于定类数据。

采用两种方式实现上述分析:
第一,数值计算,即计算常见的基本统计量的 值,通过数值来准确反映数据的基本统计特征
第二,图形绘制,通过图形来直观展示数据的分
布特点
4.1 频数分析表

目的
– 频数分析:对数据按组进行归类整理,形成变量不
同水平的频数分布表和图形,对数据的分布趋势进 行初步分析。
– 通过频数分析,了解变量取值的状况,把握分布特
基本描述统计量
标准差(standard deviation--Std Dev):
表示某变量的所有变量值离散趋势的统计量。

SPSS中计算的是样本标准差。
方差(variance): 标准差的平方。

SPSS中计算的是样本方差。
极差 (range):
最大值(maximum)-最小值(minimum)
基本描述统计量
离散形态的概念
非对称的, 偏斜的分 布
既偏斜又 低平的分 布
异常值的检测
99.73% 95.45%
68.27%
3 2
2016/12/25


2 3
29
基本描述统计量
其他统计量
– 均值标准误差(S.E means)


中心极限定理认为:样本均值~N(u,2/n)
反映样本均值与总体真值间的平均离散程度

众数
一个统计总体或分布数列中出现的频数最多、频率最 高的变量值。 既适用于定距数据,也适用于定序和定类数据。

注意:对于定距数据
一般情况下都采用均值; 当数据中存在着较大的误差或者有一些极端数
值的话,就要使用中位数; 当变量的次数分布的偏斜程度十分严重时,就 应该使用众数来说明总体的一般水平。
按Statistics 按钮,打 频数分析表 开Statistics对话框
Frequences主对话框
选择一个或 多个变量右 移入Variable (s)框。 显示频数 分布表
按Chart按钮,打开 Chart 对话框
按Format按钮, 打开Format 对 话框
4.2 计算描述统计量
目的 – 精确把握变量的总体分布状况,了解数
相关文档
最新文档