第三章 单变量描述统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3
主对话框
显示频数 分布表
4百度文库
计算基本统计量 Statistics…
集中趋 势指标
四分位数 每隔指定 百分位数 直接指定某 个百分位数
百分位数
采用组中 值计算 离散趋 势指标 分布形态 指标
5
绘制统计图 Charts…
条形图 饼状图 针对 Bar/Pie Charts 而言,纵 轴表示的 数值 带正态曲线 的直方图
12
Z
x

标准化Z分数问题


标准化Z分数问题:通过标准化过程可得到一系列新变量值, 通常称为标准化值或Z分数。 标准化过程: Z xi x
i
s


标准化变量的作用:可以发现变量中的极大值和极小值, 以便发现分布是否均衡的问题。 描述统计分析的结果指标与频数分析过程基本相同,区别 在于:Descriptive只计算几个主要的描述指标,不同时输 出频数分布图表。
频数
频率
6
频数分布表输出格式 Format…
当选择两个以上变量作频数表 时,C可以将结果输出在同一 频数表过程的output;O可以 按变量值 将结果输出在不同的output。
按频数
当频数表的分组数大于下面 指定数值时禁止它在结果中 输出,这样可以避免产生巨 型表格。
7
这里是定类变量, 计算累计百分比 是无意义的
20
交叉列联表行列变量间关系的分析
工资收入 低 中 400 0 0 500 0 0 工资收入 低 中 0 0 0 600 400 0
年 龄 段

青 中 老
高 0 0 600
年 龄 段
青 中 老
高 500 0 0

所有观测频数都出现在主对角线上,则两变量存在 正相关。 所有观测频数都出现在负对角线上,则两变量存在 负相关。
按 变 量 值 升 序 排 列
8
9
年龄
10
8
6
4
Frequency
2
Std. Dev = 1.24 Mean = 18.91 N = 50.00 16.50 17.00 17.50 18.00 18.50 19.00 19.50 20.00 20.50 21.00 21.50
0
年龄
10
4.2 计算描述统计量 Descriptive
31


三,总频数n应较大,一般至少大于50,大于100更 好。在小样本是可主要参考连续性校正和Fisher的 精确检验。 四、卡方值的大小会受到样本量的影响,若各个单 元格中的样本数均等比例扩大10倍,于是卡方值也 会随之扩大10倍。但由于自由度和显著水平没有改 变,卡方的临界值不变,进而使拒绝零假设的可能 性增高。即在样本量很大时,容易得到“两变量有 关联”的结论,即便两变量的关联性很微弱时。


Kendall’s Tau-b系数适用于n×n的列联表。
Kendall’s Tau-c系数适用于任意列联表。
38

Gamma系数适用于2×2的列联表。
39



适用于两定距或两定序变量的方法: 检验的统计量有Pearson相关系数(参数方法)和 Spearson相关系数(非参数方法)。他们的取值在 -1~1之间,绝对值越大,相关性越强,且是表明 线性相关性越强。 由于列联表分析中,定距型变量通常不作为行列变 量,因此在交叉列联表的分析中该选项基本不用。 在相关性分析的模块中提供了相应的使用。
推断统计学
统计学
描述统计学
常用分析指标:算术平均数、 调和平均数、几何平均数;众 数、中位数、分位数等 集中趋势分析 离散程度分析 常用分析指标:全距、内距、 平均差、方差、标准差等; 刻画分布形态
11
偏度与峰度




分布形态主要是指数据分布是否对称,偏斜程度如何,分布 陡缓程度如何。 偏度(Skewness):反映数据分布对称性的统计量。 当数据为对称分布时偏度为零;当数据为正偏态分布(右偏) 时偏度大于零;当数据为负偏态分布(左偏)时偏度小于零。 峰度(Kurtosis):以标准正态分布为标准描述该分布密 度的形状为陡缓程度的统计量。 当数据为标准正态分布时,峰度为零;数据分布为尖峰分布 时峰度大于零;数据分布为平峰分布时峰度小于零。
29
1Pearson卡方检验 2连续性校正 3似然比卡方检验 4Fish精确检验 5线性相关卡方检验
30
卡方检验注意事项


一,列联表的单元格不应太少,例如2×2的列联表 需要进行连续型修正和采用Fisher精确检验进行校 对。 二,各单元格中的期望频数,不应有期望频数小于 1的单元格,或大量的期望频数小于5的单元格。若 列联表中有20%以上的单元格的期望频数小于5, 则一般不宜用卡方检验。此时,可以合并采用合并 相邻单元格或采用似然率比卡方检验。
第四章 基本统计分析
频数分析 描述统计 过程
互联表统 比率分析 计分析 探索性统 计过程
2
4.1 频数分析 Frequencies



频数分析的基本任务:编制频数分布表和绘制统计 图。 频数分析的扩展功能:计算分位数和计算其它基本 的描述统计量(包括:集中趋势、离散程度、分布 形态) 注意:这里计算基本统计量的功能在Descriptive也 可以实现。故不作重点讲解。
32

五、当行列变量都是定序型变量,可以参考线性相 关卡方检验,该检验是检验两个定序的行列变量间 是否具有线性相关性。
33
度量变量间相关程度的统计量



除上述卡方检验法之外,SPSS还提供了其他度量 变量间相关关系的检验方法,帮助人们了解变量间 相互依赖的强弱程度,量化交叉分类变量间的关系。 四大类相关分析的检验方法。判断方法:系数的绝对 值越接近于1,则变量的相关性越强;越接近于0, 则变量间相互独立。正负号代表相关方向。 变量的类型大致分为:定类、定序、定距。当定序 变量的类别数较多时,可以近似将定序视为定距, 常规上变量类型在使用上只允许降级使用,不许用 升级使用。
集中系数
45
4.4 多选项分析



多选项分析主要是针对问卷调查的多选项问题的。 本节主要讨论多选项问题结果的保存(多选项问题的 分解),以及多选项问题的频数分析。 多选项问题分解的两种办法:第一,多选项二分法; 第二,多选项分类法。 频数分析的两步骤:第一,定义多选项变量集;第 二,作多选项频数分析或交叉分组下的频数分析。
13
主对话框
选择统计量
对当前变量的数据进行标准化, 产生的新变量名为原变量名前加 “Z”,并显示在最后一列。
14
15
16
重抽样自举法(Bootstrap,拔靴法) 所谓的自举法就是利用有限的样本资料经由多次重复 抽样,重新建立起足以代表母体样本分布之新样本。 设一个样本具有变量y1,y2,y3,…,yn,用某种方法 得到其对总体参数a的估计值.则在抽样时,每一轮 都要从这n个变量中抽取一个容量也是n的随机样本, 并保证每一变量在每轮每次抽样中的被抽取概率都是 1/n(相当于经典方法的复置抽样)。
18
由这n个“新”变量组成的样本则称为自举样 (bootstrap sample)。当对原始样本变量重复进行m轮 自举抽样,就得到m个容量均为n的自举样本。再对 每一样本都按照在原始样本中所用的方法求出参数a 的估计值,会得到关于参数的m个估计值,这些估计 值的方差称为自举方差。 重抽样自举法的意义:自举方差是对估计量抽样方 差较好近似。
指定哪种方法分析 指定列联表单元 指定列联表单元 行列变量间的关系 格中的输出内容 的输出排列顺序
不输出列联表
23
Cells & Format
观测频数 期望频数 行百分比 列百分比 总百分比 非标准化残差 标准化残差 调节的标准化残差
24
列变量 层变量 行变量
25

注:未标准化残差定义为:观测频数-期望频数
40


适用于一定类变量、一定距变量的方法: 其相关性检验方法是Eta系数。该方法的核心思想 类似于单因素方差分析。它将定类变量作为“控制 变量”(Independent,解释变量),将定距变量 当作观测变量(Dependent,被解释变量)。然后 分析观测变量的变差中有多少比例是可以由控制变 量解释的。Eta系数的取值在0~1之间,越接近1, 表示两变量的相关性越强。
19
4.3 交叉分组下的频数分析 Crosstabs




统计中常常会探讨变量间的关系,如两变量间是否 有关联、进一步研究两变量间是否是因果关联。如 性别和大学专业的选择,学习兴趣和学习效果等等。 列联表分析的目的:分析多个变量不同取值下的分 布,掌握多变量的联合分布特征,进而分析变量之 间的相互影响和关系。 两大基本任务:一,产生两维或多维交叉列联表; 二,对两两变量间是否存在一定的相关性进行卡方 检验和其它相关性检验。 分析对象:两个或多个定类或定序的变量。
41
4.5 比率分析 Ratio


比率分析用于对两变量间变量值比率变化的描述分 析,适用于定距变量。当研究者特别关心该比率在 不同组间的变动情况是,该过程非常有用。 描述分析基本包括两大类:一类是集中趋势的描述 指标,另一类是离散程度描述指标。
42
相对比分子的变量
相对比分母的变量 分组变量 将数据按照分 组变量值排序
要求在结果窗口中输出分析结果 要求将分析结果存为外部数据
43
中位数 均数 加权均数 区间估计
用于描 述相比 值落入 某一区 间所占 的比例
平均绝对离差 离散系数 相关价格微分 基于中位数的变异系数 基于均数的变异系数
自定义具体区间的上、下界 自定义距离中位数的百分比
44
加权均数的算法为组内分子的均数除以分母的均数

17

实现方法:此过程一般可用随机数表或由计算机输 出n个0~1之间的随机数实现。即:先将样本变量 编码为1,2,⋯,n;然后取分组距离1/n将区间 [0,1]分成n个互斥的分隔:0~1/n,1/n~2/n, 2/n~3/n,...,(n-1)/n;出现的随机数,凡在 0≤R<1/n之间的取编码“1”变量,凡在1/n≤R<2/n 之间的取编码“2”变量,⋯,凡在(n-1)/n ≤R<1 之间的取编码“n”变量,这就称为自举抽样,
2
i 1 j 1 r c
( f ij0 f ije )2 f ije
, f ije
RT CT n

决策方法:若卡方观测值的概率p小于等于a,则判 定行列变量间存在存在依存关系;反之,如果卡方 观测值的概率p大于a,则判定行列变量间相互独立。 这里a=0.05或0.01。
28
26
注意:Crosstabs 过程不能产生一维频数表(单变量频数表),
该功能由Frequencies过程实现。
27
卡方检验


卡方检验的作用:可用于探讨列联表行变量和列变 量之间是否有关联的推断性分析。若无关联,则认 为两变量独立。H0:行变量与列变量独立。 卡方检验的统计量(Pearson卡方统计量):
21

在绝大多数情况下,观测频数的分布是分散在列联 表的各个单元格中的,此时就不容易直接发现行列 变量之间的关系和他们关系的强弱关系。为此,需 要借助非参数检验方法和一些度量变量间相关程度 的统计量等手段进行分析。
22
主对话框
行变量
绘制频数分布柱形图
当涉及 到两个 列变量 以上的 变量讨 论时需 要通过 层变量 层变量 来实现
34
Statistics
卡方检验
4两定距或两定序 1两定类 3两定序
2一定类一定距
医学分析中 常用指标
35



适用于两定类变量的方法: 检验的统计量有列联系数、Phi系数、Cramer ’V系 数、Lambda、不确定系数等。这些方法大都是从 Pearson卡方统计量派生出来的,试图将样本量、 行列数对卡方的影响减少到最小。 Phi适用于2×2的列联表。 列联系数适用任意行列数的列联表,但注意到列联 系数的最大值会随行列数的增大而增大。因此,在 比较两两变量间的相关性时,注意应在行列数均相 同的前提下才有可比性。
46
Define Sets
指定变量集中 的变量是按哪 种方法分解的
表示选中 的数值 为变量集命名
36

Cramer ’V 适用于任意行列数的列联表,在2×2的 列联表中,V系数和Phi系数是相等的。
37


适用于两定序变量的方法: 检验的统计量有Gamma系数、Somers’d系数 Kendall’s Tau-b系数、 Kendall’s Tau-c系数等。 这些方法均是围绕“同序对数”和“异序对数” 展开的,它们是变量相关性检验的非参数方法中 的两个重要指标。
相关文档
最新文档