spss基本统计分析 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

【Format 按钮】
14
用于选择行变量是升序还是降序排列。
列联表分析中的卡方独立性检验
检验行和列的两个变量彼此有无关联
卡方独立性检验的步骤
第一步，建立零假设（H0）零假设为行变量与列变百度文库独立。
第二步，选择和计算检验统计量列联表分析卡方检验的检验统计量是 Pearson 卡方统计量，其数学定义为：
2
n
Phi 系数越接近于 1，行列变量的相关关系越强。 Cramer's V：
V
2
n min[(r 1)(c 1)]
在 2×2 列联表中， Phi 系数与 V 系数是相等的。 V 系数介于 0～ 1 之间，越接近于 1，行列变量间的相关关系越强。 c. Lambda 复选框：在自变量预测中用于反映比例缩减误差，其值为 1 时表明自变量预测应变量好，为 0 时表明自变量预测应变量差； d. Uncertainty coefficient 复选框：不确定系数，以熵为标准的比例缩减误差，其值接近 1 时表明后一变量的信息很大程度来自前一变量，其值接近 0 时表明后一变量的信息与前一变量无关。 Ordinal 复选框组：适用于两定序变量的情形。 a. Gamma 复选框：介于-1～1 之间，绝对值越接近于 1，行列变量的相关性越强； b. Somers'd 复选框：为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例；
2 统计量的自由度是：
df (r 1) (c 1)
第三步，确定显著性水平和临界值显著性水平可以选 0.05，也可以选 0.01。
第四步，结论和决策有两种判断方法：第一，将计算出来的统计量与临界值进行比较。如果计算出来的
2 大于临界值，拒绝零假设，列联表的行列变量间不独立，存在相
峰度（kurtosis）：描述变量取值分布形态陡缓程度的统计量。计算公式为：
1 n ( xi x ) 4 / S 4 3 Kurtosis n 1 i 1
当数据分布与标准正态分布的陡缓程度相同时，峰度值等于 0；峰度值大于 0 表示数据的分布比标准正态分布更陡峭，为尖峰分布；
a. Contingency coefficient 复选框：即列联系数， C
2 2 n
，
其值介于 0～1 之间，值越接近于 1，行列变量有较强的相关关系。 b. Phi and Cramer's V 复选框： Phi 系数适用于 2×2 列联表，是对 2 统计量的修正：
11

7
Crosstabs 过程
Crosstabs：列联表分析它包括两大基本任务：第一，根据收集到的样本数据，编制二维或多维交叉列联表；第二，在交叉列联表的基础上，对两变量间是否存在一定的相关性进行分析。界面说明
【Rows 框】
8
用于选择行*列表中的行变量。【Columns 框】用于选择行*列表中的列变量。【Layer 框】 Layer 指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。【Display clustered bar charts 复选框】显示复式条型图。【Suppress table 复选框】禁止在结果中输出行*列表。【Exact 按钮】
o
o
Percentages 复选框组：是否输出行百分数（Row）、列百分数（Column）以及合计百分数（Total）；
o
Residuals 复选框组：选择残差的显示方式，可以是实际数与理论数的差值（ Unstandardized ）、标准化后的差值（Standardized，实际数与理论数的差值除理论数），或者调整后的标准化残差（Adj. Standardized）；
o
o
Descriptive 复选框组：可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。
o
Normality plots with test 复选框：绘制正态分布图并检验变量是否符合正态分布。
o
Spread vs. Level with Levene Test 单选框组：当选择了分组变量时，绘制 spread-versus-level 图，输出方差齐性 Levene’s 检验。Levene’s 检验的原假设是方差满足齐性，若 Levene’s 统计量的概率 p 值小于给定的显著性水平，则拒绝原假设，各组的方差不相等。
关关系。如果 2 第二，将 2 统计量的概率 p 值与显著性水平进行比较。统计量的概率 p 值小于等于显著性水平，拒绝零假设，列联表的行列变量间不独立，存在相关关系。
例： 2 检验调查了 n=200 个不同年龄组的被调查者对手表显示的偏好程度
数字显示 30 岁或以下 30 岁以上 90 10
6
【Options 钮】
用于选择对缺失值的处理方式： ——Exclude cases listwise：剔除带有缺失值的观测值； ——Exclude cases pairwise：仅剔除那些缺失值有成对关系的观测值； ——Report values：分组变量中的缺失值被单独视为一组。
例子：上市公司财务数据：对每股收益率数据进行研究；检验不同行业上市公司每股收益率的方差是否满足方差齐性。
o
Eta 复选框：计算 Eta 系数，其平方值可认为是因变量受不同因素影响所致方差的比例， Eta 系数的取值范围是 0~1 之间，越接近于 1，变量的相关性越强。 Kappa 复选框：计算 Kappa 值，即内部一致性系数； Risk 复选框：计算比数比（OR 值）和相对危险度（RR 值）； McNemanr 复选框：进行 McNemanr 检验（一种非参检验）；
1
峰度值小于 0 表示数据的分布比标准正态分布平缓，为平峰分布。
2
Explore 过程
Explore 过程可对变量进行更为深入详尽的描述性统计分析，主要用于对资料的性质、分布特点等完全不清楚时，故又称之为探索性分析。它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，如茎叶图、箱线图等，显得更加详细、全面，有助于用户制定继续分析的方案。 Explore 过程提供了以下 3 种非常重要的功能：（1）异常值检查（2）分布正态性检验（3）方差齐性检验：方差齐性检验就是检验各观测变量在控制变量不同水平下的方差是否相等。界面说明
2 Cochran's and Mantel-Haenszel statistics 复选框：计算 M H 统 2 的），可在下方输出 H0 假设的计量（分层 2 ，也有写为 CMH
o o o o
OR 值，默认为 1。【Cells 按钮】
13
弹出 Cells 对话框，用于定义列联表单元格中需要计算的指标： Counts 复选框组：是否输出实际观察数 (Observed) 和理论数（Expected）；
9
针对 2*2 以上的行*列表设定计算确切概率的方法，可以是不计算（ Asymptotic only ）、蒙特卡罗模拟（ Monte Carlo ）或确切计算（Exact）。蒙特卡罗模拟默认进行 10000 次模拟，给出 99%置信区间；确切计算默认计算时间限制在 5 分钟内。【Statistics 按钮】

2 i 1 j 1
r
c
( fijo fije ) 2 f ije
其中，r 为列联表的行数，c 为列联表的列数； f o 为观察频数， f e 为期望频数（Expected Count）。 f e 的计算方法是：
15
fe
RT CT n
其中，RT 是指定单元格所在行的观测频数合计，CT 是指定单元格所在列的观测频数合计， n 是观测频数的总计。
偏度与峰度
刻画分布形态的统计量：偏度和峰度偏度（skewness）：描述变量取值分布形态对称性的统计量。计算公式为：
Skewness
1 n ( xi x )3 / S 3 n 1 i 1
当分布是对称分布时，偏度值等于 0；偏度值大于 0，表示正偏差值较大，为右偏分布；偏度值小于 0，表示负偏差值较大，为左偏分布。偏度绝对值越大，表示数据分布形态的偏斜程度越大。
3
【Display 单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。【Dependent List 框】用于选入需要分析的变量。【Factor List 框】如果想让所分析的变量按某种因素取值分组分析，则在这里选入分组变量。【Label cases by 框】选择一个变量，它的取值将作为每条记录的标签。最典型的情况是使用记录 ID 号的变量。【Statistics 按钮】
2 =5.71+4.57+1.14+13.33+10.67+2.67=38.09
df=(r-1)(c-1)= (3-1)(2-1)=2， 2 的临界值为 5.99 拒绝 Ho，对手表显示的偏好程度与被调查者的年龄段有关。
o
12
c. Kendall's tau-b 复选框：介于-1～1 之间，绝对值越接近于 1，行列变量的相关性越强； d. Kendall's tau-c 复选框：介于-1～1 之间，绝对值越接近于 1，行列变量的相关性越强。 Nominal by Interval: 适用于一定类变量、一定距变量的情形。
o o
Outliers 复选框：输出五个最大值与五个最小值。 Percentiles 复选框：输出第 5%、10%、25%、50%、75%、 90%、95%位数。
【Plot 按钮】
5
弹出 Plot 对话框，用于选择所需要的统计图。有如下选项： Boxplots 单选框组：确定箱线图的绘制方式，可以是按组别分组绘制 (Factor levels together) ，也可以不分组一起绘制 (Dependents together)，或者不绘制(None)。
弹出 Statistics 对话框，用于选择所需要的描述统计量。有如下选项：
4
o
Descriptives 复选框：输出均值、中位数、众数、5%截尾均值、均值标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均值置信区间。
o
M-estimators 复选框：集中趋势的稳健估计，输出四个不同权重的统计量。（M-estimators. Robust alternatives to the sample mean and median for estimating the center of location. The estimators calculated differ in the weights they apply to cases. Huber's M-estimator, Andrews' wave estimator, Hampel's redescending M-estimator, and Tukey's biweight estimator are displayed.）
16
钟面显示 40 40
不确定 10 10
1. 计算期望次数 f e 2. 计算每个单位格的 2 值
数字显示 30 岁以下 30 岁以上列的和 90 (70) 202/70=5.71 10 (30) (-20)2/30=13.33 100 钟面显示 40 (56) (-16)2/56=4.57 40 (24) 162/24=10.67 80 不确定 10 (14) (-4)2/14=1.14 10 (6) 42/6=2.67 20 行的和 140 60 200
10
弹出 Statistics 对话框，用于定义所需计算的统计量。 Chi-square 复选框：计算 2 值。（参见后面的具体检验方法） Correlations 复选框：计算行、列两变量的 Pearson 相关系数和 Spearman 等级相关系数。
o
o o
Norminal 复选框组：适用于两定类变量的情形。