基本统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10
弹出 Statistics 对话框,用于定义所需计算的统计量。 Chi-square 复选框:计算 2 值。(参见后面的具体检验方法) Correlations 复选框:计算行、列两变量的 Pearson 相关系数 和 Spearman 等级相关系数。
o
o o
Norminal 复选框组:适用于两定类变量的情形。
【Options 钮】
用于选择对缺失值的处理方式: ——Exclude cases listwise:剔除带有缺失值的观测值; ——Exclude cases pairwise:仅剔除那些缺失值有成对关系的观测 值; ——Report values:分组变量中的缺失值被单独视为一组。
例子: 上市公司财务数据: 对每股收益率数据进行研究;检验不同行业 上市公司每股收益率的方差是否满足方差齐性。
1
峰度值小于 0 表示数据的分布比标准正态分布平缓, 为平峰分布。
2
Explore 过程
Explore 过程可对变量进行更为深入详尽的描述性统计分析,主 要用于对资料的性质、 分布特点等完全不清楚时, 故又称之为探索性 分析。 它在一般描述性统计指标的基础上, 增加有关数据其他特征的 文字与图形描述,如茎叶图、箱线图等,显得更加详细、全面,有助 于用户制定继续分析的方案。 Explore 过程提供了以下 3 种非常重要的功能: (1)异常值检查 (2)分布正态性检验 (3)方差齐性检验:方差齐性检验就是检验各观测变量在控制 变量不同水平下的方差是否相等。
2 统计量的自由度是:
df (r 1) (c 1)
第三步,确定显著性水平和临界值 显著性水平 可以选 0.05,也可以选 0.01。
第四步,结论和决策 有两种判断方法: 第一,将计算出来的统计量与临界值进行比较。如果计算出来的
2 大于临界值,拒绝零假设,列联表的行列变量间不独立,存在相
2 =5.71+4.57+1.14+13.33+10.67+2.67=38.09
df=(r-1)(c-1)= (3-1)(2-1)=2, 2 的临界值为 5.99 拒绝 Ho, 对手表显示的偏好程度与被调查者的年龄段有关。
o
12
c. Kendall's tau-b 复选框:介于-1~1 之间,绝对值越接近于 1,行列变量的相关性越强; d. Kendall's tau-c 复选框:介于-1~1 之间,绝对值越接近于 1,行列变量的相关性越强。 Nominal by Interval: 适用于一定类变量、一定距变量的情形。
关关系。 如果 2 第二, 将 2 统计量的概率 p 值与显著性水平 进行比较。 统计量的概率 p 值小于等于显著性水平 ,拒绝零假设,列联表的行 列变量间不独立,存在相关关系。
例: 2 检验 调查了 n=200 个不同年龄组的被调查者对手表显示的偏好程度
数字显示 30 岁或以下 30 岁以上 90 10
o
Outliers 复选框:输出五个最大值与五个最小值。
5
o
Percentiles 复选框:输出第 5%、10%、25%、50%、75%、 90%、95%位数。
【Plot 按钮】
弹出 Plot 对话框,用于选择所需要的统计图。有如下选项: Boxplots 单选框组:确定箱线图的绘制方式,可以是按组别分 组 绘 制 (Factor levels together) , 也 可 以 不 分 组 一 起 绘 制 (Dependents together),或者不绘制(None)。
7
Crosstabs 过程
Crosstabs:列联表分析 它包括两大基本任务: 第一,根据收集到的样本数据,编制二维或多维交叉列联表; 第二, 在交叉列联表的基础上, 对两变量间是否存在一定的相关性进 行分析。 界面说明
【Rows 框】
8
用于选择行*列表中的行变量。 【Columns 框】 用于选择行*列表中的列变量。 【Layer 框】 Layer 指的是层,对话框中的许多设置都可以分层设定,在同一层中 的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。 【Display clustered bar charts 复选框】 显示复式条型图。 【Suppress table 复选框】 禁止在结果中输出行*列表。 【Exact 按钮】
16
钟面显示 40 40
不确定 10 10
1. 计算期望次数 f e 2. 计算每个单位格的 2 值
数字显示 30 岁以下 30 岁以上 列的和 90 (70) 202/70=5.71 10 (30) (-20)2/30=13.33 100 钟面显示 40 (56) (-16)2/56=4.57 40 (24) 162/24=10.67 80 不确定 10 (14) (-4)2/14=1.14 10 (6) 42/6=2.67 20 行的和 140 60 200
峰度(kurtosis) :描述变量取值分布形态陡缓程度的统计量。计 算公式为:
1 n ( xi x ) 4 / S 4 3 Kurtosis n 1 i 1
当数据分布与标准正态分布的陡缓程度相同时,峰度值等于 0; 峰度值大于 0 表示数据的分布比标准正态分布更陡峭,为尖峰分 布;
【Format 按钮】
14
用于选择行变量是升序还是降序排列。
源自文库
列联表分析中的卡方独立性检验
检验行和列的两个变量彼此有无关联
卡方独立性检验的步骤
第一步,建立零假设(H0) 零假设为行变量与列变量独立。
第二步,选择和计算检验统计量 列联表分析卡方检验的检验统计量是 Pearson 卡方统计量,其数 学定义为:
o
o
M-estimators 复选框:集中趋势的稳健估计,输出四个不同权 重的统计量。 (M-estimators. Robust alternatives to the sample mean and median for estimating the center of location. The estimators calculated differ in the weights they apply to cases. Huber's M-estimator, Andrews' wave estimator, Hampel's redescending M-estimator, and Tukey's biweight estimator are displayed.)

2 i 1 j 1
r
c
( fijo fije ) 2 f ije
其中,r 为列联表的行数,c 为列联表的列数; f o 为观察频数, f e 为 期望频数(Expected Count) 。 f e 的计算方法是:
15
fe
RT CT n
其中,RT 是指定单元格所在行的观测频数合计,CT 是指定单元格 所在列的观测频数合计, n 是观测频数的总计。
o
o
Descriptive 复选框组:可以选择绘制茎叶图(Stem-and-leaf)和 直方图(Histogram)。
o
Normality plots with test 复选框:绘制正态分布图并检验变量 是否符合正态分布。
6
o
Spread vs. Level with Levene Test 单选框组:当选择了分组变 量时,绘制 spread-versus-level 图,输出方差齐性 Levene’s 检 验。Levene’s 检验的原假设是方差满足齐性,若 Levene’s 统计 量的概率 p 值小于给定的显著性水平,则拒绝原假设,各组的 方差不相等。
o
o
Percentages 复选框组:是否输出行百分数(Row)、列百分数 (Column)以及合计百分数(Total);
o
Residuals 复选框组:选择残差的显示方式,可以是实际数与理 论 数 的 差 值 ( Unstandardized ) 、 标 准 化 后 的 差 值 (Standardized,实际数与理论数的差值除理论数),或者调 整后的标准化残差(Adj. Standardized);
9
针对 2*2 以上的行*列表设定计算确切概率的方法,可以是不计算 ( Asymptotic only )、蒙特卡罗模拟( Monte Carlo )或确切计算 (Exact)。蒙特卡罗模拟默认进行 10000 次模拟,给出 99%置信区 间;确切计算默认计算时间限制在 5 分钟内。 【Statistics 按钮】
o
Eta 复选框: 计算 Eta 系数, 其平方值可认为是因变量受不同因素 影响所致方差的比例, Eta 系数的取值范围是 0~1 之间, 越接近于 1,变量的相关性越强。 Kappa 复选框:计算 Kappa 值,即内部一致性系数; Risk 复选框:计算比数比(OR 值)和相对危险度(RR 值); McNemanr 复选框:进行 McNemanr 检验(一种非参检验);
4
【Statistics 按钮】
弹出 Statistics 对话框,用于选择所需要的描述统计量。有如下选项: Descriptives 复选框:输出均值、中位数、众数、5%截尾均值、 均值标准误、方差、标准差、最小值、最大值、全距、四分位 全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的 标准误及指定的均值置信区间。
界面说明
3
【Display 单选钮组】 用于选择输出结果中是否包含统计描述、统计图或两者均包括。 【Dependent List 框】 用于选入需要分析的变量。 【Factor List 框】 如果想让所分析的变量按某种因素取值分组分析, 则在这里选入分组 变量。 【Label cases by 框】 选择一个变量, 它的取值将作为每条记录的标签。 最典型的情况是使 用记录 ID 号的变量。
2 Cochran's and Mantel-Haenszel statistics 复选框:计算 M H 统 2 的),可在下方输出 H0 假设的 计量(分层 2 ,也有写为 CMH
o o o o
OR 值,默认为 1。 【Cells 按钮】
13
弹出 Cells 对话框,用于定义列联表单元格中需要计算的指标: Counts 复选框组:是否输出实际观察数 (Observed) 和理论数 (Expected);
偏度与峰度
刻画分布形态的统计量:偏度和峰度 偏度(skewness) :描述变量取值分布形态对称性的统计量。计 算公式为:
Skewness
1 n ( xi x )3 / S 3 n 1 i 1
当分布是对称分布时,偏度值等于 0; 偏度值大于 0,表示正偏差值较大,为右偏分布; 偏度值小于 0,表示负偏差值较大,为左偏分布。 偏度绝对值越大,表示数据分布形态的偏斜程度越大。
a. Contingency coefficient 复选框: 即列联系数, C
2 2 n

其值介于 0~1 之间,值越接近于 1,行列变量有较强的相 关关系。 b. Phi and Cramer's V 复选框: Phi 系数适用于 2×2 列联表,是对 2 统计量的修正:
11

2
n
Phi 系数越接近于 1,行列变量的相关关系越强。 Cramer's V:
V
2
n min[(r 1)(c 1)]
在 2×2 列联表中, Phi 系数与 V 系数是相等的。 V 系数介于 0~ 1 之间,越接近于 1,行列变量间的相关关系越强。 c. Lambda 复选框:在自变量预测中用于反映比例缩减误差, 其值为 1 时表明自变量预测应变量好,为 0 时表明自变量 预测应变量差; d. Uncertainty coefficient 复选框:不确定系数,以熵为标准 的比例缩减误差,其值接近 1 时表明后一变量的信息很大 程度来自前一变量,其值接近 0 时表明后一变量的信息与 前一变量无关。 Ordinal 复选框组:适用于两定序变量的情形。 a. Gamma 复选框:介于-1~1 之间,绝对值越接近于 1,行 列变量的相关性越强; b. Somers'd 复选框:为独立变量上不存在同分的偶对中,同 序对子数超过异序对子数的比例;
相关文档
最新文档