统计分析与Spss应用第五章(描述性统计分析)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

选入需要描述的 变量,可选入多个
确定是否将原始数 据的标准正态变换 结果存为新变量。
变量列表顺序 字母顺序 均数升序 均数降序。
Descriptive Statistics N 血清总胆固醇 Valid N (listwise) Minimum Maximum 101 2.70 7.22 101 Mean Std. Deviation 4.6995 .86162



5.1.1 对话框界面及 各部分选项说明 【Display frequency tables复选框】确定是 否在结果中输出频数 表。 【Statistics钮】单击 后弹出Statistics对话 框,用于定义需要计 算的其他描述统计量。
集中趋势指标
百分位数指标
计算百分数时选此项
离散趋势指标 分布指标
1
.002
.000
Hale Waihona Puke .006.002b
.000
.005
639 61.974 d 65.957 55.621 9.398
e
40 40
.014 .006
.016b .009b .011b .003
b
.008 .003 .004 .000
.025 .016 .018 .006 .001
b
1
.002
.000
.002
descriptive statistics菜单主要内容




(1)频数分布表分析(Frequencies):其特色就是产生 频数表,对分类数据和定量资料都适用。 (2)统计描述分析(Descriptive)进行一般性描述,适 用于服从正态分布的定量资料。 (3) Explore 过程:用于对数据分布状况不清楚时的 探索性分析,它会杂七杂八给出一大堆可能用到的 统计指标和统计图,让研究者参考。 (4)Crosstabs 过程则完成计数资料和等级资料的统计 描述和一般的统计检验我们常用的X2 检验也在其中 完成 (5)Ratio过程;用于对两个连续性变量计算相对比指 标,它可以计算出一系列非常专业的相对比描述指 标。
b
地 区分 类 东 北部
东 南部
西部
Pearson Chi-Square Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Pearson Chi-Square Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Pearson Chi-Square Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases

结果解释
最上方为表格名称, 左上方为分析变量名, 可见样本量N为101例, 缺失值0例, 均数Mean=4.69, 中位数Median=4.61, 标准STD=0.8616, P2.5=3.04, P97.5=6.45。
系统对变量x作频数分布表(此处只列出了开头部分) Vaild右侧为原始值,Frequency为频数,Percent为 各组频数占总例数的百分比(包括缺失记录在内), Valid percent为各组频数占总例数的有效百分比, Cum Percent为各组频数占总例数的累积百分比。
茎叶图,整数位 为茎,小数位为 叶。 这样可以非常直 观的看出数据的 分布范围及形态


5.4 交叉表分析过程 crosstabs
返回
交叉表分析主对话框
返回
选择统计量对话框
返回
精确检验对话框
返回
显示单元格值对话框
返回
格式对话框
返回
卡方检验
Chi-Square Tests Monte Carlo Sig. (2-sided) 99% Confidence Interval Sig. Lower Bound Upper Bound .186b .160 .212 .262b .233 .291 .117b .095 .138 .003

5.1.2 分析实例一 例6.1 某地101例健康男子血清总胆固醇值 测定结果存在文件danguchun.sav中,请绘 制频数表、直方图,计算均数、标准差、 中位数M、p2.5和p97.5 。
操作过程如下: 1.Analyze==>Descriptive Statistics==>Frequencies 2.Variables框:选入X 3.单击Statistics钮: 4.选中Mean、Std.deviation、Median复选框 5. 单击Percentiles:输入2.5:单击Add:输入97.5: 单击Add: 6. 单击Continue钮 7. 单击Charts钮: 8. 选中Bar charts 9. 单击Continue钮 10. 单击OK

(2)众数(mode)(在frequency菜单中计算)

计算描述统计量



描述离散程度的统计量 (1)标准差(standard deviation--Std Dev) (2)方差(variance) (3)极差(range):

最大值(minimum)-最小值(minimum) 极差很小表明所有数据几乎集中在一起 应用于相同样本容量的两组数据离散程度比较



血清总胆固醇 Stem-and-Leaf Plot
Frequency Stem & Leaf



1.00 2. 7 8.00 3 . 00123334 9.00 3 . 556689999 24.00 4 . 000001111222333333344444 25.00 4 . 5555556666677777777788899 17.00 5 . 01111111222333334 9.00 5 . 556778889 6.00 6 . 112333 1.00 6. 5 1.00 Extremes (>=7.2) Stem width: 1.00 Each leaf: 1 case(s)

计算描述统计量 描述陡峭程度的统计量峰度(kurtosis):描述某 变量所有变量值分布形态陡缓程度的统计 量。峭度为0表示与正态分布峭度相同。大 于0表示比正态分布陡,尖峰。小于0表示 比正态分布缓;平峰。其他:标准误差(S. E. mean)

5.1 frequencies过程

频数分布表是描述性统计中最常用的方法 之一,Frequencies 过程就是专门为产生频 数表而设计的,它不仅可以产生单变量详 细的频数表,显示文件中指定变量特定值 发生的频数,还可以获得某些描述统计量 或按要求给出某百分位点的数值以及常用 的条图、圆图等统计图。
Value 47.163 a 44.483 48.225 9.514
c
df 40 40
Asymp. Sig. (2-sided) .203 .289
Monte Carlo Sig. (1-sided) 99% Confidence Interval Sig. Lower Bound Upper Bound
第五章 描述性统计分析


描述性统计只对统计数据的结构和总体情 况进行描述,并不能深入了解统计数据的 内部规律。 Spss的许多模块都可完成描述性统计分析, 但专门为该目的而设计的几个模块则集中 在descriptive statistics菜单中,他们就是计 算各种统计量或绘制统计图来实现描述功 能。
图形参数选择对话框
返回




【Charts钮】弹出Charts对话框,用于设定 所做的统计图。 Chart type单选钮组 定义统计图类型,有四 种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图Histogram),其中直方图 还可以选择是否加上正态曲线(With normal curve)。 Chart Values单选钮组 定义是按照频数还是 按百分比做图(即影响纵坐标刻度)。 【Format钮】弹出Format对话框,用于定 义输出频数表的格式,不过用处不大,一 般不管。
5.2 Descriptives过程

Descriptives过程是连续资料统计描述应用 最多的一个过程,他可对变量进行描述性 统计分析,计算并列出一系列相应的统计 指标。这和其他过程相比并无不同。但该 过程还有个特殊功能就是可将原始数据转 换成标准正态评分值并以变量的形式存入 数据库供以后分析。

计算描述统计量

描述对称程度的统计量


偏度(skewness):
描述某变量所有变量值分布形态的偏斜程度和方向的统计量. 偏度为0表示对称; 大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均 值; 小于0表示负偏差大(左偏)。Σ=−=niiSDxx133/)(1-n1Skewness

描述集中趋势的统计量 (1)均值(mean):

表示某变量所有变量值集中趋势或平均水平的统计 量。 适用于定距数据。 特点:利用了全部数据,易受极端值的影响。 一组数据中出现频数最多的变量值。(例:服装尺码) 适用于各类数据,主要用于定类数据。 特点:众数可能不唯一,不受极端值的影响。
常用的描述统计量





集中趋势指标(central tendency):均数(means) 众数(mode),中位数( median),总和 (sum), 离散趋势指标:标准差(standard deviation),方 差等,最大值、最小值等。其中标准差方差只适用正 态分布。 百分位数指标(percentile):包括四分位数,各个 百分位数等,适用于任何分布类型资料。 分布指标(distribution):偏度系数(Skewness)和 峰度系数(Kurtosis),反映了数据偏离正态分布的程 度 其它:M统计量(M-estimators)、极端值(outlier)等, 主要用于对存在异常值的数据进行描述;标准误(S. E. mean),标准误则反映了样本均数的波动程度。
选入需要分析的变量
选入分组变量
选择一个变量,他的取值 将作为每条记录的标签 选择所需要的描述统计量 选缺失值的处理方式
选择所需要的统计图


Statistics对话框
Descriptives复选框:输出均数、中位数、众数、5% 修正均数、标准误、方差、标准差、最小值、最大 值、全距、四分位全距、峰度系数、峰度系数的标 准误、偏度系数、偏度系数的标准误及指定的均数 可信区间。 M-estimators复选框:作中心趋势的粗略最大似然确 定,该统计量是用哪个迭代法计算出来的,输出四 个(Huber, Andrew, Hampel, Tukey)不同权重的最 大似然确定数。 其中huber法适用于数据接近正态分 布的情况,另三种适合数据中有许多异常值时。 Outliers复选框:输出五个最大值与五个最小值。 Percentiles复选框:输出第5%、10%、25%、50%、 75%、90%、95%位数。
381 47.883 f 52.035 47.618 .683
g
40 40
.183 .096
.191b .115b .072b .411
b
.165 .094 .055 .378
.216 .136 .089 .443 .200
b
1
.408
.174
.227
394
a. 28 cells (51.9%) have expected count less than 5. The minimum expected count is .02. b. Based on 1517 sampled tables with starting seed 2000000. c. The standardized statistic is 3.084. d. 30 cells (55.6%) have expected count less than 5. The minimum expected count is .14. e. The standardized statistic is 3.066. f. 32 cells (59.3%) have expected count less than 5. The minimum expected count is .07. g. The standardized statistic is .827.
一个典型的Descriptives 过程结果统计表
最上方为表格名称, 左下方为分析变量名,可见样本量N为101例; 均数:Mean=4.6995, 最大值 :Maximum=7.22, 标准差 :STD=0.8616, 最小值:Minimum=2.70。
5.3 Explore过程

主要用于对资料数据的性质、分布状况等 完全不清楚时的进行分析,故称探索性分 析。在常用的描述性统计指标的基础上, 它又增加了有关数据详细分布特征的文字 与图形描述,如茎叶图、箱式图等,显得 更加详细全面。还可以为以方差齐性为目 的的变量变换提供线索,有助于用户制定 继续分析的方案。
相关文档
最新文档