描述性统计分析报告DescriptiveStatistics菜单详解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章:描绘性统计剖析--
Descriptive Statistics菜单详解
描绘性统计剖析是统计剖析的第一步,做好这第一步是下边进行正确统计推测的
先决条件。
SPSS的很多模块均可达成描绘性剖析,但特意为该目的而设计的几
个模块则集中在Descriptive Statistics 菜单中,最常用的是列在最前面的四个过程:Frequencies 过程的特点是产生频数表; Descriptives 过程则进行一般性的统计描绘; Explore 过程用于对数据概略不清时的探究性剖析; Crosstabs
过程则达成计数资料和等级资料的统计描绘和一般的统计查验,我们常用的 X2查
验也在此中达成。
本章叙述的四个过程在9.0 及从前版本中被搁置在 Summarize菜单中。
§6.1 Frequencies过程
频数散布表是描绘性统计中最常用的方法之一,Frequencies 过程就是特意为产生频数表而设计的。
它不单能够产生详细的频数表,还能够按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。
和国内常用的频数表不一样,几乎全部统计软件给出的均是详细频数表,即
其实不按某种要求确定组段数和组距,而是依据数值精准列表。
假如想用Frequencies 过程获得我们所熟习的频数表,请先用第二章学过的 Recode过程产
生一个新变量来代表所需的各组段。
界面说明
Frequencies 对话框的界面以下所示:
该界面在 SPSS中实在太一般了,不必多言,要点介绍一下各部分的功能以下:【 Display frequency tables复选框】
确定能否在结果中输出频数表。
【 Statistics钮】
单击后弹出 Statistics对话框以下,用于定义需要计算的其余描绘统计量。
现将各部分解说以下:
o Percentile Values 复选框组定义需要输出的百分位数,可计算四分位数(Quartiles) 、每隔指定百分位输出目前百分位数 (Cut points
for equal groups) 、或直接指定某个百分位数 (Percentiles) ,如直接指定输
出 P2.5 和。
o Central tendency 复选框组用于定义描绘集中趋向的一组指标:均数(Mean)、中位数 (Median) 、众数 (Mode)、总和 (Sum)。
o Dispersion 复选框组用于定义描绘失散趋向的一组指标:标准差(Std.deviation) 、方差 (Variance) 、全距 (Range) 、最小值 (Minimum) 、最大值 (Maximum)、标准误 (S.E.mean) 。
o Distribution复选框组用于定义描绘散布特点的两个指标:偏度系数(Skewness)和峰度系数 (Kurtosis) 。
o Values are group midpoints 复选框当你输出的数据是分组频数数据,而且详细数值是组中值时,选中该复选框以通知 SPSS,省得它出错误。
众数 (Mode)指全部数值中出现频次最高的一个值,在国内用的特别少。
【Charts 钮】
弹出 Charts 对话框,用于设定所做的统计图。
o Chart type 单项选择钮组定义统计图种类,有四种选择:无、条图( Bar chart )、圆图 (Pie chart) 、直方图 Histogram ),此中直方图还能够选
择能否加上正态曲线( With normal curve)。
o Chart Values 单项选择钮组定义是依据频数仍是按百分比做图(即影响纵坐标刻度)。
【Format 钮】
弹出 Format 对话框,用于定义输出频数表的格式,可是用途不大,一般不论。
o Order by 单项选择钮组定义频数表的摆列序次,有四个选项: Ascending values 为依据数值大小按升序从小到大作频数散布; Descending values
为依据数值大小按降序从大到小作频数散布;Ascending counts为依据
频数多少按升序从少到多作频数散布;Descending counts 为依据频数多
少按降序从多到少作频数散布。
o Multiple Variables单项选择钮组假如选择了两个以上变量做频数表,则Comparevariables能够将他们的结果在同一个频数表过程输出结果中显
示,便于相互比较, Organize output by variables则将结果在不一样的频数表过程输出结果中显示。
o Suppress Tables more than... 复选框当频数表的分组数大于下边设定数值时严禁它在结果中输出,这样能够防止产生巨型表格。
剖析实例
例 6.1 某地 101 例健康男子血清总胆固醇值测定结果以下,请绘制频数表、直方图,计算均数、标准差、变异系数 CV、中位数 M、p2.5 和(卫统第三版
p233 1.1 题)。
解:为节俭篇幅,这里只给出精准频数表的做法,假定数据已经输好,变量名为X,详细解法以下:
1.Analyze==>Descriptive Statistics==>Frequencies
2.Variables 框:选入 X
3.单击 Statistics钮:
4.选中 Mean、、Median 复选框
5.单击 Percentiles :输入 2.5 :单击 Add:输入 97.5 :单击 Add:
6.单击 Continue 钮
7.单击 Charts 钮:
8.选中 Bar charts
9.单击 Continue 钮
10.单击 OK
得出结果后手工计算出CV。
上边做出的直方图分组太多,需要进一步编写。
结果解说
上题除直方图外的的输出结果以下:
Frequencies
文档大全
最上方为表格名称,左上方为剖析变量名,可见样本量N 为 101 例,缺失值 0例,均数,中位数 Median=4.61 ,标准差,P2.5=3.04 , P97.5=6.45 。
系统对变量 x 作频数散布表(此处只列出了开头部分), Vaild 右边为原始值,Frequency 为频数,Percent 为各组频数占总例数的百分比(包含缺失记录在内),Valid percent 为各组频数占总例数的有效百分比, Cum Percent 为各组频数占总例数的积累百分比。
§6.2 Descriptives过程
Descriptives过程是连续资料统计描绘应用最多的一个过程,他可对变量进行
描绘性统计剖析,计算并列出一系列相应的统计指标。
这和其余过程对比并没有
不一样。
但该过程还有个特别功能就是可将原始数据变换成标准正态评分值并以变
量的形式存入数据库供此后剖析。
界面说明
【 Save standardized values as variables复选框】
确定能否将原始数据的标准正态评分存为新变量。
【Options 钮】
弹出 Options 对话框,大多半内容均在前面Frequences 过程的 Statistics对话框中见过,只有最下方的 Display Order 单项选择钮组是新的,能够选择为变量列
表次序、字母次序、均数升序或均数降序。
结果解说
下边是一个典型的Descriptives过程结果统计表:
一望可知,这里的大多半内容都在上一节见过,所以就不再多解说了。
讲了两个过程,或许大家已经发现了:结果中的统计专业单词多半在对话框中就已经出现,所以我们此后会详细解说对话框的内容,结果中同样的单词不再重复解说。
§6.3 Explore 过程
Explore 过程可对变量进行更为深入详细的描绘性统计剖析,主要用于对资料的性质、散布特点等完整不清楚时,故又称之为探究性剖析。
它在一般描绘性统计指标的基础上,增添有关数据其余特点的文字与图形描绘,如枝叶图、箱图等,显得更为详细、全面,有助于用户拟订持续剖析的方案。
界面说明
【Display 单项选择钮组】
用于选择输出结果中能否包含统计描绘、统计图或二者均包含。
【Dependent List 框】
用于选入需要剖析的变量。
【 Factor List框】
假如想让所剖析的变量按某种要素取值分组剖析,则在这里选入分组变量。
【 Label cases by框】
选择一个变量,他的取值将作为每条记录的标签。
最典型的状况是使用记录 ID 号的变量。
【 Statistics钮】
弹出 Statistics对话框,用于选择所需要的描绘统计量。
有以下选项:o Descriptives 复选框:输出均数、中位数、众数、 5%修正均数、标准误、方
差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标
准误、偏度系数、偏度系数的标准误及指定的均数可信区间。
o M-estimators 复选框:作中心趋向的大略最大似然确定,输出四个不一样权重的最大似然确定数。
o Outliers复选框:输出五个最大值与五个最小值。
o Percentiles 复选框:输出第 5%、10%、25%、50%、 75%、90%、95%位数。
【Plot 钮】
弹出 Plot 对话框,用于选择所需要的统计图。
有以下选项:
o Boxplots 单项选择框组:确定箱式图的绘制方式,能够是按组别分组绘制(Factor levels together) ,也能够不分组一同绘制 (Depentends
together) ,或许不绘制 (None) 。
o Descriptive复选框组:能够选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram) 。
o Normality plots with test复选框:绘制正态散布图并进行变量能否符合正态散布的查验。
o Spread vs. Level with Levene Test单项选择框组:入选择了分组变量时,绘制 spread-versus-level 图(我还没有找到他的中文名字该叫什么),设
置画图时变量的变换方式,并进行组间方差齐性查验。
【Options 钮】
用于选择对缺失值的办理方式,能够是不剖析有任一缺失值的记录、不剖析计算
某统计量时出缺失值的记录,或报告缺失值。
结果解说
以例 6.1 的数据为例,按默认方式下的选择,Explore 过程的输出以下:
Explore
第一是例行的办理记录缺失值状况报告,可见101 例均为有效值。
上表详细列出了常用的描绘统计量,假如有标准误也会列出(如偏度和峰度系数)。
X
X Stem-and-Leaf Plot
Frequency Stem & Leaf
2 .7
3 .00123334
3 .556689999
4 .
4 .5555556666677777777788899
5 .
5 .556778889
6 .112333
6 .5
1.00 Extremes(>=7.2)
Stem width:
Each leaf: 1 case(s)
以上是茎叶图,整数位为茎,小数位为叶。
这样能够特别直观的看出数据的散
布范围及形态,在外国特别流行。
以上是箱式图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线
为最大、最小值。
§6.4 Crosstabs 过程
Crosstabs 过程用于对计数资料和有序分类资料进行统计描绘和简单的统计推
断。
在剖析时能够产生二维至n 维列联表,并计算相应的百分数指标。
统计推测
则包含了我们常用的 X2查验、 Kappa 值,分层 X2( X2M-H)。
假如安装了相应模块,还可计算 n 维列联表确实切概率( Fisher's Exact Test )值。
Crosstabs 过程不可以产生一维频数表(单变量频数表),该功能由Frequencies 过程实现。
界面说明
【Rows框】
用于选择行 * 列表中的行变量。
【Columns框】
用于选择行 * 列表中的列变量。
【Layer 框】
Layer 指的是层,对话框中的很多设置都能够分层设定,在同一层中的变量使用同样
的设置,而不一样层中的变量分别使用各自层的设置。
假如要让不一样的变量做不
一样的剖析,则将其选入 Layer 框,并用 Previous 和 Next 钮设为不一样层。
Layer 在这里用的比较少,在多元回归中我们将进行详细的解说。
【 Display clustered bar charts复选框】
显示重叠条图。
【Suppress table 复选框】严
禁在结果中输出行 * 列表。
【Exact 钮】
针对 2*2 以上的行 * 列表设定计算切实概率的方法,能够是不计算( Asymptotic
only )、蒙特卡罗模拟( Monte Carlo )或切实计算( Exact )。
蒙特卡罗模拟默
认进行 10000 次模拟,给出 99%可信区间;切实计算默认计算时间限制在 5 分钟内。
这些默认值均可改正。
假如你在安装 SPSS时没有安装 EXACT模块,则此处对话框中不会出现Exact 钮。
在 3*3 及以上的行 * 列表中,切实概率的精准计算是极为漫长的过程。
我以前
用 SAS 6.12 在 P133 机上计算过一个 12 格表确实切概率,整整跑了两个小时后,SAS告诉我说机器内存不足 :( 。
SPSS的计算速度比 SAS要慢很多倍,所以一
般只要要采纳蒙特卡罗模拟算出概率值的 99%可信区间就行了,精度完整能够知
足需要,而速度极快( 10000 次模拟一般耗时在 10 秒左右)。
【 Statistics钮】
弹出 Statistics对话框,用于定义所需计算的统计量。
o Chi-square 复选框:计算 X2值。
o Correlations 复选框:计算行、列两变量的 Pearson 有关系数和 Spearman 等级有关系数。
o Norminal 复选框组:选择能否输出反应分类资料有关性的指标,极少使用。
a. Contingency coefficient复选框:即列联系数,其值界于0~ 1 之
间;
b. Phi and Cramer's V 复选框:这二者也是鉴于X2值的, Phi 在四格表
X2查验中界于 -1 ~1 之间,在 R*C表 X2查验中界于 0~1 之间;Cramer's V 则界于 0~1 之间;
mbda复选框:在自变量展望顶用于反应比率减少偏差,其值为 1 时
表示自变量展望应变量好,为 0 时表示自变量展望应变量差;
d.Uncertainty coefficient 复选框:不确定系数,以熵为标准的比率减少
偏差,其值靠近 1 时表示后一变量的信息很大程度来自前一变量,其
值靠近 0 时表示后一变量的信息与前一变量没关。
o Ordinal 复选框组:选择能否输出反应有序分类资料有关性的指标,极少使用。
a.Gamma复选框:界于 0~1 之间,全部察看实质数集中于左上角和
右下角时,其值为 1;
b.Somers'd 复选框:为独立变量上不存在同分的偶对中,同序对子数
超出异序对子数的比率;
c.Kendall's tau-b 复选框:界于 -1 ~1 之间;
d.Kendall's tau-c复选框:界于-1~1之间;
o Eta 复选框:计算 Eta 值,其平方值可以为是应变量受不一样要素影响所致方差的比率;
o Kappa复选框:计算 Kappa值,即内部一致性系数;
o Risk 复选框:计算比数比 OR值;
o McNemanr复选框:进行 McNemanr查验(一种非参查验);
o Cochran's and Mantel-Haenszel statistics复选框:计算X2M-H统计量(分层 X2,也有写为 X2CMH的),可在下方输出H0假定的 OR值,默以为 1。
【 Cells 钮】
弹出 Cells对话框,用于定义列联表单元格中需要计算的指标:
o o Counts 复选框组:能否输出实质察看数(Observed) 和理论数(Expected );Percentages 复选框组:能否输出行百分数(Row)、列百分数(Column)以及共计百分数( Total );
o Residuals 复选框组:选择残差的显示方式,能够是实质数与理论数的差值(Unstandardized )、标化后的差值( Standardized ,实质数与理论数的
差值除理论数),或许由标准误确定的单元格残差(Adj. Standardized );【Format 钮】
用于选择行变量是升序仍是降序摆列。
剖析实例
例某医生用国产呋喃硝胺治疗十二指肠溃疡,以甲氰咪胍作比较组,问两
种方法治疗成效有无差异(医统第二版 P37例 3.10 )?
处理愈合未愈合共计
呋喃硝胺54862
甲氰咪胍442064
合计9828126
解:因为此处给出的直接是频数表,所以在成立数据集时能够直接输入三个变量――行变量、列变量和指示每个格子中频数的变量,而后用Weight Cases 对话框指定频数变量,最后调用 Crosstabs过程进行 X2查验。
假定三个变量分别名为 R、C 和 W,则数据集构造和命令以下:
R C W
00
1.Data==>Weight Cases
2.Weight Cases by 单项选择框:选中
3.Freqency Variable :选入 W
4.单击 OK钮
5.Analyze==>Descriptive Statistics==>Crosstabs
6.Rows框:选入 R
7.Columns框: C
8.Statistics 钮: Chi-square 复选框:选中:单击 Continue 钮
9.单击 OK钮
结果解说
上题的结果以下:
Crosstabs
第一是办理记录缺失值状况报告,可见126 例均为有效值。
上边为列出的四格表,实质使用时能够在此中加入变量值标签,使看起来更清楚。
上表给出了一堆查验结果,从左到右为:查验统计量值(Value) 、自由度 (df) 、两侧近似概率 (Asymp.Sig.2-sided) 、两侧精准概率 (Exact Sig.2-sided) 、单侧精准概率 (Exact Sig.1-sided) ;从上到下为:Pearson 卡方(Pearson Chi-Square
即常用的卡方查验)、连续性校订的卡方值(Continuity Correction)、对数似然比方法计算的卡方 (Likelihood Ratio)、Fisher's切实概率法(Fisher's
Exact Test)、线性有关的卡方值(Linear by Linear Association)、有效记录数 (N of Valid Cases)。
此外,Continuity Correction和Pearson卡方值处罚别标明有 a 和 b,表格下方为相应的讲解: a. 只为 2*2 表计算。
b.0%个格子的希
望频数小于 5,最小的希望频数为 13.78 。
所以,这里不必校订,直接采纳第一
2
行的查验结果,即X =6.133 ,。
怎样采纳上边众多的统计结果令很多初学者头痛,实质上我们只要要在未校订卡方、校订卡方和切实概率法三种方法之间选择即可,其余的对我们而言用途不大,能够置若罔闻。