SPSS16实用教程课后答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1-1
答:SPSS的运行方式有三种,分别是批处理方式、完全窗口菜单运行方式、程序运行方式。
1-2
答:与一般电子表格处理软件相比,SPSS的“Data View”窗口还有以下一些特性:(1)一个列对应一个变量,即每一列代表一个变量(V ariable)或一个被观测量的特征;(2)行是观测,即每一行代表一个个体、一个观测、一个样品,在SPSS中称为事件(Case);
(3)单元包含值,即每个单元包括一个观测中的单个变量值;(4)数据文件是一张长方形的二维表。
2-1
答:SPSS中输入数据一般有以下三种方式:(1)通过手工录入数据;(2)可以将其他电子表格软件中的数据整列(行)的复制,然后粘贴到SPSS中;(3)通过读入其他格式文件数据的方式输入数据。
2-2
答:选择“Transform”菜单的Replace Missing Values命令,弹出Replace Missing Values对话框。
先在变量名列中选择1个或多个存在缺失值的变量,使之添加到“New Variable(s)”
框中,这时系统自动产生用于替代缺失值的新变量。
最后选择合适的替代方式即可。
2-3
答:选择“Data”菜单中的Weight Cases命令,出现如图2-22所示的Weight Cases对话框。
其中,Do not weight cases项表示不做加权,这可用于取消加权;Weight cases by项表示选择1个变量做加权。
2-4
答:变量的自动赋值可以将字符型、数字型数值转变成连续的整数,并将结果保存在一个新的变量中。
具体操作的过程如下:选择“Transform”菜单中的Automatic Recode命令,在出现的对话框中,从左边的变量列表中选择需要自动赋值的变量,将它添加到Variable -> New Name框中,然后在下面New Name右边的文本框中输入新的变量名称,单击New Name按钮,将新的变量名添加到上面的框中。
从Recode Starting from框中有两个选项中选择一个,然后单击OK按钮,即可完成自动赋值运算。
3-1
答:一组数据的分布特征可以从平均数、中位数、众数、方差、百分位、频数、峰度、偏度等方面描述。
3-2
答:均值是总体各单位某一数量标志的平均数。
平均数可应用于任何场合,比如在简单时序预测中可用一定观察期内预测目标的时间序列的均值作为下一期的预测值。
中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。
中位数的作用与算术平均数相近,也是作为所研究数据的代表值。
在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。
在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不受极端变量值的影响。
众数是指一组数据中出现次数最多的那个数据。
它主要用于定类(品质标志)数据的集中趋势,当然也适用于作为定序(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值。
3-3
FREQUENCIES V ARIABLES=销售额/NTILES=4 /STATISTICS=STDDEV MEAN MEDIAN /ORDER=ANAL YSIS.
频率
附注
创建的输出18-十月-2010 15时04分19秒
注释
输入活动的数据集数据集0
过滤器<none>
权重<none>
拆分文件<none>
工作数据文件中的N 行30
缺失值处理对缺失的定义用户定义的丢失值作为丢失对待。
使用的案例统计量的计算将基于所有包含有效数据
的案例。
语法FREQUENCIES V ARIABLES=销售额
/NTILES=4
/STA TISTICS=STDDEV MEAN
MEDIAN
/ORDER=ANALYSIS.
资源处理器时间0:00:00.015 已用时间0:00:00.016
[数据集0]
统计量
销售额
N 有效30
缺失0
均值277.40
中值277.00
标准差28.246
百分位数25 256.00
50 277.00
75 301.00
销售额
频率百分比有效百分比累积百分比
有效210 1 3.3 3.3 3.3 234 1 3.3 3.3 6.7
239 1 3.3 3.3 10.0
249 2 6.7 6.7 16.7
252 1 3.3 3.3 20.0
256 2 6.7 6.7 26.7
257 1 3.3 3.3 30.0
258 1 3.3 3.3 33.3
265 1 3.3 3.3 36.7
267 1 3.3 3.3 40.0
268 1 3.3 3.3 43.3
273 1 3.3 3.3 46.7
276 1 3.3 3.3 50.0
278 2 6.7 6.7 56.7
286 1 3.3 3.3 60.0
290 1 3.3 3.3 63.3
297 1 3.3 3.3 66.7
298 2 6.7 6.7 73.3
301 2 6.7 6.7 80.0
309 1 3.3 3.3 83.3
310 1 3.3 3.3 86.7
311 1 3.3 3.3 90.0
316 1 3.3 3.3 93.3
318 1 3.3 3.3 96.7
322 1 3.3 3.3 100.0
合计30 100.0 100.0
答:(1)该百货公司日销售额的均值为277.4万元,中位数为270万元,四分位数为256万元。
⑵答:日销售额的标准差为28.246。
4-4
FREQUENCIES V ARIABLES=成年组身高幼儿组身高/STATISTICS=STDDEV V ARIANCE /ORDER=ANAL YSIS.
频率
附注
创建的输出18-十月-2010 15时32分24秒
注释
输入活动的数据集数据集0
过滤器<none>
权重<none>
拆分文件<none>
工作数据文件中的N 行10 缺失值处理对缺失的定义用户定义的丢失值作为丢失对待。
使用的案例统计量的计算将基于所有包含有效数据
的案例。
语法FREQUENCIES V ARIABLES=成年组身
高幼儿组身高
/STA TISTICS=STDDEV V ARIANCE
/ORDER=ANALYSIS.
资源处理器时间0:00:00.000 已用时间0:00:00.062
[数据集0]
统计量
成年组身高幼儿组身高
N 有效10 10
缺失0 0
标准差 4.158 4.243
方差17.289 18.000
频率表
169 1 10.0 10.0 20.0
171 1 10.0 10.0 30.0
172 2 20.0 20.0 50.0
174 1 10.0 10.0 60.0
175 1 10.0 10.0 70.0
178 1 10.0 10.0 80.0
179 1 10.0 10.0 90.0
180 1 10.0 10.0 100.0
合计10 100.0 100.0
幼儿组身高
频率百分比有效百分比累积百分比
有效68 2 20.0 20.0 20.0
69 2 20.0 20.0 40.0
71 1 10.0 10.0 50.0
72 1 10.0 10.0 60.0
73 2 20.0 20.0 80.0
75 1 10.0 10.0 90.0
82 1 10.0 10.0 100.0
合计10 100.0 100.0
⑴答:应采用方差、标准差来比较成年组和幼儿组的身高差异,
⑵答:通过分析,成年组的身高方差为17.289,标准差为4.158;幼儿组的身高方差为18.000,标准差为4.243。
幼儿组身高差异大。
4-1
答:通过单一样本T检验可以检验某个单一样本某变量的总体均值与指定值之间是否存在显著差异。
4-2
答:对两个独立样本进行均值差异检验需要通过两步来完成:第一,利用F检验判断两总体的方差是否相同;第二,根据第一步的结果,决定T统计量和自由度计算公式,进而对T检验的结论作出判断。
4-3
答:两配对样本T检验的前提要求如下:两个样本应是配对的;样本来自的两个总体应服从正态分布。
4-4
FREQUENCIES V ARIABLES=用药前用药后/STATISTICS=STDDEV V ARIANCE MEAN /ORDER=ANAL YSIS.
频率
附注
创建的输出18-十月-2010 15时44分11秒
注释
输入活动的数据集数据集1
过滤器<none>
权重<none>
拆分文件<none>
工作数据文件中的N 行 6
缺失值处理对缺失的定义用户定义的丢失值作为丢失对待。
使用的案例统计量的计算将基于所有包含有效数据
的案例。
语法FREQUENCIES V ARIABLES=用药前用
药后
/STA TISTICS=STDDEV V ARIANCE
MEAN
/ORDER=ANALYSIS.
资源处理器时间0:00:00.000 已用时间0:00:00.220
[数据集1]
频率表
用药前
频率百分比有效百分比累积百分比
有效107 1 16.7 16.7 16.7 115 1 16.7 16.7 33.3
120 1 16.7 16.7 50.0
127 1 16.7 16.7 66.7
138 1 16.7 16.7 83.3
141 1 16.7 16.7 100.0
合计 6 100.0 100.0
用药后
频率百分比有效百分比累积百分比
有效102 1 16.7 16.7 16.7 107 1 16.7 16.7 33.3
108 1 16.7 16.7 50.0
120 1 16.7 16.7 66.7
123 1 16.7 16.7 83.3
152 1 16.7 16.7 100.0
合计 6 100.0 100.0
T检验
成对样本统计量
均值N 标准差均值的标准误对 1 用药前124.67 6 13.246 5.408 用药后118.67 6 18.217 7.437
成对样本相关系数
N 相关系数Sig.
对 1 用药前& 用药后 6 .653 .159
成对样本检验
t df Sig.(双侧)
对 1 用药前- 用药后 1.061 5 .337
(1)答:用药前的均值为124.67,方差为175.467;用药后的均值为118.67,方差为331.867. (2)答:根据T 检验可得:其相伴概率为0.337,比显著性水平0.05小,拒绝T检验的零假设,治疗前后病人血压有显著变化。
4-5
T-TEST GROUPS=班级('甲' '乙') /MISSING=ANAL YSIS /V ARIABLES=成绩/CRITERIA=CI(.95).
T检验
附注
创建的输出18-十月-2010 16时02分45秒
注释
输入活动的数据集数据集2
过滤器<none>
权重<none>
拆分文件<none>
工作数据文件中的N 行40
缺失值处理缺失的定义用户定义的缺失值将作为缺失对待。
使用的案例每个分析的统计量是根据分析中的每个
变量的值都不缺失或超出范围的案例计
算的。
语法T-TEST GROUPS=班级('甲' '乙')
/MISSING=ANALYSIS
/V ARIABLES=成绩
/CRITERIA=CI(.95).
资源处理器时间0:00:00.016
已用时间0:00:00.219
[数据集2]
组统计量
班级N 均值标准差均值的标准误
成绩甲20 83.60 6.700 1.498
乙20 75.45 9.179 2.053
独立样本检验
均值方程的t 检验
差分的95% 置信区间
标准误差值下限上限
成绩假设方差相等 2.541 3.006 13.294
假设方差不相等 2.541 2.990 13.310
答:相伴概率0.461大于显著水平0.05,不能拒绝反差相等假设,可以认为两班成绩无显著性差异。
5-1
答:方差分析可以用来检验两个及两个以上样本均数之间是否存在显著差异。
5-2
答:因为多因素方差分析不仅需要分析多个控制变量独立作用对观察变量的影响,还要分析多个控制变量交互作用对观察变量的影响,及其他随机变量对结果的影响。
因此,它需要将观察变量总的离差平方和分解为3个部分。
5-3
答:协方差分析是将那些很难控制的因素作为协变量,在排除协变量影响的条件下,分析控制变量对观察变量的影响,从而更加准确地对控制因素进行评价。
当有一些很难控制的随机变量时,可以使用协方差分析将这些随机变量作为协变量。
5-4
ONEW AY 肺活量测定数BY 组别/POL YNOMIAL=1 /STATISTICS HOMOGENEITY WELCH /PLOT MEANS /MISSING ANAL YSIS /POSTHOC=SNK LSD ALPHA(0.05).
单向
附注
创建的输出08-十一月-2010 15时08分23秒
注释
输入活动的数据集数据集0
过滤器<none>
权重<none>
拆分文件<none>
工作数据文件中的N 行29
缺失值处理缺失定义用户定义的缺失值以缺失对待。
使用的案例每个分析的统计量都基于对于该分析中
的任意变量都没有缺失数据的案例。
语法ONEWAY 肺活量测定数BY 组别
/POLYNOMIAL=1
/STA TISTICS HOMOGENEITY
WELCH
/PLOT MEANS
/MISSING ANALYSIS
/POSTHOC=SNK LSD ALPHA(0.05).
资源处理器时间0:00:01.265
已用时间0:00:03.906
[数据集0]
ANOV A
肺活量测定数
平方和df 均方 F 显著性
组间(组合)10.919 2 5.460 97.103 .000 线性项未加权的10.804 1 10.804 192.160 .000 加权的10.804 1 10.804 192.160 .000
偏差.115 1 .115 2.045 .165
组内 1.462 26 .056
总数12.381 28
在此之后检验
多重比较
因变量:肺活量测定数
同类子集
均值图
答:用单因素方差检验进行检验得,患者,可疑患者和非患者三个组的总体方差是相等的,也就具备了进行方差检验的条件,从单因素发差检验结果看,这三个组之间存在着显著差异。
5-5
UNIANOV A 入院前的血压BY 组别WITH 入院治疗后的血压/METHOD=SSTYPE(3) /INTERCEPT=INCLUDE /PRINT=HOMOGENEITY /CRITERIA=ALPHA(.05) /DESIGN=入院治疗后的血压组别.
方差的单变量分析
附注
创建的输出08-十一月-2010 15时22分18秒
注释
输入活动的数据集数据集1
过滤器<none>
权重<none>
拆分文件<none>
工作数据文件中的N 行18 缺失值处理对缺失的定义用户定义的缺失值作为缺失数据对待。
使用的案例统计量的计算将基于带有有效数据的所
有案例,而这些有效数据适用于模型中的
所有变量。
语法UNIANOV A 入院前的血压BY 组别
WITH 入院治疗后的血压
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PRINT=HOMOGENEITY
/CRITERIA=ALPHA(.05)
/DESIGN=入院治疗后的血压组别.
资源处理器时间0:00:00.031 已用时间0:00:00.171
[数据集1]
主体间因子
N
组别0 6
1 6
2 6
误差方差等同性的Levene 检验a
因变量:入院前的血压
答:这三个组别的接受治疗的患者在接受治疗之前各组之间没有显著性差异,在接受治疗之后,三个组别之间仍然没有显著性差异。
但是通过配对样本的T检验得知,用这三种治疗方法进行治疗的患者在治疗前后血压都有有显著性差异,也即是说三种治疗方法都是有效的,并且彼此之间差别不显著。
6-1
答:相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
常用方法有二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析、距离相关分析。
6-2
偏相关研究在多变量的情况下,当控制其他变量影响后,两个变量间的直线相关程度。
又称净相关或部分相关。
6-3
答:距离相关分析是对观测量之间或变量之间相似或不相似的程度的一种测量。
6-4
近似值
近似矩阵
值向量间的相关性
9 10 11 12
由上图可jud2和jud6比较相似
6-5
偏相关
[数据集1]
相关性
控制变量v1 v2 v3 v4 y
-无-a v1 相关性 1.000 .719 .602 .342 .533 显著性(双侧). .000 .001 .075 .003
df 0 26 26 26 26 v2 相关性.719 1.000 .958 .826 .693 显著性(双侧).000 . .000 .000 .000
df 26 0 26 26 26 v3 相关性.602 .958 1.000 .934 .664 显著性(双侧).001 .000 . .000 .000
df 26 26 0 26 26 v4 相关性.342 .826 .934 1.000 .560 显著性(双侧).075 .000 .000 . .002
df 26 26 26 0 26
第一,第二,第三产业在国民生产总值中所占的比例越来越大
7-1
答:一元线性回归分析:一元线性回归分析是排除其他因素确定的条件下,分析某一个因素是如何影响另一事物的过程所进行的分析是理想化的。
一元线性回归分析只涉及一个自变量的回归问题。
多元线性回归分析:研究线性相关条件下两个或两个以上自变量的数量变化关系,成为多元线性回归分析。
用于解决两个或两个以上自变量对一个因变量的数量变化关系问题。
7-2
答:非线性回归问题大多数可以化为线性回归问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其化为线性模型来求解。
曲线估计是在用户往往不能确定究竟该选择何种函数模型更接近样本数据时采用的方法。
7-3
答:最小二乘法是加权最小二乘法的特例。
使用最小二乘法需要一些前提,数据大多数时候是满足这些条件的。
但有时候这些条件是不能满足的,这时需要对原始数据作适当变换,让他符合最小二乘法的使用条件,然后继续使用最小二乘法。
从整体上看,在处理数据前作的处理相当于在数据上加权,这个时候就把整个处理过程(包括数据事前的变换以及后来运用最小二乘法)看作加了权的最小二乘法。
从这个意义上讲,加权最小二乘法就是最小二乘法。
7-4
回归
[数据集0]
系数a
Y=72.253+0.298x
7-5
曲线拟合
变量处理摘要
变量
因变量自变量
y x
正值数 6 6
零的个数0 0
负值数0 0
缺失值数用户自定义缺失0 0
系统缺失0 0
7-6
答:(1)原假设为该回归系数与零没有显著差异,备择假设为回归系数与零有显著差异。
判决系数为0.000小于0.001说明自变量跟因变量之间存在线性回归关系。
(2)y=8.184+0.855x
7-7
Model Summary and Parameter Estimates
Dependent Variable:y
Equation
Parameter Estimates Constant b1 b2 b3
Logarithmic 106.497 1.591
Cubic 104.450 1.507 -.119 .003
The independent variable is x.
由上表可看出三次函数的拟合度为0.891大于对数函数的拟合度0.802
从对比图看出三次函数的拟合度的确比对数函数的拟合度高因此决定在研究问题时选择三次函数。
Y=168.698+605.604/x
Y与1/x的相关系数是
8-1
聚类分析是统计学中研究“物以类聚”问题的一种有效方法,它属于统计分析范畴,其实质是建立一种能将样本数据按照他们在性质上的亲密程度在没有先验知识的情况下进行自动分类,能从本数据出发,自动进行分析,通过数据建模简化数据的一种方法。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等。
8-2
答:树形图以树的形式展现聚类分析的每一次合并过程,SPSS首先将各类之间的距离重新转换到0-25之间,然后在近似的表示在图上。
树形图可以粗略的表现聚类的过程。
冰柱图通过表格中的“X”,符号显示,其样子很像冬天房屋下的冰柱。
8-3
答:判别分析先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断已将之归入已知的类别中。
原则:1事前组别(类)的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。
2所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而又高辨别能力的目标。
3初始分析的数目不能太少。
8-4
QUICK CLUSTER tear_res gloss opacity /MISSING=LISTWISE /CRITERIA=CLUSTER(3) MXITER(10) CONVERGE(0) /METHOD=KMEANS(UPDATE) /SA VE CLUSTER DISTANCE /PRINT ID(品种) INITIAL ANOV A CLUSTER DISTAN.
快速聚类
附注
创建的输出08-十一月-2010 15时56分31秒
注释
输入活动的数据集数据集2
过滤器<none>
权重<none>
拆分文件<none>
工作数据文件中的N 行20
缺失值处理对缺失的定义用户定义的缺失值将作为缺失处理。
使用的案例统计量将基于案例进行计算,在这些案例
中,所有用到的聚类变量都没有缺失值。
语法QUICK CLUSTER tear_res gloss opacity
/MISSING=LISTWISE
/CRITERIA=CLUSTER(3) MXITER(10)
CONVERGE(0)
/METHOD=KMEANS(UPDATE)
/SA VE CLUSTER DISTANCE
/PRINT ID(品种) INITIAL ANOV A
CLUSTER DISTAN.
资源处理器时间0:00:00.125
已用时间0:00:00.266
所需的工作空间736 字节已创建或修改的变量QCL_3 案例的类别号
QCL_4 案例与其类别中心之间的距离
[数据集2]
初始聚类中心
聚类
1 2 3
tear_res 7.0 7.1 6.5
gloss 8.8 9.2 9.2
opacity 5.2 8.4 .8
最终聚类中心
聚类
1 2 3
每个聚类中的案例数
聚类 1 7.000
2 5.000
3 8.000
有效20.000
缺失.000
8-5
QUICK CLUSTER 环乙烷环氧氯丙烷二氧化碳硫化氢氯气/MISSING=LISTWISE
/CRITERIA=CLUSTER(2) MXITER(10) CONVERGE(0) /METHOD=KMEANS(UPDATE) /SA VE CLUSTER DISTANCE /PRINT ID(抽样点) INITIAL ANOV A CLUSTER DISTAN.
快速聚类
[数据集3]
最终聚类中心间的距离
聚类 1 2
1 .066
2 .066
每个聚类中的案例数
聚类 1 3.000
2 7.000
有效10.000
缺失.000。