应用统计学实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《应用统计学》实验报告
班级:管121班
姓名:
学号:
北京建筑大学
2015年01月
实验1 描述统计 (3)
一、实验目的与要求 (3)
二、实验原理 (3)
三、实验步骤 (3)
1.频数分析(Frequencies) (3)
2.描述统计(Descriptives) (8)
实验2 统计推断 (11)
一、实验目的与要求 (11)
二、实验原理 (11)
三、实验演示内容与步骤 (11)
1.单个总体均值的区间估计 (12)
2.两个总体均值之差的区间估计 (14)
4.两独立样本的假设检验(两独立样本T检验) (17)
5.配对样本T检验 (19)
实验1 描述统计
一、实验目的与要求
统计分析的目的在于研究总体特征。
但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。
因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。
通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。
二、实验原理
描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。
集中趋势的特征值:算术平均数、调和平均数、几何平均数、众数、中位数等。
其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。
离散趋势的特征值:全距、内距、平均差、方差、标准差、标准误、离散系数等。
其中标准差、方差适用于正态分布资料,标准误实际上反映了样本均数的波动程度。
分布特征值:偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。
三、实验步骤
1.频数分析(Frequencies)
实验数据1:表2.7为某班级16位学生的身高数据,对其进行频数分析,并对实验报告作出说明。
基本统计分析往往从频数分析开始。
通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。
比如,在某项调查中,想要知道被调查者的性别分布状况。
频数分
析的第一个基本任务是编制频数分布表。
SPSS中的频数分布表包括的内容有:
(1)频数(Frequency)即变量值落在某个区间中的次数。
(2)百分比(Percent)即各频数占总样本数的百分比。
(3)有效百分比(Valid Percent)即各频数占有效样本数的百分比。
这里有效样本数=总样本-缺失样本数。
(4)累计百分比(Cumulative Percent)即各百分比逐级累加起来的结果。
最终取值为百分之百。
频数分析的第二个基本任务是绘制统计图。
统计图是一种最为直接的数据刻画方式,能够非常清晰直观地展示变量的取值状况。
频数分析中常用的统计图包括:条形图,饼图,直方图等。
频数分析的应用步骤:
在SPSS中的频数分析的实现步骤如下:
选择菜单“【文件】—>【打开】—>【数据】”在对话框中的文件类型选项中选择所有文件,找到需要分析的数据文件“SPSS数据/学生身高数据.xls”,然后选择“打开”。
如图1.1所示。
图2.1 打开数据
选择菜单“【分析】—>【描述统计】—>【频率】”。
如图2.2所示
图2.2 频率
确定所要分析的变量,例如身高。
在变量选择确定之后,在同一窗口上,点击“统计量”按钮,打开统计量对话框,如下图2.3所示,选择统计输出选项。
图2.3 统计量子对话框
表2.1 描述性统计量
统计量
身高(cm)
N 有效16
表2.2 Gender频数分布表
身高(cm)
频率百分比有效百分比累积百分比有效150 1 6.3 6.3 6.3 154 1 6.3 6.3 12.5
155 1 6.3 6.3 18.8
156 1 6.3 6.3 25.0
157 1 6.3 6.3 31.3
160 1 6.3 6.3 37.5
169 2 12.5 12.5 50.0
170 1 6.3 6.3 56.3
171 1 6.3 6.3 62.5
172 1 6.3 6.3 68.8
173 1 6.3 6.3 75.0
174 1 6.3 6.3 81.3
177 1 6.3 6.3 87.5
178 1 6.3 6.3 93.8
180 1 6.3 6.3 100.0
合计16 100.0 100.0
图2.4 变量身高的条形图
图2.5 变量身高的饼图
图2.6 变量身高的直方图
结果分析:由实验结果可知,该班学生的平均身高为166.56cm,其中身高为169cm的同学数量最多,身高的标准偏差为9.668cm,根据直方图可得,该班学生的身高分布不均。
2.描述统计(Descriptives)
试验数据2:测量18台电脑笔记重量,见表2.8,对其进行描述统计量分析,并对试验结果作出说明。
表2.8 18台笔记本电脑重量表
序号 1 2 3 4 5 6 7 8 9
重量 1.75 1.92 1.59 1.85 1.83 1.68 1.89 1.70 1.79 序号10 11 12 13 14 15 16 17 18
重量 1.66 1.80 1.83 2.05 1.91 1.76 1.88 1.83 1.79
SPSS的【描述】命令专门用于计算各种描述统计性统计量。
选择菜单【分析】→【描述统计】→【描述】,如图2.7所示
图2.8 描述对话框
将待分析的变量移入描述性列表框,将序号、重量2个变量进行描述性统计,以观察重量与序号的关系。
Save standardized values as variables,对所选择的每个变量进行标准化处理,产生相应的Z分值,作为新变量保存在数据窗口中。
其变量名为相应变量名前加前缀z。
标准化计算公式:
s x
xi Zi -
=
图2.9 描述对话框选项
单击【选项】按钮,如图2.9 所示,选择需要计算的描述统计量。
各描述统计量同Frequencies命令中的Statistics子对话框中大部分相同,这里不再重复。
在主对话框中单击ok执行操作。
描述统计量
N 极小值极大值均值标准差序号18 1 18 9.50 5.339
重量18 1.59 2.05 1.8083 .10777
有效的N (列表状态)18
结果输出与分析:
结果分析:从实验结果中可以看出,该批次笔记本的平均质量为1.8083kg,而大部分笔记本电脑重量在1.8kg左右,占到了总台数的50%以上。
存在个别过轻或者过重的笔记本电脑产品,有可能是不合格产品。
实验2 统计推断
一、实验目的与要求
1.熟悉点估计概念与操作方法
2.熟悉区间估计的概念与操作方法
3.熟练掌握T检验的SPSS操作
4.学会利用T检验方法解决身边的实际问题
二、实验原理
1.参数估计的基本原理
2.假设检验的基本原理
三、实验演示内容与步骤
1.单个总体均值的区间估计
例题:某省大学生四级英语测验平均成绩为65,现从某高校随机抽取20份试卷,其分数为:72、76、68、78、62、59、64、85、70、75、61、74、87、83、54、76、56、66、68、62,问该校英语水平与全区是否基本一致?设α=0.05
♦打开SPSS,建立数据文件:“某省大学生四级英语测验成绩.sav”。
这里,研究变量为:四级英语测验平均成绩成绩,即这20个样本的成绩。
♦选择区间估计选项,方法如下:选择菜单【分析】—>【描述统计】—>【探索】”,打开图3.1探索对话框。
♦从源变量清单中将“四级英语测验平均成绩”变量移入、因变量列表框中。
图3.1 探索对话框
图3.2 探索:统计量
计算结果
表3.2 描述
统计量 标准误 四级英语测验平均成绩 均值 70.1905 2.05243 均值的 95% 置信区间 下限
65.9092 上限
74.4718 5% 修整均值 70.1561 中值 70.0000 方差 88.462 标准差 9.40542 极小值 54.00 极大值 87.00 范围 33.00 四分位距 15.00 偏度 .060 .501 峰度
-.848
.972
如上表显示。
从上表“ 95% Confidence Interval for Mean ”中可以得出区间估计(置信度为
95%) 为:(65.9092,74.4718),其中lower Bound 表示置信区间的下限,Upper Bound 表示置信区间的上限。
点估计是:70.1905
四级英语测验平均成绩 Stem-and-Leaf Plot
Frequency Stem & Leaf
1.00 5 . 4
2.00 5 . 69 4.00 6 . 1224
3.00 6 . 688 3.00 7 . 024 5.00 7 . 56688 1.00 8 . 3
2.00 8 . 57
Stem width: 10.00
Each leaf: 1 case(s)
图3.3
2.两个总体均值之差的区间估计
例题:分析某班级学生的高考数学成绩是否存在性别上的差异。
数据如表所示:
某班级学生的高考数学成绩
性别数学成绩
男(n=18)85 89 75 58 86 80 78 76 84 89 99 95 82 87 60 85 75 80 女(n=12)92 96 86 83 78 87 70 65 70 65 70 78 72 56
♦打开SPSS,按如下图示格式输入原始数据,建立数据文件:“工会会员工
资差别.spss”。
这里,“会员”表示是否为工会会员的变量,y 表示是工会会员,
n表示非工会会员,“报酬”表示女性员工报酬变量,单位:千美元。
♦计算两总体均值之差的区间估计,采用“独立样本T 检验”方法。
选择菜
单“【分析】→【比较均值】→独立样本T检验”,打开对话框。
计算结果单击上图中“OK”按钮,输出结果如下图所示。
分别给出不同总体下的样本容量、均值、标准差和平均标准误。
从该表中可以看出,平均报酬为76.89
组统计量
性别N 均值标准差均值的标准误
成绩0 18 81.2778 10.36854 2.44389
1 14 76.2857 11.43159 3.05522
3.单个总体均值的假设检验(单样本T检验)
判断检验类型该例属于“大样本、总体标准差σ未知。
假设形式为:
H 0:μ=μ
0,
H
1
:μ≠μ
软件实现程序打开已知数据文件,然后选择菜单“【分析】→【比较均值】→单样本T检验”,打开One-Sample T Test 对话框。
从源变量清单中将“产品数量”向右移入“Test Variables”框中。
“One-Sample T Test”窗口中“OK”按钮,输出结果如下表所示。
分别给出样本的容量、均值、标准差和平均标准误。
本例中,产品数量均值为81.28。
单个样本统计量
N 均值标准差均值的标准误
男18 81.28 10.369 2.444
表中的t 表示所计算的T 检验统计量的数值,本例中为33.258。
表中的“df”,表示自由度,本例中为17。
表中的“Sig”(双尾T 检验),表示统计量的P-值,并与双尾T检验的显著性的大小进行比较:Sig.=0.364>0.05,说明这批样本的性别与数学成绩无显著差异。
表中的“Mean Difference”,表示均值差,即样本均值与检验值82.28之差,本例中为0.001。
表中的“95%Confidence Internal of the Difference”,样本均值与检验值偏差的95%置信区间为(76.12,86.43),置信区间不包括数值0,说明样本数量与81.28无显著差异,符合要求。
单个样本检验
检验值 = 0
t df Sig.(双侧) 均值差值差分的 95% 置信区间下限上限
4.两独立样本的假设检验(两独立样本T检验)
备择实验2:分析某班级学生的高考数学成绩是否存在性别上的差异。
数据如表
所示:
某班级学生的高考数学成绩
性别数学成绩
男(n=18)85 89 75 58 86 80 78 76 84 89 99 95 82 87 60 85
75 80
女(n=14)92 96 86 83 78 87 70 65 70 65 70 78 72 56
♦打开SPSS,输入原始数据,建立数据文件:“数学成绩性别差异表.spss”。
这里,“性别”是变量,0表示男生,1表示女生,“成绩”表示学生数学成绩变量,
单位:分。
♦计算两总体均值之差的区间估计,采用“独立样本T 检验”方法。
选择菜
单“【分析】→【比较均值】→独立样本T检验”,打开对话框。
♦变量选择
(1)从源变量清单中将“成绩”变量移入检验变量框中。
表示要求该变量的
均值的区间估计。
(2)从源变量清单中将“性别”变量移入分组变量框中。
表示总体的分类变
量。
♦定义分组单击定义组按钮,打开定义组对话框。
在Group1 中输入0,在Group2 中输入1(0表示男生,1表示女生)。
完成后单击“继续”按钮回到主窗口。
♦计算结果单击上图中“OK”按钮,输出结果如下图所示。
(1)Group Statistics(分组统计量)表
分别给出不同总体下的样本容量、均值、标准差和平均标准误。
从该表中可以看出,男生的平均成绩为81.2778,女生的平均成绩为76.2857。
组统计量
性别N 均值标准差均值的标准误
成绩0 18 81.2778 10.36854 2.44389
1 14 76.2857 11.43159 3.05522
(2)Independent Sample Test (独立样本T 检验)表
Levene’s Test for Equality of Variance,为方差检验,在Equal variances assumed (原假设:方差相等)下,F=0.647,因为其P-值大于显著性水平,即:Sig.=0.428>0.05,说明不能拒绝方差相等的原假设,接受两个总体方差是相等的假设。
T-test for Equality of Means 为检验总体均值是否相等的t 检验,由于在本例t 检验中,其P-值大于显著性水平,即:Sig.=0.206>0.05,因此不应该拒绝原假设,也就是说该班学生的高考数学成绩在性别上没有显著差异。
5.配对样本T检验
配对样本是对应独立样本而言的,配对样本是指一个样本在不同时间做了两次实验,或者具有两个类似的记录,从而比较其差异;独立样本检验是指不同样本平均数的比较,而配对样本检验往往是对相同样本二次平均数的检验。
配对样本T检验的前提条件为:第一,两样本必须是配对的。
即两样本的观察值数目相同,两样本的观察值顺序不随意更改。
第二,样本来自的两个总体必须服从正态分布。
例如针对实验前学习成绩何智商相同的两组学生,分别进行不同教学方法的训练,进行一段时间实验教学后,比较参与实验的两组学生的学习成绩是否存在显著性差异。
假设某校为了检验进行新式培训前后学生的学习成绩是否有了显著提高,从全校学生中随机抽出30名进行测试,这些学生培训前后的考试成绩放置于数据文件“学生培训.sav”中。
在SPSS中对这30名学生的成绩进行配对样本t检验的操作步骤如下:
选择菜单【分析】→【比较均值】→【配对样本T检验】,打开对话框,如图3.8所示,将两个配对变量移入右边的Pair Variables列表框中。
移动的方法是先选择其中的一个配对变量,再选择第二个配对变量,接着单击中间的箭头按钮。
实例结果分析
表中给出了培训前后学生考试成绩的均值、标准差、均值标准误差以及培训前后成绩的相关系数。
从表来看,培训前后平均成绩并没有发生显著的提高。
表中还给出了配对样本t检验结果,包括配对变量差值的均值、标准差、均值标准误差以及差值的95%置信度下的区间估计。
当然也给出了最为重要的t统计量和p值。
结果显示p=0.28>0.05,所以,学校的所谓新式培训并未带来学生成绩的显著变化。
成对样本统计量
Statistic
Bootstrap a
偏差标准误差
95% 置信区间
下限上限
对 1 男均值81.28 -.03 2.32 76.39 85.50 N 18
标准差10.369 -.425 2.060 5.559 13.691
均值的标准误 2.444
女均值76.89 .10 2.55 71.78 82.22 N 18
标准差11.224 -.357 1.342 8.320 13.525
均值的标准误 2.646
应用统计学实验报告
21。