实验四区间估计与假设检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验4 区间估计与假设检验
利用样本对总体进行统计推断,主要有两类问题:一类是估计问题,另一类是检验问题。参数估计是根据样本的统计量来对总体的参数进行估计,假设检验则是利用样本的统计量来检验事先对总体参数或分布特性所作的假设是否正确。
利用SAS 软件中的INSIGHT 模块和“分析家”功能以及编程的方法,均可以在不同的置信水平下求出总体参数的置信区间,在不同的检验(显著)水平下对总体的参数和分布特性进行检验。
在对总体参数作区间估计和假设检验之前,常常需要判断总体分布是否为正态分布。检验数据是否来自正态分布总体,应用中常用分布拟合图、QQ 图、分布检验等方法。
4.1 实验目的
掌握使用SAS 对总体参数进行区间估计与假设检验方法,掌握使用SAS 对总体分布情况进行判断以及正态性检验的方法。
4.2 实验内容
一、用INSIGHT 对总体参数进行区间估计与假设检验 二、用“分析家”对总体参数进行区间估计与假设检验
三、编程对总体参数进行区间估计与假设检验
四、在INSIGHT 和“分析家”模块中研究分布并使用UNIV ARIATE 过程对总体分布进行正态性检验
4.3 实验指导
一、用INSIGHT 对总体参数进行区间估计与假设检验
【实验4-1】已知某种灯泡的寿命服从正态分布,现从一批灯泡中抽取16只,测得其寿命如表4-1(sy4_1.xls )所示:
表5-1 某种灯泡的寿命(单位:小时)
度与置信水平的关系。
假设上述数据已存放于数据集Mylib.sy4_1中,如图4-1所示,变量sm
表示灯泡寿命。
实验步骤如下:
(1) 启动INSIGHT 模块,并打开数据集Mylib.sy4_1。 (2) 选择菜单“Analyze (分析)”→“Distribution(Y)(分布)”。在打开的“Distribution(Y)”
图4-1 数据集
Mylib.sy4_1
对话框中选定分析变量:sm,如图4-2左所示。
(3) 单击“Output”按钮,在打开的对话框中选中“Basic Confidence interval(基本置信区间)”复选框,如图4-2右。两次单击“OK”按钮,得到结果,如图4-3所示。
图4-2 区间估计的设置
结果包括一个名为“95%Confidence Intervals(95%
置信区间)”的列表,表中给出了均值(Mean)、标准
差(Std Dev)、方差(Variance)的估计值(Estimate)、
置信下限(LCL)和置信上限(UCL)。结果表明,根
据抽样样本,灯泡平均使用寿命的置信水平为95%的
置信区间为(1476.8034,1503.1966)。
(4) 选择菜单“Tables(表)”→“Basic Confidence Interval(基本置信区间)”→“Others (其他)”,在打开的“Basic Confidence Interval”对话框中修改置信水平,如图4-4所示。
图4-4 90%、97.5%置信区间
可以看到,由于置信水平的提高,置信区间的长度在增加。
【实验4-2】正常人的脉搏平均每分钟72次,某医生测得10例“四乙基铅中毒”患者的脉搏数如表4-2(sy4_2.xls)所示:
表4-2 “四乙基铅中毒”患者的脉搏数(次/min)
无显著差异(α = 0.05)?
这是一个单样本均值的双边检验问题。若μ为“四乙基铅中毒”患者脉搏数的均值,需要通过样本数据检验如下假设:
H0:μ =72,H1:μ≠ 72。
图4-3 95%置信区间
假定上述数据存放在数据集Mylib.sy4_2中,如图4-5所示,脉搏次数
用变量cs表示。
使用INSIGHT对均值进行检验的步骤如下:
(1) 首先启动INSIGHT,并打开数据集Mylib.sy4_2,选择菜单“Analyze
(分析)”→“Distribution(Y)(分布)”。
(2) 在打开的“Distribution(Y)”对话框中选定分析变量:选择变量cs,
单击“Y”按钮,将变量移到右上方的列表框中。单击“OK”按钮,得到
变量的描述性统计量。
(3) 选择菜单“Tables(表)”→“Tests for Location(位置检验)”;在弹出的“Tests for Location”对话框中输入72,单击“OK”按钮得到输出结果,如图4-6所示。
图4-6 位置检验
结果显示,不等于72的观测有10个,其中有1个观测值大于72。
图中第一个检验为t检验(Student's t),需要假定变量服从正态分布,检验的p值为0.0366,这个检验在0.05水平下是显著的,可认为均值与72有显著差异。第二个检验(Sign)是叫做符号检验的非参数检验,其p值为0.0215,在0.05水平下是显著的,第三个检验(Sgned Rank)是叫做符号秩检验的非参数检验,其p值为0.0410,在0.05水平下也是显著的。
由于这三个检验的结论中的p值均小于0.05,所以应拒绝原假设,即总体的均值与72有显著差异。因此,可认为“四乙基铅中毒”患者的脉搏和正常人的脉搏有显著差异。
二、用“分析家”对总体参数进行区间估计与假设检验
【实验4-3】用数据集SASUSER.GPA,求总体中女生比例的95%的置信区间( = 0.05)。
步骤如下:
(1) 在“分析家”中打开数据集SASUSER.GPA,选择菜单“Statistics(统计)”→“Hypothesis Tests(假设检验)”→“One Sample Test for a Proportion(单样本比例检验)”。
(2) 在打开的“One Sample Test for a Proportion”对话框中选择变量sex,单击“Variable”,将其移到“Variable”中,单击“Level of Interest”下拉框右侧的下拉箭头,选“female”,如图4-7左所示。
(3) 单击“Intervals”按钮,在打开的对话框中选定置信估计类型和置信水平,如图4-7右所示。两次单击“OK”按钮,得到结果,如图4-8所示。
图4-7 设置比例的置信区间
结果显示:变量sex取值为“female”的比例的95%置信区间为(0.585,0.710)。
图4-5 数据集
Mylib.sy4_2