案例库 项目八假设检验 回归分析与方差分析
假设检验-方差分析及回归分析

1.645 时,拒绝 H0。
率有显著提高,此时犯(第一类)错误的 5% 。 概率不会超过
若取 0.005 , 查表得
z 0.005 2.57 , 仍有 z 3.125 2.57 , 所以在显著性水平 0.005 下
也拒绝 H0,从而可断定犯错误的概率 不会超过 0.5% 。
( n1 1) s ( n2 1) s , n1 n2 2
2 1 2 2
若 t t ( n1 n 2 2) ,则拒绝 H0
2
右边检验
H 0 : 1 2 0 , H 1 : 1 2 0
若 t t ( n1 n 2 2 ) ,则拒绝 H0
第八章 假设检验
第九章 方差分析及回归分析
第八章 假设检验
§1 假设检验
§2 正态总体均值的假设检验
§3 正态总体方差的假设检验
§5 分布拟合检验
§1 假设检验 实际推断原理 概率很小的事件在一
次试验中实际上可认为是不会发生的。本章 的内容,一是已知总体的分布类型,而对包 含的未知参数作某些假设,二是未知总体的 分布类型,而对总体的分布作出假设。 所谓假设检验就是提出假设后,根据实 际推断原理作出接受还是拒绝的判断。
2
均未知。 2 2 2 2 H0 : 1 2 , H1 : 1 2
s 检验统计量 F , s
若 F F ( n1 1, n 2 1)
2
2 1 2 2
或 F F1 ( n1 1, n 2 1) ,
2
则拒绝 H0。
若
2 2
F1 ( n1 1, n2 1) F F ( n1 1, n2 1) ,
假设检验与方差分析

进行决策
根据样本数据和临界值做出接 受或拒绝原假设的决策。
CHAPTER 02
单样本与双样本假设检验
单样本假设检验
定义
单样本假设检验是用来检验一个样本均值是否等于已 知的某个值。
公式
Z检验或t检验
应用场景
例如,检验某班级学生的平均成绩是否达到预期水平。
双样本假设检验
假设检验与方差分析
CONTENTS 目录
• 假设检验概述 • 单样本与双样本假设检验 • 方差分析 • 回归分析与相关分析 • 应用实例
CHAPTER 01
假设检验概述
定义与目的
定义
假设检验是一种统计方法,用于根据 样本数据对某一假设进行评估。
目的
判断假设是否成立,从而做出接受或 拒绝该假设的决策。
方差分析
在农业实验中,为了比较不同品种作物的产量,可以使用方差分析来检验不同品种间是否存在显著差异。通过收 集多组数据,分析不同品种作物的产量均值,判断各品种间的产量差异是否具有统计学上的显著性。
案例分析
假设检验案例
某大学为了研究不同教学方法对学习成绩的影响,选取了两个班级作为实验组 和对照组。通过收集两个班级学生的考试成绩,利用假设检验方法判断新教学 方法是否显著提高了学生的学习成绩。
确地比较不同组别的差异。 • 总体而言,回归分析和方差分析都是重要的统计分析工具,根据研究目的和研究数据的特征选择合适的分析方法是非常重要的。
CHAPTER 05
应用实例
实际数据应用
假设检验
在医学研究中,假设检验常用于判断新药是否比对照组更有效。通过收集两组患者的数据,比较治疗前后的效果, 利用假设检验方法判断新药是否具有显著疗效。
统计分析中的假设检验与方差分析

统计分析中的假设检验与方差分析统计分析是一种科学的方法,通过对数据进行收集、整理、分析和解释,帮助我们了解现象背后的规律和关系。
在统计分析中,假设检验和方差分析是两个重要的概念和工具。
本文将介绍这两个概念的基本原理和应用。
一、假设检验假设检验是统计学中的一种常用方法,用于判断样本数据是否能够反映总体的特征。
在假设检验中,我们首先提出一个原假设(H0)和一个备择假设(H1),然后通过对样本数据的分析,判断是否拒绝原假设。
在假设检验中,我们需要进行以下几个步骤:1. 确定原假设和备择假设:原假设通常是我们要证伪的观点,备择假设则是我们要支持的观点。
例如,我们想要检验某个新药物是否有效,原假设可以是“该药物无效”,备择假设可以是“该药物有效”。
2. 选择显著性水平:显著性水平(α)是我们在进行假设检验时所允许的错误概率。
通常情况下,我们选择的显著性水平为0.05或0.01。
如果计算得到的p值小于显著性水平,则我们拒绝原假设。
3. 计算检验统计量:检验统计量是根据样本数据计算得到的一个数值,用于判断样本数据是否支持备择假设。
常见的检验统计量包括t值、F值等。
4. 判断拒绝或接受原假设:根据计算得到的检验统计量和显著性水平,我们可以判断是否拒绝原假设。
如果p值小于显著性水平,则我们拒绝原假设,否则我们接受原假设。
假设检验在实际应用中具有广泛的应用,例如医学研究、市场调查、工程设计等。
通过假设检验,我们可以对研究结果进行客观的评估和判断,从而做出更准确的决策。
二、方差分析方差分析是一种用于比较多个样本均值是否存在显著差异的统计方法。
在方差分析中,我们将总体分为若干个独立的组,然后通过计算组间方差和组内方差的比值,来判断不同组之间的均值是否存在显著差异。
方差分析的基本原理是利用方差的性质来比较样本均值之间的差异。
具体步骤如下:1. 确定独立变量和因变量:独立变量是我们要比较的不同组别,而因变量是我们要研究的特征或指标。
项目八假设检验回归分析与方差分析

项目八 假设检验、回归分析与方差分析实验2 回归分析实验目的 学习利用Mathematica 求解一元线性回归问题. 学会正确使用命令线性回归Regress, 并从输出表中读懂线性回归模型中各参数的估计, 回归方程, 线性假设的显著性检验结果, 因变量Y 在预察点0x 的预测区间等.基本命令1.调用线性回归软件包的命令<<Statistics\LinearRegression.m 输入并执行调用线性回归软件包的命令<<Statistics\LinearRegression.m或调用整个统计软件包的命令<<Statistics`2.线性回归的命令Regress一元和多元线性回归的命令都是Regress. 其格式是Regress[数据, 回归函数的简略形式, 自变量,RegressionReport(回归报告)->{选项1,选项2,选项3,…}]注: 回归报告中包含BestFit(最佳拟合,即回归函数), ParameterCITable(参数的置信区间表), PredictedResponse(因变量的预测值), SinglePredictionCITable(因变量的预测区间), FitResiduals(拟合的残差), SummaryReport(总结性报告)等.3.抹平“集合的集合”的命令Flatten命令Flatten[A]将集合的集合A 抹平为只有一个层次的集合. 例如, 输入Flatten[{{1,2,3},{1,{3}}}]则输出{1,2,3,1,3}.4.非线性拟合的命令NonlinearFit 使用的基本格式为NonlinearFit [数据, 拟合函数, (拟合函数中的)变量集, (拟合函数中的)参数, 选项] 注: 拟合函数中既有变量又有参数, 变量的个数要与数据的形式相应. 参数集中往往需 要给出各参数的初值. 选项的内容主要是指定拟合算法、迭代次数和精度.实验举例例2.1 (教材 例2.1) 某建材实验室做陶粒混凝土实验室中, 考察每立方米)(3m 混凝土的水泥用量(kg)对混凝土抗压强度)/(2cm kg 的影响, 测得下列数据:7.894.866.822.804.771.742602502402302202103.711.686.646.613.589.56200190180170160150yx y x 抗压强度水泥用量抗压强度水泥用量(1) 画出散点图;(2) 求y 关于x 的线性回归方程,ˆˆˆx b a y+=并作回归分析; (3) 设2250=x kg, 求y 的预测值及置信水平为0.95的预测区间.先输入数据:aa = {{150,56.9},{160,58.3},{170,61.6},{180,64.6},{190,68.1},{200,71.3},{210,74.1},{220,77.4},{230,80.2},{240,82.6},{250,86.4},{260,89.7}};(1) 作出数据表的散点图. 输入ListPlot[aa,PlotRange->{{140,270},{50,90}}]则输出图2.1.图2.1(2) 作一元回归分析, 输入Regress[aa,{1,x},x,RegressionReport->{BestFit,ParameterCITable,SummaryReport}]则输出{BestFit->10.2829+0.303986x, ParameterCITable->Estimate SE CI 1 10.2829 0.850375 {8.388111,12.1776}, x 0.303986 0.00409058 {0.294872,0.3131} ParameterTable->Esimate SE Tstat PValue 110.28290.85037512.09222.71852710-⨯,x 0.303986 0.00409058 74.3137 4.884981510-⨯ Rsquared->0.998193,AdjustedRSquared->0.998012, EstimatedVariance->0.0407025,ANOV A Table->DF SumOfSq MeanSq Fratio PValue Model1 1321.43 1321.435522.524.773961510-⨯Error10 2.39280.23928Total 11 1323.82现对上述回归分析报告说明如下:BestFit(最优拟合)-> 10.2829+0.303986x 表示一元回归方程为x y 303986.02829.10+=;ParameterCITable(参数置信区间表)中: Estimate 这一列表示回归函数中参数a , b 的点估计为aˆ=10.2829 (第一行), b ˆ= 0.303986 (第二行); SE 这一列的第一行表示估计量a ˆ的标准差为0.850375, 第二行表示估计量bˆ的标准差为0.00409058; CI 这一列分别表示a ˆ的置信水平为0.95的置信区间是(8.388111,12.1776), bˆ的置信水平为0.95的置信区间是 (0.294872,0.3131).ParameterTable(参数表)中前两列的意义同参数置信区间表; Tstat 与Pvalue 这两列的第一行表示作假设检验(t 检验):0:,0:10≠=a H a H 时, T 统计量的观察值为12.0922, 检验统计量的P 值为2.71852710-⨯, 这个P 值非常小, 检验结果强烈地否定0:0=a H , 接受0:1≠a H ; 第二行表示作假设检验(t 检验): ,0:0=b H 0:1≠b H 时T 统计量的观察值为74.3137, 检验统计量的P 值为 4.884981510-⨯, 这个P 值也非常小, 检验结果强烈地否定,0:0=b H 接受0:1≠b H .Rsquared->0.998193, 表示.998193.0)()(2==总平方和回归平方和SST SSR R 它说明y 的变化有99.8%来自x 的变化; AdjustedRSquared->0.998012, 表示修正后的=2~R 0.998012.EstimatedVariance->0.0407025, 表示线性模型),0(~,2σεεN bx a y ++=中方差2σ的估计为0.0407025.ANOV A Table(回归方差分析表)中的DF 这一列为自由度: Model(一元线性回归模型)的自由度为1, Error(残差)的自由度为,102=-n Total(总的)自由度为.111=-nSumOfSq 这一列为平方和: 回归平方和=SSR 1321.43, 残差平方和=SSE 2.3928,总的平方和=+=SSE SSR SST 1323.82;MeanSq 这一列是平方和的平均值, 由SumOfSq 这一列除以对应的DF 得到, 即.23928.02,43.13211=-===n SSEMSE SSR MSR FRatio 这一列为统计量MSEMSRF =的值, 即.52.5522=F 最后一列表示统计量F 的P 值非常接近于0. 因此在作模型参数)(b =β的假设检验(F 检验):0:;0:10≠=ββH H 时, 强烈地否定0:0=βH , 即模型的参数向量.0≠β因此回归效果 非常显著.(3) 在命令RegressionReport 的选项中增加RegressionReport->{SinglePredictionCITable}就可以得到在变量x 的观察点处的y 的预测值和预测区间. 虽然0.14=x 不是观察点, 但是可以用线性插值的方法得到近似的置信区间. 输入aa=Sort[aa]; (*对数据aa 按照水泥用量x 的大小进行排序*)regress2=Regress[aa,{1,x},x,RegressionReport->{SinglePredictionCITable}](*对数据aa 作线性回归, 回归报告输出y 值的预测区间*)执行后输出{SinglePredictionCITable-> Observed PredictedSE CI56.9 55.8808 0.55663 {54.6405,57.121} 58.3 58.92060.541391 {57.7143,60.1269} 61.6 61.9605 0.528883 {60.7821,63.1389} 64.6 65.00030.519305 {63.8433,66.1574} 68.1 68.0402 0.51282 {66.8976,69.1828} 71.3 71.0801 0.509547 {69.9447,72.2154}} 74.1 74.1199 0.509547 {72.9846,75.2553} 77.4 77.1598 0.51282 {76.0172,78.3024} 80.2 80.1997 0.519305 {79.0426,81.3567} 82.6 83.2395 0.528883 {82.0611,84.4179} 86.4 86.2794 0.541391 {85.0731,87.4857} 89.7 89.3192 0.55663 {88.079,90.5595}上表中第一列是观察到的y 的值, 第二列是y 的预测值, 第三列是标准差, 第四列是相应的预测区间(置信度为0.95). 从上表可见在)4.77(220==y x 时, y 的预测值为77.1598, 置信度为0.95的预测区间为(76.0172,75.2553), 在)2.80(230==y x 时, y 的预测值为80.1997, 置信度为0.95的预测区间为{79.0426,81.3567}. 利用线性回归方程, 可算得=0x 225时, y 的预测值为78.68, 置信度为0.95的预测区间为(77.546, 79.814).利用上述插值思想, 可以进一步作出预测区间的图形. 先输入调用图软件包命令<<Graphics`执行后再输入{observed2,predicted2,se2,ci2}=Transpose[(SinglePredictionCITable/.regress2)[[1]]];(*取出上面输出表中的四组数据, 分别记作observed2,predicted2,se2,ci2*) xva12=Map[First,aa];(*取出数据aa 中的第一列, 即数据中x 的值, 记作xva12*) Predicted3=Transpose[{xva12,predicted2}];(*把x 的值xva12与相应的预测值predicted2配成数对, 它们应该在一条回 归直线上*)lowerCI2=Transpose[{xva12,Map[First,ci2]}];(*Map[First,ci2]取出预测区间的第一个值, 即置信下限. x 的值xva12与相应 的置信下限配成数对*)upperCI2=Transpose[{xva12,Map[Last,ci2]}];(*Map[Last,ci2]取出预测区间的第二个值, 即置信上限. x 的值xva12与相应的置信上限配成数对*)MultipleListPlot[aa,Predicted3,lowerCI2,upperCI2,PlotJoined->{False,True,True,True},SymbolShape->{PlotSymbol[Diamond],None,None, None}, PlotStyle->{Automatic,Automatic,Dashing[{0.04,0.04}], Dashing[{0.04,0.04}]}](*把原始数据aa 和上面命令得到的三组数对predicted3,lowerCI2,upperCI2 用多重散点图命令MultipleListPlot 在同一个坐标中画出来. 图形中数据 aa 的散点图不用线段连接起来, 其余的三组散点图用线段连接起来, 而 且最后两组数据的散点图用虚线连接.*)则输出图2.2.图2.2从图形中可以看到, 由Y 的预测值连接起来的实线就是回归直线. 钻石形的点是原始数 据. 虚线构成预测区间.多元线性回归例2.2 (教材 例2.2) 一种合金在某种添加剂的不同浓度下, 各做三次试验, 得到数据如下表:8.323.327.298.277.288.301.306.321.313.274.297.312.318.292.250.300.250.200.150.10Yx 抗压强度浓度(1) 作散点图;(2) 以模型),0(~,22210σεεN x b x b b Y +++=拟合数据, 其中2210,,,σb b b 与x 无关;(3) 求回归方程,ˆˆˆˆ2210x b x b b y ++=并作回归分析. 先输入数据bb={{10.0,25.2},{10.0,27.3},{10.0,28.7},{15.0,29.8},{15.0,31.1},{15.0,27.8},{20.0,31.2},{20.0,32.6}, {20.0,29.7},{25.0,31.7},{25.0,30.1},{25.0,32.3}, {30.0,29.4},{30.0,30.8},{30.0,32.8}};(1) 作散点图, 输入ListPlot[bb,PlotRange->{{5,32},{23,33}},AxesOrigin->{8,24}]则输出图2.3.图2.3(2) 作二元线性回归, 输入Regress[bb,{1,x,x^2},x,RegressionReport->{BestFit,ParameterCITable,SummaryReport}](*对数据bb 作回归分析, 回归函数为,2210x b x b b ++用{1,x,x^2}表示, 自变量为x, 参数0b ,1b ,2b 的置信水平为0.95的置信区间)执行后得到输出的结果:{bestFit->19.0333+1.00857x-0.020381x 2, ParameterCITable->Estimate SE CI119.0333 3.27755{11.8922,26.1745} x 1.00857 0.356431{0.231975,1.78517}x 2 -0.0203810.00881488{-0.0395869,-0.00117497}ParameterTable->Estimate SE Tstat PValue 119.03333.277555.807180.0000837856x 1.00857 0.356431 2.82964 0.0151859 x 2 -0.0203810.00881488-2.312110.0393258Rsquared->0.614021,AdjustedRSquared->0.549692, EstimatedVariance->2.03968,ANOV A Table->DF SumOfSqMeanSq Fratio PValue Mode1 2 38.937119.4686 9.54490.00330658Error 12 24.47622.03968Total14 63.4133从输出结果可见: 回归方程为,020381.000857.10333.192x x Y -+=.020381.0ˆ,00857.1ˆ,0333.19ˆ210-===b b b 它们的置信水平为0.95的置信区间分别是 (11.8922,26.1745),(0.231975,1.78517),(-0.0395869,-0.00117497).假设检验的结果是: 在显著性水平为0.95时它们都不等于零. 模型),0(~,22210σεεN x b x b b Y +++=中,2σ的估计为2.03968. 对模型参数T b b ),(21=β是否等于零的检验结果是: .0≠β因此回归效果显著.非线性回归例2.3 下面的数据来自对某种遗传特征的研究结果, 一共有2723对数据, 把它们分成8类后归纳为下表.36.1937.1991.2079.2115.2342.257.2908.3887654321917461203246071021579y x 遗传性指标分类变量频率研究者通过散点图认为y 和x 符合指数关系:,c ae y bx += 其中c b a ,,是参数. 求参数c b a ,,的最小二乘估计.因为y 和x 的关系不是能用Fit 命令拟合的线性关系, 也不能转换为线性回归模型. 因此考虑用(1)多元微积分的方法求c b a ,,的最小二乘估计; (2)非线性拟合命令NonlinearFit 求c b a ,,的最小二乘估计.(1) 微积分方法 输入Off[Genera1::spe11] Off[Genera1::spe111] Clear[x,y,a,b,c]dataset={{579,1,38.08},{1021,2,29.70},{607,3,25.42},{324,4,23.15},{120,5,21.79},{46,6,20.91},{17,7,19.37},{9,8,19.36}}; (*输入数据集*) y[x_]:=a Exp[b x]+c (*定义函数关系*)下面一组命令先定义了曲线c ae y bx +=与2723个数据点的垂直方向的距离平方和, 记为).,,(c b a g 再求),,(c b a g 对c b a ,,的偏导数,,,cgb g a g ∂∂∂∂∂∂分别记为.,,gc gb ga 用FindRoot 命令解三个偏导数等于零组成的方程组(求解c b a ,,). 其结果就是所要求的c b a ,,的最小二乘估计. 输入Clear[a,b,c,f,fa,fb,fc]g[a_,b_,c_]:=Sum[dataset[[i,1]]*(dataset[[i,3]]-a*Exp[dataset[[i,2]]*b]-c)^2,{i,1,Length[dataset]}] ga[a_,b_,c_]=D[g[a,b,c],a]; gb[a_,b_,c_]=D[g[a,b,c],b]; gc[a_,b_,c_]=D[g[a,b,c],c]; Clear[a,b,c]oursolution=FindRoot[{ga[a,b,c]==0,gb[a,b,c]==0,gc[a,b,c]==0},{a,40.},{b,-1.},{c,20.}](* 40是a 的初值, -1是b 的初值, 20是c 的初值*)则输出{a->33.2221,b->-0.626855,c->20.2913} 再输入yhat[x_]=y[x]/.oursolution则输出20.2913+33.2221x e 626855.0这就是y 和x 的最佳拟合关系. 输入以下命令可以得到拟合函数和数据点的图形:p1=Plot[yhat[x],{x,0,12},PlotRange->{15,55},DisplayFunction->Identity]; pts=Table[{dataset[[i,2]],dataset[[i,3]]},{i,1,Length[dataset]}]; p2=ListPlot[pts,PlotStyle->PointSize[.01],DisplayFunction->Identity]; Show[p1,p2,DisplayFunction->$DisplayFunction];则输出图2.4.图2.4(2) 直接用非线性拟合命令NonlinearFit 方法 输入data2=Flatten[Table[Table[{dataset[[j,2]],dataset[[j, 3]]},{i,dataset[[j,1]]}],{j,1,Length[dataset]}],1]; (*把数据集恢复成2723个数对的形式*)<<Statistics`w=NonlinearFit[data2,a*Exp[b*x]+c,{x},{{a,40},{b,-1},{c,20}}]则输出x e 626855.02221.332913.20-+这个结果与(1)的结果完全相同. 这里同样要注意的是参数c b a ,,必须选择合适的初值.如果要评价回归效果, 则只要求出2723个数据的残差平方和.)ˆ(2∑-i i yy 输入 yest=Table[yhat[dataset[[i,2]]],{i,1, Length[dataset]}];yact=Table[dataset[[i,3]],{i,1,Length[dataset]}]; wts=Table[dataset[[i,1]],{i,1,Length[dataset]}]; sse=wts.(yact-yest)^2 (*作点乘运算*)则输出59.9664即2723个数据的残差平方和是59.9664. 再求出2723个数据的总的相对误差的平方和.]ˆ/)ˆ[(2∑-i i i y yy 输入 sse2=wts.((yact-yest)^2/yest) (*作点乘运算)则输出2.74075由此可见, 回归效果是显著的.实验习题1.某乡镇企业的产品年销售额x 与所获纯利润y 从1984年的数据(单位:百万元)如下表3.225.207.174.157.135.117.94.83.84.65.43.349.328.294.241.214.176.147.104.95.71.69493929190898887868584y x 纯利润销售额年度 试求y 对x 的经验回归直线方程, 并作回归分析.2.在钢线碳含量对于电阻的效应的研究中, 得到以下数据268.236.2221191815/95.080.070.055.040.030.010.0%/Ωμy x 电阻碳含量试求y 对x 的经验回归直线方程, 并作简单回归分析.(1) 画出散点图;(2) 求y 关于x 的线性回归方程,ˆˆˆx b a y+=并作回归分析; (3) 求0.14=x 时y 的置信水平为0.95的预测区间.4.下面给出了某种产品每件平均单价Y (单位:元)与批量x (单位:件)之间的关系的一组数 据18.120.121.124.126.130.140.148.155.165.170.181.1908075706560504035302520y x(i)作散点图. (ii)以模型),0(~,22210σεεN x b x b b Y +++=拟合数据, 求回归方程,ˆˆˆˆ2210x b x b b Y ++=并作简单回归分析.]。
第八章方差分析与回归分析1

饲料A
A1 A2 A3
鸡重/g
1073 1009 1060 1001 1002 1012 1009 1028 1107 1092 990 1109 1090 1074 1122 1001 1093 1029 1080 1021 1022 1032 1029 1048
比较三种饲料的增重效果是否一致
利用样本比较三个总体均值是否相等
直观上看该问题可以用两个总体均值差异显著性检验解决, 但细想想还是存在一定问题,因为这样的比较能增大犯错误的 概率。为解决这类问题,英国统计学家R.A.Fisher于1924年提出 了解决此类问题的通用方法-方差分析法。
2.方差分析的概念
试验指标: 试验结果。
可控因素: 在影响试验结果的众多因素中,可人为控制
间的差异 这种差异可能是由于抽样的随机性所造成的,也可能是由 于行业本身所造成的,后者所形成的误差是由系统性因素
造成的,称为系统误差
数据的误差用平方和(sum of squares)表示,称 为方差
组内方差(within groups)
因素的同一水平(同一个总体)下样本数据的方差 比如,零售业被投诉次数的方差
2MSe r
以LSD 为两均值比较的最小显著差。 如果xi , xj (i, j 1, 2, , a,i j)表示两个样本均值。 当 xi xj LSD时,就认为第i, j水平间均值差异显著;
当 xi xj LSD时,就认为第i, j水平间均值差异不显著。 q法(又称SNK (student-Newman-Keuls)检验法)
q测验方法是将r个平均数由大到小排列后,根据所比较 的两个处理平均数的差数是几个平均数间的极差分别确 定最小显著极差LSRα值的。
(项目管理)假设检验项目八假设检验回归分析与方差分析

项目八 假设检验、回归分析与方差分析实验1 假设检验实验目的 掌握用Mathematica 作单正态总体均值、方差的假设检验, 双正态总体的均值差、方差比的假设检验方法, 了解用Mathematica 作分布拟合函数检验的方法.基本命令1.调用假设检验软件包的命令<<Statistics\HypothesisTests.m输入并执行命令<<Statistics\HypothesisTests.m2.检验单正态总体均值的命令MeanTest命令的基本格式为MeanTest[样本观察值,0H 中均值0μ的值, TwoSided->False(或True), Known Variance->None (或方差的已知值20σ),SignificanceLevel->检验的显著性水平α,FullReport->True]该命令无论对总体的均值是已知还是未知的情形均适用.命令MeanTest 有几个重要的选项. 选项Twosided->False 缺省时作单边检验. 选项Known Variance->None 时为方差未知, 所作的检验为t 检验. 选项Known Variance->20σ时为方差已知(20σ是已知方差的值), 所作的检验为u 检验. 选项Known Variance->None 缺省时作方差未知的假设检验. 选项SignificanceLevel->0.05表示选定检验的水平为0.05. 选项FullReport->True 表示全面报告检验结果.3.检验双正态总体均值差的命令MeanDifferenceTest命令的基本格式为MeanDifferenceTest[样本1的观察值,样本2的观察值,0H 中的均值21μμ-,选项1,选项2,…]其中选项TwoSided->False(或True), SignificanceLevel->检验的显著性水平α,FullReport->True 的用法同命令MeanTest 中的用法. 选项EqualVariances->False(或True)表示两个正态总体的方差不相等(或相等).4.检验单正态总体方差的命令VarianceTest命令的基本格式为VarianceTest[样本观察值,0H 中的方差20σ的值,选项1,选项2,…]该命令的选项与命令MeanTest 中的选项相同.5.检验双正态总体方差比的命令VarianceRatioTest命令的基本格式为VarianceRatioTest[样本1的观察值,样本2的观察值,0H 中方差比2221σσ的值,选项1,选项2,…] 该命令的选项也与命令MeanTest 中的选项相同.注: 在使用上述几个假设检验命令的输出报告中会遇到像OneSidedPValue->0.000217593这样的项,它报告了单边检验的P 值为0.000217593. P 值的定义是: 在原假设成立的条件下, 检验统计量取其观察值及比观察值更极端的值(沿着对立假设方向)的概率. P 值也称作“观察”到的显著性水平. P 值越小, 反对原假设的证据越强. 通常若P 低于5%, 称此结果为统计显著; 若P 低于1%,称此结果为高度显著.6.当数据为概括数据时的假设检验命令当数据为概括数据时, 要根据假设检验的理论, 计算统计量的观察值, 再查表作出结论. 用以下命令可以代替查表与计算, 直接计算得到检验结果.(1)统计量服从正态分布时, 求正态分布P 值的命令NormalPValue. 其格式为NormalPValue[统计量观察值,显著性选项,单边或双边检验选项](2)统计量服从t 分布时, 求t 分布P 值的命令StudentTPValue. 其格式为StudentTPValue[统计量观察值,自由度,显著性选项,单边或双边检验选项](3)统计量服从2χ分布时, 求2χ分布P 值的命令ChiSquarePValue. 其格式为ChiSquarePValue[统计量观察值,自由度,显著性选项,单边或双边检验选项](4)统计量服从F 分布时, 求F 分布P 值的命令FratioPValue. 其格式为FratioPValue[统计量观察值,分子自由度,分母自由度,显著性选项,单边或双边检验选项](5)报告检验结果的命令ResultOfTest. 其格式为ResultOfTest[P 值,显著性选项,单边或双边检验选项,FullReport->True]注:上述命令中, 缺省默认的显著性水平都是0.05, 默认的检验都是单边检验.实验举例单正态总体均值的假设检验(方差已知情形)例 1.1 (教材 例 1.1) 某车间生产钢丝, 用X 表示钢丝的折断力, 由经验判断),(~2σμN X , 其中228,570==σμ, 今换了一批材料, 从性能上看, 估计折断力的方差2σ不会有什么变化(即仍有228=σ), 但不知折断力的均值μ和原先有无差别. 现抽得样本, 测得其折断力为578 572 570 568 572 570 570 572 596 584取,05.0=α试检验折断力均值有无变化?根据题意, 要对均值作双侧假设检验570:,570:10≠=μμH H输入<<Statistics\HypothesisTests.m 执行后, 再输入 data1={578,572,570,568,572,570,570,572,596,584};MeanTest[data1,570,SignificanceLevel->0.05,KnownVariance->64,TwoSided->True,FullReport->True](*检验均值, 显著性水平05.0=α, 方差083.02=σ已知*)则输出结果{FullReport->MeanTestStat Distribution 575.2 2.05548 NormalDistribution[]TwoSidedPValue->0.0398326,Reject null hypothesis at significance level ->0.05}即结果给出检验报告: 样本均值2.575=x , 所用的检验统计量为u 统计量(正态分布),检验统计量的观测值为 2.05548, 双侧检验的P 值为0.0398326, 在显著性水平05.0=α下, 拒绝原假设, 即认为折断力的均值发生了变化.例 1.2 (教材 例 1.2) 有一工厂生产一种灯管, 已知灯管的寿命X 服从正态分布)40000,(μN , 根据以往的生产经验, 知道灯管的平均寿命不会超过1500小时. 为了提高灯管的平均寿命, 工厂采用了新的工艺. 为了弄清楚新工艺是否真的能提高灯管的平均寿命,他们测试了采用新工艺生产的25只灯管的寿命. 其平均值是1575小时, 尽管样本的平均值大于1500小时, 试问: 可否由此判定这恰是新工艺的效应, 而非偶然的原因使得抽出的这25只灯管的平均寿命较长呢?根据题意, 需对均值的作单侧假设检验 1500:,1500:10>≤μμH H检验的统计量为 n X U /0σμ-=, 输入 p1=NormalPValue[(1575-1500)/200*Sqrt[25]]ResultOfTest[p1[[2]],SignificanceLevel ->0.05,FullReport ->True]执行后的输出结果为OneSidedPValue ->0.0303964{OneSidedPValue->0.0303964,Fail to reject null hypothesis at significance level ->0.05}即输出结果拒绝原假设单正态总体均值的假设检验(方差未知情形)例1.3 (教材 例1.3) 水泥厂用自动包装机包装水泥, 每袋额定重量是50kg, 某日开工后随机抽查了9袋, 称得重量如下:49.6 49.3 50.1 50.0 49.2 49.9 49.8 51.0 50.2设每袋重量服从正态分布, 问包装机工作是否正常(05.0=α)?根据题意, 要对均值作双侧假设检验:50:;50:10≠=μμH H输入 data2={49.6,49.3,50.1,50.0,49.2,49.9,49.8,51.0,50.2};MeanTest[data2,50.0,SignificanceLevel ->0.05,FullReport ->True](*单边检验且未知方差,故选项TwoSided,KnownVariance 均采用缺省值*)执行后的输出结果为{FullReport->Mean TestStat Distribution,49.9 -0.559503 StudentTDistribution[8]OneSidedPValue ->0.295567,Fail to reject null hypothesis at significance level ->0.05}即结果给出检验报告: 样本均值9.49=X , 所用的检验统计量为自由度8的t 分布(t 检验),检验统计量的观测值为-0.559503, 双侧检验的P 值为0.295567, 在显著性水平05.0=α下, 不拒绝原假设, 即认为包装机工作正常.例1.4 (教材 例1.4) 从一批零件中任取100件,测其直径,得平均直径为5.2,标准差为1.6.在显著性水平05.0=α下,判定这批零件的直径是否符合5的标准.根据题意, 要对均值作假设检验: .5:;5:10≠=μμH H 检验的统计量为n s X T /0μ-=, 它服从自由度为1-n 的t 分布. 已知样本容量,100=n 样本均值2.5=X , 样本标准差6.1=s .输入StudentTPValue[(5.2-5)/1.6*Sqrt[100],100-1,TwoSided->True]则输出TwoSidedPValue->0.214246 即P 值等于0.214246, 大于0.05, 故不拒绝原假设, 认为这批零件的直径符合5的标准.单正态总体的方差的假设检验例1.5 (教材 例1.5) 某工厂生产金属丝, 产品指标为折断力. 折断力的方差被用作工厂生产精度的表征. 方差越小, 表明精度越高. 以往工厂一直把该方差保持在64(kg 2)与64以下. 最近从一批产品中抽取10根作折断力试验, 测得的结果(单位为千克) 如下:578 572 570 568 572 570 572 596 584 570 由上述样本数据算得74.75,2.5752==s x .为此, 厂方怀疑金属丝折断力的方差是否变大了. 如确实增大了, 表明生产精度不如以前, 就需对生产流程作一番检验, 以发现生产环节中存在的问题.根据题意, 要对方差作双边假设检验:64:;64:2120>≤σσH H 输入 data3={578,572,570,568,572,570,572,596,584,570};VarianceTest[data3,64,SignificanceLevel->0.05,FullReport->True](*方差检验,使用双边检验,05.0=α*)则输出{FullReport->Variance TestStat Distribution75.7333 10.65 ChiSquareDistribution[9]OneSidedPValue->0.300464,Fail to reject null hypothesis at significance level->0.05}即检验报告给出: 样本方差,7333.752=s 所用检验统计量为自由度4的2χ分布统计量(2χ 检验), 检验统计量的观测值为10.65, 双边检验的P 值为0.300464, 在显著性水平05.0=α 时, 接受原假设, 即认为样本方差的偏大系偶然因素, 生产流程正常, 故不需再作进一步的 检查.例1.6 (教材 例1.6) 某厂生产的某种型号的电池, 其寿命(以小时计) 长期以来服从方差50002=σ的正态分布, 现有一批这种电池, 从它的生产情况来看, 寿命的波动性有所改变. 现随机取26只电池, 测出其寿命的样本方差92002=s .问根据这一数据能否推断这批电池的寿命的波动性较以往的有显著的变化(取02.0=α)?根据题意, 要对方差作双边假设检验: 5000:;5000:2120≠=σσH H 所用的检验统计量为,)1(2022σχS n -=它服从自由度为1-n 的2χ分布.已知样本容量,26=n 样本方差.92002=s输入ChiSquarePValue[(26-1)*9200/5000, 26-1,TwoSided->True]则输出TwoSidedPValue->0.0128357.即P 值小于0.05, 故拒绝原假设. 认为这批电池寿命的波动性较以往有显著的变化.双正态总体均值差的检验(方差未知但相等)例1.7 (教材 例1.7) 某地某年高考后随机抽得15名男生、12名女生的物理考试成绩如下:男生: 49 48 47 53 51 43 39 57 56 46 42 44 55 44 40女生: 46 40 47 51 43 36 43 38 48 54 48 34从这27名学生的成绩能说明这个地区男女生的物理考试成绩不相上下吗?(显著性水平05.0=α).根据题意, 要对均值差作单边假设检验:211210:,:μμμμ≠=H H输入 data4={49.0,48,47,53,51,43,39,57,56,46,42,44,55,44,40};data5={46,40,47,51,43,36,43,38,48,54,48,34};MeanDifferenceTest[data4,data5,0,SignificanceLevel->0.05,TwoSided->True,FullReport->True,EqualVariances->True,FullReport->True](*指定显著性水平05.0=α,且方差相等*) 则输出{FullReport->MeanDiff TestStat Distribution3.6 1.56528 tudentTDistribution[25],OneSidedPValue->0.13009,Fail to reject null hypothesis at significance level->0.05} 即检验报告给出: 两个正态总体的均值差为3.6, 检验统计量为自由度25的t 分布(t 检验),检验统计量的观察值为1.56528, 单边检验的P 值为0.13009, 从而没有充分理由否认原假 设, 即认为这一地区男女生的物理考试成绩不相上下.双正态总体方差比的假设检验例1.8 (教材 例1.8) 为比较甲、乙两种安眠药的疗效, 将20名患者分成两组, 每组10人, 如服药后延长的睡眠时间分别服从正态分布, 其数据为(单位:小时):甲: 5.5 4.6 4.4 3.4 1.9 1.6 1.1 0.8 0.1 -0.1乙: 3.7 3.4 2.0 2.0 0.8 0.7 0 -0.1 -0.2 -1.6问在显著性水平05.0=α下两重要的疗效又无显著差别.根据题意, 先在21,μμ未知的条件下检验假设:2221122210:,:σσσσ≠=H H输入 list1={5.5,4.6,4.4,3.4,1.9,1.6,1.1,0.8,0.1,-0.1};list2={3.7,3.4,2.0,2.0,0.8,0.7,0,-0.1,-0.2,-1.6};VarianceRatioTest[list1,list2,1,SignificanceLevel->0.05,TwoSided->True,FullReport->True](*方差比检验,使用双边检验,05.0=α*) 则输出 {FullReport->Ratio TestStat Distribution1.41267 1.41267 FratioDistribution[9,9],TwoSidedPValue->0.615073,Fail to reject null hypothesis at significancelevel->0.05}即检验报告给出: 两个正态总体的样本方差之比2221s s 为1.41267, 检验统计量的分布为)9,9(F 分布(F 检验), 检验统计量的观察值为1.41267, 双侧检验的P 值为0.615073. 由检验报告知两总体方差相等的假设成立.其次, 要在方差相等的条件下作均值是否相等的假设检验:211210:,:μμμμ≠'='H H 输入MeanDifferenceTest[list1,list2,0,EqualVariances->True,SignificanceLevel->0.05,TwoSided->True,FullReport->True](*均值差是否为零的检验,已知方差相等,05.0=α,双边检验*)则输出{FullReport->MeanDiff TestStat Distribution1.26 1.52273 StudentTDistribution[18],TwoSidedPValue->0.1452,Fail to reject null hypothesis at significance level->0.05} 根据输出的检验报告, 应接受原假设,:210μμ='H 因此, 在显著性水平05.0=α下可认为21μμ=.综合上述讨论结果, 可以认为两种安眠药疗效无显著差异.例1.9 (教材 例1.9) 甲、乙两厂生产同一种电阻, 现从甲乙两厂的产品中分别随机抽取12个和10个样品, 测得它们的电阻值后, 计算出样本方差分别为,40.121=s .38.422=s 假设电阻值服从正态分布, 在显著性水平10.0=ε下, 我们是否可以认为两厂生产的电阻值的方差相等.根据题意, 检验统计量为,2221S S F =它服从自由度(1,121--n n )的F 分布.已知样本容量10,1221==n n , 样本方差.38.4,40.12221==s s 该问题即检验假设:2221122210:,:σσσσ≠=H H输入FRatioPValue[1.40/4.38,12-1,10-1,TwoSided->True,SignificanceLevel->0.1]则输出TwoSidedPValue->0.0785523,Reject null hypothesis at significance level->0.1}所以, 我们拒绝原假设, 即认为两厂生产的电阻阻值的方差不同分布拟合检验——2χ检验法例1.10 (教材 例1.10) 下面列出84个伊特拉斯坎男子头颅的最大宽度(单位:mm):141 148 132 138 154 142 150 146 155 158 150 140 147 148 144150 149 145 149 158 143 141 144 144 126 140 144 142 141 140145 135 147 146 141 136 140 146 142 137 148 154 137 139 143140 131 143 141 149 148 135 148 152 143 144 141 143 147 146150 132 142 142 143 153 149 146 149 138 142 149 142 137 134144 146 147 140 142 140 137 152 145试检验上述头颅的最大宽度数据是否来自正态总体(1.0=α)?输入数据data2={141,148,132,138,154,142,150,146,155,158,150,140, 147,148,144,150,149,145,149,158,143,141,144,144,126,140, 144,142,141,140,145,135,147,146,141,136,140,146,142,137, 148,154,137,139,143,140,131,143,141,149,148,135,148,152, 143,144,141,143,147,146,150,132,142,142,143,153,149,146, 149,138,142,149,142,137,134,144,146,147,140,142,140,137,152,145};输入Min[data2]|Max[data2] 则输出126|158 即头颅宽度数据的最小值为126, 最大值为158. 考虑区间[124.5,159.5], 它包括了所有的数据. 以5为间隔, 划分小区间. 计算落入每个小区间的频数, 输入pshu=BinCounts[data2,{124.5,159.5,5}] 则输出{1,4,10,33,24,9,3} 因为出现了两个区间内的频数小于5, 所以要合并小区间. 现在把频数为1, 4的两个区间合并, 再把频数为9, 3的两个区间合并. 这样只有5个小区间. 这些区间为(5.134,-∞),),,5.154(,],5.139,5.134(+∞Λ为了计算分布函数在端点的值, 输入zu=Table[129.5+j*5,{j,1,4}] 则输出{134.5,139.5,144.5,149.5} 以这4个数为分点,把),(+∞-∞分成5个区间后,落入5个小区间的频数分别为5, 10, 33, 24, 12.它们除以数据的总个数就得到频率. 输入plv={5,10,33,24,12}/Length[data2]则输出⎭⎬⎫⎩⎨⎧71,72,2811,425,845下面计算在0H 成立条件下, 数据落入5个小区间的概率. 输入nor=NormalDistribution[Mean[data2],StandardDeviationMLE[data2]];(*Mean[data2]是总体均值的极大似然估计,StandardDeviationMLE[data2]是总体标准差的极大似然估计,NormalDistribution 是正态分布,因此nor 是由极大似然估计得到的正态分布*)Fhat=CDF[nor,zu] (*CDF 是分布函数的值*)则输出{0.0590736,0.235726,0.548693,0.832687}此即0H 成立条件下分布函数在分点的值. 再求相邻两个端点的分布函数值之差, 输入 Fhat2=Join[{0},Fhat,{1}];glv=Table[Fhat2[[j]]-Fhat2[[j-1]],{j,2,Length[Fhat2]}]则输出{0.0590736,0.176652,0.312967,0.283994,0.167313}输入计算检验统计量2χ值的命令chi=Apply[Plus,(plv-glv)^2/glv*Length[data2]]则输出3.59235再输入求2χ分布的P 值命令ChiSquarePValue[chi,2] (*5-2-1=2为2χ分布的自由度*)则输出OneSidedPValue->0.165932这个结果表明0H 成立条件下, 统计量2χ取3.59235及比它更大的概率为0.165932, 因此不拒绝0H , 即头颅的最大宽度数据服从正态分布.实验习题1.设某种电子元件的寿命X (单位:h)服从正态分布22,),,(σμσμN 均未知. 现测得16只元件的寿命如下:159 280 101 212 224 379 179 264222 362 168 250 149 260 485 170问是否有理由认为元件的平均寿命225h?是否有理由认为这种元件寿命的方差≤852?2.某化肥厂采用自动流水生产线,装袋记录表明,实际包重)2,100(~2N X ,打包机必须定期进行检查,确定机器是否需要调整,以确保所打的包不至过轻或过重,现随机抽取9包, 测得数据(单位:kg)如下102 100 105 103 98 99 100 97 105若要求完好率为95%,问机器是否需要调整?3.某炼铁厂的铁水的含碳量X 在正常情况下服从正态分布.现对操作工艺进行了某些改进,从中抽取5炉铁水测得含碳量百分比的数据如下4.421 4.052 4.357 4.287 4.683据此是否可以认为新工艺炼出的铁水含碳量的方差仍为?)05.0(108.02=α4.机器包装食盐,假设每袋盐的净重服从正态分布,规定每袋标准重量为500g,标准差不能超过0.02.某天开工后,为检验机械工作是否正常,从装好的食盐中随机地抽取9袋,则其净重(单位:500g)为0.994 1.014 1.02 0.95 0.968 0.968 1.048 0.982 1.03 问这天包装机工作是否正常(05.0=α)?5.(1)某切割机在正常工作时,切割每段金属棒的平均长度为10.5cm.今从一批产品中随机地抽取15段,测得其长度(单位:cm)如下10.4 10.6 10.1 10.4 10.5 10.3 10.3 10.210.9 10.6 10.8 10.5 10.7 10.2 10.7 设金属棒长度服从正态分布,且标准差没有变化,试问该机工作是否正常(05.0=α)?(2)上题中假定切割的长度服从正态分布,问该机切割的金属棒的平均长度有无显著变化(05.0=α)? (3)如果只假定切割的长度服从正态分布,问该机切割的金属棒长度的标准差有无显著变化(05.0=α)?6. 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一平炉进行的, 每炼一炉钢时除操作方法外, 其他方法都尽可能做到相同.先用标准方法炼一炉, 然后用建议的新方法炼一炉, 以后交替进行, 各炼了10炉, 其得率分别为(1) 标准方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3(2) 新 方 法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 设这两个样本相互独立, 且分别来自正态总体),(21σμN 和),(22σμN ,21,μμ和2σ均未知.问建议的新操作方法能否提高得率(05.0=α).7.某自动机床加工同一种类型的零件.现从甲、乙两班加工的零件中各抽验了5各,测得它们的直径(单位:cm)分别为甲: 2.066 2.063 2.068 2.060 2.067乙: 2.058 2.057 2.063 2.059 2.060已知甲、乙二车床加工的零件其直径分别为),(~),,(~2221σμσμN Y N X ,试根据抽样结果来说明两车床加工的零件的平均直径有无显著性差异(05.0=α)?8.设某产品的使用寿命近似服从正态分布,要求平均使用寿命不低于1000h.现从一批产品中任取25只, 测得平均使用寿命为950h,样本方差为100, 在05.0=α下,检验这批产品是否合格.9. 两台机器生产某种部件的重量近似服从正态分布.分别抽取60与30个部件进行检测,样本方差分别为.66.9,46.152221==s s 试在05.0=α下检验假设 .:;:2221122210σσσσ>=H H10.设某电子元件的可靠性指标服从正态分布,合格标准之一为标准差.05.00=σ现检测15次,测得指标的平均值95.0=x ,指标的标准差.03.0=s 试在1.0=α下检验假设.05.0:;05.0:221220≠=σσH H11.对两种香烟中尼古丁含量进行6次测试,得到样本均值与样本方差分别为 22.9,25.6,67.25,5.252221====s s y x设尼古丁含量都近似服从正态分布,且方差相等.取显著性水平,05.0=α检验香烟中尼古丁含量的方差有无显著差异.。
假设检验方差分析

方差分析是通过比较不同组别之间的差异来检验假设
的一种统计方法。
02
它通过将总变异性分解为组间变异性和组内变异性,
来评估组间差异是否显著。
03
方差分析的基本思想是,如果各组之间存在显著差异
,那么组间变异性应该大于组内变异性。
方差分析的应用场景
01 比较不同组别之间的平均值是否存在显著差异。 02 检验一个或多个分类变量对连续变量的影响。 03 在实验设计中,用于评估不同处理或条件下的结
进行统计检验
根据样本数据和选择的统计量, 计算相应的值并进行统计检验。
提出假设
根据研究问题和数据情况,提 出原假设和备择假设。
确定显著性水平
确定一个合适的显著性水平, 用于判断假设是否成立。
做出推断
根据统计检验的结果,做出拒 绝或接受原假设的推断。
03 方差分析的原理及应用
方差分析的基本思想
01
提高数据分析的全面性和准确性。
04
加强假设检验和方差分析的理论研究,深入探讨其数 学原理和理论基础,为方法的改进和创新提供理论支 持。
THANKS FOR WATC
多因素方差分析用于比较多个分类变量与一个连续变量的关系。
详细描述
例如,比较不同品牌、不同型号、不同生产年份手机的使用寿命,通过多因素方差分析可以判断这些 因素对手机使用寿命的影响是否有显著差异。
05 结论
假设检验和方差分析的重要性
假设检验是统计学中一种重要的统计推断方法,通过检验假设是否成立,可以判断样本数据是否支持 或拒绝原假设,从而得出科学可靠的结论。
04 实际应用案例
单因素方差分析
总结词
单因素方差分析用于比较一个分类变 量与一个连续变量的关系。
八章假设检验与方差分析

假设检验的基本原理
•
根 就
据 可
检 以
验 决
统 定
计 是
量 否
假设检验
1 假设检验的基本问题 2 一个总体参数的检验 3 两个总体参数的检验
第2页/共136页
假设检验在统计方法中的地位
• 统计方法
描述统计
推断统计
参数估计
假设检验
第3页/共136页
第一节 假设检验的基本问题
1 假设的陈述 2 两类错误与显著性水平 3 统计量与拒绝域 4 利用P值进行决策 5 统计显著性与实际显著性
• 一般来说,对于一个给定的样本,如果犯第Ι类 错误的代价比犯第Ⅱ类错误的代价相对较高,则 将犯第Ⅰ类错误的概率定得低些较为合理;反之, 如果犯第Ι类错误的代价比犯第Ⅱ类错误的代价 相对较低,则将犯第Ⅰ类错误的概率定得高些
• 一般来说,发生哪一类错误的后果更为严重,就 应该首要控制哪类错误发生的概率。但由于犯第 Ι类错误的概率是可以由研究者控制的,因此在 假设检验中,人们往往先控制第Ι类错误的发生
1%?) • 2. 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设 • 3. 小概率由研究者事先确定
第36页/共136页
统计量与拒绝域
第37页/共136页
• 在一般的假设检验过程中,研究者倾向于通过样本信息提供对备择假设的支持,而倾向于作出“拒绝原假 设”的结论。
• 样本提供的信息繁杂,往往需要对这些信息进行压缩和提炼,检验统计量便是对样本信息进行压缩和概括 的结果。
•
此外,样本容量是另一个重要指标
第32页/共136页
显著性水平
(significant level)
• 1. 是一个概率值 • 2. 原假设为真时,拒绝原假设的概率
管理统计学八章假设检验与方差分析

第八章假设检验与方差分析本章学习目的♦理解原假设、备择假设、两类错误、单侧检验、双侧检验、方差分析等概念♦掌握三种不同的实际情况下——陈述正确性、研究性、决策——建立假设检验的方法♦掌握总体方差已知或未知时正态总体的均值假设检验和总体比例的假设检验本章重难点提示♦重点是三种不同情况下的假设检验方法,总体方差已知时正态总体均值和总体比例的假设检验♦难点是总体方差未知时正态总体均值的假设检验和方差分析第一节假设检验一、假设检验的概念假设(hypothesis),又称统计假设,是对总体参数的具体数值所作的陈述假设检验(hypothesis test)是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程㈠原假设与备择假设原假设(null hypothesis),又称零假设,用表示,是指研究者想收集证据予以反对的假设备择假设(alternative hypothesis),用或表示,是指研究者想收集证据予以支持的假设,它与原假设陈述的内容相反0H 1H H假设检验的三种类型1.对陈述正确性的检验在这种情况下,原假设通常是基于假定的陈述是正确的。
然后建立备择假设,为拒绝提供统计证据,从而证明这个假定的陈述是错误的2.对研究性假设的检验在研究性假设检验的调查研究中,应该建立原假设和备择假设,并用备择假设来表示研究性假设,这样如果拒绝,将支持样本所得出的结论以及应该采取某些行动3.对决策情况下的检验在决策情况下的检验研究中,决策者必须从两种措施中挑选其中一种,无论是接受还是拒绝,都必须采取一定的措施假设检验的三种形式设表示在原假设和备择假设中考虑的某一特定数值,表示总体的实际值。
对总体的假设检验一定要采取下面的三种形式之一:⑴⑵⑶00H μμ≥:10H μμp :00H μμ≤:10H μμf :00H μμ=:10H μμ≠:0μμ㈡拒绝域与检验统计量♦拒绝域是指能够作出拒绝原假设这一结论的所有可能的样本取值范围♦检验统计量是根据样本数据计算出来的,并据以对原假设和备择假设作出决策的某种样本统计量㈢单侧检验与双侧检验♦单侧检验是指检验统计量的取值位于其抽样分布的某一侧范围内时拒绝原假设,也就是说抽样分布的某一侧构成了拒绝域♦双侧检验是指检验统计量的取值位于其抽样分布的任何一侧范围内时拒绝原假设,也就是说抽样分布的左右两侧共同构成了拒绝域二、假设检验中的两类错误**♦第Ⅰ类错误/弃真错误(type Ⅰerror)当原假设为真时拒绝原假设。
第八章假设检验与方差分析(1)

一般说,哪一类错误带来的后果越严重、 危害越大,就应该作为首要的控制目标.
在假设检验中,一般都首先控制第一类错 误,也即控制α.
• 大家都遵守这个原则,讨论问题比较方便; • 最主要的原因是:原假设是什么非常明确,而
备择假设往往是模糊的。
26
确定α时应考虑的因素
视两类错误所产生的后果轻重而定
35
H 0 : 1000 H 1 : 1000
Z X ~ N ( 0 ,1 ) n
由=0.05 查标准正态分布表得临界值 Z / 2 Z 0 .025 1 .96
X 1050 1000
Z0
2.5
n 100 / 25
因为 Z0 2.5 Z /2 1.96故拒绝原假设,接受备 择假设,即这批电子元件的使用寿命有显 著性差异。
• 判断是否合理的依据统计上的小概率原理,
并非严格的逻辑证明。
6
假设检验中的小概率原理
• 小概率事件:发生概率很小的随机事件 • 小概率原理:小概率事件在一次试验(观察)
中几乎不可能发生。
• 什么样的概率才算小概率? • 研究者事先确定(根据决策的风险或要求的
把握程度来决定),没有统一的界定标准。
设检验的统计量为ξ,c是计算得出的检验
统计量的值。
• 左侧检验时,P值= P{ξ c } • 右侧检验时,P值= P{ξ c }
双侧检验中,P值=单侧P值的2倍。即:
P值=2P{ξ≥c },当 c 在右侧时;
或: P值=2P{ξ≤c },当 c 在左侧时。
19
利用 P 值进行决策 若p-值 ,不能拒绝 H0 若p-值 < , 拒绝 H0
• 当犯第一类错误的后果严重时,则希望尽可能不犯第一
假设检验、方差分析、回归分析

《数理统计》课内实验报告学生姓名:张学阳1009300132及学号:学院: 理学院班级: 数学101课程名称:数理统计实验题目:假设检验、方差分析、回归分析指导教师王亮红讲师姓名及职称:郭新辰教授韩玉副教授2012年11月13日目录一、实验目的 (1)二、实验内容 (1)三、实验要点及说明 (2)四、实现方法 (2)五、实验结果 (3)六、源程序清单 (4)七、思考及总结 (5)一、实验目的1. 掌握假设检验、方差分析、回归分析的概念;2. 学会利用Matlab软件实现对实验数据的假设检验、方差分析、回归分析等统计分析方法。
二、实验内容1. 某种零件的尺寸方差为2 1.21σ=,对一批这类零件检查6件得尺寸数据(单位:毫米)为:32.56 29.66 31.64 30.00 21.87 31.03设零件尺寸服从正态分布,问这批零件的平均尺寸能否认为是32.50毫米(显著性水平0.05α=)。
2. 按照规定,每100克罐头番茄汁中,维生素C的含量不得少于21毫克,现从某厂生产的一批罐头中抽取17个,测得维生素C 的含量(单位:毫克)如下:22 21 20 23 21 19 15 13 1623 17 20 29 18 22 16 25已知维生素C的含量服从正态分布,试检验这批罐头的维生素含量是否合格(显著性水平0.025α=)。
4.为寻求适应某地区的高产油菜品种,今选了五种不同品种进行试验,每一品种在四块试验田上得到在每一块田上的亩产量如下:问题:试分析不同品种的平均亩产量是否有显著差异?若存在显著性差异,哪个品种的亩产量高?并给出参数的估计值。
(均值、方差、置信区间)三、实验要点及说明对于问题1和问题2首先判断属于标准差已知还是未知的检验,然后根据检验统计量判断是否落入拒绝域,再判断是否合理。
四、实现方法1.总体),1.1(~2μN X ,待检验的原假设0H 与备择假设1H 分别为5.32:0=μH vs 8:1≠μH这是一个双边检验问题,检验的拒绝域为}|{|/2-1αμμ≥取显著水平,05.0=α查表知96.1975.0=μ,具体数据可由Matlab 求解。
第八章方差分析与回归分析(1)

第⼋章⽅差分析与回归分析(1)第⼋章⽅差分析与回归分析习题8.1 P3801、在⼀个单因⼦试验中,因⼦A 有三个⽔平,每个⽔平下各重复4次,具体数据如下:试计算误差平⽅和e S 、因⼦A 的平⽅和A 、总平⽅和T ,并指出它们各⾃的⾃由度.2、在⼀个单因⼦试验中,因⼦A 有四个⽔平,每个⽔平下各重复的次数分别为5,7,6,8。
那么误差平⽅和、A 的平⽅和及总平⽅和的⾃由度各是多少?5、⽤4种安眠药在兔⼦⾝上进⾏试验,特选24只健康的兔⼦,随机把它们均分为4组,每组各服⼀种安眠药,安眠时间如下所⽰:在显著⽔平α=习题8.2 P3873、有7种⼈造纤维,每种抽4根测其强度,得每种纤维的平均强度及标准差如下:(1)试问七种纤维强度间有⽆显著性差异(0.05α=)(2)若七种纤维的强度间⽆显著性差异,则给出平均强度的置信⽔平为0.95的置信区间;若各种纤维的强度间有显著差异,请进⼀步在0.05α=下进⾏多重⽐较,并指出那种纤维的平均强度最⼤,同时该种纤维平均强度的置信⽔平为0.95的置信区间。
习题8.3 P3942、在安眠药试验中(见习题8.1.5)中已求得到四个样本⽅差:222212340.02,0.08,0.036,0.1307s s s s ====请⽤Hartley 检验在显著⽔平0.05α=下考察四个总体⽅差是否彼此相等。
习题8.4 P4111、假设回归直线过原点,即⼀元线性回归模型为,1,2,...i i i y x i n βε=+=()()20,,i i E Var εεσ==诸观测值相互独⽴。
(1)写出2,βσ的最⼩⼆乘估计;(2)对给定的0x ,其对应的因变量均值的估计为0y ,求()0Var y 。
3、在回归分析计算中,常对数据进⾏变换1212,,1,...i i i i y c x cy x i n d d --=== 其中()()121122,,0,0c c d d d d >>是适当选取的常数。
假设检验与方差分析

参数检验
不依赖于总体参数的假设,而是直接对样本数据进行统计分析,例如中位数、众数等。
非参数检验
假设检验的类型
做出推断
根据样本数据和临界值的比较结果,做出关于总体参数的推断。
计算临界值
根据选择的统计量和显著性水平,计算临界值。
确定显著性水平
选择一个合适的显著性水平,用于判断样本数据是否具有统计学上的意义。
03
2. 收集数据
收集不同肥料处理下的农作物产量数据。
04
3. 数据整理
对数据进行整理,分组并计算各组的均值和总体均值。
05
4. 计算方差分析表
包括组间方差、组内方差和总方差。
06
5. 做出决策
根据组间方差和组内方差的比较,判断是否拒绝原假设。
方差分析案例
06
总结与展望
总结
01
假设检验与方差分析是统计学中常用的方法,用于研究不同组别之间的差异和比较不同数据集之间的关系。
假设检验与方差分析
目录
contents
引言 假设检验的基本概念 方差分析的基本概念 假设检验与方差分析的关联 案例分析 总结与展望
01
引言
是一种统计推断方法,通过检验样本数据是否符合某一假设,从而对总体做出推断。
是一种统计方法,用于比较不同组数据的均值是否存在显著差异。
主题介绍
方差分析
假设检验
对未来研究的展望
随着大数据时代的到来,数据量越来越大,对于高维数据的处理和分析成为未来研究的热点。如何利用假设检验与方差分析等方法处理高维数据,揭示其内在结构和规律,是未来研究的重要方向。
THANKS FOR
概率与数理统计第8章 假设检验与方差分析

第8章假设检验与方差分析【引例】重庆啤酒股份有限公司(以下简称重庆啤酒)于1990年代初斥巨资开始乙肝新药的研发,其股票被视作“生物医药”概念股受到市场热捧。
尤其是2010~2011年的两年间,在上证指数大跌1/3的背景下,重庆啤酒股价却从23元左右飙升最高至83.12元,但公司所研制新药的主要疗效指标的初步统计结果于2011年12月8日披露后,股价连续跌停,12月22日以28.45元报收后停牌。
2012年1月10日重庆啤酒公告详细披露了有关研究结论,复牌后股价又遭遇连续数日下跌,1月19日跌至20.16元。
此公告明确告知:“主要疗效指标方面,意向性治疗人群的安慰剂组与600μg组,及安慰剂组与εPA-44 900μg组之间,HBeAg/抗HBe 血清转换在统计意义上均无差异”。
通俗地说,用药与不用药(安慰剂组)以及用药多与少(900μg组与600μg组),都没有明显差异,这意味着该公司研制的乙肝新疫苗无效。
有关数据如表8.1所示:上表数据显示,两个用药组的应答率都高于安慰剂组的应答率,但为什么说“在统计意义上均无差异”?为什么说这个结论表示乙肝新疫苗无效?什么叫“在统计意义上无差异”?如何根据样本数据作出统计意义上有无差异的判断?解答这些问题就需要本章所要介绍的假设检验。
现实中,人们经常需要利用样本信息来判断有关总体特征的某个命题是真还是伪,或对某个(些)因素的影响效应是否显著作出推断,所以假设检验和方差分析有着广泛的应用。
例如,在生物医学领域,判断某种新药是否比旧药更有效;在工业生产中,根据某批零件抽样检查的信息来判断整批零件的质量是否符合规格要求;在流通领域,鉴别产品颜色是否对销售量有显著影响等等。
这些分析研究都离不开假设检验或方差分析。
假设检验与方差分析的具体方法很多,研究目的和背景条件不同,就需采用不同的方法。
本教材介绍假设检验与方差分析的基本原理和一些基本方法。
但通过本章的学习,理解了有关概念和基本思想,对更为复杂的检验结果也不难作出基本的判断和解读。
假设检验项目八假设检验、回归分析与方差分析

项目八 假设检验、回归分析与方差分析实验1 假设检验实验目的 掌握用Mathematica 作单正态总体均值、方差的假设检验, 双正态总体的均值差、方差比的假设检验方法, 了解用Mathematica 作分布拟合函数检验的方法.基本命令1.调用假设检验软件包的命令<<Statistics\HypothesisTests.m输入并执行命令<<Statistics\HypothesisTests.m2.检验单正态总体均值的命令MeanTest命令的基本格式为MeanTest[样本观察值,0H 中均值0μ的值, TwoSided->False(或True), Known Variance->None (或方差的已知值20σ),SignificanceLevel->检验的显著性水平α,FullReport->True]该命令无论对总体的均值是已知还是未知的情形均适用.命令MeanTest 有几个重要的选项. 选项Twosided->False 缺省时作单边检验. 选项Known Variance->None 时为方差未知, 所作的检验为t 检验. 选项Known Variance->20σ时为方差已知(20σ是已知方差的值), 所作的检验为u 检验. 选项Known Variance->None 缺省时作方差未知的假设检验. 选项SignificanceLevel->0.05表示选定检验的水平为0.05. 选项FullReport->True 表示全面报告检验结果.3.检验双正态总体均值差的命令MeanDifferenceTest命令的基本格式为MeanDifferenceTest[样本1的观察值,样本2的观察值,0H 中的均值21μμ-,选项1,选项2,…]其中选项TwoSided->False(或True), SignificanceLevel->检验的显著性水平α,FullReport->True 的用法同命令MeanTest 中的用法. 选项EqualVariances->False(或True)表示两个正态总体的方差不相等(或相等).4.检验单正态总体方差的命令VarianceTest命令的基本格式为VarianceTest[样本观察值,0H 中的方差20σ的值,选项1,选项2,…]该命令的选项与命令MeanTest 中的选项相同.5.检验双正态总体方差比的命令VarianceRatioTest命令的基本格式为VarianceRatioTest[样本1的观察值,样本2的观察值,0H 中方差比2221σσ的值,选项1,选项2,…] 该命令的选项也与命令MeanTest 中的选项相同.注: 在使用上述几个假设检验命令的输出报告中会遇到像OneSidedPValue->0.000217593这样的项,它报告了单边检验的P 值为0.000217593. P 值的定义是: 在原假设成立的条件下, 检验统计量取其观察值及比观察值更极端的值(沿着对立假设方向)的概率. P 值也称作“观察”到的显著性水平. P 值越小, 反对原假设的证据越强. 通常若P 低于5%, 称此结果为统计显著; 若P 低于1%,称此结果为高度显著.6.当数据为概括数据时的假设检验命令当数据为概括数据时, 要根据假设检验的理论, 计算统计量的观察值, 再查表作出结论. 用以下命令可以代替查表与计算, 直接计算得到检验结果.(1)统计量服从正态分布时, 求正态分布P 值的命令NormalPValue. 其格式为NormalPValue[统计量观察值,显著性选项,单边或双边检验选项](2)统计量服从t 分布时, 求t 分布P 值的命令StudentTPValue. 其格式为StudentTPValue[统计量观察值,自由度,显著性选项,单边或双边检验选项](3)统计量服从2χ分布时, 求2χ分布P 值的命令ChiSquarePValue. 其格式为ChiSquarePValue[统计量观察值,自由度,显著性选项,单边或双边检验选项](4)统计量服从F 分布时, 求F 分布P 值的命令FratioPValue. 其格式为FratioPValue[统计量观察值,分子自由度,分母自由度,显著性选项,单边或双边检验选项](5)报告检验结果的命令ResultOfTest. 其格式为ResultOfTest[P 值,显著性选项,单边或双边检验选项,FullReport->True]注:上述命令中, 缺省默认的显著性水平都是0.05, 默认的检验都是单边检验.实验举例单正态总体均值的假设检验(方差已知情形)例 1.1 (教材 例 1.1) 某车间生产钢丝, 用X 表示钢丝的折断力, 由经验判断),(~2σμN X , 其中228,570==σμ, 今换了一批材料, 从性能上看, 估计折断力的方差2σ不会有什么变化(即仍有228=σ), 但不知折断力的均值μ和原先有无差别. 现抽得样本, 测得其折断力为578 572 570 568 572 570 570 572 596 584取,05.0=α试检验折断力均值有无变化?根据题意, 要对均值作双侧假设检验570:,570:10≠=μμH H输入<<Statistics\HypothesisTests.m 执行后, 再输入data1={578,572,570,568,572,570,570,572,596,584};MeanTest[data1,570,SignificanceLevel->0.05,KnownVariance->64,TwoSided->True,FullReport->True](*检验均值, 显著性水平05.0=α, 方差083.02=σ已知*) 则输出结果{FullReport->MeanTestStat Distribution 575.2 2.05548 NormalDistribution[]TwoSidedPValue->0.0398326,Reject null hypothesis at significance level ->0.05}即结果给出检验报告: 样本均值2.575=x , 所用的检验统计量为u 统计量(正态分布),检验统计量的观测值为 2.05548, 双侧检验的P 值为0.0398326, 在显著性水平05.0=α下, 拒绝原假设, 即认为折断力的均值发生了变化.例 1.2 (教材 例 1.2) 有一工厂生产一种灯管, 已知灯管的寿命X 服从正态分布)40000,(μN , 根据以往的生产经验, 知道灯管的平均寿命不会超过1500小时. 为了提高灯管的平均寿命, 工厂采用了新的工艺. 为了弄清楚新工艺是否真的能提高灯管的平均寿命,他们测试了采用新工艺生产的25只灯管的寿命. 其平均值是1575小时, 尽管样本的平均值大于1500小时, 试问: 可否由此判定这恰是新工艺的效应, 而非偶然的原因使得抽出的这25只灯管的平均寿命较长呢?根据题意, 需对均值的作单侧假设检验 1500:,1500:10>≤μμH H检验的统计量为 n X U /0σμ-=, 输入 p1=NormalPValue[(1575-1500)/200*Sqrt[25]]ResultOfTest[p1[[2]],SignificanceLevel ->0.05,FullReport ->True]执行后的输出结果为OneSidedPValue ->0.0303964{OneSidedPValue->0.0303964,Fail to reject null hypothesis at significance level ->0.05}即输出结果拒绝原假设单正态总体均值的假设检验(方差未知情形)例1.3 (教材 例1.3) 水泥厂用自动包装机包装水泥, 每袋额定重量是50kg, 某日开工后随机抽查了9袋, 称得重量如下:49.6 49.3 50.1 50.0 49.2 49.9 49.8 51.0 50.2设每袋重量服从正态分布, 问包装机工作是否正常(05.0=α)?根据题意, 要对均值作双侧假设检验:50:;50:10≠=μμH H输入data2={49.6,49.3,50.1,50.0,49.2,49.9,49.8,51.0,50.2};MeanTest[data2,50.0,SignificanceLevel ->0.05,FullReport ->True](*单边检验且未知方差,故选项TwoSided,KnownVariance 均采用缺省值*)执行后的输出结果为{FullReport->Mean TestStat Distribution,49.9 -0.559503 StudentTDistribution[8]OneSidedPValue ->0.295567,Fail to reject null hypothesis at significance level ->0.05}即结果给出检验报告: 样本均值9.49=X , 所用的检验统计量为自由度8的t 分布(t 检验),检验统计量的观测值为-0.559503, 双侧检验的P 值为0.295567, 在显著性水平05.0=α下, 不拒绝原假设, 即认为包装机工作正常.例1.4 (教材 例1.4) 从一批零件中任取100件,测其直径,得平均直径为5.2,标准差为1.6.在显著性水平05.0=α下,判定这批零件的直径是否符合5的标准. 根据题意, 要对均值作假设检验: .5:;5:10≠=μμH H 检验的统计量为n s X T /0μ-=, 它服从自由度为1-n 的t 分布. 已知样本容量,100=n 样本均值2.5=X , 样本标准差6.1=s .输入StudentTPValue[(5.2-5)/1.6*Sqrt[100],100-1,TwoSided->True]则输出TwoSidedPValue->0.214246 即P 值等于0.214246, 大于0.05, 故不拒绝原假设, 认为这批零件的直径符合5的标准.单正态总体的方差的假设检验例1.5 (教材 例1.5) 某工厂生产金属丝, 产品指标为折断力. 折断力的方差被用作工厂生产精度的表征. 方差越小, 表明精度越高. 以往工厂一直把该方差保持在64(kg 2)与64以下. 最近从一批产品中抽取10根作折断力试验, 测得的结果(单位为千克) 如下:578 572 570 568 572 570 572 596 584 570 由上述样本数据算得74.75,2.5752==s x .为此, 厂方怀疑金属丝折断力的方差是否变大了. 如确实增大了, 表明生产精度不如以前, 就需对生产流程作一番检验, 以发现生产环节中存在的问题.根据题意, 要对方差作双边假设检验:64:;64:2120>≤σσH H 输入 data3={578,572,570,568,572,570,572,596,584,570};VarianceTest[data3,64,SignificanceLevel->0.05,FullReport->True](*方差检验,使用双边检验,05.0=α*)则输出{FullReport->Variance TestStat Distribution75.7333 10.65 ChiSquareDistribution[9]OneSidedPValue->0.300464,Fail to reject null hypothesis at significance level->0.05}即检验报告给出: 样本方差,7333.752=s 所用检验统计量为自由度4的2χ分布统计量(2χ 检验), 检验统计量的观测值为10.65, 双边检验的P 值为0.300464, 在显著性水平05.0=α 时, 接受原假设, 即认为样本方差的偏大系偶然因素, 生产流程正常, 故不需再作进一步的 检查.例1.6 (教材 例1.6) 某厂生产的某种型号的电池, 其寿命(以小时计) 长期以来服从方差50002=σ的正态分布, 现有一批这种电池, 从它的生产情况来看, 寿命的波动性有所改变. 现随机取26只电池, 测出其寿命的样本方差92002=s .问根据这一数据能否推断这批电池的寿命的波动性较以往的有显著的变化(取02.0=α)?根据题意, 要对方差作双边假设检验: 5000:;5000:2120≠=σσH H 所用的检验统计量为,)1(2022σχS n -=它服从自由度为1-n 的2χ分布.已知样本容量,26=n 样本方差.92002=s输入ChiSquarePValue[(26-1)*9200/5000, 26-1,TwoSided->True]则输出TwoSidedPValue->0.0128357.即P 值小于0.05, 故拒绝原假设. 认为这批电池寿命的波动性较以往有显著的变化.双正态总体均值差的检验(方差未知但相等)例1.7 (教材 例1.7) 某地某年高考后随机抽得15名男生、12名女生的物理考试成绩如下: 男生: 49 48 47 53 51 43 39 57 56 46 42 44 55 44 40女生: 46 40 47 51 43 36 43 38 48 54 48 34从这27名学生的成绩能说明这个地区男女生的物理考试成绩不相上下吗?(显著性水平05.0=α).根据题意, 要对均值差作单边假设检验:211210:,:μμμμ≠=H H输入 data4={49.0,48,47,53,51,43,39,57,56,46,42,44,55,44,40};data5={46,40,47,51,43,36,43,38,48,54,48,34};MeanDifferenceTest[data4,data5,0,SignificanceLevel->0.05,TwoSided->True,FullReport->True,EqualVariances->True,FullReport->True](*指定显著性水平05.0=α,且方差相等*) 则输出{FullReport->MeanDiff TestStat Distribution3.6 1.56528 tudentTDistribution[25],OneSidedPValue->0.13009,Fail to reject null hypothesis at significance level->0.05}即检验报告给出: 两个正态总体的均值差为3.6, 检验统计量为自由度25的t 分布(t 检验),检验统计量的观察值为1.56528, 单边检验的P 值为0.13009, 从而没有充分理由否认原假 设, 即认为这一地区男女生的物理考试成绩不相上下.双正态总体方差比的假设检验例1.8 (教材 例1.8) 为比较甲、乙两种安眠药的疗效, 将20名患者分成两组, 每组10人, 如服药后延长的睡眠时间分别服从正态分布, 其数据为(单位:小时):甲: 5.5 4.6 4.4 3.4 1.9 1.6 1.1 0.8 0.1 -0.1乙: 3.7 3.4 2.0 2.0 0.8 0.7 0 -0.1 -0.2 -1.6问在显著性水平05.0=α下两重要的疗效又无显著差别.根据题意, 先在21,μμ未知的条件下检验假设:2221122210:,:σσσσ≠=H H输入 list1={5.5,4.6,4.4,3.4,1.9,1.6,1.1,0.8,0.1,-0.1};。
案例库下载-项目八假设检验、回归分析与方差分析

项目八 假设检验、回归分析与方差分析实验3 方差分析实验目的 学习利用Mathematica 求单因素方差分析的方法.基本命令1.调用线性回归软件包的命令<<Statistics\LinearRegression.m作方差分析时, 必须调用线性回归软件包的命令<<Statistics\LinearRegression.m或输入调用整个统计软件包命令<<Statistics`2.线性设计回归的命令DesignedRegress在线性回归模型 Y X 中,向量Y 是因变量,也称作响应变量.矩阵X 称作设计矩阵, 是参数向量是误差向量 DesignedRegress 也是作一元和多元线性回归的命令, 它的应用范围更广些. 其格式与命令Regress 的格式略有不同:DesignedRegress[设计矩阵X,因变量Y 的值集合,RegressionReport ->{选项1, 选项2, 选项3,…}]RegressionReport(回归报告)可以包含:ParameterCITable(参数的置信区间表 PredictedResponse (因变量的预测值), MeanPredictionCITable(均值的预测区间), FitResiduals(拟合的残差), SummaryReport(总结性报告)等, 但不含BestFit.实验准备—将方差分析问题纳入线性回归问题在线性回归中, 把总的平方和分解为回归平方和与误差平方和之和, 并在输出中给出了方差分析表. 而在方差分析问题中, 也把总的平方和分解为模型平方和与误差平方和之和, 其方法与线性回归中的方法相同. 因此只要把方差分析问题转化为线性模型的问题, 就可以利用线性回归中的设计回归命令DesignedRegress 做方差分析.单因素试验方差分析的模型是⎪⎩⎪⎨⎧==+=.,,2,1;,,2,1,),,0(~,2s j n i N Y j ij ij ij j ij ΛΛ独立各εσεεμ (3.1)上式也可改写成⎪⎩⎪⎨⎧===+-+==+=.,,2,1;,,2,1,),,0(~;,,3,2,)(,,,2,1,2111111s j n i N s j Y n i Y j ij ij ij j ij i i ΛΛΛΛ独立各εσεεμμμεμ (3.2) 给定具体数据后, 还可(2.2)式写成线性模型的形式:Y X其中X 称为设计矩阵, 它的元素是0或1. 由于(3.2)的每一个等式的右边都有,1μ因此X 的第一列都是1, 线性模型中就有了必须要有的常数这一列.⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=-110s ββββM 是线性模型中的参数.1μ相当于线性模型中常数项.0β,12μμ-Λ,13μμ-相当于线性模型中的参数.,,21Λββ当然也可以用2μ或3μ代替1μ.Y 是因变量(向量),是误差向量.可以通过下面的例子来了解和熟悉此方法.实验举例例3.1 (教材 例3.1) 今有某种型号的电池三批, 它们分别是A ,B ,C 三个工厂所生产的. 为评比起质量, 各随机抽取5只电池为样品, 经试验得其寿命(单位:h)如下表:A40 42 48 45 38 B26 28 34 32 30 C 39 50 40 50 43试在显著性水平0.05下检验电池的平均寿命有无显著的差异. 若差异是显著的, 试求均值差,B A μμ-C A μμ-及C B μμ-的置信水平为95%的置信区间.这是方差分析问题, 先把它转化为线性模型:Y X令 ,101101011011001001,515151⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=M M M M M M M M M M M M X Y Y Y Y Y Y Y C C B B A A ,⎪⎪⎪⎭⎫ ⎝⎛--=A C A B A μμμμμβ⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=531352125111εεεεεεεM M M则线性模型(3.3)与方差分析模型(3.1)完全等价. 模型(3.3)完全可以用DesignedRegress 命令作设计回归, 得到所要的方差分析表.我们面临的任务是:(1) 检验3个总体的均值是否相等,即作假设检验不全相等C B A C B A H H μμμμμμ,,:;:10==(2) 求均值差,B A μμ-C A μμ-及C B μμ-的置信水平为95%的置信区间.任务(1)等价于对模型(3.3)作检验:不全等于零A C A B A C A B H H μμμμμμμμ--=-=-,:;0:10而任务(2)等价于求B C A C A B μμμμμμ---及,的置信区间. 在DesignedRegress 命令中加入选项RegressionReport->{ParameterCITable,MeanPredictionCITable,SummaryReport }后便能完成上述任务.用回归分析作单因素方差分析完成对模型的假设检验和对模型参数的区间估计任务.输入设计矩阵和数据X1={{1.0,0,0},{1,0,0},{1,0,0},{1,0,0},{1,0,0},{1,1,0},{1,1,0},{1,1,0},{1,1,0},{1,1,0},{1,0,1},{1,0,1},{1,0,1},{1,0,1},{1,0,1}};Y1={40,42,48,45,38,26,28,34,32,30,39,50,40,50,43};再输入设计回归命令DesignedRegress[X1,Y1,RegressionReport->{ParameterCITable,MeanPredictionCITable,SummaryReport}](*回归报告输出参数的置信区间,均值的置信区间和总结报告*)执行后得到输出Estimate SE CI1 42.6 1.89912 {38.4622,46.7378}{ParameterCITable->2 -12.6 2.68576 {-18.4518,-6.74822}3 1.8 2.68576 {-4.05178,7.65178}MeanPredictionCITable->Observed Predicted SE CI40. 42.6 1.89912 {38.4622,46.7378}42. 42.6 1.89912 {38.4622,46.7378}48. 42.6 1.89912 {38.4622,46.7378}45. 42.6 1.89912 {38.4622,46.7378}38. 42.6 1.89912 {38.4622,46.7378}26. 30. 1.89912 {25.8622,34.1378}28. 30. 1.89912 {25.8622,34.1378}34. 30. 1.89912 {25.8622,34.1378}32. 30. 1.89912 {25.8622,34.1378}30. 30. 1.89912 {25.8622,34.1378}39. 44.4 1.89912 {40.2622,48.5378}50. 44.4 1.89912 {40.2622,48.5378}40. 44.4 1.89912 {40.2622,48.5378}50. 44.4 1.89912 {40.2622,48.5378}43. 44.4 1.89912 {40.2622,48.5378}Estimate SE TStat PValue1 42.6 1.89912 22.4314 3.63987×10-11{ParameterCITable->2 -12.6 2.68576 -4.6914 0.000521963 1.8 2.68576 0.6702 0.515421Rsquared->0.739904,AdjustedRSquared->0.696554,EstimatedVariance->18.0333,ANOVATable->DF SumOfsq MeanSq Fratio PvalueModel 2 615.6 307.8 17.0684 0.000309602Error 12 216.4 18.0333Total 14 832.从参数置信区间表(ParameterCITable)可知: A μ的点估计是42.6, 估计量的标准差为1.89912, A μ的置信水平为0.95的置信区间是(38.4622,46.7378). A B μμ-的点估计是12.6,标准差为 2.68576, A B μμ-的置信水平为0.95的置信区间是).74822.6,4518.18(--A C μμ-的点估计是1.8, 标准差为2.68576, A C μμ-的置信水平为0.95的置信区间是).65178.7,05178.4(-从均值置信区间表(MeanPredictionCITable)知: A μ的点估计, A μ的置信区间同参数置信区间表, B μ的点估计为30.0, 置信度为0.95的置信区间是),1378.34,8622.25(C μ的点估计为44.4, 置信度为0.95的置信区间是).5378.48,2622.40(从参数表(ParameterTable)知: 关于A B μμ-是否等于零的假设检验结果是否定的, 即A B μμ-不等于零. 关于A C μμ-是否等于零的假设检验结果是不否定原假设, 即不否定A C μμ-等于零的假设.从Rsquared->0.739904知Y 的变化中的74%是由模型引起的,26%是由误差引起的. 从EstimatedVariance->18.0333知模型中的误差项的方差的估计是最后从方差分析表知平方和的分解结果是:总的平方和832.0,模型引起的平方和(效应平方和)误差平方和作假设检验 不全等于零A C A B A C A B H H μμμμμμμμ--=-=-,:;0:10 时统计量F 的观察值为17.0684, F 的P 值为0.000309602, 检验结果显然否定原假设,即三个工厂生产的电池的平均寿命有显著差异.总结起来: 三个工厂生产的电池的平均寿命有显著差异. B A μμ-的置信水平为0.95的置信区间是(6.74822,18.4518). C A μμ-的置信水平为0.95的置信区间是 ).05178.4,65178.7(-看来只有C B μμ-的置信区间未能求得.只要改变设计矩阵X , 再作一次设计回归.输入X2={{1.0,0,1},{1,0,1},{1,0,1},{1,0,1},{1,0,1},{0,1,1},{0,1,1},{0,1,1},{0,1,1},{0,1,1},{0,0,1},{0,0,1},{0,0,1},{0,0,1},{0,0,1}};DesignedRegress[X2,Y1,RegressionReport->{ParameterCITable,MeanPredictionCITable,SummaryReport}]就能得到类似于对11,y x 的设计回归结果(输出结果省略了),从参数置信区间表可以得到C B μμ-的置信水平为0.95的置信区间是).54822.8,2518.20(--例3.2 (教材 例3.2) 将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象,以致减少了药效. 下表中列出了5种常用的抗生素注入到牛的体内时, 抗生素与血浆蛋白质结合的百分比. 试在水平05.0=α下检验这些百分比的均值有无显著的差异.青霉素 四环素 链霉素 红霉素 氯霉素29.6 27.3 5.8 21.6 29.2 24.3 32.6 6.2 17.4 32.8 28.5 30.8 11.0 18.3 25.032.0 34.8 8.3 19.0 24.2本例也是单因素方差分析问题. 输入X3={{1.0,0,0,0,0},{1,0,0,0,0},{1,0,0,0,0},{1,0,0,0,0},{1,1,0,0,0},{1,1,0,0,0}, {1,1,0,0,0},{1,1,0,0,0},{1,0,1,0,0},{1,0,1,0,0},{1,0,1,0,0},{1,0,1,0,0},{1,0,0,1,0},{1,0,0,1,0},{1,0,0,1,0},{1,0,0,1,0},{1,0,0,0,1},{1,0,0,0,1},{1,0,0,0,1},{1,0,0,0,1}};Y3={29.6,24.3,28.5,32.0,27.3,32.6,30.8,34.8,5.8,6.2,11.0,8.3,21.6,17.4, 18.3,19.0,29.2,32.8,25.0,24.2}; DesignedRegress[X3,Y3,RegressionReport->{ParameterCITable,MeanPredictionCITable,SummaryReport}] 执行以后得到输出{ParameterCITable->Estimate SE CI1 28.6 1.50456 {25.3931,31.8069}2 2.775 2.12777 { 1.76024,731024}3 20.775 2.12777 {25.3102,16.2398}4 9.525 2.12777 {14.0602, 4.98976}5 0.8 2.12777 { 5.33524,3.73524}{ParameterTable->Estimate SE TStat PValue1 28.6 1.50456 19.0088 6.58118×10122 2.775 2.12777 1.30418 0.211833 20.775 2.12777 9.76373 6.83788×1084 9.525 2.12777 4.47651 0.0004435975 0.8 2.12777 0.37598 0.712196Rsquared->0.915985,AdjustedRSquared->0.893581,EstimatedVariance->9.05483,ANOVATable->DF Sumofsq MeanSq Fratio PvalueModel 4 1480.82 370.206 40.8849 6.73978×108Error 15 135.822 9.05483Total 19 1616.65因为F 检验的P 值非常小,所以即使在检验的水平01.0=α时,这些百分比的均值有显著差异.注: 利用Mathematica 语句, 我们也可以直接编程计算方差分析表. 有兴趣的读者可参考更高一级的实验教材(如[10],[11]等).实验习题1.设有三台机器用来生产规格相同的铝合金薄板. 取样, 测量薄板的厚度精确至千分之一厘米, 得结果如下表: 0.2620.2610.2430.2670.2540.2450.2590.2550.2480.2640.2530.2380.2580.2570.2361机器2机器3机器 考察机器这一因素对薄板厚度有无显著的影响).05.0(=α2.下表给出了小白鼠在接种3种不同菌型的伤寒杆菌后存活的天数 10361059766117661271058654527742342丙乙甲天数存活菌型试问,小白鼠在接种了不同菌型的伤寒杆菌后存活的天数是否有显著性差异?)05.0(=α。
假设检验方法----方差齐性检验、方差分析

推算的F值进行比较,判断方差差异大小。
•
一般我们会采用公式
(拒绝区在右测)。
进行单侧检验
• 决策如下:
•
若
,则拒绝原假设,即两总体方差
差异显著;
•
若
,则接受原假设,即两总体方差
差异不显著(方差具有齐性)
•
•
假设检验方法----方差齐性检验、方差分 析
两个独立样本方差间差异的显著性检验
• 例 某次教改后,从施行两种不同教学方法的班级 中随机各抽出10份和9份试卷,得到如下的成绩数 据:
•
假设检验方法----方差齐性检验、方差分 析
单因素随机区组设计方差分析的过程
在 完 全 随 机 设 计 中 ,SST=SSB+SSw,即 总 变 异 =组 间 变 异 +组 内 变 异 。 实 际 上 , 这 时 , 组 内 变 异 不 仅 反 映了实验的随机误差,而且还反映了实验组内被 试间 个体差异。单因素的完全随机化实验设计把 可以控制的个体差异作为随机误差而不加以控制, 从 而 增 大 了 实 验 误 差 , 使 F检 验 不 敏 感 。
假设检验方法----方差齐性检验、方差分 析
方差分析概要表
假设检验方法----方差齐性检验、方差分 析
离差平方和其它求法
• 方差分析中关键步骤:求离差平方和.为 计算方便,往往用原始观测值直接求平方 和,公式如下:
•
假设检验方法----方差齐性检验、方差分 析
离差平方和其它求法
• 在无法直接得到原始数据,仅知道 统计资料的情况下,也可对多组数据进行 方差分析.其组间平方和与组内平方和计 算公式如下:
单因素完全随机设计方差分析的过程
• 实验中的自变量称为因素,只有一个自变
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
项目八假设检验、回归分析与方差分析实验3 方差分析实验目的学习利用Mathematica求单因素方差分析的方法.基本命令1.调用线性回归软件包的命令<<Statistics\LinearRegression.m作方差分析时, 必须调用线性回归软件包的命令<<Statistics\LinearRegression.m或输入调用整个统计软件包命令<<Statistics`2.线性设计回归的命令DesignedRegress在线性回归模型Y ??X????中,向量Y是因变量,也称作响应变量.矩阵X称作设计矩阵, ?是参数向量??是误差向量?????????DesignedRegress也是作一元和多元线性回归的命令, 它的应用范围更广些. 其格式与命令Regress的格式略有不同:DesignedRegress[设计矩阵X,因变量Y的值集合,RegressionReport ->{选项1, 选项2, 选项3,…}]RegressionReport(回归报告)可以包含:ParameterCITable(参数?的置信区间表?????PredictedResponse (因变量的预测值), MeanPredictionCITable(均值的预测区间),FitResiduals(拟合的残差), SummaryReport(总结性报告)等, 但不含BestFit.实验准备—将方差分析问题纳入线性回归问题在线性回归中, 把总的平方和分解为回归平方和与误差平方和之和, 并在输出中给出了方差分析表. 而在方差分析问题中, 也把总的平方和分解为模型平方和与误差平方和之和, 其方法与线性回归中的方法相同. 因此只要把方差分析问题转化为线性模型的问题, 就可以利用线性回归中的设计回归命令DesignedRegress 做方差分析.单因素试验方差分析的模型是⎪⎩⎪⎨⎧==+=.,,2,1;,,2,1,),,0(~,2s j n i N Y j ij ij ij j ij ΛΛ独立各εσεεμ(3.1)上式也可改写成⎪⎩⎪⎨⎧===+-+==+=.,,2,1;,,2,1,),,0(~;,,3,2,)(,,,2,1,2111111s j n i N s j Y n i Y j ij ij ij j ij i i ΛΛΛΛ独立各εσεεμμμεμ (3.2)给定具体数据后, 还可(2.2)式写成线性模型的形式:Y ??X???????????????????????????????????????????????????????????????????????????其中X 称为设计矩阵, 它的元素是0或1. 由于(3.2)的每一个等式的右边都有,1μ因此X 的第一列都是1, 线性模型中就有了必须要有的常数这一列.⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=-110s ββββM 是线性模型中的参数.1μ相当于线性模型中常数项.0β,12μμ-Λ,13μμ-相当于线性模型中的参数.,,21Λββ当然也可以用2μ或3μ代替1μ.Y是因变量(向量),??是误差向量.可以通过下面的例子来了解和熟悉此方法.实验举例例3.1 (教材 例3.1) 今有某种型号的电池三批, 它们分别是A ,B ,C 三个工厂所生产的. 为评比起质量, 各随机抽取5只电池为样品, 经试验得其寿命(单位:h)如下表:试在显着性水平0.05下检验电池的平均寿命有无显着的差异. 若差异是显着的, 试求均值差,B A μμ-C A μμ-及C B μμ-的置信水平为95%的置信区间.这是方差分析问题, 先把它转化为线性模型:Y ??X?????令 ,101101011011001001,515151⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=M M M M M M M M M M M M X Y Y Y Y Y Y Y C C B B A A ,⎪⎪⎪⎭⎫⎝⎛--=A C A B A μμμμμβ⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=531352125111εεεεεεεM M M则线性模型(3.3)与方差分析模型(3.1)完全等价. 模型(3.3)完全可以用DesignedRegress 命令作设计回归, 得到所要的方差分析表.我们面临的任务是:(1) 检验3个总体的均值是否相等,即作假设检验 (2) 求均值差,B A μμ-C A μμ-及C B μμ-的置信水平为95%的置信区间.任务(1)等价于对模型(3.3)作检验: 而任务(2)等价于求BC A C A B μμμμμμ---及,的置信区间. 在DesignedRegress命令中加入选项RegressionReport->{ParameterCITable,MeanPredic tionCITable,SummaryReport}后便能完成上述任务.用回归分析作单因素方差分析完成对模型的假设检验和对模型参数的区间估计任务.输入设计矩阵和数据X1={{1.0,0,0},{1,0,0},{1,0,0},{1,0,0},{1,0,0}, {1,1,0},{1,1,0},{1,1,0},{1,1,0},{1,1,0},{1,0,1},{1,0,1},{1 ,0,1},{1,0,1},{1,0,1}};Y1={40,42,48,45,38,26,28,34,32,30,39,50,40,50,43};再输入设计回归命令DesignedRegress[X1,Y1,RegressionReport->{ParameterCITable,MeanPredictionCITable,SummaryReport}](*回归报告输出参数的置信区间,均值的置信区间和总结报告*)执行后得到输出Estimate SE CI1 42.6 1.89912{38.4622,46.7378}{ParameterCITable->2 -12.6 2.68576 {-18.4518,-6.74822}3 1.8 2.68576{-4.05178,7.65178}MeanPredictionCITable->Observed Predicted SE CI40. 42.6 1.89912 {38.4622,46.7378}42. 42.6 1.89912 {38.4622,46.7378}48. 42.6 1.89912 {38.4622,46.7378}45. 42.6 1.89912 {38.4622,46.7378}38. 42.6 1.89912 {38.4622,46.7378}26. 30. 1.89912 {25.8622,34.1378}28. 30. 1.89912 {25.8622,34.1378}34. 30. 1.89912 {25.8622,34.1378}32. 30. 1.89912 {25.8622,34.1378}30. 30. 1.89912 {25.8622,34.1378}39. 44.4 1.89912 {40.2622,48.5378}50. 44.4 1.89912{40.2622,48.5378}40. 44.4 1.89912{40.2622,48.5378}50. 44.4 1.89912{40.2622,48.5378}43. 44.4 1.89912{40.2622,48.5378}Estimate SE TStat PValue1 42.6 1.89912 22.43143.63987×10-11{ParameterCITable->2 -12.6 2.68576-4.6914 0.000521963 1.8 2.68576 0.67020.515421Rsquared->0.739904,AdjustedRSquared->0.696554, EstimatedVariance->18.0333,ANOVATable->DF SumOfsq MeanSq Fratio Pvalue Model2 615.6307.817.06840.000309602Error 12 216.4 18.0333Total14 832.从参数置信区间表(ParameterCITable)可知: A μ的点估计是42.6, 估计量的标准差为1.89912, A μ的置信水平为0.95的置信区间是(38.4622,46.7378). A B μμ-的点估计是?12.6,标准差为 2.68576,AB μμ-的置信水平为0.95的置信区间是).74822.6,4518.18(--A C μμ-的点估计是1.8, 标准差为2.68576, A C μμ-的置信水平为0.95的置信区间是从均值置信区间表(MeanPredictionCITable)知: A μ的点估计, A μ的置信区间同参数置信区间表, B μ的点估计为30.0, 置信度为0.95的置信区间是),1378.34,8622.25(C μ的点估计为44.4, 置信度为0.95的置信区间是).5378.48,2622.40(从参数表(ParameterTable)知: 关于A B μμ-是否等于零的假设检验结果是否定的, 即A B μμ-不等于零. 关于A C μμ-是否等于零的假设检验结果是不否定原假设, 即不否定A C μμ-等于零的假设.从Rsquared->0.739904知Y 的变化中的74%是由模型引起的,26%是由误差引起的.从EstimatedVariance->18.0333知模型中的误差项?的方差的估计是????????最后从方差分析表知平方和的分解结果是:总的平方和?832.0,模型引起的平方和(效应平方和)???????误差平方和????????作假设检验?时??统计量F 的观察值为17.0684, F 的P 值为0.000309602, 检验结果显然否定原假设,即三个工厂生产的电池的平均寿命有显着差异.总结起来: 三个工厂生产的电池的平均寿命有显着差异.B A μμ-的置信水平为0.95的置信区间是(6.74822,18.4518).C A μμ-的置信水平为0.95的置信区间是???????看来只有C B μμ-的置信区间未能求得.只要改变设计矩阵X , 再作一次设计回归.输入X2={{1.0,0,1},{1,0,1},{1,0,1},{1,0,1},{1,0,1},{0,1,1},{0,1,1},{0,1,1},{0,1,1},{0,1,1},{0,0,1},{0,0,1},{0,0,1},{0,0,1},{0,0,1}};?? DesignedRegress[X2,Y1,RegressionReport->{ParameterCITable,MeanPredictionCITable,SummaryReport}]就能得到类似于对11,y x 的设计回归结果(输出结果省略了),从参数置信区间表可以得到C B μμ-的置信水平为0.95的置信区间是).54822.8,2518.20(--例3.2 (教材 例3.2) 将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象,以致减少了药效. 下表中列出了5种常用的抗生素注入到牛的体内时, 抗生素与血浆蛋白质结合的百分比. 试在水平05.0=α下检验这些百分比的均值有无显着的差异.青霉素四环素链霉素红霉素氯霉素29.6 27.3 5.8 21.6 29.224.3 32.6 6.2 17.4 32.828.5 30.8 11.0 18.3 25.032.0 34.8 8.3 19.0 24.2本例也是单因素方差分析问题. 输入X3={{1.0,0,0,0,0},{1,0,0,0,0},{1,0,0,0,0},{1,0,0,0,0},{1,1,0,0,0},{1,1,0,0,0},{1,1,0,0,0},{1,1,0,0,0},{1,0,1,0,0},{1,0,1 ,0,0},{1,0,1,0,0},{1,0,1,0,0},{1,0,0,1,0},{1,0,0,1,0},{1,0,0,1,0},{1,0,0 ,1,0},{1,0,0,0,1},{1,0,0,0,1},{1,0,0,0,1},{1,0,0,0,1}};Y3={29.6,24.3,28.5,32.0,27.3,32.6,30.8,34.8,5.8, 6.2,11.0,8.3,21.6,17.4,18.3,19.0,29.2,32.8,25.0,24.2};DesignedRegress[X3,Y3,RegressionReport->{ParameterCITable,MeanPredictionCITable,SummaryReport}]执行以后得到输出{ParameterCITable->Estimate SE CI1 28.6 1.50456{25.3931,31.8069}2 2.775 2.12777 {?1.76024,731024}3 ?20.775 2.12777{?25.3102,?16.2398}4 ?9.525 2.12777{?14.0602,?4.98976}5 ?0.8 2.12777{?5.33524,3.73524}{ParameterTable->Estimate SE TStat PValue1 28.6 1.50456 19.00886.58118×10?122 2.775 2.12777 1.304180.211833 ?20.775 2.12777 ?9.76373 6.83788×10?84 ?9.525 2.12777 ?4.476510.0004435975 ?0.8 2.12777 ?0.37598 0.712196Rsquared->0.915985,AdjustedRSquared->0.893581,EstimatedVariance->9.05483,ANOVATable->DF Sumofsq MeanSq Fratio Pvalue Model 4 1480.82 370.206 40.88496.73978×10?8Error 15 135.822 9.05483Total 19 1616.65因为F检验的P值非常小,所以即使在检验的水平01.0=α时,这些百分比的均值有显着差异.注: 利用Mathematica语句, 我们也可以直接编程计算方差分析表. 有兴趣的读者可参考更高一级的实验教材(如[10],[11]等).实验习题1.设有三台机器用来生产规格相同的铝合金薄板. 取样, 测量薄板的厚度精确至千分之一厘米, 得结果如下表:考察机器这一因素对薄板厚度有无显着的影响).α(=.0052.下表给出了小白鼠在接种3种不同菌型的伤寒杆菌后存活的天数试问,小白鼠在接种了不同菌型的伤寒杆菌后存活的天数是否有显着性差异?)05.0α(=。