tl第八章 方差分析和回归分析
茆诗松《概率论与数理统计教程》(第2版)(课后习题 方差分析与回归分析)【圣才出品】
第8章 方差分析与回归分析一、方差分析1.在一个单因子试验中,因子A有三个水平,每个水平下各重复4次,具体数据如下:表8-1试计算误差平方和s e、因子A的平方和S A与总平方和S T,并指出它们各自的自由度.解:此处因子水平数r=3,每个水平下的重复次数m=4,总试验次数为n=mr=12.首先,算出每个水平下的数据和以及总数据和:T1=8+5+7+4=24.T2=6+10+12+9=37.T3=0+1+5+2=8.T=T l+T2+T3=24+37+8=69.误差平方和S e由三个平方和组成:于是而2.在一个单因子试验中,因子A有4个水平,每个水平下重复次数分别为5,7,6,8.那么误差平方和、A的平方和及总平方和的自由度各是多少?解:此处因子水平数r=4,总试验的次数n=5+7+6+8=26,因而有误差平方和的自由度因子A的平方和的自由度总平方和的自由度3.在单因子试验中,因子A有4个水平,每个水平下各重复3次试验,现已求得每个水平下试验结果的样本标准差分别为1.5,2.0,1.6,1.2,则其误差平方和为多少?误差的方差σ2的估计值是多少?解:此处因子水平数r=4,每个水平下的试验次数m=3,误差平方和S e由四个平方组成,它们分别为于是其自由度为,误差方差σ2的估计值为4.在单因子方差分析中,因子A有三个水平,每个水平各做4次重复试验.请完成下列方差分析表,并在显著性水平α=0.05下对因子A是否显著作出检验.表8-2 方差分析表解:补充的方差分析表如下所示:表8-3 方差分析表对于给定的显著性水平,查表知,故拒绝域为,由于,因而认为因子A是显著的.此处检验的p值为5.用4种安眠药在兔子身上进行试验,特选24只健康的兔子,随机把它们均分为4组,每组各服一种安眠药,安眠时间如下所示.表8-4 安眠药试验数据在显著性水平下对其进行方差分析,可以得到什么结果?解:这是一个单因子方差分析的问题,根据样本数据计算,列表如下:表8-5于是根据以上结果进行方差分析,并继续计算得到各均方以及F 比,列于下表:表8-6在显著性水平下,查表得,拒绝域为,由于故认为因子A (安眠药)是显著的,即四种安眠药对兔子的安眠作用有明显的差别.此处检验的p 值为6.为研究咖啡因对人体功能的影响,特选30名体质大致相同的健康男大学生进行手指叩击训练,此外咖啡因选三个水平:每个水平下冲泡l0杯水,外观无差别,并加以编号,然后让30位大学生每人从中任选一杯服下,2h后,请每人做手指叩击,统计员记录其每分钟叩击次数,试验结果统计如下表:表8-7请对上述数据进行方差分析,从中可得到什么结论?解:我们知道,对数据作线性变换不会影响方差分析的结果,这里将原始数据同时减去240,并作相应的计算,计算结果列入下表:表8-8于是可计算得到三个平方和把上述诸平方和及其自由度填入方差分析表,并继续计算得到各均方以及F比:表8-9若取查表知,从而拒绝域为,由于.故认为因子A(咖啡因剂量)是显著的,即三种不同剂量对人的作用有明显的差别.此处检验的p值为7.某粮食加工厂试验三种储藏方法对粮食含水率有无显著影响.现取一批粮食分成若干份,分别用三种不同的方法储藏,过一段时间后测得的含水率如下表:表8-10(1)假定各种方法储藏的粮食的含水率服从正态分布,且方差相等,试在下检验这三种方法对含水率有无显著影响;(2)对每种方法的平均含水率给出置信水平为0.95的置信区间.解:(1)这是一个单因子方差分析的问题,由所给数据计算如下表:表8-11三个平方和分别为。
08-方差分析与回归
统计学原理
观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售 业绩差异。此时,需要判断这种差异与同一颜色包装在不同城市间 的差异相比,是否显著。如果不显著,则这种平均值的差异属于偶 然差异。
市场 北京 上海 广州 武汉 西安 平均 红色 26.5 28.7 25.1 29.1 27.2 27.32 绿色 31.2 28.3 30.8 27.9 29.6 29.56 黄色 27.9 25.1 28.5 24.2 26.5 26.44 蓝色 30.8 29.6 32.4 31.7 32.8 31.46
解释的变异的大小。
SSA R SST
2
统计学原理
方差分析的基本假定
每个总体均服从正态分布 各总体的方差相同 观测值具有独立性
统计学原理
双因素方差分析
观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响, 涉及到双因素的方差分析。 此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。 其中SSE的自由度为 (n-r-k)
统计学原理
第三节 线性回归
统计学原理
回归分析的内容
1、通过一组样本数据,确定变量间的函
数关系
2、对函数关系进行统计检验 3、通过回归方程,进行估计或预测,并
对估计结果的可靠性进行判断。
统计学原理
回归模型
因变量:被解释的变量 自变量:用于解释因变量的其他变量。 误差项:因变量中不能被函数关系解释
ü ³ ° °½ ²½¨ ½î ½½A½ ½ ü ³ ° °A ½½1 ½½½½ ú ¨î ½ ½½ B½ ½ ½½2 ½½3 ½½4 ½½5 20 22 24 16 26 ü ³ ° °B 12 10 14 4 22 ü ³ ° °C 20 20 18 8 16 ü ³ ° °D 10 12 18 6 20 ü ³ ° °E 14 6 10 18 10
方差分析和回归分析
第八章方差分析和回归分析在生产过程和科学实验中,经常遇到这样的问题:影响产品的质量、产量的因素很多,我们需要通过观察或试验来判断哪些因素对产品的质量、产量有显著的影响,方差分析就是用来解决这类问题的一种有效方法。
方差分析就是检验同方差的若干正态母体均值是否相等的一种统计分析方法,它是在20世纪20年代由英国统计学家费希尔首先用到农业试验上去的。
后来发现这种方法的应用范围十分广阔,可以成功地应用在试验工作的很多方面.第一节单因素的方差分析在试验中,我们将要考察的指标称为试验指标,影响试验指标的条件称为因素。
因素分为两类,一类是人们可以控制的;一类是人们不可以控制的。
以下我们所说的因素是可控因素,因素所处的状态称为该因素的水平。
如果在一项试验中只有一个因素在改变,这样的试验我们称为单因素试验,如果多于一个因素在改变,就称为多因素试验。
本节就通过实例来讨论单因素试验。
1.数学模型例9.1某试验室对钢锭模进行选材试验。
其方法是将试件加热到700° C,投入到20° C的水中急冷,这样反复进行到试件断裂为止,试验次数越多,试件质量越好。
试验结果如表所示试验的目的是确定4种生铁试件的抗热疲劳性能是否有显著差异这里,试验的指标是钢锭模的热疲劳值,钢锭模的材质是因素,4种不同的材质表示钢锭模的4个水平,这项试验叫做4 个水平单因素试验。
例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率,在40° C, 50° C,…,90° C的水中分别进行4次试验,得到该种纤维在每次试验中的缩水率如表。
试问浸泡水的温度对缩水率有无显著影响?这里试验指标是人造纤维的缩水率,温度是因素,这项试验为6水平单因素试验。
单因素实验的一般数学模型:因素A有s个水平A4, .......... , A,在水平A j (j=1,2,…,s )下进行叫⑴—2)次独立试验,得到如下表的结果。
第八章方差分析与回归分析
Ti T SSA n i 1 ni
r ni
其中 Ti
r 2
X
j 1
ni
ij
, T Ti
i 1
r
同一水平 下观测值 之和
所以观测 值之和
例2 以 A、B、C 三种饲料喂猪,得一个月后每猪 所增体重(单位:500g)于下表,试作方差分析。 饲料 增重
A
B
51
23
X ij ij , j 1, 2,...ni , i 1, 2,...r
r ni i 1 j 1
考察统计量 SST X ij X
2
总离差平方和
经恒等变形,可分解为: SST SS A SSE 其中
SSA X i X
i 1 j 1
r
2 T 2 SSE X ij i 512 402 ... 282 11406.83 i 1 j 1 i 1 ni 11497 11406.83 r r ni
SST SS A SSE 11497 10472.11 1024.89
MS A 934.73 2 467.36 MSE 90.17 6 15.03
丁
1510 1520 1530 1570 1680 1600
引
例
试验指标——灯泡的使用寿命 可控因素(唯一的一个) ——灯丝的配料方案 四个水平——四种配料方案(甲乙丙丁) 因此,本例是一个四水平的单因素试验。 用X1,X2,X3,X4分别表示四种灯泡的使用寿命,即为 四个总体。假设X1,X2,X3,X4相互独立,且服从方差 相同的正态分布,即Xi~N(i,2)(i=1,2,3,4) 本例问题归结为检验假设 H0:1= 2= 3= 4 是否成立。
方差分析与回归分析
方差分析与回归分析在统计学中,方差分析(ANOVA)和回归分析(Regression Analysis)都是常见的统计分析方法。
它们广泛应用于数据分析和实证研究中,有助于揭示变量之间的关系和影响。
本文将对方差分析和回归分析进行介绍和比较,让读者更好地理解它们的应用和区别。
一、方差分析方差分析是一种统计方法,用于比较两个或更多组别的均值是否存在显著差异。
它通过计算组内变异和组间变异的比值来判断不同组别间的差异是否具有统计显著性。
在方差分析中,通常有三种不同的情形:单因素方差分析、双因素方差分析和多因素方差分析。
单因素方差分析适用于只有一个自变量的情况。
例如,我们想要比较不同教育水平对收入的影响,可以将教育水平作为自变量分为高中、本科和研究生三个组别,然后进行方差分析来检验组别之间的收入差异是否显著。
双因素方差分析适用于有两个自变量的情况。
例如,我们想要比较不同教育水平和不同工作经验对收入的影响,可以将教育水平和工作经验作为自变量,进行方差分析来研究其对收入的影响程度和相互作用效应。
多因素方差分析适用于有多个自变量的情况。
例如,我们想要比较不同教育水平、工作经验和职位对收入的影响,可以将教育水平、工作经验和职位作为自变量,进行方差分析来探究它们对收入的联合影响。
方差分析的基本原理是计算组内变异和组间变异之间的比值,即F 值。
通过与临界F值比较,可以确定差异是否显著。
方差分析的结果通常会报告组间平均差异的显著性水平,以及可能存在的交互作用。
二、回归分析回归分析是一种统计方法,用于研究自变量与因变量之间的关系。
它通过建立一个数学模型来描述自变量对因变量的影响程度和方向。
回归分析分为简单线性回归和多元线性回归两种类型。
简单线性回归适用于只有一个自变量和一个因变量的情况。
例如,我们想要研究体重与身高之间的关系,可以将身高作为自变量、体重作为因变量,通过拟合一条直线来描述二者之间的关系。
多元线性回归适用于有多个自变量和一个因变量的情况。
第八章方差分析与回归分析
第八章 方差分析与回归分析一、教材说明本章内容包括:方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容.1、教学目的与教学要求(1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.(2)了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,会解决简单的实际问题.(3)熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题.(4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析,会解决简单的实际问题.2、本章的重点与难点本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法. 实际问题的检验,回归方程的显著性检验.二、教学内容本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容.§ 方差分析教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.教学重点:平方和的分解,检验方法和参数估计 教学难点:检验方法和参数估计教学内容:本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形.问题的提出在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分析方法.例单因子方差分析的统计模型在例中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r 个水平,记为1r A ,,A ,在每一水平下考察的指标可看做一个总体,故有r 个总体,假定(1)每一总体均为正态总体,记为2i i N(,)μσ,i 1,2,,r =;(2)各总体方差相同,即222212r σσσσ====(3)每一总体中抽取的样本相互独立,即诸数据ij y 都相互独立 在这三个基本假定下,要检验的假设是012112::,,,rr H H μμμμμμ===↔⋯不全相等 ()如果0H 成立,因子A 的r 个水平均值相同,称因子A 的r 个水平间没有显著差异,简称因子A 不显著;反之,若0H 不成立,因子A 的r 个水平均值不全相同,称因子A 的r 个水平间有显著差异,简称因子A 显著.在每一水平下各作m 次独立重复试验,若记第i 个水平下第j 次重复的实验结果为ij y ,得到r m ⨯个实验结果:ij y ,=1,2,,=1,2,,.i r j m在水平A i 下的实验结果ij y 与该水平下的均值i μ的差距ij ij =y -i εμ称为随机误差.于是有ij ij y =+i εμ, ()该式称为实验结果ij y 的数据结构式.把三个假定用于数据结构式就得到单因子方差分析的统计模型:ij ij 2ij y =+,=1,2,,=1,2,,;(0,)i i r j m N εμεσ⎧⎪⎨⎪⎩诸相互独立,且都服从 () 称诸i μ的平均1=111=(++)=rr i i rr μμμμ∑为总均值,第i 水平下均值i μ与总均值的差=-i i a μμ称为因子A 的第i 水平的主效应,简称为A i 的主效应.则有=1=0,=+.ri i i i a a μμ∑统计模型()可改写为ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i r j m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 假设()可改写为012112:=0:,,,0r r H a a a H a a a ===↔⋯不全为.平方和分解一 实验数据在单因子方差分析中可将实验数据列成如下表格形式因子水平 试验数据 和 平均1A 11y 12y 1m y 1T 1y 2A 21y 22y 2m y 2T 2yr A r1y r2y rm yr T y r合计 T y 二 组内偏差与组间偏差ij ij y -=(y -)+(-)i i y y y y ,记=1i=1i=1=1111=,==m r r mi ij i ij j j m r n εεεεε∑∑∑∑,ij y -i y 称为组内偏差,-i y y 称为组间偏差.三 偏差平方和及其自由度 在统计学中,把k 个数据1,,k y y 分别对其均值1=(++)/k y y y k 的偏差平方和2=1=(-)ki i Q y y ∑称为k 个数据的偏差平方和,简称平方和.由于=1(-)=0kii y y ∑,说明在Q 中独立的偏差只有-1k 个,称为该平方和的自由度,记为f ,=-1.Q f k四 总平方和分解公式各ij y 间总的差异大小可用总偏差平方和T S 表示为211(),=-1r mT ij T i j S y y f n ===-∑∑. ()仅由随机误差引起的数据间差异可用组内偏差平方和,也称误差偏差平方和,记为e S ,211(),=r(m-1)=n-r.r me ij e i i j S y yf ===-∑∑ ()由效应不同引起的数据差异可用组间偏差平方和表示,也称为因子A 的偏差平方和,记为A S ,21(),=-1.rA A ii S m yy f r ==-∑ ()定理 在上述符号下,总平方和T S 可分解为因子平方和.A S 与误差平方和e S 之和,其自由度也有相应分解公式:S =,=+.T A e T A e S S f f f + ()称为总平方和分解式.8. 检验方法为了度量一组数据的离散程度,称/Q MS Q f =为均方和.由均方和的概念,得到/A A A MS S f =,/e e e MS S f =,用/A e F MS MS =作为检验的统计量,为给出检验拒绝域,需要如下定理:定理 在单因子方差分析模型及前述符号下,有(1)22~-),es n r χσ(从而2()=(-)e E S n r σ(2) 22=1()=(-1)+rA ii E S r maσ∑,若0H 成立,则有22~(1)AS r χσ-(3)A S 与e S 相互独立. 由定理知/(,)A eA e F MS MS F f f = ,从而可得检验的拒绝域为1{(,)}A e W F F f f α-=≥.将上述结果列成表格,称为方差分析表来源 平方和 自由度 均方和 F 比因子 A S 1A f r =- /A A A MS S f = /A e F MS MS = 误差 e S -e f n r = /e e e MS S f = 总和 T S 1T f n =-若1(,)A e F F f f α->,则可以认为因子A 显著,即诸正态均值间有显著差异; 若1<(,)A e F F f f α-,则说明因子A 不显著,即保留原假设0H . 常用偏差平方和的计算公式:2211rmT ij i j T S y n ===-∑∑2211r A i i T S T m n ==-∑ e T AS S S =-例参数估计在检验结果为显著时,可进一步求出总均值μ,各主效应i a 和误差方差2σ的估计. 一 点估计总均值μ的估计为ˆy μ=; 各水平均值i μ的估计ˆ,1,2,,i i y i r μ==; 主效应i a 的估计ˆ,1,2,,i i ay y i r =-=误差方差2σ的估计2ˆ/e e e MS S f σ== 二 置信区间由定理知 222~N(,/m),~),ei i e s y μσχσ(f 且两者独立,故(-~t ),/i i e e em y f S f (由此给出A i 的水平均值i μ的1α-的置信区间是1/2ˆ()/i e y t f m ασ-±例单因子试验的数据分析可以知道如下三个结果 因子A 是否显著 试验误差方差2σ的估计诸水平均值i μ的点估计与区间估计(此项在因子A 不显著时无需进行)重复数不等情形1. 数据设因子A 有r 个水平1r A ,,A ,并且第r 个水平i A 下重复进行i m 次试验,可得如下数据:因子水平 重复数 试验数据 和 平均1A 1m 11y 12y 11m y 1T 1y 2A 2m 21y 22y 22m y 2T 2yr A r m r1y r2y r rm y rT r y合计 nTy2. 基本假定、平方和分解、方差分析和判断准则都和前面一样,只是因子A 的平方和A S 的计算公式略有不同:记1ri i n m ==∑,则221ri A i iT T S m n ==-∑ 3. 数据结构式及参数估计式基本同前,需要注意下面两点:(1)总均值11ri i i m n μμ==∑;(2)主效应约束条件为10ri ii m a==∑类似于 有ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i i r j m m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 4 各平方和的计算记1,=im i i ij i j i T T y y m ==∑,=11,=im r ij i j TT y y n ==∑∑则2211,=-1,im rT ij T i j T S y f n n ===-∑∑221,=-1,ri A A i iT T S f r m n ==-∑,=-e T A e S S S f n r =-.例 略§ 多重比较教学目的:了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,能用R 软件来进行多重比较,会解决简单的实际问题。
第八章方差分析与回归分析1
饲料A
A1 A2 A3
鸡重/g
1073 1009 1060 1001 1002 1012 1009 1028 1107 1092 990 1109 1090 1074 1122 1001 1093 1029 1080 1021 1022 1032 1029 1048
比较三种饲料的增重效果是否一致
利用样本比较三个总体均值是否相等
直观上看该问题可以用两个总体均值差异显著性检验解决, 但细想想还是存在一定问题,因为这样的比较能增大犯错误的 概率。为解决这类问题,英国统计学家R.A.Fisher于1924年提出 了解决此类问题的通用方法-方差分析法。
2.方差分析的概念
试验指标: 试验结果。
可控因素: 在影响试验结果的众多因素中,可人为控制
间的差异 这种差异可能是由于抽样的随机性所造成的,也可能是由 于行业本身所造成的,后者所形成的误差是由系统性因素
造成的,称为系统误差
数据的误差用平方和(sum of squares)表示,称 为方差
组内方差(within groups)
因素的同一水平(同一个总体)下样本数据的方差 比如,零售业被投诉次数的方差
2MSe r
以LSD 为两均值比较的最小显著差。 如果xi , xj (i, j 1, 2, , a,i j)表示两个样本均值。 当 xi xj LSD时,就认为第i, j水平间均值差异显著;
当 xi xj LSD时,就认为第i, j水平间均值差异不显著。 q法(又称SNK (student-Newman-Keuls)检验法)
q测验方法是将r个平均数由大到小排列后,根据所比较 的两个处理平均数的差数是几个平均数间的极差分别确 定最小显著极差LSRα值的。
tl第八章 方差分析和回归分析知识课件
区间预测:区间预测就是对给定的 x=x0,
利用区间估计的方法求出 y0 的置信区间.
对给定的 x=x0,由回归方程可计算一个回
归值
yˆ0 aˆbx0
设在 x=x0 的一次观察值为 y0,记 y0 yˆ0
i y i y ˆi(i 1 ,2 , ,n )
其中 yi 为对应 xi 的观察值,为对应 xi 的回归值
著,即诸正态均值间有显著差异;
若FF1(fA, fe),则说明因子A不显著 ,即保留原假设 H 0
2020/10/11
8.1.2 数据结构式及其参数估计
1、数据结构式
y i j a i i j,i 1 ,2 ,,r ;j 1 ,,m
其中 为总均值,a i 为第 i 个水平的效应,
r
且 a i 0 , i j 为试验误差,所有 i j 可作为来 i1
如果 | r | 时,则可认为在显著性水平下
,y 与 x 的线性相关关系不显著,即拒绝假设H0 .
2020/10/11
5. 预测与控制 在求出随机变量 y 与变量 x 的一元线性回归 方程,并通过相关性检验后,便能用回归方程进 行预测和控制.
(1)预测
,作yˆ0点为预aˆ测的b:x预0对测给值定,的这yx0种=x方0,法根叫据做回点归预方测程. 求得
2020/10/11
3、平方和分解式
ST SA Se
fT fA fe
其中
yi m 1jm 1yij,yr1 m i r1jm 1yij 1 ri r1yi
注意几个概念
r m
2 称为总平方和,其自由
ST
yij y
i1 j1
度 fT n 1
2020/10/11
方差分析与回归分析
考虑到这里2分布是近似分布,在诸样本量mi均 不小于5时使用上述检验是适当的。
3 November 2018
华东师范大学
第八章 方差分析与回归分析
第9页
例8.3.2 为研究各产地的绿茶的叶酸含量是否 有显著差异,特选四个产地绿茶,其中A1制 作了7个样品, A2制作了5个样品, A3与A4各 制作了6个样品,共有24个样品,按随机次 序测试其叶酸含量,测试结果如表8.3.3所示。
华东师范大学
第八章 方差分析与回归分析
第8页
由此可见,在比值GMSe/MSe较大时,就意味着 诸样本方差差异较大,从而检验(8.3.1)表示 的一对假设的拒绝域应是 W={ln GMSe/MSe> >d} (8.3.4) (8.3.8)
Bartlett证明了,检验的拒绝域为
W={B> 1- 2 (r-1) }
3 November 2018
华东师范大学
第八章 方差分析与回归分析
第11页
8.3.3 修正的Bartlett检验
针对样本量低于5时不能使用Bartlett检验的缺 点,Box提出修正的Bartlett检验统计量
B f 2 BC f1 ( A BC )
r 1 , 2 (C 1)
(8.3.9)
9.00 1.9149 4.70
在 =0.05时,由附表10查得H0.95(4,9) =6.31, 由于H<6.31,所以应该保留原假设H0,即认 为四个总体方差间无显著差异。
3 November 2018
华东师范大学
第八章 方差分析与回归分析
第7页
8.3.2 Bartlett检验
在单因子方差分析中有r个样本,设第i个样 m Qi 1 本方差为:s2 2 ( y y ) , i 1,2,, r
第八章 方差分析与回归分析
2. 处理(Treatment)
处理:因素的不同水平的组合称为处理。 在单因素试验中,因素的每一个水平称为一个处理,试验因素有几个 水平,就相应的有几个处理.在多因素试验中,每个因素可设置若干个水平, 各因素不同水平的组合称为处理.处理的数目为各因素水平的乘积.
X a. X ..
T..
Ti . T ..
X ij
j 1 a
r
X i. X ..
Ti . r T .. ar
X
i 1 j 1
r
ij
2. 统计模型
把试验数据 X ij 纳入一定的统计模型是统计分析的前提.所谓统计模型是一 个有关 X ij 形成机理的数学表达式,其中包括与 X ij 有关的参数及其前提、约束条 X 件、随机变量的分布等, ij 必须满足这个统计模型才能进行方差分析.
三、方差分析的基本思想 以例8.1为例来说明方差分析的基本思想。 由例8.1的试验以及对工业生产所具有的常识可以知道,不同类型的 集装箱其试验指标—抗压强度存在差异,并且同一类型的不同集装箱其 抗压强度也会有差异。这两种差异产生的原因,前者主要是由于不同类 型的集装箱由于其生产条件、原材料、技术标准等等人为可控或者可辨 识的因素的不同造成抗压强度的差异,这就是组间误差,可以通过表 8.1中平均抗压强度来估计,后者是除类型外的各种人为不可控的随机 因素作用造成的指标的差异,这就是随机误差,可以通过同一类型的不 同集装箱的抗压强度之间的差异来度量。那么,如何判断不同种类的海 用集装箱的抗压强度是否有差异?若有差异,哪一种抗压强度最高? R.A.Fisher 创立的方差分析是解决该类问题的有力工具,其直观想法是: 对试验数据所显示的差异进行分解,区分出组间误差和随机误差,利用数 理统计的相关原理建立适当的统计量,将组间误差与随机误差进行比较, 如果组间误差比随机误差大得多,就认为试验数据的差异主要是由
第八章方差分析与回归分析
精心整理第八章方差分析与回归分析§1单因素试验的方差分析试验指标:研究对象的某种特征。
例各人的收入。
因素:与试验指标相关的条件。
例各人的学历,专业,工作经历等与工资有关的特征。
因素水平:因素所在的状态例学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。
问题假设1,,r A ;2。
各个总体的抽样过程是独立的。
3)~i X 1原假设22,,,r μσ进行参数估计。
注1210rik δ==∑各类样本均值水平i A 的样本均值:11in i ijj iX Xn ==∑;水平总样本均值:11111i n r rij i i i j i X X n X n n =====∑∑∑,1ri i n n ==∑;偏差平方和与效应 组间偏差平方和:22211()rrA i i i i i i S n X X n X nX ===-=-∑∑;(衡量由不同水平产生的差异)组内偏差平方和:2221111()()iin n rrE ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑;(衡量由随机因素在同一水平上产生的差异) 总偏差平方和:222111()in rrT ij i ij i j i S X X n X nX ====-=-∑∑∑;(综合衡量因素,水平之间,随机因素的差异) 定理1(总偏差平方和分解定理)T A E S S S =+。
即1111)()in ri i j i j X X ====+-∑∑∑∑注定理2(E ES n =证1)E i ES ===∑定理31)/E S 2)如还有,2/~A S σ证1~(ij X N 1,,i n ,且独立,所以由第五章定理21()~(in ij ij i i i i j X X X X n μμχσ=⎛⎫⎛⎫----= ⎪ ⎪⎪ ⎪⎭⎝⎭∑∑利用2χ可加性,即得2221/~()()E i i S n r n r σχχ=-=-,且i X 与E S 独立。
概率论与数理统计--第八章 方差分析与回归分析
定理8.1.1 在上述符号下,总平方和ST可以分解为因子平方和SA与误差平方和Se之和,其自由度也有相应分解公式,具体为: ST =SA +Se , fT =fA +fe (8.1.16) (8.1.16)式通常称为总平方和分解式。
在水平Ai下的试验结果yij与该水平下的指标均值 i 一般总是有差距的,记 ij = yiji, ij 称为随机误差。于是有 yij = i +ij (8.1.2) (8.1.2)式称为试验结果 yij 的数据结构式。
第八章 方差分析与回归分析
§8.1 方差分析 §8.2 多重比较 §8.3 方差齐性分析 §8.4 一元线性回归 §8.5 一元非线性回归
§8.1 方差分析
8.1.1 问题的提出 实际工作中我们经常碰到多个正态总体均值的比较问题,处理这类问题通常采用所谓的方差分析方法。
例8.1.1 在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:A1是以鱼粉为主的饲料,A2是以槐树粉为主的饲料,A3是以苜蓿粉为主的饲料。为比较三种饲料的效果,特选 24 只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示:
表8.1.1 鸡饲料试验数据
饲料A
鸡 重(克)
A1
1073
1009
1060
1001
1002
1012
1009
1028
A2
1107
1092
990
1109
1090
1074
1122
第八章 方差分析与回归分析
三、偏差平方和及其分解
为了通过分析对比产生样本 X ij 之间差异性的
原因,从而确定因素A的影响是否显著,引人偏差平
方和
r ni
2
总偏差平方和 ST
X ij X ,
i1 j1
ST 能反映全部试验试验数据之间的差异.
组间(偏差)平方和
SA
r
ni
X i X
若试验中变化的因素多于一个,则称为多因素以 及多因素试验.
单因素试验中,若只有两个水平,就是第七章的 两个总体的比较问题. 超过两个水平时,也就是需要 多个总体进行比较,这时,方差分析是一种有效的方 法.
设单因素A具有r个水平,对每个水平进行重复 试验,列出试验记录表:
试验批号
1
2 j ni 行和 行平均
9
F F ,
可认为没有显著差异.
§8.2 回归分析的概念
一、确定性关系和非确定性关系 1.确定性关系——即函数关系,总可以用形如
y=f(x)之类的函数来描述. 例如:y sin x, s R2.
2.非确定性关系——即两个变量之间存在某种相 互依赖的关系,但又不能用形如 y=f(x) 的函数关系来 确切描述,即不能由一个确定的 x 值,找到唯一确定的 y 值,这种关系称为非确定性关系.
首先一个问题是如何根据已经试验的结果以及以往 的经验来确定回归函数的类型以及求出函数中的未知参 数的估计,得到经验公式.
例1 以家庭为单位,某种商品年需求量与该商品 价格之间的一组调查数据如下表所示:
价格xi (元) 1 2 2 2.3 2.5 2.6 2.8 3 3.3 3.5 需求yi (斤) 5 3.5 3 2.7 2 .4 2.5 2 1.5 1.2 1.2
方差分析和回归分析
mr
误差平方和 Se
(xij xi xj x)2
i1 j1
反映了随机误差引起的波动。
在H01,H02为真时
1
2
St
~2(mr1)
1
2
SB
~
2(r
1)
1
2
SA
~
2(m1)
1
2
Se
~2(m1)(r1)
F AS e/S (A m /( m 1 ) (r 1 ) 1 )~F (m 1 ,(m 1 )(r 1 ))
件尽可能相同时,测得缩水率(%)如下表。
水平 重复
A1
A2
A3
A4
A5
1
4.3(x11) 6.1(x12) 6.5(x13) 9.3(x14) 9.5(x15)
2
7.8(x21) 67.3(x22) 8.3(x23) 8.7(x24) 8.8(x25)
3
3.3(x31) 4.2(x32) 8.6(x33) 7.2(x34) 11.4(x35)
67
69
74
4
51
57
57
59
试验中,我们所关心的指标,即羊羔的增重数量,称为试验
指标或响应值;影响增重数量(响应值)的指标是激素,称为
因素;激素用量(因素的状态)称为因素的水平或简称水平。
本例中有1个因素,4个水平,故称为单因素试验。
在方差分析中,通常取1-3个因素进行研究。因素的每一个状态 称为一个水平,水平可以是数量化的,也可以是定性的。
在H01,H02为真时
S x nx 因我在此们H0, 分1总,无别H和交称02互它为作们真用为时的误T方并差的分偏r析差模平s 型方为和i2j,因子A2的偏差平方m和r-,1因子B的偏差的平方和以及交互作用A×B的偏差平方和。
方差分析及回归分析ppt60页课件
设因素有S个水平,在水平Aj (j=1,2,…,s)下,进行nj (nj≥2)次独立试验,结果如下:
水平 观察结果
A1
A2
…
As
X11 X21 …
X11 X21 …
… … …
X11 X21 …
样本总和 样本均值 总体均值
T.1 X.1 μ 1
T.2 X.2 μ 2
… … …
160
180
60
80
100
40
设Y关于x的回归函数为μ(x)。利用样本来估计μ(x)的问题称为求Y关于x的回归问题。 若μ(x)是线性函数μ(x)=a+bx,此时的估计问题称为求一元线性回归问题。 一元线性回归模型: 设Y~N(a+bx, σ2 )其中a,b, σ2是未知参数,记 ε = Y-(a+bx),则 Y= a+bx + ε, ε ~N(0, σ2 ) (1) 称上式为一元线性回归模型。 称a+bx为x的线性函数,而ε ~N(0, σ2 )是随机误差。
SE称为误差平方和, SA表示Aj水平下的样本均值与数据总平均的差异,叫做效应平方和,他是由水平Aj的效应的差异以及随机误差引起的。
(1,8)
则得 ST=SE+SA ,
(1,9)
(1,10)
(三) SE,SA的统计特性 1、SE的统计特性
由于 是总体 的nj-1倍, 所以 由于独立,(1,11)中各式独立,根据 分布的可加性,得
(1,14)
(1,15)
可以证明SE,SA的是相互独立的,且H0当为真时 (四)假设检验问题的拒绝域 由(1,15)式,当H0为真时 所以SA /(s-1)是σ2的无偏估计,而当当H1为真时, 这时 而由于
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
误差方差 2 的估计 ˆ 2 MSe Se / fe
3、1 的置信区间 i 的 1 的置信区间是 yig ˆ gt1/2 ( fe ) / m
4 单因子试验的统计分析可以知道如下三个结 果 • 因子A是否显著
• 试验误差方差 2 的估计 • 诸水平均值 i 的点估计与区间估计(此项在
一元回归分析是研究两个变量之间的相关关 系的方法。如果两个变量之间的关系是线性的, 这就是一元线性回归问题。一元线性回归问题主 要分以下三个方面: (1)通过对大量试验数据的分析、处理,得到 两个变量之间的经验公式即一元线性回归方程.
(2)对经验公式的可信程度进行检验,判断经 验公式是否可信.
(3)利用已建立的经验公式,进行预测和控制.
i1 j 1
称为组内平方和或误差平方和,其自由度
fe n r
4、方差分析表
来源
平方和
因子
SA
1 m
r i 1
Ti 2
T2 rm
F MSA / MSe 误差
Se ST SA
总和
ST
r i1
m j 1
yij 2
T2 rm
自由度
fA r 1
均方和F 比
MSA SA / fA
fe r(m 1) MSe Se / fe
我们把总体平方和分解,令
yˆi aˆ bˆxi
n
n
n
s总 ( yi y)2 ( yi yˆi )2 ( yˆi y)2
i 1
i 1
i 1
n
( yi yˆi )2
i 1
n
( yi y)2
i 1
称为剩余平方和 称为回归平方和
再来分析它们的分布
n
( yi y)2
i 1
M
M
MM
mr
yr1, yr 2 ,L , yrmr Tr yr g
Ty
2. 基本假定、平方和分解、方差分析和判断
准则都和前面一样,只是因子A的平方和的计算
r
公式略有不同:记 n mi ,则 i 1
SA
r i 1
Ti 2 mi
T2 n
3. 数据结构式及参数估计式基本同前,需要 注意下面两点:
又写成
S总
2
~
2(n
1)
S剩
2
~
2(n
2)
S回 ~ 2 (1) 2
F S回 1 ~ F(1, n 2) S剩 n 2
在 0.05 ,若统计量 F F0.05 (1, n 2) ,
回归显著,否定 H 0
4. 相关性检验 在使用由试验数据求出回归方程的最小
二乘法之前,并没有判定两个变量之间是否具 有线性的相关关系. 因此,即使在平面上一些并 不呈现线性关系的点之间,也照样可以求出一 条回归直线,这显然毫无意义. 因此,我们要用 假设检验的方法进行相关关系的检验,其方法 如下:
j 1
y 1 rm
r i 1
m
yij
j 1
1 r
r i 1
yi g
注意几个概念
r m
2 称为总平方和,其自由
ST
yij y
i1 j 1
度 fT n 1
r
SA m yig y 2 i 1
称为组间平方和或因子A的平方和,其自由
度 fA r 1
r m
2
Se
yij yig
2
~ 2 (n 1)
若能求出 n ( yi y)i )2 的自由度,则 i 1 2
n
( yˆ y)2
i1
2
的自由度也就知道了.
为了求
n ( yi y)i )2
i 1
2
的自由度,只要求出的
数学期望就可. 由于
n
n
E ( yi yˆi )2 E ( yi y)2 Ebˆ2Lxx
fT rm 1
5、判断
在 H 0 成立的条件下, F MSA / MSe : F ( f A , fe )
对给定的显著水平 (0 1),其拒绝域
为,W {F F1 ( f A , fe )} 其中F1 ( f A , fe )
可查表
若 F F1 ( f A, fe ) ,则可以认为因子A显
比较麻烦,所以用平方和来代替,即要求a、b的
n
值使Q ( yi yˆi )2 最小。利用多元函数求极 i 1
值的方法求回归系数 aˆ, bˆ ,得
其中
aˆ y bˆx
bˆ Lxy Lxx
x
1 n
n i 1
xi
y
1 n
n i 1
yi
n
n
Lxx (xi x )2 xi2 nx 2
3. 回归方程的显著性检验 一般的情况下,给定 n 对数组,总是能建立 一个方程,因为完全可以按公式做,但是这个 方程是否有效,还需作检验,也就是说回归的
显著不显著需要检验. 若回归方程中 b 0 ,则 回归方程变成 y a, 不再与 x 有关,因此bˆ 是
否为零是检验的原假设与备择假设,为了寻求 检验的统计量.
著,即诸正态均值间有显著差异;
若 F F1 ( f A, fe ) ,则说明因子A不显著, 即保留原假设 H0
8.1.2 数据结构式及其参数估计
1、数据结构式
yij ai ij , i 1, 2,K , r; j 1,K , m
其中 为总均值,ai 为第 i 个水平的效应,
r
且 ai 0 , ij 为试验误差,所有 ij 可作为来 i 1
(1)假设H0:y 与 x 存在密切的线性相关关系
(2)计算相关系数
r Lxy Lxx Lyy
(3)给定 ,根据自由度 n 2,查项关系数
表,求出临界值
(4)作出判断:如果| r | 时,接受假设H0,
即认为在显著性水平 下,y 与 x 的线性相关关
系较显著;
如果 | r | 时,则可认为在显著性水平下,
(3)诸数据 yij 都相互独立
在这三个基本假定下,要检验的假设是
H0 : 1 2 L r H1 : 1, 2 ,, r不全相等
方差分析就是在方差相等的条件下,对若 干个正态均值是否相等的假设检验.
3、平方和分解式
ST S A Se
fT f A fe
其中
yig
1 m
m
yij ,
第八章 方差分析和回归分析
• 方差分析 • 回归分析
教学目的和要求: 熟悉单因子方差分析 理解回归分析的基本思想,掌握一元线性 回归模型 教学重点和难点: 重点:单因子方差分析和一元线性回归分析 难点:方差分析的运用及线性回归模型的建 立和其显著性检验
8.1 方差分析 8.1.1 单因子方差分析 1. 提出问题
设某因子有r个水平,即为 A1,, Ar ,在
每一水平下各作m次独立重复试验,若记第 i 个
水平下第 j 次重复的实验结果为 yij ,所有试验
的结果可列于表如下:
因子水平
试验数据
A1 A2 M Ar
合计
y11, y12 ,L , y1m y21, y22 ,L , y2m
M yr1, yr 2 ,L , yrm
下面计算例1中 y 对 x 的一元线性回归方程.
这里 n=9,(xi,yi)由例1给出,计算出
x 26
y 90.1444
9
Lxx xi2 9x 2 10144 9 262 4060 i 1 9
Lyy yi2 9 y 2 i1
76218.17 990.14442 3083.9822
y 与 x 的线性相关关系不显著,即拒绝假设H0 .
5. 预测与控制 在求出随机变量 y 与变量 x 的一元线性回归 方程,并通过相关性检验后,便能用回归方程进
行预测和控制. (1)预测
点预测:对给定的x=x0,根据回归方程求
得 yˆ0 aˆ bx0 ,作为 y0 的预测值,这种方法叫
做点预测.
1.散点图与回归直线 在一元线性回归分析里,主要是考察随机变
量 y 与普通变量 x 之间的关系。通过试验,可得
到x、y 的若干对实测数据,将这些数据在坐标
系中描绘出来,所得到的图叫做散点图.
例1 在硝酸钠(NaNO3)的溶解度试验中, 测得在不同温度x(℃)下,溶解于100份水中的
硝酸钠份数 y 的数据如下:
9
Lxy xi yi 9xy i1 24628.6 9 2690.1444 3534.8
bˆ Lxy 3534.8 0.8706 Lxy 4046
aˆ y bˆx 90.1444 0.8706 26 67.507
故所求回归方程为 yˆ 67.5078 0.8706x
xi
0
4
10 15
21
29
36
61
68
yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1
给出散点图并试建 x 与 y 的经验公式.
解:将每对观察值(xi,yi)在直角坐标系中
描出,得散点图. 从图可看出,这些点虽不在一 条直线上,但都在一条直线附近.
于是,很自然会想到用一条直线来近似地表 示 x 与 y 之间的关系,这条直线的方程就叫做 y 对 x 的一元线性回归方程。设这条直线的方程为
一般地(特别当 n 很大时)1,L ,n 相互独 立,而且服从同一正态分布 N (0, 2 ).
可以证明,统计量 ˆ
2
S
2 y
Q n2
是
2
的无
偏估计量,其中
n
n
Q