高中数学:第八章 方差分析与回归分析
第八章方差分析与回归分析
Ti T SSA n i 1 ni
r ni
其中 Ti
r 2
X
j 1
ni
ij
, T Ti
i 1
r
同一水平 下观测值 之和
所以观测 值之和
例2 以 A、B、C 三种饲料喂猪,得一个月后每猪 所增体重(单位:500g)于下表,试作方差分析。 饲料 增重
A
B
51
23
X ij ij , j 1, 2,...ni , i 1, 2,...r
r ni i 1 j 1
考察统计量 SST X ij X
2
总离差平方和
经恒等变形,可分解为: SST SS A SSE 其中
SSA X i X
i 1 j 1
r
2 T 2 SSE X ij i 512 402 ... 282 11406.83 i 1 j 1 i 1 ni 11497 11406.83 r r ni
SST SS A SSE 11497 10472.11 1024.89
MS A 934.73 2 467.36 MSE 90.17 6 15.03
丁
1510 1520 1530 1570 1680 1600
引
例
试验指标——灯泡的使用寿命 可控因素(唯一的一个) ——灯丝的配料方案 四个水平——四种配料方案(甲乙丙丁) 因此,本例是一个四水平的单因素试验。 用X1,X2,X3,X4分别表示四种灯泡的使用寿命,即为 四个总体。假设X1,X2,X3,X4相互独立,且服从方差 相同的正态分布,即Xi~N(i,2)(i=1,2,3,4) 本例问题归结为检验假设 H0:1= 2= 3= 4 是否成立。
方差分析与回归分析
方差分析与回归分析在统计学中,方差分析(ANOVA)和回归分析(Regression Analysis)都是常见的统计分析方法。
它们广泛应用于数据分析和实证研究中,有助于揭示变量之间的关系和影响。
本文将对方差分析和回归分析进行介绍和比较,让读者更好地理解它们的应用和区别。
一、方差分析方差分析是一种统计方法,用于比较两个或更多组别的均值是否存在显著差异。
它通过计算组内变异和组间变异的比值来判断不同组别间的差异是否具有统计显著性。
在方差分析中,通常有三种不同的情形:单因素方差分析、双因素方差分析和多因素方差分析。
单因素方差分析适用于只有一个自变量的情况。
例如,我们想要比较不同教育水平对收入的影响,可以将教育水平作为自变量分为高中、本科和研究生三个组别,然后进行方差分析来检验组别之间的收入差异是否显著。
双因素方差分析适用于有两个自变量的情况。
例如,我们想要比较不同教育水平和不同工作经验对收入的影响,可以将教育水平和工作经验作为自变量,进行方差分析来研究其对收入的影响程度和相互作用效应。
多因素方差分析适用于有多个自变量的情况。
例如,我们想要比较不同教育水平、工作经验和职位对收入的影响,可以将教育水平、工作经验和职位作为自变量,进行方差分析来探究它们对收入的联合影响。
方差分析的基本原理是计算组内变异和组间变异之间的比值,即F 值。
通过与临界F值比较,可以确定差异是否显著。
方差分析的结果通常会报告组间平均差异的显著性水平,以及可能存在的交互作用。
二、回归分析回归分析是一种统计方法,用于研究自变量与因变量之间的关系。
它通过建立一个数学模型来描述自变量对因变量的影响程度和方向。
回归分析分为简单线性回归和多元线性回归两种类型。
简单线性回归适用于只有一个自变量和一个因变量的情况。
例如,我们想要研究体重与身高之间的关系,可以将身高作为自变量、体重作为因变量,通过拟合一条直线来描述二者之间的关系。
多元线性回归适用于有多个自变量和一个因变量的情况。
方差分析与回归
方差分析的应用场景
总结词
方差分析适用于处理多组数据,当需要比较不同组之间的均值差异时,可以使用方差分析。
详细描述
方差分析广泛应用于各种领域,如社会科学、医学、经济学等。例如,在心理学中,研究者可以使用方差分析比 较不同年龄段的人在智力测试中的得分差异;在医学研究中,方差分析可以用于比较不同药物治疗对患者的疗效。
数据降维
通过回归分析找出影响因变量的关键因素, 从而降低数据的维度。
回归分析的优缺点
优点
能够找出自变量和因变量之间的关系,并建立数学模型进行预测;能够处理多个自变量和因变量之间 的关系;能够量化自变量对因变量的影响程度。
缺点
假设数据符合线性关系,对于非线性关系的数据拟合效果可能不佳;对于异常值和离群点敏感,容易 影响模型的稳定性;对于共线性问题处理不够理想,可能导致模型失真。
它通过选择合适的数学模型和参数, 使因变量的预测值与实际值之间的误 差最小化,从而得到最佳的预测结果 。
回归分析的应用场景
预测模型
利用已知的自变量数据来预测因变量的未来 值,如销售预测、股票价格预测等。
因素分析
研究自变量对因变量的影响程度,如研究广 告投入对销售额的影响程度。
分类问题
将因变量进行分类,如根据多个特征将客户 进行分类。
3
指导实践
分析结果可以为实际工作提供指导,例如在市场 营销中预测销售量、在医学中预测疾病发病率等。
方差分析与回归的未来发展
算法改进
多变量分析
随着计算能力的提升,未来会有更高效的 算法出现,提高分析的准确性和速度。
目前许多方差与回归分析集中在二元或三 元关系上,未来会有更多研究关注多变量 之间的关系。
回归分析实例
方差分析和回归分析
方差分析和回归分析方差分析和回归分析是统计学中常用的两种数据分析方法。
它们分别用于比较多个样本之间的差异以及建立变量之间的函数关系。
本文将对方差分析和回归分析进行介绍和比较。
一、方差分析方差分析(Analysis of Variance,简称ANOVA)是一种用于比较多个样本均值是否存在差异的统计方法。
方差分析通过比较组间和组内的方差来判断样本均值是否存在显著差异。
方差分析需要满足一些基本假设,如正态分布假设和方差齐性假设。
方差分析可以分为单因素方差分析和多因素方差分析。
单因素方差分析是指只有一个自变量(因素)对因变量产生影响的情况。
多因素方差分析则包含两个或两个以上自变量对因变量的影响,可以用于分析多个因素交互作用的效应。
方差分析的步骤包括建立假设、计算各组均值和方差、计算F值和判断显著性等。
通过方差分析可以得到组间显著性差异的结论,并进一步通过事后多重比较方法确定具体哪些组之间存在显著差异。
二、回归分析回归分析(Regression Analysis)是一种用于分析自变量和因变量之间关系的统计方法。
回归分析通过建立一种数学模型,描述自变量对因变量的影响程度和方向。
回归分析可用于预测、解释和探索自变量与因变量之间的关系。
回归分析可以分为线性回归和非线性回归。
线性回归是指自变量和因变量之间存在线性关系的情况,可以用一条直线进行拟合。
非线性回归则考虑了自变量和因变量之间的非线性关系,需要采用曲线或其他函数来进行拟合。
回归分析的步骤包括建立模型、估计参数、检验模型的显著性、预测等。
回归模型的好坏可以通过拟合优度、回归系数显著性以及残差分析等指标进行评估。
三、方差分析与回归分析的比较方差分析和回归分析都是常用的统计方法,但它们有一些区别。
主要区别包括:1. 目的不同:方差分析用于比较多个样本之间的差异,判断样本均值是否存在显著差异;回归分析则用于建立自变量和因变量之间的函数关系,预测和解释因变量。
2. 自变量个数不同:方差分析一般只有一个自变量(因素),用于比较不同组别之间的差异;回归分析可以包含一个或多个自变量,用于描述自变量对因变量的影响关系。
第八章方差分析与回归分析
第八章 方差分析与回归分析一、教材说明本章内容包括:方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容.1、教学目的与教学要求(1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.(2)了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,会解决简单的实际问题.(3)熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题.(4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析,会解决简单的实际问题.2、本章的重点与难点本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法. 实际问题的检验,回归方程的显著性检验.二、教学内容本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容.§ 方差分析教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.教学重点:平方和的分解,检验方法和参数估计 教学难点:检验方法和参数估计教学内容:本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形.问题的提出在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分析方法.例单因子方差分析的统计模型在例中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r 个水平,记为1r A ,,A ,在每一水平下考察的指标可看做一个总体,故有r 个总体,假定(1)每一总体均为正态总体,记为2i i N(,)μσ,i 1,2,,r =;(2)各总体方差相同,即222212r σσσσ====(3)每一总体中抽取的样本相互独立,即诸数据ij y 都相互独立 在这三个基本假定下,要检验的假设是012112::,,,rr H H μμμμμμ===↔⋯不全相等 ()如果0H 成立,因子A 的r 个水平均值相同,称因子A 的r 个水平间没有显著差异,简称因子A 不显著;反之,若0H 不成立,因子A 的r 个水平均值不全相同,称因子A 的r 个水平间有显著差异,简称因子A 显著.在每一水平下各作m 次独立重复试验,若记第i 个水平下第j 次重复的实验结果为ij y ,得到r m ⨯个实验结果:ij y ,=1,2,,=1,2,,.i r j m在水平A i 下的实验结果ij y 与该水平下的均值i μ的差距ij ij =y -i εμ称为随机误差.于是有ij ij y =+i εμ, ()该式称为实验结果ij y 的数据结构式.把三个假定用于数据结构式就得到单因子方差分析的统计模型:ij ij 2ij y =+,=1,2,,=1,2,,;(0,)i i r j m N εμεσ⎧⎪⎨⎪⎩诸相互独立,且都服从 () 称诸i μ的平均1=111=(++)=rr i i rr μμμμ∑为总均值,第i 水平下均值i μ与总均值的差=-i i a μμ称为因子A 的第i 水平的主效应,简称为A i 的主效应.则有=1=0,=+.ri i i i a a μμ∑统计模型()可改写为ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i r j m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 假设()可改写为012112:=0:,,,0r r H a a a H a a a ===↔⋯不全为.平方和分解一 实验数据在单因子方差分析中可将实验数据列成如下表格形式因子水平 试验数据 和 平均1A 11y 12y 1m y 1T 1y 2A 21y 22y 2m y 2T 2yr A r1y r2y rm yr T y r合计 T y 二 组内偏差与组间偏差ij ij y -=(y -)+(-)i i y y y y ,记=1i=1i=1=1111=,==m r r mi ij i ij j j m r n εεεεε∑∑∑∑,ij y -i y 称为组内偏差,-i y y 称为组间偏差.三 偏差平方和及其自由度 在统计学中,把k 个数据1,,k y y 分别对其均值1=(++)/k y y y k 的偏差平方和2=1=(-)ki i Q y y ∑称为k 个数据的偏差平方和,简称平方和.由于=1(-)=0kii y y ∑,说明在Q 中独立的偏差只有-1k 个,称为该平方和的自由度,记为f ,=-1.Q f k四 总平方和分解公式各ij y 间总的差异大小可用总偏差平方和T S 表示为211(),=-1r mT ij T i j S y y f n ===-∑∑. ()仅由随机误差引起的数据间差异可用组内偏差平方和,也称误差偏差平方和,记为e S ,211(),=r(m-1)=n-r.r me ij e i i j S y yf ===-∑∑ ()由效应不同引起的数据差异可用组间偏差平方和表示,也称为因子A 的偏差平方和,记为A S ,21(),=-1.rA A ii S m yy f r ==-∑ ()定理 在上述符号下,总平方和T S 可分解为因子平方和.A S 与误差平方和e S 之和,其自由度也有相应分解公式:S =,=+.T A e T A e S S f f f + ()称为总平方和分解式.8. 检验方法为了度量一组数据的离散程度,称/Q MS Q f =为均方和.由均方和的概念,得到/A A A MS S f =,/e e e MS S f =,用/A e F MS MS =作为检验的统计量,为给出检验拒绝域,需要如下定理:定理 在单因子方差分析模型及前述符号下,有(1)22~-),es n r χσ(从而2()=(-)e E S n r σ(2) 22=1()=(-1)+rA ii E S r maσ∑,若0H 成立,则有22~(1)AS r χσ-(3)A S 与e S 相互独立. 由定理知/(,)A eA e F MS MS F f f = ,从而可得检验的拒绝域为1{(,)}A e W F F f f α-=≥.将上述结果列成表格,称为方差分析表来源 平方和 自由度 均方和 F 比因子 A S 1A f r =- /A A A MS S f = /A e F MS MS = 误差 e S -e f n r = /e e e MS S f = 总和 T S 1T f n =-若1(,)A e F F f f α->,则可以认为因子A 显著,即诸正态均值间有显著差异; 若1<(,)A e F F f f α-,则说明因子A 不显著,即保留原假设0H . 常用偏差平方和的计算公式:2211rmT ij i j T S y n ===-∑∑2211r A i i T S T m n ==-∑ e T AS S S =-例参数估计在检验结果为显著时,可进一步求出总均值μ,各主效应i a 和误差方差2σ的估计. 一 点估计总均值μ的估计为ˆy μ=; 各水平均值i μ的估计ˆ,1,2,,i i y i r μ==; 主效应i a 的估计ˆ,1,2,,i i ay y i r =-=误差方差2σ的估计2ˆ/e e e MS S f σ== 二 置信区间由定理知 222~N(,/m),~),ei i e s y μσχσ(f 且两者独立,故(-~t ),/i i e e em y f S f (由此给出A i 的水平均值i μ的1α-的置信区间是1/2ˆ()/i e y t f m ασ-±例单因子试验的数据分析可以知道如下三个结果 因子A 是否显著 试验误差方差2σ的估计诸水平均值i μ的点估计与区间估计(此项在因子A 不显著时无需进行)重复数不等情形1. 数据设因子A 有r 个水平1r A ,,A ,并且第r 个水平i A 下重复进行i m 次试验,可得如下数据:因子水平 重复数 试验数据 和 平均1A 1m 11y 12y 11m y 1T 1y 2A 2m 21y 22y 22m y 2T 2yr A r m r1y r2y r rm y rT r y合计 nTy2. 基本假定、平方和分解、方差分析和判断准则都和前面一样,只是因子A 的平方和A S 的计算公式略有不同:记1ri i n m ==∑,则221ri A i iT T S m n ==-∑ 3. 数据结构式及参数估计式基本同前,需要注意下面两点:(1)总均值11ri i i m n μμ==∑;(2)主效应约束条件为10ri ii m a==∑类似于 有ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i i r j m m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 4 各平方和的计算记1,=im i i ij i j i T T y y m ==∑,=11,=im r ij i j TT y y n ==∑∑则2211,=-1,im rT ij T i j T S y f n n ===-∑∑221,=-1,ri A A i iT T S f r m n ==-∑,=-e T A e S S S f n r =-.例 略§ 多重比较教学目的:了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,能用R 软件来进行多重比较,会解决简单的实际问题。
概率论课件_高教版_第八章_方差分析与回归分析
MS A 168.00 F 20.56 MS e 8.17
查附表在f1=3,f2=12时, F0.05=3.49,F0.01=5.95 实得 F> F0.01或 P<0.01,说明药剂处理有统计意义。
四、单因素方差分析模型参数的估计 当方差分析结果为否定原假设时,就需要估计模型的有 关参数 ,下面就讨论方差分析模型参数的估计。 单因素方差分析的模型 为 xij i ij i 1,2, , r 2 ~ N ( 0 , ), 且相互独立 j 1,2, , m ij 其中为总以平均效应, i为因素A的第i个水平Ai 对试验指标 的作用; ij为随机因素对试验指标 值的影响。需要估计的 参数 有 , i , 2。不难证明这些参数的 极大似然估计量为: 1 r m 1 m 1 r m ˆ i xij ˆ xij xij rm i 1 j 1 m j rm i 1 j 1 1 r m 1 2 2 ˆ ˆ) ( xij SSe rm i 1 j 1 rm
Tr
T
xr
x
其中xij是因素A第i水平下第j次重复试验结果 , m r m r T T Ti xij xi T xij Ti x . m rm j 1 i 1 j 1 i 1
单因素方差分析的统计模型
试验数据xij满足 xij i ij i 1,2,, r 2 ~ N ( 0 , ),且相互独立 j 1,2,, m ij 其中为总以平均效应, i为因素A的第i个水平Ai 对试验指 标的作用 ; ij为随机因素对试验指标 值的影响。
鸡重/g-1000
60 80 1 2 12 9 28
Ti
高中数学方差分析与回归分析
第八章 方差分析与回归分析§1 单因素试验的方差分析试验指标:研究对象的某种特征。
例 各人的收入。
因素:与试验指标相关的条件。
例 各人的学历,专业,工作经历等与工资有关的特征。
因素水平:因素所在的状态例 学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。
问题:各因素水平对试验指标有无显著的差异?单因素试验方差分析模型 假设1) 影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A L ; 2)每个水平i A 下,试验指标是一个总体i X 。
各个总体的抽样过程是独立的。
3)2~(,)i i i X N μσ,且22i j σσ=。
问题:分析水平对指标的影响是否相同1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ∀;备选假设:1:i j H μμ≠,,i j ∃; 2)如果拒绝原假设,则对未知参数21,,,r μμσL 进行参数估计。
注1)接受假设即认为:各个水平之间没有显著差异,反之则有显著差异。
2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。
检验方法数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的,11ri i i n n μμ==∑。
不难验证,10ri k δ==∑。
各类样本均值水平i A 的样本均值:11in i ijj iX Xn ==∑g ;水平总样本均值:11111i n r rij i i i j i X X n X n n =====∑∑∑,1ri i n n ==∑;偏差平方和与效应组间偏差平方和:22211()rrA i i i i i i S n X X n X nX ===-=-∑∑g g ;(衡量由不同水平产生的差异)组内偏差平方和:2221111()()iin n rrE ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑g g ;(衡量由随机因素在同一水平上产生的差异) 总偏差平方和:222111()in rrT ij i ij i j i S X X n X nX ====-=-∑∑∑;(综合衡量因素,水平之间,随机因素的差异)定理1(总偏差平方和分解定理)T A E S S S =+。
方差分析与回归分析
方差分析与回归分析一、引言方差分析与回归分析是统计学中常用的数据分析方法。
它们在研究数据之间的关系以及影响因素方面发挥着重要作用。
本文将介绍方差分析与回归分析的基本概念、原理和应用。
二、方差分析1. 方差分析的基本概念方差分析是一种用于比较多个样本均值是否存在显著差异的统计方法。
它将数据分为不同的组别,通过分析组别间的差异与组内的差异来得出结论。
方差分析可以帮助研究人员确定不同因素对于观测结果的影响程度,并进行比较。
2. 方差分析的原理方差分析的核心是计算组间平方和与组内平方和,并进行比较。
组间平方和反映了不同组别之间的差异程度,组内平方和反映了同一组别内部的差异程度。
通过比较这两个平方和的大小,可以判断样本均值是否存在显著差异。
3. 方差分析的应用方差分析在科学研究和实践应用中具有广泛的应用。
例如,在医学实验中,可以使用方差分析来比较不同药物对疾病治疗效果的差异;在工商管理领域,可以使用方差分析来分析不同市场策略对销售业绩的影响等。
三、回归分析1. 回归分析的基本概念回归分析是一种用于研究变量间相互关系的统计方法。
它通过构建数学模型来描述和预测因变量与自变量之间的关系。
回归分析可以帮助研究人员识别出影响因变量的主要因素,并进行预测和控制。
2. 回归分析的原理回归分析基于最小二乘法,通过拟合一条最佳直线或曲线来描述变量之间的关系。
回归分析可分为简单线性回归和多元线性回归,前者用于研究一个自变量对一个因变量的影响,后者用于研究多个自变量对一个因变量的影响。
3. 回归分析的应用回归分析广泛应用于社会科学、经济学、市场营销等领域。
例如,在经济学中,可以使用回归分析来研究利率、通货膨胀与经济增长之间的关系;在市场营销中,可以使用回归分析来预测销售额与广告投入之间的关系等。
四、方差分析与回归分析的比较方差分析和回归分析都是常用的数据分析方法,但在研究问题和应用场景上存在差异。
方差分析主要用于比较多个组别之间的均值差异,注重的是因素的影响程度;而回归分析主要用于研究变量之间的关系,注重的是因变量的预测和控制。
方差分析与回归分析
考虑到这里2分布是近似分布,在诸样本量mi均 不小于5时使用上述检验是适当的。
3 November 2018
华东师范大学
第八章 方差分析与回归分析
第9页
例8.3.2 为研究各产地的绿茶的叶酸含量是否 有显著差异,特选四个产地绿茶,其中A1制 作了7个样品, A2制作了5个样品, A3与A4各 制作了6个样品,共有24个样品,按随机次 序测试其叶酸含量,测试结果如表8.3.3所示。
华东师范大学
第八章 方差分析与回归分析
第8页
由此可见,在比值GMSe/MSe较大时,就意味着 诸样本方差差异较大,从而检验(8.3.1)表示 的一对假设的拒绝域应是 W={ln GMSe/MSe> >d} (8.3.4) (8.3.8)
Bartlett证明了,检验的拒绝域为
W={B> 1- 2 (r-1) }
3 November 2018
华东师范大学
第八章 方差分析与回归分析
第11页
8.3.3 修正的Bartlett检验
针对样本量低于5时不能使用Bartlett检验的缺 点,Box提出修正的Bartlett检验统计量
B f 2 BC f1 ( A BC )
r 1 , 2 (C 1)
(8.3.9)
9.00 1.9149 4.70
在 =0.05时,由附表10查得H0.95(4,9) =6.31, 由于H<6.31,所以应该保留原假设H0,即认 为四个总体方差间无显著差异。
3 November 2018
华东师范大学
第八章 方差分析与回归分析
第7页
8.3.2 Bartlett检验
在单因子方差分析中有r个样本,设第i个样 m Qi 1 本方差为:s2 2 ( y y ) , i 1,2,, r
第八章 方差分析与回归分析
2. 处理(Treatment)
处理:因素的不同水平的组合称为处理。 在单因素试验中,因素的每一个水平称为一个处理,试验因素有几个 水平,就相应的有几个处理.在多因素试验中,每个因素可设置若干个水平, 各因素不同水平的组合称为处理.处理的数目为各因素水平的乘积.
X a. X ..
T..
Ti . T ..
X ij
j 1 a
r
X i. X ..
Ti . r T .. ar
X
i 1 j 1
r
ij
2. 统计模型
把试验数据 X ij 纳入一定的统计模型是统计分析的前提.所谓统计模型是一 个有关 X ij 形成机理的数学表达式,其中包括与 X ij 有关的参数及其前提、约束条 X 件、随机变量的分布等, ij 必须满足这个统计模型才能进行方差分析.
三、方差分析的基本思想 以例8.1为例来说明方差分析的基本思想。 由例8.1的试验以及对工业生产所具有的常识可以知道,不同类型的 集装箱其试验指标—抗压强度存在差异,并且同一类型的不同集装箱其 抗压强度也会有差异。这两种差异产生的原因,前者主要是由于不同类 型的集装箱由于其生产条件、原材料、技术标准等等人为可控或者可辨 识的因素的不同造成抗压强度的差异,这就是组间误差,可以通过表 8.1中平均抗压强度来估计,后者是除类型外的各种人为不可控的随机 因素作用造成的指标的差异,这就是随机误差,可以通过同一类型的不 同集装箱的抗压强度之间的差异来度量。那么,如何判断不同种类的海 用集装箱的抗压强度是否有差异?若有差异,哪一种抗压强度最高? R.A.Fisher 创立的方差分析是解决该类问题的有力工具,其直观想法是: 对试验数据所显示的差异进行分解,区分出组间误差和随机误差,利用数 理统计的相关原理建立适当的统计量,将组间误差与随机误差进行比较, 如果组间误差比随机误差大得多,就认为试验数据的差异主要是由
第八章 方差分析与回归分析
第八章 方差分析与回归分析§8.1 方差分析8.1.1 问题的提出举例说明概念因子和水平。
因子:对研究对象产生影响的因素。
水平:因子所处的状态。
8.1.2 单因子方差分析的统计模型在研究中只考察一个因子则称为单因子试验,其中,记因子为A ,设其有r 个水平,记为r A A ,,1 ,在每一水平下考察的指标可以看成一个总体,现有r 个水平,故有r 个总体,假定:(1)每一总体均为正态总体,记为r i N i i ,,2,1),,(2;(2)各总体的方差相同,记222221 r ;(3)从每一总体中抽取的样本是相互独立的,即所有的试验结果ij y 都相互独立。
这些假定都可以用统计方法进行验证。
首先比较各水平下的均值是否相同,即要对如下的一个假设进行检验,不全相等r rH H ,,,::211210在不会引起误解的前提下,1H 通常可以省略不写。
若0H 成立,则称因子A 不显著,否则,称因子A 显著。
对如上的假设进行检验,需要从每一水平下的总体抽取样本,设从第i 个水平下的总体获得m 个试验结果(各个水平下相同),记ij y 表示第i 个总体的第j 次重复试验结果。
共得如下m r 个试验结果:m j r i y ij ,,1,,,1,其中r 为水平数,m 为重复数,i 为水平编号,j 为重复编号。
在水平i A 下的试验结果ij y 与该水平下的指标均值i 一般总是有差距的,记i ij ij y ,ij 称为随机误差,于是有ij i ij y上式称为试验结果ij y 的数据结构式。
把三个假定用于数据结构式就可以写出单因子方差分析的统计模型:),0(,,1,,,1,2 N m j r i y ij ij i ij 相互独立,且都服从诸为了能更好地描述数据,常引入总均值和效应的概念:总均值:诸i 的平均 ri i r r 11 ;称第i 水平下的均值i 与总均值 的差i i a ,r i ,,1为因子A 的第i 水平的主效应,简称为i A 的效应。
第八章方差分析与回归分析(1)
第⼋章⽅差分析与回归分析(1)第⼋章⽅差分析与回归分析习题8.1 P3801、在⼀个单因⼦试验中,因⼦A 有三个⽔平,每个⽔平下各重复4次,具体数据如下:试计算误差平⽅和e S 、因⼦A 的平⽅和A 、总平⽅和T ,并指出它们各⾃的⾃由度.2、在⼀个单因⼦试验中,因⼦A 有四个⽔平,每个⽔平下各重复的次数分别为5,7,6,8。
那么误差平⽅和、A 的平⽅和及总平⽅和的⾃由度各是多少?5、⽤4种安眠药在兔⼦⾝上进⾏试验,特选24只健康的兔⼦,随机把它们均分为4组,每组各服⼀种安眠药,安眠时间如下所⽰:在显著⽔平α=习题8.2 P3873、有7种⼈造纤维,每种抽4根测其强度,得每种纤维的平均强度及标准差如下:(1)试问七种纤维强度间有⽆显著性差异(0.05α=)(2)若七种纤维的强度间⽆显著性差异,则给出平均强度的置信⽔平为0.95的置信区间;若各种纤维的强度间有显著差异,请进⼀步在0.05α=下进⾏多重⽐较,并指出那种纤维的平均强度最⼤,同时该种纤维平均强度的置信⽔平为0.95的置信区间。
习题8.3 P3942、在安眠药试验中(见习题8.1.5)中已求得到四个样本⽅差:222212340.02,0.08,0.036,0.1307s s s s ====请⽤Hartley 检验在显著⽔平0.05α=下考察四个总体⽅差是否彼此相等。
习题8.4 P4111、假设回归直线过原点,即⼀元线性回归模型为,1,2,...i i i y x i n βε=+=()()20,,i i E Var εεσ==诸观测值相互独⽴。
(1)写出2,βσ的最⼩⼆乘估计;(2)对给定的0x ,其对应的因变量均值的估计为0y ,求()0Var y 。
3、在回归分析计算中,常对数据进⾏变换1212,,1,...i i i i y c x cy x i n d d --=== 其中()()121122,,0,0c c d d d d >>是适当选取的常数。
《概率论与数理统计》教学课件(共8章)第8章 回归分析与方差分析
值而定,即y的数学期望是x的函数,记为μ(x)。μ(x)称为y关于x的回归函数,简称为y关于x的回归。
根据μ(x)的不同形式,回归分析分为线性回归和非线性回归,其中线性回归又分为一元线性回归和多
元线性回归。
8.1
∧
b−t (n−2)
α
2
∧
σ
Lxx
∧
,b + t (n−2)
α
2
∧
σ
Lxx
.
例如,例1中b的置信度为0.95的置信区间为
0.8706−2.3646 ×
=(0.8346, 0.9066).
0.9408
4060
, 0.8706 + 2.3646 ×
0.9408
4060
8.1
一元线性回归
8. 1. 6
利用回归方程进行预测
8. 1. 4
线性假设的显著性检验
∧
引理 对于一元线性回归,有b~N(b,σ2/Lxx)。
n
n
∧ ∑ (xi −x)(yi −y) ∑ (xi −x)yi
∧
证 因为b=i=1 n
=i=1
,所以b是y1,y2,…,yn的线性组合,而y1,y2,…,yn是独立的正
n
∑ (xi−x)2
∑ (xi −x)2
8. 1. 4
线性假设的显著性检验
n
n
∑ (xi−x)2 D(yi) ∑ (xi −x)2σ2
∧
D(b)=i=1n
= i=1
n
2
2
[ ∑ (xi −x) ]
[ ∑ (xi −x)2 ] 2
方差分析与回归分析
第八章 方差分析与回归分析一、教材说明本章内容包括:方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归.主要讲述方差分析和一元线性回归两节内容.1、教学目的与教学要求(1)了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.(2)了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,会解决简单的实际问题.(3)熟练掌握Hartley 检验,Bartlett 检验以及修正的Bartlett 检验三种检验方法,会解决简单的实际问题.(4)理解变量间的两类关系,认识一元线性和非线性回归模型,熟悉回归系数的估计方法,熟练掌握回归方程的显著性检验.能用R 软件来进行回归分析,会解决简单的实际问题.2、本章的重点与难点本章的重点是平方和的分解,检验方法和参数估计、重复数相等与不相等场合的方法、检验方法的掌握,回归系数的估计方法,回归方程的显著性检验,难点是检验方法和参数估计,重复数相等与不相等场合的方法. 实际问题的检验,回归方程的显著性检验.二、教学内容本章共分方差分析,多重比较,方差齐性检验,一元线性回归,一元非线性回归等5节来讲述本章的基本内容.§8.1 方差分析教学目的:了解方差分析的统计模型,掌握平方和的分解,熟悉检验方法和参数估计,会解决简单的实际问题.教学重点:平方和的分解,检验方法和参数估计 教学难点:检验方法和参数估计教学内容:本节包括方差分析问题的提出,单因子方差分析的统计模型,平方和分解,检验方法,参数估计,重复数不等情形.8.1.1 问题的提出在实际工作中经常会遇到多个总体均值的比较问题,处理这类问题通常采用方差分析方法.例8.1.18.1.2 单因子方差分析的统计模型在例8.1.1中,我们只考察一个因子,称为单因子试验.记因子为A ,设其有r 个水平,记为1r A ,,A ,在每一水平下考察的指标可看做一个总体,故有r 个总体,假定(1)每一总体均为正态总体,记为2i i N(,)μσ,i 1,2,,r =;(2)各总体方差相同,即222212r σσσσ====(3)每一总体中抽取的样本相互独立,即诸数据ij y 都相互独立 在这三个基本假定下,要检验的假设是012112::,,,rr H H μμμμμμ===↔⋯不全相等 (8.1.1)如果0H 成立,因子A 的r 个水平均值相同,称因子A 的r 个水平间没有显著差异,简称因子A 不显著;反之,若0H 不成立,因子A 的r 个水平均值不全相同,称因子A 的r 个水平间有显著差异,简称因子A 显著.在每一水平下各作m 次独立重复试验,若记第i 个水平下第j 次重复的实验结果为ij y ,得到r m ⨯个实验结果:ij y ,=1,2,,=1,2,,.i r j m在水平A i 下的实验结果ij y 与该水平下的均值i μ的差距ij ij =y -i εμ称为随机误差.于是有ij ij y =+i εμ, (8.1.2)该式称为实验结果ij y 的数据结构式.把三个假定用于数据结构式就得到单因子方差分析的统计模型:ij ij 2ij y =+,=1,2,,=1,2,,;(0,)i i r j m N εμεσ⎧⎪⎨⎪⎩诸相互独立,且都服从 (8.1.3) 称诸i μ的平均1=111=(++)=rr i i r r μμμμ∑为总均值,第i 水平下均值i μ与总均值的差=-i i a μμ称为因子A 的第i 水平的主效应,简称为A i 的主效应.则有=1=0,=+.ri i i i a a μμ∑统计模型(8.1.3)可改写为ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i r j m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 假设(8.1.1)可改写为012112:=0:,,,0r r H a a a H a a a ===↔⋯不全为.8.1.3 平方和分解一 实验数据在单因子方差分析中可将实验数据列成如下表格形式因子水平 试验数据 和 平均1A 11y 12y 1m y 1T 1y2A 21y 22y 2m y 2T 2yr A r1y r2y rm y r T yr合计 T y 二 组内偏差与组间偏差ij ij y -=(y -)+(-)i i y y y y ,记=1i =1i =1=1111=,==m r r mi i j i i j j jm r n εεεεε∑∑∑∑,ij y -i y 称为组内偏差,-i y y 称为组间偏差.三 偏差平方和及其自由度 在统计学中,把k 个数据1,,k y y 分别对其均值1=(++)/k y y y k 的偏差平方和2=1=(-)ki i Q y y ∑称为k 个数据的偏差平方和,简称平方和.由于=1(-)=0kii y y ∑,说明在Q 中独立的偏差只有-1k 个,称为该平方和的自由度,记为f ,=-1.Q f k四 总平方和分解公式各ij y 间总的差异大小可用总偏差平方和T S 表示为211(),=-1r mT ij T i j S y y f n ===-∑∑. (8.1.3)仅由随机误差引起的数据间差异可用组内偏差平方和,也称误差偏差平方和,记为e S ,211(),=r(m-1)=n-r.r me ij e i i j S y yf ===-∑∑ (8.1.4)由效应不同引起的数据差异可用组间偏差平方和表示,也称为因子A 的偏差平方和,记为A S ,21(),=-1.rA A ii S myy f r ==-∑ (8.1.5)定理8.1.1 在上述符号下,总平方和T S 可分解为因子平方和.A S 与误差平方和e S 之和,其自由度也有相应分解公式:S =,=+.T A e T A e S S f f f + (8.1.6)称为总平方和分解式.8.1.4 检验方法为了度量一组数据的离散程度,称/Q MS Q f =为均方和.由均方和的概念,得到/A A A MS S f =,/e e e MS S f =,用/A e F MS MS =作为检验的统计量,为给出检验拒绝域,需要如下定理:定理8.1.2 在单因子方差分析模型及前述符号下,有(1)22~-),es n r χσ(从而2()=(-)e E S n r σ(2) 22=1()=(-1)+rA i i E S r maσ∑,若0H 成立,则有22~(1)AS r χσ-(3)A S 与e S 相互独立. 由定理8.1.2知/(,)A eA e F MS MS F f f = ,从而可得检验的拒绝域为1{(,)}A e W F F f f α-=≥.将上述结果列成表格,称为方差分析表来源 平方和 自由度 均方和 F 比因子 A S 1A f r =- /A A A MS S f = /A e F MS MS = 误差 e S -e f n r = /e e e MS S f = 总和 T S 1T f n =-若1(,)A e F F f f α->,则可以认为因子A 显著,即诸正态均值间有显著差异;若1<(,)A e F F f f α-,则说明因子A 不显著,即保留原假设0H . 常用偏差平方和的计算公式:2211rmT ij i j T S y n ===-∑∑2211r A i i T S T m n ==-∑e T A S S S =-例8.1.28.1.5 参数估计在检验结果为显著时,可进一步求出总均值μ,各主效应i a 和误差方差2σ的估计. 一 点估计总均值μ的估计为ˆy μ=; 各水平均值i μ的估计ˆ,1,2,,i i y i r μ==; 主效应i a 的估计ˆ,1,2,,i i ay y i r =-=误差方差2σ的估计2ˆ/e e e MS S f σ== 二 置信区间由定理8.1.2知 222~N(,/m),~),ei i e s y μσχσ(f 且两者独立,~t ),i i e f (由此给出A i 的水平均值i μ的1α-的置信区间是1/2ˆ()i e y t f ασ-±. 例8.1.3单因子试验的数据分析可以知道如下三个结果 因子A 是否显著 试验误差方差2σ的估计诸水平均值i μ的点估计与区间估计(此项在因子A 不显著时无需进行)8.1.6 重复数不等情形1. 数据设因子A 有r 个水平1r A ,,A ,并且第r 个水平i A 下重复进行i m 次试验,可得如下数据:因子水平 重复数 试验数据 和 平均1A 1m 11y 12y 11m y 1T 1y2A 2m 21y 22y 22m y 2T 2yr A r m r1y r2y r rm y r T ry合计 nTy2. 基本假定、平方和分解、方差分析和判断准则都和前面一样,只是因子A 的平方和A S 的计算公式略有不同:记1ri i n m ==∑,则221ri A i iT T S m n ==-∑ 3. 数据结构式及参数估计式基本同前,需要注意下面两点:(1)总均值11ri i i m n μμ==∑;(2)主效应约束条件为10ri ii m a==∑类似于8.1.8 有ij ij =12ijy =+a +,=1,2,,=1,2,,;=0;(0,)i r i i i i r j m m a N μεεσ⎧⎪⎪⎨⎪⎪⎩∑诸相互独立,且都服从 4 各平方和的计算记1,=im i i ij i j i T T y y m ==∑,=11,=im r ij i j TT y y n ==∑∑则2211,=-1,im rT ij T i j T S y f n n ===-∑∑221,=-1,ri A A i iT T S f r m n ==-∑,=-e T A e S S S f n r =-.例8.1.4 略§8.2 多重比较教学目的:了解效应差的置信区间的求法,了解多重比较问题,掌握重复数相等与不相等场合的方法,能用R 软件来进行多重比较,会解决简单的实际问题。
第八章 方差分析与回归分析
三、偏差平方和及其分解
为了通过分析对比产生样本 X ij 之间差异性的
原因,从而确定因素A的影响是否显著,引人偏差平
方和
r ni
2
总偏差平方和 ST
X ij X ,
i1 j1
ST 能反映全部试验试验数据之间的差异.
组间(偏差)平方和
SA
r
ni
X i X
若试验中变化的因素多于一个,则称为多因素以 及多因素试验.
单因素试验中,若只有两个水平,就是第七章的 两个总体的比较问题. 超过两个水平时,也就是需要 多个总体进行比较,这时,方差分析是一种有效的方 法.
设单因素A具有r个水平,对每个水平进行重复 试验,列出试验记录表:
试验批号
1
2 j ni 行和 行平均
9
F F ,
可认为没有显著差异.
§8.2 回归分析的概念
一、确定性关系和非确定性关系 1.确定性关系——即函数关系,总可以用形如
y=f(x)之类的函数来描述. 例如:y sin x, s R2.
2.非确定性关系——即两个变量之间存在某种相 互依赖的关系,但又不能用形如 y=f(x) 的函数关系来 确切描述,即不能由一个确定的 x 值,找到唯一确定的 y 值,这种关系称为非确定性关系.
首先一个问题是如何根据已经试验的结果以及以往 的经验来确定回归函数的类型以及求出函数中的未知参 数的估计,得到经验公式.
例1 以家庭为单位,某种商品年需求量与该商品 价格之间的一组调查数据如下表所示:
价格xi (元) 1 2 2 2.3 2.5 2.6 2.8 3 3.3 3.5 需求yi (斤) 5 3.5 3 2.7 2 .4 2.5 2 1.5 1.2 1.2
方差分析和回归分析
mr
误差平方和 Se
(xij xi xj x)2
i1 j1
反映了随机误差引起的波动。
在H01,H02为真时
1
2
St
~2(mr1)
1
2
SB
~
2(r
1)
1
2
SA
~
2(m1)
1
2
Se
~2(m1)(r1)
F AS e/S (A m /( m 1 ) (r 1 ) 1 )~F (m 1 ,(m 1 )(r 1 ))
件尽可能相同时,测得缩水率(%)如下表。
水平 重复
A1
A2
A3
A4
A5
1
4.3(x11) 6.1(x12) 6.5(x13) 9.3(x14) 9.5(x15)
2
7.8(x21) 67.3(x22) 8.3(x23) 8.7(x24) 8.8(x25)
3
3.3(x31) 4.2(x32) 8.6(x33) 7.2(x34) 11.4(x35)
67
69
74
4
51
57
57
59
试验中,我们所关心的指标,即羊羔的增重数量,称为试验
指标或响应值;影响增重数量(响应值)的指标是激素,称为
因素;激素用量(因素的状态)称为因素的水平或简称水平。
本例中有1个因素,4个水平,故称为单因素试验。
在方差分析中,通常取1-3个因素进行研究。因素的每一个状态 称为一个水平,水平可以是数量化的,也可以是定性的。
在H01,H02为真时
S x nx 因我在此们H0, 分1总,无别H和交称02互它为作们真用为时的误T方并差的分偏r析差模平s 型方为和i2j,因子A2的偏差平方m和r-,1因子B的偏差的平方和以及交互作用A×B的偏差平方和。
方差分析及回归分析ppt60页课件
设因素有S个水平,在水平Aj (j=1,2,…,s)下,进行nj (nj≥2)次独立试验,结果如下:
水平 观察结果
A1
A2
…
As
X11 X21 …
X11 X21 …
… … …
X11 X21 …
样本总和 样本均值 总体均值
T.1 X.1 μ 1
T.2 X.2 μ 2
… … …
160
180
60
80
100
40
设Y关于x的回归函数为μ(x)。利用样本来估计μ(x)的问题称为求Y关于x的回归问题。 若μ(x)是线性函数μ(x)=a+bx,此时的估计问题称为求一元线性回归问题。 一元线性回归模型: 设Y~N(a+bx, σ2 )其中a,b, σ2是未知参数,记 ε = Y-(a+bx),则 Y= a+bx + ε, ε ~N(0, σ2 ) (1) 称上式为一元线性回归模型。 称a+bx为x的线性函数,而ε ~N(0, σ2 )是随机误差。
SE称为误差平方和, SA表示Aj水平下的样本均值与数据总平均的差异,叫做效应平方和,他是由水平Aj的效应的差异以及随机误差引起的。
(1,8)
则得 ST=SE+SA ,
(1,9)
(1,10)
(三) SE,SA的统计特性 1、SE的统计特性
由于 是总体 的nj-1倍, 所以 由于独立,(1,11)中各式独立,根据 分布的可加性,得
(1,14)
(1,15)
可以证明SE,SA的是相互独立的,且H0当为真时 (四)假设检验问题的拒绝域 由(1,15)式,当H0为真时 所以SA /(s-1)是σ2的无偏估计,而当当H1为真时, 这时 而由于
[数学]方差分析与回归分析
方差分析的基本思想:
对试验数据所显示的差异进行分解,区分 出组间误差和组内误差,利用数理统计的相关 原理建立适当的统计量,将组间误差和组内误 差进行比较,如果组间误差比组内误差大得多, 就认为试验数据的差异主要是由因素的水平不 同造成的,否则认为试验数据的差异主要是由 组内误差造成的。
2. 8
2. 15
2. 11
2019/1/2
59
证明略
88
2019/1/2
60
88
2019/1/2
61
2. 2
2. 16
2019/1/2
62
( 2. 17)
2019/1/2
63
2. 17
2019/1/2
64
2019/1/2
65
2. 9
2019/1/2
66
2019/1/2
67
2. 2
5
8
2019/1/2
6
8
2019/1/2
7
在每一水平下,所研究 对象的全体看成一个总 体
2019/1/2 8
实质是判断这 些样本是否来 自同一个总体
8
2019/1/2
9
8
2019/1/2
10
方差分析的基本假定
2019/1/2
11
2019/1/2
12
2019/1/2
13
2019/1/2
2019/1/2
16
平方和分解
2019/1/2
17
2019/1/2
18
2019/1/2
19
2019/1/2
20
2019/1/2
21
2019/1/2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高中数学:第八章 方差分析与回归分析§1 单因素试验的方差分析试验指标:研究对象的某种特征。
例 各人的收入。
因素:与试验指标相关的条件。
例 各人的学历,专业,工作经历等与工资有关的特征。
因素水平:因素所在的状态例 学历是因素,而高中,大学,研究生等,就是学历因素水平;数学,物理等就是专业的水平。
问题:各因素水平对试验指标有无显著的差异?单因素试验方差分析模型 假设1) 影响试验指标的因素只有一个,为A ,其水平有r 个:1,,r A A L ; 2)每个水平i A 下,试验指标是一个总体i X 。
各个总体的抽样过程是独立的。
3)2~(,)i i i X N μσ,且22i j σσ=。
问题:分析水平对指标的影响是否相同1)对每个总体抽样得到样本{,1}ij i X j n ≤≤,由其检验假设: 原假设0:i j H μμ=,,i j ∀;备选假设:1:i j H μμ≠,,i j ∃; 2)如果拒绝原假设,则对未知参数21,,,r μμσL 进行参数估计。
注1)接受假设即认为:各个水平之间没有显著差异,反之则有显著差异。
2)在水平只有两个时,问题就是双正态总体的均值假设检验问题和参数估计问题。
检验方法数据结构式:ij i ij i ij X μεμδε=+=++,偏差2~(0,)ij N εσ是相互独立的,11ri i i n n μμ==∑。
不难验证,10ri k δ==∑。
各类样本均值水平i A 的样本均值:11in i ijj iX Xn ==∑g ;水平总样本均值:11111i n r rij i i i j i X X n X n n =====∑∑∑,1ri i n n ==∑;偏差平方和与效应组间偏差平方和:22211()rrA i i i i i i S n X X n X nX ===-=-∑∑g g ;(衡量由不同水平产生的差异)组内偏差平方和:2221111()()iin n rrE ij i ij i i i j i j S X X X n X =====-=-∑∑∑∑g g ;(衡量由随机因素在同一水平上产生的差异) 总偏差平方和:222111()in rrT ij i ij i j i S X X n X nX ====-=-∑∑∑;(综合衡量因素,水平之间,随机因素的差异)定理1(总偏差平方和分解定理)T A E S S S =+。
即222111111()()()iiin n n rrrij ij i i i j i j i j X X X X X X ======-=-+-∑∑∑∑∑∑g g ,或直接证明。
注:利用11()()0in r ij i i i j X X X X ==--=∑∑即可证明。
定理2(统计特性)2()E ES n r σ=-,221(1)rA i ii ES r n σδ==-+∑,221(1)rT i i i ES n n σδ==-+∑。
证 2222221111()(())i in n r r E iji i i i i i j i j ES EX n EX n σμσμ=====-=+--∑∑∑∑g221(1)()ri i n n r σσ==-=-∑22211()r rA i i i i i i ES n E X X n EX nEX ===-=-∑∑g g22221()()ri ii in n n nσσμμ==+-+∑221(1)ri i i r n σδ==-+∑定理31)22/~()E S n r σχ-,且E S 与A S 独立;2)如果假设0H 成立,那么,22/~(1)T S n σχ-;且如果假设i n m =,1i r ≤≤,则还有,22/~(1)A S r σχ-。
证 1)由于不同水平的样本间的独立性,E S 较易处理。
对固定的i ,2~(,)ij i i X N μσ,1,,i j n =L ,且独立,所以由第五章定理2的结论,22211()~(1)iin n ij i ij i i i i j j X X X X n μμχσσ==⎛⎫⎛⎫----=- ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭∑∑g g , 利用2χ可加性,即得2221/~()()rE i i S n r n r σχχ=-=-∑,且i X g 与E S 独立。
注意到11ri i i X n X n ==∑g ,因此X 也与E S 独立,从而A S 也与E S 独立。
注 这里只需方差假设相同,不需要假设均值相同。
2)~(0,1)ij iX N μσ-,且独立,同样利用第五章定理2,22,,1()~(1)ij ii j i i j i j X X n n μμχσσ'''''----∑∑。
但在假设成立时,222,,,11()()ij ii j i ij i ji j i jX X X X n μμσσσ'''''---=-∑∑∑,即得结论。
且X 与T S 独立。
同时,2221()()/~(1)ri A i X X S r μμσχσ=⎛⎫---=- ⎪⎝⎭∑g 。
注 此处结论证明利用了i n 都相等,即利用:1,11r k ij k i jX X r n ==∑∑g 。
但上述结论在组样本容量不同时,直接利用正交变换仍可类似证明。
从统计角度看,如果假设0H 成立,那么2111E A ES ES n r r σ==--,而在假设不成立时,21111111r A E i i E i ES ES n ES r n r r n r δ==+>----∑,即统计量/(1)/()A E S r F S n r -=-将有偏大的趋势。
那么,大到何值可以采信为推翻假设的反例,就回到前面的假设检验问题了。
定理 置信度为α时,假设0H 的检验问题的拒绝域为{(1,)}W F F r n r α=≥--。
参数估计问题如果各因素有显著差异,即对某些水平i j μμ≠,那么就需要估计这些参数的值和2σ。
1.最大似然估计总体2~(,)i i X N μσ22()2i x μσ--,所以最大似然函数为22()221,(,,,)ij i x r i jL μσμμσ--=L ,一般,我们把i μ分成两部分:i i μμδ=+,其中1i ir μμ=∑。
所以i δ即表示了各水平的差异,有0i i in δ=∑。
由此最大似然函数可表示为,22()221,(,,,,)ij i x r i jL μδσμδδσ---=L 。
对数最大似然函数:22212,()ln (,,,,)ln(2)22ij i r i jx n L μδμδδσπσσ--=--∑L ,约束条件:0i iin δ=∑。
求其最大值点得:212,()ln (,,,,)202ij i r i jx L μδμδδσμσ--∂==∂∑L , 即:,0ij i i i jix n n μδ--=∑∑;或,0nx n μ-=。
21211()[ln (,,,,)]202ir ij i r i i i i j n i x L k n kn μδμδδσδδσ=≤≤--∂+=+=∂∑∑L , (k 是拉格朗日乘子)即20i i i i i i n x n n k n μδσ---=g ;或,20i i x k μδσ---=g ;221224,1ln (,,,,)()022r iji i jn L xμδδσμδσσσ∂=-+--=∂∑L ,即22,1()ij i i j x n σμδ=--∑,或,2222,1{22}ij i i i i i i j i ix nx n x n n n σμδμδ=--++∑∑∑, 整理结果得:ˆx μ=,2ˆˆˆi i x k δμσ=--g。
由此利用ˆ0i i in δ=∑,解得2ˆˆk x σμ=-。
因此i i x x δ=-g 。
所以2222,1ˆˆˆ{2}ij i i i i i i jiix nx n x n nσδδ=--+∑∑∑g, 同时,2ˆˆˆˆ2()2i i i i i i i i i i i iiiin n x n x x n x δδδδ-=--∑∑∑∑g g g22ˆ()i i i i i i i i iiin x n x x x n x nx δ=-=--=-+∑∑∑gg g g , 因此222,1ˆ{}Eij i i i jiS x n x n nσ=-=∑∑g 。
2.区间估计第i 个水平的均值:2~(,/)i i i X N n μσ,即~(0,1)X N ;且22/~()E S n r σχ-与其独立,所以~()t n r -。
即可得到置信区间:/2/2(((i i X t n r X t n r αα--+-。
但,必须注意,对整个问题而言,置信水平不再是1α-。
记事件/2/2{(((i i i i E X t n r X t n r ααμ=∈--+-。
则()1i P E α=-。
但()1()1i i iiP E P E r α=-≥-I U 。
§2 一元线性回归设有两个总体(,)X Y ,它们之间不是独立的,而是具有某种依赖关系,即对它们抽样,得到的是一对样本和观测值:11(,),,(,)n n X Y X Y L ,11(,),,(,)n n x y x y L 。
例 父子的身高;某种动物体重和体积,等等。
现在关心的问题是:从观测的结果,能否找出它们之间的联系?即()()Y f X X ε=+,其中ε是随机变量。
从实际问题出发,也可认为X 是非随机的确定自变量,本来两者之间应该有确定的函数关系,但由于某种干扰,这种关系产生了某种不确定性。
如何合理地确定其关系()f x ?一元线性回归模型 假设1)01Y x ββε=++; 2)2~(0,)N εσ。
每次抽样,01i i i Y x ββε=++,其中2~(0,)i N εσ,且相互间是独立。
等价的观点:201~(,)i i Y N x ββσ+。
问题 由样本观测数据11(,),,(,)n n x y x y L ,如何合理估计参数01,ββ?方法1)确定性观点:最小二乘法01201,1min ()ni i i y x ββββ=--∑,使观测得到的ε的样本平方和偏差最小。
解 记11n i i y y n ==∑,11ni i x x n ==∑,11()()n nxy i i i i i i l x x y y x y nxy ===--=-∑∑,22211()n n xx i ii i l x x x nx ===-=-∑∑,22211()n nyy i i i i l y y y ny ===-=-∑∑。