第九章 线性回归与方差分析
第九章 方差分析与回归分析
由于yi =α + βxi +εi,
εi相互独立且εi~N(0,σ ),
2
故yi~N(α + βxi,σ 2 ),i =1 ⋯ n, ,, .
由正态分布的性质和a,b的表达式,可得
E(b) = β,D(b) = σ 2 / Sxx; 1 x 2 而, E(a) =α,D(a) = ( + )σ 。从 n Sxx 1 x2 2 ( b~N(β, ),a~N(α, + )σ )。 Sxx n Sxx
x1
x2
设 µ(x)=E(Y|x) =α+βx ,称其为总体回归方程, 称 β为回归系数。
由于α、β是未知的,设想通过样本观察值得出α、 β的估计值a、b。于是
y = a + bx ≈ E(Y|x) = µ(x).
称其为经验回归方程或样本回归方程。 问题:如何估计a、b的值? 三、参数估计 设抽样得到一组样本观察值(x1,y1),….,(xn,yn), 则样本回归方程的值为
∑r = n,特别,当r = r
i=1 i 1
a
2
= ⋯= ra = r,有ar = n。
前提假设:所有试验单元的试验条件一致(无系统 误差)。 方差分析的作用: 1. 通过对试验数据的统计分析,推断造成试验数据 间的差异的原因是试验水平差异还是随机误差的影 响。
2. 推断哪些因素的影响是显著的。 3. 分析出“最佳”的试验水平(固定模型);或估 计总体变量的参数(随机模型)。 方差分析与假设检验的区别: 方差分析能同时检验多个总体的某个参数(如均 值)是否相等,而假设检验每次只能检验两个总体 的某个参数是否相等。 方差分析与回归分析的区别: 1. 回归分析主要是为了得到自变量与因变量之间的定 量关系 回归方程。回归系数显著性讨论的目的, 是把影响不显著的自变量从回归方程中剔除,以提高 回归方程的稳健性,使预测, i =α + βxi +εi, y i =1 ⋯ n, i相 独 且εi~ (0,σ ). ,, ε 互 立 N
第9章-方差分析与线性回归
Xij X E
s nj
ST s
n
E
j
j 1
i 1
X ij X
j1 i1
s nj
X ij2 nX
j1 i1
X ij 2
2
2
s nj
X
EE(X
)j
s11ninj1jEs1Xinj1ijjE21(Xiinj1)X
1 n
s
nj ( j )
j 1
s nj
E( Xij2 ) nE( X 2 )
X12 X 22
As : N s , 2
X1s X 2s
X n11
X n2 2
X nss
每个总体相互独立. 因此, 可写成如 下的 数学模型:
ij
~
X ij j ij N (0, 2 ), 各ij独立
i 1, 2, , nj,j 1, 2, , s
方差分析的目的就是要比较因素A 的r 个水平下试验指标理论均值的 差异, 问题可归结为比较这r个总体 的均值差异.
i
ij (0, 2 ),各ij独立
1, 2, , nj,j 1, 2, , s
n11 n22 ... nss 0
假设等价于 H0 :1 2 s 0
H1 :1,2,
,
不全为零。
s
为给出上面的检验,主要采用的方法是平方和 分解。即
假设数据总的差异用总离差平方和 ST 分解为
第九章 回归分析和方差分析
关键词: 单因素试验 一元线性回归
方差分析(Analysis of variance, 简 称:ANOVA),是由英国统计学家费歇尔 (Fisher)在20世纪20年代提出的,可用于推 断两个或两个以上总体均值是否有差异 的显著性检验.
方差分析回归分析
案例二:不同地区教育水平的方差分析
总结词
通过比较不同地区的教育水平,了解各 地区教育发展的差异,为政府制定教育 政策提供科学依据。
VS
详细描述
收集不同地区的教育水平数据,包括学校 数量、教师质量、学生成绩等。利用方差 分析方法,分析各地区教育水平是否存在 显著差异,并探究影响教育水平的因素。 根据分析结果,提出针对性的教育政策建 议,促进教育公平和发展。
应用范围
方差分析主要应用于实验设计、质量控制等领域,而回归 分析则广泛应用于预测、建模和决策等领域。
04
方差分析的实际应用案例
案例一:不同品牌电视销量的方差分析
总结词
通过对比不同品牌电视的销量,分析品牌、型号、价格等因素对销量的影响,有助于企业了解市场需 求和竞争态势。
详细描述
选取市场上不同品牌、型号、价格的电视,收集其销量数据。利用方差分析方法,分析各品牌电视销 量是否存在显著差异,并进一步探究价格、功能等变量对销量的影响。根据分析结果,为企业制定营 销策略提供依据。
05
回归分析的实际应用案例
案例一:预测股票价格与成交量的回归分析
总结词
股票价格与成交量之间存在一定的相 关性,通过回归分析可以预测股票价 格的走势。
详细描述
通过收集历史股票数据,分析股票价 格与成交量之间的相关性,建立回归 模型。利用该模型,可以预测未来股 票价格的走势,为投资者提供决策依 据。
详细描述
方差分析在许多领域都有广泛的应用,如心理学、社会科学、生物统计学和经济学等。它可以用于比较不同组数 据的均值差异,探索因子对因变量的影响,以及处理分类变量和连续变量的关系。通过方差分析,研究者可以更 好地理解数据结构和关系,为进一步的数据分析和解释提供依据。
第九章方差分析及回归分析
ni
2
2019/1/28
13
若记 S T
2 ( X X ) ij i 1 j 1
r
ni
SE ( X ij X i .)
i 1 j 1
r
ni
2
S A ni ( X i . X )
i 1
r
2
则 ST S A SE
2019/1/28 14
2
2
n
s j 1
2)
( s 1) 2 n j j n n j j2 n 2
2
s
2 2 E ( S )( s 1) n j j 式 n j j 0, 故有 A 由( 1.1 )
s j 1
j 1
s
j 1
进一步还可以证明S A与SE独立,且当H0为真时
拒绝域:F Fa (r 1, n r )
单因素试验方差分析表
方差来源 平方和 因素A 误差 总和
2019/1/28
自由度 均方 r-1 n-r
n-1
SA r 1 S SE E nr SA
F比
F SA SE
SA
SE
ST
19
在实际中,我们可以按较为简便的 公式来计算ST , S A和S E . 记Ti X ij , i 1, 2,
2019/1/28
(1.2)
, r 不全为零。
11
(四)检验方法
若H 0成立,则r个总体之间无差异。这样,各个X ij 间的差异只是由随机因素引起的,若H 0不成立,则 所有X ij的总变差中,除了随机波动引起的变差之外, 还包含了由于因素的不同水平作用所引起的变差。
应用统计学(第九章 协方差分析)
从而求得相应的均方; 两个变量的总乘积和与自由度也可按变异来源进行剖分
而获得相应的均积; 把两个变量的总乘积和与自由度按变异来源进行剖分并
获得获得相应均积的方法称为协方差分析。
在随机模型的方差分析中,根据均方MS和期望均方的关 系,可以得到不同变异来源的方差组分的估计值;
b* SP / SP
e
ex
回归关系的显著性可用F检验或t检验,这时误差项目回
归自由度dfeU=1,回归平方和:
U SS b*SP SP2 / SP
e
ey
e
e
ex
误差项离回归平方和:
Q SS U SS SP2 / SS
e
ey
Байду номын сангаасey
ey
e
ex
离回归自由度:
df df df k(n 1) 1
矫正平均数的计算
yi.(xx..) yi . by / x ( xi . x..)
矫正平均数的多重比较
LSD0.05=0.8769, LSD0.01 =1.1718 食欲添加剂配方1、2、3号与对照比较, 其矫正50 日 龄平均重间均存在极显著的差异,配方1、2、3号的矫正50 日龄平均重均极显著高于对照。
回归关系的显著性检验:
变异来源 df 误 差回 归 1 误差离回归 43 误 差 总 和 44
SS 47.49 37.59 85.08
MS 47.49 0.87
F 54.32**
F0.01 7.255
F检验表明,误差项回归关系极显著,表明哺乳仔猪 50 日龄重与初生重间存在极显著的线性回归关系
第 九章 方差分析与回归分析
One-Way ANOVA过程
One-Way ANOVA过程用于进行两组及多 组样本均数的比较,即成组设计的方差分 析,如果做了相应选择,还可进行随后的 两两比较,甚至于在各组间精确设定哪几 组和哪几组进行比较
1、界面选项说明
【Dependent List框】选入需要分析的变量,可 选入多个结果变分析表。给出了单因素方差 分析的结果,可见F=84.544,P<0.001。因此可认为三组量不 同。上表的标题内容翻译如下:
组间变异 组内变异
总变异
离均差平方和 自由度 SS
均方MS
F值 P值
9.266
2
4.633 84.544 .000
1.534
28 5.480E-02
第 九章 方差分析 与回归分析
方差分析介绍
方差分析和回归分析是使用最多的两种统 计方法。方差分析是一种定性的统计方法; 而回归分析是一种定量的方法。方差分析 主要分析各效应的显著性即方差齐次性, 主要有以下几个内容,单因素方差分析、 双因素方差分析、多因素方差分析协方差 分析、多元方差分析、重复设计方差分析 等等。这些方法在现实生活中有着极大的 应用范围。
【Factor框】选入需要比较的分组因素,只能选 入一个。
【Contrast钮】弹出Contrast对话框,用于对精 细趋势检验和精确两两比较的选项进行定义,由 于该对话框太专业,也较少用,这里只做简单介 绍。
Polynomial复选框 定义是否在方差分析中进行 趋势检验。
Degree下拉列表 和Polynomial复选框配合使用, 可选则从线性趋势一直到最高五次方曲线来进行 检验。
10.800
30
Post Hoc Tests
Homogeneous Subsets
第九章----方差分析
若组间变异明显大于组内变异, 则不能认为组 间变异仅反映随机误差的大小, 处理因素也在起 作用。根据计算出的检验统计量F值, 查界值表 得到相应的P值, 按所取检验水准α作出统计推断 结论。
检验统计量F值服从F分布。
F<Fα,(ν组间, ν组内),则P > α, 不拒绝H0, 还不能认 为各样本所来自的总体均数不同;
1、各样本是相互独立的随机样本, 且来自 正态分布的总体;
2、相互比较的各样本的总体方差相等, 即 具有方差齐性。 独立性、随机性、正态性、方差齐性
五、方差分析的用途
1、用于进行两个或多个样本均数的比较; 2、分析两因素或多因素间的交互作用; 3、用于回归方程的线性假设检验。
六、方差分析的优点
1、不受比较组数的限制,可比较多组均数; 2、可同时分析多个因素的作用; 3、可分析因素间的交互作用.
一、多个样本均数间的比较能否用 t 检 验或 u 检验?为什么?
原因:
五个样本均数进行比较, 每次两个均数作一次 t 检验, 共需作10(C52=10)次 t 检验。若每次比 较的检验水准α=0.05, 则每次比较不犯Ⅰ型错误 的概率为(1-α)=0.95。当这些检验独立进行 时, 则10次比较均不犯Ⅰ型错误的概率为0.9510= 0.5987, 此时犯Ⅰ型错误的概率, 即总的检验水准 α变为1-0.5987=0.4013比0.05大的多。犯Ⅰ型错 误的概率增大, 可能将原本无差别的两个总体推 断为有差别, 误判为有统计意义。因此多重比较 不宜用的 t 检验或 u检验作两两比较。
已知各组均数、标准差和样本含量时F值 的简便计算方法。
当原始数据未知, 只知各组均数、标准差和 样本含量时, 可进行如下计算, 分两种情况: 1、各组样本含量ni相等; 2、各组样本含量ni不等。
方差分析及回归分析
第九章 回归分析教学要求 1.一元线性回归及线性相关显着性的检验法,利用线性回归方程进行预测.2.可线性化的非线性回归问题及简单的多元线性回归.本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法.教学手段:讲练结合 课时分配:6课时§ 一元线性回归回归分析是研究变量之间相关关系的一种统计推断法.例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量.Y 与x 之间的相依关系fx 受随机误差ε的干扰使之不能完全确定,故可设有:ε+=)(x f y 式中fx 称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量.为估计未知的回归函数fx,我们通过n 次独立观测,得x 与y 的n 对实测数据x i ,y i i=1,……,n,对fx 作估计.实际中常遇到的是多个自变量的情形.例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关.这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:ε+=),,,(21k x x x f y 这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数fx 1,……,x k 称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计fx 1,……,x k .以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数fx 1,……,x k 的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定fx 1,……,x k =b 0+b 1x 1+……+b k x k.并称由它确定的模型 k=1及为线性回归模型,对于线性回归模型,估计回归函数fx 1,……,x k 就转化为估计系数b 0、b i i=1,……,k .当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的.§9.1.1 一元线性回归一、一元线性回归的数学模型前面我们曾提到,在一元线性回归中,有两个变量,其中x 是可观测、可控制的普通变量,常称它为自变量或控制变量,y 为随机变量,常称其为因变量或响应变量.通过散点图或计算相关系数判定y 与x 之间存在着显着的线性相关关系,即y 与x 之间存在如下关系:y=a+bx+ε 通常认为 ε~N 0,σ2且假设σ2与x 无关.将观测数据x i ,y i i=1,……,n 代入再注意样本为简单随机样本得:),0(,),,1(21σεεεN n i bx a y n i i i 独立同分布 =++=称或又称为数据结构式所确定的模型为一元正态线性回归模型.对其进行统计分析称为一元线性回归分析.不难理解 模型中EY=a+bx,若记y=EY,则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b 为回归系数,a 称为回归常数,有时也通称a 、b 为回归系数.我们对一元线性回归模型主要讨论如下的三项问题:1 对参数a,b 和σ2进行点估计,估计量b aˆ,ˆ称为样本回归系数或经验回归系数,而x b a yˆˆˆ+=称为经验回归直线方程,其图形相应地称为经验回归直线.2 在模型下检验y 与x 之间是否线性相关.3 利用求得的经验回归直线,通过x 对y 进行预测或控制. 二、a 、b 的最小二乘估计、经验公式现讨论如何根据观测值x i ,y i ,i=1,2,……,n 估计模型中回归函数fx=a+bx 中的回归系数.采用最小二乘法,记平方和∑=--=nt t t bx a y b a 12)(),(Q找使Q 达到最小的a 、b 作为其估计,即),(min )ˆ,ˆ(b a b aQ Q = 为此,令⎪⎪⎪⎩⎪⎪⎪⎨⎧=--==--=∑∑==0)(220][2211n t t t t nt t t x bx a y bx a y a 2b Q 2Q化简得如教材所示的方程组称为模型的正规方程解得⎪⎪⎩⎪⎪⎨⎧===x b y aL L b xxxy ˆˆˆ所示的b aˆ,ˆ分别称为a 、b 的最小二乘估计,式中()∑∑∑===-=-=ni ni ni i ii xx x n x x x L 112122)(1∑∑∑∑==-=--=n i ni ni ni i i i i xy y x n y x y y x x L 1111))((1))((称x b a yˆˆˆ+=为经验回归直线方程,或经验公式. 例1 某种合成纤维的强度与其拉伸倍数有关.下表是24个纤维样品的强度与相应的拉伸倍数的实测记录.试求这两个变量间的经验公式.将观察值x i ,y i ,i=1,……,24在平面直角坐标系下用点标出,所得的图称为散点图.从本例的散点图看出,强度y 与拉伸倍数x 之间大致呈现线性相关关系,一元线性回归模型是适用y 与x 的.现用公式求b aˆ,ˆ,这里n=24 946.1171.11324193.650756.1301.1135.1272416.731266.1525.12724161.8296.731,93.650,61.8291.113,5.1272222=⨯-==⨯⨯-==⨯-======∑∑∑∑∑yy xy xx iiiii i L L L yx y xy x∴15.0ˆˆ859.0ˆ=-===x b y aL L b xx xy 由此得强度y 与拉伸倍数x 之间的经验公式为 x y859.015.0ˆ+= 三、最小二乘估计b aˆ,ˆ的基本性质 定理 一元线性回归模型中,a 、b 的最小二乘估计b a ˆ,ˆ满足: 1 b bE a a E ==ˆ,ˆ2 2221)ˆ(,)1()ˆ(σσxxxxL bD L x n a D =+= 3 2)ˆ,ˆcov(σxxL x b a-= 证:1 注意到对任意i=1,2,……,n 有a xb x b a b E x y E aE bLxxx x b y y x x E Lxx b E x x b y E Ey y y E Dy x b a y E bx a Ey ni i ni i i i i i i i i =-+=-==-=--=-=-=-=+=+=∑∑==ˆˆ)())((1ˆ)()(,,,12122于是σ2利用∑==-ni i x x 10)(,将b 、aˆˆ表示为: ∑∑==-=--=ni i i n i i i y x x Lxx y y x x Lxx b 11)(1))((1ˆ∑∑==--=-=ni i i n i i y Lxx x x x n b x y n a 11])(1[ˆ1ˆ 由于y 1,y 2,……,y n 相互独立,有2221222212221222)1(])(1[])(1[)ˆ()(1)ˆ(σσσσσxxn i xx i ni i ni i xxL xn L x x x n Lxx x x x n a D Lxxx x L b D +=-+=--==-=∑∑∑=== 221221222)(])(1[)()ˆ,ˆcov(σσσxx ni xx i n i xx i xx i L x L x x x L x x x n L x x b a -=--=---=∑∑== 定理表明,a 、b 的最小二乘估计b 、aˆˆ是无偏的,从,还知道它们又是线性的,因此所示的最小二乘估计b 、aˆˆ分别是a 、b 的线性无偏估计.§9.1.2 建立回归方程后进一步的统计分析一、σ2的无偏估计由于σ2是误差εi i=1,……,n 的方差,如果εi 能观测,自然想到用∑ii n 21ε来估计σ,然而εi 是观测不到的,能观测的是y i..由i i i y x b a y E ˆˆˆˆ=+= 即Ey i 的估计,就应用残差i i yy ˆ-来估计i ε,因此,想到用∑∑===--=-n i ii n i i i b a Q nx b a y n y y n 1212)ˆ,ˆ(1)ˆˆ(1)ˆ(1 来估计σ2,我们希望得到无偏估计,为此需求残差平方和)ˆ,ˆ(b aQ 的数学期望,由定理可推出 2)2()]ˆ,ˆ([σ-=n b aQ E 学员自验 于是得∑=--=-=n i ii y y n n b a Q 122)ˆ(212)ˆ,ˆ(ˆσ为σ2的无偏估计,例如§例1中2545.0ˆ=σ即有 定理 令2)ˆ,ˆ(ˆ2-=n b a Q σ,则22ˆσσ=E . 我们称2)ˆ,ˆ(ˆ-=n b aQ σ为标准误差,它反映回归直线拟合的程度.具体计算时可用)1()1(ˆ)ˆ,ˆ(222r L L L L L L b L b a Q yy yyxx xy yyxx yy -=-=-=. 二、预测与控制 1、预测问题对于一元线性回归模型⎪⎩⎪⎨⎧++=),0(~2σεεN bx a y我们根据观测数据x i ,y i ,i=1,…,n,得到经验回归方程x b a yˆˆˆ+=,当控制变量x 取值x 0x 0≠x i ,i=1,…,n,如何估计或预测相应的y 0呢这就是所谓的预测问题,自然我们想到用经验公式,取00ˆˆˆx b a y +=来估计实际的000ε++=bx a y ,并称0ˆy为0y 点估计或点预测.在实际应用中,若响应变量y 比较难观测,而控制变量x 却比较容易观察或测量,那么根据观测资料得到经验公式后,只要观测x 就能求得y 的估计和预测值,这是回归分析最重要的应用之一,例如在§例1中,拉伸倍数x 0=,则可预测强度59.65.7859.015.0ˆ0=⨯+=y但是,上面这样的估计用来预测y 究竟好不好呢它的精度如何我们希望知道误差,于是就有考虑给出一个类似于置信区间的预测区间的想法.定理 对于一元正态线性模型⎩⎨⎧=++=),(独立同分布2210,,),,1(σεεεN n i bx a y ii i 有 1 )ˆ,ˆ(b a服从二元正态分布. 2 )2(~ˆ)2()ˆ,ˆ(2222--=n x n b a Q σσσ3 2ˆˆσb y 是相互独立的随机变量. 证明:略又,我们知道y 0是,且与y 1,y 2,……,y n 相互独立,由定理及定理知,.),.(~ˆˆˆ00N x b a y += 且,ˆˆˆ0bx a b E x a E yE +=+= 2200200])(1[)ˆ,ˆcov(2)ˆ()ˆ(ˆσxxL x x n b a x b D x a D y D -+=++=由于y 0与0ˆy相互独立0ˆy 只与y 1,……,y n 有关,且y 0~Na+bx 0,σ2 ∴)])(11[,0(~ˆ22000σxxL x x n N yy -++-由定理知,00ˆyy -与22ˆ)2(σσ-n 独立,故 T=)2(~])(11[ˆˆ(202)00--++-n t L x x n yy xxσ 对于给定的置信水平1-α,查自由度为n-2的T 分布表可得满足αα-=<1)(t T P 的临界值αt ta根据不等式的恒等变形可得0y 的置信度为1-α的置信区间为:)])(11[ˆˆ],)(11[ˆˆ(20202020xxxxL x x n t yL x x n t y-+++-++-σσαα这就是0y 的置信度为1-α的预测区间,它是以0ˆy为中心,长度为)(2x t δα的区间,记])(11[ˆ)(202xxL x x n x -++=σδ,区间的中点00ˆˆˆx b a y +=随x 0而线性变化,它的长度在x x =0处最短,x 0越远离x ,预测区间的长度就越长.预则区间的上限与下限落在关于经验回归直线对称的两条曲线上,并是喇叭形.当n 较大,L xx 充分大时, 1)(1120≈-++xx L x x n可得y 0的近似预测区间:)ˆˆ,ˆˆ(00σσααt y t y+- 上式说明预测区间的长度,即预测的精度主要由σˆ确定,因此在预测中,σˆ是一个基本而重要的量.2、控制问题在实际应用中往往还需要考虑预测的反问题,即要以不小于1-α的概率将y 0控制在y 1,y 2内,也就是使α-≥<<1)(201y y y P相应的x 0应控制在什么范围内.这类问题称为控制问题.根据前一段的讨论,若x 0满足 ),())(ˆ))(ˆ(2100y y x t yx t y ⊂+-δδαα, 则可有α-≥<<1)(201y y y P因此控制问题一般是找满足的x 0的范围.但求解很麻烦.一种近似的处理法是:由),(~200σbx a N y +将a,b,σ2分别用其无偏估计2ˆ,ˆ,ˆσb a代, 有),ˆ,ˆ()ˆ,ˆˆ(~20200σσy N x b aN y =+近似从而)1.0(~ˆˆ00N y y 近似σ- 根据ασα-=-1)ˆˆ(00u yy P 查N 分布表确定αu ,于是y 0的置信度1-α的预测区间可近似认为是)ˆˆ,ˆˆ(00σσa a u y u y+-要解决前述问题可以从满足: )ˆˆ,ˆˆ(00σσααu yu y +-),(21y y ⊂的x 0去寻找x 0的控制范围.显然,当12ˆ2y y u ->σα时,问题无解,否则方程组 ⎪⎩⎪⎨⎧++=-+=σσααˆ''ˆˆˆ'ˆˆ21u x b ay u x b a y 有解x x ''', 由此得x 0的控制范围是min x x ''',,max x x ''',三、线性相关的检验前面的讨论都是在假定y 与x 呈现线性相关关系的前提下进行的,若这个假定不成立,则我们建立的经验回归直线方程也失去意义,为此必须对y 与x 之间的线性相关关系作检验,为解决这个问题,先作手:1、偏差平方和分解记∑=-=ni i y y L 12)(,称它为总偏差平方和,它反映数据y i 的总波动,易得L有如下分解式:∑∑∑==∆=+=-+-=-+-=n i n i ni i i i i i i U Qe y y y y y y y y L 111222)ˆ()ˆ()ˆ(其中)ˆ,ˆ(b a Q Q e =就是前面提到的残差平方和,∑=-=N I i y y U 12)ˆ(称为回归平方和,上式右边的交叉项:∑=--ni i i i y y y y 1)ˆ)(ˆ(2∑=-++-=ni ii i y x b a x b a y 1]ˆˆ)][ˆˆ([2 ∑=----=ni ii i x x b x x b y y 1)](ˆ)][(ˆ)[(2 ])(ˆ))(([ˆ2112∑∑==----=n i ni i ii x x b x x y y b 0)ˆ(ˆ2=-=xxxy L b L b 由上可知,U 越大,Qe 就越小,x 与y 间线性关系就越显着;反之,x 与y 之间的线性关系越不显着.于是,自然地考虑到检验回归方程是否有显着意义是考察U/Q 的大小,其比值大,则L 中U 占的比重大,回归方程有显着意义,反之,无显着意义.2、线性相关的F 检验根据上段的思想来构造检验统计量,先看下面的定理.定理 当H 0:b=0 成立时 U/σ2~2χ1,且Q 与U 相互独立.证:当H 0成立时,由及知,),0(~ˆ2xxL N b σ∴)1.0(~ˆN L b xxσ于是)1(~ˆ2222χσσxxL b U=由定理,我们还知)2(~ˆ)2(2222-=-n Q n e χσσσ,且Q 与b ˆ相互独立,从而Q 与U=xxL b 2ˆ独立,由上面的定理及F 分布的构造性定理知: )21(~ˆˆ2/022-=-=,n F L b n Q u F H xx真σ因此可选它作检验H 0:b=0 的检验统计量,当H 0为真时F 的值不应太大,故对选定的水平α>0,由P α-≥1F F =α查F1,n-2分布表确定临界值F 1-α分位数,当观测数据代入式算出的F 值合F ≥F 1-α时,不能接受H 0,认为建立的回归方程有显着意义.检验H 0:经验公式无显着意义α=选用)221(~)2(0,F QU n F H 真-=由{}αα=>F F P 查表得F α= 现计算F 值 由L =L yy =35.112266.152859.0ˆ22=⨯== xxL b U Q=L-U =得375.4416.535.11222=⨯=F因F >F α,所以拒绝H 0,认为所得的经验回归方程有显着意义. 四、相关与回归的区别与联系 1、联系由前面的讨论,有:222ˆr LyyLxx Lxx Lxy Lyy Lxx b L U =⎪⎭⎫ ⎝⎛== 得回归平方和U=r 2L残差平方和 )1()ˆ,ˆ(2r L b aQ Q -== 可见r 2反映了回归平方和在总偏差平方和中占的比重,该比重越大,误差平方和在总偏差平方和中占的份量就越小.通常称r 2为拟合优度系数.r 就是变量x 与y 的积差相关系数,另方面由2222)1)2(()1()2()2(rn r L r Lr n Q U n F --=--=-=看出,在检验y 与x 是否显着线性相关时,F 检验法与相关系数T 检验法等效.2、区别相关关系不表明因果关系,是双向对称的,在相关分析中,对所讨论的两个变量或多个变量是平等对待的,相关系数r 反映数据x i ,y i 所描述的散点对直线的靠拢程度.回归分析中,变量在研究中地位不同,要求因变量响应变量y 是随机变量,自变量一般是可控制的普通变量当然也可以是随机的.在回归方程中,回归系数只反映回归直线的陡度,且它不是双向对称的.§9.1.3 一元非线性回归前面讨论的线性回归问题,是在回归模型为线性这一基本假定下给出的,然而在实用中还经常碰到非线性回归的情形,这里我们只讨论可以化为线性回归的非线性回归问题,仅通过对某些常见的可化为线性回归问题的讨论来阐明解决这类问题的基本思想和方法.一、曲线改直例1 炼纲过程中用来盛钢水的钢包,由于受钢水的浸蚀作用,容积会不断扩大.下表给出了使用次数和容积增大量的15对试验数据:解:首先要知道Y 关于x 的回归函数是什么类型,我们先作散点图.见教材从图上看,开始浸蚀速度较快,然后逐渐减缓,变化趋势呈双曲线状. 因此可选取双曲线:设y 与x 之间具有如下双曲线关系xb a y 11+= 作为回归函数的类型,即假设y 与x 满足:ε++=xb a y 11 令yx 1,1==ηξ,则变成2,0,σξεεξη==++=D E b a . 这是一种非线性回归,先由x 、y 的数据取倒数,可得η,ξ的数据,,……,,对得到的15对新数据,用最小二乘法可得:线性回归方程 0823.01312.0ˆ+=ξη后,代回原变量得xx x y 0823.01312.00823.011312.01+=+= ∴1312.00823.0ˆ+=x xy 为y 关于x 的经验公式回归方程 在例1中,假设了y 与x 之间满足双曲线回归模型,显然这是一种主观判断,因此所求得的回归曲线不一定是最佳的拟合曲线.在实用中,往往是选用不同的几种曲线进行拟合,然后分别计算相应的残差平方和σˆ)ˆ(2或∑-=ii i e yy Q 标准误差进行比较Q e 或σˆ最小者为最优拟合. 二、常见可改直的曲线下面简介一些可通过变量替换化为线性回归的曲线回归模型. 1、双曲线x b a y +=1 作变换xx y y 1',1'== 则回归函数化为:y’=a+bx’2、幂函数y=ax b 或y=ax -b b >0 对幂函数两边取对数nx b na ny +=,作变换na a nx x ny y ===',',' 则有 x b a y ''±='3、指数函数y=ae bx 或y=ae -bx b >0两边取对数bx na y n ±= 令 bx y n ny y ±'='='='ααα有 ,4、倒指数函数xb ae y -=或xb ae y = b >0,a >0 两边取对数后作变换n y ='y, na a xx ='=',1,则有 x b a y ''±'='5、对数函数,y=a+b n x作变换n x ='x,则有y=a+b x '.另外还有一些可化为线性回归的曲线回归,将在用“spss ”作实习操作时一并介绍.例1续由例1的散点图看出,除双曲线拟合外,本例还可选择倒指数拟合:y=ae b/x两边取对数得:na xb ny +⋅=1 令xny 1',=='ξη ,变为如下的回归问题: εξη++=''B A利用最小二乘法求得:Bˆ=,A ˆ= 因此回归直线为: 4578.2'1107.1+-='ξη代回原变量得:x e y/1107.16489.11ˆ-= 经计算双曲线拟合时 Q= σˆ=,倒指数拟合时σˆ=,故倒指数拟合效果更好些.§ 多元线性回归实际应用中,很多情况要用到多元回归的方法才能更好地描述变量间的关系,因此有必要在本节对多元线性回归做一简单介绍,就方法的实质来说,处理多元的方法与处理一元的方法基本相同,只是多元线性回归的方法复杂些,计算量也大得多,一般都用计算机进行处理.一、数学模型和回归方程的求法. 1、多元线性回归的模型.设因变量y 与自变量x 1,x 2,……,x k 之间有关系式: ),0(~...2110σεεN x b x b b y k k ++++=抽样得n 组观测数据:y 1;x 11,x 21,……,x k1y 2;x 12,x 22,……x k2 …………………… y n ;x 1n ,x 2n ,……x kn其中x ij 是自变量x i 的第j 个观测值,y j 是因变量y 的第j 个值,代入得模型的数据结构式:⎪⎪⎪⎩⎪⎪⎪⎨⎧+++++=+++++=+++++=),N (x b x b x b b y x b x b x b b y x b x b x b b y n nkn k n n n k k k k 22122110222211210211212111010...,.....................σεεεεεε独立同分布 我们称或为k 元正态线性回归模型,其中b 0,b 1,……,b k 及σ2都是未知待估的参数,对k 元线性模型,需讨论的问题与一元时相同.需要说明的几点见教材 2、未知参数的估计与一元时一样,采用最小二乘法估计回归系数 b 0,b 1,……,b k . 称使21221101,0])...([ˆ),...,(∑=++++-=nt kt k t t t k x b x b x b b y b b b Q 达到最小的k b b b ˆ,...,ˆ,ˆ10为参数b 0,b 1,……,b k 的最小二乘估计,利用微积分知识,最小二乘估计就是如下方程组的解:⎪⎪⎪⎩⎪⎪⎪⎨⎧+++-==+++=+++=+++kk kyk kk k k y k k y k k x b x b x b y b Lb l b l b l L b l b l b l L b l b l b l ............ (221)022112222212111212111 其中 ),...,2,1(1,111k i x n x y n y nt it i n t t ===∑∑==),...,2,1,()()(11k j i L x x x x n L ji j jt nt i it ij ==--=∑=),...,2,1()(,)(11k i y y x x n L t nt i it iy =--=∑=通常称方程组为正规方程组,其中前k 个方程的系数矩阵记为,)(*k k ij l L ⨯=当L 可逆时,正规方程组有解,便可得b 0,b 1,……b k 的最小二乘估计 kb b bˆ,,ˆ,ˆ1即k k y k y k x b x b y b L L L b b ---=⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎭⎫ ⎝⎛-...ˆˆ,*)(ˆˆ110111 代入模型,略去随机项得经验回归方程为:kk x b x b b y ˆ...ˆˆˆ110+++= 类似一元可以证明 i b ˆ都是相应的b i i=0,1,……,k 的无偏估计,且σ2’的无偏估计为:1)ˆ,...,ˆ,ˆ(ˆ102--=k n b b b Q kσ·二、回归方程的显着性检验与一元的情形一样,上面的讨论是在y 与x 1,……,x k 之间呈现线性相关的前提下进行的,所求的经验方程是否有显着意义,还需对y 与诸x i 间是否存在线性相关关系作显着性假设检验,与一元类似,对kk x b x b b y ˆ...ˆˆˆ110+++=是否有显着意义,可通过检验H 0:b 1=b 2=…=b k =0为了找检验H 0的检验统计量,也需将总偏差平方和L yy 作分解:UQ y y y y y y yy y y L e tt tt t nt t t t t nt t +=-+-=-+-=-=∑∑∑∑== 222121)ˆ()ˆ()ˆˆ()(即L =U+Q e 其中L =L yy ,22)ˆ(,)ˆ(∑∑-=-=tt t e tt yy Q y y U 这里ktk t t x b x b b y ˆ...ˆˆˆ110+++=. 分别称Q e,U 为残差平方和、回归平方和,可以证明:∑=∆=+++=kj jy j ky k y y l b l b l b l b U 12211ˆˆ...ˆˆ利用柯赫伦定理可以证明:在H 0成立下,)1(~)(~2222--k n ,k UeχσχσQ 且U与Q e 相互独立,所以有)1,(~)1/(/0----=k n k F k n kU F H 真Q这里记 Q e 为Q,下同取F 作H 0的检验计量,对给定的水平α,查Fk, n-k-1分布表可得满足αα=≥)(F F p 的临介值αF ,由样本观测值代入算出统计量F 的观测值,若F≥αF ,则不能接受H 0,认为所建的回归方程有显着意义.通过F 检验得到回归方程有显着意义,只能说明y 与x 1,x 2,……,x k 之间存在显着的线性相关关系,衡量经验回归方程与观测值之间拟合好坏的常用统计量有复相关系数R 及拟合优度系数R 2.仿一元线性回归的情况,定义:LQL U R -==12 LQR -=1||可以证明R 就是观测值y 1,……,y n 与回归值的n y y yˆ,...,ˆ,ˆ21的相关系数. 实用中,为消除自由度的影响,又定义:)1/()1/(12---==n L k n Q R为修正的似合优度系数.三、偏回归平方和与因素主次的判别本段内容是多元回归与一元回归有本质差异的部分.前一节所作的检验H 0:b 1=b 2=……=b k =0被拒绝,并不能说明所有的自变量都对因变量y 有显着影响,我们希望从回归方程中剔除那些可有可无的自变量,重新建立更为简单的线性回归方程,这就需要对每个自变量x j 做显着性检验.于是考虑H 0j :b j =0的检验方法.从原有的k 个自变量中剔除x j ,余下的k-1个自变量对y 的线性影响也可由相应的偏差平方和分解式中的回归平方和U j 反映出来,即)()()(j j j Q U L +=记 )()(j j U U U +=∆则△U j 反映了变量x j 在回归方程中对y 的线性影响,常称它为x j 的偏回归平方和,可以证明 jjj c b U j 2)(ˆ=∆其中C jj 是矩阵 L =L ij p ×p 的逆矩阵对角线上的第j 个元素,对于H 0j :b j =0选用统计量 )1,1(~1/ˆˆ022)(----=∆=k n F k n Q C b U F j H e jjj j j 真σ对给定的水平α,由αα=≥)(F F P j ,查F1,n-k-1分布表确定临介值αF ,将观测值代入算出的F j 值与αF 比较,若F j ≥αF 则拒绝H 0,认为x j 对y 的线性影响显着,否则不显着,应剔除.但在实用中,多元回归中剔除变量的问题比上例我们做的讨论要复杂得多,因为有些变量单个讨论时,对因变量的作用很小,但它与某些自变量联合起来,共同对因变量的作用却很大,因此在剔除变量时,还应考虑变量交互作用对y 的影响,对这一问题的深入讨论太花时间,有兴趣的同志可参见有关“多元统计分析”教材.此外,关于多元性回归的预测和控制问题,类似一元不再赘述.。
第9章方差分析与回归分析ppt课件
第9章 方差分析与回归分析
r ni
Se
(yij yi )2,
称为误差平方和或组内平方和.
i1 j1
则有以下平方和分解式:
ST SASe
(9.1.4)
事实上
r n i
r n i
S T (yijy)2 (yijyiyiy)2
i 1j 1
i 1j 1
r n i
r n i
r n i
(y i y ) 2 (y ij y i) 2 2 (y ij y i) (y i y )
为研究方便,引入如下记号:
n
r
ni
i1
为试验总次数;
1 n
r i 1
ni i 为总均值;
ii,i1,2,L,r称
i为因素 A
r
的水平 A i 的效应,且有
n i i
0.
i1
ij y iji,j 1 ,2 ,L ,n i,i 1 ,2 ,L ,r称为随机误差.
安庆师范大学
.
因此单因素方差分析数学模型为:
的统计量.令
1 ni
yi
ni
yij,i 1,2,L ,r,
j1
y 1 r
n i 1
ni
yij ,
j 1
表示第组样本的平均值. 表示全体样本的总平均.
r
ST
ni
简单回归分析(4)
30
y1 y2 y3
y变异程度为S y
Xp
31
总体回归线的95%置信带*
yp hat的变异不仅决定于y的均数( ),同y 时也取决于回归系数的作用
(
yˆp yb(xp)x)
根据方差的特性:
Var[y b(xp x)]Var(y)Var[b(xp x)]
Var(
y)
Var(
y)
/
n
S2 y.x
如果两个变量间的回归关系的确存在,则变异度减少将十 分之“显著”,即SS回归大于SS残,大到何种程度才认为 具有统计学意义?
计算以下统计量:
对于简单线F 性= 回S S 归S S残 回 ,//有ν ν回 残 tb2~ =FF(ν回 =1,ν残 =n-2)
27
决定系数(Coefficient of determination)
y—— 因变量,响应变量:尿肌酐含量(mmol/24h)
(dependent variable, response variable)
x ——自变量,解释变量:体重(kg)
(independent variable, explanatory variable)
b —— 回归系数,斜率(mmol/24h*kg)
R2=SS回/SS总 取值介于0~1,表示回归解释了因变量变异的比
例;其值越大表示回归预测效果越好 在实际应用中,通常需要用决定系数反映回归的
实际效果 对于简单线性回归,有r2=决定系数
28
五、总体回归线的95%置信带*
通过样本资料得到的回归直线为: yˆ abx
其中y hat为相应的总体条件均数my|x的估计值,
上述例题中,回归系数的95%的可信区间为: 0 . 1 3 9 2 2 . 4 4 7 0 . 0 3 0 4 ( 0 . 0 6 4 8 ,0 . 2 1 3 6 )
2019年-第9章方差分析及回归分析-PPT精选文档
3
4
5
6
7
8
9
§1单因素试验的方差分析
(一)单因素试验
在一项试验中只有一个因素在改变的试验。如只考 虑氮肥的不同施用量对水稻产量的影响,而不考虑其他 原因对产量的影响。得到如下数据:
观 察 结 果 \ 处 理 水 平A 1
试 验 指 标
X 11 X 21 X
n1 1
A2 X 12 X 22 X
2
A s, s :N X 1 s X2s Xnss
2
11
方差分析的三个基本条件
• 独立性.
数据是来自s个独立总体的简单随机样本
• 正态性.
s个独立总体均为正态总体
• 方差齐性.
s个独立总体的方差都相同
12
记 号 说 明
观 察 结 果 \ 处 理 水 平A 1
试 验 指 标
X X
11 21
j j
此 时 有 n n . . . n 0 1 1 2 2 s s
模型为: X ij j ij ij (0, 2 ), 各 ij 独立 i 1, 2, , n j, j 1, 2, , s n1 1 n2 2 ... n s s 0
多 的 , 如 农 业 生 产 中 , 影 响 水 稻 产 量 的 因 素 可 能 有 : 种 子 、 态 , 如 施 肥 数 量 是 1 个 单 位 、 2 单 位 还 是 3 单 位 ? 等 等 。
出 那 些 较 显 著 影 响 产 量 的 因 素 。
2
肥 料 、 气 象 、 耕 作 等 ; 同 一 种 因 素 下 也 会 有 不 同 的 水 平 状
需 要 检 验 , 如 : H : , , ,不 相 等 0 1 2 s , H 1: 1 2 s 全 则 就 无 能 为 力 了 , 此 时 就 需 要 用 方 差 分 析 了 。
线性回归与协方差
7
8
1.4
Ñ ª Ç å Ô Ø Ö ¬ µ ° × ° º ¬ Á ¿
(g/L)
1.3 1.2 1.1 1.0 0.9 0 10 20
Ñ É È ï Ê ±¼ ä (Ö Ü )
30
40
10名正常孕妇妊娠时间与血清载脂蛋白含量
9
原则:各实测点至直线纵向距离的平方和为最小
y
求解回归直线
x
10
直线回归方程的计算
2
934.84 227.64 707.20
34
3 1 2
35
6.计算公共回归系数bc及各组修正均数
组内l XY bc 组内l XX
420.88 bc 2.4 175.25
Y Y j bc ( X j X )
* j
A饲料 Y 81.75 2.4(13.75 19.25) 94.95 B饲料 Y 98 2.4(18.625 19.25) 99.50 C饲料 Y 96.875 2.4(25.375 19.25) 82.175
30
40
10名正常孕妇妊娠时间(周)与血清载脂蛋白含量
12
y
ˆ) ( y ˆ y) P ( y y) ( y y
ˆ) (y y
ˆ y) (y
( y y)
y
x
应变量 y 离均差平方和划分示意图
x
13
对于所有观测点,都有:
ˆ) ( y ˆ y) ( y y) ( y y
60 50 均 40 数 30 20 10 0 外膜缝合 束膜缝合
53
缝合2月
缝合1月
图11-2
回归分析方差分析
分别对b0,b1,…,bn求导,并令其一阶导数为0,可 求出各个系数
二、回归方程得数学模型
估计标准误差 就是估计y与对应观测值之间得离差平方和
SST Lyy ( yi yi )2
^
^
( yi yi )2 ( yi y)2
• ⑦“Influence Statistics” 统计量得影响。 “DfBeta(s)”删除一个特定得观测值所引起得回归系数得 变化。 “Standardized DfBeta(s)”标准化得DfBeta值 。 “DiFit” 删除一个特定得观测值所引起得预测值得变 化。“Standardized DiFit”标准化得DiFit值。 “Covariance ratio”删除一个观测值后得协方差矩阵得行 列式和带有全部观测值得协方差矩阵得行列式得比率。
Leverage values: 杠杆值。 • ③“Prediction Intervals”预测区间选项:
Mean: 区间得中心位置。 Individual: 观测量上限和下限得预测区间。
• ④“Save to New File”保存为新文件: 选中“Coefficient statistics”项将回归系数保存到指定得 文件中。
Unstandardized 非标准化预测值。在当前数据 文件中新添加一个以字符“PRE_”开头命名得变 量,存放根据回归模型拟合得预测值。 Standardized 标准化预测值。 Adjusted 调整 后预测值。S、E、 of mean predictions 预测 值得标准误。
• ②“Distances”距离栏选项: • Mahalanobis: 距离。 Cook’s”: Cook距离。
第九章回归分析与方差分析
i =1
i =1
由公式(8)得
bˆ = lxy
=
10
∑ xi
i =1
yi
−
1 10
10
∑
i =1
xi
10
∑
i =1
yi
l xx
10
∑
xi2
i =1
−
1 10
10
∑
i =1
xi
2
43130000 − 1 × 20700 ×19900
=
10 45690000 − 1 ( 20700 )2
但是我们无法从一个变量确切知道另一个变量,它们之间是一种非确定性关系。又如,任一
家庭的年支出 Y 与该家庭的年收入 X 之间存在密切的关系,但是我们无法从一个变量确切知 道另一个变量,它们之间是一种非确定性关系。再如广告费 X 与销售量 Y 之间存在密切的关
系,但是我们也无法从一个变量确切知道另一个变量,它们之间也是一种非确定性关系。这 一种非确定性关系,我们称之为相关关系。
n
Q(a,b) = ∑ ( yi − a − bxi )2 i =1
(2.4)
所谓 a, b 的最小二乘估计,就是选择 aˆ, bˆ ,使得
Q ( aˆ, bˆ ) = min Q ( a, b )
(2.5)
将 Q = Q ( a, b ) 分别对 a, b 求偏导数:
∂Q ∂a
=
n
−2 ∑ ( yi
在研究相关变量之间的关系时,我们常常可以把变量分成两类,一类变量带有“原因” 的性质,称为自变量或回归变量;另一类变量带有“结果”的性质,称为因变量或响应变量。 研究这种带有因果关系变量之间的相关关系的一个有力工具是回归分析,它是数理统计的一
方差分析线性回归
1线性回归要研究最大积雪深度X与灌溉面积y之间的关系,测试得到近10年的数据如下表:使用线性回归的方法可以估计x与y之间的线性关系。
线性回归方程式:对应的估计方程式为线性回归完成的任务是,依据观测数据集仗l,yl),仗2,y2),...,仗n,yn)使用线性拟合估计回归方程中的参数a和b。
a,b都为估计结果,原方程中的真实值一般用a 和P表示。
为什么要做这种拟合呢?答案是:为了预测。
比如根据前期的股票数据拟合得到股票的变化趋势C、勺然股票的变化可就不是这么简单的线性关系了)。
线性回归的拟合过程使用最小二乘法,最小二乘法的原理是:选择a,b的值,使得残差的平方和最小。
为什么是平方和最小,不是绝对值的和?答案是,绝对值也可以,但是,绝对值进行代数运算没有平方那样的方便,4次方乂显得太复杂,数学中这种“转化化归”的思路表现得是那么的优美!残差平方和Q ,求最小,方法有很多。
代数方法是求导,还有一些运筹学优化的方法(梯度下降、牛顿法),这里只需要使用求导就0K 了,为表示方便,引入一些符号,最终估计参数a与b的结果是:自此,针对前•面的例子,只要将观测数据带入上面表达式即可汁算得到拟合之后的d和b。
不妨试一试?从线性函数的角度,b表示的拟合直线的斜率,不考虑数学的严谨性,从应用的角度,结果的b可以看成是离散点的斜率,表示变化趋势,b的绝对值越大,表示数据的变化越快。
线性回归的估计方法存在误差,误差的大小通过Q衡量。
1 -2误差分析考虑获取观测数据的实验中存在其它的影响因素,将这些因素全部考虑到e~N(0QA2)中,回归方程重写为y = a + bx + e由此汁算估计量a与b的方差结果为,a与b的方差不仅与6和x的波动大小有关,而且还与观察数据的个数有关。
在设计观测实验时,x的取值越分散,佔汁ab的误差就越小,数据量越大,佔计量b的效果越好。
这也许能为设计实验搜集数据提供某些指导。
1.3拟合优度检验及统计量拟合优度检验模型对样本观测值的拟合程度,其方法是构造一个可以表征拟合程度的指标,称为统汁量,统讣量是样本的函数。
第九章方差分析及回归分析-PPT精品文档
Xij i ij ,
ij ~ N(0, ),各ij独立,
2
(1.1)
i 1,2,
, r, j 1,2,
, ni .
2 其 中 , 与 均 为 未 知 参 数 。 则 上 式 称 为 i
单 因 素 试 验 方 差 分 析 的 数 学 模 型 。
2019/3/7
8
第九章 方差分析及回归分析
§1 单因素试验的方差分析
(一)单因素试验
在科学试验和生产实践中,影响一事物的因素很多。 方差分析是根据试验的结果进行分析,鉴别
各个有关因素对试验结果影响的有效方法。
在试验中,我们将要考察的指标称为试验指标。影响试验 指标的条件称为因素。因素可分为两类,一类是人们可以 控制的(可控因素);一类是人们不可控制的。以下我们 所说的因素都是指可控因素。因素所处的状态,称为该因 素的水平。如果在一项试验中只有一个因素在改变时称为 单因素试验。如果多于一个因素在改变称为多因素试验。
H ; 0: 1 2 r H , , 1: 1 2
中 不 全 相 等 。 r
(1.2)
2019/3/7
9
1 记 n 其 中 n n , 称 为 总 平 均 。 i i, i n i 1 i 1
r
r
平 均 值 与 总 平 均 的 差 异 , 习 惯 上 将 称 为 水 平 A 的 效 应 。
1 2… j … ni
样本 样本均 值 和
T T T T
1 2
因 素 水 平
1 2 i r
X 11 X 21 X i1 X r1
X 12 X 22 X i X2j X ij X rj
第九章 线性回归与方差分析
例1 对某广告公司为了研究某一类产品的广告费用x 与其销售额Y之间的关系,对多个厂家进行调查,
获得如下数据
厂家 1 广告费 6 销售额 31
23 456789 10 21 40 62 62 90 100 120 58 124 220 299 190 320 406 380
广告费与销售额之间不可能存在一个明确的 函数关系,事实上,即使不同的厂家投入了相同 的广告费,其销售额也不会是完全相同的。影响 销售额的因素是多种多样的,除了广告投入的影 响,还与厂家产品的特色、定价、销售渠道、售 后服务以及其他一些偶然因素有关。
称Q(a, b)为偏差平方和
最小二乘法就是选择a,b的估计 aˆ , bˆ,使得
Q(a, b)为最小(图9-2)
实用文档
图9-2
实用文档
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
aQ(a,b)
bQ(a,b)
n
i1 n
i1
(yi (yi
abxi)(2) 0 abxi)(2xi) 0
y=a+bx称为回归直线 b称为回归系数
此时 Y~N(ab,x2)
对于(x, Y)的样本(x1,y1),…,(xn,yn)有:
yi abxi i i1,,n i ~N(0,2) 1,,n相互独立
实用文档
如果由样本得到式(1)中,a, b的估计值 aˆ , bˆ ,
则称 yˆ aˆ bˆx为拟合直线或经验回归直线,它 可作为回归直线的估计 一元线性回归主要解决下列一些问题:
实用文档
画出散点图如图9-1所示.从图中可以看出,
随着广告投入费x的增加,销售额Y基本上也呈上
升趋势,图中的点大致分布在一条向右上方延伸
方差分析及回归分析ppt课件
,
j
SE
( X ij X . j )2
j 1 i1
(1,8) (1,9)
s nj
s
SA
(X.j X )2 nj (X.j X )2
j 1 i1
j 1
s
n
j
X
2 .j
nX
2
(1,10)
j 1
• SE称为误差平方和, SA表示Aj水平下的
样本均值与数据总平均的差异,叫做效
应平方和,他是由水平Aj的效应的差异 以及随机误差引起的。
nj
记T. j X ij , j 1,2,...,s,T..
s
n j X ij则有
i 1
j1 i1
ST
s j 1
nj i 1
X
2 ij
nX
2
s j 1
nj i 1
X
2 ij
T..2 n
,
(1,21)
SA
s
n
j
X
2 .j
j 1
nX 2
T s 2 .j
n j1 j
T..2 n
Xij - μj可以看成是随机误差。记为Xij - μj =εij ,则 Xij 可以写为
Xij = μj +εij
εij ~N(0, σ2),各εij独立
(1,1)
i=1,2,…,nj , j=1,2,…,s (1,1)称为单因素方差分析的数学模型。
方差分析的任务
I. 检验s个总体 Xi1 ~ N (1, 2), Xi2 ~ N (2, 2)... Xis ~ N (s , 2) 的均值是否相等,即检验假设
这时模型(1.1)可以改写为:
X ij j ij ,
方差分析与回归分析
不同行业被投诉次数的散点图
行业
1. 随机误差
▪ 因素的同一水平(总体)下,样本各观察值之间的差异 ▪ 比如,同一行业下不同企业被投诉次数是不同的 ▪ 这种差异可以看成是随机因素的影响,
2. 系统误差
▪ 因素的不同水平(不同总体)下,各观察值之间的差异 ▪ 比如,不同行业之间的被投诉次数之间的差异
▪ 这种差异可能是由于抽样的随机性所造成的,也可
a.画散点图
较强的线性正相关关系
b. 求r
• 样本容量n=14,查教材附录540页《相关系数 检验表》,当显著性水平为1%时,r0.01=0.661。 显然,样本相关系数r> r0.01 ,因此线性回归效果 显著,认为抗拉强度y与含碳量x之间存在高度显 著的正相关关系。
c.求抗拉强度y关于含碳量x 的线性回归方程
无线性相关
完全正相关
-1.0 -0.5 0 +0.5 +1.0
r
负相关程度增加 正相关程度增加
非线性回归
• 在许多实际问题中,变量之间并不一定是 变量的关系,而是某种非线性相关关系, 称为一元非线性回归。许多有价值的非线 性回归方程,可以利用适当的变换,转换 为线性回归方程,例如,倒数变换、半对 数变换、双对数变换、多项式变换等;然 后再利用线性回归分析的最小二乘法进行 估计和检验。
k
ni
k
k
xij x 2 ni xi x 2
ni
xij x 2
i1 j1
i1
i1 j1
SST = SSA + SSE
▪ 前例的计算结果:
4164.608696=1456.608696+2708
关系强度的测量
1. 拒绝原假设表明因素(自变量)与观测值之间有
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(x1,y1) ,(x2,y2),…,(xn, yn)
其中yi是x=xi时随机变量Y的观测结果.将n对观测结 果(xi,yi)(i=1,…,n)在直角坐标系中进行描点, 这种描点图称为散点图.散点图可以帮助我们精略 地看出Y与x之间的某种关系.
x
图9-1
一般地,假设x与Y之间的相关关系可表示为
Y a bx (1)
其中:a, b为未知常数
为随机误差且 ~ N (0, 2 ) 2 未知,
x与Y的这种关系称为一元线性回归模型
y=a+bx称为回归直线 b称为回归系数
此时 Y ~ N(a bx, 2 )
对于(x, Y)的样本(x1,y1),…,(xn,yn)有:
例1 对某广告公司为了研究某一类产品的广告费用x 与其销售额Y之间的关系,对多个厂家进行调查, 获得如下数据
厂家 1 广告费 6 销售额 31
23 456789 10 21 40 62 62 90 100 120 58 124 220 299 190 320 406 380
广告费与销售额之间不可能存在一个明确的
小二乘估计
此时,拟合直线为
yˆ aˆ bˆx
或 $y y bˆ(x x)
拟合直线也称为y关于x的经验回归方程、 有时也称为y关于x的一元线性回归方程
为了计算上的方便, 引入下述记号:
Sxx
n i 1
( xi
x )2
n i 1
xi2
1
n
n i 1
xi
2
S
xy
n
( xi
Q(a, b)为最小(图9-2)
图9-2
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
a
Q(a,
b)
b
Q(a,
b)
n
i 1 n
i 1
( yi ( yi
a a
bxi )(2) bxi )(2xi )
0 b
n
bi
i1
(2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间 估计.
二、 参数a、b、 2 的估计
现在我们用最小二乘法来估计模型(1)中的
未知参数a,b.
n
n
记 Q Q(a,b)
2 i
( yi a bxi )2
i 1
i 1
称Q(a, b)为偏差平方和
最小二乘法就是选择a,b的估计 aˆ, bˆ,使得
i 1
x)( yi
y)
n i 1
xi yi
1
n
n i 1
xi
n i 1
yi .
S
yy
n
( yi
i 1
y )2
n i 1
yi2
1
n
n i 1
yi
2
这样a,b的估计值可写成
bˆ
S xy S xx
aˆ
1 n
n i 1
yi
1 n
n i 1
xi
bˆ
下面再用矩法求 2的估计
对于具有相关关系的变量,虽然不能找到他们之间 的确定表达式,但是通过大量的观测数据,可以发 现他们之间存在一定的统计规律,
数理统计中研究变量之间相关关系的一种有效方法 就是回归分析。
一、 一元线性回归模型
假定我们要考虑自变量x与因变量Y之间的相关关系 假设x为可以控制或可以精确观察的变量,即x为普 通的变量。由于自变量x给定后,因变量Y并不能确 定,从而Y是一个与x有关的随机变量
例如,农作物的单位面积产量与施肥量之间有 密切的关系,但是不能由施肥量精确知道单位面积 产量,这是因为单位面积产量还受到许多其他因素 及一些无法控制的随机因素的影响。
又如,人的身高与体重之间存在一种关系,一般来 说,人身高越高,体重越大,
但同样高度的人,体重却往往不同。这种变量之间 的不确定性关系称之为相关关系。
i 1
n i 1
xi a n i1
xi2 b
n i 1
xi yi
式(2)称为正规方程组.
(2)
由正 规方程组解得
n
( xi x)( yi y)
bˆ i1 n
(xi x) 2
i 1
aˆ y bˆx
其中
x
1 n
n i1
xi ,
y
1 n
n i1
yi
用最小二乘法求出的估计 aˆ 、bˆ 分别称为a、b的最
由于 2 D E 2
由矩估计法,可用
1 n
n i1
2 i
估计
E
2
而i yi a bxi ,a、b分别由 aˆ、bˆ代入
故
2可用
ˆ 2
1 n
n
( yi
i1
aˆ bˆxi )2
作估计
为了计算¶2 ,引入下述残差平方和
记 µyi $y xxi a$ b$x i
, 则称
yi
µyi为x
函数关系,事实上,即使不同的厂家投入了相同 的广告费,其销售额也不会是完全相同的。影响 销售额的因素是多种多样的,除了广告投入的影 响,还与厂家产品的特色、定价、销售渠道、售 后服务以及其他一些偶然因素有关。
画出散点图如图9-1所示.从图中可以看出,随
着广告投入费x的增加,销售额Y基本上也呈上升
趋势,图中的点大致分布在一条向右上方延伸的
直线附近.但各点不完全在一条直线上,这是由于Y
还受到其他一些随机因素的影响.
这样,Y可以看成是由两部分叠加而成,一部
分是x的线性函数a+bx,另一部分是随机因素引起的
误差 ,即
y
Y=a+bx+
500
* *L
400 300
*
*
*
*
200
100
o
* **
20
40
60
80
100 120
这就是所谓的 一元线性回归模型
第九章 线性回归分析与方差分析
第一节 一元线性回归分析 第二节 可线性化的非线性回归 第三节 多元线性回归简介 第四节 方差分析
第一节 一元线性回归分析
在许多实际问题中,我们常常需要研究多 个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关 系可以用函数关系来表达,例如电流I电压V电 阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非 确定性的关系,这种关系无法用一个精确的函数 式来表示。
yi a bxi i i 1,, n
i ~ N (0, 2 )
1,
,
相互独立
n
如果由样本得到式(1)中,a, b的估计值 aˆ, bˆ ,
则称 yˆ aˆ bˆx为拟合直线或经验回归直线,它 可作为回归直线的估计
一元线性回归主要解决下列一些问题:
(1)利用样本对未知参数a、b、 2进行估计;