第二章回归模型(1-4)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

a) σ为观测数据的标准差,即 1 ( y y) f
n 2 i 1 i
其中
1 y y N
n i 1
i
式中:
y ——观测值;
i
y ——为的平均值。
n——观测次数; f——自由度。 当N≤(20~30) 时,f=n-1; 当N≥30时 ,f=n-1≈n, 观测值 y i 与 y 之差称为离差,以g表示, 即: g y y
3.利用回归分析所建立的数学模 型主要是线性回归模型,及多项 式回归模型,以及一些可以通过 初等变换转化为线性的一元非线 性回归模型。下面我们先介绍一 元线性回归模型。
§2-4 一元线性回归模型 一元线性回归分析是最简单的一种回归 分析、它所研究的对象是二个变量之间的 相关关系。 设有N对实验数据 x y (i 1,2,, N ) ,其 中 x 为确定性变量, y 为服从正态分布的随 机变量,如果它们之间存在线性关系,则 可以用一个线性方程表示。
§2-3 模型形式的确定
1.从建模和求解方便来看,总希望 模型的形式简单一点,所含的变量 和参数不要太多;但从模型的使用 角度看,则要计算结果准确,反映 真实,所以从这一点看又得要把模 型选配的复杂些。 2.常用的模型形式有一元线性模 型。一元非线性模型,多元线性模 型,多元非线性模型及多项式模型。
Lxy Lxx Lyy
我们称r为变量x与y的相关系数。其绝对 值为 0 r 1,相关系数的正负号由 Lxy 决 定,即R与b同号。R>0时为正相关;R<0时 为负相关。 b. 当对回归方程求出相关系数后,然后 查相关系数表进行相关性检验; 查相关系数表时,遇到三个数,一个 是变量数;一个是自由度,它等于数据组数 减去变量个数(如果数据组数为10,则自由 度等于10-2为8);再一个是置信水平(一 般取5%或1%),只有当求出的相关系数大 于表上相应的数值时。回归的线性方程才有 意义。
i 1 i 1 i 1
( y y ) ( y y) Q U
n 2 n 2 i 1 i i i 1 i


2.参数最小二乘法确定 为了使回归直线是一切直线中最接近 所有试验点的直线,也就是说以这条直 线代表x与y的关系与观测值的误差最小 时的a、b参数值,就是所求的最佳值。 也就是要使得观测值与回归方程计算 值的偏差为最小,为了消除正负值影响, 采用其剩余平方和为最小。
i
i
i
2
2
2
2
i
i
i
x
1 上式中: x x N
i

2
1 y y N
2
i
若令: Lxx ( xi x) xi N x
xy i i i i
2
L ( x x)( y y) x y N x y
L ( y y) y N y
(3)F检验法
自由度:f总=N-1;N为观测次数。 f回=m ;m为回归方程中自变量个数。 F残=f总-f回=N-1-m
U F f回
Q f残
上式中 f 回 为F检验的第一自由度,f 残 为F检验的 f 残 值的 第二自由度,根据上式算出的F值按 f 回 、 大小,在一定信度水平下查F分布表,在所取的信 度的α的水平下, 如果 F计>F表 则说明回归方程显著,即与的线性关系密切。
由于剩余偏差平方和Q是随机因素造 成的,它排除了线性关系的影响。 我们把剩余标准差σ作为衡量y随机波 动大小的一个估计量。 即 :

Q N 2
2 ( y y ) i i
N 2
x x 0 则y的取值是以为 y 0 中心而对 若, y 0 ,出现的概率越大, 称分布。越靠近 y0 与 相反,越远离 y 0 ,则出的概率越小, 剩余标准差σ之间,有如下关系:
二、回归分析主要解决以下三方面问题 ( 1 )根据试验数据,研究变量之间的相 关关系,找出定量的关系式和其中的参 数。 ( 2 )由于关系或是一种相关关系,所以 需要进一步找出它的可信程度,为此, 要进行统计检验。 ( 3 )如果关系式中有许多自变量,则判 断这些自变量的显著性,并剔除影响不 显著的自变量。
试验统计数据表
编号 1 2 3 4 x 22 34 39 43 y 11 13 16 16 x2 484 1156 1521 1849 y2 121 169 256 256 xy 242 442 624 688
2 2 yy i i 2
则上式可写成:
a y bx
b
x y N xy
i i
x Nx
2 i
2
L L
xy
xx
二、回归方程显著性检验 在建立回归模型时,我们假定两 个变量之间是线性的,再根据最小二 乘原理,确定了回归系数和的值,那 么这两个变量之间是否真正是线性的, 所以必须对原来的假定进行显著性检 验,回归方程显著,回归方程显著性 检验就是对两个变量线性关系进行定 量的评价,常用的方法有相关系数法 与F检验法两种。
§2-2 可疑数据的处理 在进行回归运行之前应根据误差理论 对观测数据进行处理,因为在一组试验数 据中,如果混杂异常数据,就会歪曲整个 试验结果,影响所建立的模型,所以必须 运用正确的方法舍弃其中异常的数据。 常用的判别方法有拉依达准则(3σ准 则)和肖维勒准则。 (1)3σ准则: 其准则认为:某一观测值的剩余误差 绝对值大于3σ时,该数据就应被舍弃。
Q ( y y ) ( y a bx ) min
2 2 i 1 i i i 1 i i
n

n
根据极值原理:要使上式有最小值, 应使 2 ( y a bx ) 0
a 2 ( y a bx ) x 0 b
i 1 i i n i 1 i i i n
上式称为线性回归的正规方程组,得
a y bx
( x x)( y y ) x y y x x y nx y b ( x x) x nx x x x
i i
i
i
i
y i 与平均值 y 离差平方 S回表示回归值 之和,它是由于x与y之间线性相关引起 那部分离差,它是由自变量x的变化引 起的。 S残表示观测值 yi 与回归值 y i 的离差 平方和,它是在所有类似的直线中与观 测点离差平方和中最小的一个,也就是 说它是除了x对y线性影响之外的一切因 素对y变差的作用。
i i i


则总离差平方和
G ( y y ) [( y y ) ( y y )]
i 1 i i 1 i i i
n 2 n 2 n i i i i i i
n
2
n


2
( y y ) ( y y) 2 [( y y )( y y)]
(1)方差分析 由前面分析知,三种离差平方和关系为:
S S S
总 回

上式中:S总表示观测点 与平均值 离 yi y 差平方和,它反映了 的总波动情况。产 y 生这种差异是由于二方面因素引起:一方 面是由于x与y之间的线性相关所引起,也 就是由于变量的取值不同引起的;另一方 面是由于试验误差和除x与y线性关系之外 一切因素所引起的。
S 残 S总 S回 L yy
L
2 xy
Lxx
(2)相关系数检验法 a.显然,在总离差平方和一定的 条件下,S残越小,S回越接近S总,变 量x与y之间的线性关系就越密切,从 而比值S回/S总就越接近1,线性越好, 反之线性差。用表示S回/S总, S回 2 即:r
S总
r S回 / s总

观测值 观测值 观测值 观测值 观测值
yi yi yi yi yi
落在 区间 落在 区间 落在 区间 落在 区间 落在区间
y0 0.5 内的概率为38%

y 3 y 4
y 内的概率为68.3% y 2 内的概率为95.4%
内的概率为99.73% 内的概率为99.99
i i
3σ准则判据为:g y y 3 时,即认为 该数据可疑,应剔除。 b) 当剔除某一观测数据后,对余下的 n-1 个 数据重新计算 σ 及 y ,然后重复按上述 方法检验,直到所有观测数据的离差
i i
g
i
y y 3
i
均满足要求为止。 c)注意条件: 3σ准则是建立在n→∞的前提下,当n 有限或较小时,3σ准则不十分可靠,这 时应采用肖维涅准则。
第二章 回归模型
§2-1 回归分析的意义 一、概念:回归分析是处理变量之间相关 关系的一种数理统计方法,在生产和科学 实验中,某一客观现象的统一体中,其变 量往往客观上存在一定的关系,为了了解 事物的本质,往往需要找出描述这些变量 之间依存关系的数学表达式,这就是需要 采用回归分析进行处理。
例如:煤的灰分与密度之间就存 在着某种不确定的关系,其关系近似 成正比关系,根据实验数据可采用回 归分析求出其关系表达式。 变量之间关系可以分成二类:① 完全确定关系,例如欧姆定律;②另 一类为不确定关系;如上例,选矿生 产过程中就存在着大量的这种不确定 关系,变量之间这种不确定关系称为 相关关系,这种关系可利用数理统计 方法找到。
(2)肖维涅准则 a)肖维涅准则是按下式进行判断的: 当 g y y k 时,认为该数据可疑。 式中K为与观测次数n有关的参数。 并且,K值随着n的增大而增大。 b)当剔除掉某一数据以后,把剩下的观测 数据重新计算和检验,直至所有观测值 离差的绝对值小于Kσ为止。
i iห้องสมุดไป่ตู้
c)注意条件 当n<10时,使用该准则较勉强; 当 n≈185 时,肖维涅准则与 3σ 准则 相当; 当 n<185 时,肖维涅准则较 3σ 准则 窄 当 n>185 时,肖维涅准则较 3σ 准则 宽。
三、回归方程的预测值精度检验 寻求回归方程的目的是为了通过 x值来预测y值,但是,由于x与y之 间存在的是相关关系,所以由回归 方程计算得到的只能是观测值的平 均值。那么,实际的值y和 y 偏差有 多大,这就需要对回归方程的预测 精度进行检验。
三、回归方程的预测值精度检验 在一元线性回归方程中,x是确 定性变量,y是服从正态分布的随机 变量,并按正态分布规律波动,如果 能计算出波动的标准差,则回归方程 的预测精度就能估计出来。 由于剩余偏差平方和Q是随机因 素造成的,它排除了线性关系的影响。
i

i

i

i
i
同时可知: 离差平方和 G ( y y)
i 1 i n 2
× × × × × × × × × × × × ×
× ×
×
剩余平方和 Q ( y y )
i 1 i i
n

× ×
2
×
×××
0
回归平方和 U ( y y)
i 1 i
i
n

2
由散点图可知: y y ( y y ) ( y y)


S总,S回,S残的计算方法:
S总 ( yi y ) 2 L yy
S回 ( y i y) 2 (a bxi a b x) 2
i 1 i 1
n
i 1 n

n
b 2 ( xi x) 2 b 2 Lxx
i 1
n
L2 xy Lxx
i i
y a bx
式中: y为回归方程计算值,a,b为待 定系数(模型参数)


一、参数a,b的最小二乘法估计 1.统计分析: 对于上述的一组试验数据 (xi , yi) , i=1, 2, …, n。由数理统计知识得: 离差= y y 剩余偏差(残差)= y y 回归差= y y y —计算值; 其中:y —试验值; y —平均值。
如上所述,σ越小,则回归方程预测值越接近 实测值,预极就精确。因此,可以把剩余标准 差σ作为预极回归方程精度的标志。
例1 在选煤试验研究中,测得尾矿 产品的灰分与对应分选时的基元灰 分关系如下表所示,试建立它们的 预测模型,并进行方差分析。
x y 22 34 39 43 46 54 58 64 67 72 11 13 16 16 17 15 20 19 24 23
相关文档
最新文档