回归分析(2))回归方程的检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§ 2.4 回归方程的显著性检验——方差分析
由式(2.13)
S回 S剩 1 S总 S总
S剩 S回 1 S总 S总
∴
定义 R
S剩 1 S总
为复相关系数,显然
0 R1
。
R 越接近1,回归效果就越好。
§ 2.4 回归方程的显著性检验——方差分析
然而在实际工程计算中,当实验样本点较
小时,计算出的一般都较接近1,这给我们 判断所建的回归方程的回归效果是否显著 带来麻烦,因此在实际计算中应注意变量 个数与样本个数的适当比例,一般认为样 本个数至少应是变量个数的5到10倍。
§ 2.4 回归方程的显著性检验——F检验
由于在解决实际问题时,我们往往不能事先 断言变量 y 与变量 x1 , x2 ,, xm 之间是否确有线性 关系,在建立数学模型时,往往是先假定实际 问题可能具有线性性,由此建立起线性回归模 型。显然在这样的假设前提下所建立起的线性 回归模型到底能否代表实际问题,或者通俗地 说所建立的线性回归方程能否用于实际问题, 需要判定(检验),该如何检验呢?这是统计 学中假设检验问题。
§ 2.4 回归方程的显著性检验——F检验
具体操作该如何进行呢?我们是这样考虑的, y 如果某个自变量 对 x i的作用不显著,也就 y 是说 对 x不重要(或可有可无),则认为它 i i 前面的系数 应取零值,因此检验自变量x i是 否显著(重要),就是等价于检验假设
H 0 : i 0; H1 : i 0
2 i 1 i 1 i 1
n
n
§ 2.4 回归方程的显著性检验——方差分析
ˆ ˆ 其中, ( yi yi )( yi y ) 0 ,事实上,由式(2.8)
i 1 n
可知
y b0 b1 x1 b2 x2 bm xm
ˆ yi y b0 b1 xi 1 b2 x i 2 bm xim (b0 b1 x1 bm x m ) b1 ( xi 1 x1 ) b2 ( xi 2 x2 ) bm ( xim xm )
§ 2.4 回归方程的显著性检验——F检验 我们是这样考虑的,如果线性回归模型能代 表实际问题(也就是线性回归模型显著), 我们可以认为线性回归模型的系数 0 , 1 , 2 ,, m 不全为零;如果线性回归模型不显著,我们 认为线性模型系数 0 , 1 , 2 ,, m 全为零。于 是按统计假设检验原则提出假设:
表2.2
编 号
平炉炼钢过程的数据
x3
0 40 46 43 64 40 64 39 37 55 60 49 50 51 51 51 56 48 45 52 40 32 47 44 39
y
4.33 3.65 4.48 5.55 5.50 3.11 5.11 3.88 4.67 4.95 5.00 5.27 5.37 5.48 4.60 5.66 6.08 3.22 5.81 4.73 4.68 3.13 2.61 3.72 3.89
i Байду номын сангаас1
剩余平方和(或残差平方和),它是由试验 误差以及其他因素引起的。它的大小反映了 试验误差及其他因素对试验结果的影响程度, n。 1 m 其自由度为
§ 2.4 回归方程的显著性检验——方差分析
于是
S总 S回 S剩
(2.13)
由式(2.13),我们可对所建立的回归方程能否 代表实际问题作一个判断。这是因为在式(2.13) 中,当 确定时, 越小, 越大,则 就越 S总 S回 S回 S剩 接近 。于是,我们可用 S 是否趋近于1来判断回 回 S总 归方程的回归效果好坏。 S总
§ 2.4 回归方程的显著性检验及精度估计
此外,在检验得知线性回归方程是显著之后, 我们还可以进一步判断在线性回归方程中, y x1 , x2 ,是影响 的重要变量, , xm 哪些变量 哪些变量是不重要变量,由此分析可对回归 方程作更进一步简化,从而得到最优回归方 x1 , x2要 , xm , 程。这就是所谓的对每个变量 进行显著性检验问题。
式中, r 为进入回归模型的变量个数。
§2.5 线性回归模型预测精度估计 由统计学区间估计理论知,在随机变量 服从正态分布情况下,任一给定的自变 量值( x1 , x2 ,, xm ) ,所对应因变量 y的真值 y , ˆ ˆ ˆ 以95%的概率落在区间( y 2r剩 , y 2r剩 ), y ˆ 是 ( x , x ,, x ) 的回归值,即预测值 y 与真 ˆ 值 y 之差有95%的概率,使得 | y y | 2r剩 , 所以 r剩 越小其预测精度就越高。
§2.4.2 程序(略) §2.4.3 例题 例2.2 平炉炼钢过程的熔化期中,总的去碳量 y(t ) 与所加的两种矿料(天然矿石与烧结矿料) x2 x3 的量 , x1及熔化时间 有关,熔化时间愈长 则去碳量愈多。经实测某平炉的49组数据见表 x 2.2,求 y 对 x1、x2、 3 的线性回归方程。
§ 2.4 回归方程的显著性检验——方差分析
ˆ 设 y b0 b1 x1 b2 x2 bm xm 是已求得的 ˆ 回归方程。 y i 是第 i 个试验点 ( xi 1 , xi 2 ,, xim ) 代 入回归方程所求的回归值。 这里称试验值(观察值)y i 与其平均值 1 n y yi 的离差平方和为总离差平方和。记为 n i 1
i 0,1,, m
为此,应用统计量
bi2 / cii Fi ~ F (1, n m 1) S剩 /(n m 1)
§ 2.4 回归方程的显著性检验——F检验
c 其中,ii 为式(2.10)中 S ( S ) C (C ) 的对角线上 第 i 个元素。 对于给定的检验水平 ,查 F分布表可得临界值 F (1, n m 1) ,并由F 检验作出如下判断:如果由统 计量 Fi 计算所得的数值 Fi F (1, n 1) 则拒绝 H 0 ,即认为 x i 对 y 是重要变量,应留在模型中; 如果 Fi F (1, n m 1),则在水平 之下接受H 0 ,认 为 y对x i不重要,可从模型中剔除。 一般一次 F 检验只剔除一个自变量,且这个自变量 F 是所有不显著自变量中 值最小值,然后再建立回归模 型,并继续进行检验,直到建立的回归模型及各个自变 量均显著为止。
§ 2.4 回归方程的显著性检验——F检验 在多元线性回归模型中,我们并不满足于线 性回归方程是显著的这个结论。因为回归方程显 著并不意味着每个自变量 x1 , x2 ,, xm 对因变量 y 的影响都重要,也就是并不能说这 m 个变量在模 型中都重要。换句话说模型中 m个自变量中有重 要的,也有不重要的自变量,一种自然的想法就 是在模型中保留重要变量,剔除不重要或者可有 可无的变量,按照这种思想来建立模型,实际上 是对原线性回归模型进行精简。
H 0 : 0 0, 1 0,, m 0; H1 : i 不全为零,(i 0,1,, m )
为此应用统计量
S回 / m F ~ F ( m , n m 1) S剩 /(n 1)
§ 2.4 回归方程的显著性检验——F检验
对于给定检验水平 ,查 F 分布表可得临界 值 F ( m , n m 1),并由 F 检验,作出如下判断: 如果由统计量 F 计算所得的数值有 F F ,则 表示在检验水平下,拒绝 H 0 ,从而认为线性回 归模型有显著意义,即线性回归模型能代表实 际问题,工程中可大胆使用该模型。 如果 F F ,则在检验水平 下,接受 H 0,即 认为线性回归模型不显著,即线性回归模型不 能代表实际问题,该模型在工程实际问题中不 能使用。
1 2 m
YY——X代入由B为回归系数的方程后得到的 因变量矩阵; U——回归平方和; Q——剩余平方和; R——复相关系数; F——F检验值,即回归方差与剩余方差之比; SS——剩余标准差; Y1,Y2,Y3,f1,f2——中间变量。
2.Matlab函数: inv()——矩阵求逆; mean()——求均值; sum()——求和; sqrtm()——开方。
ˆ ˆ S总 ( y i y ) ( y i y i y i y ) 2
2 i 1 n i 1 n n
ˆ ˆ [( y i y i ) ( y i y i )]2
i 1 n
ˆ ˆ ˆ ˆ ( yi y i ) 2 ( yi y i )( y i y ) ( y i y ) 2
i 1 i 1
n
n
§ 2.4 回归方程的显著性检验——方差分析
又由式(2.5)知,上式最后等式右端每一项 均等于0,于是
( y
i 1 n
n
i
ˆ ˆ yi )( yi y ) 0
n
因此
ˆ ˆ S总 ( y i y ) 2 ( y i y i ) 2
i 1 i 1
1 1 ij ij
§2.5 线性回归模型预测精度估计
通过对模型及变量的显著性检验后,我们可 用所建立的回归模型进行预测或控制。但用模 型进行预测,所得结果的精度如何?即真值 (实际值)与模型预测值的误差有多大?这是 我们关心的问题,应该作出估计,为此给出剩 余标准差
r剩 S剩 /(n r 1)
§ 2.4 回归方程的显著性检验及精度估计
回归方程的显著性检验
原因:杂乱无序,无相关关系的散点也可以拟 合成一条直线或曲线,但无意义。
内容:回归方程拟合度的检验 回归方程线性关系显著性检验 回归变量的显著性检验
§ 2.4 回归方程的显著性检验及精度估计
模型合适吗? 在解决工程实际问题时,一般说来,事 y x1 先并不能断言 与 , x2 ,, xm 间一定具有线 性关系。因此,当我们按线性回归模型来处 x1 , y 理后,所得到的 关于x2 ,, xm 的线性回 归方程是否能代表实际问题呢?这就是统计 上常说的假设检验问题,即要检验线性回归 方程是否有显著意义。如果显著,我们就可 以用线性回归模型代表实际问题,否则该模 型不能代表实际问题。
n n
( y
i 1
i
ˆ ˆ ˆ yi )( yi y ) ( yi yi )[b1 ( xi 1 x1 ) bm( xim xm )]
i 1
ˆ ˆ b1 ( yi yi )( xi 1 x1 ) bm ( yi yi )( xim xm )
(2.12)
式(2.12)中,记 方和。
ˆ S回 ( yi y ) 2
i 1
n
称为回归平
§ 2.4 回归方程的显著性检验——方差分析 它反映了自变量 x1 , x2 ,, xm 的变化所引起的 对 y 的波动。其自由度为 m 。 n 式(2.12)中,记 称为 2 ˆ
S剩 ( yi yi )
x1 x 2
2 7 5 12 l 3 3 6 7 0 3 0 8 6 0 3 7 16 6 0 9 4 0 9 2 18 9 14 3 20 12 17 5 8 23 16 18 4 14 21 14 12 0 16 15 0 6 17 0 16
编 号
26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
S总 ( y i y ) 2
i 1
n
§ 2.4 回归方程的显著性检验——方差分析
S总
( yi y ) 2
i 1
n
y X
§ 2.4 回归方程的显著性检验——方差分析 这里 S总 作为样本函数即统计量, 其自由度为 n 1 。如果观测值给定, S总 是确定的。现将 S总 进行分解。