线性回归分析及应用7-8
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8.3 回归协变量的选择 通常在作回归分析时,根据问题本身的 专业理论及有关经验,常常把各种与响应 变量有关或可能有关的协变量引入到回归 模型。其结果是把一些对响应变量影响很 小,甚至无影响的协变量都选入回归模型 中,不但计算量大,而且估计和预测的精 度也会下降。
此外, 在一些情况下, 某些协变量观测数 据的获得代价昂贵, 若这些协变量对响应变 量影响很小或根本没有影响, 若不加选择的 引进回归模型, 势必造成观测数据收集和模 型应用的费用不必要的增大。 因此, 对模型协变量的精心选择是十分有 必要的。 设响应变量 y 以及一系列的协变量 x1 ,, xs 以及这些量的 n 次观测值,要识别 哪些协变量 x j 对响应变量 y 是重要的。
好处在于: 1. R 可以分析协变量之间的相关关系; 2. 消 去 了 单 位 和 取 值 范 围 的 差 异 ( R 无 量 纲 )。
1in , 用 Z 作为设计矩阵, 此时分量形式为: xi , p 1 x p 1 ( 0 ) xi1 x1 ( 0 ) (0) yi 1 p 1 ei 。 s1 s p 1
SS R 定义 8.3.1: 令R SST
2
~ ˆ Y I X c
( y y)
i 1 i
n
, 称 R
2
2
为决定系数(coefficient of determination)。 注 1:在线性回归分析中, I 是关注的焦 点。一般线性模型总和是Y Y ,在回归分析 2 中常数项的回归平方和为ny , 因此这里总 和实际上是去掉常数项的回归平方和,即 2 SST Y Y ny 。
i 1
恰好为R ,所以 R 称为(样本)复相关系数。 2 R n p 2 F F 注 4: 统计量与 R 的关系: 。 2 1 R p 1
若回归协变量个数固定时, 则应选择 R 大的那个回归。 但当协变量个数不一样时, 2 用 R 来选择协变量就失效了,因为全部变 2 量都作为协变量, R 的值将达到最大。 2 2 Adjusted R criterion (调整 R 准则): 回 归协变量集的选择应使得 Adj R 达到最 n 1 2 2 (1 R ) , p 为协 大,其中 Adj R 1 n p 变量的个数(含常数项)。
ˆ Y X n p
2
。
定理 8.1.1:在上述假定下, 2 2 2 1 ˆ ˆ ˆ ; 1. E ,Var ( ) ( X X ) , E ˆ 是其唯一 c 2. (Gauss-Markov 定理)对c , 的 BLUE;
若进一步假定误差为正态分布,则 ˆ 是其唯一的 MVUE; 3.对c ,c 2 (n p ) ˆ 2 1 2 ˆ ˆ ~ 4. ~ N p , ( X X ) , , n p 2 2 ˆ 独立。 与 在线性回归中,主要感兴趣的是回归系 数 I 的 估 计 , 常 数 项 0 单 独 考 虑 。 令 ~ En1 1,,1 , X n p En X n( p 1) ,则模型 ~ 为Y 0 En X I e 。
于是在整体的回归方程显著性检验被拒绝后还需对每个自变量逐一地作显著性检验即对固定的某个无显著影响因而可以将其从回归方程中剔除此时对剩余协变量重新作回归回归系数的估计也随之变化然后再检验剩余回归系数是否为零再剔除经检验对无显著影响的协变量这样的过程一直下去
第八章:线性回归分析 将前面几章关于线性模型的理论用于线 性回归模型,在线性回归分析中,通常设 计矩阵是满秩的,即 rank ( X n p ) p ,此时 未知参数 是可估的。 8.1 参数 LS 估计 设线性回归模型: yi 0 1 xi1 p 1 xi , p 1 ei
写成矩阵形式,令
y1 Y y n
,
0 e1 0 1 e , ,则 I e n p 1
1 x11 1 x21 X 1 x n1
解得
~ ~ 1 ~ ˆ ˆ y , I ( X c X c ) X cY ,
1/ n 0 ˆ 2 Cov 。 ~ ~ 1 ˆI Xc) 0 (Xc 中心化的线性模型,常数项由样本均值估
计,回归系数 I 的估计等价于线性回归模 ~ 型Y X c I e的参数估计。若误差正态分
x1 ,, x p 1这个整体,即检验假设
H 0 : 1 p 1 0 。
上检验称为回归方程的显著性检验。若假设 H 0 被接受,意味着相对误差 e 而言,所有协
变量对响应变量 Y 的影响是不重要的。 将模型中心化,写成矩阵形式: ~ ~ 2 Y En X c I e En X c e , e ~N (0, I n ) 。 I 要检验的假设为 H 0 : H 0 ,其中 H ( p 1) p 0 I p 1 。 I
否则接受H 0 。 当回归方程的显著性检验结果是拒绝原 假设时,仅说明至少有一个 j 0 ,并不排 除响应变量 y 不依赖其中某些协变量。
于是在整体的回归方程显著性检验被拒 绝后还需对每个自变量逐一地作显著性检 验, 即对固定的某个i , 作如下假设检验 H i :
i 0 。
e ~ N (0, I n ) , 对线性模型Y X e , 估 2 ˆ Y X 2 1 2 ˆ ~ N ( , ( X X ) ) ˆ 计 , ,令 p n p 1 ˆi ~ N ( i , 2cii ) 。 C (cij ) p p ( X X ) ,则
n 1 1~ 1~ ~ 2 X c (Y yEn ) , X c X c , ( yi y ) 分别作 n i 1 n n Var ( x) , Var ( y ) 相应的样本估计, 为Cov ( x, y ) , 这样得到复相关系数 的估计 ~ ˆ Y I X c , ˆ n 2 ( yi y )
Z 0。 zij 是将 xij 中心化后再标准化,易见 En
令 R ( rij ) ( p 1)( p 1) Z Z ,则
rij
(x
k 1
n
ki
xi )( xkj x j ) si s j
若把协变量看成随机的, 则 rij 正好是协变量
xi 与 x j 的样本相关系数。中心化后标准化的
注
2 : 由 等 式 SST SS R SS E ,
2
2
2 2 ˆ 0 R 1 ( SS E Y X ) 因此 。 R 反映了
回归和在总和所占的比例, R 越大,表示 回归协变量解释的越好。 注 3:将协变量看成随机的,则 y 与 ( x1 ,, x p 1 ) 的 复 相 关 系 数 (multiple correlation coefficient)定义为 1 Cov( y, x)Var ( x) Cov( x, y ) Var ( y )
,则中心化后模型分量形式为:
其中 0 x I ,写成矩阵形式为 ~ 2 Y En X c I e , Ee 0 , Cov(e) I n , ~ ~ En E n ~ 其中 X c I n X 。X c 称为中心化了的 n ~ 设计矩阵, 易见 X c En 0。 此时线性回归模型 称为中心化的线性回归模型。正规方程: 0 ny n ~ ~ ~ 0 X c X c I X cY
ˆI 独立。 布,则中心化后的模型估计 ˆ与
定理 8.1.2:中心化后给出的回归系数估计 与没有中心化时给出的估计是一致的。 除了中心化,对协变量经常作另一种处理。 令
s ( xij x j )
2 j i 1
n
2
, 1 j p 1 ,
n xij x j 2 Z zij n( p 1),其中 zij ,则 zij 1。 sj i 1
这 里
(0)
,
(0) i
si i ,1 i p 1 。 记
(0) I
(0) 1
,,
(0) p 1
(0)
, ,写成矩阵形式:
(0) I
Y En Z
e,
最小二乘估计 (0) (0) ˆ ˆi ,1 i p 1。 ˆ y , i si
该假设可以由F 检验来给出拒绝域。具体地 ~ ˆ Y /( p 1) I X c F , ~ 2 ˆI X c Y ) /( n p ) (Y Y ny 在 假 设 H 0 下 , F ~ Fp 1,n p , 故 给 定 水 平
(0,1) ,当 F Fp 1,n p ( ) 时拒绝假设H 0 ,
RMS p criterion( 平均残差平方和准则,
residual mean squares criterion):回归协变 量集的选择应使 RMS p 达到最小。 令s
2 y
( y y)
i 1 i
n
2
n 1 RMS p 2 2 RMS Adj R , 故 准则与 Adj R 1 p 2 sy
x1, p 1 x2, p 1 xn , p 1
,
Y X e
2
假设 Ee 0 ,Cov(e) I n ,rank ( X n p ) p 。
I 称为回归系数, 0 称为常数项(截距), 最小
1 2 ˆ 二乘估计 ( X X ) X Y ,令 ˆ
2
2
同样的道理,若回归协变量个数固定时, 则应选择误差平方和SS E 小的那个回归。但 当协变量个数不一样时,用SS E 来选择协变
量就失效了,因为全部变量都作为协变量, 此时 SS E 的值将达到最小,故必须对协变量 的个数加一个“惩罚因子” 。令 2 Y X SS E 2 RMS p ˆ n p n p
8.2 显著性检验 对回归系数作出估计后就可以得到经验回 归方程。所建立的经验回归方程是否真正地 刻画了响应变量与协变量之间的实际依赖关 系呢? 对线性回归模型:1 i n , 2 yi 0 1 xi1 p 1 xi , p 1 ei ,ei ~N (0, ) 。 首先考虑响应变量 y 是否线性地依赖协变量
2
在假设 H i 下, ti
cii ˆ
ˆi
~ tn p ,故给定水平
,当 ti tn p ( / 2) 时拒绝 H i ,否则接受 H i 。
若经过检验,接受原假设 H i : i 0 ,认 为协变量 xi 对响应变量 y 无显著影响, 因而 可以将其从回归方程中剔除, 此时 y 对剩余 协变量重新作回归,回归系数的估计也随之 变化,然后再检验剩余回归系数是否为零, 再剔除经检验对 y 无显著影响的协变量,这 样的过程一直下去。
在实际应用中,有时要对数据中心化。所谓 中心化就是把自变量的度量起点移至到 n 次试验中所取值的中心点处。记
xj
x
i 1
n
ij
n
n i 1 i
,1 j p 1 , x ( x1 ,, x p 1 ) ,
y
y
n yi 1 ( xi1 x1 ) p 1 ( xi , p 1 x p 1 ) ei