一元回归分析方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[
n ( ∑ 1 i=1
n
−
xi − x ¯ x ¯ yi , lxx
Байду номын сангаас
)
n n 1 ∑ 1 ∑ (xi − x ¯)yi = (xi − x ¯)E (yi ) lxx i=1 lxx i=1
]
n n 1 ∑ β1 ∑ = (xi − x ¯)(β0 + β1 xi ) = (xi − x ¯)(xi − x ¯ ) = β1 , lxx i=1 lxx i=1
通过散点图可以发现这些点基本上在一条直线附近, 也即可以认为水的沸点和大气压、烘 干温度 x 和板的强度 y 之间近似有线性关系. 当两个变量间存在线性相关关系时, 我们常常希望建立两者之间的定量关系表达式, 这 就是两个变量间的一元线性回归方程. 下面假定 x 是一般变量(称为自变量), y 是随机变量(称为因变量), 对于给定的 x 值, y 的
n ( ∑ 1 i=1
xi − x ¯ − x ¯ n lxx
)2
(
D(yi ) =
1 x ¯2 + σ2. n lxx
)
) n ( 1 ∑ ¯ x ¯ 1 xi − x ˆ ˆ − x ¯ (xi − x ¯)D(yi ) = − σ 2 . cov (β0 , β1 ) = lxx i=1 n lxx lxx
n ∑ i=1
(xi − x ¯)2 .
3
3.2
标 准 化 模 型 的 LSE
由于在实际问题中自变量的量纲对回归系数的值有很大影响. 为消除量纲的影响, 可以 通过对变量标准化方法达到这目的. 令 y−y ¯ xi − x ¯ ′ yi = √ , x′i = √ , lxx lyy 则回归模型变为:
2
值可能不同, 变量 y 的均值是 x 的线性函数, 即 E (y ) = β0 + β1 x. (1)
其中 β0 , β1 是未知参数, 这就是变量 x, y 的相关关系表达式, 也称为回归函数, 称 β0 , β1 为 ˆ0 , β ˆ0 是参数 β0 , β1 的估计, 则称 y ˆ0 + β ˆ1 x 为 回归系数, 需要用获得的数据去估计. 如果 β ˆ=β 变量 y 关于变量 x 的一元经验线性回归方程, 简称一元线性回归方程. (1)式也可写成: y = β0 + β1 x + ε. 其中 ε 是随机误差, 满足 Eε = 0, Dε = σ 2 . 为了估计未知参数 β0 , β1 , 对变量 (x, y ) 进行 n 次独立观察, 得到 n 对观察值 (xi , yi ), (i = 1, 2, · · · , n), 这 n 对观察值之间的关系符合模型:
yi = β0 + β1 xi + εi ,
εi i.i.d. N (0, σ 2 )
(2)
这便是一元线性回归模型.
3
3.1
最 小二 乘 估 计(least squared estimation, LSE)
原 始 模 型 的 LSE
求参数 β1 , β2 估计的一种直观想法是要求 (xi , yi ) 与直线上点 (xi , y ˆi ) 的偏离越小越好, ˆ0 + β ˆ1 x, 即要求参数 β0 , β1 估计 β ˆ0 , β ˆ1 使得 其中 y ˆ=β Q(β0 , β1 ) =
例 2 用木屑制造木板一般通过以下步骤, 首先木屑和胶水混合, 制成所需要的形状, 然 后烘干. 制造商感兴趣的是烘干温度 x 和板的强度 y 之间关系. 为了研究这种关系, 在不同 温度下制造若干产品, 测量其强度, 有关数据见表 2. 表2: 试验数据 温度 40 40 40 45 45 45 强度 66.3 64.84 64.36 69.70 66.26 72.06 温度 50 50 50 55 55 55 强度 73.23 71.40 68.85 75.78 72.57 76.64 温度 60 60 60 65 65 65 强度 77.37 78.87 75.94 78.82 77.13 77.09
[
ˆ1 ) = D D(β
n n 1 ∑ 1 ∑ (xi − x ¯)yi = 2 (xi − x ¯)2 D(yi ) lxx i=1 lxx i=1
]
n 1 ∑ 1 2 = 2 (xi − x ¯ )2 σ 2 = σ . lxx i=1 lxx
4
ˆ0 ) = E (¯ ˆ1 x E (β y−β ¯ ) = β0 + β1 x ¯ − β1 x ¯ = β0 , ˆ0 ) = D(β
( )
ˆ0 ) = D(β 证明:注意到
1 x ¯2 ¯ 2 ˆ1 ) = 1 σ 2 , cov (β ˆ0 , β ˆ1 ) = − x σ 2 , D (β + σ . n lxx lxx lxx
n ∑ ˆ1 = lxy = 1 β (xi − x ¯)yi , lxx lxx i=1
和 ˆ0 = y ˆ1 x β ¯−β ¯= 则 ˆ1 ) = E E (β
′ yi = γ0 + γ1 x′i + ε′i
利用最小二乘法得参数 γ0 , γ1 的估计为: γ ˆ0 = 0, γ ˆ1 = √ lxy lxx lyy .
可见参数 γ1 的估计恰好是变量 x, y 之间的相关系数. 在统计软件包中这些估计称作标准化 系数.
4
估计量的性质
ˆ0 , β ˆ1 是 β0 , β1 的无偏估计, 即 E (β ˆ0 ) = β0 , E (β ˆ1 ) = β1 , 且 性质⒈ 估计量 β
但如果不存在这种关系, 那么求得的回归方程是毫无意义的. 在一元线性回归中, 我们 知道可以画”散点图”去观察 y 与 x 的关系, 但仍需要从理论上给出定量描述, 从统计上 讲, β1 是 E (y ) 随 x 线性变化的变化率, 若 β1 = 0, 则 E (y ) 实际上并不随 x 线性变化, 仅 当 β1 ̸= 0 时 E (y ) 才随 x 线性变化, 也就是这时一元线性回归方程才有意义, 因此对回归方 程作显著性检验就是要检验假设 H0 : β1 = 0 是否为真. 为检验假设 H0 是否为真, 可以从 分析引起 y 取值不同的原因着手. y 取值不同的原因不外乎二个, 一是由于假设 H0 不真引 起的, 这意味着 E (y ) 随 x 线性变化, 二是由于其它一切因素的影响造成的. 如果前一个是 主要原因, 则 β1 ̸= 0, 从而方程有意义. 为此需要把这两个原因引起 y 取值的波动大小从其 总的波动中分解出来. y 取值的波动可用其偏差平方和表示: SST = 它可分解为:
如果对给定 x1 , x2 , x3 能唯一确定 y , 这种模型是确定性模型. 如果对给定 x1 , x2 , x3 不能 唯一确定 y , 这种模型是不确定性模型. 在回归分析中研究的主要问题是: 1. 确定 y 与 x1 , x2 , · · · , xp 间的定量关系表达式, 这种表达式称为回归方程; 2. 对求得回归方程的可信度进行检验; 3. 判断自变量对因变量有无显著影响; 4. 利用回归方程进行预测和控制.
一元回归分析
1 引言
在一些实际问题中, 经常要研究变量之间的关系, 变量之间的关系一般有二类:一类是 变量之间有确定性关系, 它们可以用函数形式表示,例如欧姆定律 U = IR , 一旦其中二个 变量已知, 则另一个变量也唯一确定; 另一类是变量之间有一种趋势性关系, 即在一次观察 中, 变量之间并不能在某种函数关系下建立对应关系. 但如果对所研究的事物进行大量的试 验和观察, 变量之间的数量关系会表现出很强的相随变动规律性, 称这种变量之间关系为 相关关系. 例如人的身高与体重之间有一种趋势性关系, 即它们之间有相关关系; 钢材的消 耗量与经济发展速度之间关系也是相关关系. 为研究这类变量之间关系, 一般需要通过大量 试验或观察获得数据, 用统计方法去寻找它们间关系, 这种关系反映了变量间的统计规律, 回归分析是一种研究这类统计规律的方法. 在回归分析中, 一般把变量分成二类, 一类是因 变量(response variable or dependent variable), 它们通常是实际问题中所关心的指标, 一般 用 y 表示, 而把影响因变量取值的一些变量称为自变量(independent variables, predictors), 它们一般用 x1 , x2 , · · · , xp 表示. 上述说法可以用一个简单的图形说明: 过 x1 −→ x2 −→ x3 −→ −→ y 程
n ∑ i=1
(yi − β0 − β1 xi )2
达到最小. 称满足上式的估计为最小二乘估计, 记作LSE. 容易求得使 Q(β0 , β1 ) 达到最小的 解为: ˆ1 = lxy , β ˆ0 = y ˆ1 x β ¯−β ¯, lxx 其中 lxy =
n ∑ i=1
(xi − x ¯)(yi − y ¯), lxx =
性质⒉ 若进一步假定 ε1 , ε2 , · · · , εn 服从正态分布 N (0, σ 2 ), 则有 x ¯2 1 ˆ ˆ1 服从 N β1 , 1 σ 2 . β0 服从 N β0 , + σ2 , β n lxx lxx
[ ( ) ] [ ]
5
回归方程的显著性检验
从回归系数的LSE的公式可知, 在计算过程中并不一定要知道 y 与 x 是否有线性关系,
n ∑ i=1
(yi − y ¯)2
SST = =
n ∑ i=1 n ∑ i=1
[(yi − y ˆi ) + (ˆ yi − y ¯)]2 (yi − y ˆi )2 +
n ∑ i=1
(ˆ yi − y ¯)2
= ˆ SSE + SSR 又 SSR =
n ∑ i=1
(ˆ yi − y ¯)2 = 5
n ∑ i=1
ˆ0 + β ˆ1 xi − y (β ¯)2
= 所以
n [ ∑ i=1
ˆ1 (xi − x β ¯)
[
]2
ˆ2 lxx , =β 1
]
ˆ2 lxx ) = l2 D(β ˆ1 ) + (E β ˆ1 )2 = σ 2 + β 2 lxx . E (SSR ) = E (β 1 xx 1 这表明当 H0 为真时, E (SSR ) = σ 2 , 否则除了误差外还反映了 β1 ̸= 0 所引起的差异, 称 SSR 为回归平方和. 又可以证明 E (SSE ) = (n − 2)σ 2 , 这表明从平均意义上讲 SSE 只反映了随机误差的影响, 故称它为残差平方和. 从上式得 σ ˆ2 = 是 σ 2 的无偏估计. 当 H0 为不真时, E (SSR ) > σ 2 , 因此从直观上考虑, 可用下面比值来检验假设 H0 : F = 可以证明: 当 H0 为真时, SSR SSE 服从 χ2 (1), 服从 χ2 (n − 2), 2 σ σ2 且 SSR /σ 2 与 SSe /σ 2 相互独立, 从而当 H0 为真时, F 服从 F (1, n − 2), 所以假设 H0 的拒 绝域为: F > Fα (1, n − 2). 检验结果可以列成方差分析表. 表3: 方差分析表 来 源 模 型 残 差 总偏差 平方和 SSR SSE SST 自由度 1 n−2 n−1 均方和 M SA = SSA M SE = SSE /(n − 2) F值 F = M SA /M SE SSR SSE /(n − 2) SSE n−2
1
2
模型
在讲具体的模型之前, 我们先看二个例子. 例1 Forbes 是一个物理学家, 他对大气压和水的沸点之间关系感兴趣, 研究的目的是
通过测量水的沸点来估计所处位置的海拔高度(因为海拔高度可以由大气压确定). 为此他 收集了 17 组数据, 详见表 1. 表1: 试验数据 沸点 194.5 194.3 197.9 198.4 199.4 199.9 大气压 20.79 20.79 22.40 22.67 23.15 23.35 沸点 200.9 201.1 201.4 201.3 203.6 204.6 大气压 23.89 23.99 24.02 24.01 25.14 26.57 沸点 209.5 208.6 210.7 211.9 212.2 大气压 28.49 27.76 29.04 29.88 30.06
n ( ∑ 1 i=1
n
−
xi − x ¯ x ¯ yi , lxx
Байду номын сангаас
)
n n 1 ∑ 1 ∑ (xi − x ¯)yi = (xi − x ¯)E (yi ) lxx i=1 lxx i=1
]
n n 1 ∑ β1 ∑ = (xi − x ¯)(β0 + β1 xi ) = (xi − x ¯)(xi − x ¯ ) = β1 , lxx i=1 lxx i=1
通过散点图可以发现这些点基本上在一条直线附近, 也即可以认为水的沸点和大气压、烘 干温度 x 和板的强度 y 之间近似有线性关系. 当两个变量间存在线性相关关系时, 我们常常希望建立两者之间的定量关系表达式, 这 就是两个变量间的一元线性回归方程. 下面假定 x 是一般变量(称为自变量), y 是随机变量(称为因变量), 对于给定的 x 值, y 的
n ( ∑ 1 i=1
xi − x ¯ − x ¯ n lxx
)2
(
D(yi ) =
1 x ¯2 + σ2. n lxx
)
) n ( 1 ∑ ¯ x ¯ 1 xi − x ˆ ˆ − x ¯ (xi − x ¯)D(yi ) = − σ 2 . cov (β0 , β1 ) = lxx i=1 n lxx lxx
n ∑ i=1
(xi − x ¯)2 .
3
3.2
标 准 化 模 型 的 LSE
由于在实际问题中自变量的量纲对回归系数的值有很大影响. 为消除量纲的影响, 可以 通过对变量标准化方法达到这目的. 令 y−y ¯ xi − x ¯ ′ yi = √ , x′i = √ , lxx lyy 则回归模型变为:
2
值可能不同, 变量 y 的均值是 x 的线性函数, 即 E (y ) = β0 + β1 x. (1)
其中 β0 , β1 是未知参数, 这就是变量 x, y 的相关关系表达式, 也称为回归函数, 称 β0 , β1 为 ˆ0 , β ˆ0 是参数 β0 , β1 的估计, 则称 y ˆ0 + β ˆ1 x 为 回归系数, 需要用获得的数据去估计. 如果 β ˆ=β 变量 y 关于变量 x 的一元经验线性回归方程, 简称一元线性回归方程. (1)式也可写成: y = β0 + β1 x + ε. 其中 ε 是随机误差, 满足 Eε = 0, Dε = σ 2 . 为了估计未知参数 β0 , β1 , 对变量 (x, y ) 进行 n 次独立观察, 得到 n 对观察值 (xi , yi ), (i = 1, 2, · · · , n), 这 n 对观察值之间的关系符合模型:
yi = β0 + β1 xi + εi ,
εi i.i.d. N (0, σ 2 )
(2)
这便是一元线性回归模型.
3
3.1
最 小二 乘 估 计(least squared estimation, LSE)
原 始 模 型 的 LSE
求参数 β1 , β2 估计的一种直观想法是要求 (xi , yi ) 与直线上点 (xi , y ˆi ) 的偏离越小越好, ˆ0 + β ˆ1 x, 即要求参数 β0 , β1 估计 β ˆ0 , β ˆ1 使得 其中 y ˆ=β Q(β0 , β1 ) =
例 2 用木屑制造木板一般通过以下步骤, 首先木屑和胶水混合, 制成所需要的形状, 然 后烘干. 制造商感兴趣的是烘干温度 x 和板的强度 y 之间关系. 为了研究这种关系, 在不同 温度下制造若干产品, 测量其强度, 有关数据见表 2. 表2: 试验数据 温度 40 40 40 45 45 45 强度 66.3 64.84 64.36 69.70 66.26 72.06 温度 50 50 50 55 55 55 强度 73.23 71.40 68.85 75.78 72.57 76.64 温度 60 60 60 65 65 65 强度 77.37 78.87 75.94 78.82 77.13 77.09
[
ˆ1 ) = D D(β
n n 1 ∑ 1 ∑ (xi − x ¯)yi = 2 (xi − x ¯)2 D(yi ) lxx i=1 lxx i=1
]
n 1 ∑ 1 2 = 2 (xi − x ¯ )2 σ 2 = σ . lxx i=1 lxx
4
ˆ0 ) = E (¯ ˆ1 x E (β y−β ¯ ) = β0 + β1 x ¯ − β1 x ¯ = β0 , ˆ0 ) = D(β
( )
ˆ0 ) = D(β 证明:注意到
1 x ¯2 ¯ 2 ˆ1 ) = 1 σ 2 , cov (β ˆ0 , β ˆ1 ) = − x σ 2 , D (β + σ . n lxx lxx lxx
n ∑ ˆ1 = lxy = 1 β (xi − x ¯)yi , lxx lxx i=1
和 ˆ0 = y ˆ1 x β ¯−β ¯= 则 ˆ1 ) = E E (β
′ yi = γ0 + γ1 x′i + ε′i
利用最小二乘法得参数 γ0 , γ1 的估计为: γ ˆ0 = 0, γ ˆ1 = √ lxy lxx lyy .
可见参数 γ1 的估计恰好是变量 x, y 之间的相关系数. 在统计软件包中这些估计称作标准化 系数.
4
估计量的性质
ˆ0 , β ˆ1 是 β0 , β1 的无偏估计, 即 E (β ˆ0 ) = β0 , E (β ˆ1 ) = β1 , 且 性质⒈ 估计量 β
但如果不存在这种关系, 那么求得的回归方程是毫无意义的. 在一元线性回归中, 我们 知道可以画”散点图”去观察 y 与 x 的关系, 但仍需要从理论上给出定量描述, 从统计上 讲, β1 是 E (y ) 随 x 线性变化的变化率, 若 β1 = 0, 则 E (y ) 实际上并不随 x 线性变化, 仅 当 β1 ̸= 0 时 E (y ) 才随 x 线性变化, 也就是这时一元线性回归方程才有意义, 因此对回归方 程作显著性检验就是要检验假设 H0 : β1 = 0 是否为真. 为检验假设 H0 是否为真, 可以从 分析引起 y 取值不同的原因着手. y 取值不同的原因不外乎二个, 一是由于假设 H0 不真引 起的, 这意味着 E (y ) 随 x 线性变化, 二是由于其它一切因素的影响造成的. 如果前一个是 主要原因, 则 β1 ̸= 0, 从而方程有意义. 为此需要把这两个原因引起 y 取值的波动大小从其 总的波动中分解出来. y 取值的波动可用其偏差平方和表示: SST = 它可分解为:
如果对给定 x1 , x2 , x3 能唯一确定 y , 这种模型是确定性模型. 如果对给定 x1 , x2 , x3 不能 唯一确定 y , 这种模型是不确定性模型. 在回归分析中研究的主要问题是: 1. 确定 y 与 x1 , x2 , · · · , xp 间的定量关系表达式, 这种表达式称为回归方程; 2. 对求得回归方程的可信度进行检验; 3. 判断自变量对因变量有无显著影响; 4. 利用回归方程进行预测和控制.
一元回归分析
1 引言
在一些实际问题中, 经常要研究变量之间的关系, 变量之间的关系一般有二类:一类是 变量之间有确定性关系, 它们可以用函数形式表示,例如欧姆定律 U = IR , 一旦其中二个 变量已知, 则另一个变量也唯一确定; 另一类是变量之间有一种趋势性关系, 即在一次观察 中, 变量之间并不能在某种函数关系下建立对应关系. 但如果对所研究的事物进行大量的试 验和观察, 变量之间的数量关系会表现出很强的相随变动规律性, 称这种变量之间关系为 相关关系. 例如人的身高与体重之间有一种趋势性关系, 即它们之间有相关关系; 钢材的消 耗量与经济发展速度之间关系也是相关关系. 为研究这类变量之间关系, 一般需要通过大量 试验或观察获得数据, 用统计方法去寻找它们间关系, 这种关系反映了变量间的统计规律, 回归分析是一种研究这类统计规律的方法. 在回归分析中, 一般把变量分成二类, 一类是因 变量(response variable or dependent variable), 它们通常是实际问题中所关心的指标, 一般 用 y 表示, 而把影响因变量取值的一些变量称为自变量(independent variables, predictors), 它们一般用 x1 , x2 , · · · , xp 表示. 上述说法可以用一个简单的图形说明: 过 x1 −→ x2 −→ x3 −→ −→ y 程
n ∑ i=1
(yi − β0 − β1 xi )2
达到最小. 称满足上式的估计为最小二乘估计, 记作LSE. 容易求得使 Q(β0 , β1 ) 达到最小的 解为: ˆ1 = lxy , β ˆ0 = y ˆ1 x β ¯−β ¯, lxx 其中 lxy =
n ∑ i=1
(xi − x ¯)(yi − y ¯), lxx =
性质⒉ 若进一步假定 ε1 , ε2 , · · · , εn 服从正态分布 N (0, σ 2 ), 则有 x ¯2 1 ˆ ˆ1 服从 N β1 , 1 σ 2 . β0 服从 N β0 , + σ2 , β n lxx lxx
[ ( ) ] [ ]
5
回归方程的显著性检验
从回归系数的LSE的公式可知, 在计算过程中并不一定要知道 y 与 x 是否有线性关系,
n ∑ i=1
(yi − y ¯)2
SST = =
n ∑ i=1 n ∑ i=1
[(yi − y ˆi ) + (ˆ yi − y ¯)]2 (yi − y ˆi )2 +
n ∑ i=1
(ˆ yi − y ¯)2
= ˆ SSE + SSR 又 SSR =
n ∑ i=1
(ˆ yi − y ¯)2 = 5
n ∑ i=1
ˆ0 + β ˆ1 xi − y (β ¯)2
= 所以
n [ ∑ i=1
ˆ1 (xi − x β ¯)
[
]2
ˆ2 lxx , =β 1
]
ˆ2 lxx ) = l2 D(β ˆ1 ) + (E β ˆ1 )2 = σ 2 + β 2 lxx . E (SSR ) = E (β 1 xx 1 这表明当 H0 为真时, E (SSR ) = σ 2 , 否则除了误差外还反映了 β1 ̸= 0 所引起的差异, 称 SSR 为回归平方和. 又可以证明 E (SSE ) = (n − 2)σ 2 , 这表明从平均意义上讲 SSE 只反映了随机误差的影响, 故称它为残差平方和. 从上式得 σ ˆ2 = 是 σ 2 的无偏估计. 当 H0 为不真时, E (SSR ) > σ 2 , 因此从直观上考虑, 可用下面比值来检验假设 H0 : F = 可以证明: 当 H0 为真时, SSR SSE 服从 χ2 (1), 服从 χ2 (n − 2), 2 σ σ2 且 SSR /σ 2 与 SSe /σ 2 相互独立, 从而当 H0 为真时, F 服从 F (1, n − 2), 所以假设 H0 的拒 绝域为: F > Fα (1, n − 2). 检验结果可以列成方差分析表. 表3: 方差分析表 来 源 模 型 残 差 总偏差 平方和 SSR SSE SST 自由度 1 n−2 n−1 均方和 M SA = SSA M SE = SSE /(n − 2) F值 F = M SA /M SE SSR SSE /(n − 2) SSE n−2
1
2
模型
在讲具体的模型之前, 我们先看二个例子. 例1 Forbes 是一个物理学家, 他对大气压和水的沸点之间关系感兴趣, 研究的目的是
通过测量水的沸点来估计所处位置的海拔高度(因为海拔高度可以由大气压确定). 为此他 收集了 17 组数据, 详见表 1. 表1: 试验数据 沸点 194.5 194.3 197.9 198.4 199.4 199.9 大气压 20.79 20.79 22.40 22.67 23.15 23.35 沸点 200.9 201.1 201.4 201.3 203.6 204.6 大气压 23.89 23.99 24.02 24.01 25.14 26.57 沸点 209.5 208.6 210.7 211.9 212.2 大气压 28.49 27.76 29.04 29.88 30.06