数理统计之回归分析基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
ˆ ~ N (b, ) b (2) l xx
2
(3)
ˆ2 (n 2)
2
~ 2 (n 2)
2
ˆ ˆ , n 2 (4) y 与 b 相互独立 2
1.5 检验与置信区间
ˆ 是否同实际情况拟合得很好? ˆa ˆ bx 求出的回归方程 y
或者说, x 与 y 两个变量之间是否有密切的线性关系?这要 求对回归问题作进一步的统计分析。 1.参数的极大似然估计
ˆ b) l (b 2 xx ˆ ~ N (0,1) ,因为一般 由于 b ~ N (b, l ) ,所以 xx
2是
未 知 的 , 可 用
2
ˆ2 Q 代 入 : 的 无 偏 估 计 n2
1
ˆ b) l ˆ b) l / 2 (b ~ (b xx xx T ~ t (n 2) ˆ2 ˆ 2 /( n 2) 2 (n 2)
点。 记
lxx xi x , l yy yi y , lxy l yx xi x yi y
2 2 i 1 i 1 i 1
n
n
n
ˆ xy ˆ b 此时, b 可记为: l
l
xx
1.3 未知参数 2 的估计
2 是随机误差 的方差。如果误差大,那么求出来的回归
1 n 1 n x xi , y yi 记 n i 1 n i 1
称
ˆ 为 参 数 a, b 的 最 小 二 乘 估 计 , 并 得 回 归 方 程 , ˆ, b a
ˆ ˆ a ˆ bx y
ˆx x ˆ y b 改写成: y 。即回归直线一定通过 x , y 这一
Y 相应于 x1 , x2 ,..., xn 的 n 个观察值 y1 ,..., yn 可看成 Y1 ,..., Yn 的试验
值。 而
Yi a bxi i , i 1,2,n, 其 中 i ~ N (0, 2 )
2
且
1 ,, n 相互独立。此式通常称为线性模型。
并求 的估计。
2
1.4 参数估计量的性质
ˆ 是 y1 ,..., yn 的线性函数。 ˆ, b 1. a (在统计中,如果估计量是样
本的线性函数,则称它为线性估计。 )
ˆ , b 是 a, b 的无偏估计。 2. a
ˆ 是不相关的 ˆ是 3.y 与 b (由于都服从正态分布, 进而 y 与 b
ˆ l b xx T 的统计量为: ˆ Q /( n 2) ˆ l b xx
当 H 0 成立时,它服从于 t n 2 例 1.3:上例中,试问上海市市区的职工工资总额 x 与社会商 品零售总额
y 之间是否确实存在显著的线性关系?
同理:对检验假设 H 0 : a a0 可以用统计量
ˆ 称之为 Y 对 X 的回归直线方程。 ˆ a ˆ bx 即 y
在实际试验中,对变量 X 与 Y 作 n 次试验观察,并假定在 X 的各 个值上对
Y
的观察值是相互独立的,得到
n
对试验值
xi , yi
i , 1, 2 n。 ...,
在平面直角坐标系中, 画出 xi , yi , i 1, 2..., n 共 n 个点, 它们所构 成的图形成为点图。如果点图中的 n 个点分布在一条直线附近,直观 上可以认为 X 与 Y 的关系具有一元线性回归模型。
第四章 回归分析
一切客观事物都是互相联系和具有内部规律的,这些关系表现在 量上,只要有两种类型:
一是变量之间存在着完全确定性的关系,例如函数关系。
S r 2 等。
另一类是统计关系,或称相关关系。
(变量之间存在着一定的关系, 然而一个变量有一个确定的值后, 不能得出另一个变量相应的确定的值, 把这种不确定性关系的 变量间的联系称为相关关系。) 例:家庭的支出与其收入之间的关系; 儿子的身高与他父亲的身高的关系; 某种商品的销售量与其价格的关系等。
i 1 i
n
2
ˆ 分别是 a, b 的最佳线性无偏估计(BLUE) ˆ, b 5. a 。 (需用
高斯-马尔科夫定理)即在一切线性无偏估计中方差最小。
ˆ2 6. 1 n 2 ˆi 是 2 的无偏估计 yi y n 2 i 1
综上 1-6 可得如下结论:
1 x2 ˆ ~ N (a, ( )) (1) a n l xx
在 零 假 设
H 0 : b b0 成 立 时 , 统 计 量
ˆb ) l ˆb ) l (b (b 0 xx 0 xx T ~ t (n 2) ˆ Q /( n 2)
拒绝域: , t n 2 t n 2 ,
2
§1 一元线性回归的参数估计
只有一个自变量的回归分析称为一元回归分析, 有多于一个自变量的回归分析称为多元回归分析。
1.1 模型
设 X 是可控变量, Y 是依赖于 X 的随机变量,它们的关系 是:
Y a bX
其中 a, b 是常数, 服从于正态分布 N 0, 2 , X 与 Y 的这种 关系称为一元线性回归(模型) 。
2 i 1 i 1
n
n
2
ˆ 作为 a, b 的估计。这就 ˆ, b 来表示总偏差,以使 Q 达到极小的 a
是著名的最小二乘法。 注意, Q
Hale Waihona Puke Baidui 1 n
ˆ ˆ bx yi a i
2
使 Q 达到极小的 a, b ,
应满足下面的方程组:
n Q 2 yi a bxi 0 a i 1 n Q 2 y a bx x 0 i i i i 1 b
2 易知,当 x 取固定值时, Y 服从正态分布 N a bx,
, n 来估计 a, b ,得估计 xn y 用样本值 x1 , y1 , x 2 , y 2 , ...,
ˆ ,记作 y ˆ , b 。从而得到 a bx 的一个估计 a ˆ。 ˆ bx 值a
ˆ
ˆ
yi yi a bxi , i 1, 2..., n 共有 n 个偏差值,应该综合考虑。显然
不能用代数和来表示,因为偏差有正有负,它们的代数和会出现正负 相抵而不能代表真正的总偏差。若取绝对值后再求和可以避免这一缺 点,但却不便于做数学处理。)
所以利用偏差平方和 Q yi yi a bxi
经整理得如下正规方程:
n n na xi b yi i 1 i 1 n n n 2 xa x b x y , i i i i i 1 i 1 i 1
解正规方程组:
n n n n n n 1 n n xi yi xi yi xi yi xi yi xi x yi y n i 1 i 1 i 1 i 1 i 1 i 1 ˆ i 1 b 2 2 n n n n n 2 1 2 xi x n xi2 xi x x i i i 1 n i 1 i 1 i 1 i 1 ˆ ˆ y bx a
lxy ˆ bL lxx ˆx ˆL y b a L 1 n 2 ˆ ˆ L yi a ˆ bx i n i 1
2
ˆ L 不是 的无偏估计 易见
2
2
2.参数 a, b 的假设检验 一元线性回归中的检验问题不外乎是对参数作出检验假 设: (1)统计假设: H 0 : b b0 H1 : b b0 (2) 统计假设: H 0 : a a0 H1 : a a0
独立的)
ˆ
ˆ , b 的方差,协方差分别为: 4. a
2 1 x 2 ˆ n D a 2 n x x i i 1
ˆ
,
ˆ D b
2
x x
i 1 i
n
2
ˆ ˆ, b cov a
x 2
x x
直线用处就不大; 如果误差比较小, 那么求出来的回归直线就 比较理想,可见 2 的大小反映回归直线拟合程度的好坏。
1 n 2 如何估计 ?自然想到利用 n ( i E i ) 来估计 2 。 i 1
2
ˆx ˆi yi a ˆ b 由于 i , i 1,2,, n 是未知的,而 i yi a bxi i
2
特 别 : b0 0 , 若 此 零 假 设 成 立 , 则 线 性 模 型 化 为 :
yi a i , i 1 , .n ..,
这表明:变量 关关系。 在线性回归分析中, 一旦参数估计问题解决, 立即就要检验假
y 并不依赖于 x ,也即 x , y 间不存在线性相
设 H 0 : b0 0 以决定 x , y 之间的线性关系是否显著,此时用
易证, Yi ~ N (a bxi , ) 且 Y1 ,..., Yn 相互独立。
1.2 未知参数 a, b 的估计 (利用最小二乘法求出 a, b 的
ˆ) ˆ, b 最小二乘估计 a
ˆ , b 为参数 a, b 的估计. 设a
希望每个观察点 xi , yi 同直线 y a bx 之间的偏差尽可 能的小。 ( 即在 x xi 处, xi , yi 与直线 y a bx 之间的偏差是
T ˆ ˆ a0 a 1 x n lxx
1 n ˆ ˆ ˆ bx yi a i n 2 i 1
2
2
n Q ˆ ˆ bx Q yi a i ,其中 n2 i 1
2
ˆ 还是 的无偏估计(以后再证明) 而
2
2
例 1.1:水稻产量与化肥施用量之间的关系,在土质, 面积, 种子等相同条件下, 由试验获得如下数据, 试用最小二乘法求 水稻产量 y 对化肥用量 x 的回归直线,并求 的估计。
2
化肥用量与水稻产量
化肥用量 x/kg 水稻产量 y/kg
15 330
20 345
25 365
30 405
35 445
40 490
45 455
例 1.2:实例分析,上海市市区的社会商品零售总额和全民所 有制职工工资总额的数据如下:
年份 / 年 职工工资 总额 x / 亿元 社会商品 零售额 y/亿元
1978
23.8 41.4
1979
27.6 51.8
1980
31.6 61.7
1981
32.4 67.9
1982
33.7 68.7
1983
34.9 77.5
1984
43.2 95.9
1985
52.8 137.4
1986
63.8 155
1987
73.4 175
试求社会商品零售总额 y 对职工工资总额 x 的线性回归方程,
回归分析与相关分析均为研究及度量两个或两 个以上变量之间相关关系的一种统计方法。
(在进行分析,建立数学模型时,常需选择其中之一为因变量,而 其余的均为自变量,然后根据样本资料,研究及测定自变量与因变量 之间的关系。 )
严格说来,回归与相关的含义是不同的。 如果两个变量中的一个变量是人力加以控制的, 非随机的, 简称控
制变量,另一个变量是随机的,而且随着控制变量的变化而变化,则 这两个变量之间的关系称为回归关系。 如果两个变量都是随机的,则它们之间的关系称为相关关系。
二者的差别在于把自变量看作是随机变量还是控制变量。
尽管回归和相关的含义不同, 不过从计算的角度来看, 二者的差别 又不是很大,因此常常忽略其区别而混杂使用。例如,在研究相关关 系时,可以把其中一个变量看作是控制变量而着重考察另一个变量对 它的统计依赖关系,这就是说把两个变量的关系看作是回归关系。
ˆ ~ N (b, ) b (2) l xx
2
(3)
ˆ2 (n 2)
2
~ 2 (n 2)
2
ˆ ˆ , n 2 (4) y 与 b 相互独立 2
1.5 检验与置信区间
ˆ 是否同实际情况拟合得很好? ˆa ˆ bx 求出的回归方程 y
或者说, x 与 y 两个变量之间是否有密切的线性关系?这要 求对回归问题作进一步的统计分析。 1.参数的极大似然估计
ˆ b) l (b 2 xx ˆ ~ N (0,1) ,因为一般 由于 b ~ N (b, l ) ,所以 xx
2是
未 知 的 , 可 用
2
ˆ2 Q 代 入 : 的 无 偏 估 计 n2
1
ˆ b) l ˆ b) l / 2 (b ~ (b xx xx T ~ t (n 2) ˆ2 ˆ 2 /( n 2) 2 (n 2)
点。 记
lxx xi x , l yy yi y , lxy l yx xi x yi y
2 2 i 1 i 1 i 1
n
n
n
ˆ xy ˆ b 此时, b 可记为: l
l
xx
1.3 未知参数 2 的估计
2 是随机误差 的方差。如果误差大,那么求出来的回归
1 n 1 n x xi , y yi 记 n i 1 n i 1
称
ˆ 为 参 数 a, b 的 最 小 二 乘 估 计 , 并 得 回 归 方 程 , ˆ, b a
ˆ ˆ a ˆ bx y
ˆx x ˆ y b 改写成: y 。即回归直线一定通过 x , y 这一
Y 相应于 x1 , x2 ,..., xn 的 n 个观察值 y1 ,..., yn 可看成 Y1 ,..., Yn 的试验
值。 而
Yi a bxi i , i 1,2,n, 其 中 i ~ N (0, 2 )
2
且
1 ,, n 相互独立。此式通常称为线性模型。
并求 的估计。
2
1.4 参数估计量的性质
ˆ 是 y1 ,..., yn 的线性函数。 ˆ, b 1. a (在统计中,如果估计量是样
本的线性函数,则称它为线性估计。 )
ˆ , b 是 a, b 的无偏估计。 2. a
ˆ 是不相关的 ˆ是 3.y 与 b (由于都服从正态分布, 进而 y 与 b
ˆ l b xx T 的统计量为: ˆ Q /( n 2) ˆ l b xx
当 H 0 成立时,它服从于 t n 2 例 1.3:上例中,试问上海市市区的职工工资总额 x 与社会商 品零售总额
y 之间是否确实存在显著的线性关系?
同理:对检验假设 H 0 : a a0 可以用统计量
ˆ 称之为 Y 对 X 的回归直线方程。 ˆ a ˆ bx 即 y
在实际试验中,对变量 X 与 Y 作 n 次试验观察,并假定在 X 的各 个值上对
Y
的观察值是相互独立的,得到
n
对试验值
xi , yi
i , 1, 2 n。 ...,
在平面直角坐标系中, 画出 xi , yi , i 1, 2..., n 共 n 个点, 它们所构 成的图形成为点图。如果点图中的 n 个点分布在一条直线附近,直观 上可以认为 X 与 Y 的关系具有一元线性回归模型。
第四章 回归分析
一切客观事物都是互相联系和具有内部规律的,这些关系表现在 量上,只要有两种类型:
一是变量之间存在着完全确定性的关系,例如函数关系。
S r 2 等。
另一类是统计关系,或称相关关系。
(变量之间存在着一定的关系, 然而一个变量有一个确定的值后, 不能得出另一个变量相应的确定的值, 把这种不确定性关系的 变量间的联系称为相关关系。) 例:家庭的支出与其收入之间的关系; 儿子的身高与他父亲的身高的关系; 某种商品的销售量与其价格的关系等。
i 1 i
n
2
ˆ 分别是 a, b 的最佳线性无偏估计(BLUE) ˆ, b 5. a 。 (需用
高斯-马尔科夫定理)即在一切线性无偏估计中方差最小。
ˆ2 6. 1 n 2 ˆi 是 2 的无偏估计 yi y n 2 i 1
综上 1-6 可得如下结论:
1 x2 ˆ ~ N (a, ( )) (1) a n l xx
在 零 假 设
H 0 : b b0 成 立 时 , 统 计 量
ˆb ) l ˆb ) l (b (b 0 xx 0 xx T ~ t (n 2) ˆ Q /( n 2)
拒绝域: , t n 2 t n 2 ,
2
§1 一元线性回归的参数估计
只有一个自变量的回归分析称为一元回归分析, 有多于一个自变量的回归分析称为多元回归分析。
1.1 模型
设 X 是可控变量, Y 是依赖于 X 的随机变量,它们的关系 是:
Y a bX
其中 a, b 是常数, 服从于正态分布 N 0, 2 , X 与 Y 的这种 关系称为一元线性回归(模型) 。
2 i 1 i 1
n
n
2
ˆ 作为 a, b 的估计。这就 ˆ, b 来表示总偏差,以使 Q 达到极小的 a
是著名的最小二乘法。 注意, Q
Hale Waihona Puke Baidui 1 n
ˆ ˆ bx yi a i
2
使 Q 达到极小的 a, b ,
应满足下面的方程组:
n Q 2 yi a bxi 0 a i 1 n Q 2 y a bx x 0 i i i i 1 b
2 易知,当 x 取固定值时, Y 服从正态分布 N a bx,
, n 来估计 a, b ,得估计 xn y 用样本值 x1 , y1 , x 2 , y 2 , ...,
ˆ ,记作 y ˆ , b 。从而得到 a bx 的一个估计 a ˆ。 ˆ bx 值a
ˆ
ˆ
yi yi a bxi , i 1, 2..., n 共有 n 个偏差值,应该综合考虑。显然
不能用代数和来表示,因为偏差有正有负,它们的代数和会出现正负 相抵而不能代表真正的总偏差。若取绝对值后再求和可以避免这一缺 点,但却不便于做数学处理。)
所以利用偏差平方和 Q yi yi a bxi
经整理得如下正规方程:
n n na xi b yi i 1 i 1 n n n 2 xa x b x y , i i i i i 1 i 1 i 1
解正规方程组:
n n n n n n 1 n n xi yi xi yi xi yi xi yi xi x yi y n i 1 i 1 i 1 i 1 i 1 i 1 ˆ i 1 b 2 2 n n n n n 2 1 2 xi x n xi2 xi x x i i i 1 n i 1 i 1 i 1 i 1 ˆ ˆ y bx a
lxy ˆ bL lxx ˆx ˆL y b a L 1 n 2 ˆ ˆ L yi a ˆ bx i n i 1
2
ˆ L 不是 的无偏估计 易见
2
2
2.参数 a, b 的假设检验 一元线性回归中的检验问题不外乎是对参数作出检验假 设: (1)统计假设: H 0 : b b0 H1 : b b0 (2) 统计假设: H 0 : a a0 H1 : a a0
独立的)
ˆ
ˆ , b 的方差,协方差分别为: 4. a
2 1 x 2 ˆ n D a 2 n x x i i 1
ˆ
,
ˆ D b
2
x x
i 1 i
n
2
ˆ ˆ, b cov a
x 2
x x
直线用处就不大; 如果误差比较小, 那么求出来的回归直线就 比较理想,可见 2 的大小反映回归直线拟合程度的好坏。
1 n 2 如何估计 ?自然想到利用 n ( i E i ) 来估计 2 。 i 1
2
ˆx ˆi yi a ˆ b 由于 i , i 1,2,, n 是未知的,而 i yi a bxi i
2
特 别 : b0 0 , 若 此 零 假 设 成 立 , 则 线 性 模 型 化 为 :
yi a i , i 1 , .n ..,
这表明:变量 关关系。 在线性回归分析中, 一旦参数估计问题解决, 立即就要检验假
y 并不依赖于 x ,也即 x , y 间不存在线性相
设 H 0 : b0 0 以决定 x , y 之间的线性关系是否显著,此时用
易证, Yi ~ N (a bxi , ) 且 Y1 ,..., Yn 相互独立。
1.2 未知参数 a, b 的估计 (利用最小二乘法求出 a, b 的
ˆ) ˆ, b 最小二乘估计 a
ˆ , b 为参数 a, b 的估计. 设a
希望每个观察点 xi , yi 同直线 y a bx 之间的偏差尽可 能的小。 ( 即在 x xi 处, xi , yi 与直线 y a bx 之间的偏差是
T ˆ ˆ a0 a 1 x n lxx
1 n ˆ ˆ ˆ bx yi a i n 2 i 1
2
2
n Q ˆ ˆ bx Q yi a i ,其中 n2 i 1
2
ˆ 还是 的无偏估计(以后再证明) 而
2
2
例 1.1:水稻产量与化肥施用量之间的关系,在土质, 面积, 种子等相同条件下, 由试验获得如下数据, 试用最小二乘法求 水稻产量 y 对化肥用量 x 的回归直线,并求 的估计。
2
化肥用量与水稻产量
化肥用量 x/kg 水稻产量 y/kg
15 330
20 345
25 365
30 405
35 445
40 490
45 455
例 1.2:实例分析,上海市市区的社会商品零售总额和全民所 有制职工工资总额的数据如下:
年份 / 年 职工工资 总额 x / 亿元 社会商品 零售额 y/亿元
1978
23.8 41.4
1979
27.6 51.8
1980
31.6 61.7
1981
32.4 67.9
1982
33.7 68.7
1983
34.9 77.5
1984
43.2 95.9
1985
52.8 137.4
1986
63.8 155
1987
73.4 175
试求社会商品零售总额 y 对职工工资总额 x 的线性回归方程,
回归分析与相关分析均为研究及度量两个或两 个以上变量之间相关关系的一种统计方法。
(在进行分析,建立数学模型时,常需选择其中之一为因变量,而 其余的均为自变量,然后根据样本资料,研究及测定自变量与因变量 之间的关系。 )
严格说来,回归与相关的含义是不同的。 如果两个变量中的一个变量是人力加以控制的, 非随机的, 简称控
制变量,另一个变量是随机的,而且随着控制变量的变化而变化,则 这两个变量之间的关系称为回归关系。 如果两个变量都是随机的,则它们之间的关系称为相关关系。
二者的差别在于把自变量看作是随机变量还是控制变量。
尽管回归和相关的含义不同, 不过从计算的角度来看, 二者的差别 又不是很大,因此常常忽略其区别而混杂使用。例如,在研究相关关 系时,可以把其中一个变量看作是控制变量而着重考察另一个变量对 它的统计依赖关系,这就是说把两个变量的关系看作是回归关系。