一元线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一元线性回归分析
一、 一元线性回归定义 二、 a,b的估计 三、 误差方差的估计 四、 线性假设的显著性检验 五、 b的置信区间 六、 回归函数值的点估计和置信区间 七、 Y的观察值的点预测和预测区间
确定性关系
变量与变量之间的关系 相关性关系
确定性关系:
当自变量给定一个值时,就确定应变量的值 与之对应。
其中斜率0.4646就反映了父亲的身高每增加1吋,儿 子的身高平均增加0.4646吋
(三)误差方差的估计
2
(a) 误差方差2的大小对模型的好坏有很大的影响。 (b) 自变量对因变量影响的大小是同误差对因变量的影响
相比较的。 (c) 如果自变量对因变量的影响不能显著的超过误差对因
变量的影响,就很难从这样的模型中提炼出有效的、 有足够精度的信息。
, Y a bx 2
其中a,b, 2是不依赖于x的
b称为回归系数, a+bx是Y关于x的回归函数
-------一元线性回归模型
Y分成了两部分:线性部分和随机误差
对x的一组不全相同的值,得到样本(x1,Y 1),(x2,Y2),...,(xn,Yn)
一元线性回归模型:Yi abxi i,i 1,2,...,n,
1
22
n 2
1 exp 2
n yiabx
i1
i
2
n
对La,b 最大化等价于对 y abi x
2
i
i1
最小化,即最小二乘估计。
综合考虑每个离差值,定义离差平方和
n
n
y E(y
i1
i1
a bx
所谓最小二乘法,就是寻找参数 a,b 的估计值 a , b,使得离差平方和达到极小值,即选择 a, b
使得
回归分析——研究相关性关系的最基本,应用最 广泛的方法。
基本思想 (x, Y)
回归分析
采集样本信息 ( xi, yi)
散点图
回归方程参数估计、显著性检验
回归方程
对现实进行预测与控制
一元回归分析:只有一个自变量的回归分析 多元回归分析:多于一个自变量的回归分析
(一)一元线性回归
基本假设 (
, ) Y 2 N a bx
(吋)
求Y关于x的线性回归方程。
算得:
y 67.01, x 66.8,
2 x i 44794, x i yi 44842.4,
i
i
S xx 171.6, S xy 79.72.
a,b的最小二乘估计:aˆ 35.9768, b ˆ 0.4646
回归方程:yˆ 35.97680.4646x. 或写成:yˆ 67.010.4646(x66.8).
如:在自由落体中,物体下落的高度h与下 落时间t之间有函数关系:
h= 1 gt 2 2
相关性关系:
变量之间的关系并不确定
表现:涉及的变量时随机变量
如:身高与体重,不存在这样的函数可以 由身高计算出体重,但从统计意义上来说,身高 者,体也重。
再如:父亲的身高与儿子的身高之间也有一 定联系,通常父亲高,儿子也高。
也可写成 yˆ yb(xˆ x)
显然,回归直线通过散点图的几何中心
参数a, b估计的性质
(1)a,b分别是a,b的线性估计量,即a,b都是yi(i 1,2,..,n)的线性组合
(2):aˆ,b分ˆ 别是a,b的无偏估计,从而E(Y) abx。ˆ
n
(3)a ~ N(a,
x
2 i
i1 2),b ~ N(b,
(6)Y的观察值的点预测和区间预测。
(二)a,b的估计——最小二乘估计
设 (x1, y1),(x2, y2), ,(xn, yn) 是 (x, y) 的一组 观测值,对每个样本观测值 (xi, yi)
其回归值
E(yi) abxi
考虑离差
yi E(yi) yi abxi
似然函数
La,b
定义:残差ei yi yˆi,i 1,2, ,n,
n
n
Βιβλιοθήκη Baidu
i1
i1
ˆ
误差i的估计
2
Qe
2
n2
ˆ
Qe
2
n
n
n
Qe ei2 (yi i y ˆ )2 [yi y b ˆi x x]2
i
S yy
yi y 2.
i
S xy x i x yi y,
i
注:在误差为正态分布假定下,最小二乘估计等
价于极大似然估计。
a,b的最小二乘估计:aˆ y xb, ˆb ˆ Sxy /Sxx.
给定x,(x) abx的估计为:
ˆ
ˆ ( ˆ) x a bx ——经验回归函
ˆ ˆ y a bˆx 方程: ——Y关于x的(经验)回归方程, 其图形称为回归直线。
i
S yy
yi y 2.
i
a,b的最小二乘估计是
bˆ Sxy , aˆ y xb ˆ
Sxx
Qa,b
n
yi
a bxi 2
i1
a,b的最小二乘估计:aˆ y xb, ˆb ˆ Sxy /Sxx.
令 y 1 yi , x 1 x i ,
ni
ni
S xx
x i x 2,
xi
xn
i1
i1
n
n
n
2
i1
i1
i1
n
n
i1
i1
n
n
n
y
i1
i1
i1
正规方程系数行列式
n
n
x i
i1
n
x i i1
n
n
xi
2
n 2 xi n
n
(xi x)2 0
n
xi2
i1
i1
i1
i1
令
y 1 n
i
1 yi , x
n
i
xi ,
S xx
x i x 2,
i
S xy x i x yi y,
Q(a,b) minQ(a,b)
满足上式的 a, b 称为回归参数 a,b 的最小
二乘估计。
Q a,b n yia bx
2 i
i1
求估计aˆ,b,ˆ
使Q aˆ,bˆ mina,bQa,b。
Q
a
n
2 (yi
i1
a bx
i) 0,
n
abx )
n
n
y a ˆ ˆbx
x1 x2 x3
2 )
nSxx
Sxx
x2
(4)cov(a,b)
Sxx
例1 K.Pearson收集了大量父亲身高与儿子 身高的资料。其中十对如下:
父亲身 60 62 6 65 66 67 68 70 72 74
高x(
4
吋)
儿子身 63. 65. 6 65. 66. 67. 67. 68. 70. 70 高y 6 2 6 5 9 1 4 3 1
正态假设:i ~N 0,2 ,相互独i 立, 1,2,...,n.
截距
斜率,反映了当x改 变1个单位,那末y 改变b个单位
一元线性回归要解决的问题:
(1) a,b的估计; (2) 2的估计;
(3)线性假设的显著性检验; (4)回归系数b的置信区间;
(5)回归函数(x) abx的点估计和置信区间;
一、 一元线性回归定义 二、 a,b的估计 三、 误差方差的估计 四、 线性假设的显著性检验 五、 b的置信区间 六、 回归函数值的点估计和置信区间 七、 Y的观察值的点预测和预测区间
确定性关系
变量与变量之间的关系 相关性关系
确定性关系:
当自变量给定一个值时,就确定应变量的值 与之对应。
其中斜率0.4646就反映了父亲的身高每增加1吋,儿 子的身高平均增加0.4646吋
(三)误差方差的估计
2
(a) 误差方差2的大小对模型的好坏有很大的影响。 (b) 自变量对因变量影响的大小是同误差对因变量的影响
相比较的。 (c) 如果自变量对因变量的影响不能显著的超过误差对因
变量的影响,就很难从这样的模型中提炼出有效的、 有足够精度的信息。
, Y a bx 2
其中a,b, 2是不依赖于x的
b称为回归系数, a+bx是Y关于x的回归函数
-------一元线性回归模型
Y分成了两部分:线性部分和随机误差
对x的一组不全相同的值,得到样本(x1,Y 1),(x2,Y2),...,(xn,Yn)
一元线性回归模型:Yi abxi i,i 1,2,...,n,
1
22
n 2
1 exp 2
n yiabx
i1
i
2
n
对La,b 最大化等价于对 y abi x
2
i
i1
最小化,即最小二乘估计。
综合考虑每个离差值,定义离差平方和
n
n
y E(y
i1
i1
a bx
所谓最小二乘法,就是寻找参数 a,b 的估计值 a , b,使得离差平方和达到极小值,即选择 a, b
使得
回归分析——研究相关性关系的最基本,应用最 广泛的方法。
基本思想 (x, Y)
回归分析
采集样本信息 ( xi, yi)
散点图
回归方程参数估计、显著性检验
回归方程
对现实进行预测与控制
一元回归分析:只有一个自变量的回归分析 多元回归分析:多于一个自变量的回归分析
(一)一元线性回归
基本假设 (
, ) Y 2 N a bx
(吋)
求Y关于x的线性回归方程。
算得:
y 67.01, x 66.8,
2 x i 44794, x i yi 44842.4,
i
i
S xx 171.6, S xy 79.72.
a,b的最小二乘估计:aˆ 35.9768, b ˆ 0.4646
回归方程:yˆ 35.97680.4646x. 或写成:yˆ 67.010.4646(x66.8).
如:在自由落体中,物体下落的高度h与下 落时间t之间有函数关系:
h= 1 gt 2 2
相关性关系:
变量之间的关系并不确定
表现:涉及的变量时随机变量
如:身高与体重,不存在这样的函数可以 由身高计算出体重,但从统计意义上来说,身高 者,体也重。
再如:父亲的身高与儿子的身高之间也有一 定联系,通常父亲高,儿子也高。
也可写成 yˆ yb(xˆ x)
显然,回归直线通过散点图的几何中心
参数a, b估计的性质
(1)a,b分别是a,b的线性估计量,即a,b都是yi(i 1,2,..,n)的线性组合
(2):aˆ,b分ˆ 别是a,b的无偏估计,从而E(Y) abx。ˆ
n
(3)a ~ N(a,
x
2 i
i1 2),b ~ N(b,
(6)Y的观察值的点预测和区间预测。
(二)a,b的估计——最小二乘估计
设 (x1, y1),(x2, y2), ,(xn, yn) 是 (x, y) 的一组 观测值,对每个样本观测值 (xi, yi)
其回归值
E(yi) abxi
考虑离差
yi E(yi) yi abxi
似然函数
La,b
定义:残差ei yi yˆi,i 1,2, ,n,
n
n
Βιβλιοθήκη Baidu
i1
i1
ˆ
误差i的估计
2
Qe
2
n2
ˆ
Qe
2
n
n
n
Qe ei2 (yi i y ˆ )2 [yi y b ˆi x x]2
i
S yy
yi y 2.
i
S xy x i x yi y,
i
注:在误差为正态分布假定下,最小二乘估计等
价于极大似然估计。
a,b的最小二乘估计:aˆ y xb, ˆb ˆ Sxy /Sxx.
给定x,(x) abx的估计为:
ˆ
ˆ ( ˆ) x a bx ——经验回归函
ˆ ˆ y a bˆx 方程: ——Y关于x的(经验)回归方程, 其图形称为回归直线。
i
S yy
yi y 2.
i
a,b的最小二乘估计是
bˆ Sxy , aˆ y xb ˆ
Sxx
Qa,b
n
yi
a bxi 2
i1
a,b的最小二乘估计:aˆ y xb, ˆb ˆ Sxy /Sxx.
令 y 1 yi , x 1 x i ,
ni
ni
S xx
x i x 2,
xi
xn
i1
i1
n
n
n
2
i1
i1
i1
n
n
i1
i1
n
n
n
y
i1
i1
i1
正规方程系数行列式
n
n
x i
i1
n
x i i1
n
n
xi
2
n 2 xi n
n
(xi x)2 0
n
xi2
i1
i1
i1
i1
令
y 1 n
i
1 yi , x
n
i
xi ,
S xx
x i x 2,
i
S xy x i x yi y,
Q(a,b) minQ(a,b)
满足上式的 a, b 称为回归参数 a,b 的最小
二乘估计。
Q a,b n yia bx
2 i
i1
求估计aˆ,b,ˆ
使Q aˆ,bˆ mina,bQa,b。
Q
a
n
2 (yi
i1
a bx
i) 0,
n
abx )
n
n
y a ˆ ˆbx
x1 x2 x3
2 )
nSxx
Sxx
x2
(4)cov(a,b)
Sxx
例1 K.Pearson收集了大量父亲身高与儿子 身高的资料。其中十对如下:
父亲身 60 62 6 65 66 67 68 70 72 74
高x(
4
吋)
儿子身 63. 65. 6 65. 66. 67. 67. 68. 70. 70 高y 6 2 6 5 9 1 4 3 1
正态假设:i ~N 0,2 ,相互独i 立, 1,2,...,n.
截距
斜率,反映了当x改 变1个单位,那末y 改变b个单位
一元线性回归要解决的问题:
(1) a,b的估计; (2) 2的估计;
(3)线性假设的显著性检验; (4)回归系数b的置信区间;
(5)回归函数(x) abx的点估计和置信区间;