数理统计-回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 统计中也沿用回归来描述变量之间的关系
1
第七章 回归分析
(analysis of regression)
§7.1 一元线性回归
有一类变量间有关系,但不能用函数形式来表示。 例如人的体重 y 与身高 x 有关,又如居民的储 蓄存款额 y 与的收入 x 有关,但同样的收入的 人储蓄存款额也不会相同。这样的变量间的关系 在统计上称为相关关系。
4 9.561861134 0.258139 0.259433
5 13.13285987 -0.63286 -0.63603
~
N
(0
1x,[
1 n
(x
x)2 lxx
]
2
)
12
残差平方和
SE
n i1
yi
^
yi
2
定理7.1.2 在一元线性回归模型中
(1) SE 2 ~ 2 (n 2)
(2)SE 与 ˆ0 和 ˆ1 相互独立
^
(3) 2 SE n 2 是 2 无偏估计
13
回归统计
Multiple R0.981081525
正规方程组:
Q
0
0 ˆ0
0
Q
1
1 ˆ1
0
的可微函数,有极值
2
i
( yi
ˆ0 ˆ1xi ) 0
2
( yi ˆ0 ˆ1xi )xi 0
i
nˆ0 i xi ˆ1 i yi
xi ˆ0 ˆ1
xi2
xi yi
i
i
i
8
从而 ˆ0 ˆ1x y ˆ0 y ˆ1x
序号
社会商品零售总额 x 营业税税收总额 y
1
142.08
3.93
2
177.30
5.96
3
204.68
7.85
4
242.88
9.82
5
316.24
12.50
6
341.99
15.55
7
332.69
15.79
8
389.29
16.39
9
453.40
18.45
3
②画散点图
4
③观测散点图
如果n 个点在某直线附近波动,但不完全在一直线 上,认为 y由两部分构成,
R Square 0.962520959
Adjusted R 0S.q9u5a7r1e6681
标准误差 1.063712271
观测值
9
方差分析
回归分析 残差 总计
df
SS
MS
F
Significance F
1 203.408 203.408 179.7711 3.01039E-06
7 7.920387 1.131484
X─自变量(一般变量,非随机变量) Y─随机变量
一、模型
①收集数据 (xi , yi ) i 1,2, , n
2
例7.1 我们知道营业税收总额与社会零售总额有关。 为了能从社会商品零售总额去预测税收总额,需要了 解两者的关系,现收集了如下几组数据(表7.1.1)
表7.1.1社会商品零售总额与税收总额 单位:亿元
独
11
4.yˆ ˆ0 ˆ1x 仍服从正态分布,
E( yˆ) 0 1x
D( yˆ) D(ˆ0 ) x2 D(ˆ1 ) 2x cov(ˆ0 , ˆ1 )
( 1 x 2 ) 2 x 2 1 2 2x( x ) 2
n lxx
lxx
lxx
[ 1 (x x)2 ] 2
n
lxx
yˆ
0 , 1 的估计为 ˆ0 , ˆ1 ,回归方程为 yˆ ˆ0 ˆ1x
考虑⑴如何根据 (xi , yi ) i 1,2, , n 去估计 0 , 1 ;
⑵对回归方程的可信度作检验;
⑶回归方程的作用:预测,控制。
6
二、参数的最小二乘法估计 (least square estimate)(LSE)
0.040092894 0.057263 0.040093 0.057263
RESIDUAL OUTPUT
PROBABILITY OUTPUT
观测值 预测
y 残差 标准残差
1 4.655145316 -0.72515 -0.72878
2 6.369575188 -0.40958 -0.41163
3 7.702371608 0.147628 0.148368
(一) LSE的求法
n
ቤተ መጻሕፍቲ ባይዱ
^
n
1.准则:
( yi yi )2 ( yi 0 1xi )2
i 1
i 1
其中,
n
Q(0 , 1) ( yi 0 1xi )2 i 1
Q(ˆ0 , ˆ1) min Q(0 , 1)
(0 ,1 )
7
2.求法:
Q(0 , 1 ) 0 ,又 Q 是 0 , 1
随y随机x变因动素的及y趋随势x变, 动0 的其1x它部分, (r.v.)
各 (xi , yi ) 之间独立,可得一元线性回归的数学模型 :
yi 0 1xi i , i 1,2, , n
ii.i.d. ~ N (0, 2 )
5
回归函数:E( y) 0 1x 反映 y 与 x 的相关关系
回归直线过 (0, ˆ0 ),(x, y)
两点。
10
(二) 估计量的分布及有关性质
定理7.1.1 在一元线性回归模型中,
ˆ0 与 ˆ1 是最小二乘估计量
1、ˆ1
~
N (1,
2
lxx
)
n
xi2
2、ˆ0
~
N (0 ,
i 1
nlxx
2)
3.cov(ˆ0 立
,
ˆ1
)
x lxx
2
,当x
0
时,ˆ0 与ˆ1
代入得
ˆ1
xi yi nx y i xi2 nx 2
i
xi x yi ( xi x )2
lxy , lxx
i
i
lxy (xi x )( yi y ), lxx (xi x )2
i
i
0 , 1 得到的LSE为
ˆ1
lxy lxx
ˆ
0
y
ˆ1 x
9
回归方程有两种形式: yˆ ˆ0 ˆ1 x y ˆ1(x x)
“回归”来源
• 统计史上归功于英国生物学家 F.Galton(1822~1911)
• 如人的身高具有一定的遗传性,当父代指标(X)增 加(减少)时,子代指标(Y)的平均值会增加(减少), 但未看到指标两极分化
• 存在一种力量把指标值“拉向中心”,子代指标 有“向中心回归”的现象
• Galton引进“回归”这个名词来描述X与Y的关 系.
8 211.3284
Coefficients 标准误差 t Stat P-value Intercept-2.260987456 1.107344 -2.04181 0.080497
x 0.048677736 0.003631 13.40787 3.01E-06
Lower 95% Upper 95%下限 95.0上 % 限 95.0% -4.879438476 0.357464 -4.87944 0.357464
1
第七章 回归分析
(analysis of regression)
§7.1 一元线性回归
有一类变量间有关系,但不能用函数形式来表示。 例如人的体重 y 与身高 x 有关,又如居民的储 蓄存款额 y 与的收入 x 有关,但同样的收入的 人储蓄存款额也不会相同。这样的变量间的关系 在统计上称为相关关系。
4 9.561861134 0.258139 0.259433
5 13.13285987 -0.63286 -0.63603
~
N
(0
1x,[
1 n
(x
x)2 lxx
]
2
)
12
残差平方和
SE
n i1
yi
^
yi
2
定理7.1.2 在一元线性回归模型中
(1) SE 2 ~ 2 (n 2)
(2)SE 与 ˆ0 和 ˆ1 相互独立
^
(3) 2 SE n 2 是 2 无偏估计
13
回归统计
Multiple R0.981081525
正规方程组:
Q
0
0 ˆ0
0
Q
1
1 ˆ1
0
的可微函数,有极值
2
i
( yi
ˆ0 ˆ1xi ) 0
2
( yi ˆ0 ˆ1xi )xi 0
i
nˆ0 i xi ˆ1 i yi
xi ˆ0 ˆ1
xi2
xi yi
i
i
i
8
从而 ˆ0 ˆ1x y ˆ0 y ˆ1x
序号
社会商品零售总额 x 营业税税收总额 y
1
142.08
3.93
2
177.30
5.96
3
204.68
7.85
4
242.88
9.82
5
316.24
12.50
6
341.99
15.55
7
332.69
15.79
8
389.29
16.39
9
453.40
18.45
3
②画散点图
4
③观测散点图
如果n 个点在某直线附近波动,但不完全在一直线 上,认为 y由两部分构成,
R Square 0.962520959
Adjusted R 0S.q9u5a7r1e6681
标准误差 1.063712271
观测值
9
方差分析
回归分析 残差 总计
df
SS
MS
F
Significance F
1 203.408 203.408 179.7711 3.01039E-06
7 7.920387 1.131484
X─自变量(一般变量,非随机变量) Y─随机变量
一、模型
①收集数据 (xi , yi ) i 1,2, , n
2
例7.1 我们知道营业税收总额与社会零售总额有关。 为了能从社会商品零售总额去预测税收总额,需要了 解两者的关系,现收集了如下几组数据(表7.1.1)
表7.1.1社会商品零售总额与税收总额 单位:亿元
独
11
4.yˆ ˆ0 ˆ1x 仍服从正态分布,
E( yˆ) 0 1x
D( yˆ) D(ˆ0 ) x2 D(ˆ1 ) 2x cov(ˆ0 , ˆ1 )
( 1 x 2 ) 2 x 2 1 2 2x( x ) 2
n lxx
lxx
lxx
[ 1 (x x)2 ] 2
n
lxx
yˆ
0 , 1 的估计为 ˆ0 , ˆ1 ,回归方程为 yˆ ˆ0 ˆ1x
考虑⑴如何根据 (xi , yi ) i 1,2, , n 去估计 0 , 1 ;
⑵对回归方程的可信度作检验;
⑶回归方程的作用:预测,控制。
6
二、参数的最小二乘法估计 (least square estimate)(LSE)
0.040092894 0.057263 0.040093 0.057263
RESIDUAL OUTPUT
PROBABILITY OUTPUT
观测值 预测
y 残差 标准残差
1 4.655145316 -0.72515 -0.72878
2 6.369575188 -0.40958 -0.41163
3 7.702371608 0.147628 0.148368
(一) LSE的求法
n
ቤተ መጻሕፍቲ ባይዱ
^
n
1.准则:
( yi yi )2 ( yi 0 1xi )2
i 1
i 1
其中,
n
Q(0 , 1) ( yi 0 1xi )2 i 1
Q(ˆ0 , ˆ1) min Q(0 , 1)
(0 ,1 )
7
2.求法:
Q(0 , 1 ) 0 ,又 Q 是 0 , 1
随y随机x变因动素的及y趋随势x变, 动0 的其1x它部分, (r.v.)
各 (xi , yi ) 之间独立,可得一元线性回归的数学模型 :
yi 0 1xi i , i 1,2, , n
ii.i.d. ~ N (0, 2 )
5
回归函数:E( y) 0 1x 反映 y 与 x 的相关关系
回归直线过 (0, ˆ0 ),(x, y)
两点。
10
(二) 估计量的分布及有关性质
定理7.1.1 在一元线性回归模型中,
ˆ0 与 ˆ1 是最小二乘估计量
1、ˆ1
~
N (1,
2
lxx
)
n
xi2
2、ˆ0
~
N (0 ,
i 1
nlxx
2)
3.cov(ˆ0 立
,
ˆ1
)
x lxx
2
,当x
0
时,ˆ0 与ˆ1
代入得
ˆ1
xi yi nx y i xi2 nx 2
i
xi x yi ( xi x )2
lxy , lxx
i
i
lxy (xi x )( yi y ), lxx (xi x )2
i
i
0 , 1 得到的LSE为
ˆ1
lxy lxx
ˆ
0
y
ˆ1 x
9
回归方程有两种形式: yˆ ˆ0 ˆ1 x y ˆ1(x x)
“回归”来源
• 统计史上归功于英国生物学家 F.Galton(1822~1911)
• 如人的身高具有一定的遗传性,当父代指标(X)增 加(减少)时,子代指标(Y)的平均值会增加(减少), 但未看到指标两极分化
• 存在一种力量把指标值“拉向中心”,子代指标 有“向中心回归”的现象
• Galton引进“回归”这个名词来描述X与Y的关 系.
8 211.3284
Coefficients 标准误差 t Stat P-value Intercept-2.260987456 1.107344 -2.04181 0.080497
x 0.048677736 0.003631 13.40787 3.01E-06
Lower 95% Upper 95%下限 95.0上 % 限 95.0% -4.879438476 0.357464 -4.87944 0.357464