CH4 回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例1.1 某建材实验室在做陶粒混凝土强度试验中,考察 每立方米混凝土的水泥用量(kg)对混凝土抗压强度 (kg/cm2) 的影响。经过28天的观测,得到如下数据:
水泥用量x 抗压强度y 150 160 170 180 190 200 210 220 230 240 250 260 89.7
56.9 58.4 61.6 64.6 68,1 71.3 74.1 77.4 80.2 82.6 86.4
回归分析
两种关系:函数关系;相关关系 回归分析的基本作用 1、处理变量之间相关关系的数字表达式(经验公式)
2、判明所建立的经验公式的有效性
3、根据一个或几个变量的取值,预测或控制另一个 变量的取值 4、判明预测和控制的精确程度 5、在共同影响一个变量的许多变量中,找出主要变 量和次要变量
一元线性回归分析
相关系数与回归平方和之间的关系:U/lyy=r2 ,即相关 系数反映了回归平方和在总离差平方和中所占的比例。 相关系数的几何意义
(二)线性回归的显著性检验 2、几个相关的抽样分布:设 y ~ N a bx ,
2 ˆ (1) b ~ N b, l xx
2
,则
ˆ 2l U b xx
U越大,说明随机误差所占的比重越小,回归效果越显著。
y
yi y
ˆ yi yi ˆ yi y
ˆ x i , yi
y
x
x
相关系数及其几何意义
r l xy l xx l yy
x
i
x yi y
xi x 2 yi y 2
一、基本概念 1、回归函数:随机变量 y 和变量 x 之间存在着相关 关系。y 的期望μ=μ(x)=Ey 叫做 y 对 x 的回归函数。 回归分析的核心:估计回归函数
例1.1 某建材实验室在做陶粒混凝土强度试验中,考察每立方米 混凝土的水泥用量(kg)对混凝土抗压强度(kg/cm2) 的影响。 经过28天的观测,得到如下数据:
说明: (1) a, b 都是有量纲的量。b 的量纲是 y/x,其意义为x 每增加一个单位,平均引起y 的变化。所以,同 一个回归问题,如果x, y 各自换了单位,回归系 数也会取不同的值。
(2) 经验回归直线经过散点图的几何重心。
(3) a , b 是 a, b 的无偏估计,且是y 的所有线性无偏 ˆ ˆ 估计中方差最小的 (Gauss-Markov定理)。
遗传学家F. Galton 曾经断言:“儿子身高会受到父 亲身高的影响,但身高偏离平均水平的父亲,其儿子 的身高有回归到子代平均水平的趋势。”问Pearson 的资料能否证实这一论断?
解: 1) 建立回归方程。 10 , x 66.8 , y 67.01 ( n l xx 171.6, l xy 79.72, l yy 38.529 ˆ ˆ ˆ b l xy l xx 0.4646 , a y bx 35.977 ˆ 经验回归方程: 35.977 0.4646 x y
试建立y 对x 的回归函数,并对回归的显著性进行 检验。
提示:1) 建立回归方程。 12, ( n
x
2
i
2460 ,
y
i
871.2 ,
2
xi 518600 ,
l xx
xi yi 182943 , yi 64572.94
2
x 205 , y 72.6
3、经验回归方程(经验公式);经验回归直线
ˆ a bx ˆ ˆ y
二、用最小二乘法估计 a, b 基本思想:在形如 y a bx 的直线族中,选择一 条直线L,使n 个样本点与直线L 在平均意义上最为 接近。 y
~
(xi,yi)
xi , ~i y
xi
x
a, b 的最小二乘法估计过程 x 的离差平方和:
( 2) 回归显著性检验 r l xy l xx l yy r
2 2
0.9804
F n 2
1 r
198.4 F0.95 1,8 5.32
回归效果显著。
( 3) 对Galton 断言的检验 H 0 : b 1 , H1 : b 1 s l xx l yy l xy
n i 1
n i 1
yi
2
n
1
n i 1
n i 1
yi
xi yi
n
1
xi
n i 1
yi
a, b 的最小二乘法估计公式
ˆ b
公式变形
l xy l xx
ˆ ˆ y bx a
ˆ b
l xy l xx
ci yi
i 1
n
ci
xi x l xx
2
s
Q n2
n 2l xx
为剩余标准差。
3、检验法 检验假设:H0: b=0 (1) t 检验法
统计量:H 0成立时,T 拒绝域: T t
1
ˆ b s
l xx ~ t n 2 .
2
n 2
(2) f 检验法
统计量:H 0成立时, F n 2 U Q n 2 r
( 4) b 的区间估计 dn t
2
1
n 2
s l xx
=0.760
所以 b 的 置信水平为0.95 的区间估计为为 ˆ b d ˆ , b d n =0.3886, 0.5406 n
五、预测
预测:根据经验回归公式,对给定的 x0 ,预测 y 的 取值情况,如期望,期望值的区间估计等。 1、期望值的点估计
1
2
s
六、控制——预测的反问题
要求 y 在区间(y1, y2)内取值时,求出控制 x 取值的 范围(x1, x2)。即当 x1<x<x2 时,以至少1-α的置信度 使 x 所相应的观测值 y 落入(y1, y2)内。 当 n 足够大时,对于给定的(y1, y2),可通过解下列 方程组方程组求得相应的(x1, x2):
y 的离差平方和:
l xx l yy
xi x 2 i 1
n
n i 1 n
yi y
2
x, y 的离差乘积和:
公式变形:l xx i 1 xi
n 2
l xy
i 1
xi x yi y
xi
n
1
n i 1
2
2
l yy l xy
2
n 2 l xx
ˆ b 1 s
0.4321
t
l xx 16.232
对于 n 10, 0.05, 查表得 t1 n 2 t 0.95 8 1.860 因为 16.232 1.860, 故以水平 0.05拒绝H 0 Galton的断言得到证实。
三、相关系数与相关显著性检验
(一)平方和分解公式
ˆ ˆ l yy Q U yi yi yi y
2 i 1 i 1 n n 2
残差平方和,即扣 除了 x 对 y 的线性 影响后剩余的平方 和。
回归平方和,分散性 来源于 xi 分散性及回 归直线的斜率
2 2
1 r
~ F 1, n 2 .
拒绝域:F F1 1, n 2
(3) r 检验法
注意到 F n 2 r 1 n2 F1 1, n 2 1 r
2 2
1 r
F1 1, n 2 等价于
rn 2 ,
所以当 r rn 2 , 时就拒绝H 0
水泥用量x 抗压强度y 150 160 170 180 190 200 210 220 230 240 250 260 89.7
56.9 58.4 61.6 64.6 68,1 71.3 74.1 77.4 80.2 82.6 86.4
试建立y 对x 的回归函数。
2、一元线性回归问题
y a bx 2 ~ N 0,
由H 0成立时,统计量t
当线性回归效果显著时 b 的 1 置信区间为 ,
ˆ ˆ b d n , b d n , 其中 d n t
1
2
n 2
s l xx
例1.4 K. Pearson 收集了大量父亲身高与儿子身高的 资料,其中10对数据如下:
父身高x: 60, 62, 64, 65, 66, 67, 68, 70, 72, 74 儿身高y: 63.6, 65.2, 66, 65.5, 66.9, 67.1, 67.4, 68.3, 70.1, 70
y a bx u ˆ ˆ 1 s 1 1 2 ˆ ˆ y2 a bx 2 u s 1 2
七、过原点的直线回归
相关关系:
y bx 2 ~ N 0,
讨论过程与一般情况相同,但要注意各检验及估计 中统计量的自由度有所变化。
ˆ ˆ ˆ y0 a bx0 是 Ey0 a bx0 的无偏估计。
2、期望值的区间估计
统计量:T s 1 ˆ y0 y0 1 n
x0 x 2
l xx
~ t n 2
置信水平 下 的区间估计 1 ˆ y0 n , ˆ y0 n 1 1 n
2
( 4)
1
2
Q~
2
n 2 ,
ˆ 并且Q与b相互独立。
(5) 当 b 0 时,1 F U Q n 2
2
U ~ 1 ,
2
故
n 2
U Q
~ F 1, n 2
( 6) T
ˆ bb s
l xx ~ t n 2 , 其中 l xx l yy l xy
x
2 i
x n
1
i
14300
l xy x i y i l yy
x y 4347 n
1பைடு நூலகம்
i i 2 i
y
2 i
y n
1
1323.82
ˆ ˆ ˆ b l xy l xx 0.3040 , a y bx 10.28 ˆ 经验回归方程: 10.08 0.304 x y
1 x2 ˆ ( 2) a ~ N a , n l xx
2 ,
ˆ x 2 , cov b , y 0 ˆ ˆ 并且 cov a , b l xx
( 3) EQ n 1 , 即
2
Q n 1
是 的无偏估计。
n t
1
2
n 2 s
x0 x
l xx
2
ˆ y2 x y x
* ˆ y1 y d
y2
ˆ ˆ ˆ y a bx * ˆ y1 y d
ˆ y1 x y x
y1 x1
x
x2
x越接近于x , 预测就越精密。当 x x 较小而n ˆ ˆ 较大时,y的1 预测区间近似为 y d , y d , 其中d u
( F 检验法) r
2
l xy l xx l yy
2
0.99819 r
2 2
F n 2
1 r
5514.9
F1 1, n 2 F0.95 1,10 4.96
四、回归系数的检验及区间估计
1、检验假设:H0: b=b0
H 0成立时,统计量t 拒绝域: (1) H 1 : b b0 , 取双侧拒绝域 t t
八、两条回归直线的比较
1
ˆ b b0 s
l xx ~ t n 2 .
2
n 2
( 2) H 1 : b b0 , 取右侧拒绝域t t1 n 2 ( 3) H 1 : b b0 , 取左侧拒绝域t t n 2
2、b 的区间估计
ˆ b b0 s l xx ~ t n 2 .
( 2) 回归显著性检验 ( t 检验法) s ˆ b s l xx l yy l xy
2
n 2 l xx
0.489
t
l xx 74.3
1
对于 n 12, 0.05, t
2
n 2 2.2281
因为 74.3 2.2281, 故以水平 0.05拒绝H 0