一元线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

均方差 SSR/1 SSE/n-2
F
SSR / 1 SSE / n 2
可以证明:SSR
2
~

2 (1),
SSE
2
~
2(n 2)
所以 F SSR / 1 ~ F (1,n 2) SSE / n 2
H0 :回归方程不显著, H1 :回归方程显著 如果回归方程显著,意味着SSE应该比较小,所以F 值应该比较大,所以当F F (1,n 2)时,拒绝原假
(2) Cov(utus ) 0, (t, s 1,2,3,L , n; t s)
由上知:
E(Yt ) 0 1 Xt
Y E(Yt )=0+1 X t
Yt
。 ut


。。
X
参数0和1的点估计
X1 X2 …… X t …… X n Y1 Y2 …… Yt …… Yn
最小二乘法: 通过使得残差平方和 (各样本点与拟合直 线的纵向距离的平方 和)为最小来估计回 归系数的一种方法。
的样本观测值不同而变动。
3、总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距 离,它是不可直接观测的。而样本回归函数中的et 是Yt与
样本回归线之间的纵向距离,当根据样本观测值拟合出样本
回归线之后,可以计算出et 的具体数值。
误差项的基本标准假定
(1) ut ~ N (0, 2 ), (t 1,2,3,L n) E(ut ) 0, Var(ut ) 2 .
t 1
t1
16 49562 189 3461 16 2799 1892 15.2584
n
n
Yt ˆ1 Xt
ˆ0 ຫໍສະໝຸດ Baidu
t 1
n

t 1
n
Y ˆ1 X 36.0725
Yˆt 36.0725 15.2584Xt
总体方差σ2估计
n
et2
S 2 t1 n2
E(S2 ) 2. 即S2是 2的无偏估计
利用最小二乘法计算出的ˆ0和ˆ1,可以得到残差平方
和的另一个计算公式:
n
n
n
n
n
et2 (Yt Yˆt )2 Yt2 ˆ0 Yt ˆ1 XtYt
t 1
t 1
t 1
回归分析的分类
一个自变量
一元回归
回归分析
两个及以上自变量
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
一元线性回归模型
(一)总体回归函数
Yt=0+1 X t+ut
ut是随机误差项,又称随机干扰项,它是一个特殊的 随机变量,反映未列入方程式的其他各种因素对Y的 影响。
(二)样本回归函数
Yˆt ˆ0 ˆ1 Xt (t 1, 2, 3,L , n)
907717
Xt×Yt 440 720 720 1312 8170 2112 2100 2832
11154 6678 2739 4496 2240 1323 1890 600
49526
n
n
n
n XtYt Xt Yt
ˆ1
t 1
t 1
t 1
n
n
X
2 t


n
2 Xt
拟合程度评价
拟合程度是指样本观测值聚集在样本回归线周围的紧
密程度. (Yt Y ) (Yˆt Y ) (Yt Yˆt )
n
n
n
(Yt Y )2 (Yˆt Y )2 (Yt Yˆ )2
t 1
t 1
t 1
n
(Yt Y )2 : 总离差平方和,记为SST;
2
(5) 判断是否拒绝原假设
此检验是双侧检验,当然也可以做单侧检验,修改 一下拒绝域即可。
也可以用P值检验
检验统计量的值
P值很小,拒绝原假设,认为ˆ1显著异于0.
一元线性回归模型的预测
回归预测的基本公式:Yˆf ˆ0 ˆ1X f
预测误差:
e f Y f Yˆf (0 1 X f u f ) (ˆ0 ˆ1 X f ) (0 ˆ0 ) (1 ˆ1 ) X f u f
S 44.0632
Sef S
1 1 n
( X f X )2
n
45.543
( Xt X )2
t 1
所求置信区间为:(188.6565 97.6806)
回归分析的SPSS实现
“Analyze->Regression->Linear”
2
一元线性回归模型的检验
回归模型的检验包括:理论意义的检验、一级检验、二级检验。 (1)理论意义检验:主要检查参数估计值的符号和取值区间的合 理性,如果它们与实质性科学的理论以及人们的实践经验不相 符,则说明模型不能很好地解释现实的现象。 (2)一级检验:又称为统计学检验,具体分为拟合程度评价和显 著性检验(回归方程的显著性检验和回归方程中参数的显著性 检验)。 (3)二级检验:对标准线性回归模型的假定条件能否满足进行检 验,主要包括:序列相关检验、异方差检验、多重共线性检验 等。
3461
Xt平方 16 36 36 64 361 121 144 144 676 441 121 256 196 81 81 25
2799
Yt平方 12100 14400 14400 26896 184900 36864 30625 55696 184041 101124 62001 78961 25600 21609 44100 14400

(n

2)
S2 ˆ0
2 ˆ0
:
2(n 2)
S 2 ˆ1

S2
n
(Xt X )2
t 1

(n

2)
S2 ˆ1
2 ˆ1
:
2(n 2)
所以根据t分布的定义,有
ˆ0 0 ~ t(n 2), ˆ1 1 ~ t(n 2)
Sˆ0
Sˆ1
进而得出了0的置信水平为1-区间估计为
数学模型与数学建模之
一元线性回归分析
于晶贤
E-mail: yujingxian@126.com
回归分析的几个任务
(1)从一组样本数据出发,确定变量之间的数学关系式; (2)对这些关系式的可信程度进行各种统计检验,并从影响
某一特定变量的诸多变量中找出哪些变量的影响显著,哪 些不显著; (3)利用所求的关系式,根据一个或几个变量的取值来预测 或控制另一个特定变量的取值,并给出这种预测或控制的 精确程度;

0
,
2 ˆ0
),
ˆ1
~
N
(

1
,
2 ˆ1
)
ˆ0 0 ~ N (0,1), ˆ1 1 ~ N (0,1)
ˆ0
ˆ1

2 ˆ0

2ˆ1中
2未知,所以想用S
2代替
2,有


S 2 ˆ0

S2

1 n

2
X
n
(Xt
t 1
X )2

t 1
t 1
最小二乘估计的性质
E(ˆ0 ) 0 , E(ˆ1) 1, 即ˆ0和ˆ1分别为0和1的无偏估计


Var(ˆ0 )


2
ˆ0

2

1 n


X
n
(X t
2

X
)2


t 1

Var ( ˆ1 )


2
ˆ1

2
n
(Xt X )2
(4) 拒绝域F F (1, n 2) (5) 判断是否拒绝原假设
也可以用P值检验
参数的显著性检验
(1) 提出假设:H0 : 1 0, H1 : 1 0 (2) 给定显著性水平 . (3)检验统计量t= ˆ1 0 ~ t(n 2)
Sˆ1 (4) 拒绝域|t| t (n 2)

食品序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
求和
脂肪Xt 4 6 6 8 19 11 12 12 26 21 11 16 14 9 9 5
189
热量Yt 110 120 120 164 430 192 175 236 429 318 249 281 160 147 210 120
ˆ1
t 1
t 1
t 1
n
n
X
2 t


n
2 Xt
t 1
t1
t1 n ( Xt X )2 t 1
n
n
Yt ˆ1 Xt
ˆ0

t 1
n

t 1
n
Y ˆ1 X
ˆ0 , ˆ1是两个随机变量,当得到一组样本观察值时,
它们就是两个常数,样本的观察值不同,它们的取 值一般也不同。
决定系数越大,模型拟合程度越好;决定系数越小, 模型拟合程度越差;
对于一元线性回归分析,决定系数就是两变量之间 相关系数的平方。
r r2 R2
S2 n
回归方程的显著性检验
一元线性回归分析的方差分析表
离差名称 平方和 回归平方和 SSR 残差平方和 SSE 总离差平方和 SST
自由度 1 n-2 n-1
et Yt Yˆt称为残差,与总体的误差项ut对应,n为样 本的容量。
样本回归函数与总体回归函数区别
1、总体回归线是未知的,只有一条。样本回归线是根据样本数 据拟合的,每抽取一组样本,便可以拟合一条样本回归线。
2、总体回归函数中的β0和β1是未知的参数,表现为常数。而样
本回归函数中的 ˆ0和是ˆ1 随机变量,其具体数值随所抽取

0
n

2 t1 Xt (Yt ˆ0 ˆ1 Xt ) 0


nˆ0

n
ˆ1
t 1
Xt
n
Yt
t 1
n
n
n


ˆ0
t 1
Xt
ˆ1
t 1
X
2 t

t 1
X tYt
n
n
n
n
n XtYt Xt Yt
( X t X )(Yt Y )
(ˆ0 t (n 2) Sˆ0 )
2
1的置信水平为1-区间估计为
(ˆ1 t (n 2) Sˆ1 )
2
回归分析的Excel实现
“工具”->“数据分析”->“回归”
ˆ0
S ˆ0
ˆ1
S ˆ1
(ˆ0 t (n 2) Sˆ0 )
2
(ˆ1 t (n 2) Sˆ1 )
Yˆt ˆ0 ˆ1 Xt
残差平方和:
n
n
n
Q et2 (Yt Yˆt )2 (Yt ˆ0 ˆ1Xt )2
t 1
t 1
t 1
Q

ˆ0
Q
ˆ1

0 0

2
n t 1
(Yt

ˆ0

ˆ1 X t
)
设,认为回归方程显著(为显著性水平)。
P值是由检验统计量的样本观察值得出的原假设可被 拒绝的最小显著性水平。 P值越小(P值小于显著性水平α),越拒绝原假设。
回归方程的显著性检验过程
(1) H0 :回归方程不显著, H1 :回归方程显著
(2) 给定显著性水平 .
(3)检验统计量 F SSR / 1 ~ F (1,n 2) SSE / n 2
t 1
n
(Yˆt Y )2 :回归平方和,记为SSR;
t 1
n
n
(Yt Yˆt )2 : 残差平法和,即 et2,记为SSE;
t 1
t 1
SST SSR SSE
决定系数 r2 SSR 1 SSE
SST
SST
修正自由度的决定系数R2 1 SSE / (n 2) SST / (n 1)
由回归系数的期望与方差,有
E(e f ) 0


Var(e f

) 21

1 n
( X f X )2
n
( Xt X )2
t 1

区间预测: 在标准假设条件下,e f ~ N (0, Var(e f ))
可以证明:Yf Yˆf ~ t(n 2) Se f
其中:Sef S
1 1 n
( X f X )2
n
( Xt X )2
t 1
Yf的置信水平为1-的置信区间为(Yˆf t (n - 2) Sef )
2
续例:假定一种新型点心中含有10克脂肪,利用样本 的回归方程和相关数据,计算置信度为95%的热量的 预测区间.
预测值为:Yˆf 36.0725 15.2584Xt 188.6565 置信度:1- =95% 0.05
t 1
参数0和1的区间估计
根据误差项的基本标准假定
(1) ut ~ N (0, 2 ), (t 1,2,3,L n) E(ut ) 0, Var(ut ) 2.
(2) Cov(utus ) 0, (t, s 1,2,3,L , n; t s)
可以证明
ˆ0
~
N
(
相关文档
最新文档