回归分析ppt优秀课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
差最小。
(ii) ˆ 服从正态分布
ˆ ~ N ( , 2 ( X T X )1 )
(11)
(iii)对残差平方和 Q , EQ (n m 1) 2 ,且
Q
2
~
2 (n m 1)
(12)
由此得到 2 的无偏估计
s2 Q ˆ 2
n m1
(13)
s s2 是剩余方差(残差的方差), 称为剩余标准差。
由(4)式这组数据的误差平方和为
n
Q( )
2 i
(Y
X )T
(Y
X )
i 1
(6) (7)
求 使 Q( ) 最小,得到 的最小二乘估计,记作 ˆ ,可以推
出
ˆ ( X T X )1 X TY
(8)
将 ˆ 代回原模型得到 y 的估计值
yˆ ˆ0 ˆ1x1 ˆmxm
(9)
而这组数据的拟合值为Yˆ Xˆ ,拟合误差 e Y Yˆ 称为残差,
yi 0 1xi1 m xim i i ~ N (0, 2 ), i 1,,n
(4)
记
1 x11 x1m
y1
X
,
Y
1 xn1 xnm
yn
(5)
[1 n ]T , [0 1 m ]T
(4)表为
Y X
~ N (0, 2 )
1.2 参数估计
用最小二乘法估计模型(3)中的参数 。
具体地说,回归分析在一组数据的基础上研究这样几个问 题:
(i)建立因变量 y 与自变量 x1, x2 ,, xm 之间的回归模
型(经验公式); (ii)对回归模型的可信度进行检验;
(iii)判断每个自变量 xi (i 1,2,, m) 对 y 的影响是否显
著;
(iv)诊断回归模型是否适合这组数据;
方和在总平方和中的比值定义
R2 U S
(16)
y R [0,1] 称为相关系数, R 越大, 与 x1,, xm 相关关系越密
切,通常, R 大于 0.8(或 0.9)才认为相关关系成立。
1.5 回归系数的假设检验和区间估计
当上面的 H0 被拒绝时, j 不全为零,但是不排除其中若
干个等于零。所以应进一步作如下 m 个检验 ( j 1,,m) :
(v)利用回归模型对 y 进行预报或控制。
§1 多元线性回归
回归分析中最简单的形式是 y 0 1x ,x, y 均为标量,
0 , 1 为回归系数,称一元线性回归。它的一个自然推广是 x 为
来自百度文库多元变量,形如
y 0 1x1 m xm
(1)
m 2 ,或者更一般地
y 0 1 f1(x) m fm (x) (2)
n
(iv)对总平方和 S ( yi y)2 进行分解,有 n i 1
S Q U , U ( yˆi y)2 (14) i 1
其中 Q 是由(10)定义的残差平方和,反映随机误差对 y 的影
响,U 称为回归平方和,反映自变量对 y 的影响。
1.4 回归模型的假设检验
因变量 y 与自变量 x1,, xm 之间是否存在如模型(1)所
Q /(n m 1)
(15)
在 显 著 性 水 平 下 有 1 分 位 数 F1 (m, n m 1) , 若
F F1 (m, n m 1) ,接受 H 0 ;否则,拒绝。
注意 拒绝 H 0 只说明 y 与 x1,, xm 的线性关系不明显,可
能存在非线性关系,如平方关系。
还有一些衡量 y 与 x1,, xm 相关程度的指标,如用回归平
示 的 线 性 关 系 是 需 要 检 验 的 , 显 然 , 如 果 所 有 的 | ˆ j |
( j 1,, m) 都很小, y 与 x1,, xm 的线性关系就不明显,
所以可令原假设为
H 0 : j 0( j 1,, m)
当 H0 成立时由分解式(14)定义的U,Q 满足
U /m
F
~ F(m, n m 1)
可作为随机误差 的估计,而
n
n
Q ei2 ( yi yˆi )2
i 1
i 1
为残差平方和(或剩余平方和),即 Q(ˆ ) 。
(10)
1.3 统计分析
不加证明地给出以下结果:
(i) ˆ 是 的线性无偏最小方差估计。指的是 ˆ 是Y 的
线性函数;ˆ 的期望等于 ;在 的线性无偏估计中,ˆ 的方
从数理统计的观点看,这里涉及的都是随机变量,我们根 据一个样本计算出的那些系数,只是它们的一个(点)估计, 应该对它们作区间估计或假设检验,如果置信区间太大,甚至 包含了零点,那么系数的估计值是没有多大意义的。另外也可 以用方差分析方法对模型的误差进行分析,对拟合的优劣给出 评价。简单地说,回归分析就是对拟合问题作的统计分析。
1)
,接受
H
( 0
j)
回归分析ppt
前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根 据得到的若干有关变量的一组数据,寻找因变量与(一个或几 个)自变量之间的一个函数,使这个函数对那组数据拟合得最 好。通常,函数的形式可以由经验、先验知识或对数据的直观 观察决定,要作的工作是由数据用最小二乘法计算函数中的待 定系数。从计算的角度看,问题似乎已经完全解决了,还有进 一步研究的必要吗?
H( j) 0
:
j
0
由(11)式,ˆ j ~ N( j , 2c jj ) ,c jj 是 ( X T X )1 对角线上的
元素,用
s
2
代替
2
,由(11)~(13)式,当
H
( 0
j)
成立时
tj
ˆ j / c jj
~ t(n m 1)
Q /(n m 1)
(17)
对给定的
,若 |
tj
|
t1
(n
m
其中 x (x1,, xm ) , f j ( j 1,, m) 是已知函数。这里 y 对回归
系数 (0 , 1,, m ) 是线性的,称为多元线性回归。不难看出,
对自变量 x 作变量代换,就可将(2)化为(1)的形式,所以
下面以(1)为多元线性回归的标准型。
1.1 模型 在回归分析中自变量 x (x1, x2 ,, xm ) 是影响因变量 y 的
主要因素,是人们能控制或能观察的,而 y 还受到随机因素的
干扰,可以合理地假设这种干扰服从零均值的正态分布,于是
模型记作
y 0 1x1 m xm ~ N(0, 2 )
(3)
其中 未知。现得到 n 个独立观测数据 ( yi , xi1,, xim ) ,
i 1,,n,n m ,由(3)得