一元回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通常假定
~ N (0, )
2
设 ( x1 , y1 ), ( x2 , y 2 ), , ( xn , y n ) 是 ( x, y ) 的一组
观测值,则
yi 0 1 xi i i 1,2,, n
i 1,2,, n
假设 观测值 ( x1 , y1 ), ( x2 , y 2 ), , ( xn , y n ) 相互独立
ˆ, ˆ 称为回归参数 , 的最小 0 1 0 1
n
Q( 0 , 1 ) ( yi 0 值总是存在的
ˆ , ˆ 应满足 因此 0 1
Q 0

0
ˆ , ˆ ( 0 1)
Q 1
0
ˆ , ˆ ( 0 1)
y1 , y2 ,, yn 相互独立 1 , 2 ,, n 相互独立
假设 x1 , x2 ,, xn 是确定性的变量,其值是可以精确 测量和控制的.
1.最小二乘估计
设 ( x1 , y1 ), ( x2 , y 2 ), , ( xn , y n )是( x, y )的一组
观测值,对每个样本观测值 ( xi , yi )考虑 y i与其回归值
E ( y i ) 0 1 xi
的离差
yi E ( yi ) yi 0 1 xi
综合考虑每个离差值,定义离差平方和
Q ( 0 , 1 ) y i E ( y i ) ( y i 0 1 xi )
若记 Lxx
n
(x x ) x
2 i 1 i i 1 n 2
n
n
2
i
nx
n i
2
Lxy ( xi x )( yi y )
i 1 n i 1 i 1
x y nxy
i 1 i
2 2 y ny Lyy ( yi y ) i
ˆ a
ˆ 0 1 x y
y
o
xi
x
若它不是显著地 大, 表明我们所选 的x , 并不是一个 重要的因素.
它的作用和随机因素的作用相当, 于是由 数据得到的回归方程就没有什么意义.
可见, S S 的影响部分与随机因素 影响部分的相对比值.
y
ˆi yi y
ˆ y
2 2 / 残 为x 回
下面我们来讨论这两个问题.
4.线性回归方程的显著性检验
对任意两个变量的一组观察值 (xi, yi), i=1, 2, …, n 都可以用最小二乘法形式上求得 y 对 x的 回归方程, 如果y 与x 没有线性相关关系, 这种形式的回归方程就没有意义 . 因此需要考察 y 与 x 间是否确有线性相 关关系, 这就是回归效果的检验问题.
y
o
xi
x
ˆi, ˆ i和 yi y 于是观测值yi可以分解为两部分 y ˆ i ( yi y ˆi ) yi y
并且 yi y 也可分解为两部分. ˆi y ) ( yi y ˆi ) yi y ( y
因此, y1, y2, …, yn 的总变差为 :
y
ˆi yi y
n ˆ ˆ x ) 0, ( y i 0 1 i i 1 n ˆ ˆ x )x 0. ( y i 0 1 i i i 1
整理得正规方程组
ˆ n x ˆ ny , n 1 0 n n ˆ 2 ˆ n x 0 ( xi ) 1 xi y i . i 1 i 1 n ( xi x )( yi y ) n 1 ˆ i 1 x xi 1 n n i 1 2 ( xi x ) i 1 1 n y yi ˆ y ˆx 0 1 n i 1
2 i 1 i 1
n
n
2
所谓最小二乘法,就是寻找参数 0 , 1 的估计值
ˆ ˆ ˆ ˆ ,使得离差平方和达到极小值 , 即选择 , 0 , 1 0 1 ˆ ˆ Q Q ( , ) min Q( , ) 使得
e 0 1 0 1
满足上式的
二乘估计。 由于
2 T 2 i 1 n i 1 2 2 n 2
n
n
2
2 2 ˆi y ) ( yi y ˆi ) S回 ST ( y S残
i 1 i 1
定理6
2 S回

1 0 时 S 2 与S 2 相互独立,且
如果
与随机变量y之间存在相关关系,
——解释变量
y ——被解释变量 ε ——其它随机因素的影响,通常假设ε 是不可观 测的随机误差,它是一个随机变量. 多元线性回归模型 :
多元线性回归方程 :
第一节 一元线性回归
一元线性回归模型
y 0 1 x
一元线性回归方程
ˆ ˆx ˆ y 0 1
y
i
145.4
xi 2.595 xi yi 85.61
2
y
2 i
3104.2
所求的线性回归方程为
ˆ 13.9584 12.5503x y
2.
的估计
残差/剩余平方和 --因随机因素引起的误差
定理1
从而
的无偏估计为
Qe 的计算
2 2 ˆ ˆ ( yi y ) 2 1 ( yi y )( xi x ) 1 ( xi x ) 2 i 1 i 1 i 1
这种大量存在的变量间既互相联系但 又不是完全确定的关系,称为相关关系.
从数量的角度去研究这种关系,是数 理统计的一个任务. 这包括通过观察和试 验数据去判断变量之间有无关系,对其关 系大小作出数量上的估计 , 对互有关系的 变量通过其去推断和预测其它,等等. 回归分析就是研究相关关系的一种重 要的数理统计方法.
F 检验
ˆ ˆ x 只反映了x对y的 ˆ 我们注意到 y 0 1 ˆ i 就是yi中只受xi影响的 影响,所以回归值 y ˆi 则是除去 xi的影响后, 那一部分, 而 yi y ˆi 称 受其它种种因素影响的部分, 故将 yi y 为残差.
y
ˆi yi y
ˆ y
yi
ˆ a
ˆ 0 1 x y
让我们来看一下有联系的变量之间的关系:
例如, 矩形的面积S和矩形的两条边长a和 b有关系: b S a S=a. b
又如著名的欧姆定律指出, 电压V、电阻R 与电流I之间有关系:
V=I. R
以上两例的共同点在于,三个量中任意 两个已知,其余一个就可以完全确定. 也就 是说,变量之间存在着确定性的关系,并且 可以用数学表达式来表示这种关系. 然而,在大量的实际问题中,变量之 间虽有某种关系,但这种关系很难找到一 种精确的表示方法来描述.
(1)t 检验
检验假设 由于 ,因此当原假设成立时,有
Qe ˆ n2
2


相互独立

相互独立
=>该假设检验问题的拒绝域为
ˆ L t 1 xx t / 2 (n 2) ˆ
例3 检验例1中的线性回归是否显著. 解 检验假设 拒绝域为
由例2得
=>拒绝
即认为线性回归显著
ˆ L /L , 1 xy xx

ˆ y ˆx 0 1
ˆ y ˆ x y ˆ ˆx 0 1 0 1
例1 在钢线碳含量x对于电阻效应y的研究中, 得到 了以下数据:
碳含量(%) 0.10 0.30 0.40 0.55 0.70 0.80 0.95
电阻(微欧) 15
从事应用的统计学者对此都很感兴趣 . 本章对 回归分析的基础知识和应用作简单介绍。主要 包括一元线性回归与多元线性回归。介绍回归 分析中的参数估计,假设检验以及预测等内容
从浩瀚无垠的宇宙到微小的分 子、原子,从无机界到有机界,从 自然到社会,无一事物不处在与其 他事物的联系之中 . 事物之间不仅存 在着相互联系,而且还具有一定的 内部规律.
yi
ˆ a
o
xi
如果它显著地大, ˆ 0 1 x y 表明x的作用是显 著地比随机因素 y 大, 这样, 方程 就有意义. x
通常我们可假设y和x没有线性相关关系, 对回归方程是否有意义进行显著性检验.
ˆi y ) ( yi y ˆi ) S ( yi y ) ( y
S
2 回反映了由于自变量x 的变化引起的因
变量 y 的差异,体现了x对y的影响; 而 S 反映了种种其它因素对y的影响, 这些 因素没有反映在自变量中, 它们可作为随机 因素看待.
2 残
可见, S S 的影响部分与随机因素 影响部分的相对比值.
y
ˆi yi y
ˆ y
2 2 / 残 为x 回
yi
18
19
21
22.6
23.8
26
假设对于给定的 x,y 为正态变量, 且方差与 x 无关. 如果x,y满足经验公式 y 0 1 x, 求线性回归方程
ˆ ˆx ˆ y 0 1
解 设 y 0 1 x ,
~ N 0,
2

现在 n 7,
x
i
3.8,
n
2
S
S
2 R
2
2 T
S
2 残
2 总
2 ˆ ( yi yi ) i 1
n
i 1
Se
即 S 可以分解为两部分 : 回归平方和 S 2 与残差平方和 S 残 .
2 回
S S S
2 总 2 回
2 回 n
n
2 残
2
ˆi y ) S (y
i 1
2 ˆi )2 S残 ( yi y i 1
例如,人的身高与体重之间有一定的关系, 知道一个人的身高可以大致估计出他的体重, 但并不能算出体重的精确值.
其原因在于人有较大的个体差异, 因而身高 和体重的关系, 是既密切但又不能完全确定 的函数关系.
类似的变量间的关系在大自然和社会中 屡见不鲜. 例如 , 小麦的穗长与穗重的关系 ; 某班学生最 后一次考试分数与第一次考试分数的关系;温 度、降雨量与农作物产量间的关系;人的年龄 与血压的关系; 家庭收入与支出的关系等等.
ˆ y
yi
ˆ a
S
ˆ 0 1 x y
y
2 总
( yi y )
i 1
n
2
o
xi
x
可以证明
S
2 总
( yi y )
2 i 1
n
ˆ y) ( y y ˆ) ( y
2 i 1 i i 1 i i
n
n
2
ˆi y ) S (y
2 回
y x 1
高尔顿对此进行了深入研究 . 他们将观察值在平面直角 坐标系上绘成散点图,发现趋势近乎一条直线,计算出的回归 直线方程为
ˆ 33.73 0.516 x y
在回归分析中, 当变量只有两个时, 称为 一元回归分析; 当变量在两个以上时, 称为多 元回归分析. 变量间成线性关系, 称线性回归, 变量间不具有线性关系, 称非线性回归.
第六章 回归分析

回归分析的目的:依靠观察数据建立变量间的关系, 分析数据规律。 回归分析的内容:
参数回归分析
回归分析 非参数回归分析
线性回归分析 非线性回归分析
• 本章内容:线性回归分析。
回归分析是描述数据处理方法的一门应用
学科,它是统计学者常用的工具,它理论完善
,计算方法灵活巧妙,无论从事理论研究还是
n
n
n
ˆ L /L , 1 xy xx
的无偏估计.
例2 求例1中 解 由例1得
3.最小二乘估计量的性质
定理2
定理3
都是
的线性组合
的最小二乘估计都是无偏的,即
定理4
因此在获得回归方程后,通常要问这样的问题: (1)回归方程是否有意义? 即自变量x的变化是否 真的对因变量y有影响? 因此,有必要对回归效果作 出检验. (2)如果方程真有意义,用它预测y时,预测值与 真值的偏差能否估计?
回归分析的基本思想是由英国著名生物学家兼统 计学家F.高尔顿(F.Galton:1822-1911)在研究人 类遗传问题时提出的. 他和他的学生、现代统计学的奠基者之一 K. 皮 尔逊( K.Pearson : 1856-1936 )在研究父母亲身高 与其子女身高的遗传关系时 , 观察了 1078 对夫妇 , 他 们观察的这 1078 对夫妇的平均身高为 68 英寸,而其 成年儿子的平均身高为69英寸.
相关文档
最新文档