第二章 线性回归

合集下载

第二章简单线性回归模型

第二章简单线性回归模型
2586
4000
2037 2210 2325 2419 2522 2665 2799 2887 2913 3038 3167 3310 3510
2754
4500
2277 2388 2526 2681 2887 3050 3189 3353 3534 3710 3834
3039
5000 5500
2469 2924 2889 3338 3090 3650 3156 3802 3300 4087 3321 4298 3654 4312 3842 4413 4074 4165
Yi 与 E(Yi Xi )不应有偏差。若偏
差u i 存在,说明还有其他影响因素。
Xi
X
u i实际代表了排除在模型以外的所有因素对 Y 的影
响。 u i
◆性质 是其期望为 0 有一定分布的随机变量
重要性:随机扰动项的性质决定着计量经济分析结19
果的性质和计量经济方法的选择
引入随机扰动项 u i 的原因
特点:
●总体相关系数只反映总体两个变量 X 和 Y 的线性相关程度 ●对于特定的总体来说,X 和 Y 的数值是既定的,总体相关系
数 是客观存在的特定数值。
●总体的两个变量 X 和 Y的全部数值通常不可能直接观测,所
以总体相关系数一般是未知的。
7
X和Y的样本线性相关系数:
如果只知道 X 和 Y 的样本观测值,则X和Y的样本线性
计量经济学
第二章 一元线性回归模型
1
未来我国旅游需求将快速增长,根据中国政府所制定的 远景目标,到2020年,中国入境旅游人数将达到2.1亿人 次;国际旅游外汇收入580亿美元,国内旅游收入2500亿 美元。到2020年,中国旅游业总收入将超过3000亿美元, 相当于国内生产总值的8%至11%。

第二章 经典线性回归模型

第二章 经典线性回归模型

它表明,对于n个时期t =1,2,…,n,该模型成立。
6
更一般的形式为:
Yi xi ui
i 1,2,...,n
(2.4)
即模型对X和Y的n对观测值(i=1,2,…,n)成立。 (2.3)式一般用于观测值为时间序列的情形,在横 截面数据的情形,通常采用(2.4) 式。
7
例2.1 城镇居民家庭人均消费方程 根据凯恩斯的绝对收入消费理论,在其它 条件不变的情况下,消费与可支配收入同方向变 动,即消费曲线的斜率为正。根据中国2006年31 个省市的城镇居民家庭平均每人全年可支配收入 income(单位:元)和城镇居民家庭平均每人全年 消费性支出consume的数据(单位:元),画出散 点图如下:
(6)各解释变量之间不存在严格的线性关系。
上述假设条件可用矩阵表示为以下四个条件:
18
A1. E(u)=0 A2. E (uu) 2 I n
由于
u1 u2 uu u1 u2 ... u n
2
u12 u1u2 ...... u1un 2 u2u1 u2 ...... u2un ... un ................................. 2 unu1 unu2 ...... un
8
15,000 14,000 13,000 12,000
CONSUME
11,000 10,000 9,000 8,000 7,000 6,000 8,000
12,000
16,000 INCOME
20,000
24,000
从图中看出,两变量之间呈线性关系,可建立城镇居 民家庭人均消费方程如下:
C o n su m e * In c o m e u

第二章 多元线性回归

第二章  多元线性回归

第二章多元线性回归§2.1 基本概述一、回归的任务多元线性回归(MLR)(multiple linear regression)是分析一个随机变量与多个变量之间线性关系的统计方法。

回归(Regression)起源于19世纪生物学家F·高尔顿进行的遗传学研究。

其核心是“普通最小平方法”(Ordinary Least Squares)OLS。

多元回归将所研究的变量分为:确定自变量和因变量的关系是回归分析的主要任务:(1)根据实测数据求解某一模型的各个参数;(2)评价回归模型是否较好地拟合实例数据;(3)利用模型进行预测。

需要注意的是:(1) 因变量必须是间距测度等级以上的变量(有时也包含定性变量。

见《应用回归分析》)(也称为连续变量)。

自变量可以是任意等级的变量。

(2)既使模型正确通过检验,也不能确定X、Y之间的因果关系,而只能确认存在着统计关系。

[例] 不同地区的人均食品支出与人均收入的关系(图2–1);汽车重量与每加仑燃料行驶英里值的关系;(图2–2)。

图2–1图2–2二、一元线性回归的回顾1. 模型i i i x Y εββ++=10 (2.1)当获得n 组样本观测值(x 1 , y 1),(x 2 , y 2),…(x n ,y n )的数据时,如果符合2.1式,则有n i X Y iii,,2,11=++=εββ (2.2)2.1式称为理论回归模型;2.2式称为样本回归模型。

有时不加以区分地将两者称为一元线性回归模型。

通过n 组观测值,用OLS 法对10,ββ进行估计,得10ˆ,ˆββ,则称为Y 关于X 的一元线性方程。

其中: 1β 回归系数,说明X 与Y 之间的变化关系。

2.普通最小二乘法估计的统计性质(OLSE Estimation ) (1)残差:ii iY Y e ˆ-=,用来说明拟合效果,可以看作误差项εi 的估计值。

⎪⎩⎪⎨⎧==∑∑00ii i e x e 因为 )(ˆˆX X Y Y-+=β,所以 0)(ˆ)()ˆ(=---=-=∑∑∑∑X X Y Y Y Y e β 但∑=ni i e 1||很麻烦,经常用∑2i e 来说明。

第二章 一元线性回归模型(本科生计量经济学)

第二章 一元线性回归模型(本科生计量经济学)

即:正规方程组揭示的是残差的性质。
26
普通最小二乘估计有关 的其他性质(课后习题)
Y Y

^
e Y e y
i ^ i
^
i
0 0
27
i
2、由普通最小二乘估计系数的性质可证
得普通最小二乘估计与参数的关系如下:
1 1 k i u i
^
0 0 wi ui
( 1) ( 2)
( 1)
0 Y 1 X
^

^

Y

1 n
Y , X X
i 1 i 1 n i 1
n

n
i
18
参数的普通最小二乘估计量
ˆ ˆ X )0 (Yi 0 1 i ˆ ˆ X )X 0 ( Y i 0 1 i i
^
33
三、一元线性回归模型参数的最大似 然法(Maximum Likehood,ML)估计
• 基本原理:似然原理
• 一元线性回归模型ML使用的条件:已知随机扰动 项的分布。
34
Y1 , Y2 ,...,Yn
1 f (Yi ) e 2
1 2
1 2
2
Yi ~ N (0 1 X i , 2 )
w 1
i
22
普通最小二乘估计的例
年份
1991 1992 1993 1994
ED(X)
708 793 958 1278
FI(Y)
3149 3483 4349 5218
ed(x)
-551 -466 -301 19
fi(y)
-2351 -2017 -1151 -282

第二章 一元线性回归

第二章 一元线性回归

n ei 0 i 1 n xe 0 i i i 1
经整理后,得正规方程组
n n ˆ ˆ n ( x ) 0 i 1 yi i 1 i 1 n n n ( x ) ˆ ( x 2 ) ˆ xy i 0 i 1 i i i 1 i 1 i 1
y ˆ i 0 1xi ˆi 之间残差的平方和最小。 使观测值 y i 和拟合值 y
ei y i y ˆi
n
称为yi的残差
ˆ , ˆ ) ˆ ˆ x )2 Q( ( y i 0 1i 0 1
i 1
min ( yi 0 1 xi ) 2
i
xi x
2 ( x x ) i i 1 n
yi
2 .3 最小二乘估计的性质
二、无偏性
ˆ ) E ( 1
i 1 n
n
xi x
2 ( x x ) j j 1 n
其中用到
E ( yi )
( x x) 0 (xi x) xi (xi x)2
二、用统计软件计算
1.例2.1 用Excel软件计算
什么是P 值?(P-value)
• P 值即显著性概率值 ,Significence Probability Value

是当原假设为真时所得到的样本观察结果或更极端情况 出现的概率。
P值与t值: P t t值 P值



它是用此样本拒绝原假设所犯弃真错误的真实概率,被 称为观察到的(或实测的)显著性水平。P值也可以理解为 在零假设正确的情况下,利用观测数据得到与零假设相 一致的结果的概率。
2 .1 一元线性回归模型

第2章 线性回归

第2章  线性回归

体重与体表面 积的关系
回归分析是用来研究非确定性关系的一种统计分析方法
2.1.3 相关分析与回归分析

相关分析就是对两个变量之间线性关系的描述和度量。 统计关系的形态大体上可以分为线性相关、非线性相 关、完全相关和不相关等几种。
相关关系的种类:
1、按相关关系涉及变量的多少可分为: 单相关
是两个变量之间存在的相关关系,
量是随机的。而回归分析一般都假设解释变量是确定性的, 在重复抽样中取固定的值;被解释变量是随机的,它有一 个概率分布。回归分析的目的就是要通过给定解释变量的 值来预测或控制被解释变量的总体均值或个别值。
2.1.3 相关分析与回归分析

相关分析和回归分析的联系

在进行回归分析之前,一般要确定变量之间的线性关

不同形态的散点图
10名学生的身高与体重散点图
体重(Y)
75 70 65 60 55 50 45 40 158 163 168
身高(X)
ˆ y a bx
173
178
2.1.3 相关分析与回归分析量之间有无相关关系,并对 变量之间的关系形态做出大致的描述,但散点图不能准 确反映变量之间的关系密切程度。 因此,为准确地度量两个变量之间的关系密切程度,需 要计算相关系数。 相关系数是对变量之间密切程度的度量。对两个变量之 间线性相关程度的度量称为简单相关系数。若相关系数 是根据总体全部数据计算出来的,称为总体相关系数 ; 若是根据样本数据计算出来的,则称为样本相关系数 。 样本相关系数的计算公式为:
系是否密切,这就要依赖相关分析。

变量之间的相关系数与回归分析中的拟合程度存在一
定关系。
2.1.4 随机误差项

第二章 一元线性回归模型 知识点

第二章 一元线性回归模型 知识点

第二章一元线性回归模型一、知识点列表二、关键词1、回归分析基本概念关键词:回归分析在计量经济学中,回归分析方法是研究某一变量关于另一(些)变量间数量依赖关系的一种方法,即通过后者观测值或预设值来估计或预测前者的(总体)均值。

回归的主要作用是用来描述自变量与因变量之间的数量关系,还能够基于自变量的取值变化对因变量的取值变化进行预测,也能够用来揭示自变量与因变量之间的因果关系关键词:解释变量、被解释变量影响被解释变量的因素或因子记为解释变量,结果变量被称为被解释变量。

2、回归模型的设定关键词:随机误差项(随机干扰项)不包含在模型中的解释变量和其他一些随机因素对被解释变量的总影响称为随机误差项。

产生随机误差项的原因主要有:(1)变量选择上的误差;(2)模型设定上的误差;(3)样本数据误差;(4)其他原因造成的误差。

关键词:残差项(residual )通过样本数据对回归模型中参数估计后,得到样本回归模型。

通过样本回归模型计算得到的样本估计值与样本实际值之差,称为残差项。

也可以认为残差项是随机误差项的估计值。

3、一元线性回归模型中对随机干扰项的假设 关键词:线性回归模型经典假设线性回归模型经典假设有5个,分别为:(1)回归模型的正确设立;(2)解释变量是确定性变量,并能够从样本中重复抽样取得;(3)解释变量的抽取随着样本容量的无限增加,其样本方差趋于非零有限常数;(4)给定被解释变量,随机误差项具有零均值,同方差和无序列相关性。

(5)随机误差项服从零均值、同方差的正态分布。

前四个假设也称为高斯马尔科夫假设。

4、最小二乘估计量的统计性质关键词:普通最小二乘法(Ordinary Least Squares ,OLS )普通最小二乘法是通过构造合适的样本回归函数,从而使得样本回归线上的点与真实的样本观测值点的“总体误差”最小,即:被解释变量的估计值与实际观测值之差的平方和最小。

ββ==---∑∑∑nn n222i i 01ii=111ˆˆmin =min ()=min ()i i i i u y y y x关键词:无偏性由于未知参数的估计量是一个随机变量,对于不同的样本有不同的估计量。

第二章 简单线性回归模型

第二章 简单线性回归模型

Y 的条件均值
E (Y X i )
55
75
95
115
135
155
175
195
215
235
之间的对应关系是: 家庭可支配收入 X 与平均消费支出 E ( Y X i ) 之间的对应关系是:
E ( Y X i ) = 15 + 2 X 3
i
的条件期望表示为解释变量的某种函数称为总体函数。 这种把总体应变量 Y 的条件期望表示为解释变量的某种函数称为总体函数。简记 PRF。 为 PRF。
(三)回归与相关的联系与区别
两者的区别在于: 用途不同—— ——相关分析是用相关系数去度量变量之间线性 (1)用途不同——相关分析是用相关系数去度量变量之间线性 关联的程度,而回归分析却要根据解释变量的确定值, 关联的程度,而回归分析却要根据解释变量的确定值,去估计和预测 被解释变量的平均值; 被解释变量的平均值; 变量性质不同—— ——相关分析中把相互联系的变量都作为随 (2)变量性质不同——相关分析中把相互联系的变量都作为随 机变量, 机变量, 而在回归分析中, 而在回归分析中, 假定解释变量在重复抽样中具有固定数值, 假定解释变量在重复抽样中具有固定数值, 是非随机的,被解释变量才是随机变量。 是非随机的,被解释变量才是随机变量。 对变量的因果关系处理不同—— ——回归分析是在变量因果关 (3)对变量的因果关系处理不同——回归分析是在变量因果关 系确定的基础上研究解释变量对被解释变量的具体影响,对变量的处 系确定的基础上研究解释变量对被解释变量的具体影响, 理是不对称的, 而在相关分析中, 把相互联系的变量都作为随机变量, 理是不对称的, 而在相关分析中, 把相互联系的变量都作为随机变量, 是对称的。 是对称的。

第二章 一元线性回归模型

第二章  一元线性回归模型
0 1
∂Q ˆ ˆ = −2∑ (Yi − β 0 − β1 X i ) = 0 ∂β ˆ0 ˆ ˆ ∂Q = −2∑ (Y − β − β X )X = 0 i 0 1 i i ˆ ∂β1
化简得: 化简得:
ˆ ˆ ∑ (Yi − β 0 − β1 X i ) = 0 ˆ ˆ ∑ (Yi − β 0 − β1 X i )X i = 0
2.总体回归方程(线)或回归函数 总体回归方程( 总体回归方程 即对( )式两端取数学期望: 即对(2.8)式两端取数学期望:
E y i)= β 0 + β 1 x i (
(2.9)
(2.9)为总体回归方程。由于随机项的影响,所 )为总体回归方程。由于随机项的影响, 有的点( )一般不在一条直线上; 有的点(x,y)一般不在一条直线上;但所有的点 (x,Ey)在一条直线上。总体回归线描述了 与y )在一条直线上。总体回归线描述了x与 之间近似的线性关系。 之间近似的线性关系。
Yi = β X i + ui
需要估计, 这个模型只有一个参数 需要估计,其最 小二乘估计量的表达式为: 小二乘估计量的表达式为:
∑XY ˆ β= ∑X
i i 2 i
例2.2.1:在上述家庭可支配收入-消费支出例中,对 :在上述家庭可支配收入-消费支出例中, 于所抽出的一组样本数据, 于所抽出的一组样本数据,参数估计的计算可通过下面 的表2.2.1进行。 进行。 的表 进行
二、一元线性回归模型 上述模型中, 为线性的, 上述模型中, 若f(Xi)为线性的,这时的模型 为线性的 一元线性回归模型: 即为 一元线性回归模型:
yi = β 0 + β1 xi + ui 其中:yi为被解释变量,xi为解释变量,ui为随机误 差项,β 0、β1为回归系数。

计量经济学(2012B)(第二章多元线性回归)详解

计量经济学(2012B)(第二章多元线性回归)详解

2 2i
n
n
2 i
i ( yi ˆ1x1i ˆ2 x2i )
i 1
i 1
n
i yi
n
(
y
ˆ x
ˆ x
) y
i1
i
1 1i
2 2i
i
i 1
n
y 2

n
x
y
ˆ
n
x
y )
i1
i
1 i1 1i i
2 i1 2 i i
TSS ESS
2.5 单个回归参数的置信区间 与显著性检验
一、置信区间
H (4)
的拒绝域为:
0
F F (2, n 3)
(5) 推断:若
F F (2, n 3)
,则拒绝 H , 0
认为回归参数整体显著;
H 若 F F (2, n 3)
,则接受

0
认为回归参数整体上不显著。
回归结果的综合表示
yˆi 0.0905 0.426x1i 0.0084x2i
Sˆj : 或 t:
模型的估计效果. (5) 拟合优度与F 检验中的 F 统计量的关系是什么?这两个
量在评价二元线性回归模型的估计效果上有何区别? (6) 试比较一元线性回归与二元线性回归的回归误差,哪
个拟合的效果更好?
应用:
(1)预测当累计饲料投入为 20磅时,鸡的平均
重量是多少? yˆ 5.2415 f
(磅)
(2)对于二元线性回归方程,求饲料投入的边际生产率?
(0.1527) (0.0439)
(0.5928) (9.6989)
(0.0027) (3.1550)
R2 0.9855, R2 0.9831 , F 408.9551

第二章一元线性回归模型

第二章一元线性回归模型
2

(c)比较绝对值 t1 与 tα 2 的大小。若 t1 > tα ,则拒绝原假设,判 定 β1 ≠ 0 ,解释变量 x 解释功效显著;若 t1 < tα ,则接受原假设,
2
判定
, x β1 = 0 不是有效的解释变量。
§2.3 显著性检验
(三)一元线性回归模型示例 例2.1 y=JYL,x=DSCYCZZZL,
ˆ β1 = β1 + ∑
xi − x u 2 i ∑(xi − x)
ˆ Eβ0 = β0
ˆ Eβ1 = β1
OLS估计的统计性质 §2.2 OLS估计的统计性质
在一切线性无偏估计中, ˆ ˆ 3. 在一切线性无偏估计中, β0 , β1独具最小方差
1 x2 ˆ var(β0 ) =σ 2 ( + ) 2 n ∑(xi − x)
0 ≤ R2 ≤ 1
2 R2 = rxy
计算公式
ˆ β12 ∑(xi − x)2 2 R = ∑( yi − y)2
OLS估计的统计性质 §2.2 OLS估计的统计性质
(一)线性回归模型的基本假定:
假定1. 解释变量是确定性变量,不具有随机性 假定2. (零均值假定) 假定3. (同方差假定)
Eui = 0 , i = 1 ,2 ,L, n
y = β0 + β1x + u
yi = β0 + β1xi + ui
{yi , xi }
i =1 ,2 ,L, n
i =1 ,2 ,L, n
§2.1 普通最小平方估计
(一)普通最小平方估计(OLS) 普通最小平方估计 待定回归函数 残差 残差平方和 驻点条件
ˆ ˆ ˆ y = β0 + β1x

第2章一元线性回归模型

第2章一元线性回归模型

布图上的点接近于一条曲线时,称为非线性相关。简单相关按
符号又可分为 正相关 (见图2.3.4 )、负相关 (见图2.3.8 )和零 相关 (见图2.3.6 )。两个变量趋于在同一个方向变化时,即同
增或同减,称为变量之间存在正相关;当两个变量趋于在相反
方向变化时,即当一个变量增加,另一个变量减少时,称为变 量之间存在负相关;当两个变量的变化相互没有关系时,称为
4、普通最小二乘法
为什么要使用OLS? (1)OLS的应用相对简便; (2)以最小化残差平方和为目标在理论很合理; (3)OLS估计量有很多有用的性质。 1)估计的回归线通过Y和X的均值。下列等式总是
ˆ ˆX 严格成立的:设下,可以证明,OLS是 “最优”的估计方法。
2.2.2 最小二乘估计量的性质
一个用于考察总体的估计量,可从如下几个方面考察其
优劣性: (1)线性。即它是否是另一个随机变量的线性函数;
(2)无偏性。即它的均值或期望是否等于总体的真实值;
(3)有效性。即它是否在所有的线性无偏估计量中具有 最小方差; (4)渐近无偏性。 即样本容量趋于无穷大时,它的均值 序列趋于总体的真值; (5)一致性。即样本容量趋于无穷大时,它是否依概率 收敛于总体的真值;
1.总变差的分解
ˆ b ˆX ˆ b Yt的估计值位于估计的回归线 Y t 0 1 t 上,Y围绕其均值的变异 (Y Y )可被分解为两部分:
ˆ Y ) (1) (Y t
ˆ) (2) (Yt Y t
样本回归函数:
3.相关系数检验
(1)变量相关的定义和分类
相关:指两个或两个以上变量间相互关系的程度或强度。
2 2 ˆ e ( Y Y ) i i OLS 最小化 i i 1 i 1

第二章 简单线性回归模型

第二章 简单线性回归模型
●样本回归线还不是总体回归线,至多只是未知 总体回归线的近似表现。
23
样本回归函数的表现形式
样本回归函数如果为线性函数,可表示为
Yˆi ˆ1ˆ2Xi
其中: Y ˆ i 是与 X i 相对应的 Y 的样本条件均值
ˆ 1 和 ˆ 2 分别是样本回归函数的参数
应变量 Y
的实际观测值 Y
不完全等于样本条件
1650 1900 2150 2400 2650
5000 2464 2589 2790 2856 2900 3021 3064 3142 3274
5500 2824 3038 3150 3201 3288 3399
2900 3150 14
二、总体回归函数(PRF)
1. 总体回归函数的概念
前提:假如已知所研究的经济现象的总体应变
计量经济学中: 线性回归模型主要指就参数而言是“线性”,因为
只要对参数而言是线性的,都可以用类似的方法估计1其8
三、随机扰动u 项
◆概念:
Y
各个 Y i 值与条件均值
E (Y
X i)
的偏差
u
代表
i
排除在模型以外的所有
因素对 Y 的影响。

u

Xi
X
◆性质:u i 是期望为0有一定分布的随机变量
重要性:随机扰动项的性质决定着计量经济方
或 Yi 12Xiui

ui

Xi X
16
3.如何理解总体回归函数
●实际的经济研究中总体回归函数通常是未知的, 只能根据经济理论和实践经验去设定。“计量” 的目的就是寻求PRF。
●总体回归函数中 Y与 的X 关系可是线性的,也可是
非线性的。 对线性回归模型的“线性”有两种解释

第二章 简单线性回归解读

第二章 简单线性回归解读

例: 某农场1971年至 1980年每英亩的谷物 产量(bushel)和化肥施 用量(pound)之间的数 据见表,求出产量与 化肥施用量之间的关 系。 data21.xls
注:蒲式耳(谷物,水果等容量单位, 美=35.238升,英=36.368升) 1 pound (磅)=0.4536 kilogram (千克) 1 acre (英亩)=0.405 hectare (公顷)
2 i




2

SSR 0 ˆ 0
SSR 0 ˆ 1

ˆ ˆ Y n i 0 1 Xi
2 ˆ ˆ X Y X X i i 0 i 1 i
从而
正规方程
ˆ Y ˆX 0 1
n X iYi X i Yi ˆ 1 2 2 n X i X i
计量经济学
ECONOMETRICS
回归的由来
回归(Regression)一词来源于19世纪英国生物学家葛 尔登(Francis Galton, 1822-1911)对人体遗传特征的 实验研究。他根据实验数据发现,双亲高的孩子个子 高,双亲矮的孩子个子矮,然而高和矮却不是无限制 的,总是越来越趋向于人的平均身高,他称这种现象 为“回归”。 现在统计学上回归指的是变量之间的依存关系。
SSR U dfU
R
检验统计量
SSR R SSR U df F
dfU
原假设成立时服从自由度为1,n-2的F分布 给定显著性水平,查表得临界值 F1 1, n 2 若 F F1 1, n 2 ,则拒绝原假设
H0 :

XY
0, H1 :
F
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

,在相同位置取极值。
Company Logo
线性回归的MLE
线性回归的似然函数
l ( ) log pD | p( yi | xi, )
i 1 N
极大似然可等价地写成极小负log似然损失 (negative log likelihood, NLL)
Company Logo


xid为示例xi在第d个属性上的值 这里yi是实际观测值,所以加上εi,从ε的计算中也可得知。

ε=|β0+β1xi1+β2xi2+...+βdxip-yi|. d>=2,称为多元线性回归。p=1,一元线性回归
2
ε ~N(0, )
Company Logo
数学模型
为书写方便,常用矩阵形式 注:这里常数参数写到了矩阵中
Company Logo
y y
n i i 1
* 2 i
= arg min yi β0 - β1xi
β0, β1 i 1
n
2
经过对β0,β1求极值可得到: n _ _ x i x y i y * = β 1 = i 1 n _ 2 x i x i 1
线性回归 regression analysis
回归分析
一元线性回归
多元线性回归
广义线性回归(略)
非线性回归(略)
线性判别(略)
Company Logo
回归分析
现实生活中,总会遇到这样一些问题:
在电路分析中,求电压、电流、电阻之间的关系 在炼钢过程中,钢水中C含量与钢材质量之间的关系 在医学上,测量身高体重,来研究人的血压与年龄的关系 等等 判断西瓜是否好瓜 这样的关系主要分为两类: 确定性的关系。例如:I=U/R 变量间有一定关系,但因情况错综复杂而无法精确研究; 因无法避免的误差而导致。研究这种类型的关系需要大量 的数据和试验,用统计学的方法发现变量间的统计规律, 这种方法被称为回归分析。
一元线性回归
2 2
Company Logo
一元线性回归
本例中,12个点基本处于同一条直线上,因此我们假设:
Y=β0+β1x+ε
β0为回归常数,β1为回归系数,通常假定: ε ~N(0, σ 2 ),为随机误差。 如果(x1, y1), (x2, y2), . . . (xn, yn)是 (X, Y ) 的一
线性回归的MLE
将概率模型 似然函数: 代入上式中得到

其中RSS表示残差平方和(residual sum of squares), 也就是均方误差和,如下所示:
Company Logo
线性回归MLE推导
Company Logo
MLE的几何解释
Company Logo
MLE的几何解释
Company Logo

Company Logo
基本形式
p个属性的示例x=(x1,x2,...,xp),xi是x在第i个属性上的 取值,线性模型试图学得一个通过属性的线性组合来进行预测 的函数: f(x)=β1x1+β2x2+...+βpxp+β0 T 向量形式f(x)= x b β=(β1,β2,...,βp) 例如判断是否好瓜: f(x)=0.2*色泽+0.5*根蒂+0.3*敲声+1 通过计算会得到一个预测值f(x),这个过程称被称为预测; 给定一个阈值,判断f(x)的与阈值之间的大小关系,常被 称为分类;这也是回归分析的两个主要作用。
MLE的几何解释
Company Logo
最小二乘法OLS
类似于一元线性回归,求参数β的估计值β*就是
T *= y Xβ arg min y X β β
求导得:β*=
β
X
T
X XTy
1
* * * * Y β β X 1 β 最终回归方程为: 0 1 p Xp
Company Logo
R语言例子
根据训练得到的模型进行预测

实际上得到的是一个预测区间。y0的置信度为1-α的预测区 间近似为

当x0=0.16时,相应Y的概念为0.95的预测区间 new <- data.frame(x = 0.16) lm.pred<-predict(lm.sol, new, interval="prediction", level=0.95) lm.pred

lm()线性回归 glm()广义线性回归 anova()提取方差 coefficients()提取模型系数 deviance()计算残差平方和 formula()公式比如Y~1+X plot()绘制点图 predict()预测函数 residuals()计算残差 summary()显示函数 具体用法也不详述,请大家help(函数名),里面很多参数 供有兴趣的同学探讨——熟能生巧
Company Logo
最小二乘法OLS
不直接计算逆矩阵:β*= X T X



1
XTy
如果X 不满秩,
不存在
Company Logo
最小二乘法OLS
Company Logo
最小二乘法OLS
Company Logo
最小二乘法OLS与MLE的关系
OLS是基于均方误差最小化
线性MLE(利用高斯模型的MLE) 只是回归系数的计算可转化为OLS 的计算,并不说明两者是同一概念; 因为,Laplace分布的极大似然估 计等价于最小经验L1损失;等等 注:OLS的损失函数为L2损失
lm.sol<-lm(y ~ 1+x)

lm()表示线性模型, y ~ 1+x表示的是Y=β0+β1x+ε 注:1可省略,表示常数项β0(默认隐藏) 显示该模型的详细信息
summary(lm.sol)
Company Logo
R语言例子
Pr(>|t|)表示P-值,显著性标记,*越多,越显著。下 面还有一些统计学概念和数据,感兴趣的同学自己研究。
数据装载: blood<-data.frame( X1=c(76.0, 91.5, 85.5, 82.5, 79.0, 80.5, 74.5,79.0, 85.0, 76.5, 82.0, 95.0, 92.5), X2=c(50, 20, 20, 30, 30, 50, 60, 50, 40, 55,40, 40, 20), Y= c(120, 141, 124, 126, 117, 125, 123, 125,132, 123, 132, 155, 147) ) 构建模型并显示

Company Logo
多元线性回归
设变量Y与属性x1,x2,...,xp的关系为: Y=β1x1+β2x2+...+βpxp+β0+ε 设(xi1, xi2, · · · , xip, yi), i = 1, 2, · · · ,n是 ������ (X1,X2, · · · ,Xp, Y ) 的n次独立观测值。则: yi=β0+β1xi1+β2xi2+...+βdxip+εi 注意:



Company Logo
R语言动手演练
讨论本例中气压和沸点之间的关系
Company Logo
R语言动手演练
X <- matrix(c( 194.5, 20.79, 1.3179, 131.79, 194.3, 20.79, 1.3179, 131.79, 197.9, 22.40, 1.3502, 135.02, 198.4, 22.67, 1.3555, 135.55, 199.4, 23.15, 1.3646, 136.46, 199.9, 23.35, 1.3683, 136.83, 200.9, 23.89, 1.3782, 137.82, 201.1, 23.99, 1.3800, 138.00, 201.4, 24.02, 1.3806, 138.06, 201.3, 24.01, 1.3805, 138.05, 203.6, 25.14, 1.4004, 140.04, 204.6, 26.57, 1.4244, 142.44, 209.5, 28.49, 1.4547, 145.47, 208.6, 27.76, 1.4434, 144.34, 210.7, 29.04, 1.4630, 146.30, 211.9, 29.88, 1.4754, 147.54, 212.2, 30.06, 1.4780, 147.80), ncol=4, byrow=T, dimnames = list(1:17, c("F", "h", "log", "log100")))

画出回归直线
Company Logo
R语言动手演练

R语言简单易学,且非常实用,其可扩展性和高 度自定义性、免费特性,使其能在与MATLAB、 SAS、SPSS中占有一席之地

函数看不懂?

help(函数名) 例如:help(matrix) so easy
Company Logo
线性回归常用函数
Company Logo
回归参数估计
参数的估计就是对权值的估计 常用的优化方法 极大似然估计MLE(略) 最小二乘法OLS(R语言使用) 梯度下降法(没有R包) 随机梯度下降法(略) 贝叶斯方法(略) 牛顿法(略)
Company Logo
相关文档
最新文档