2一元线性回归模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
考察某个超市中容量为1升的可乐的售价与销量之间的 关系,尽管相同售价时销量并不一定相同,但是多次试 验后可以看出随价格增加销量减少的普遍规律。
画一“尽量靠近”所有散点的 曲线可以推测回归线是斜率为 负数的直线。
何为“回归”?
研究货币工资变化率和失业率的关系,右图中给出了历史 数据所表现的散点图
下:
yˆiuˆi ˆ1 xiuˆi ˆ1 xi ( yi ˆ1xi ) ˆ1 xi yi ˆ12 xi2 ˆ12 xi2 ˆ12 xi2
0
(5)残差 uˆi 和 X i 不相关;就是说
uˆi Xi 0
因为用最小二乘法时要求:(
uˆi2 )
ˆ1
2
uˆi Xi 0
上面给出的参数的点估计,根据“概率论与数理统计”的 相关知识,我们自然想到用估计量的评价标准,评价一下 我们的结果。
再由 uˆi
Yi
ˆ0
ˆ1
X
,故
i
uˆi
0 ,即

0

从式子 Yi ˆ0 ˆ1Xi uˆi 的两端,
减去 Y ˆ0 ˆ1X 的两端,
可得
Yi Y ˆ1(Xi X ) uˆi ,
若写成离差形式为 yi ˆ1xi uˆi.
SRF可写成: yˆi ˆ1xi.
(4)残差 uˆi 和预测的 Yi 值不相关。这一陈述可验证如
随机干扰项的意义
1、理论的模糊性 2、数据的欠缺 3、核心变量与周边变量 4、人类行为的内在随机性 5、不令人满意的替代变量 6、节省原则 7、不准确的函数形式
假设总体中u的平均值为零,即E(u)=0. 假定u的平均值与x的值无关,则
E(u | x)= E(u)=0.
以为条件对 y 0 1x u 取期望,并利用E(u | x)=0,
图中的曲线是把货币工 资变化率同失业率联系 起来的著名的菲利普斯 曲线(Phillips curve) 之一例。
这次的回归线是一条曲线。
统计关系与确定性关系
(1)确定关系 两个物体之间的引力与它们的质量的关系; 弹力与弹簧伸长量之间的关系 。 (2)统计关系 消费与收入的关系; 儿子身高与父亲身高的关系; 农作物收成对气温、降雨、阳光以及施肥的依赖关系。 我们这门课程主要研究的是统计关系!
一元线性回归模型
南开大学数学科学学院 白晓棠
何为“回归”?
回归一词最先由弗朗西斯·高尔顿 (Francis Galton )引入。
高尔顿发现,虽然有个趋势——父母高, 儿女也高;父母矮儿女也矮,但是给定父 母的身高儿女的平均身高却趋向于或者 “回归”到全体人口的平均身高。
高尔顿的普遍回归定律(law of universal regression) 被他的朋友卡尔·皮尔逊证实了。
几个例子
CEO的年薪与所在公司在过去三年里的平均股本回报率 (ROE)之间的关系的例子中:
salary 963.19118.501roe, R2 0.0132
美国众议院两党竞选的选举结果和竞选支出之间的关系的 例子中:
voteA 26.81 0.464shareA, R2 0.856
度量单位和函数形式
线性 非线性
几个一元线性回归的例子
假设大豆收成由以下模型决定 yield 0 1 fertilizer u
一个人的工资水平与他的可测教育水平及其他非观测因素 的关系
wage 0 1educ u
期末考试分数取决于出勤率和影响考试成绩的其他无法观 测因素 score 0 1attend u
收益率,样本回归函数会是怎样的?
salary 963.1911850.1roedec
度量单位和函数形式
若解释变量为超额净资产收益率( abroe ),且假定平
均净资产收益率为5%,样本回归函数为:
salary 1055.696 18.501abroe
R2会因为解释变量或被解释变量的度量单位或原点位置发 生改变而随之改变吗?
同方差性和异方差性
同方差性和异方差性
正(负)序列相关及零相关
最小二乘法的基本假定
假定6:ui和Xi的协方差为零。 cov(ui , Xi ) E[ui Eui ][ Xi EXi ] E[ui (Xi EXi )] E(ui Xi ) 0
假定7:观测次数n必须大于待估计的参数个数。 假定8:X值要有变异性。 假定9:正确地设定了回归模型。
回归分析
回归分析研究一个变量对另一(些)变量的依赖关系,但它 并不一定意味着因果关系。
因变量(Dependent variable);被解释变量(Explained variable);预测子(Predictand);回归子 (Regressand);响应;内生;结果;被控变量。
自变量(Independent variable);解释变量 (Explainatory variable);预测元(Predictor);回归 元(Regressor) ;刺激变量;外生;共变;控制变量。
var(ˆ1)
2
, xi2
s(ˆ1)
,
xi2
var(ˆ0 ) n
X
2 i
xi2
2
,
s(ˆ0)
n
X
2 i
xi2
.
2为 ui 的共同方差,可用下面的公式来估算:
ˆ 2 uˆi2 n2
几个例子
上面所讨论的工资与所受教育程度的关系,以1976年的 劳动力为总体,根据526个样本数据得到下面的OLS回归 结果:
1
1
求出使得Q值最小的 0 和 1 的估计。
利用微积分的基本知识我们可以得到用于估计它们是两个 方程:
Yi nˆ0 ˆ1 X i
Yi Xi ˆ0
X i ˆ1
X
2 i
将两个方程联立解得
ˆ1
n n
X iYi Xi2 (
X i Yi Xi )2
( Xi X )(Yi Y ) (Xi X )2
在CEO年薪的例子中,我们选择的是用千美元来计算年 薪,样本回归函数为:
salary 963.19118.501roe
如果改用美元( salarydol )来计算年薪,样本回归函数 会是怎样的?
salarydol 96319118501roe 如果改用数值( roedec ),而不是百分数来计算净资产
便得到:
E( y | x) 0 1x
总体回归函数(population regression function PRF)E( y | x) 0 1x ,是x的一个线性函数。
这样y就分成两部分, 0 1x 称为的系统部分;u称为非 系统部分。
样本回归函数
样本回归函数(sample regression function, SRF)
salary 963.19118.501roe
其中roe的单位为百分数,即若ROE为8%则变量roe的取 值为8.
判定系数 r 2:“拟合优度”的一个度量
yi2 (Yi Y )2为实测的Y值围绕其均值的总变异,称为总
平方和(Total Sum of Squares, TSS)。
yˆi2 (Yˆi Yˆ )2 (Yˆi Y )2 ˆ12 xi2 为估计的Y值围绕
经典(又称高斯或标准)线性回归(记为CLRM)有10个 假定。
假定1:线性回归模型 Yi 0 1Xi ui 。 假定2:X是非随机的。 假定3:干扰项ui的均值为零。 假定4:同方差性或ui的方差相等。(异方差) 假定5:各个干扰项之间无自相关性。无序列相关或无自
相关;正相关;负相关;零相关。
何为“线性”?
两个变量之间的统计关系:
y 0 1x u
其中变量u被称为关系式中的误差项(error term)或者 干扰项(disturbance)。
“线性”回归一词总是指对参数为线性的一种回归;对解 释变量X则可以是或不是线性的。
y 0 1x2 u y 0 12 x u
利用推导的结果,我们可以将ESS和RSS记为
ESS r2 TSS
RSS TSS ESS
r2 yi2
(1 r2 ) yi2
再考虑一下 r 2 的形式,你想到了什么?
r2 ( xi yi )2 xi2 yi2
令 r
xi yi
,r 称为相关系数。
xi2 yi2
r 的一些性质。(值域,对称性,与原点尺度无关等)
其均值的变异,称为解释平方和(Explained Sum of
Squares, ESS )。
uˆi2 (Yi Yˆi )2 为残差或未被解释的围绕回归线的Y值的
变异,称为残差平方和(Residual Sum of Squares,
RSS ).
TSS=ESS+RSS 这说明总变异由两部分组成:
普通最小二乘法(OLS)
给定一组样本观测值Xi, Yi(i=1,2,…n),要求样本回归 方程尽可能好地拟合这组值,即样本回归线上的点与真实 观测点的“总体误差”尽可能地小。
最小二乘法给出的标准是两者之差的平方和最小
n
n
Q (Yi Yˆi )2 = (Yi (ˆ0 ˆ1 X i ))2
定义 r2 ESS (Yˆi Y )2
TSS
(Yi Y )2
于是
r2
yˆi2 ˆ12 xi2
yi2
yi2
ˆ12
xi2 yi2
(上下同除n,
小本除n
1得)
ˆ12
S
2 x
S
2 y
由于ˆ1
xi yi ,故 r 2还可以表达成
xi2
r2 ( xi yi )2 xi2 yi2
何为“回归”?
考虑高尔顿的普遍回归定律,我们想回答这样一个问题, 给定父辈的身高如何预测儿辈的身高?
考虑右侧的散点图,假 设该图上的点表示给定 父亲身高时测量得到的 儿子的身高。
可以看出随着父亲身高 的增加,儿子的身高也 增加。
何为“回归”?
为了更清晰的看清这种趋势,我们画一条直线使之“尽 量靠近”所有点,此线称为回归线(regression line).
1、它是线性的,即它是一个随机变量,如回归模型中的 因变量Y的线性函数。
2、它是无偏的,即它的均值或期望值 E(ˆ1) 等于真实
值 1。
3、它是有效的,即它在所有这样的线性无偏估计量一类 中有最小方差。
最小二乘估计的精度或标准误差
最小二乘估计是样本数据的函数,估计量的可靠性如何?
用var表示方差,s表示标准差,则有
wage 0.9 0.54educ
根据1988年美国众议院173次两党竞选的选举结果和竞选 支出数据得到下面的OLS回归结果:
voteA 26.81 0.464shareA
几个例子
CEO的年薪与所在公司在过去三年里的平均股本回报率 (ROE)之间的关系,以1990年209位CEO的数据为样 本得到下面的OLS回归结果:
Yˆi ˆ0 ˆ1Xi
Yˆi 为 E(Y | Xi )的估计量
ˆ0 为 0 的估计量 ˆ1 为 1 的估计量
我们还可以把SRF表达成它的随机形式如下:
Yi ˆ0 ˆ1Xi uˆi
uˆi 表示(样本)残差项。
利用SRF的表达式,可将所观测到的Yi表达为:
Yi Yˆi uˆi
模型的基本假定
可得 Y ˆ0 ˆ1X 。
(2)估计的Y(= Yˆi )均值等于实测的Y的均值,因为 Yˆi ˆ0 ˆ1Xi (Y ˆ1X ) ˆ1Xi Y ˆ1(Xi X )
等式两边对样本值求和再除以样本容量n得:Yˆ Y
(3)残差 uˆi 的均值为零。因为由最小二乘法得
2 (Yi ˆ0 ˆ1Xi ) 0
不会!
ˆ0
X
2 i
Yi
Xi
X iYi
n Xi2 ( Xi )2
Y ˆ1X
定义 xi Xi X 和 yi Yi Y ,从此以后我们将遵循一个 惯例:用小写字母表示对均值的离差。
用此记法我们有 ˆ1
xi yi xi2
Leabharlann Baidu
回归线有下面一些性质:
(1)它通过Y和X的样本均值,因为由 ˆ0 Y ˆ1X
何为“一元”、“多元”?
一元回归分析(simple regression analysis):研究一 个变量对一个自变量的依赖关系,如消费支出对实际收 入的依赖。
多元回归分析( multiple regression analysis ):研究 一个变量对多于一个自变量的依赖关系,如农作物的收 成依赖于降雨、气温、阳光和施肥。
相关文档
最新文档