统计学线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一. 一元线性回归
1.一元线性回归是研究一个自变量与一个因变量的统计 关系。
例:人均收入 X 与人均食品消费支出 Y 的散点图的关
系如图。
人 均 食 品 支 出 Y
人均收入X
这两个变量之间的不确定关系,可以用下式表示:
Y 1 2X u
式中,人均食品消费支出Y 是被解释变量, 人均收入 X
第十章 线性回归分析
变量之间的关系有两种:
确定型的函数关系
不确定型的函数关系
这里主要研究不确定型的函数关系,如收入 与受教育程度之间的关系,等等问题。 但它们 之间存在明显的相互关系(称为相关关系),又 是不确定的。
回归分析是研究随机变量之间相关关系的统计方 法。其研究一个被解释变量(因变量)与一个或 多个解释变量(自变量)之间的统计关系。
511 382950 562500 260712
1018 1068480 1102500 1035510
963 1299510 1822500 926599
5769300 7425000 4590020
640000 352836 1210000 407044 1960000 1258884 2890000 1334025 4000000 1982464 5290000 2544025 6760000 3876961 8410000 4318084 10240000 6682225 12250000 6400900 53650000 29157448
有可能不成立, 以后讨论不成立时如何处理). (5) ui 服从 N(0, 2u )分布; (6) E(Xiuj)=0, 对Xi 的性质有两种解释:
a. Xi 视为随机变量, 但与uj无关, 所以(6)成立. b. Xi 视为确定型变量, 所以(6)也成立.
3. 普通最小二乘法 (OLS)
设线性回归模型
ˆ1
xi yi 5769300 0.777 xi2 7425000
ˆ0 Y ˆ0 X 1567 0.777 2150 103 .172 因此,由该样本估计的回归方程为:
Yˆi 103.172 0.777Xi
5. 几何解释
残差向量 e =Y – Ŷ = (Y-Y) - (Ŷ-Y) = y- ŷ 向量 y, ŷ, e 三者之间关系如图所示,
如果把X,Y的样本观测值代到线性回归方程中,就得 到
Yi 1 2 X i ui i =1,2, …,n, n为样本容量.
从重复抽样的角度看, Xi,Yi也可以视为随机变量。
2. 高斯基本假设
对于线性回归模型
Yi 1 2 X i ui i =1,2, …,n, n为样本容量.
Yi
Y
ˆ1 Y ˆ2 X
ˆ 2的另一个表达式为:
ˆ2
xT y xT x
x, y x x
例::在上述家庭可支配收入-消费支出例中,对于所抽 出的一组样本数,参数估计的计算可通过下面的表进行。
参数估计的计算表
Xi
Yi
xi
yi
xi yi
xi2
yi2
X
2 i
Yi 2
1 800 594 -1350 2 1100 638 -1050 3 1400 1122 -750 4 1700 1155 -450 5 2000 1408 -150 6 2300 1595 150 7 2600 1969 450 8 2900 2078 750 9 3200 2585 1050 10 3500 2530 1350 求和 21500 15674 平均 2150 1567
y
e
x
yˆ ˆ 2 x
普通最小二乘法要使残差平方和 e2i 最小, 也就是 要使 e 的长度尽可能小, 等价于在几何上 e x . 或者 说, ŷ 的长度应当是 y 在 x 上的投影长度.
-973 1314090 1822500 947508
-929 975870 1102500 863784
-445 334050 562500 198381
-412 185580 202500 170074
-159 23910 22500 25408
28 4140 22500
762
402 180720 202500 161283
是解释变量,1, 2是待估计参数;u 是随机干扰项,
且与 X 无关, 它反映了 Y 被 X 解释的不确定性。
如果随机干扰项 u 的均值为 0, 对上式求条件均值, 有
E(Y X ) 1 2 X
反映出从“平均”角度看,是确定性关系。
例:地区的多孩率与人均国民收入的散点图如下:
多 孩 率 Y
人均收入X
这两个变量之间的不确定关系,大致可以用下式表示:
Y 1 2 LnX u
设 Z =Ln X ,可将上式线性关系为:
Y 1 2Z u
线性回归的任务:就是用恰当的方法,估计出参 数 1, 2 ,并且使估计出来的参数具有良好的统 计特征,所以,回归问题从某种视角看,视同参 数估计问题。
(Yi ˆ1 ˆ2 X i )2
最小. 为此, 分别求Q 对 ˆ1, ˆ2的偏导, 并令其为零:
Q
Q
ˆ1 0, ˆ2 0
由上两式, 就可求出待估参数 ˆ1, ˆ2的值.
4. 所求参数的计算公式
Biblioteka Baidu
ˆ2
xi yi xi2
, 其 中 ,xi
Xi
X,
yi
Y 1 2X u
其中 ˆ1, ˆ2 为1, 2 的估计值, 则 Y 的计算值Ŷ, 可以
用下式表达:
Yˆ ˆ1 ˆ2 X
所要求出待估参数 ˆ1, ˆ2, 要使 Y 与其计算值Ŷ之间 的“误差平方和”最小. 即: 使得
Q
(Y
Yˆ
2
)
ei2
高斯基本假设如下: (1) ui 为随机变量 ( 本假设成立, 因为我们研究就是不
确定关系). (2) E(ui) =0, 随机干扰项的期望值等于零(本假设成立,
如果其均值不是零, 可以把它并入到 1 中). (3) Var(ui) =2u , 随机干扰项的方差等于常数(本假设
有可能不成立, 以后讨论不成立时如何处理). (4) E(uiuj)=0 (ij) 随机干扰项协方差等于零(本假设