线性回归分析的基本步骤
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
步骤一、建立模型
知识点:
1、总体回归模型、总体回归方程、样本回归模型、样本回归方程 ①总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。Y X U β=+
特点:由于随机误差项U 的存在,使得Y 和X 不在一条直线/平面上。 例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X )与每周消费(Y )数据如下:
作出其散点图如下:
②总体回归方程(线):由于假定0EU =,因此因变量的均值与自变量
总处于一条直线上,这条直线()|E Y X X β=就称为总体回归线(方程)。 总体回归方程的求法:以例1的数据为例
由于01|i i i E Y X X ββ=+,因此任意带入两个X i 和其对应的E (Y |X i )值,即可求出01ββ和,并进而得到总体回归方程。
如将()()2227
77100,|77200,|137X E Y X X E Y X ====和代入
()01|i i i E Y X X ββ=+可得:0100117710017
1372000.6ββββββ=+=⎧⎧⇒⎨⎨=+=⎩⎩
以上求出01ββ和反映了E (Y |X i )和X i 之间的真实关系,即所求的总体回归方程为:()|170.6i i i E Y X X =+,其图形为:
③样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。
如在例1中,通过抽样考察,我们得到了20个家庭的样本数据:
那么描述样本数据中因变量Y 和自变量X 之间非确定依赖关系的模型
ˆY X e β
=+就称为样本回归模型。 ④样本回归方程(线):通过样本数据估计出ˆβ
,得到样本观测值的拟合值与解释变量之间的关系方程ˆˆY X β=称为样本回归方程。如下图所示:
⑤四者之间的关系:
ⅰ:总体回归模型建立在总体数据之上,它描述的是因变量Y 和自变量X 之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之上,它描述的是因变量Y 和自变量X 之间的近似于真实的非确定型依赖
关系。这种近似表现在两个方面:一是结构参数ˆβ
是其真实值β的一种近似估计;二是残差e 是随机误差项U 的一个近似估计;
ⅱ:总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值E (Y |X )与自变量X 之间的线性关系;样本回归方程是根据抽样数据得到
的,它描述的是因变量Y 样本预测值的拟合值ˆY
与自变量X 之间的线性关系。
ⅲ:回归分析的目的是试图通过样本数据得到真实结构参数β的估计值,并要求估计结果ˆβ
足够接近真实值β。由于抽样数据有多种可能,每一次抽样所得到的估计值ˆβ
都不会相同,即β的估计量ˆβ是一个随机变量。因此必须选择合适的参数估计方法,使其具有良好的统计性质。 2、随机误差项U 存在的原因: ①非重要解释变量的省略 ②人的随机行为 ③数学模型形式欠妥
④归并误差(如一国GDP 的计算) ⑤测量误差等
3、多元回归模型的基本假定 ①随机误差项的期望值为零()0i E U =
②随机误差项具有同方差性2() 1,2,
,i Var u i n σ==
③随机误差项彼此之间不相关(,)0 ; ,1,2,,i j Cov u u i j i j n =≠= ④解释就变量X 1,X 2,···,X k 为确定型变量,与随机误差项彼此不相关。
(,)0 1,2,
, 1,2,
,ij j Cov X u i k j n ===
⑤解释就变量X 1,X 2,···,X k 之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵X 为满秩矩阵:rank (X )=k +1 步骤二、参数估计 知识点: 1、最小二乘估计的基本原理:残差平方和最小化。 2、参数估计量: ① 一元回归:1201ˆˆˆi i i x y x Y X βββ⎧= ⎪⎨ ⎪=-⎩∑∑ ② 多元回归: ()1ˆT X X X Y β-'= 3、最小二乘估计量的性质(Gauss-Markov 定理): 在满足基本假设的情况下,最小二乘估计量ˆβ是β的最优线性无偏估计量(BLUE 估计量) 步骤三、模型检验 1、经济计量检验(后三章内容) 2、统计检验 ①拟合优度检验 知识点: ⅰ:拟合优度检验的作用:检验回归方程对样本点的拟合程度 ⅱ:拟合优度的检验方法:计算(调整的)样本可决系数22/R R 21RSS ESS R TSS TSS = =-,2/1 1/1 ESS n k R TSS n --=- - 注意掌握离差平方和、回归平方和、残差平方和之间的关系以及它们 的自由度。 计算方法:通过方差分析表计算 例2:下表列出了三变量(二元)模型的回归结果: 1) 样本容量为多少? 解:由于TSS 的自由度为n -1,由上表知n -1=14,因此样本容量n =15。 2) 求ESS 解:由于TSS =ESS +RSS ,故ESS =TSS -RSS =77 3) ESS 和RSS 的自由度各为多少? 解:对三变量模型而言,k =2,故ESS 的自由度为n -k -1=12 RSS 的自由度为k =2 4) 求22R R 和 解:2 659650.998866042RSS R TSS = ==,2/1 10.9986/1 ESS n k R TSS n --=-=-