多元回归模型与回归方程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X3
Y X1 2X2 3X3
Model R2=.55 Effect of X1: nonsig.; ry(1.23)=0
= Error
= Collinearity between X1, X2 and X3
A Model with No Collinearity
Model R2=0.37 X1: p-value<0.0001 X2: p-value<0.0001
• 多元线性回归模型的一般形式为:
Yi 0 1 X 1i 2 X 2i k X ki i
i=1,2,…,n
(2.3.1)
其中:k 为解释变量的数目;
习惯上把常数项看成为一个虚变量的系数,在参数 估计过程中该虚变量的样本观测值始终取1。这样:
模型中解释变量的数目为(k+1)。
i 1,2, , n
矩阵符号
3、 E( X T N ) 0 ,即
i E(i )
E
X 1i i
X
1i E(i
)
0
X Ki i X Ki E(i )
标量符号 4、(为了假设检验),随机扰动项服从正态分布
i ~ N (0, 2 ) i 1,2, , n
矩阵符号 4、向量 N 为一多维正态分布,即
多元回归模型与回归方程
多元线性回归模型的形式
由于: 在实际经济问题中,一个变量往往受到多个原 因变量的影响;“从一般到简单”的建模思路。
所以: 在线性回归模型中的解释变量有多个,至少开 始是这样。这样的模型被称为多元线性回归模 型。
多元线性回归模型参数估计的原理与一元线性 回归模型相同,只是计算更为复杂。
((ˆˆ00(ˆ0ˆˆ11XX1ˆ1i1i X1iˆˆ22i XXˆ222ii
X 2i ˆk ˆk X ki ˆk X ki
X ki ) ) X 1i ) X 2i
Yi Yi X 1i Yi X 2i
(ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X ki Yi X ki
(2.3.6)
解该(k+1)个方程组成的线性代数方程组,即可得 到 (k+1)个待估参数的估计值 j , j 0,1,2, , k 。
(2.3.6)的矩阵形式如下:
n
X1i
X1i
X
2 1i
Leabharlann Baidu
X ki
X ki X 1i
X ki
X1i X
X
2 ki
ki
ˆ0 ˆ1
ˆk
1度量着在X2,X3,…,Xk保持不变的情况下,X1 每变化1个单位时,Y的均值E(Y)的变化,或者说1 给出X1的单位变化对Y均值的“直接”或“净” (不含其 他变量)影响。
其他参数的含义与之相同。
最小样本容量
所谓“最小样本容量”,即从最小二乘原理和最 大或然原理出发,欲得到参数估计量,不管其质 量如何,所要求的样本容量的下限。
= Error = Collinearity
Collinear Predictors in Multiple OxyRgeen_gCornessumspitoionn =
55.37940 + 0.85780*Performance - 1.40429*Runtime; Model R2=.7492 Performance: p-value=.4272 Runtime: p-value=.5622
Collinear Predictors in Multiple Regression
Y X1
Model R2=.25
Effect of X1: p-value=.001 ry1=.50
= Error
continued...
Collinear Predictors in Multiple Regression
回归系数的推断
(置信区间)
回归系数在(1-)%置信水平下的置信区
间为
ˆi t 2 (n p 1)sˆi
回归系数的
抽样标准差
建模案例
《全国味精需求量的计量经济模型》
1.依据经济理论选择影响味精需求量变化的因素
依据经济理论一种商品的需求量主要取决于四 个因素,即①商品价格,②代用品价格,③消费者 收入水平,④消费者偏好。模型为:
rPerformance,Runtime = -0.98841
= Error = Collinearity
标量符号 2、随机误差项具有零均值、同方差及不序列相关
E(i ) 0
i 1,2, , n
Var ( i
)
E
(
2 i
)
2
i 1,2, , n
Cov(i , j ) E(i j ) 0
i j
矩阵符号
2、 E(N ) 0, E(NN T ) 2 I
1 E(1 )
E(N ) E 0
n E(n )
1
E(NN T ) E
1
n
12
n
E
n
1
1 n 2
2 n
0
0
2 I
2
标量符号
3、解释变量与随机项不相关
Cov( X ji , i ) 0
i=1,2,…,n
(2.3.3)
根据最小二乘原理,参数估计值应该是下列方程组的解:
其中
0
Q
0
1
Q
0
2
Q
0
k
Q
0
(2.3.4)
n
n
Q ei2 (Yi Yˆi )2
i 1
i 1
n
2
(Yi (ˆ0 ˆ1Y1i ˆ2Y2i ˆkYki ))
i 1
(2.3.5)
于是,得到关于待估参数估计值的正规方程组:
估计标准误差 Sy
1. 对误差项的标准差 的一个估计值 2. 衡量多元回归方程的拟合优度 3. 计算公式为
3 显著性检验
1 线性关系检验 2 回归系数检验和推断
线性关系检验
线性关系检验
1. 检验因变量与所有自变量之间的线性关系是 否显著
2. 也被称为总体的显著性检验 3. 检验方法是将回归均方和(MSR)同离差均方
估计值
▪ yˆ 是 y 的估计值
参数的最小二乘估计
普通最小二乘估计
普通最小二乘估计
随机抽取被解释变量和解释变量的 n 组样本观测值:
(Yi , X ji ), i 1,2, , n, j 0,1,2, k
如果模型的参数估计值已经得到,则有:
Yˆi ˆ0 ˆ1 X 1i ˆ2 X 2i ˆki X Ki
ˆ XXˆ )
0
ˆ
(YY
2(X'Y)'ˆ
ˆ XXˆ )
0
XY XXˆ 0
即得到
X Y X X
于是,参数的最小二乘估计值为:
( X X ) 1 X Y
多元回归方程及偏回归系数的含义
在经典回归模型的诸假定下,式(2.3.1)两边对 Y 求条
件期望得:
E(Yi | X1i , X 2i , , X ki ) 0 1 X 1i 2 X 2i k X ki
n
n
Q ei2 ( yi yi ) 2
i 1
i 1
e e (Y X) (Y X)
其中
e1
e
e2
en
根据最小二乘原理,参数估计值应该是下列方程组的解:
(Y
X)
(Y
X)
0
求解过程如下:
ˆ
(Y
ˆ X)(Y
Xˆ )
0
ˆ
(YY
ˆ XY
YXˆ
ˆ XXˆ )
0
ˆ
(YY
2Y'Xˆ
1. 回归平方和占总平方和的比例 2. 计算公式为
3. 因变量取值的变差中,能被估计的多元回 归方程所解释的比例
修正多重判定系数
(adjusted multiple coefficient of determination)
1. 用样本容量n和自变量的个数p去修正R2得到 2. 计算公式为
3. 避免增加自变量而高估 R2 4. 意义与 R2类似 5. 数值小于R2
1 X11 X k1
1 X12 Xk2
1 Y1
X1n Y2
X kn
Yn
即:
XXˆ XY
(2.3.7)
由于 XX 满秩,故有
( X X ) 1 X Y
(2.3.8)
• 估计过程的矩阵表示:
对于模型(2.3.3)式有:
Y X
被解释变量的观测值与估计值之差的平方和为:
和(MSE)加以比较,应用 F 检验来分析二者 之间的差别是否显著
如果是显著的,因变量与自变量之间存在线性 关系
如果不显著,因变量与自变量之间不存在线性 关系
线性关系检验
1. 提出假设
H0:12p=0 线性关系不显著 H1:1,2, p至少有一个不等于0
2. 计算检验统计量F
3. 确定显著性水平和分子自由度p、分母自由度n-
1. 用样本统计量 ˆ0 , ˆ1 , ˆ2 , , ˆ p 估计回归方 程中的 参数 0 , 1 , 2 , , p 时得到的方程
2. 由最小二乘法求得 3. 一般形式为
yˆ ˆ0 ˆ1x1 ˆ2x2 ˆp xp
▪ ˆ0 , ˆ1 , ˆ2 , , ˆ p是 0 , 1 , 2 , , p
(2.3.9)
称为多元回归方程(函数)。
多元回归分析(multiple regression analysis)是以 多个解释变量的固定值为条件的回归分析,并且所 获得的是诸变量X值固定时Y的平均值。各个i称为 偏回归系数(partial regression coefficients)。
偏回归系数的含义如下:
商品需求量 = f (商品价格,代用品价格,收入水平,消费者偏好)
4. 对每一个自变量都要单独进行检验 5. 应用 t 检验统计量
回归系数的检验
(步骤)
1. 提出假设
H0: i = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: i 0 (自变量 xi 与 因变量 y有线性关系)
2. 计算检验的统计量 t
3. 确定显著性水平,并进行决策
▪ t>t2,拒绝H0; t<t2,不拒绝H0
Y X1 2X2
Model R2=.40 Effect of X1: p-value=.01
ry(1.2)=.25
= Error
= Collinearity between X1 and X2
continued...
Collinear Predictors in Multiple Regression
下,可以采用普通最小二乘法(OLS)估计参数。
关于经典回归模型的假定
标量符号 1、解释变量 X1, X 2 , , X k 是非随机的或固定的;而且各 X 之 间互不相关(无多重共线性(no multicollinearity))
矩阵符号
1、 n (k 1) 矩阵 X 是非随机的;且 X 的秩 ( X ) k 1 ,此时 X T X 也是满秩的
N ~ N (0, 2 I )
多元回归方程
(multiple regression equation)
1. 描述因变量 y 的平均值或期望值如何依赖 于自变量 x1, x2 ,…,xp的方程
2. 多元线性回归方程的形式为
3.
E( y ) = 0+ 1 x1 + 2 x2 +…+ p xp
▪ ,2,,p称为偏回归系数 ▪ i 表示假定其他变量不变,当 xi 每变
• 多元线性回归模型的矩阵表达式为:
Y X
其中
(2.3.2)
1 x11 x21 X 1 x12 x22
1 x1n x2n
xk1
x
k
2
x
kn
n(k
1)
0
1
2
k ( k 1)1
1
2
n
n1
多元线性回归模型的基本假定
模型(2.3.1)或(2.3.2)在满足下述所列的基本假设的情况
样本最小容量必须不少于模型中解释变量的数目 (包括常数项)。
满足基本要求的样本容量
从参数估计角度:>3×解释变量数目 从检验的有效性角度:>30
3、模型的良好性质只有在大样本下才能得到 理论上的证明
回归方程的拟合优度
1 多重判定系数 2 估计标准误差
多重判定系数
多重判定系数
(multiple coefficient of determination)
p-1找出临界值F 4. 作出决策:若F>F ,拒绝H0
回归系数检验和推断
回归系数的检验
1. 线性关系检验通过后,对各个回归系数有选 择地进行一次或多次检验
2. 究竟要对哪几个回归系数进行检验,通常需 要在建立模型之前作出决定
3. 对回归系数检验的个数进行限制,以避免犯 过多的第一类错误(弃真错误)
动一个单位时,y 的平均变动值
二元回归方程的直观解释
二元线性回归模型
回归面
y
y 0 1x1 2x2
(观察到的y)
} 0
i
x2
(x1,x2)
x1
E( y) 0 1x1 2x2
估计的多元回归方程
估计的多元回归的方程
(estimated multiple regression equation)
Y X1 2X2 3X3
Model R2=.55 Effect of X1: nonsig.; ry(1.23)=0
= Error
= Collinearity between X1, X2 and X3
A Model with No Collinearity
Model R2=0.37 X1: p-value<0.0001 X2: p-value<0.0001
• 多元线性回归模型的一般形式为:
Yi 0 1 X 1i 2 X 2i k X ki i
i=1,2,…,n
(2.3.1)
其中:k 为解释变量的数目;
习惯上把常数项看成为一个虚变量的系数,在参数 估计过程中该虚变量的样本观测值始终取1。这样:
模型中解释变量的数目为(k+1)。
i 1,2, , n
矩阵符号
3、 E( X T N ) 0 ,即
i E(i )
E
X 1i i
X
1i E(i
)
0
X Ki i X Ki E(i )
标量符号 4、(为了假设检验),随机扰动项服从正态分布
i ~ N (0, 2 ) i 1,2, , n
矩阵符号 4、向量 N 为一多维正态分布,即
多元回归模型与回归方程
多元线性回归模型的形式
由于: 在实际经济问题中,一个变量往往受到多个原 因变量的影响;“从一般到简单”的建模思路。
所以: 在线性回归模型中的解释变量有多个,至少开 始是这样。这样的模型被称为多元线性回归模 型。
多元线性回归模型参数估计的原理与一元线性 回归模型相同,只是计算更为复杂。
((ˆˆ00(ˆ0ˆˆ11XX1ˆ1i1i X1iˆˆ22i XXˆ222ii
X 2i ˆk ˆk X ki ˆk X ki
X ki ) ) X 1i ) X 2i
Yi Yi X 1i Yi X 2i
(ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X ki Yi X ki
(2.3.6)
解该(k+1)个方程组成的线性代数方程组,即可得 到 (k+1)个待估参数的估计值 j , j 0,1,2, , k 。
(2.3.6)的矩阵形式如下:
n
X1i
X1i
X
2 1i
Leabharlann Baidu
X ki
X ki X 1i
X ki
X1i X
X
2 ki
ki
ˆ0 ˆ1
ˆk
1度量着在X2,X3,…,Xk保持不变的情况下,X1 每变化1个单位时,Y的均值E(Y)的变化,或者说1 给出X1的单位变化对Y均值的“直接”或“净” (不含其 他变量)影响。
其他参数的含义与之相同。
最小样本容量
所谓“最小样本容量”,即从最小二乘原理和最 大或然原理出发,欲得到参数估计量,不管其质 量如何,所要求的样本容量的下限。
= Error = Collinearity
Collinear Predictors in Multiple OxyRgeen_gCornessumspitoionn =
55.37940 + 0.85780*Performance - 1.40429*Runtime; Model R2=.7492 Performance: p-value=.4272 Runtime: p-value=.5622
Collinear Predictors in Multiple Regression
Y X1
Model R2=.25
Effect of X1: p-value=.001 ry1=.50
= Error
continued...
Collinear Predictors in Multiple Regression
回归系数的推断
(置信区间)
回归系数在(1-)%置信水平下的置信区
间为
ˆi t 2 (n p 1)sˆi
回归系数的
抽样标准差
建模案例
《全国味精需求量的计量经济模型》
1.依据经济理论选择影响味精需求量变化的因素
依据经济理论一种商品的需求量主要取决于四 个因素,即①商品价格,②代用品价格,③消费者 收入水平,④消费者偏好。模型为:
rPerformance,Runtime = -0.98841
= Error = Collinearity
标量符号 2、随机误差项具有零均值、同方差及不序列相关
E(i ) 0
i 1,2, , n
Var ( i
)
E
(
2 i
)
2
i 1,2, , n
Cov(i , j ) E(i j ) 0
i j
矩阵符号
2、 E(N ) 0, E(NN T ) 2 I
1 E(1 )
E(N ) E 0
n E(n )
1
E(NN T ) E
1
n
12
n
E
n
1
1 n 2
2 n
0
0
2 I
2
标量符号
3、解释变量与随机项不相关
Cov( X ji , i ) 0
i=1,2,…,n
(2.3.3)
根据最小二乘原理,参数估计值应该是下列方程组的解:
其中
0
Q
0
1
Q
0
2
Q
0
k
Q
0
(2.3.4)
n
n
Q ei2 (Yi Yˆi )2
i 1
i 1
n
2
(Yi (ˆ0 ˆ1Y1i ˆ2Y2i ˆkYki ))
i 1
(2.3.5)
于是,得到关于待估参数估计值的正规方程组:
估计标准误差 Sy
1. 对误差项的标准差 的一个估计值 2. 衡量多元回归方程的拟合优度 3. 计算公式为
3 显著性检验
1 线性关系检验 2 回归系数检验和推断
线性关系检验
线性关系检验
1. 检验因变量与所有自变量之间的线性关系是 否显著
2. 也被称为总体的显著性检验 3. 检验方法是将回归均方和(MSR)同离差均方
估计值
▪ yˆ 是 y 的估计值
参数的最小二乘估计
普通最小二乘估计
普通最小二乘估计
随机抽取被解释变量和解释变量的 n 组样本观测值:
(Yi , X ji ), i 1,2, , n, j 0,1,2, k
如果模型的参数估计值已经得到,则有:
Yˆi ˆ0 ˆ1 X 1i ˆ2 X 2i ˆki X Ki
ˆ XXˆ )
0
ˆ
(YY
2(X'Y)'ˆ
ˆ XXˆ )
0
XY XXˆ 0
即得到
X Y X X
于是,参数的最小二乘估计值为:
( X X ) 1 X Y
多元回归方程及偏回归系数的含义
在经典回归模型的诸假定下,式(2.3.1)两边对 Y 求条
件期望得:
E(Yi | X1i , X 2i , , X ki ) 0 1 X 1i 2 X 2i k X ki
n
n
Q ei2 ( yi yi ) 2
i 1
i 1
e e (Y X) (Y X)
其中
e1
e
e2
en
根据最小二乘原理,参数估计值应该是下列方程组的解:
(Y
X)
(Y
X)
0
求解过程如下:
ˆ
(Y
ˆ X)(Y
Xˆ )
0
ˆ
(YY
ˆ XY
YXˆ
ˆ XXˆ )
0
ˆ
(YY
2Y'Xˆ
1. 回归平方和占总平方和的比例 2. 计算公式为
3. 因变量取值的变差中,能被估计的多元回 归方程所解释的比例
修正多重判定系数
(adjusted multiple coefficient of determination)
1. 用样本容量n和自变量的个数p去修正R2得到 2. 计算公式为
3. 避免增加自变量而高估 R2 4. 意义与 R2类似 5. 数值小于R2
1 X11 X k1
1 X12 Xk2
1 Y1
X1n Y2
X kn
Yn
即:
XXˆ XY
(2.3.7)
由于 XX 满秩,故有
( X X ) 1 X Y
(2.3.8)
• 估计过程的矩阵表示:
对于模型(2.3.3)式有:
Y X
被解释变量的观测值与估计值之差的平方和为:
和(MSE)加以比较,应用 F 检验来分析二者 之间的差别是否显著
如果是显著的,因变量与自变量之间存在线性 关系
如果不显著,因变量与自变量之间不存在线性 关系
线性关系检验
1. 提出假设
H0:12p=0 线性关系不显著 H1:1,2, p至少有一个不等于0
2. 计算检验统计量F
3. 确定显著性水平和分子自由度p、分母自由度n-
1. 用样本统计量 ˆ0 , ˆ1 , ˆ2 , , ˆ p 估计回归方 程中的 参数 0 , 1 , 2 , , p 时得到的方程
2. 由最小二乘法求得 3. 一般形式为
yˆ ˆ0 ˆ1x1 ˆ2x2 ˆp xp
▪ ˆ0 , ˆ1 , ˆ2 , , ˆ p是 0 , 1 , 2 , , p
(2.3.9)
称为多元回归方程(函数)。
多元回归分析(multiple regression analysis)是以 多个解释变量的固定值为条件的回归分析,并且所 获得的是诸变量X值固定时Y的平均值。各个i称为 偏回归系数(partial regression coefficients)。
偏回归系数的含义如下:
商品需求量 = f (商品价格,代用品价格,收入水平,消费者偏好)
4. 对每一个自变量都要单独进行检验 5. 应用 t 检验统计量
回归系数的检验
(步骤)
1. 提出假设
H0: i = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: i 0 (自变量 xi 与 因变量 y有线性关系)
2. 计算检验的统计量 t
3. 确定显著性水平,并进行决策
▪ t>t2,拒绝H0; t<t2,不拒绝H0
Y X1 2X2
Model R2=.40 Effect of X1: p-value=.01
ry(1.2)=.25
= Error
= Collinearity between X1 and X2
continued...
Collinear Predictors in Multiple Regression
下,可以采用普通最小二乘法(OLS)估计参数。
关于经典回归模型的假定
标量符号 1、解释变量 X1, X 2 , , X k 是非随机的或固定的;而且各 X 之 间互不相关(无多重共线性(no multicollinearity))
矩阵符号
1、 n (k 1) 矩阵 X 是非随机的;且 X 的秩 ( X ) k 1 ,此时 X T X 也是满秩的
N ~ N (0, 2 I )
多元回归方程
(multiple regression equation)
1. 描述因变量 y 的平均值或期望值如何依赖 于自变量 x1, x2 ,…,xp的方程
2. 多元线性回归方程的形式为
3.
E( y ) = 0+ 1 x1 + 2 x2 +…+ p xp
▪ ,2,,p称为偏回归系数 ▪ i 表示假定其他变量不变,当 xi 每变
• 多元线性回归模型的矩阵表达式为:
Y X
其中
(2.3.2)
1 x11 x21 X 1 x12 x22
1 x1n x2n
xk1
x
k
2
x
kn
n(k
1)
0
1
2
k ( k 1)1
1
2
n
n1
多元线性回归模型的基本假定
模型(2.3.1)或(2.3.2)在满足下述所列的基本假设的情况
样本最小容量必须不少于模型中解释变量的数目 (包括常数项)。
满足基本要求的样本容量
从参数估计角度:>3×解释变量数目 从检验的有效性角度:>30
3、模型的良好性质只有在大样本下才能得到 理论上的证明
回归方程的拟合优度
1 多重判定系数 2 估计标准误差
多重判定系数
多重判定系数
(multiple coefficient of determination)
p-1找出临界值F 4. 作出决策:若F>F ,拒绝H0
回归系数检验和推断
回归系数的检验
1. 线性关系检验通过后,对各个回归系数有选 择地进行一次或多次检验
2. 究竟要对哪几个回归系数进行检验,通常需 要在建立模型之前作出决定
3. 对回归系数检验的个数进行限制,以避免犯 过多的第一类错误(弃真错误)
动一个单位时,y 的平均变动值
二元回归方程的直观解释
二元线性回归模型
回归面
y
y 0 1x1 2x2
(观察到的y)
} 0
i
x2
(x1,x2)
x1
E( y) 0 1x1 2x2
估计的多元回归方程
估计的多元回归的方程
(estimated multiple regression equation)