应用回归分析,第7章课后习题参考答案
应用回归分析课后习题参考答案_全部版__何晓群_刘文卿
第一章回归分析概述1.2 回归分析与相关分析的联系与区别是什么?答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.第二章一元线性回归分析思考与练习参考答案2.1一元线性回归有哪些基本假定?答:假设1、解释变量X是确定性变量,Y是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(εi)=0 i=1,2, …,nVar (εi)=σ2i=1,2, …,nCov(εi,εj)=0 i≠j i,j= 1,2, …,n假设3、随机误差项ε与解释变量X之间不相关:Cov(X i, εi)=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布εi~N(0, σ2) i=1,2, …,n2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。
第七章回归与相关分析练习及答案
第七章回归与相关分析一、填空题1.现象之间的相关关系按相关的程度分为、和;按相关的形式分为和;按影响因素的多少分为和。
2.两个相关现象之间,当一个现象的数量由小变大,另一个现象的数量,这种相关称为正相关;当一个现象的数量由小变大,另一个现象的数量,这种相关称为负相关。
3.相关系数的取值X围是。
4.完全相关即是关系,其相关系数为。
5.相关系数,用于反映条件下,两变量相关关系的密切程度和方向的统计指标。
6.直线相关系数等于零,说明两变量之间;直线相关系数等1,说明两变量之间;直线相关系数等于—1,说明两变量之间。
7.对现象之间变量的研究,统计是从两个方面进行的,一方面是研究变量之间关系的,这种研究称为相关关系;另一方面是研究关于自变量和因变量之间的变动关系,用数学方程式表达,称为。
8.回归方程y=a+bx中的参数a是,b是。
在统计中估计待定参数的常用方法是。
9. 分析要确定哪个是自变量哪个是因变量,在这点上它与不同。
10.求两个变量之间非线性关系的回归线比较复杂,在许多情况下,非线性回归问题可以通过化成来解决。
11.用来说明回归方程代表性大小的统计分析指标是。
12.判断一条回归直线与样本观测值拟合程度好坏的指标是。
二、单项选择题1.下面的函数关系是( )A销售人员测验成绩与销售额大小的关系 B圆周的长度决定于它的半径C家庭的收入和消费的关系 D数学成绩与统计学成绩的关系2.相关系数r的取值X围( )A -∞<r<+∞B -1≤r≤+1C -1<r<+1D 0≤r≤+13.年劳动生产率z(干元)和工人工资y=10+70x,这意味着年劳动生产率每提高1千元时,工人工资平均( )A增加70元 B减少70元 C增加80元 D减少80元4.若要证明两变量之间线性相关程度是高的,则计算出的相关系数应接近于( )A+1 B 0 C 0.5 D [1]5.回归系数和相关系数的符号是一致的,其符号均可用来判断现象( ) A线性相关还是非线性相关 B正相关还是负相关C完全相关还是不完全相关 D单相关还是复相关6.某校经济管理类的学生学习统计学的时间(x)与考试成绩(y)之间建=a+b x。
《应用回归分析》课后题答案
.027
.885
接受原假设认为显著不为 0,因变量 y 对自变量 x 的一元线性回归成立。
(9)相关系数
=
小于表中的相应值同时大于表中的相应值,x 与 y 有显著的线性关系.
(10)
序号
1
825
3.5
3.0768
0.4232
2
215
1
0.8808
0.1192
3
1070
4
3.9588
0.0412
从图上可看出,检验误差项服从正态分布。
6h
GB6017.1-20 起重机械安全规程-第 1 部分
第三章 多元线性回归
3.11 解:(1)用 SPSS 算出 y,x1,x2,x3 相关系数矩阵:
Pearson 相关
y
性
x1
x2
x3
y
x1
x2
x3
N
y
x1
x2
x3
相关性
y 1.000
.556 .731 .724
系数a 模 型
非标准化系数
标准 系数
Si
B 的 95.0% 置信
t g.
区间
相关性
共线性 统计量
9h
GB6017.1-20 起重机械安全规程-第 1 部分
标准误
试用
B
差
版
下限
零 上限 阶
部
容V
偏分
差 IF
1(常
-459.6
量)
24
8
153.05
-3.
.0
-821.5
003
20
47
0
-97.70
x1
《应用回归分析》课后题答案
《使用回归分析》部分课后习题答案第一章回归分析概述变量间统计关系和函数关系的区别是什么答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
回归分析和相关分析的联系和区别是什么答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y和变量x的密切程度和研究变量x 和变量y的密切程度是一回事。
b.相关分析中所涉及的变量y和变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
回归模型中随机误差项ε的意义是什么答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y和x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
线性回归模型的基本假设是什么答:线性回归模型的基本假设有:1.解释变量….xp是非随机的,观测值…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^2《3.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.回归变量的设置理论根据是什么在回归变量设置时应注意哪些问题答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。
《应用回归分析》课后题标准答案
3
(5)由于 1
N
(1,
2 Lxx
)
t
1 1 2 / Lxx
(1
)
Lxx
服从自由度为 n-2 的 t 分布。因而
P
|
(
1
)
Lxx
|
t
/
2
(n
2)
1
也即: p(1 t /2
Lxx
1 1 t /2
) =1 Lxx
可得
ቤተ መጻሕፍቲ ባይዱ
1
的置信度为95%的置信区间为(7-2.353
1 3
33,7+2.353 1 3
1
第二章 一元线性回归
2.14 解答:(1)散点图为:
(2)x 与 y 之间大致呈线性关系。
(3)设回归方程为 y 0 1 x
n
xi yi n x y
1=
i 1 n
7
xi2 n(x)2
i 1
0 y 1 x 20 7 3 1
可得回归方程为 y 1 7x
2
(4)
1 n-2
1.5 回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题? 答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判 断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。应注意 的问题有:在选择变量时要注意与一些专门领域的专家合作,不要认为一个回归 模型所涉及的变量越多越好,回归变量的确定工作并不能一次完成,需要反复试 算,最终找出最合适的一些变量。
t /2
0
0
1 n
( x)2 Lxx
t
/
2
)
1
可得 1的置信度为95%的置信区间为( 7.77,5.77)
《应用回归分析》课后题答案
《使用回归分析》部分课后习题答案第一章回归分析概述变量间统计关系和函数关系的区别是什么答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
回归分析和相关分析的联系和区别是什么答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y和变量x的密切程度和研究变量x和变量y的密切程度是一回事。
b.相关分析中所涉及的变量y和变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
回归模型中随机误差项ε的意义是什么答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y和x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
—线性回归模型的基本假设是什么答:线性回归模型的基本假设有:1.解释变量….xp是非随机的,观测值…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.回归变量的设置理论根据是什么在回归变量设置时应注意哪些问题答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。
第七章相关与回归分析习题答案
第七章 相关与回归分析习题答案一、填空题1.完全相关、不完全相关 、不相关2.—1≤r ≤1 3.函数、1=r4.无线性相关、完全正相关、完全负相关5. 密切程度6. 正相关、负相关7. 直线相关、曲线相关8.回归系数9.随机的、给定的10.最小二乘法,残差平方和二、单项选择题1.B 2.B 3.A 4.A 5.B6.C 7.D 8.B 9. A 10.C11.C 12.B 13.D 14.B 15.C三、多项选择题1.BCD 2.ACD 3.ABD 4.ABCD 5.ACE四、计算题1解:(1)7863.073.42505309.334229)())((ˆ22==---=∑∑X X X X Y Y ttt β 3720.4088.647*7863.08.549ˆˆ21=-=-=X Y ββ (2)∑∑∑----=2222)()(]))(([Y Y X X X X Y Y r t t t t999834.025.262855*73.42505309.3342292== 6340.43)()1(222=--=∑∑Y Y r e t0889.222=-=∑n e S te(3)0:,0:2120≠=ββH H003204.073.4250530889.2)(2ˆ2==-=∑X XS S t e β 4120.245003204.07863.0ˆ22ˆ2ˆ===βββS t 228.2)10()2(05.02/==-t n t αt 值远大于临界值2.228,故拒绝零假设,说明2β在5%的显著性水平下通过了显著性检验。
(4)41.669800*7863.03720.40=+=f Y (万元)1429.273.425053)88.647800(12110089.2)()(11222=-++=--++=∑X X X X n S S t f e f 所以,Y f 的置信度为95%的预测区间为:3767.241.6690667.1*228.214.696)2(2/±=±=-±f e f S n t Y α所以,区间预测为:18.46764.466≤≤f Y2解:(1)2222)())())((ˆ∑∑∑∑∑∑∑--=---=tt tt t t t t t X X N Y X Y X N X X X X Y Y β 0273.0472*47228158*9472*54.1302.803*9=--= 0727.09/472*0273.09/54.13ˆˆ21=-=-=X Y ββ (2)决定系数:9723.0)()(]))(([2222=----=∑∑∑Y X X X Y Y r t t t t 残差平方和 0722.0)()1(222=--=∑∑Y Y r e t (3)身高与体重的相关系数:9861.09723.02===R r不同时为零和211210:,0:ββββH H ==1016.022=-=∑n e S t e 检验统计量9134.245)(ˆ2222=-=∑e tS X F β)2(2,1-=-N t F NF 值远大于临界值2.365,故拒绝零假设,说明回归方程在5%的显著性水平下通过了显著性检验。
最新应用回归分析-第7章课后习题参考答案
第7章 岭回归思考与练习参考答案7.1 岭回归估计是在什么情况下提出的?答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。
7.2岭回归的定义及统计思想是什么?答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X’X+D接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。
但是这样的回归必定丢失了信息,不满足blue 。
但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。
7.3 选择岭参数k 有哪几种方法?答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; ○2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。
要让()10jj c k ≤;○3残差平方和:满足()SSE k cSSE <成立的最大的k 值。
7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是:1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。
我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;2. 当k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k 的增加迅速趋近于零。
像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;3. 去掉标准化岭回归系数很不稳定的自变量。
如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。
应用回归分析课后习题参考答案 全部版 何晓群,刘文卿
第一章回归分析概述1.2 回归分析与相关分析的联系与区别是什么?答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.第二章一元线性回归分析思考与练习参考答案2.1一元线性回归有哪些基本假定?答:假设1、解释变量X是确定性变量,Y是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(εi)=0 i=1,2, …,nVar (εi)=σ2i=1,2, …,nCov(εi,εj)=0 i≠j i,j= 1,2, …,n假设3、随机误差项ε与解释变量X之间不相关:Cov(X i, εi)=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布εi~N(0, σ2) i=1,2, …,n2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。
《应用回归分析》课后题答案
《应用回归分析》部分课后习题答案第一章回归分析概述1.1 变量间统计关系和函数关系的区别是什么?答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1.2 回归分析与相关分析的联系与区别是什么?答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3 回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.1.5 回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题?答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。
应用多元统计分析课后习题答案高惠璇第七章习题解答
1
1
(2) 求X
(3) 试问当ρ取多大时才能使第一主成分的贡献率达95%以上.
解:
5
第七章 主成分分析
6
第七章 主成分分析
7-3 设p维总体X的协差阵为
21
1
1
应用多元统计分析
第七章习题解答
第七章 主成分分析
7-1 设X=(X1, X2)′的协方差阵 试从Σ和相关阵R出发求出总体主成分,
14
1040,
并加以比较.
Байду номын сангаас解:
2
第七章 主成分分析
3
第七章 主成分分析
4
第七章 主成分分析
7-2 设X=(X1, X2)′~N2(0,Σ),协方差Σ=
(01).
(1)
Z1 1p(X1X2Xp);
(2) 试求第一主成分的贡献率.
7
第七章 主成分分析
解:
1
8
第七章 主成分分析
7-4 设总体X=(X1,…,Xp)′~Np(μ,Σ) (Σ>0),等概率密度
椭球为
(X-μ)′Σ-1(X-μ)=C2(C为常数).
试问椭球的主轴方向是什么?
第七章 主成分分析
17
第七章 主成分分析
7-10
18
第七章 主成分分析
77--1112
19
解:
9
第七章 主成分分析
7-5 设3维总体X的协差阵为
试求总体主成分.
4 0 0
0 4 0
0 0 2
解:总体主成分为
应用回归分析,第7章课后习题参考答案
第7章岭回归思考与练习参考答案7.1 岭回归估计是在什么情况下提出的?答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。
7.2岭回归的定义及统计思想是什么?答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其-1统计思想是对于(X’X)为奇异时,给X’X加上一个正常数矩阵D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。
但是这样的回归必定丢失了信息,不满足blue。
但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。
7.3 选择岭参数k有哪几种方法?答:最优k是依赖于未知参数 和 2的,几种常见的选择方法是:1岭迹法:选择k0的点能使各岭估计基本稳定,岭估计符号合理,回○归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;2方差扩大因子法:c(k) (X ○X k I) 1X X(X X k I) 1,其对角线元cjj(k)是岭估计的方差扩大因子。
要让cjj(k) 10;3残差平方和:满足SSE(k) cSSE成立的最大的k值。
○7.4 用岭回归方法选择自变量应遵循哪些基本原则?答:岭回归选择变量通常的原则是:1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。
我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。
像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;3. 去掉标准化岭回归系数很不稳定的自变量。
如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。
7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y对这三个自变量作岭回归分析?答:附 5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。
第七章 习题及答案
第七章 相关与回归分析一、单项选题题1、当自变量X 减少时,因变量Y 随之增加,则X 和Y 之间存在着( ) A 、线性相关关系 B 、非线性相关关系 C 、正相关关系 D 、负相关关系2、下列属于函数关系的有( )A 、身高与体重之间B 、广告费用支出与商品销售额之间C 、圆面积与半径之间D 、施肥量与粮食产量之间 3、下列相关程度最高的是( )A 、r=0.89B 、r=-0.93C 、r=0.928D 、r=0.8 4、两变量x 与y 的相关系数为0.8,则其回归直线的判定系数为( ) A 、0.80 B 、0.90 C 、0.64 D 、0.50 5、在线性回归模型中,随机误差项被假定服从( )A 、二项分布B 、t 分布C 、指数分布D 、正态分布6、物价上涨,销售量下降,则物价与销售量之间的相关属于( ) A 、无相关 B 、负相关 C 、正相关 D 、无法判断7、相关分析中所涉及的两个变量( )A 、必须确定哪个是自变量、哪个是因变量B 、都不能为随机变量C 、都可以是随机变量D 、不是对等关系 8、单位产品成本y (元)对产量x (千件)的回归方程为:t t x y 2.0100-=∧,其中“—0.2”的含义是( )A 、产量每增加1件,单位成本下降0.2元B 、产量每增加1件,单位成本下降20%C 、产量每增加1000件,单位成本下降20%D 、产量每增加1000件,单位成本平均下降0.2元E 、产量每增加1000件,单位成本平均下降20% 二、多项选择题1、下列说法正确的有( )A 、相关分析和回归分析是研究现象之间相关关系的两种基本方法B 、相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况 C、回归分析可以不必确定变量中哪个是自变量,哪个是因变量 D、相关分析必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量 E、相关分析中所涉及的变量可以都是随机变量,而回归分析中因变量是随机的,自变量是非随机的2、判定现象之间有无相关关系的方法有()A、计算回归系数B、编制相关表C、绘制相关图D、计算相关系数E、计算中位数3、相关关系按相关的形式可分为()A、正相关B、负相关C、线性相关D、非线性相关E、复相关4、在直线回归方程∧yt=∧β1+∧β2Xt中,回归系数∧β2的数值()A、表明两变量之间的平衡关系B、其正、负号表明两变量之间的相关方向C、表明两变量之间的密切程度D、表明两变量之间的变动比例E、在数学上称为斜率5、下列那些项目属于现象完全相关()A、r=0B、r= —1C、r= +1D、y的数量变化完全由X的数量变化所确定E、r=0.986、在回归分析中,要求所涉及的两个变量x和y()A、必须确定哪个是自变量、哪个是因变量B、不是对等关系C、是对等关系D、一般来说因变量是随机的,自变量是非随机变量E、y对x的回归方程与x对y的回归方程是一回事7、下列有相关关系的是()A、居民家庭的收入与支出B、广告费用与商品销售额C、产量与单位产品成本D、学生学习的时间与学习成绩E、学生的身高与学习成绩8、可决系数2r=86.49%时,意味着()A 、自变量与因变量之间的相关关系密切B 、因变量的总变差中,有80%可通过回归直线来解释 C 、因变量的总变差中,有20%可由回归直线来解释 D 、相关系数绝对值一定是0.93 E 、相关系数绝对值一定是0.8649 三、填空题1、相关系数r 的取值范围为 。
《应用回归分析》课后题答案解析
(8) t
1
2
/ Lxx
1
Lxx
2
其中
1 n2
n i1
ei 2
1 n2
n i1
( yi
2
yi )
0.0036 1297860 8.542 0.04801
t /2 1.895
t 8.542 t /2
接受原假设 H 0: 1 0, 认为 1 显著不为 0,因变量 y 对自变量 x 的一元线性回归成立。
( yi
2
yi )
1 n-2
n i=1
( yi
( 0 1
2
x))
=
1 3
( 10-(-1+71))2 (10-(-1+7 (20-(-1+7 4))2 (40-(-1+7
2))2 (20-(-1+7 5))2
3))2
1 16 9 0 49 36
3
110 / 3
1
330 6.1
《应用回归分析》部分课后习题答案
第一章 回归分析概述
变量间统计关系和函数关系的区别是什么 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量 唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另 外一个变量的确定关系。
回归分析与相关分析的联系与区别是什么 答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有 a. 在回归分析中,变量 y 称为因变量,处在被解释的特殊地位。在相关分析中,变 量 x 和变量 y 处于平等的地位,即研究变量 y 与变量 x 的密切程度与研究变量 x 与变量 y 的密切程度是一回事。b.相关分析中所涉及的变量 y 与变量 x 全是随机 变量。而在回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量也可以 是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的 密切程度。而回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归 方程进行预测和控制。
《应用回归分析》课后题答案[整理版]
《应用回归分析》课后题答案[整理版] 《应用回归分析》部分课后习题答案第一章回归分析概述 1.1 变量间统计关系和函数关系的区别是什么, 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1.2 回归分析与相关分析的联系与区别是什么, 答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x 对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3 回归模型中随机误差项ε的意义是什么, 答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么,答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2….Cov(εi,εj)=,σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.1.5 回归变量的设置理论根据是什么,在回归变量设置时应注意哪些问题,答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。
统计学课后习题答案第七章相关分析与回归分析
第七章相关分析与回归分析一、单项选择题1.相关分析是研究变量之间的A.数量关系B.变动关系C.因果关系D.相互关系的密切程度2.在相关分析中要求相关的两个变量A.都是随机变量B.自变量是随机变量C.都不是随机变量D.因变量是随机变量3.下列现象之间的关系哪一个属于相关关系A.播种量与粮食收获量之间关系B.圆半径与圆周长之间关系C.圆半径与圆面积之间关系D.单位产品成本与总成本之间关系4.正相关的特点是A.两个变量之间的变化方向相反B.两个变量一增一减C.两个变量之间的变化方向一致D.两个变量一减一增5.相关关系的主要特点是两个变量之间A.存在着确定的依存关系B.存在着不完全确定的关系C.存在着严重的依存关系D.存在着严格的对应关系6.当自变量变化时, 因变量也相应地随之等量变化,则两个变量之间存在着A.直线相关关系B.负相关关系C.曲线相关关系D.正相关关系7.当变量X值增加时,变量Y值都随之下降,则变量X和Y之间存在着A.正相关关系B.直线相关关系C.负相关关系D.曲线相关关系8.当变量X值增加时,变量Y值都随之增加,则变量X和Y之间存在着A.直线相关关系B.负相关关系C.曲线相关关系D.正相关关系9.判定现象之间相关关系密切程度的最主要方法是A.对现象进行定性分析B.计算相关系数C.编制相关表D.绘制相关图10.相关分析对资料的要求是A.自变量不是随机的,因变量是随机的B.两个变量均不是随机的C.自变量是随机的,因变量不是随机的D.两个变量均为随机的11.相关系数A.既适用于直线相关,又适用于曲线相关B.只适用于直线相关C.既不适用于直线相关,又不适用于曲线相关D.只适用于曲线相关12.两个变量之间的相关关系称为A.单相关B.复相关C.不相关D.负相关13.相关系数的取值范围是≤r≤1 ≤r≤0≤r≤1 D. r=014.两变量之间相关程度越强,则相关系数A.愈趋近于1B.愈趋近于0C.愈大于1D.愈小于115.两变量之间相关程度越弱,则相关系数A.愈趋近于1B.愈趋近于0C.愈大于1D.愈小于116.相关系数越接近于-1,表明两变量间A.没有相关关系B.有曲线相关关系C.负相关关系越强D.负相关关系越弱17.当相关系数r=0时,A.现象之间完全无关B.相关程度较小B.现象之间完全相关 D.无直线相关关系18.假设产品产量与产品单位成本之间的相关系数为,则说明这两个变量之间存在A.高度相关B.中度相关C.低度相关D.显着相关19.从变量之间相关的方向看可分为A.正相关与负相关B.直线相关和曲线相关C.单相关与复相关D.完全相关和无相关20.从变量之间相关的表现形式看可分为A.正相关与负相关B.直线相关和曲线相关C.单相关与复相关D.完全相关和无相关21.物价上涨,销售量下降,则物价与销售量之间属于A.无相关B.负相关C.正相关D.无法判断22.配合回归直线最合理的方法是A.随手画线法B.半数平均法C.最小平方法D.指数平滑法23.在回归直线方程y=a+bx中b表示A.当x增加一个单位时,y增加a的数量B.当y增加一个单位时,x增加b的数量C.当x增加一个单位时,y的平均增加量D.当y增加一个单位时, x的平均增加量24.计算估计标准误差的依据是A.因变量的数列B.因变量的总变差C.因变量的回归变差D.因变量的剩余变差25.估计标准误差是反映A.平均数代表性的指标B.相关关系程度的指标C.回归直线的代表性指标D.序时平均数代表性指标26.在回归分析中,要求对应的两个变量A.都是随机变量B.不是对等关系C.是对等关系D.都不是随机变量27.年劳动生产率(千元)和工人工资(元)之间存在回归方程y=10+70x,这意味着年劳动生产率每提高一千元时,工人工资平均A.增加70元B.减少70元C.增加80元D.减少80元28.设某种产品产量为1000件时,其生产成本为30000元,其中固定成本6000元,则总生产成本对产量的一元线性回归方程为:=6+ =6000+24x=24000+6x =24+6000x29.用来反映因变量估计值代表性高低的指标称作A.相关系数B.回归参数C.剩余变差D.估计标准误差二、多项选择题1.下列现象之间属于相关关系的有A.家庭收入与消费支出之间的关系B.农作物收获量与施肥量之间的关系C.圆的面积与圆的半径之间的关系D.身高与体重之间的关系E.年龄与血压之间的关系2.直线相关分析的特点是A.相关系数有正负号B.两个变量是对等关系C.只有一个相关系数D.因变量是随机变量E.两个变量均是随机变量3.从变量之间相互关系的表现形式看,相关关系可分为A.正相关B.负相关C.直线相关D.曲线相关E.单相关和复相关4.如果变量x与y之间没有线性相关关系,则A.相关系数r=0B.相关系数r=1C.估计标准误差等于0D.估计标准误差等于1E.回归系数b=05.设单位产品成本(元)对产量(件)的一元线性回归方程为y=,则A.单位成本与产量之间存在着负相关B.单位成本与产量之间存在着正相关C.产量每增加1千件,单位成本平均增加元D.产量为1千件时,单位成本为元E.产量每增加1千件,单位成本平均减少元6.根据变量之间相关关系的密切程度划分,可分为A.不相关B.完全相关C.不完全相关D.线性相关E.非线性相关7.判断现象之间有无相关关系的方法有A.对现象作定性分析B.编制相关表C.绘制相关图D.计算相关系数E.计算估计标准误差8.当现象之间完全相关的,相关系数为B.-1 E.-9.相关系数r =0说明两个变量之间是A.可能完全不相关B.可能是曲线相关C.肯定不线性相关D.肯定不曲线相关E.高度曲线相关10.下列现象属于正相关的有A.家庭收入愈多,其消费支出也愈多B.流通费用率随商品销售额的增加而减少C.产量随生产用固定资产价值减少而减少D.生产单位产品耗用工时,随劳动生产率的提高而减少E.工人劳动生产率越高,则创造的产值就越多11.直线回归分析的特点有A.存在两个回归方程B.回归系数有正负值C.两个变量不对等关系D.自变量是给定的,因变量是随机的E.利用一个回归方程,两个变量可以相互计算12.直线回归方程中的两个变量A.都是随机变量B.都是给定的变量C.必须确定哪个是自变量,哪个是因变量D.一个是随机变量,另一个是给定变量E.一个是自变量,另一个是因变量13.从现象间相互关系的方向划分,相关关系可以分为A.直线相关B.曲线相关C.正相关D.负相关E.单相关14.估计标准误差是A.说明平均数代表性的指标B.说明回归直线代表性指标C.因变量估计值可靠程度指标D.指标值愈小,表明估计值愈可靠E.指标值愈大,表明估计值愈可靠15.下列公式哪些是计算相关系数的公式16.用最小平方法配合的回归直线,必须满足以下条件A.?(y-y c )=最小值B.?(y-y c )=0C.?(y-y c )2=最小值D.?(y-y c )2=0E.?(y-y c )2=最大值17.方程y c =a+bx222222)()(.)()())((...))((.y y n x x n y x xy n r E y y x x y y x x r D L L L r C L L L r B n y y x x r A xx xy xy yy xx xy yx ∑-∑⋅∑-∑∑⋅∑-∑=-∑⋅-∑--∑===--∑=σσA.这是一个直线回归方程B.这是一个以X为自变量的回归方程C.其中a是估计的初始值D.其中b是回归系数是估计值18.直线回归方程y c=a+bx中的回归系数bA.能表明两变量间的变动程度B.不能表明两变量间的变动程度C.能说明两变量间的变动方向D.其数值大小不受计量单位的影响E. 其数值大小受计量单位的影响19.相关系数与回归系数存在以下关系A.回归系数大于零则相关系数大于零B.回归系数小于零则相关系数小于零C.回归系数等于零则相关系数等于零D.回归系数大于零则相关系数小于零E.回归系数小于零则相关系数大于零20.配合直线回归方程的目的是为了A.确定两个变量之间的变动关系B.用因变量推算自变量C.用自变量推算因变量D.两个变量相互推算E.确定两个变量之间的相关程度21.若两个变量x和y之间的相关系数r=1,则A.观察值和理论值的离差不存在的所有理论值同它的平均值一致和y是函数关系与y不相关与y是完全正相关22.直线相关分析与直线回归分析的区别在于A.相关分析中两个变量都是随机的;而回归分析中自变量是给定的数值,因变量是随机的B.回归分析中两个变量都是随机的;而相关分析中自变量是给定的数值,因变量是随机的C.相关系数有正负号;而回归系数只能取正值D.相关分析中的两个变量是对等关系;而回归分析中的两个变量不是对等关系E.相关分析中根据两个变量只能计算出一个相关系数;而回归分析中根据两个变量只能计算出一个回归系数三、填空题1.研究现象之间相关关系称作相关分析。
何晓群:《应用回归分析》第四版-第七章岭回归
然后用模拟的方法产生10个正态随机数,作为误差项1, 2 , ,10 .
见表7.1的第(3)行.
返 回 前一页 后一页
假设已知 x1, x2 与 y 的关系服从线性回归模型
y 10 2x1 3x2
返 回 前一页 后一页
例7.1 我们作回归拟合时,总是希望拟合的经验回归方程与真 实的理论回归方程能够很接近。基于这个想法,这里举一个模 拟的例子。
假设 x1, x2 与 y 的关系服从线性回归模型
y 10 2x1 3x2
(7.1)
给定 x1, x2 的10个值,如表7.1的第(1)(2)行
返 回 前一页 后一页
(4) 在图7.2(d)中, ˆ1(k) 和 ˆ2 (k )都
. 这种情况往往发生在
,但 却 很大的场合, 即
在x1和x2之间存在
的解释某些回归系
数估计的符号不合理的情形, 从实际观点看, ˆ1(k) 和ˆ2 (k ) 不应
有相反符号. 岭回归分析的结果对这一点提供了一种解释.
ˆi (k )
(d)
ˆ1 (k )
O k
ˆ2 (k )
返 回 前一页 后一页
(5) 从全局看,
可用来估计在
, 把所有回归系数的岭迹都描在一张图上, 如果这
些岭迹线的“
”很大, 整个系统呈现比较“乱”的局
面。往往就使人怀疑最小二乘估计是否很好地反映了真实情况,
我们称
ˆ (k) ( X ' X kI )1 X ' y
(7.1)
为回归参数 的岭回归估计. 其中 k 称为岭参数.
《应用回归分析》课后题答案
《应用回归分析》部分课后习题答案第一章回归分析概述1。
1 变量间统计关系和函数关系的区别是什么?答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1。
2 回归分析与相关分析的联系与区别是什么?答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量.而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1。
3 回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…。
.xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1。
解释变量x1。
x2…。
xp是非随机的,观测值xi1.xi2…..xip是常数.2。
等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23。
正态分布的假定条件为相互独立。
4。
样本容量的个数要多于解释变量的个数,即n>p。
1.5 回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题?答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系.应注意的问题有:在选择变量时要注意与一些专门领域的专家合作,不要认为一个回归模型所涉及的变量越多越好,回归变量的确定工作并不能一次完成,需要反复试算,最终找出最合适的一些变量.1。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第7章岭回归思考与练习参考答案7.1 岭回归估计是在什么情况下提出的?答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。
7.2岭回归的定义及统计思想是什么?答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。
但是这样的回归必定丢失了信息,不满足blue。
但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。
7.3 选择岭参数k有哪几种方法?答:最优是依赖于未知参数和的,几种常见的选择方法是:岭迹法:选择的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;方差扩大因子法:,其对角线元是岭估计的方差扩大因子。
要让;残差平方和:满足成立的最大的值。
7.4 用岭回归方法选择自变量应遵循哪些基本原则?答:岭回归选择变量通常的原则是:1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。
我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。
像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;3. 去掉标准化岭回归系数很不稳定的自变量。
如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。
7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y对这三个自变量作岭回归分析?答:附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。
为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。
据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。
解:(1)逐步回归法回归方程为:y=865.929—0.601x1-0.361x2+0.639x5但是回归系数的解释不合理。
从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y (财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。
同时,三个自变量的VIF值均远大于10,说明回归方程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。
(2)岭回归法:依题意,对逐步回归法所保留的三个自变量做岭回归分析。
程序为:include'C:\Program Files\SPSSEVAL\Ridge regression.sps'.ridgereg dep=y/enter x1 x2 x5/start=0.0/stop=1/inc=0.01.岭迹图如下:计算结果为:可以看到,变量x1、x2迅速由负变正,x5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。
岭迹图如下:先取k=0.08:语法命令如下:include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5/k=0.08.运行结果如下:得到回归方程为:再取k=0.01:语法命令如下:include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5/k=0.01.运行结果:****** Ridge Regression with k = 0.01 ******Mult R .9931857RSquare .9864179Adj RSqu .9840210SE 329.6916494ANOVA tabledf SS MSRegress 3.000 134201841 44733947Residual 17.000 1847841.9 108696.58F value Sig F411.5487845 .0000000--------------Variables in the Equation---------------- B SE(B) Beta B/SE(B)x1 .0556780 .0615651 .0981355 .9043751x2 .0796395 .0218437 .32912933.6458814x5 .1014400 .0108941 .56210889.3114792Constant 753.3058478 121.7381256 .0000000 6.187920 5回归方程为: y=753.3058—0.05568x1-0.0796x2+0.1014x5从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。
从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。
比逐步回归法得到的方程有合理解释。
(3)主成分回归对原所有自变量做主成分回归,结果如下:由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1:Z1=(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2,作Y与Z1的最小二乘估计,输出结果如下:根据上表得到y与第一主成分的线性回归方程为:=3400.443+1149.094Z1,将主成分回代为原自变量得最终方程为:=0.1093 * x1+0.0463 * x2+0.2912 * x3+0.0512 * x4+0.0347 * x5+0.0444 * x6-6313.397各自变量的解释意义基本合理。
7.6 对习题3.12的问题,分别用普通最小二乘法和岭回归建立GDP对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。
解:(1)普通最小二乘法:根据上表得到y与x2,x3的线性回归方程为:=4352.859+1.438x2+0.679x3上式中的回归系数得不到合理的解释.的数值应该大于1,实际上,x3的年增长幅度大于x1和x2的年增长幅度,因此合理的的数值应大于1。
这个问题产生的原因仍然是存在共线性,所以采用岭回归来改进这个问题。
(2)岭回归法:程序为:include'C:\Program Files\SPSSEVAL\Ridge regression.sps'.ridgereg dep=GDP/enter x2 x3/start=0.0/stop=0.5/inc=0.01.根据岭迹图(如下图)可知,和很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。
取k=0.1,SPSS输出结果为:Mult R .998145, RSquare .996294Adj RSqu .995677,SE 2364.837767ANOVA tabledf SS MSRegress 2.000 1.80E+010 9.02E+009Residual 12.000 67109492 5592457.7F value Sig F1613.140715 .000000--------------Variables in the Equation----------------B SE(B) Beta B/SE(B)x2 .907990 .021842 .489067 41 .571133x3 1.393800 .035366 .463649 3 9.410560Constant 6552.305986 1278.903452 .000000 5.1233 78得岭参数k=0.1时,岭回归方程为 = 6552.306+0.908 x2+1.3938 x3,得岭参数k=0.01时,岭回归方程为 = 3980.2+1.091 x2+1.227 x3,与普通最小二乘回归方程相差很大。
岭回归系数=1.227与前面的分析是吻合的,其解释是当第二产业增加值x2保持不变时,第三产业增加值 x3每增加1亿元GDP增加1.227亿元,这个解释是合理的。
7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。
为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。
表7.5(P206)是该银行所属25家分行2002年的有关业务数据。
(1)计算y与其余4个变量的简单相关系数。
(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?(3)分析回归模型的共线性。
(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性?(5)建立不良贷款y对4个变量的岭回归。
(6)对(4)剔除变量后的回归方程再做岭回归。
(7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做可行吗?如果可行应怎么做?解:首先对数据标准化。
(1)计算与其余4个变量的简单相关系数。
计算y与各自变量之间的简单相关系数,SPSS输出结果为:由结果得到,Y与四个自变量的相关系数分别为:0.844, 0.732, 0.7,0.519,且都通过了显著性检验,说明与其余4个变量是显著线性相关的。
同时也可以看出变量之间也存在一定的线性相关性。
(2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理?由SPSS输出(如上表)可知回归方程为:=0.04x1+0.148x2+0.015x3-0.029x4-1.022从上表可看出,方程的自变量X3、X4、X5未通过t检验,说明回归方程不显著,而且由实际意义出发,x4的系数不能是负的。
所以所得的回归系数不合理。
(3)分析回归模型的共线性。
解:由上表可知,所有自变量对应的VIF全部小于10,所以自变量之间不存在共线性。