应用回归分析第三章课后习题整理

合集下载

《应用回归分析》课后题答案

《应用回归分析》课后题答案

《使用回归分析》部分课后习题答案第一章回归分析概述变量间统计关系和函数关系的区别是什么答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。

回归分析和相关分析的联系和区别是什么答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。

区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。

在相关分析中,变量x和变量y处于平等的地位,即研究变量y和变量x的密切程度和研究变量x 和变量y的密切程度是一回事。

b.相关分析中所涉及的变量y和变量x全是随机变量。

而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。

C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。

而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。

回归模型中随机误差项ε的意义是什么答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y和x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。

线性回归模型的基本假设是什么答:线性回归模型的基本假设有:1.解释变量….xp是非随机的,观测值…..xip是常数。

2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^2《3.正态分布的假定条件为相互独立。

4.样本容量的个数要多于解释变量的个数,即n>p.回归变量的设置理论根据是什么在回归变量设置时应注意哪些问题答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。

应用回归分析第三版·何晓群-第三章所有习题答案

应用回归分析第三版·何晓群-第三章所有习题答案

应用回归分析第三章习题 3.1y x =β基本假定:(1) 诸1234n x ,x x ,x x ……非随机变量,rank (x )=p+1,X 为满秩矩阵(2) 误差项()()200i i j E ,i j cov ,,i j⎧ε=⎪⎧δ=⎨εε=⎨⎪≠⎩⎩(3)()20i i j ~N ,,⎧εδ⎪⎨εε⎪⎩诸相互独立3.2()10111ˆX X X X |rank(X X )p rank(X )p n p -'β'≠'=+≥+≥+存在,必须使存在。

即|则必有故3.3()()()()()22111221222211111111n nn i i ii i i i nii i ni i E e D e h n h n p ˆE E e n p n p n p =====⎛⎫==-δ ⎪⎝⎭⎛⎫=-δ=--δ ⎪⎝⎭⎛⎫∴δ==--δ=δ ⎪----⎝⎭∑∑∑∑∑3.4并不能这样武断地下结论。

2R 与回归方程中的自变量数目以及样本量n 有关,当样本量n 与自变量个数接近时,2R 易接近1,其中隐含着一些虚假成分。

因此,并不能仅凭很大的2R 就模型的优劣程度。

3.5首先,对回归方程的显著性进行整体上的检验——F 检验001230p H :β=β=β=β==β=……接受原假设:在显著水平α下,表示随机变量y 与诸x 之间的关系由线性模型表示不合适 拒绝原假设:认为在显著性水平α下,y 与诸x 之间有显著的线性关系第二,对单个自变量的回归系数进行显著性检验。

00i H :β=接受原假设:认为i β=0,自变量i x 对y 的线性效果并不显著3.6原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。

中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。

3.71122011122201122ppp p p p p ˆˆˆˆˆy x x x ˆˆˆˆˆˆy y (x x )(x x )(x x )ˆˆˆˆy x x )x x )x x )y =β+β+β++β-=β+β-+β-++β--ββ=-+-++-=对最小二乘法求得一般回归方程:……对方程进行如下运算:…………*jjˆ+β=……即3.812132123313221231221233131231123233213231313*********111r r r r r r r r rr r r r r r r r r r r r ⎛⎫ ⎪= ⎪ ⎪⎝⎭∆==-∆==-∆==-即证3.9()()()()()1211121121211111j jj j j p j j j p yj j j p SSR /SSE F SSE /n p SSE /n p SSE x ,x ,,x ,x x SSE x ,x ,,x ,x ,x x r SSE x ,x ,,x ,x x -+-+-+∆∆==-----=……,?………,?…而……,?…由上两式可知,其考虑的都是通过j SSE ∆在总体中所占比例来衡量第j 个因素的重要程度,因而j F 与2yj r 是等价的。

应用回归分析课后习题

应用回归分析课后习题
2.16* 表 2.8 是 1985 年美国 50 个州和哥伦比亚特区公立学校中教师的人均年工资 y(美元) 和对学生的人均经费收入 x(美元)。 (1)绘制 y 对 x 的散点图,可以用直线回归描述两者之间的关系吗? (2)建立 y 对 x 的线性回归。 (3)用线性回归的 Plots 功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假 设。
使用其中的一个。
2.12* 如果把自变量观测值都乘以 2,回归参数的最小二乘估计 ˆ0 和 ˆ1 会发生什么变化?
#;
.
如果把自变量观测值都加上 2,回归参数的最小二乘估计 ˆ0 和 ˆ1 会发生什么变化?
2.13 如果回归方程 yˆ ˆ0 ˆ1x 相应的相关系数 r 很大,则用它预测时,预测误差一定较小。
#;
.
第三章 习题
3.1 写出多元线性回归模型的矩阵表示形式,并给出多元线性回归模型的基本假设。 3.2 讨论样本量 n 与自变量个数 p 的关系,它们对模型的参数估计有何影响?
3.3 证明ˆ 2 1 SSE 是误差项方差 2 的无偏估计。 n p 1
3.4 一个回归方程的复相关系数 R=0.99,样本决定系数 R2 0.9801 ,我们能判断这个回归
2.15 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经过 10
周时间,收集了每周加班工作时间的数据和签发的新保单数目,x 为每周签发的新保单数目,
y 为每周加班工作时间(小时)。见表
周序 1
2
3
4
5
6
7
8
9
10

X
825 215 1070 550 480 920 1350 325 670 1215

《应用回归分析》课后习题部分答案-何晓群版

《应用回归分析》课后习题部分答案-何晓群版

第二章 一元线性回归2.14 解答:(1)散点图为:(2)x 与y 之间大致呈线性关系。

(3)设回归方程为01y x ββ∧∧∧=+1β∧=12217()ni ii nii x y n x yxn x --=-=-=-∑∑0120731y x ββ-∧-=-=-⨯=-17y x ∧∴=-+可得回归方程为(4)22ni=11()n-2i i y y σ∧∧=-∑ 2n 01i=11(())n-2i y x ββ∧∧=-+∑=2222213⎡⎤⨯+⨯+⨯⎢⎥+⨯+⨯⎣⎦(10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1169049363110/3=++++=6.1σ∧=(5)由于211(,)xxN L σββ∧t σ∧==服从自由度为n-2的t 分布。

因而/2||(2)1P t n αασ⎡⎤⎢⎥<-=-⎢⎥⎣⎦也即:1/211/2(p t t ααβββ∧∧∧∧-<<+=1α-可得195%β∧的置信度为的置信区间为(7-2.3537+2.353 即为:(2.49,11.5)2201()(,())xxx Nn L ββσ-∧+t ∧∧==服从自由度为n-2的t 分布。

因而/2|(2)1P t n αα∧⎡⎤⎢⎥⎢⎥<-=-⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦即0/200/2()1p βσββσα∧∧∧∧-<<+=- 可得195%7.77,5.77β∧-的置信度为的置信区间为()(6)x 与y 的决定系数22121()490/6000.817()ni i nii y y r y y ∧-=-=-==≈-∑∑(7)由于(1,3)F F α>,拒绝0H ,说明回归方程显著,x 与y 有显著的线性关系。

(8)t σ∧==其中2221111()22n ni i i i i e y y n n σ∧∧====---∑∑ 7 3.661==≈/2 2.353t α= /23.66t t α=>∴接受原假设01:0,H β=认为1β显著不为0,因变量y 对自变量x 的一元线性回归成立。

《应用回归分析》课后题答案

《应用回归分析》课后题答案

《使用回归分析》部分课后习题答案第一章回归分析概述变量间统计关系和函数关系的区别是什么答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。

回归分析和相关分析的联系和区别是什么答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。

区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。

在相关分析中,变量x和变量y处于平等的地位,即研究变量y和变量x的密切程度和研究变量x和变量y的密切程度是一回事。

b.相关分析中所涉及的变量y和变量x全是随机变量。

而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。

C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。

而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。

回归模型中随机误差项ε的意义是什么答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y和x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。

—线性回归模型的基本假设是什么答:线性回归模型的基本假设有:1.解释变量….xp是非随机的,观测值…..xip是常数。

2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。

4.样本容量的个数要多于解释变量的个数,即n>p.回归变量的设置理论根据是什么在回归变量设置时应注意哪些问题答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。

应用回归分析,第3章课后习题参考答案

应用回归分析,第3章课后习题参考答案

第3章 多元线性回归思考与练习参考答案3.2 讨论样本容量n 与自变量个数p 的关系,它们对模型的参数估计有何影响?答:在多元线性回归模型中,样本容量n 与自变量个数p 的关系是:n>>p 。

如果n<=p 对模型的参数估计会带来很严重的影响。

因为: 1. 在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。

2. 解释变量X 是确定性变量,要求()1rank p n =+<X ,表明设计矩阵X 中的自变量列之间不相关,即矩阵X 是一个满秩矩阵。

若()1rank p <+X ,则解释变量之间线性相关,1()X X -'是奇异阵,则β的估计不稳定。

3.3证明随机误差项ε的方差σ2的无偏估计。

证明:22122222111112221111ˆ(),111()()(1)(1)()(1)1ˆ()()1n i i n n nnnii ii iiii i i i i i ni i SSE e e e n p n p n p E e D e h h n h n p E E e n p σσσσσσσ======='===------∴==-=-=-=--∴==--∑∑∑∑∑∑∑3.4 一个回归方程的复相关系数R=0.99,样本决定系数R 2=0.9801,我们能判断这个回归方程就很理想吗? 答:不能断定这个回归方程理想。

因为:1. 在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F 检验或者关于回归系数的t 检验,所建立的回归方()1ˆ2--=p n SSE σ程都没能通过。

2. 样本决定系数和复相关系数接近于1只能说明Y 与自变量X1,X2,…,Xp 整体上的线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行F 检验和t 检验。

3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得 R 2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的R 2的增大与拟合好坏无关。

应用回归分析-第3章课后习题参考答案

应用回归分析-第3章课后习题参考答案

应用回归分析-第3章课后习题参考答案一般来说,R2越接近1,即R2取值越大,说明回归拟合的效果越好。

但由于R2的大小与样本容量n和自变量个数p有关,当n与p的值接近时,R2容易接近1,说明R2中隐含着一些虚假成分。

而当样本容量n较小,自变量个数p较大时,尽管R2很大,但参数估计效果很不稳定。

所以该题中不能仅仅因为R2很大而断定回归方程很理想。

3.5 如何正确理解回归方程显著性检验拒绝H0,接受H0?答:一般来说,当接受假设H0时,认为在给定的显著性水平α之下,自变量x1,x2,…,x p对因变量y无显著性影响,则通过x1,x2,…,x p 去推断y就无多大意义。

此时,一方面可能该问题本应该用非线性模型描述,我们误用线性模型描述了,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,由于认识上的局限性把一些影响因变量y的自变量漏掉了,这就从两个方面提醒我们去重新考虑建模问题。

当拒绝H0时,也不能过于相信该检验,认为该模型已经很完美。

其实当拒绝H时,我们只能认为该回归模型在一定程度上说明了自变量x1,x2,…,x p与因变量y的线性关系。

因为这时仍不能排除我们漏掉了一些重要自变量。

此检验只能用于辅助性的,事后验证性的目的。

(详细内容可参考课本P95~P96评注。

)3.6 数据中心化和标准化在回归分析中的意义是什么?答:原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。

中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。

3.7 验证ˆˆ,1,2,,jj j j yy L j p L β*==证明:多元线性回归方程模型的一般形式为:01122p p y x x x ββββε=+++++其经验回归方程式为01122ˆˆˆˆˆp p y x x x ββββ=++++, 又01122ˆˆˆˆp py x x x ββββ=----, 故111222ˆˆˆˆ()()()p p py y x x x x x x βββ=+-+-++-, 中心化后,则有111222ˆˆˆˆ()()()i p p py y x x x x x x βββ-=-+-++-, 21()n yy i i L y y ==-∑ 令21(),1,2,,n jj ij j i L x x i n ==-=∑,1,2,,j p =11221122121122()ˆˆˆpp ip i i i p yy yy yy pp yyL x x L L y x x L L L L L L L βββ-=++ 样本数据标准化的公式为1,2,,i ij i jj yy x x y x y i n L L **-===,1,2,,j p =则上式可以记为112211221122ˆˆˆˆˆˆpp i i i p ip yy yy yy i i p ipL L L y x x x L L L x x x ββββββ**********=+++=⨯+⨯++⨯则有ˆˆ,1,2,,jj j j yy L j p L ββ*==3.8 验证3.9 验证决定系数R 2与F 值之间的关系式:p p n F FR /)1(2--+=3.10 验证决定系数R 2与F 值之间的关系式:pp n F F R /)1(2--+= 证明:2/,/(1)111(1)/1SSR p F SSE n p F SSE SSR p n p F SSE p SSR SSR F p F n p R F SSE SST SSR SSE F p n p F n p p p SSE n p =--⋅∴=⨯--⋅⨯⨯--∴=====⋅+⨯+--+--⨯+--。

应用回归分析-课后知识题目解析-何晓群

应用回归分析-课后知识题目解析-何晓群

第二章一元线性回归2.14 解答:(1)散点图为:(2)x与y之间大致呈线性关系。

(3)设回归方程为01y xββ∧∧∧=+1β∧=12217()ni iiniix y n x yx n x--=-=-=-∑∑0120731y xββ-∧-=-=-⨯=-17y x∧∴=-+可得回归方程为(4)22ni=11()n-2i iy yσ∧∧=-∑2n01i=11(())n-2iy xββ∧∧=-+∑=2222213⎡⎤⨯+⨯+⨯⎢⎥+⨯+⨯⎣⎦(10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75))[]1169049363110/3=++++=6.1σ∧=≈(5)由于211(,)xxN L σββ∧t σ∧==服从自由度为n-2的t 分布。

因而/2|(2)1P t n αασ⎡⎤⎢⎥<-=-⎢⎥⎣⎦也即:1/211/2(p t t ααβββ∧∧∧∧-<<+=1α-可得195%β∧的置信度为的置信区间为(7-2.3537+2.353 即为:(2.49,11.5)2201()(,())xxx Nn L ββσ-∧+t ∧∧==服从自由度为n-2的t 分布。

因而/2(2)1P t n αα∧⎡⎤⎢⎥⎢⎥<-=-⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦即0/200/2()1p βσββσα∧∧∧∧-<<+=-可得195%7.77,5.77β∧-的置信度为的置信区间为()(6)x与y的决定系数22121()490/6000.817 ()niiniiy yry y∧-=-=-==≈-∑∑(7)ANOVAx平方和df 均方 F 显著性组间(组合)9.000 2 4.500 9.000.100 线性项加权的8.167 1 8.167 16.333 .056偏差.8331 .833 1.667 .326组内 1.000 2 .500总数10.000 4由于(1,3)F Fα>,拒绝H,说明回归方程显著,x与y有显著的线性关系。

应用回归分析(第三版)何晓群 刘文卿 课后习题答案 完整版

应用回归分析(第三版)何晓群 刘文卿 课后习题答案 完整版

资料范本本资料为word版本,可以直接编辑和打印,感谢您的下载应用回归分析(第三版)何晓群刘文卿课后习题答案完整版地点:__________________时间:__________________说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容第二章一元线性回归分析思考与练习参考答案2.1 一元线性回归有哪些基本假定?答:假设1、解释变量X是确定性变量,Y是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(εi)=0 i=1,2, …,nVar (εi)=s2 i=1,2, …,nCov(εi, εj)=0 i≠j i,j= 1,2, …,n假设3、随机误差项ε与解释变量X之间不相关:Cov(Xi, εi)=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布εi~N(0, s2 ) i=1,2, …,n2.2 考虑过原点的线性回归模型Yi=β1Xi+εi i=1,2, …,n误差εi(i=1,2, …,n)仍满足基本假定。

求β1的最小二乘估计解:得:2.3 证明(2.27式),Sei =0 ,SeiXi=0 。

证明:其中:即: Sei =0 ,SeiXi=02.4回归方程E(Y)=β0+β1X的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。

答:由于εi~N(0, s2 ) i=1,2, …,n所以Yi=β0 + β1Xi + εi~N(β0+β1Xi , s2 )最大似然函数:使得Ln(L)最大的,就是β0,β1的最大似然估计值。

同时发现使得Ln(L)最大就是使得下式最小,上式恰好就是最小二乘估计的目标函数相同。

值得注意的是:最大似然估计是在εi~N(0, s2 )的假设下求得,最小二乘估计则不要求分布假设。

所以在εi~N(0, s2 ) 的条件下,参数β0,β1的最小二乘估计与最大似然估计等价。

应用回归分析课后答案

应用回归分析课后答案

应用回归分析课后答案第二章一元线性回归2.14 解答:EXCEL结果:SUMMARY OUTPUT回归统计Multiple R0.944911R Square0.892857Adjusted R Square0.857143标准误差0.597614观测值5方差分析df SS MS F Significance F回归分析18.9285718.928571250.015392残差3 1.0714290.357143总计410Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限95.0%上限95.0% Intercept-0.214290.6962-0.307790.778371-2.4299 2.001332-2.4299 2.001332 X Variable 10.1785710.03571450.0153920.0649130.292230.0649130.29223RESIDUAL OUTPUT观测值预测Y残差1 1.571429-0.571432 1.5714290.4285713 3.357143-0.357144 3.3571430.6428575 5.142857-0.14286SPSS结果:(1)散点图为:(2)x 与y 之间大致呈线性关系。

(3)设回归方程为01y x ββ∧∧∧=+1β∧=12217()ni ii nii x y n x yxn x --=-=-=-∑∑0120731y x ββ-∧-=-=-⨯=-17y x ∧∴=-+可得回归方程为(4)22ni=11()n-2i i y y σ∧∧=-∑ 2n 01i=11(())n-2i y x ββ∧∧=-+∑=2222213⎡⎤⨯+⨯+⨯⎢⎥+⨯+⨯⎣⎦(10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1169049363110/3=++++=6.1σ∧=≈ (5)由于211(,)xxN L σββ∧t σ∧==服从自由度为n-2的t 分布。

应用回归分析第三章课后习题整理

应用回归分析第三章课后习题整理

3.1=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛yn y y 21 ⎝⎛111 12111xn x x 22212xn x x ⎪⎪⎪⎪⎪⎭⎫xnp p x p x 21 ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛p βββ 10 +⎪⎪⎪⎪⎪⎭⎫ ⎝⎛n εεε 21即y=x β+ε基本假定(1)解释变量x1,x2...,xp 是确定性变量,不是随机变量,且要求rank(X)=p+1<n,表明设计矩阵X 中自变量列之间不相关,样本量的个数应大于解释变量的个数(2)随机误差项具有零均值和等方差,即高斯马尔柯夫条件nE ,2,1,0)(==τετ⎩⎨⎧=0)cov(2,σεεγτγτγτ≠=n 2,1,=γτ(3)对于多元线性回归的正态分布假定条件的矩阵模型为 ε~N (0,n I 2σ) 随即向量y~N(X n I 2,σβ) 3.2当(1)-X X T存在时,回归参数的最小二乘估计为Y X X X T T 1)(-∧=β,要求出回归参数∧β,即要求X X T 是一个非奇异矩阵,0≠X X T ,所以可逆矩阵X X T 为p+1阶的满秩矩阵,又根据两个矩阵乘积的秩不大于每一因子的秩rank(X)≥p+1,而X 为n ⨯(p+1)阶矩阵,于是应有n ≥p+1 结论说明,要想用最小二乘法估计多元线性回归模型的未知参数,样本量n 必须大于模型自变量p 的个数。

3.31)())1((11)1(11)1(11)(11]))(()([11)(11)(11)11()(21)(122211121121121222222+===⨯+-⨯--=---=---=--=+--=--=--=--=++=-=∑∑∑∑∑∑∑∑∑========∧=∧p h H tr p n p n h p n h p n e D p n e E e D p n e E p n e E p n SSE p n E E en e e y y SSE nnn nn n nn nτττττττττττττττττττττσσσσσ注 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较多,使样本量与自变量的个数接近时,2R 易接近1,其中隐藏一些虚假成分。

2021学年高中数学第三章统计案例3.1回归分析的基本思想及其初步应用习题新人教A版选修2_3

2021学年高中数学第三章统计案例3.1回归分析的基本思想及其初步应用习题新人教A版选修2_3

第三章 3.1 回归分析的根本思想及其初步应用A 级 根底稳固一、选择题1.(2021·深圳一模)其食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一局部不同年份的该酒品,并测定了其芳香度(如表).年份x 0 1 4 5 6 8 芳香度y由最小二乘法得到回归方程y ^x +1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,请你推断该数据为( A )[解析] 由表中数据:x =16(0+1+4+5+6+8)=4,回归方程y ^x +1.13,∴y ^=1.03×4+1.13=5.26,∴y =16(1.3+1.8+5.6+?+7.4+9.3)=5.26,解得:?=6.1. 应选A .2.由变量x 与y 相对应的一组数据(1,y 1)、(5,y 2)、(7,y 3)、(13,y 4)、(19,y 5)得到的线性回归方程为y ^=2x +45,那么y -=( D )A .135B .90C .67D .63[解析] ∵x -=15(1+5+7+13+19)=9,y -=2x -+45,∴y -=2×9+45=63,应选D . 3.观测两个相关变量,得到如下数据:x -1 -2 -3 -4 -5 5 4 3 2 1 y-25A .y ^x -1 B .y ^=x C .y ^=2x +0.3 D .y ^=x +1[解析] 因为x -=0, y -=,10)=0,根据回归直线方程必经过样本中心点(x -,y -)可知,回归直线方程过点(0,0),所以选B .4.一位母亲记录了儿子3~9岁的身高,数据(略),由此建立的身高与年龄的回归模型为y ^x +73.93,用这个模型预测这个孩子10岁时的身高,那么正确的表达是( C )A .身高一定是B .身高在以上C .身高在左右D .身高在以下[解析] 将x 的值代入回归方程y ^x +73.93时,得到的y ^值是年龄为x 时,身高的估计值,应选C .5.(2021·西宁模拟)为了规定工时定额,需要确定加工零件所花费的时间,为此进展了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4)(x 5,y 5).根据收集到的数据可知x =20,由最小二乘法求得回归直线方程为y ^x +48,那么5i =1y i =( D )A .60B .120C .150D .300[解析] 由题意,x =20,回归直线方程为y ^x +48,∴y ^=0.6×20+48=60.那么 i =15y i =60×5=300.应选D .6.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^x -85.71,那么以下结论中不正确的选项是.......( D ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x -,y -)C .假设该大学某女生身高增加1cm ,那么其体重约增加gD .假设该大学某女生身高为170cm ,那么可断定其体重必为 [解析] 此题考察线性回归方程.D 项中身高为170cm 时,体重“约为〞58.79,而不是“确定〞,回归方程只能作出“估计〞,而非确定“线性〞关系.二、填空题7.以下五个命题,正确命题的序号为__③④⑤__. ①任何两个变量都具有相关关系; ②圆的周长与该圆的半径具有相关关系;③某商品的需求量与该商品的价格是一种非确定性关系; ④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进展研究.[解析] 变量的相关关系是变量之间的一种近似关系,并不是所有的变量都有相关关系,而有些变量之间是确定的函数关系.例如,②中圆的周长与该圆的半径就是一种确定的函数关系;另外,线性回归直线是描述这种关系的有效方法;如果两个变量对应的数据点与所求出的直线偏离较大,那么,这条回归直线的方程就是毫无意义的.8.(2021·兰州模拟)变量 x ,y 具有线性相关关系,它们之间的一组数据如下表所示,假设y 关于 x 的线性回归方程为y ^x -1,那么m =____.x 1 2 3 4 ym4[解析] 由题意,x =2.5,代入线性回归方程为y ^x -1,可得y =2.25, ∴0.1+1.8+m +4=4×2.25, ∴m =3.1. 故答案为3.1.9.以下是某地区的降雨量与年平均气温的一组数据: 年平均气温(℃)年降雨量(mm) 542507813574701432464根据这组数据可以推断,该地区的降雨量与年平均气温__不具有__相关关系.(填“具有〞或“不具有〞)[解析] 画出散点图,观察可知,降雨量与年平均气温没有相关关系.三、解答题10.为了迎接2021年俄罗斯世界杯,某协会组织了一次“迎2021世界杯,手工制作助威旗〞活动,将俄罗斯世界杯的标志以手工刺绣的方式刺绣到红色的三角形的旗子上面,来为世界杯加油.在10次制作中测得的数据如下: 助威旗数x (个) 10 20 30 40 50 60 70 80 90 100 加工时间Y (小时)626875818995102108115122试问:(1)x 与Y 是否具有线性相关关系?(2)如果x 与Y 具有线性相关关系,求出Y 对x 的回归直线方程,并根据回归直线方程,预测加工2021个助威旗需多少天(准确到1)?注:每天工作8小时.(参考数据:x =55,y =91.7,∑i =110x 2i =38500,∑i =110y 2i =87 777,∑i =110x i y i =55950,38500-10×552-8250,38500-10×552≈91,错误!≈61)[解析] (1)作散点图如下图从图中可以看出,各点都散布在一条直线附近,即它们线性相关. (2)由所给数据求得b =∑i =110x i y i -10xy∑i =110x 2i -10x 2=,38500-10×552)∴a =y -b x =91.7-0.668×55∴Y 对x 的回归直线方程为 y ^x当x =2021时,y ^=54.96+0.668×2021=1397.64(小时)又1397.64÷8=174.705(天)∴加工2021个助威旗所需时间约为175天.B 级 素养提升1.(2021·保定一模)具有线性相关的变量x ,y ,设其样本点为A i (x i ,y i )(i =1,2,…,8),回归直线方程为y ^=12x +a ,假设OA 1→+OA 2→+…+OA 8→=(6,2),(O 为原点),那么a =( B )A .18B .-18C .14D .-14[解析] 计算x =18×(x 1+x 2+…+x 8)=68=34,y =18×(y 1+y 2+…+y 8)=28=14;回归直线方程为y ^=12x +a ,∴14=12×34+a , 解得a =-18.应选B .2.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,那么( C )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1[解析] ∵变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),∴X =10+11.3+11.8+12.5+135=11.72,Y =1+2+3+4+55=3,i =15(x i -x)(y i -y )=(10-11.72)×(1-3)+(11.3-11.72)×(2-3)+(11.8-11.72)×(3-3)+(12.5-11.72)×(4-3)+(13-11.72)×(5-3)=7.2,∑i =15 x i -x2∑i =15 y i -y2=19.172,∴这组数据的相关系数是r 1=,19.172)=0.3755,变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),U =15(10+11.3+11.8+12.5+13)=11.72, V =5+4+3+2+15=3,∑i =15(U i -U)(V i -V )=(10-11.72)×(5-3)+(11.3-11.72)×(4-3)+(11.8-11.72)×(3-3)+(12.5-11.72)×(2-3)+(13-11.72)×(1-3)=-7.2,∑i =15U i -U2·∑i =15V i -V2=19.172.∴这组数据的相关系数是r 2=-0.3755,∴第一组数据的相关系数大于零,第二组数据的相关系数小于零,应选C . 二、填空题3.(2021·张店区校级模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…(x 6,y 6)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-1附近波动.经计算∑i =16x i =11,∑i =16y i =13,∑i =16x 2i =21,那么实数b 的值为__1921__.[解析] 根据题意,把对应点的坐标代入曲线y =bx 2-1,y 1=bx 11-1,y 2=bx 22-1,…y 6=bx 26-1,∴y 1+y 2+…+y 6=b (x 21+x 22+…+x 26)-6, ∴13=b ×21-6,∴b =1921,故答案为1921.4.某品牌服装专卖店为了解保暖衬衣的销售量y (件)与平均气温x (℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:时间 二月上旬二月中旬二月下旬 三月上旬 旬平均气温x (℃)381217旬销售量y (件) 55 m 33 24由表中数据算出线性回归方程y ^=bx +a 中的b =-2,样本中心点为(10,38). (1)表中数据m =__40__;(2)气象部门预测三月中旬的平均气温约为22℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__14件__.[解析] (1)由y =38,得m =40. (2)由a =y -b x 得a =58, 故y ^=-2x +58, 当x =22时,y ^=14,故三月中旬的销售量约为14件. 三、解答题5.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:房屋面积(m 2) 115 110 80 135 105 销售价格(万元)22(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为150m 2时的销售价格. [解析] (1)数据对应的散点图如以下图所示:(2)x =15∑5 i =1x i =109,l xx =∑5i =1 (x i -x )2=1570, y =23.2,l xy =∑5i =1 (x i -x )(y i -y )=308.设所求回归直线方程为y ^=b ^x +a ^,那么b ^=l xy l xx =3081570≈0.1962,a ^=y -b ^x =1.8166.故所求回归直线方程为y ^x +1.8166.(3)据(2),当x =150m 2时,销售价格的估计值为y ^=0.1962×150+1.8166=31.2466(万元).6.(2021·全国卷Ⅱ理,18)以下图是某地区2000年至2021年环境根底设施投资额y (单位:亿元)的折线图.为了预测该地区2021年的环境根底设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2021年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^t ;根据2021年至2021年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^t .(1)分别利用这两个模型,求该地区2021年的环境根底设施投资额的预测值. (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解析] (1)利用模型①,可得该地区2021年的环境根底设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2021年的环境根底设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2021年的数据对应的点没有随机散布在直线yt 上下,这说明利用2000年至2021年的数据建立的线性模型①不能很好地描述环境根底设施投资额的变化趋势.2021年相对2021年的环境根底设施投资额有明显增加,2021年至2021年的数据对应的点位于一条直线的附近,这说明从2021年开场环境根底设施投资额的变化规律呈线性增长趋势,利用2021年至2021年的数据建立的线性模型y ^t 可以较好地描述2021年以后的环境根底设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii)从计算结果看,相对于2021年的环境根底设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比拟合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)C 级 能力拔高炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时,钢水的含碳量x 与冶炼时间y (从炉料熔化完毕到出钢的时间)的一组数据,如下表所示:x /0.01% 104 180 190 177 147 134 150 191 204 121 y /min100200210185155135170205235125(1)作出散点图,你能从散点图中发现含碳量与冶炼时间的一般规律吗? (2)求回归直线方程;(3)预测当钢水含碳量为160时,应冶炼多少分钟?[解析] (1)x 轴表示含碳量,y 轴表示冶炼时间,可作散点图如图.从图中可以看出,各点分布在一条直线附近,所以它们线性相关. (2)列出下表,并用科学计算器进展计算:i 1 2 3 4 5 6 7 8 9 10 x i 104 180 190 177 147 134 150 191 204 121 y i 100 200 210 185 155 135 170 205 235 125 x i y i10 40036 00039 90032 74522 78518 09025 50039 15547 94015 125x =159.8,y =172,∑i =110x 2i=265 448,∑i =110y 2i=312 350,∑i =110x i y i =287 640设所求的回归直线方程为=x +,=∑i =110x i y i -10x·y∑i =110x 2i -10x 2≈1.267,=y -x ≈-30.47,即所求的回归直线方程为=1.267x -30.47.(3)当x =160时,=1.267×160-30.47≈172(min ),即大约冶炼172 min .。

何晓群:《应用回归分析》第四版-第三章多元线性回归

何晓群:《应用回归分析》第四版-第三章多元线性回归

由 y X 及正态假定 ~ N (0, 2In ) , 有
y ~ N ( X , 2 In )
于是, 似然函数为
L

(2
)n/ 2 (
2
)n / 2
exp{
1
2
2
(
y

X
)'(
y

X
)}
对数似然函数为
ln
L


n 2
ln(2
)

n 2
ln(
2
)

1
2
2
(
y
北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南
x1 1.94 0.33 6.16 5.35 3.78 11.2 2.84 8.64 3.64 30.9 6.26 4.13 5.85
6.7 10.8 4.16 4.64 7.08 16.3 4.01
(3.23)
为 yi 的残差. 称 e (e1,e2 ,,en )' y yˆ 为回归残差向量. 有
e y Hy (I H ) y
e y Hy (I H ) y 记
cov(e, e) (cov(ei , e j ))nn 为残差向量 e 的协方差阵, 或称为方差阵. 记为D(e).

yn 0 1 xn1 2 xn2 p xnp n
(3.4)
y1 0 1 x11 2 x12 p x1 p 1 y2 0 1 x21 2 x22 p x2 p 2

yn 0 1 xn1 2 xn2 p xnp n

应用回归分析课后答案

应用回归分析课后答案

应用回归分析课后答案第二章一元线性回归2.14 解答:EXCEL结果:SUMMARY OUTPUT回归统计Multiple R0.944911R Square0.892857Adjusted R Square0.857143标准误差0.597614观测值5方差分析df SS MS F Significance F回归分析18.9285718.928571250.015392残差3 1.0714290.357143总计410Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限95.0%上限95.0% Intercept-0.214290.6962-0.307790.778371-2.4299 2.001332-2.4299 2.001332 X Variable 10.1785710.03571450.0153920.0649130.292230.0649130.29223RESIDUAL OUTPUT观测值预测Y残差1 1.571429-0.571432 1.5714290.4285713 3.357143-0.357144 3.3571430.6428575 5.142857-0.14286SPSS结果:(1)散点图为:(2)x 与y 之间大致呈线性关系。

(3)设回归方程为01y x ββ∧∧∧=+1β∧=12217()ni ii nii x y n x yxn x --=-=-=-∑∑0120731y x ββ-∧-=-=-⨯=-17y x ∧∴=-+可得回归方程为(4)22ni=11()n-2i i y y σ∧∧=-∑ 2n 01i=11(())n-2i y x ββ∧∧=-+∑=2222213⎡⎤⨯+⨯+⨯⎢⎥+⨯+⨯⎣⎦(10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1169049363110/3=++++=6.1σ∧=≈ (5)由于211(,)xxN Lσββ∧t σ∧==服从自由度为n-2的t 分布。

《应用回归分析》课后题答案解析

《应用回归分析》课后题答案解析

(8) t
1
2
/ Lxx
1
Lxx
2
其中
1 n2
n i1
ei 2
1 n2
n i1
( yi
2
yi )
0.0036 1297860 8.542 0.04801
t /2 1.895
t 8.542 t /2
接受原假设 H 0: 1 0, 认为 1 显著不为 0,因变量 y 对自变量 x 的一元线性回归成立。
( yi
2
yi )
1 n-2
n i=1
( yi
( 0 1
2
x))
=
1 3
( 10-(-1+71))2 (10-(-1+7 (20-(-1+7 4))2 (40-(-1+7
2))2 (20-(-1+7 5))2
3))2
1 16 9 0 49 36
3
110 / 3
1
330 6.1
《应用回归分析》部分课后习题答案
第一章 回归分析概述
变量间统计关系和函数关系的区别是什么 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量 唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另 外一个变量的确定关系。
回归分析与相关分析的联系与区别是什么 答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有 a. 在回归分析中,变量 y 称为因变量,处在被解释的特殊地位。在相关分析中,变 量 x 和变量 y 处于平等的地位,即研究变量 y 与变量 x 的密切程度与研究变量 x 与变量 y 的密切程度是一回事。b.相关分析中所涉及的变量 y 与变量 x 全是随机 变量。而在回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量也可以 是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的 密切程度。而回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归 方程进行预测和控制。

应用回归分析-第3章课后习题参考答案

应用回归分析-第3章课后习题参考答案

第3章多元线性回归思考与练习参考答案3.1见教材P64-65 3.2讨论样本容量n 与自变量个数P 的关系,它们对模型的参数估计 有何影响?答:在多元线性回归模型中,样本容量 n 与自变量个数P 的关系是: n>>P 。

如果n<=p 对模型的参数估计会带来很严重的影响。

因为: 1.在多元线性回归模型中,有P+1个待估参数P,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。

2.解释变量X 是确定性变量,要求rank(X) p 1 n ,表明设计矩阵X 中的自变量列之间不相关,即矩阵X 是一个满秩矩阵。

若ran k(X) p 1,则解释变量之间线性相关,(XX)1是奇异阵,则的估计不稳定。

证明:我们能断定这个回归方程就很理想吗?2答:不能。

复相关系数 R 与样本决定系R 数都是用来表示回归方程对原始数据拟合程度的好坏。

样本决定系数取值在【0,1】区间内,22一般来说,R 越接近1,即R 取值越大,说明回归拟合的效果越好。

23.3证明?2SSE/ n p 1随机误差项£的方差2的无偏估计。

21 1 Q 于 ----------- SSE ---------- n P 1 n P 1nn n2 2E( e ) D(e) (1i 1i 1 i 1 dnE( ?2) —1—E( e 2)(ee)nh ii ) J p 1 i 1n2 2(1 h ii ) (nnh ii )i 12(n P 1)3.4 一个回归方程的复相关系数R=0.99,样本决定系数2R但由于R 的大小与样本容量n 和自变量个数p 有关,当n 与p 的值22接近时, R 容易接近1,说明R 中隐含着一些虚假成分。

而当样本2容量n较小,自变量个数P较大时,尽管R很大,但参数估计效果2很不稳定。

所以该题中不能仅仅因为R 很大而断定回归方程很理想。

3.5 如何正确理解回归方程显著性检验拒绝H0,接受H0?答:一般来说,当接受假设H o时,认为在给定的显著性水平a之下, 自变量X1, X2,…,X p对因变量y无显著性影响,贝y通过X1, X2,…,X p去推断y 就无多大意义。

《应用回归分析》课后题答案[整理版]

《应用回归分析》课后题答案[整理版]

《应用回归分析》课后题答案[整理版] 《应用回归分析》部分课后习题答案第一章回归分析概述 1.1 变量间统计关系和函数关系的区别是什么, 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。

1.2 回归分析与相关分析的联系与区别是什么, 答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。

区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。

在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。

b.相关分析中所涉及的变量y与变量x全是随机变量。

而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。

C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。

而回归分析不仅可以揭示变量x 对变量y的影响大小,还可以由回归方程进行预测和控制。

1.3 回归模型中随机误差项ε的意义是什么, 答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。

1.4 线性回归模型的基本假设是什么,答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。

2.等方差及不相关的假定条件为{E(εi)=0 i=1,2….Cov(εi,εj)=,σ^23.正态分布的假定条件为相互独立。

4.样本容量的个数要多于解释变量的个数,即n>p.1.5 回归变量的设置理论根据是什么,在回归变量设置时应注意哪些问题,答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。

《应用回归分析》课后题答案解析

《应用回归分析》课后题答案解析

《应用回归分析》部分课后习题答案第一章回归分析概述1.1 变量间统计关系和函数关系的区别是什么?答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。

1.2 回归分析与相关分析的联系与区别是什么?答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。

区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。

在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。

b.相关分析中所涉及的变量y与变量x全是随机变量。

而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。

C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。

而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。

1.3 回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。

1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。

2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。

4.样本容量的个数要多于解释变量的个数,即n>p.1.5 回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题?答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。

《应用回归分析》课后习题部分答案何晓群版

《应用回归分析》课后习题部分答案何晓群版

第二章 一元线性回归2.14 解答:(1)散点图为:(2)x 与y 之间大致呈线性关系。

(3)设回归方程为01y x ββ∧∧∧=+1β∧=12217()ni ii nii x y n x yxn x --=-=-=-∑∑0120731y x ββ-∧-=-=-⨯=-17y x ∧∴=-+可得回归方程为(4)22ni=11()n-2i i y y σ∧∧=-∑ 2n 01i=11(())n-2i y x ββ∧∧=-+∑=2222213⎡⎤⨯+⨯+⨯⎢⎥+⨯+⨯⎣⎦(10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1169049363110/3=++++=6.1σ∧=≈ (5)由于211(,)xxN L σββ∧t σ∧==服从自由度为n-2的t 分布。

因而/2|(2)1P t n αασ⎡⎤⎢⎥<-=-⎢⎥⎣⎦也即:1/211/2(p t t ααβββ∧∧∧∧-<<+=1α-可得195%β∧的置信度为的置信区间为(7-2.3537+2.353 即为:(2.49,11.5)2201()(,())xxx Nn L ββσ-∧+t ∧∧==服从自由度为n-2的t 分布。

因而/2(2)1P t n αα∧⎡⎤⎢⎥⎢⎥<-=-⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦即0/200/2()1p βσββσα∧∧∧∧-<<+=- 可得195%7.77,5.77β∧-的置信度为的置信区间为()(6)x 与y 的决定系数22121()490/6000.817()nii nii y y r y y ∧-=-=-==≈-∑∑(7)由于(1,3)F F α>,拒绝0H ,说明回归方程显著,x 与y 有显著的线性关系。

(8)t σ∧==其中2221111()22n ni i i i i e y y n n σ∧∧====---∑∑ 7 3.661==≈ /2 2.353t α= /23.66t t α=>∴接受原假设01:0,H β=认为1β显著不为0,因变量y 对自变量x 的一元线性回归成立。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛yn y y 21

⎛111 12111xn x x 22212xn x x ⎪⎪⎪⎪⎪⎭⎫xnp p x p x
21 ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛p βββ 10 +⎪
⎪⎪⎪
⎪⎭⎫ ⎝⎛n εεε 21即y=x β+ε
基本假定
(1)解释变量x1,x2...,xp 是确定性变量,不是随机变量,且要求rank(X)=p+1<n,表明设计矩阵X 中自变量列之间不相关,样本量的个数应大于解释变量的个数
(2)随机误差项具有零均值和等方差,即高斯马尔柯夫条件
n
E ,2,1,0)(==τετ

⎨⎧=0)cov(2,σεεγτγτγ
τ≠=n 2,1,=γτ
(3)对于多元线性回归的正态分布假定条件的矩阵模型为 ε~N (0,n I 2σ) 随即向量y~N(X n I 2,σβ)
当(1
)-X X T
存在时,回归参数的最小二乘估计为Y X X X T T 1)(-∧
=β,
要求出回归参数∧
β,即要求X X T 是一个非奇异矩阵,0≠X X T ,所以可逆矩阵X X T 为p+1阶的满秩矩阵,又根据两个矩阵乘积的秩不大于每一因子的秩rank(X)≥p+1,而X 为n ⨯(p+1)阶矩阵,于是应有n ≥p+1 结论说明,要想用最小二乘法估计多元线性回归模型的未知参数,样本量n 必须大于模型自变量p 的个数。

1
)())1((11)1(11)1(11)(11]))(()([11)(11)(11)11()(21)(1
2221112112
1
12
1
2
22222
+===⨯+-⨯--=---=---=--=+--=--=--=--=++=-=∑∑∑∑∑∑∑∑∑========∧=∧
p h H tr p n p n h p n h p n e D p n e E e D p n e E p n e E p n SSE p n E E en e e y y SSE n
n
n n
n n n
n n
τττττττττττττττττττττσσσσσ注 不能断定这个方程一定很理想,因为样本决定系数与回归方程中自
变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较多,使样本量与自变量的个数接近时,2R 易接近1,其中隐藏一些虚假成分。

当接受H 0时,认定在给定的显著性水平α下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新考虑建模问题。

当拒绝H 0时,我们也不能过于相信这个检验,认为这个回归模型已经完美了,当拒绝H 0时,我们只能认为这个模型在一定程度上说明了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量。

中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计值
p ∧


βββ ,,21比一般的经验回归方程减少了一个未知参数,在变量较多
时,减少一个未知参数,计算的工作量会减少许多,对手工计算尤为重要。

在用多元线性回归方程描述某种经济现象时,由于自变量所用的单位大都不同,数据的大小差异也往往很大,这就不利于在同一标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,就需要将样本数据标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数。

对p p x x x y ττττββββ∧




++++= 22110进行中心化处理得
)()()(222111p p p x x x x x x y y -++-+-=-∧



ττττβββ 再将等式除以因变量的样
本标准差yy L 则有
*τ∧
y =
=-++-+-=-∧
∧∧∧)()()(222111p p yy
p
yy yy yy x x L x x L x x L L y y ττττβββ pp
p p yy
pp p yy
yy
L x x L L L x x L L L x x L L )
()
()
(22
2222211
11111-+
+-+
-∧

∧τττβββ =
*
*
*
*
*
*
2211p p x x x τττβββ∧


+++
所以=

*
j βp j L L yy
jj
j ,2,1,=∧
β
(ij ∆为相关阵(ij r )p p ⨯第i 行,第j 列的代数余子式)
22
1112
3;12∆•∆∆-=
r =1
1)1(1
1)1(1
)1(13312
223321
12331212
1r r r r r r r +++-⨯---)
1)(1(2
2132331
2321r r r r r ---=
F j =
)1()1()11()1()()1()
()1()1()1()
1(12
222
)()()()()()()()()()()
(yj
yj yj yj j j j j j j j j j j j r r p n r r p n SSE SSE SSE SSE SSE p n SSE SSE SSE SSE p n SSE SSE p n SSE SSR p n p n SSE SSR -⨯--=-⨯⨯--=∆-⨯∆⨯--=⨯∆⨯--=∆⨯--=∆⨯--=--∆2yj
r 小于1,F j 与2yj r 一一对应,所以F j 与2
yj r 等价
=--+--⨯--⨯
=--+p
p n SSE p n p SSR SSE
p n p SSR p p n F F 111
)1(2)1(11R SST
SSR SST SSE SSE SSR SSE
SSE SSR SSE SSR SSE SSR p p n SSE SSR p p n ==⨯=+=+⨯--⨯
--
证得p
p n F F
R )1(2--+=
(1)
N10101010 *. 在水平(双侧)上显著相关。

(2)(3)(4)(5)(6)
模型汇总
模型R R 方调整 R 方标准估计的误

1.898a.806.708
a. 预测变量: (常量), x3, x1, x2。

Anova b
模型平方和df均方F Sig.
1回归3.015a 残差6
总计9
a. 预测变量: (常量), x3, x1, x2。

b. 因变量: y
系数a
模型非标准化系数标准系数
t Sig. B标准误差试用版
1(常量).096 x1.385.100
x2.535.049
x3.277.284 a. 因变量: y
1回归方程为 y= +++
2复相关系数R=,决定系数为,拟合度较高。

3方差分析表,F=,P值=<,表明回归方程高度显著,说明x1,x2,x3,整体上对y有高度显著的线性影响
4回归系数的显著性检验x1工业总产值的P值=
X2农业总产值的P值=
X3居民非产品支出的P值=
在的显著性水平上,x3未通过检验,应将其剔除掉
1回归方程为y= ++
2复相关系数R=,决定系数为,由决定系数看回归方程接近高度相关
3方差分析表,F=,P值=,表明回归方程高度显著说明x1,x2,整体上对y有高度显著的线性影响
4回归系数的显著性检验x1工业总产值的P值=
X2农业总产值的P值=
在的显著性水平上,自变量x1,x2对y均有显著影响
( 8 ) 标准化回归方程y=+
(9)把x01=75,x02=42带入y= ++得y=
y置信水平95%的区间估计为( , )
y置信水平95%的近似区间估计为( , )
E(y)置信水平95%的区间估计为 ,
(10)由于X3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好。

VIF的值都大于10,所以变量之间存在多重共线性
表中第三行x0(常数项),x1,x2的系数分别为,,,说明x0(常数项),x1,x2之间存在多重共线性。

回归方程为y=++,
第一产业的增加值x1的P值=
第二产业的增加值x2的P值= 在的显著性水平上x1对y无显著影响。

相关文档
最新文档