应用回归分析试题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、对于一元线性回归01(1,2,...,)i i i y x i n ββε=++=,()0i E ε=,2
var()i εσ=,
cov(,)0()i j i j εε=≠,下列说法错误的是
(A)0β,1β的最小二乘估计0ˆβ,1
ˆβ 都是无偏估计; (B)0β,1β的最小二乘估计0ˆβ,1ˆβ对1y ,2y ,...,n y 是线性的; 2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换. 如果误差方差与因变量y 的期望成正比,则可通过下列哪种变换将方差常数化 (A)
1
y
;
(B) (C) ln(1)y +;(D)ln y .
3、下列说法错误的是 (A)强影响点不一定是异常值;
(B)在多元回归中,回归系数显着性的t 检验与回归方程显着性的F 检验是等价的; (C)一般情况下,一个定性变量有k 类可能的取值时,需要引入k-1个0-1型自变量; (D)异常值的识别与特定的模型有关.
4、下面给出了4个残差图,哪个图形表示误差序列是自相关的
(A)
(B)
(C) (D)
5、下列哪个岭迹图表示在某一具体实例中最小二乘估计是适用的
应用回归分析试题(一)
一、选择题.(每题3分,共15分)
(C)0β,1β的最小二乘估计0ˆβ,1
ˆβ之间是相关的; (D)若误差服从正态分布,0β,1β的最小二乘估计和极大似然估计是不一样的.
(A) (B) (C) (D)
二、填空题(每空2分,共20分)
1、考虑模型y X βε=+,2var()n I εσ=,其中:X n p '⨯,秩为p ',2
0σ>不一定
已知,则ˆβ
=__________________, ˆvar()β=___________,若ε服从正态分布,则 22
ˆ()n p σ
σ'-:___________,其中2ˆσ
是2σ的无偏估计. 2、下表给出了四变量模型的回归结果:
则残差平方和=_________,总的观察值个数=_________,回归平方和的自由度=________. 3、已知因变量y 与自变量1x ,2x ,3x ,4x ,下表给出了所有可能回归模型的AIC 值,则最优子集是_____________________.
4、在诊断自相关现象时,若0.66DW =,则误差序列的自相关系数ρ的估计值=_____ ,若存在自相关现象,常用的处理方法有迭代法、_____________、科克伦-奥克特迭代法.
5、设因变量y 与自变量x 的观察值分别为12,,...,n y y y 和12,,...,n x x x ,则以*
x 为折点的
折线模型可表示为_____________________.
三、(共45分)研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的线性回归关系.观察数据及残差值i e 、学生化残差i SRE 、删除学生化残差()i SRE 、库克距离i D 、杠杆值ii ch 见表一
表一
表二 参数估计表
已知0.025(6) 2.447t =,0.025(7) 2.365t =,0.05(3,6) 4.76F =,0.05(4,7) 4.12F =,根据上述结果,解答如下问题:
1、计算误差方差2
σ的无偏估计及判定系数2R .(8分)
2、对1x ,2x ,3x 的回归系数进行显着性检验.(显着性水平0.05α=)(12分)
3、对回归方程进行显着性检验.(显着性水平0.05α=)(8分)
4、诊断数据是否存在异常值,若存在,是关于自变量还是关于因变量的异常值(10分)
5、写出y 关于1x ,2x ,3x 的回归方程,并结合实际对问题作一些基本分析(7分) 四、(共8分)某种合金中的主要成分为金属A 与金属B ,研究者经过13次试验,发现这两种金属成分之和x 与膨胀系数y 之间有一定的数量关系,但对这两种金属成分之和x 是否对膨胀系数y 有二次效应没有把握,经计算得y 与x 的回归的残差平方和为,y 与x 、2
x 的回归的残差平方和为,试在的显着性水平下检验x 对y 是否有二次效应 (参考数据0.050.05(1,10) 4.96,(2,10) 4.1F F ==)
五、(共12分)(1)简单描述一下自变量12,,...,p x x x 之间存在多重共线性的定义;(2分) (2)多重共线性的诊断方法主要有哪两种(4分) (3)消除多重共线性的方法主要有哪几种(6分)
应用回归分析试题(二)
一、选择题
1. 某同学由x 与
y 之间的一组数据求得两个变量间的线性回归方程为y bx a =+,已知:数据x 的平均值为2,数据y 的平均值为3,则 ( A )
A .回归直线必过点(2,3)
B .回归直线一定不过点(2,3)
C .点(2,3)在回归直线上方
D .点(2,3)在回归直线下方
2. 在一次试验中,测得的四组值分别是,则Y 与X 之间的回归直线方程为( A )A . B . C . D.
3. 在对两个变量x ,
y 进行线性回归分析时,有下列步骤:
①对所求出的回归直线方程作出解释; ②收集数据(i x 、
i y ),1,2i =,…,n ;
③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图
如果根据可行性要求能够作出变量,x y 具有线性相关结论,则在下列操作中正确的是( D ) A .①②⑤③④ B .③②④⑤① C .②④③①⑤ D .②⑤④③① 4. 下列说法中正确的是(B )
A .任何两个变量都具有相关关系
B .人的知识与其年龄具有相关关系
C .散点图中的各点是分散的没有规律
D .根据散点图求得的回归直线方程都是有意义的 5. 给出下列结论:
(1)在回归分析中,可用指数系数2
R 的值判断模型的拟合效果,2
R 越大,模型的拟合效果越好; (2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好; (3)在回归分析中,可用相关系数r 的值判断模型的拟合效果,r 越小,模型的拟合效果越好; (4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 以上结论中,正确的有(B )个.
A .1
B .2
C .3
D .4 6. 已知直线回归方程为2 1.5y x =-,则变量x 增加一个单位时(C
)
A.
y 平均增加1.5个单位 B.y 平均增加2个单位C.y 平均减少1.5个单位 D.
y 平均减少2个单位
7. 下面的各图中,散点图与相关系数r 不符合的是(B )
8. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为ˆ7.1973.93y
x =+,据此可以预测这个孩子10岁时的身高,则正确的叙述是( D )
A .身高一定是
B .身高超过
C .身高低于
D .身高在左右 9. 在画两个变量的散点图时,下面哪个叙述是正确的( B ) (A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在
y 轴上
(C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上
10. 两个变量y 与x 的回归模型中,通常用2R 来刻画回归的效果,则正确的叙述是( D )
A. 2R 越小,残差平方和小
B. 2R 越大,残差平方和大
C.
2R 于残差平方和无关 D. 2R 越小,残差平方和大
11. 两个变量
y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果
最好的模型是( A )
A.模型1的相关指数2
R 为 B.模型2的相关指数2
R 为 C.模型3的相关指数2
R 为 D.模型4的相关指数2
R 为
12. 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( B ) A.总偏差平方和 B.残差平方和
C.回归平方和
D.相关指数R 2
13.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090y x =+,下列判断正确的是(C ) A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90元 14. 下列结论正确的是(C )
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A.①②
B.①②③
C.①②④
D.①②③④
15. 已知回归直线的斜率的估计值为,样本点的中心为(4,5),则回归直线方程为( C ) A.
B. C.
D.
二、填空题 16. 在比较两个模型的拟合效果时,甲、乙两个模型的相关指数的值分别约为和,则拟合效果好的模型是
甲 .
17. 在回归分析中残差的计算公式为
列联表、三维柱形图、二维条形图
.
18. 线性回归模型(和为模型的未知参数)中,称为 随机误差 .
19. 若一组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满足y i =bx i +a+e i (i=1、2.…n)若e i 恒为0,则R 2为___
e i 恒为0,说明随机误差对y i 贡献为0.
三、解答题
20. 调查某市出租车使用年限x 和该年支出维修费用
y (万元)
,得到数据如下:
(2)由(1)中结论预测第10年所支出的维修费用.(1
21()()()n
i i i n
i i x x y y b x x a y bx
==⎧
-⋅-⎪
⎪=⎨-⎪⎪=-⎪⎩∑∑) 20. 解析: (1)列表如下:
于是23.145905453.112552
2
51
25
1=⨯-⨯⨯-=
--=
∑∑==x
x y
x y
x b i i i i
i ,
∴线性回归方程为:08.023.1^
+=+=x a bx y (2)当
x=10时,
38.1208.01023.1^=+⨯=y (万元)
即估计使用10年时维修费用是1238万元 回归方程为: 1.230.08y x =+ (2) 预计第10年需要支出维修费用12.38 万元.
21. 以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为2
150m 时的销售价格. (4)求第2个点的残差。
21. 解析:(1)数据对应的散点图如图所示:
(2)1095151==∑=i i x x ,1570)(2
5
1
=-=∑=x x l i i xx ,
设所求回归直线方程为a bx y +=)
, 则1962.01570
308
≈=
=
xx
xy l l b 故所求回归直线方程为8166.11962.0+=x y )
(3)据(2),当2
150x m =时,销售价格的估计值为:
2466.318166.11501962.0=+⨯=y )
(万元)
必看经典例题
1. 从20的样本中得到的有关回归结果是:SSR=60,SSE=40。
要检验x 与y 之间的线性关系是否显着,即检验假设:01:0H β=。
(1)线性关系检验的统计量F 值是多少 (2)给定显着性水平a =,F a 是多少 (3)是拒绝原假设还是不拒绝原假设
(4)假定x 与y 之间是负相关,计算相关系数r 。
(5)检验x 与y 之间的线性关系是否显着
解:(1)SSR 的自由度为k=1;SSE 的自由度为n-k-1=18;
因此:F=1SSR k SSE
n k --=60
14018
=27
(2)()1,18F α=()0.051,18F = (3)拒绝原假设,线性关系显着。
(4)
,由于是负相关,因此r=
(5)从F 检验看线性关系显着。
2. 某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。
通过计算得到下面的有关结果:
方差分析表
参数估计表
要求:
(1)完成上面的方差分析表。
(2)汽车销售量的变差中有多少是由于广告费用的变动引起的 (3)销售量与广告费用之间的相关系数是多少 (4)写出估计的回归方程并解释回归系数的实际意义。
(5)检验线性关系的显着性(a =。
解:
(2)R 2=,汽车销售量的变差中有%是由于广告费用的变动引起的。
(3)r=。
(4)回归系数的意义:广告费用每增加一个单位,汽车销量就增加个单位。
(5)回归系数的检验:p=—09<α,回归系数不等于0,显着。
回归直线的检验:p=—09<α,回归直线显着。
3. 根据两个自变量得到的多元回归方程为12ˆ18.4 2.01
4.74y
x x =-++,并且已知n =10,SST =6 ,SSR =6 ,1ˆ0.0813s β=,2ˆs β= 7。
要求:
(1)在a=的显着性水平下,12,x x 与y 的线性关系是否显着 (2)在a =的显着性水平下,1β是否显着
(3)在a =的显着性水平下,2β是否显着 解(1)回归方程的显着性检验:
假设:H 0:1β=2β=0 H 1:1β,2β不全等于0
SSE=SST-SSR=6 = F=
1SSR p SSE n p --=6724.1252
507.751021
--=
()2,7F α=,F>()2,7F α,认为线性关系显着。
(2)回归系数的显着性检验: 假设:H 0:1β=0 H 1:1β≠0 t=
1
1
S β
β= 2.010.0813= ()21t n p α--=,t >()27t α,认为y 与x 1线性关系显着。
(3)回归系数的显着性检验: 假设:H 0:2β=0 H 1:2β≠0 t=
2
2
S β
β= 4.740.0567= ()21t n p α--=,t >()27t α,认为y 与x 2线性关系显着。
4. 根据下面Excel 输出的回归结果,说明模型中涉及多少个自变量、少个观察值写出回归方程,并根据F ,s e ,R 2及调整的2a R 的值对模型进行讨论。
SUMMARY OUTPUT
方差分析
df SS MS F Significanc e F
回归 3
残差 11
总计
14
453670
Coefficient s
标准误差 t Stat P-value
Intercept X Variable 1 X Variable 2 X Variable 3
解:自变量3个,观察值15个。
回归方程:ˆy
=+拟合优度:判定系数R 2=,调整的2a R =,说明三个自变量对因变量的影响的比例占到63%。
回归方程的检验:F 检验的P=,在显着性为5%的情况下,整个回归方程线性关系显着。
回归系数的检验:1β的t 检验的P=,在显着性为5%的情况下,y 与X 1线性关系显着。
2β的t 检验的P=,在显着性为5%的情况下,y 与X 2线性关系不显着。
3β的t 检验的P=,在显着性为5%的情况下,y 与X 3线性关系显着。
因此,可以考虑采用逐步回归去除X 2,从新构建线性回归模型。