应用回归分析试题套
回归分析练习试题和参考答案解析
1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
α=)。
(5)检验回归方程线性关系的显著性(0.05(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:系数a模型非标准化系数标准系数t Sig.相关性B标准误差试用版零阶偏部分1(常量).003人均GDP.309.008.998.000.998.998.998 a. 因变量: 人均消费水平有很强的线性关系。
(3)回归方程:734.6930.309y x=+系数a模型非标准化系数标准系数t Sig.相关性回归系数的含义:人均GDP没增加1元,人均消费增加元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t显著性B标准误Beta1(常量)人均GDP(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1.998a.996.996a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型摘要模型R R 方调整的 R 方估计的标准差1.998(a)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5)F检验:Anova b模型平方和df均方F Sig.1回归.6801.680.000a 残差5总计.7146a. 预测变量: (常量), 人均GDP。
应用回归分析试题
应用回归分析试题(一)一、选择题1. 两个变量与x 的回归模型中,通常用2R 来刻画回归的效果,则正确的叙述是( D )A. 2R 越小,残差平方和越小B. 2R 越大,残差平方和越大C. 2R 与残差平方和无关D. 2R 越小,残差平方和越大 2.下面给出了4个残差图,哪个图形表示误差序列是自相关的(B )(A ) (B)(C ) (D )3.在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释; ②收集数据(i x ,i y ),1,2i ,…,n ;③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量,x y 具有线性相关结论,则在下列操作中正确的是( D )A .①②⑤③④B .③②④⑤①C .②④③①⑤D .②⑤④③①4.下列说法中正确的是(B )A.任何两个变量都具有相关关系B.人的知识与其年龄具有相关关系 C .散点图中的各点是分散的没有规律 D .根据散点图求得的回归直12345678xey线方程都是有意义的5. 下面的各图中,散点图与相关系数r 不符合的是(B )二、填空题1. OLSE 估计量的性质线性、无偏、最小方差。
2. 学习回归分析的目的是对实际问题进行预测和控制。
3. 检验统计量t 值与P 值的关系是P(|t |>|t 值|)=P 值,P 值越小,|t 值| 越大 ,回归方程越显著。
4. 在一元线性回归中,SST 自由度为n-1, SSE 自由度为n-2, SSR 自由度为1。
5. 在多元线性回归中,样本决定系数2R = 1SSR SSESSTSST =-。
三、叙述题1. 叙述一元线性回归模型中回归方程系数的求解过程及结果(OLSE 法)答案:定义离差平方和2^1)()(i ni i y y Q ∑=-=β最小二乘思想找出参数10,ββ的估计值^1^0,ββ。
使得离差平方和最小,使^1^0,ββ满足下述条件:∑∑==--=-=ni i i ni i i x y x y Q 1210,121^^010)(min ),(),(1ββββββββ根据微分中值定理可得:0)(2|0)(2|^11^01^11^11^00^00=---=∂∂=---=∂∂∑∑====i i n i i i n i i x x y Qx y Qββββββββββ求解正规方程组得到:⎪⎪⎪⎩⎪⎪⎪⎨⎧---=-=∑∑=-=----n i i n i i i x x y y x x xy 121^11^^0)())((βββ 令 --=-=--==--=--=-=-=∑∑∑∑y x n y x y y x x L xn x x x L ni i i i ni i xy ni ini i xx 1121212)()()(则一元线性回归模型中回归方程系数可表示为⎪⎪⎩⎪⎪⎨⎧=-=--xx xy L L x y ^1^1^0βββ2. 叙述多元线性回归模型的基本假设 答案:假设1.解释变量12,,,K X X X L 是非随机的 假设(i ε)=0;假设(i ε)=2σ,i =1,2,……ncov(,i j εε)=0,i j ≠, ,i j =1,2,……n; 假设4.解释变量12,,,K X X X L 线性无关;假设5.2(0,)i N εσ:3. 回归模型中随机误差项ε的意义是什么答案:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y 与12,,px x x L 的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
应用回归分析期末试题
应用回归分析期末试题一元线性回归分析1.讨论家庭收入x 影响家庭消费支出y 的问题。
现已建立εββ++=x y o 1的数学模型,已知5400=x ,2997=y ,3490800002=∑x ,1234929002=∑y,193836000=∑xy ,求回归方程。
答:∧0β,∧1β的表达式如下:⎪⎪⎩⎪⎪⎨⎧=-=∧∧∧xx xyl l x y 110βββ 得:⎪⎩⎪⎨⎧==∧∧4845.053.38010ββ则回归方程为x y 4845.053.380+=∧。
2.在给定样本(){}n i y x i i ,...,1,,=后,一元线性回归模型为i i i x y εββ++=10(已经符合一元线性回归模型的假设),求0β,1β的最小二乘估计∧0β,∧1β。
答:要求0β,1β的最小二乘估计∧0β,∧1β,即求使得离差平方和()10,ββQ 达到最小时的10,ββ,满足),(min ),(10,1010ββββββQ Q =∧∧由于()10,ββQ 是一个非负二次型,对10,ββ的偏导存在,下求偏导⎪⎪⎩⎪⎪⎨⎧=---=∂∂=---=∂∂∑∑==ni ii i ni i i x x y Q x y Q110111000)(20)(2ββββββ 求解得⎪⎪⎩⎪⎪⎨⎧=-=∧∧∧xx xyl l x y 110βββ 其中∑==ni i x n x 11,∑==n i i y n y 11,2)(∑-=x x l i xx ,)()(y y x x l i i xy --=∑。
3.证明:最小二乘法的参数估计1ββ和o 具有线性性和无偏性。
答(1)线性性:估计量0β和1β为随机变量i y 的线性函数 1β:由0)(=-∑x x i ,有∑=∧-==ni i xxi xxxy y l xx l l 11)(β,所以1β是i y 的线性组合。
0β:i ni xx iy x l xx n x y ∑=∧∧--=-=110)1(ββ,可见0β也是i y 的线性组合。
《应用回归分析》试卷
《应用回归分析》试卷★要求将答案做在答题纸上,做在别处无分。
一、(50分)单项选择题(每题1分)1.回归分析的建模依据为()A.统计理论B.预测理论C.经济理论D.数学理论2.随机方程式构造依据为()A.经济恒等式 B.政策法规 C.变量间的技术关系 D.经济行为3. 回归模型的被解释变量一定是()A.控制变量 B.政策变量 C.内生变量 D.外生变量4.在同一时点或时期上,不同统计单位的相同统计指标组成的数据是()A.时期数据 B.时点数据 C.时序数据 D.截面数据5.回归分析的目的为()A.研究解释变量对被解释变量的依赖关系 B.研究解释变量和被解释变量的相关关系C.研究被解释变量对解释变量的依赖关系D.以上说法都不对6.在回归分析中,有关被解释变量Y和解释变量X的说法正确的为()A.Y为随机变量,X为非随机变量 B. Y为非随机变量,X为随机变量C.X、Y均为随机变量D. X、Y均为非随机变量7.在X与Y的相关分析中()A.X是随机变量,Y是非随机变量 B. Y是随机变量,X是非随机变量C.X和Y都是随机变量D. X和Y均为非随机变量8.总体回归线是指()A.解释变量X取给定值时,被解释变量Y的样本均值的轨迹。
B.样本观测值拟合的最好的曲线。
C.使残差平方和最小的曲线D.解释变量X取给定值时,被解释变量Y的条件均值或期望值的轨迹。
9.最小二乘准则是指()A.随机误差项ε的平方和最小 B. Y与它的期望值E(Y/X)的离差平方和最小C. X与它均值E(X)的离差的平方和最小D.残差e的平方和最小10.按照经典假设,线性回归模型中的解释变量应为非随机变量,且( )A.与被解释变量Y不相关B.与随机误差项ε不相关C. 与回归值ˆY不相关D.以上说法均不对11.有效估计量是指( )A.在所有线性无偏估计中方差最大B.在所有线性无偏估计量中变异系数最小C.在所有线性无偏估计量中方差最小D.在所有线性无偏估计量中变异系数最大12.在一元线性回归模型中, 2σ的无偏估计量2ˆσ为( )A.21niien=∑B.211niien=-∑C.212niien=-∑D.213niien=-∑13判定系数2R的取值范围为( )A.202R ≤≤ B. 201R ≤≤C. 204R ≤≤D. 214R ≤≤14.回归系数1β通过了t 检验,表示( )A.10β≠B.1ˆ0β≠ C.11ˆ0,0ββ≠= D.11ˆ0,0ββ=≠ 15.个值区间预测就是给出( )A.预测值0ˆY 的一个置值区间 B.实际值0Y 的一个置值区间 C.实际值0Y 的期望值的一个置值区间 D.实际值0X 的一个置值区间16.一元线性回归模型01Y X ββε=++中, 0β的最小二乘估计是( )A.01ˆˆY X ββ=+B. 01ˆˆY X ββ=+ C. 01ˆˆY X ββ=- D. 01ˆˆY X ββ=+ 17.回归分析中简单回归指的是_____A.两个变量之间的回归B.三个以上变量的回归C.两个变量之间的线性回归D.变量之间的线性回归 18.运用OLSE ,模型及相关变量的基本假定不包括_____A.E(εi)=0B.cov(εi, εj)=0 i ≠j,i,j=1,2,3,……,nC.var(εi)=0 i=1,2……,nD.解释变量是非随机的 19. R 2(调整R 2)的计算公式是_____ A.R 2= 1-11n n p ---.SSE SST B. R 2=1-11n p n ---.SSE SST C. R 2=1-12n n p ---.SSE SST D. R 2=1-21n p n ---.SSE SST20.下列选项哪个是用来检验模型是否存在异方差问题_____A.方差扩大化因子VIFB.DW 检验C.等级相关系数D.连贯检验 21.在多元线性回归模型中,调整后的判定系数2R 与判定系数2R 的关系为()A.22R R <B. 22R R <C. 22R R ≤D. 22R R ≤ 22.下列哪种情况说明存在异方差( )A.()0i E ε=B.()0,i j E i j εε=≠C.22()i E εσ=(常数)D. 22()i i E εσ=23.当模型存在异方差时,使用普通最小二乘法得到的估计量是( )A.有偏估计量B.有效估计量C.无偏估计量D.渐进有效估计量24.下列哪种方法不是检验异方差的方法( )A.残差图分析法B.等级相关系数法C.样本分段比检验D.DW 检验法 25.异方差情形下,常用的估计方法是( )A.一阶差分法 B 广义差分法 C. 工具变量法 D.加权最小二乘法 26.下列那种情况属于存在序列相关( )A.(,)0,i j Cov i j εε=≠B. (,)0,i j Cov i j εε≠≠C. 2(,),i j Cov i j εεσ== D. 2(,),i j i Cov i j εεσ==27.若线性回归模型的随机误差项存在序列相关时,直接用普通最小二乘法估计参数,则参数估计量为( )A.有偏估计量B.有效估计量C.无效估计量D.渐进有效估计量28.下列哪种方法不是检验序列有效的方法( )A.残差图分析法B.自相关系数法C.方差扩大因子法D. DW 检验法29. DW 检验适用于检验( )A.异方差B.序列相关C.多重共线性D.设定误差 30.若计算的DW 的统计量为2,则表明该模型( ) A.不存在序列相关 B.存在一阶正序列相关 C.存在一阶负序列相关 D.存在高阶相关 31.DW 检验的原假设为( )A. DW=0B. 0ρ=C. DW=1D. 1ρ= 32.DW 统计量的取范围是()A. 10DW -≤≤B. 11DW -≤≤C. 22DW -≤≤D. 04DW ≤≤33.根据20个观测值估计的一元线性回归模型的 DW=2.3,在样本容量 n =20,解释变量个数 k =1(不包含常数项),显著型水平α=0.05时,查得dL=1.201,dU=1.411,则可以判断该模型( )A.不存在一阶自相关B.有正的一阶自相关C.有负的一阶自相关D.无法确定 34.当模型存在一阶自相关情况下,常用的估计方法是( )A.加权最小二乘法B.广义差分法C.工具变量法D.普通最小二乘法 35.采用一阶差分法估计一阶自相关模型,适合于( ) A. 1ρ≈ B. 0ρ≈ C. 10ρ-<< D. 01ρ<<36.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近1,则表明模型中存在( )A.异方差B.自相关C.多重共线性D.设定误差37.在线性回归模型中,若解释变量1X 和2X 的观测值成比例,即有12i i X kX =,其中k 为非零常数,则表明模型中存在( ) A.异方差 B.严格共线性 D 序列相关 D.高度共线性38.经验认为,某个解释变量与其他解释变量间多重共线性很严重的判别标准是这个解释变量的方差扩大化因子( ) A.大于零 B 小于1 C 大于10 D 小于5 39.若查表得到dL 和dU ,则不存在序列相关的区间为( )A.0DW dL ≤≤B. 4dU DW dU ≤≤-C. 44dU DW dL -≤≤-D. 44dU DW -≤≤ 40.设01Y X ββε=++,Y 表示居民消费支出,X 表示居民收入,D=1代表城镇居民,D=0代表农村居民,则截距变动模型为( )A. 012Y X D βββε=+++B. 021()Y X βββε=+++C. 012()Y X βββε=+++D. 012(*)Y X D X βββε=+++41.设01Y X ββε=++,Y 表示居民消费支出,X 表示居民收入,D=1代表城镇居民,D=0代表农村居民,则斜率变动模型为( )A. 012Y X D βββε=+++B. 021()Y X βββε=+++C. 012()Y X βββε=+++D. 012(*)Y X D X βββε=+++42.设虚拟变量D 影响线性回归模型中X 的斜率,如何引进虚拟变量,使模型成为斜率变动模型( )A.直接引进DB.按新变量D*X 引进C.按新变量(D+X)引进D.无法引进43.虚拟变量的赋值原则是( )A.给定某一质量变量的某属性出现为1,未出现为0B.不用赋值C.按照某一质量变量属性种类编号赋值D. 以上说法都不正确44.有关虚拟变量的表述正确的是( )A.用来代表质的因素,有时候也可以代表数量因素B.只能用来代表质的因素C.只能用来代表数量因素D.以上说法都不正确45.如果一个回归模型包含截距项,对一个具有M 个特征的质的因素需要引入的虚拟变量的个数为( )A.MB.(M-1)C.(M-2)D.(M+1)46.设个人消费函数01Y X ββε=++中,消费支出Y 不仅与收入X 有关,而且与消费者的性别、年龄构成有关,年龄构成可以分为老,中,青三个层次,假定边际消费倾向不变,该消费函数引入虚拟变量的个数为( )A.1个B.2个C.3个D.4个47.在一个包含截距项的回归模型01Y X ββε=++中,如果将一个具有M 个特征的质的因素设定M 个虚拟变量,则会产生的问题是( )A.异方差B.序列相关C.不完全多重线性相关D.完全多重线性相关48.设消费函数为012Y X D βββε=+++,式中Y 表示某年居民的消费水平,X 表示同年居民的收入水平,D 为虚拟变量,D=1表示正常年份,D=0表示非正常年份,则( )A.该模型为截距、斜率同时变动模型B.该模型为截距变动模型C.该模型为斜率变动模型D.该模型为时间序列模型49.设截距和斜率同时变动模型为0123(*)Y X D D X ββββε=++++,对模型做t 检验,下面哪种情况成立时,该模型为截距变动模型( )A.230,0ββ≠≠B. 230,0ββ==C. 230,0ββ≠=D. 230,0ββ=≠50.根据样本资料建立的消费函数如下:ˆ110.5650.5t tC D X =++,其中,C 为消费,X 为收入,虚拟变量D=1表示城镇家庭,D=0表示农村家庭,所有参数均检验显著,则城镇家庭的消费函数为( )A. ˆ110.50.5t t C X =+B. ˆ175.50.5t t C X =+C. ˆ110.565.5t t C X =+D. ˆ1300.5t tC X =+ 二、(10分)判断题(每题1分,做出判断即可)1. 最小二乘估计量具有最小方差。
应用回归分析课后习题
#;
.
第四章 习题
4.1 试举例说明产生异常差的原因。 4.2 异常差性带来的后果有哪些? 4.3 阐述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。 4.4 阐述用加权最小二乘法消除多元线性回归中异常差性的思想与方法。 4.5 验证(4.5)式一元加权最小二乘回归系数估计公式。 4.6 验证(4.8)式多元加权最小二乘回归系数估计公式。 4.7 有同学认为当数据存在异常差时,加权最小二乘回归方程与普通最小二乘回归方程之间 必然有很大的差异,异常差越严重,两者之间的差异就越大。你是否同意这位同学的观点? 说明原因。
(8) 做回归系数 1 显著性的检验
(9) 做相关系数的显著性检验 (10) 对回归方程做残差图并作相应的分析
#;
. (11) 该公司预计下一周签发新保单 x0 1000 ,需要的加班时间是多少。 (12) 给出 y0 的置信度为 95%的精确预测区间和近似预测区间。 (13) 给出 Ey0 的置信度为 95%的区间估计。
3.9 证明 y 与自变量 x j 的偏决定系数与(3.42)式的偏 F 检验值 Fj 是的等价的。
3.10* 验证决定系数与 F 值之间的关系式
R2
F
n
F p
1
p
3.11 研究货运总量 y(万吨)与工业总产值 x1 (亿元)、农业总产值 x2 (亿元)、居民非商
品支出 x3 (亿元)的关系。数据见表 3.9。
2.16* 表 2.8 是 1985 年美国 50 个州和哥伦比亚特区公立学校中教师的人均年工资 y(美元) 和对学生的人均经费收入 x(美元)。 (1)绘制 y 对 x 的散点图,可以用直线回归描述两者之间的关系吗? (2)建立 y 对 x 的线性回归。 (3)用线性回归的 Plots 功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假 设。
应用回归分析实验期末考试
国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或者地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素。
本案例研究第三产业对旅游外汇收入的影响。
《中国统计年鉴》把第三产业划分为12个组成部分,分别为:X1:农林牧渔服务业;X2:地质勘查水利管理业;X3:交通运输仓储和邮电通信业X4:批发零售贸易和餐饮业;X5:金融保险业;X6:房地产业;x7:社会服务业X8:卫生体育和社会福利业;x9:教育文化艺术和广播;x10:科学研究和综合艺;X11:党政机关;x12:其他行业选取1998年我国31个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12个行业为自变量做多元线性回归分析,完成以下问题,形成实验报告1、计算相关系数矩阵,并指出哪个协变量对响应变量的影响最大。
2、计算多元回归模型参数β的最小二乘估计,并写出模型。
3、计算多元回归模型参数β最小二乘估计置信度为95%的置信区间。
4、计算方差σσ2=var(ε)的估计。
5、对回归模型参数β=0进行t检验,并分析结果。
6、对回归模型进行F检验,并分析结果。
7、计算调整的决定系数RR2的值,并解释其意义。
8、找出模型的异常点和强影响点。
9、对模型进行正态检验、异方差检验、序列相关性检验、多重共线性检验10、根据检验结果对已经得到的模型进行处理,并得到最终的模型,并对最终的模型予以解释11、根据最终的模型,对观测数据点xx0=(xx1,xx2,…,xx12)=(1.5,7.8,161,194.5,237.7,155.4,93.2,22.7,80.3,34.5,55.6, 67.7)进行响应变量的点预测和置信度为95%的区间预测。
《应用回归试分析》试题答案
一、一家保险公司十分关心其总公司营业部加班的程度,决定认真调查现状。
经十周时间,收集了每周加班时间的数据和签发的新保单数目,x 为每周签发的新保单数目,y 为每周加(3)设回归方程为01y x ββ∧∧∧=+11221(2637021717)0.0036(71043005806440)()ni ii nii x y n x yxn x --=-=--β===--∑∑01 2.850.00367620.1068y x ββ-∧-=-=-⨯=0.10680.0036y x∧∴=+可得回归方程为(4) 22n i=11()n-2i i y y σ∧∧=-∑ 2n01i=11(())n-2i y x ββ∧∧=-+∑=0.2305 σ∧=0.4801(5) 由于211(,)xxN L σββ∧t σ∧==服从自由度为n-2的t 分布。
因而/2|(2)1P t n αασ⎡⎤⎢⎥<-=-⎢⎥⎣⎦也即:1/211/2(p t t ααβββ∧∧∧∧-<<+=1α-可得195%β∧的置信度为的置信区间为0.4801/⨯⨯(0.0036-1.8600.0036+1.860即为:(0.0028,0.0044)22001()(,())xxx N n L ββσ-∧+t ∧∧==服从自由度为n-2的t 分布。
因而/2(2)1P t n αα∧⎡⎤⎢⎥⎢⎥<-=-⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦即0/200/2()1p βσββσα∧∧∧∧-<<+=- 095%0.3567,0.5703β∧-可得的置信度为的置信区间为()(6)x 与y 的决定系数 22121()()nii nii y y r y y ∧-=-=-==-∑∑16.8202718.525=0.908(7)ANOV Ax平方和 df均方F 显著性组间(组合) 1231497.500 7 175928.214 5.302.168 线性项 加权的1168713.036 1 1168713.036 35.222 .027 偏差62784.464 6 10464.077 .315.885组内 66362.500 2 33181.250 总数1297860.0009由于(1,9)F F α>,拒绝0H ,说明回归方程显著,x 与y 有显著的线性关系。
应用回归分析试题
1、对于一元线性回归01(1,2,...,)i i i y x i n ββε=++=,()0i E ε=,2var()i εσ=,cov(,)0()i j i j εε=≠,下列说法错误的是(A)0β,1β的最小二乘估计0ˆβ,1ˆβ 都是无偏估计; (B)0β,1β的最小二乘估计0ˆβ,1ˆβ对1y ,2y ,...,n y 是线性的; 2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换. 如果误差方差与因变量y 的期望成正比,则可通过下列哪种变换将方差常数化 (A)1y;(B) (C) ln(1)y +;(D)ln y .3、下列说法错误的是 (A)强影响点不一定是异常值;(B)在多元回归中,回归系数显着性的t 检验与回归方程显着性的F 检验是等价的; (C)一般情况下,一个定性变量有k 类可能的取值时,需要引入k-1个0-1型自变量; (D)异常值的识别与特定的模型有关.4、下面给出了4个残差图,哪个图形表示误差序列是自相关的(A)(B)(C) (D)5、下列哪个岭迹图表示在某一具体实例中最小二乘估计是适用的应用回归分析试题(一)一、选择题.(每题3分,共15分)(C)0β,1β的最小二乘估计0ˆβ,1ˆβ之间是相关的; (D)若误差服从正态分布,0β,1β的最小二乘估计和极大似然估计是不一样的.(A) (B) (C) (D)二、填空题(每空2分,共20分)1、考虑模型y X βε=+,2var()n I εσ=,其中:X n p '⨯,秩为p ',20σ>不一定已知,则ˆβ=__________________, ˆvar()β=___________,若ε服从正态分布,则 22ˆ()n p σσ'-:___________,其中2ˆσ是2σ的无偏估计. 2、下表给出了四变量模型的回归结果:则残差平方和=_________,总的观察值个数=_________,回归平方和的自由度=________. 3、已知因变量y 与自变量1x ,2x ,3x ,4x ,下表给出了所有可能回归模型的AIC 值,则最优子集是_____________________.4、在诊断自相关现象时,若0.66DW =,则误差序列的自相关系数ρ的估计值=_____ ,若存在自相关现象,常用的处理方法有迭代法、_____________、科克伦-奥克特迭代法.5、设因变量y 与自变量x 的观察值分别为12,,...,n y y y 和12,,...,n x x x ,则以*x 为折点的折线模型可表示为_____________________.三、(共45分)研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的线性回归关系.观察数据及残差值i e 、学生化残差i SRE 、删除学生化残差()i SRE 、库克距离i D 、杠杆值ii ch 见表一表一表二 参数估计表已知0.025(6) 2.447t =,0.025(7) 2.365t =,0.05(3,6) 4.76F =,0.05(4,7) 4.12F =,根据上述结果,解答如下问题:1、计算误差方差2σ的无偏估计及判定系数2R .(8分)2、对1x ,2x ,3x 的回归系数进行显着性检验.(显着性水平0.05α=)(12分)3、对回归方程进行显着性检验.(显着性水平0.05α=)(8分)4、诊断数据是否存在异常值,若存在,是关于自变量还是关于因变量的异常值(10分)5、写出y 关于1x ,2x ,3x 的回归方程,并结合实际对问题作一些基本分析(7分) 四、(共8分)某种合金中的主要成分为金属A 与金属B ,研究者经过13次试验,发现这两种金属成分之和x 与膨胀系数y 之间有一定的数量关系,但对这两种金属成分之和x 是否对膨胀系数y 有二次效应没有把握,经计算得y 与x 的回归的残差平方和为,y 与x 、2x 的回归的残差平方和为,试在的显着性水平下检验x 对y 是否有二次效应 (参考数据0.050.05(1,10) 4.96,(2,10) 4.1F F ==)五、(共12分)(1)简单描述一下自变量12,,...,p x x x 之间存在多重共线性的定义;(2分) (2)多重共线性的诊断方法主要有哪两种(4分) (3)消除多重共线性的方法主要有哪几种(6分)应用回归分析试题(二)一、选择题1. 某同学由x 与y 之间的一组数据求得两个变量间的线性回归方程为y bx a =+,已知:数据x 的平均值为2,数据y 的平均值为3,则 ( A )A .回归直线必过点(2,3)B .回归直线一定不过点(2,3)C .点(2,3)在回归直线上方D .点(2,3)在回归直线下方2. 在一次试验中,测得的四组值分别是,则Y 与X 之间的回归直线方程为( A )A . B . C . D.3. 在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释; ②收集数据(i x 、i y ),1,2i =,…,n ;③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量,x y 具有线性相关结论,则在下列操作中正确的是( D ) A .①②⑤③④ B .③②④⑤① C .②④③①⑤ D .②⑤④③① 4. 下列说法中正确的是(B )A .任何两个变量都具有相关关系B .人的知识与其年龄具有相关关系C .散点图中的各点是分散的没有规律D .根据散点图求得的回归直线方程都是有意义的 5. 给出下列结论:(1)在回归分析中,可用指数系数2R 的值判断模型的拟合效果,2R 越大,模型的拟合效果越好; (2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好; (3)在回归分析中,可用相关系数r 的值判断模型的拟合效果,r 越小,模型的拟合效果越好; (4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 以上结论中,正确的有(B )个.A .1B .2C .3D .4 6. 已知直线回归方程为2 1.5y x =-,则变量x 增加一个单位时(C)A.y 平均增加1.5个单位 B.y 平均增加2个单位C.y 平均减少1.5个单位 D.y 平均减少2个单位7. 下面的各图中,散点图与相关系数r 不符合的是(B )8. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为ˆ7.1973.93yx =+,据此可以预测这个孩子10岁时的身高,则正确的叙述是( D )A .身高一定是B .身高超过C .身高低于D .身高在左右 9. 在画两个变量的散点图时,下面哪个叙述是正确的( B ) (A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上(C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上10. 两个变量y 与x 的回归模型中,通常用2R 来刻画回归的效果,则正确的叙述是( D )A. 2R 越小,残差平方和小B. 2R 越大,残差平方和大C.2R 于残差平方和无关 D. 2R 越小,残差平方和大11. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( A )A.模型1的相关指数2R 为 B.模型2的相关指数2R 为 C.模型3的相关指数2R 为 D.模型4的相关指数2R 为12. 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( B ) A.总偏差平方和 B.残差平方和C.回归平方和D.相关指数R 213.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090y x =+,下列判断正确的是(C ) A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90元 14. 下列结论正确的是(C )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A.①②B.①②③C.①②④D.①②③④15. 已知回归直线的斜率的估计值为,样本点的中心为(4,5),则回归直线方程为( C ) A.B. C.D.二、填空题 16. 在比较两个模型的拟合效果时,甲、乙两个模型的相关指数的值分别约为和,则拟合效果好的模型是甲 .17. 在回归分析中残差的计算公式为列联表、三维柱形图、二维条形图.18. 线性回归模型(和为模型的未知参数)中,称为 随机误差 .19. 若一组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满足y i =bx i +a+e i (i=1、2.…n)若e i 恒为0,则R 2为___e i 恒为0,说明随机误差对y i 贡献为0.三、解答题20. 调查某市出租车使用年限x 和该年支出维修费用y (万元),得到数据如下:(2)由(1)中结论预测第10年所支出的维修费用.(121()()()ni i i ni i x x y y b x x a y bx==⎧-⋅-⎪⎪=⎨-⎪⎪=-⎪⎩∑∑) 20. 解析: (1)列表如下:于是23.145905453.112552251251=⨯-⨯⨯-=--=∑∑==xx yx yx b i i i ii ,∴线性回归方程为:08.023.1^+=+=x a bx y (2)当x=10时,38.1208.01023.1^=+⨯=y (万元)即估计使用10年时维修费用是1238万元 回归方程为: 1.230.08y x =+ (2) 预计第10年需要支出维修费用12.38 万元.21. 以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为2150m 时的销售价格. (4)求第2个点的残差。
回归分析期末试题及答案
回归分析期末试题及答案一、简答题1. 请解释回归分析的基本思想。
回归分析是一种统计学方法,用于研究变量之间的关系。
其基本思想是通过建立一个数学模型来描述一个或多个自变量对因变量的影响,并根据观察数据对模型进行拟合和推断。
2. 请解释简单线性回归和多元线性回归的区别。
简单线性回归是建立在一个自变量和一个因变量之间的基础上的回归模型。
多元线性回归则是在两个或更多个自变量和一个因变量之间建立的回归模型。
3. 请解释残差的含义。
残差是指建立回归模型后,观测值与模型预测值之间的差异。
残差可以用来评估模型的拟合程度,如果残差较大,则说明模型无法很好地解释观察数据的变化。
4. 请解释R平方的含义及其优缺点。
R平方是一个用来衡量回归模型拟合程度的指标,其值介于0和1之间。
R平方越接近1,说明模型对观察数据的拟合越好;而R平方越接近0,则说明模型对观察数据的拟合越差。
R平方的优点是简单直观,易于理解,但其缺点是不适用于比较不同自变量的模型。
5. 请简要说明什么是多重共线性问题。
多重共线性问题指的是在多元线性回归中,自变量之间存在高度相关性的情况。
多重共线性会导致回归系数的估计不准确,难以解释自变量与因变量之间的关系。
二、计算题1. 已知一个简单线性回归模型为:Y = 2 + 3X,回归系数的解释是什么?回归系数3表示自变量X每增加1个单位,因变量Y会增加3个单位。
而常数项2表示当自变量X为0时,因变量Y的取值为2。
2. 使用最小二乘法求解简单线性回归模型的参数估计值。
最小二乘法是一种常用的回归分析方法,用于估计回归模型中的参数值。
以简单线性回归模型Y = β0 + β1X 为例,最小二乘法通过最小化观测值Y与模型预测值之间的平方差来估计β0和β1。
3. 请计算多元线性回归模型的回归系数。
多元线性回归模型可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn。
回归系数β1、β2、...、βn可以使用最小二乘法来估计,通过最小化观测值Y与模型预测值之间的平方差来得出。
《应用回归分析》试卷
《应用回归分析》试卷★要求将答案做在答题纸上,做在别处无分。
一、(50分)单项选择题(每题1分)1.回归分析的建模依据为()A.统计理论B.预测理论C.经济理论D.数学理论2.随机方程式构造依据为()A.经济恒等式 B.政策法规 C.变量间的技术关系 D.经济行为3. 回归模型的被解释变量一定是()A.控制变量 B.政策变量 C.内生变量 D.外生变量4.在同一时点或时期上,不同统计单位的相同统计指标组成的数据是()A.时期数据 B.时点数据 C.时序数据 D.截面数据5.回归分析的目的为()A.研究解释变量对被解释变量的依赖关系 B.研究解释变量和被解释变量的相关关系C.研究被解释变量对解释变量的依赖关系D.以上说法都不对6.在回归分析中,有关被解释变量Y和解释变量X的说法正确的为()A.Y为随机变量,X为非随机变量 B. Y为非随机变量,X为随机变量C.X、Y均为随机变量D. X、Y均为非随机变量7.在X与Y的相关分析中()A.X是随机变量,Y是非随机变量 B. Y是随机变量,X是非随机变量C.X和Y都是随机变量D. X和Y均为非随机变量8.总体回归线是指()A.解释变量X取给定值时,被解释变量Y的样本均值的轨迹。
B.样本观测值拟合的最好的曲线。
C.使残差平方和最小的曲线D.解释变量X取给定值时,被解释变量Y的条件均值或期望值的轨迹。
9.最小二乘准则是指()A.随机误差项ε的平方和最小 B. Y与它的期望值E(Y/X)的离差平方和最小C. X与它均值E(X)的离差的平方和最小D.残差e的平方和最小10.按照经典假设,线性回归模型中的解释变量应为非随机变量,且( )A.与被解释变量Y不相关B.与随机误差项ε不相关C. 与回归值ˆY不相关D.以上说法均不对11.有效估计量是指( )A.在所有线性无偏估计中方差最大B.在所有线性无偏估计量中变异系数最小C.在所有线性无偏估计量中方差最小D.在所有线性无偏估计量中变异系数最大12.在一元线性回归模型中, 2σ的无偏估计量2ˆσ为( )A.21niien=∑B.211niien=-∑C.212niien=-∑D.213niien=-∑13判定系数2R的取值范围为( )A.202R ≤≤ B. 201R ≤≤C. 204R ≤≤D. 214R ≤≤14.回归系数1β通过了t 检验,表示( )A.10β≠B.1ˆ0β≠ C.11ˆ0,0ββ≠= D.11ˆ0,0ββ=≠ 15.个值区间预测就是给出( )A.预测值0ˆY 的一个置值区间 B.实际值0Y 的一个置值区间 C.实际值0Y 的期望值的一个置值区间 D.实际值0X 的一个置值区间16.一元线性回归模型01Y X ββε=++中, 0β的最小二乘估计是( )A.01ˆˆY X ββ=+B. 01ˆˆY X ββ=+ C. 01ˆˆY X ββ=- D. 01ˆˆY X ββ=+ 17.回归分析中简单回归指的是_____A.两个变量之间的回归B.三个以上变量的回归C.两个变量之间的线性回归D.变量之间的线性回归 18.运用OLSE ,模型及相关变量的基本假定不包括_____A.E(εi)=0B.cov(εi, εj)=0 i ≠j,i,j=1,2,3,……,nC.var(εi)=0 i=1,2……,nD.解释变量是非随机的 19. R 2(调整R 2)的计算公式是_____ A.R 2= 1-11n n p ---.SSE SST B. R 2=1-11n p n ---.SSE SST C. R 2=1-12n n p ---.SSE SST D. R 2=1-21n p n ---.SSE SST20.下列选项哪个是用来检验模型是否存在异方差问题_____A.方差扩大化因子VIFB.DW 检验C.等级相关系数D.连贯检验 21.在多元线性回归模型中,调整后的判定系数2R 与判定系数2R 的关系为()A.22R R <B. 22R R <C. 22R R ≤D. 22R R ≤ 22.下列哪种情况说明存在异方差( )A.()0i E ε=B.()0,i j E i j εε=≠C.22()i E εσ=(常数)D. 22()i i E εσ=23.当模型存在异方差时,使用普通最小二乘法得到的估计量是( )A.有偏估计量B.有效估计量C.无偏估计量D.渐进有效估计量24.下列哪种方法不是检验异方差的方法( )A.残差图分析法B.等级相关系数法C.样本分段比检验D.DW 检验法 25.异方差情形下,常用的估计方法是( )A.一阶差分法 B 广义差分法 C. 工具变量法 D.加权最小二乘法 26.下列那种情况属于存在序列相关( )A.(,)0,i j Cov i j εε=≠B. (,)0,i j Cov i j εε≠≠C. 2(,),i j Cov i j εεσ== D. 2(,),i j i Cov i j εεσ==27.若线性回归模型的随机误差项存在序列相关时,直接用普通最小二乘法估计参数,则参数估计量为( )A.有偏估计量B.有效估计量C.无效估计量D.渐进有效估计量28.下列哪种方法不是检验序列有效的方法( )A.残差图分析法B.自相关系数法C.方差扩大因子法D. DW 检验法29. DW 检验适用于检验( )A.异方差B.序列相关C.多重共线性D.设定误差 30.若计算的DW 的统计量为2,则表明该模型( ) A.不存在序列相关 B.存在一阶正序列相关 C.存在一阶负序列相关 D.存在高阶相关 31.DW 检验的原假设为( )A. DW=0B. 0ρ=C. DW=1D. 1ρ= 32.DW 统计量的取范围是()A. 10DW -≤≤B. 11DW -≤≤C. 22DW -≤≤D. 04DW ≤≤33.根据20个观测值估计的一元线性回归模型的 DW=2.3,在样本容量 n =20,解释变量个数 k =1(不包含常数项),显著型水平α=0.05时,查得dL=1.201,dU=1.411,则可以判断该模型( )A.不存在一阶自相关B.有正的一阶自相关C.有负的一阶自相关D.无法确定 34.当模型存在一阶自相关情况下,常用的估计方法是( )A.加权最小二乘法B.广义差分法C.工具变量法D.普通最小二乘法 35.采用一阶差分法估计一阶自相关模型,适合于( ) A. 1ρ≈ B. 0ρ≈ C. 10ρ-<< D. 01ρ<<36.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近1,则表明模型中存在( )A.异方差B.自相关C.多重共线性D.设定误差37.在线性回归模型中,若解释变量1X 和2X 的观测值成比例,即有12i i X kX =,其中k 为非零常数,则表明模型中存在( ) A.异方差 B.严格共线性 D 序列相关 D.高度共线性38.经验认为,某个解释变量与其他解释变量间多重共线性很严重的判别标准是这个解释变量的方差扩大化因子( ) A.大于零 B 小于1 C 大于10 D 小于5 39.若查表得到dL 和dU ,则不存在序列相关的区间为( )A.0DW dL ≤≤B. 4dU DW dU ≤≤-C. 44dU DW dL -≤≤-D. 44dU DW -≤≤ 40.设01Y X ββε=++,Y 表示居民消费支出,X 表示居民收入,D=1代表城镇居民,D=0代表农村居民,则截距变动模型为( )A. 012Y X D βββε=+++B. 021()Y X βββε=+++C. 012()Y X βββε=+++D. 012(*)Y X D X βββε=+++41.设01Y X ββε=++,Y 表示居民消费支出,X 表示居民收入,D=1代表城镇居民,D=0代表农村居民,则斜率变动模型为( )A. 012Y X D βββε=+++B. 021()Y X βββε=+++C. 012()Y X βββε=+++D. 012(*)Y X D X βββε=+++42.设虚拟变量D 影响线性回归模型中X 的斜率,如何引进虚拟变量,使模型成为斜率变动模型( )A.直接引进DB.按新变量D*X 引进C.按新变量(D+X)引进D.无法引进43.虚拟变量的赋值原则是( )A.给定某一质量变量的某属性出现为1,未出现为0B.不用赋值C.按照某一质量变量属性种类编号赋值D. 以上说法都不正确44.有关虚拟变量的表述正确的是( )A.用来代表质的因素,有时候也可以代表数量因素B.只能用来代表质的因素C.只能用来代表数量因素D.以上说法都不正确45.如果一个回归模型包含截距项,对一个具有M 个特征的质的因素需要引入的虚拟变量的个数为( )A.MB.(M-1)C.(M-2)D.(M+1)46.设个人消费函数01Y X ββε=++中,消费支出Y 不仅与收入X 有关,而且与消费者的性别、年龄构成有关,年龄构成可以分为老,中,青三个层次,假定边际消费倾向不变,该消费函数引入虚拟变量的个数为( )A.1个B.2个C.3个D.4个47.在一个包含截距项的回归模型01Y X ββε=++中,如果将一个具有M 个特征的质的因素设定M 个虚拟变量,则会产生的问题是( )A.异方差B.序列相关C.不完全多重线性相关D.完全多重线性相关48.设消费函数为012Y X D βββε=+++,式中Y 表示某年居民的消费水平,X 表示同年居民的收入水平,D 为虚拟变量,D=1表示正常年份,D=0表示非正常年份,则( )A.该模型为截距、斜率同时变动模型B.该模型为截距变动模型C.该模型为斜率变动模型D.该模型为时间序列模型49.设截距和斜率同时变动模型为0123(*)Y X D D X ββββε=++++,对模型做t 检验,下面哪种情况成立时,该模型为截距变动模型( )A.230,0ββ≠≠B. 230,0ββ==C. 230,0ββ≠=D. 230,0ββ=≠50.根据样本资料建立的消费函数如下:ˆ110.5650.5t tC D X =++,其中,C 为消费,X 为收入,虚拟变量D=1表示城镇家庭,D=0表示农村家庭,所有参数均检验显著,则城镇家庭的消费函数为( )A. ˆ110.50.5t t C X =+B. ˆ175.50.5t t C X =+C. ˆ110.565.5t t C X =+D. ˆ1300.5t tC X =+ 二、(10分)判断题(每题1分,做出判断即可)1. 最小二乘估计量具有最小方差。
回归分析期末考试试卷
回归分析期末考试试卷1. 简答题(40分)a) 请解释回归分析的基本原理和应用范围。
(10分)b) 比较线性回归和多元回归分析,包括它们的定义、特点和适用情况。
(10分)c) 什么是多重共线性?它对回归分析有什么影响?如何检测和处理多重共线性?(10分)d) 请解释R方统计量在回归分析中的作用和意义。
(10分)2. 计算题(60分)以下数据是一家公司过去10年的销售额和广告费用(单位:百万元):| 年份 | 销售额 | 广告费用 ||------|-------|---------|| 2001 | 20 | 2.5 || 2002 | 25 | 3.0 || 2003 | 30 | 3.5 || 2004 | 35 | 4.0 || 2005 | 40 | 4.5 || 2006 | 45 | 5.0 || 2007 | 50 | 5.5 || 2008 | 55 | 6.0 || 2009 | 60 | 6.5 || 2010 | 65 | 7.0 |a) 请计算销售额和广告费用的平均值和标准差。
(10分)b) 请绘制销售额和广告费用之间的散点图,并添加趋势线。
(10分)c) 进行简单线性回归分析,求出回归方程和相关系数的值。
(10分)d) 对回归方程进行假设检验,判断广告费用对销售额是否有显著影响。
(10分)e) 求出回归方程的可决系数R方,并解释其意义。
(10分)f) 利用回归方程预测2011年的销售额。
(10分)3. 应用题(60分)某医药公司想通过回归分析来预测某种药物的疗效得分(Y)。
他们收集了200个患者的数据,其中包括药物的剂量(X1,以mg为单位)、患者的年龄(X2,以岁为单位)、性别(X3,1代表女性,0代表男性)和治疗时间(X4,以周为单位)。
使用SPSS软件进行多元回归分析,得到回归方程:Y = 2.1X1 + 0.9X2 - 1.5X3 + 0.4X4 + 5.2a) 请解释回归方程中各变量的系数和常数项的含义。
(完整word版)应用回归分析复习题
1、回归分析与相关分析的区别?(p3)(1)一是在回归分析中,变量y 称为因变量,处在被解释的特殊地位。
(2)二是相关分析中所涉及的变量y 与变量x 全是随机变量。
(3)三是相关分析的研究主要是为刻画变量间线性相关的密切程度。
2、线性回归模型的基本假设是什么?(p7)(1)解释变量1x ,2x ,... ,p x 是非随机变量,观测值1i x ,2i x ,... ,ip x 是常数。
(2)等方差及不相关的假定条件为⎪⎩⎪⎨⎧=⎩⎨⎧≠====n j i j i j i n i E j i i ,...2,1,,0,),cov(,...,2,1,0)(2σεεε 这个条件称为高斯一马尔柯夫(Gauss-Markov)条件,简称G-M 条件。
(在此条 件下,便可以得到关于回归系数的最小二乘估计及误差项方差2σ估计的一些重 要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。
)(3)正态分布的假定条件为⎪⎩⎪⎨⎧=相互独立n j i n i εεεσε,...,,,...,2,1),,0(N ~22 (在此条件下便可得到关于回归系数的最小二乘估计及2σ估计的进一步的结果,如它们分别是回归系数及2σ的最小方差无偏估计等,并且可以作回归的显著性检验及区间估计。
)(4)通常为了便于数学上的处理,还要求n>p ,即样本容量的个数要多于解释变量的个数。
3、回归分析模型主要是揭示事物间相关变量的数量联系。
首先要根据所研究问 题的目的设置因变量y, 然后再选取与y 有统计关系的一些变量作为自变量。
(p8)4、常用的样本数据分为时间序列数据和横截面数据。
(p9)5、对于回归模型的检验一般需要进行统计检验和模型经济意义的检验。
(p12)6、回归分析与相关分析的区别与联系是什么?(p15)联系:在推断统计中,我们把上述变量间具有密切关联而又不能由某一个或某一些变量惟一确定另外一个变量的关系,称为变量间的统计关系或相关关系。
回归分析的初步应用(人教A版)(含答案)
回归分析的初步应用(人教A版)一、单选题(共7道,每道14分)1.下列结论:①函数关系是一种确定性关系;②相关关系是一种非确定关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其中正确的是( )A.①②B.①②③C.①②④D.①②③④答案:C解题思路:试题难度:三颗星知识点:回归分析的初步应用2.在回归分析中,残差图中纵坐标为( )A.残差B.样本编号C. D.答案:A解题思路:试题难度:三颗星知识点:回归分析的初步应用3.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )A.总偏差平方和B.残差平方和C.回归平方和D.相关指数答案:B解题思路:试题难度:三颗星知识点:回归分析的初步应用4.给出下列结论:①在回归分析中,可用指数系数的值判断模型的拟合效果,越大,模型的拟合效果越好;②在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;③在回归分析中,可用相关系数的值判断模型的拟合效果,越大,模型的拟合效果越好;④在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域内,说明这样的模型比较适合,带状区域的宽度越窄,说明模型的拟合精度越高.其中正确的共有( )A.1个B.2个C.3个D.4个答案:B解题思路:试题难度:三颗星知识点:回归分析的初步应用5.下列四个命题:①将一组数据中的每个数据都加上同一个常数,方差不变;②已知回归方程,则当变量增加一个单位时,平均减少5个单位;③将一组数据中的每个数据都加上一个常数,均值不变;④在回归分析中,我们常用来反映拟合效果,越大,残差平方和就越小,拟合的效果就越好.其中错误的共有( )A.0个B.1个C.2个D.3个答案:B解题思路:试题难度:三颗星知识点:回归分析的初步应用6.为了研究两个变量之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为,已知两个人在试验中发现,变量的观测数据的平均值都是,变量的观测数据的平均值都是,那么下列说法正确的是( )A.必定平行B.必定重合C.有交点D.相交,但交点不一定是答案:C解题思路:试题难度:三颗星知识点:回归分析的初步应用7.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为.若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A. B.C. D.答案:B解题思路:试题难度:三颗星知识点:回归分析的初步应用。
应用回归分析试题
应用回归分析试题(一)一、选择题1. 两个变量与x的回归模型中,通常用2R来刻画回归的效果,则正确的叙述是( D )A. 2R越小,残差平方和越小B. 2R越大,残差平方和越大C. 2R与残差平方和无关D. 2R越小,残差平方和越大2.下面给出了4个残差图,哪个图形表示误差序列是自相关的(B)(A) (B)(C)(D)3.在对两个变量x,y进行线性回归分析时,有下列步骤:i ,…,①对所求出的回归直线方程作出解释; ②收集数据(i x,i y),1,2n;③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量,x y具有线性相关结论,则在下列操作中正确的是( D )A.①②⑤③④ B.③②④⑤①C.②④③①⑤ D.②⑤④③①4.下列说法中正确的是(B )A.任何两个变量都具有相关关系B.人的知识与其年龄具有相关关系C.散点图中的各点是分散的没有规律 D.根据散点图求得的回归直线方程都是有意义的5. 下面的各图中,散点图与相关系数r不符合的是(B )二、填空题1. OLSE估计量的性质线性、无偏、最小方差。
2. 学习回归分析的目的是对实际问题进行预测和控制。
3. 检验统计量t 值与P 值的关系是P(|t |>|t 值|)=P 值,P 值越小,|t 值| 越大 ,回归方程越显著。
4. 在一元线性回归中,SST 自由度为n-1, SSE 自由度为n-2, SSR 自由度为1。
5. 在多元线性回归中,样本决定系数2R = 1SSR SSESSTSST =-。
三、叙述题1. 叙述一元线性回归模型中回归方程系数的求解过程及结果(OLSE 法)答案:定义离差平方和2^1)()(i ni i y y Q ∑=-=β最小二乘思想找出参数10,ββ的估计值^1^0,ββ。
使得离差平方和最小,使^1^0,ββ满足下述条件:∑∑==--=-=ni i i ni i i x y x y Q 1210,121^^010)(min ),(),(1ββββββββ根据微分中值定理可得:0)(2|0)(2|^11^01^11^11^00^00=---=∂∂=---=∂∂∑∑====i i n i i i n i i x x y Qx y Qββββββββββ求解正规方程组得到:⎪⎪⎪⎩⎪⎪⎪⎨⎧---=-=∑∑=-=----n i i n i i i x x y y x x xy 121^11^^0)())((βββ 令 --=-=--==--=--=-=-=∑∑∑∑y x n y x y y x x L xn x x x L ni i i i ni i xy ni ini i xx 1121212)()()(则一元线性回归模型中回归方程系数可表示为⎪⎪⎩⎪⎪⎨⎧=-=--xx xy L L x y ^1^1^0βββ2. 叙述多元线性回归模型的基本假设 答案:假设1.解释变量12,,,K X X X L 是非随机的 假设(i ε)=0;假设(i ε)=2σ,i =1,2,……ncov(,i j εε)=0,i j ≠, ,i j =1,2,……n; 假设4.解释变量12,,,K X X X L 线性无关;假设5.2(0,)i N εσ:3. 回归模型中随机误差项ε的意义是什么?答案:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y 与12,,px x x L 的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
应用回归分析试题(二)
应用回归分析试题(二)一、选择题1.对两个变量X和y进行线性回归分析时,有以下步骤:yii?2,1,①对所求出的回归直线方程作出解释;②收集数据(xi、),…,N③ 找出线性回归方程;④ 寻找未知参数;⑤ 根据收集的数据进行绘制散点图。
根据可行性要求,如果可以得出变量X和y具有线性相关性的结论,则以下操作中正确的变量为(d)a.①②⑤③④b.③②④⑤①c.②④③①⑤d.②⑤④③①2.下列说法中正确的是(b)a.任何两个变量都具有相关关系b.人的知识与其年龄具有相关关系c.散点图中的各点是分散的没有规律d、从散点图得到的回归线性方程是有意义的3.下面的各图中,散点图与相关系数r不符合的是(b)4.一位母亲记录了她3到9岁儿子的身高,并建立了身高和年龄之间的关系7.19x?73.93,归直线方程为y据此可以预测这个孩子10岁时的身高,正确的说法是(d)a.身高一定是145.83cmb.身高超过146.00cmc.身高低于145.00cmd.身高在145.83cm左右5.在画两个变量的散点图时,下面哪个叙述是正确的(b)(a)预报变量在x 轴上,解释变量在y轴上(b)解释变量在x轴上,预报变量在y轴上(c)可以选择两个变量中任意一个变量在x轴上(d)可以选择两个变量中任意一个变量二、填空题m21。
y变量是否存在m个可能的回归方程?1.2.h是帽子矩阵,则tr(h)=p+1。
3.回归分析可分为单变量和多变量。
4.回归模型的一般形式为y??0 1x1??2x2pxp5.冠状病毒(e)??2(I?H)(E是多元回归的残差矩阵)。
3、叙事问题1.引起异常值消除的方法(至少5个)?答案:异常值消除方法:(1)重新核实数据;(2)重新测量数据;(3)删除或重新观测异常值数据;(4)增加必要的自变量;(5)增加观测数据,适当扩大自变量的取值范围;(6)采用加权线性回归;(7)采用非线性回归模型;2.自相关引起的问题?答案:(1)参数的估计值不再具有最小方差线性无偏性;(2)均方差(mse)可能严重低估误差项的方差;(3) T值容易被高估,常用的F检验和T检验均失败;(4)当存在序列相关性时,?还无偏估计,但在任何特定样本中;?可能会被严重扭曲?也就是说,最小二乘估计对采样波动变得非常敏感;(5)如果不加处理的运用普通最小二乘估计模型参数,用此模型进行预测和结构分析会带来较大的方差甚至错误的解释。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用回归分析试题(一)1、对于一元线性回归y 0i X i i(i 1,2,..., n),E(J 0 , var( J cov( i, j) 0(i j),下列说法错误的是(A) 0,1的最小一乘估计?'0,?都是无偏估计;(B) 0,1的最小一乘估计?0,Q?对y,y2,... ,y n是线性的;(C) 0,1的最小一乘估计?,?之间是相关的;(D)若误差服从正态分布,0,1的最小二乘估计和极大似然估计是不一样的2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换.如果误差方差与因变量y的期望成正比,则可通过下列哪种变换将方差常数化1(A) - ;(B) “ ;(C) ln( y 1) ;(D) In y.y 、3、下列说法错误的是(A) 强影响点不一定是异常值;(B) 在多元回归中,回归系数显着性的t检验与回归方程显着性的F检验是等价的;(C) 一般情况下,一个定性变量有k类可能的取值时,需要引入k-1个0-1型自变量;(D) 异常值的识别与特定的模型有关.4、下面给岀了4个残差图,哪个图形表示误差序列是自相关的(A) (B)(C) (D)5、下列哪个岭迹图表示在某一具体实例中最小二乘估计是适用的(A) (B)(C)(D)二、填空题(每空2分,共20分)2 21、考虑模型y X ,var( ) I n,其中X : n p,秩为p,0不一定已知,则 ? ________________ , var ( ?) _________ ,若服从正态分布,则2、下表给岀了四变量模型的回归结果:则残差平方和= ___________ ,总的观察值个数 = ___________ ,回归平方和的自由度 = ________ .3、已知因变量 y 与自变量X i ,X 2, X 3,X 4,下表给岀了所有可能回归模型的 AIC 值,则最优子集是 _______________________ .4、 在诊断自相关现象时,若DW 0.66,则误差序列的自相关系数的估计值= _______ ,若存在自相关现象,常用的处理方法有迭代法、 _____________ 、科克伦-奥克特迭代法.5、 设因变量y 与自变量X 的观察值分别为 y 「y 2,..., y n 和x 1, x 2 ,..., x n ,则以x *为折点的折 线模型可表示为 ________________________ .三、(共45分)研究货运总量y (万吨)与工业总产值x 1 (亿元)、农业总产值x 2 (亿元)、 居民非商品支岀X 3 (亿元)的线性回归关系.观察数据及残差值e i 、学生化残差SRE i 、删除 学生化残差SRE (i )、库克距离D i 、杠杆值ch ii 见表(nP)?2___________ ,其中?2是2的无偏估计已知t°.025(6) 2.447 , t°.025(7) 2.365 , FMQ) 4.76 , F°.05(4,7) 4.12,根据上述结果,解答如下问题:1、计算误差方差2的无偏估计及判定系数R2. (8分)2、对X i,X2,X3的回归系数进行显着性检验.(显着性水平0.05)(12分)3、对回归方程进行显着性检验.(显着性水平0.05)(8分)4、诊断数据是否存在异常值,若存在,是关于自变量还是关于因变量的异常值?(10分)5、写岀y关于X i,X2,X3的回归方程,并结合实际对问题作一些基本分析(7分)四、(共8分)某种合金中的主要成分为金属A与金属B,研究者经过13次试验,发现这两种金属成分之和X与膨胀系数y之间有一定的数量关系,但对这两种金属成分之和X是否对膨胀系数y有二次效应没有把握,经计算得y与X的回归的残差平方和为3.7,y与x、x2的回归的残差平方和为0.252,试在0.05的显着性水平下检验X对y是否有二次效应?(参考数据F°.05(1,10) 4.96,F°.05(2,10) 4.1 )五、(共12分)(1)简单描述一下自变量X1,X2,...,X p之间存在多重共线性的定义;( 2 分)2)多重共线性的诊断方法主要有哪两种?( 3)消除多重共线性的方法主要有哪几种?(应用回归分析试题(二)一、选择题1. 某同学由x 与y 之间的一组数据求得两个变量间的线性回归方程为 y bx a ,已知:数据x 的平均值为 2,数据 y 的平均值为 3,则 (A )A .回归直线必过点(2, 3) B.回归直线一定不过点(2, 3) 0点(2, 3)在回归直线上方。
.点(2, 3)在回归直线下方2. 在一次试验中,测得(x, y )的四组值分别是 A (1,2),B (2,3),C (3,4),D (4,5) ,则丫与X 之间的回归直线方程为( A )A. y$ x 1 B . $ X 2c. y 2x 1 D. $ X 1 3. 在对两个变量x , y 进行线性回归分析时,有下列步骤: ①对所求出的回归直线方程作出解释;②收集数据(X i 、y i ), i 1,2,…,n ;③求线性回归方程;④求未知参数;⑤根据所搜集的数据绘制散点图 如果根据可行性要求能够作出变量x, y 具有线性相关结论,则在下列操作中正确的是(D )A.①②⑤③④B .③②④⑤①C.②④③①⑤D.②⑤④③① 4. 下列说法中正确的是( B )A.任何两个变量都具有相关关系B.人的知识与其年龄具有相关关系C.散点图中的各点是分散的没有规律D.根据散点图求得的回归直线方程都是有意义的5. 给出下列结论:22(1) 在回归分析中,可用指数系数 R 的值判断模型的拟合效果, R 越大,模型的拟合效果越好; (2) 在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好; (3) 在回归分析中,可用相关系数 r 的值判断模型的拟合效果, r 越小,模型的拟合效果越好;(4) 在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这 样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 以上结论中,正确的有(B )个.A. 1B. 2C. 3D. 4 6. 已知直线回归方程为 y 2 1.5x ,则变量x 增加一个单位时(C )A. y 平均增加 1.5 个单位B. y 平均增加 2 个单位C. y 平均减少 1.5个单位D. y 平均减少 2 个单位7. 下面的各图中,散点图与相关系数 r 不符合的是( B )8. 一位母亲记录了儿子3〜9岁的身高,由此建立的身高与年龄的回归直线方程为 ? 7.19x 73.93 ,据此可以预测这个孩子 10 岁时的身高,则正确的叙述是(D )A.身高一定是 145.83cmB .身高超过146.00cm C.身高低于145.00cmD •身高在145.83cm 左右 9. 在画两个变量的散点图时,下面哪个叙述是正确的 (B ) (A ) 预报变量在 x 轴上,解释变量在 y 轴上 (B ) 解释变量在x 轴上,预报变量在 y 轴上4 分) 6 分)(C)可以选择两个变量中任意一个变量在x轴上(D)可以选择两个变量中任意一个变量在y轴上210. 两个变量y与x的回归模型中,通常用R来刻画回归的效果,则正确的叙述是(D)A. R2越小,残差平方和小B. R2越大,残差平方和大C. R2于残差平方和无关D. R2越小,残差平方和大11. 两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是(A)2 2A.模型1的相关指数R为0.98B.模型2的相关指数R为0.802 2C.模型3的相关指数R为0.50D.模型4的相关指数R为0.2512. 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是(B)A.总偏差平方和B.残差平方和C.回归平方和D.相关指数R213. 工人月工资(元)依劳动生产率(千元)变化的回归直线方程为? 60 90x,下列判断正确的是(C)A.劳动生产率为1000元时,工资为50元B.劳动生产率提高1000元时,工资提高150元C.劳动生产率提高1000元时,工资提高90元D.劳动生产率为1000元时,工资为90元14. 下列结论正确的是(C )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①② E.①②③ C.①②④ D.①②③④15. 已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程为(C )A. $ 1.23x 4B. $ 1.23x 5 c. y 1.23x 0.08 D. $ 0.08x 1.23二、填空题16. 在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R2的值分别约为0.96和0.85,则拟合效果好的模型是甲.17. 在回归分析中残差的计算公式为列联表、三维柱形图、二维条形图___________ .18. 线性回归模型y bx a e (a和b为模型的未知参数)中,e称为______ .19. 若一组观测值(X1,y 1)(X2,y 2)•••(X n,y n)之间满足=bx「+a+e (i=1、2.…n)若恒为0,则R2为ei恒为0,说明随机误差对%贡献为0.三、解答题20. 调查某市出租车使用年限x和该年支出维修费用y (万元),得到数据如下:Ay bx a 1.23x 0.08 (2)当 x=10 时,y 1.23 10 0.08 12.38 (万元)即估计使用10年时维修费用是1238万元回归方程为:y 1.23x 0.08(2) 预计第10年需要支岀维修费用 12. 38万元.21.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画岀数据对应的散点图;(2 )求线性回归方程,并在散点图中加上回归直线; (3) 据(2)的结果估计当房屋面积为 150m 2时的销售价格. (4) 求第2个点的残差。
21.解析:(1)数据对应的散点图如图所示:-1 5 5 - 2(2) X — X i 109, l xx(X i x) 1570 ,5 i 1i 1设所求回归直线方程为y bx a ,则 b ®-308 0.1962l xx 15702(3)据(2),当x 150m 时,销售价格的估计值为:y 0.1962 150 1.8166 31.2466 (万元)必看经典例题1.从20的样本中得到的有关回归结果是:SSR=60 SSE=40要检验x 与y 之间的线性关系是否显着,即检验假设: H 。