回归分析练习试题和参考答案解析
高考数学基础训练:回归分析含详解
高考数学基础训练:回归分析一、单选题1.某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是.A .90B .75C .60D .452.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是()A .0.2B .0.8C .-0.98D .-0.73.为研究变量x ,y 的相关关系,收集得到下面五个样本点(x ,y ):x 99.51010.511y1110865若由最小二乘法求得y 关于x 的回归直线方程为 3.2y x a=-+,则据此计算残差为0的样本点是()A .(9,11)B .(10,8)C .(10.5,6)D .(11.5)4.据一组样本数据()11,x y ,()22,x y ,…,(),n n x y ,求得经验回归方程为ˆ 1.50.5yx =+,且3x =.现发现这组样本数据中有两个样本点()1.2,2.2和()4.8,7.8误差较大,去除后重新求得的经验回归直线l 的斜率为1.2,则()A .变量x 与y 具有正相关关系B .去除两个误差较大的样本点后,重新求得的回归方程仍为ˆ 1.50.5yx =+C .去除两个误差较大的样本点后,y 的估计值增加速度变快D .去除两个误差较大的样本点后,相应于样本点()2,3.75的残差为0.055.对于样本相关系数,下列说法错误的是()A .可以用来判断成对样本数据相关的正负性B .可以是正的,也可以是负的C .样本相关系数越大,成对样本数据的线性相关程度也越高D .取值范围是[]1,1-6.下列说法中正确的是A .先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是分层抽样法B .线性回归直线ˆˆy bxa =+不一定过样本中心()x y C .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1D .若一组数据2,4,a ,8的平均数是5,则该组数据的方差也是57.某同学用收集到的6组数据对(),(1,2,3,4,5,6)i i x y i =制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线1l 的方程:µµ11y b x a =+$,相关系数为1r ,相关指数为21R :经过残差分析确定点E 为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线2l 的方程:µµ22y b x a =+$,相关系数为2r ,相关指数为22R .则以下结论中,正确的是()①10r >,20r >;②µ10b >,µ20b >;③µµ12b b >;④2212R R >A .①②B .①②③C .②④D .②③④8.已知变量y 关于x 的非线性经验回归方程为0.5ˆe bx y-=,其一组数据如下表所示:x 1234ye3e 4e 5e 若5x =,则预测y 的值可能为()A .152e B .112e C .7e D .5e 第II 卷(非选择题)请点击修改第II 卷的文字说明二、填空题9.高中女学生的身高预报体重的回归方程是 0.7575.5y x =-(其中x , y 的单位分别是cm ,kg ),则此方程在样本()160,46处残差的绝对值是______.10.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:甲乙丙丁R 20.980.780.500.85建立的回归模型拟合效果最好的同学是__________.11.在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点()(),1,2,3,,i i x y i n =⋅⋅⋅都在直线210x y +-=上,则这组样本数据的相关系数r 为______.12.在一组样本数据()11,x y ,()22,x y ,…,()66,x y 的散点图中,若所有样本点(),i i x y ()1,2,,6i = 都在曲线212y bx =-附近波动.经计算6112i i x ==∑,6114i i y ==∑,62123ii x==∑,则实数b 的值为________.三、解答题13.某科技公司研发了一项新产品A ,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x (千元)和销售量y (千件)之间的一组数据如下表所示:月份i 123456销售单价i x 99.51010.5118销售量iy 111086515(1)试根据1至5月份的数据,建立y 关于x 的回归直线方程;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过065.千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?参考公式:回归直线方程ˆˆˆybx a =+,其中i ii 122ii 1ˆnnx y n x yb xnx==-⋅⋅=-∑∑.参考数据:5i i i 1392x y ==∑,52i i 1502.5x ==∑.14.为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为2021年7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的2021年7月10日至7月14日时段中的相关数据,这5天的第x 天到该电商平台专营店购物的人数y (单位:万人)的数据如下表:日期7月10日7月11日7月12日7月13日7月14日第x 天12345人数y (单位:万人)75849398100(1)依据表中的统计数据,请判断该电商平台的第x 天与到该电商平台专营店购物的人数y (单位:万人)是否具有较高的线性相关程度?(参考:若0.30.75r <<,则线性相关程度一般,若0.75r >,则线性相关程度较高,计算r 时精确度为0.01)(2)求购买人数y 与直播的第x 天的线性回归方程;用样本估计总体,请预测从2021年7月10日起的第38天到该专营店购物的人数(单位:万人).参考数据:521(434i iy y =-=∑,51(64i i i x x y y =--=∑65.979≈.附:相关系数()()ni i x x y y r --=∑,回归直线方程的斜率121()()()niii nii x x y y bx x ==--=-∑∑ ,截距a y bx =-$$.15.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+或dy c x=+建立y 关于x 的回归方程,令s =1t x=得到如下数据:xyst10.15109.943.040.16113niii s ys y=-⋅∑13113iii t yt y=-⋅∑1322113ik ss=-∑1322113ii t t =-∑ 1322113ii yy =-∑13.94-2.111.670.2121.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适;(2)根据(1)的结果及表中数据,建立 y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为 1221ni i i nii u vnu v unuβ==-⋅=-∑∑, v u αβ=-,相关系数ni i u vnu vr -⋅∑.参考答案:1.A 【解析】【详解】样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,∴样本总数为.∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.考点:频率分布直方图.2.C 【解析】【分析】由相关系数的绝对值越大,越具有强大相关性,即可求解【详解】∵相关系数的绝对值越大,越具有强大相关性,C 相关系数的绝对值最大约接近1,∴C 拟合程度越好.故选:C 3.B 【解析】【分析】先求出线性方程的样本中心点,从而可求得 3.240y x =-+,再根据残差的定义可判断.【详解】由题意可知,99.51010.511105x ++++==,111086585y ++++==所以线性方程的样本中心点为(10,8),因此有 8 3.21040aa =-⨯+⇒=,所以 3.240y x =-+,在收集的5个样本点中,(10,8)一点在 3.240y x =-+上,故计算残差为0的样本点是(10,8).故选:B 4.A 【解析】【分析】由条件可知样本中心不变,可求出新的回归直线方程,即可判断.【详解】因为重新求得的经验回归直线l 的斜率为1.2,所以变量x 与y 具有正相关关系,故A 正确;当3x =时,315055y ..=⨯+=,设去掉两个误差较大的样本点后,横坐标的平均值为x ',纵坐标的平均值为y ',则12636322n x x x x n n n ++⋅⋅⋅+--=--'==,1210510522n y y y n n n y ++⋅⋅⋅+--'==--=,因为去除两个误差较大的样本点后,重新求得回归直线l 的斜率为1.2,所以ˆ53 1.2a =⨯+,解得 1.4ˆa =,所以去除两个误差较大的样本点后的经验回归方程为ˆ 1.2 1.4yx =+,故B 错误;因为1.5 1.2>,所以去除两个误差较大的样本点后y 的估计值增加速度变慢,故C 错误;因为ˆ 1.22 1.4 3.8y=⨯+=,所以ˆ 3.75 3.80.05y y -=-=-,故D 错误.故选:A.5.C 【解析】【分析】根据相关系数的概念,依次分析各选项即可得答案.【详解】解:对于A 选项,当相关系数为正时,表明变量之间是正相关,相关系数为负数时,表明相关系数为负数,故A 选项正确;对于B ,D 选项,相关系数范围是[]1,1-,故可以为正,也可以为负,故B ,D 选项正确;对于C 选项,当相关系数为负数时,样本相关系数越大,线性相关性就越弱,故C 选项错误;故选:C6.D 【解析】A 是系统抽样,B 选项线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,C 选项若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,D 选项若一组数据2,4,a ,8的平均数是5,求出a ,则该组数据的方差即可求解.【详解】A 选项:先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是系统抽样法,所以该选项不正确;B 选项:线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,所以该选项不正确;C 选项:若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,所以该选项不正确;D 选项:若一组数据2,4,a ,8的平均数是5,24854a +++=,解得6a =,则该组数据的方差是()()()()22222545658554-+-+-+-=,所以该选项正确.故选:D 【点睛】此题考查抽样方法,回归直线,相关关系的辨析,求平均数和方差,关键在于熟练掌握相关概念和公式,准确计算.7.B 【解析】【分析】根据散点图逐项进行判断即可.【详解】①:由散点图可知,,x y 之间是正相关关系,所以10r >,20r >,故①正确;②③:由散点图可知,回归直线的斜率是正数,且1l 的斜率大于2l 的斜率,所以µ10b >,µ20b >,µµ12b b >,故②③正确;④:由散点图可知,去掉“离群点”E 后,相关性更强,拟合的效果更好,所以2212R R <,故④错误;故选:B.8.C 【解析】【分析】将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,由样本中心()x z 必在回归直线0.5z bx =-上,可求出b ,从而即可求解.【详解】解:由题意,将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,则x1234z13451234 2.54x +++==,13453.254z +++==,由0.5z bx =-,得3.25 2.50.5b =-,解得 1.5b =,所以 1.50.5e x y -=,所以当5x =时, 1.550.57e e y ⨯-==,故选:C.9.1.5##32【解析】【分析】利用回归直线方程,求出160x =的估计值,然后求解残差的绝对值.【详解】由样本数据得到,女大学生的身高预报体重的回归方程是 0.7575.5y x =-,当160x =时, 0.7516075.544.5y =⨯-=,此方程在样本()160,46处残差的绝对值:44.546 1.5-=.故答案为:1.5.10.选甲相关指数R 2越大,表示回归模型拟合效果越好.【解析】【分析】相关指数越大,相关性越强,拟合效果越好.根据相关指数的大小即可判断.【详解】相关指数2R 越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.【点睛】如果两个变量间的关系是相关关系,相关指数2R 越大,相关系数r 越接近1,残差平方和越接近0,都代表拟合效果越好.11.1-【解析】【分析】根据直线斜率可知两个变量负相关,结合数据点都在直线上可确定1r =-.【详解】直线210x y +-=的斜率20k =-<,∴这两个变量成负相关,0r ∴<,又所有样本点都在直线210x y +-=上,1r ∴=-.故答案为:1-.12.1723【解析】【分析】设2t x =,可得回归直线方程为12y bt =-,求出样本中心点(),t y 代入可得b 的值.【详解】令2t x =则212y bx =-即12y bt =-,6212366i i x t ===∑,61147663ii y y ====∑,因为样本中心点237,63⎛⎫ ⎪⎝⎭在回归直线12y bt =-上,所以7231362b =-,可得:1723b =,故答案为:1723.13.(1)ˆ3240y x =-+.;(2)是.【解析】【分析】(1)先由表中的数据求出,x y ,再利用已知的数据和公式求出 ,ba ,从而可求出y 关于x 的回归直线方程;(2)当8x =时,求出 y 的值,再与15比较即可得结论【详解】(1)因为()199.51010.511105x =++++=,()1111086585y =++++=,所以23925108ˆ 3.2502.5510b -⨯⨯==--⨯,得()ˆ8 3.21040a=--⨯=,于是y 关于x 的回归直线方程为 3.240ˆyx =-+;(2)当8x =时,ˆ 3.284014.4y=-⨯+=,则ˆ14.4150.60.65yy -=-=<,故可以认为所得到的回归直线方程是理想的.14.(1)具有较高的线性相关程度(2) 6.470.8y x =+,314万人【解析】【分析】(1)由已知计算相关系数r 即可.(2)由列表计算 a、b ,可得线性回归方程进一步可得解.(1)由表中数据可得3,90x y ==,所以521()10i i x x =-=∑,又55211()434,()()64i i i i i y y x x y y ==-=--=∑∑,所以()()50.970.75i i x x y y r --=>∑,所以该电商平台直播黄金时段的天数x 与购买人数y 具有较高的线性相关程度.所以可用线性回归模型拟合人数y 与天数x 之间的关系.(2)由表中数据可得()()()5152164ˆ 6.410i i i i i x x y y b x x ==--===-∑∑,则ˆˆ90 6.4370.8a y bx =-=-⨯=,所以 6.470.8y x =+,令38x =,可得 6.4387031ˆ.84y =⨯+=(万人)15.(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54y x =-;(3)当温度为20时这种草药的利润最大.【解析】【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型d y c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz ,利用基本不等式求得利润z 的最大值以及对应的x 值.【详解】(1)由题意知20.9953r =-,10.8858r =,因为121r r <<,所有用d y c x =+模型建立y 与x 的回归方程更合适.(2)因为1311322113 2.1ˆ100.2113i i i i i t y t yd tt ==-⋅-===--∑∑,ˆˆ109.94100.16111.54cy dt =-=+⨯=,所以ˆy 关于x 的回归方程为10ˆ111.54y x=-(3)由题意知11012020(111.54ˆˆ)22z y x x x =-=--20012230.8()2x x =-+2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x =时等号成立,所以当温度为20时这种草药的利润最大.。
应用统计学课件回归分析习题答案
多元回归例题答案: 1.
(1) 从残差图看无异方差,DW=2.44, dU=1.46,dL=0.59,无序列相关,OLS 估计量
为最优线性吴偏估计量。
x1x3VIF>10,存在多重共线, X2 的VIF=1.019不存在多重共线。
H0:0321===βββ,H!: 321,,βββ不同时为零, F=
3.289)
411/()992.01(3
/992.0=--291>F 0.05=4.35, 拒绝原假设,方程显著。
t α/2=2.365
(3) X1不显著,且存在多重共线,可用主成分回归修正多重共线。
2.模型不存在异方差,截面数据不存在序列相关,最小二乘估计量是最优线性无偏估计量,t 检验和F 检验有效。
方程总体线性关系显著数均显著。
的系数不显著,其余系只有37.272.11)
667/()1(5/0.222
.22
.43
17
.15
0125.0:
)64.0()10.0()09.0()06.0()14.0()2.3(:42.1exp 42.0exp 27.007.070.004.0_05.02
22/05.0=>=--==+--++=F R R F fage t t se power
av f fage size p lostday
因为所有变量的VIF 都小于3,无多重共线, fage 系数不显著,为多余变量,应剔除。
回归分析练习试题和参考答案解析
1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
α=)。
(5)检验回归方程线性关系的显著性(0.05(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:系数a模型非标准化系数标准系数t Sig.相关性B标准误差试用版零阶偏部分1(常量).003人均GDP.309.008.998.000.998.998.998 a. 因变量: 人均消费水平有很强的线性关系。
(3)回归方程:734.6930.309y x=+系数a模型非标准化系数标准系数t Sig.相关性回归系数的含义:人均GDP没增加1元,人均消费增加元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t显著性B标准误Beta1(常量)人均GDP(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1.998a.996.996a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型摘要模型R R 方调整的 R 方估计的标准差1.998(a)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5)F检验:Anova b模型平方和df均方F Sig.1回归.6801.680.000a 残差5总计.7146a. 预测变量: (常量), 人均GDP。
回归分析练习题及参考答案
1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:地区人均GDP/元人均消费水平/元北京辽宁上海江西河南贵州陕西 224601122634547485154442662454973264490115462396220816082035求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1 .998a.996 .996 247.303a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
回归分析练习题及参考答案
1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:地区人均GDP/元人均消费水平/元北京辽宁上海江西河南贵州陕西 224601122634547485154442662454973264490115462396220816082035求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1 .998a.996 .996 247.303a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
回归分析练习题与参考答案
求:(1)人均GDP 作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系 形态。
(2) 计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3) 求出估计的回归方程,并解释回归系数的实际意义。
(4) 计算判定系数,并解释其意义。
(5) 检验回归方程线性关系的显著性(0.05)。
⑹如果某地区的人均 GDP 为5000元,预测其人均消费水平。
(7)求人均GDP 为5000元时,人均消费水平 95%的置信区间与预测区间。
解: (1)12000- 1DOO Q-6000- 6000- 4QD0- 2000- 0- D1000020000人均GDP30000 4MOO可能存在线性关系。
(2)相关系数:a.因变量人均消费水平有很强的线性关系。
(3)回归方程: y 734.6930.309xa.因变量人均消费水平回归系数的含义:人均 GDP 没增加1元,人均消费增加 0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a )a.因变量人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% (4)模型汇总a.预测变量:(常量),人均GDP人均GDP 对人均消费的影响达到 99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5) F检验:ba. 预测变量:(常量),人均GDPb. 因变量:人均消费水平回归系数的检验:t检验a.因变量人均消费水平%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
回归分析练习题及参考答案
求:(1)人均GDP 作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP 为5000元,预测其人均消费水平。
(7)求人均GDP 为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型摘要模型R R 方调整的R 方估计的标准差1 .998(a) 0.996 0.996 247.303a. 预测变量:(常量), 人均GDP(元)。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5)F 检验:回归系数的检验:t 检验注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型 非标准化系数标准化系数t 显著性B 标准误 Beta1(常量) 734.693 139.540 5.2650.003 人均GDP (元)0.3090.0080.99836.4920.000a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(6)某地区的人均GDP 为5000元,预测其人均消费水平为 734.6930.30950002278.693y =+⨯=(元)。
回归分析练习题(有标准答案)
回归分析练习题(有答案)作者:日期:1.1回归分析的基本思想及其初步应用一、选择题1.某同学由x 与y 之间的一组数据求得两个变量间的线性回归方程为均值为2,数据y 的平均值为3,则()A .回归直线必过点(2,3)C 点(2,3)在回归直线上方B.回归直线一定不过点(2,3)D 点(2,3)在回归直线下方y bx a ,已知:数据x 的平2.在一次试验中,测得(x, y)的四组值分别是A (1,2),B(2,3),C(3,4),D(4,5),则丫与X 之间的回归直线方程为()A.$x1B .$ x 2C$2x1D.$ x 13.在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;③求线性回归方程;④求未知参数;②收集数据(X j 、y i ),i 1,2,…,n ;⑤根据所搜集的数据绘制散点图)如果根据可行性要求能够作岀变量A.①②⑤③④Bx, y 具有线性相关结论,则在下列操作中正确的是(C.②④③①⑤D .②⑤④③①.③②④⑤①4.下列说法中正确的是()B人的知识与其年龄具有相关关系D 根据散点图求得的回归直线方程都是有意义的A.任何两个变量都具有相关关系C.散点图中的各点是分散的没有规律5.给出下列结论:2 2(1)在回归分析中,可用指数系数R 的值判断模型的拟合效果,R 越大,模型的拟合效果越好;(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r 的值判断模型的拟合效果,较合适带状区域的宽度越窄,说明模型的拟合精度越高.A.y 平均增加1.5个单位B.A. 1B )个..2r 越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比y 平均增加2个单位C.y 平均减少1.5个单位C.3DD.y 平均减少2个单位.4以上结论中,正确的有(6.已知直线回归方程为y7.2 1.5x ,则变量x 增加一个单位时()下面的各图中,散点图与相关系数r 不符合的是()\ 1V ||一1,— 1 < r<(>■r?■* ■■■■* ■..* .**打4X(7UV1)D.'8.一位母亲记录了儿子39岁的身高,由此建立的身高与年龄的回归直线方程为据此可以预测这个孩子10岁时的身高,则正确的叙述是(A.身高一定是145.83cm C.身高低于145.00cm BD)7.19x 73.93,.身高超过146.00cm身高在145.83cm左右9.(A)预报变量在x轴上,解释变量在y轴上(B)解释变量在x轴上,预报变量在y轴上(C)(D)在画两个变量的散点图时,下面哪个叙述是正确的()可以选择两个变量中任意一个变量在x轴上可以选择两个变量中任意一个变量在y轴上10.两个变量y与x的回归模型中,通常用R2来刻画回归的效果,则正确的叙述是(22)A.R越小,残差平方和小2B.R越大,残差平方和大2c.R于残差平方和无关D.R越小,残差平方和大211.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.802 2C.模型3的相关指数R为0.50 D.模型4的相关指数R为0.2512.回归直线上相应位置的差异的是A.总偏差平方和B.C.回归平方和13.回归直线方程为残差平方和D.相关指数R2在回归分析中,代表了数据点和它在()工人月工资(元)依劳动生产率(千元)变化的60 90x,下列判断正确的是()A.劳动生产率为1000元时,工资为50元B.劳动生产率提高1000元时,工资提高150元C.劳动生产率提高1000元时,工资提高90元D.劳动生产率为1000元时,工资为90元14.下列结论正确的是()①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①② E.①②③ C.①②④ D.①②③④15.已知回归直线的斜率的估计值为中心为(4,5),则回归直线方程为()1.23,样本点的A.$ 1.23x 4B.$ 1.23x 5C.$ 1.23x 0.08D.y 0.08x 1.2316.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数果好的模型是 __________.17.在回归分析中残差的计算公式为 ____________.18.线性回归模型y bx a e(a和b为模型的未知参数)中,e称为_________________.19.若一组观测值(X1,yJ(X2,y2)…(Xn,y“)之间满足yi=bXi+a+e(i=1、2.…n)若恒为0,则氏为______________R2的值分别约为0.96和0.85,则拟合效20.调查某市出租车使用年限x 和该年支出维修费用y (万元),得到数据如下:使用年限x 维修费用y(求线性回归方程;n22.233.845.556. 567.0(2)由(1)中结论预测第10年所支出的维修费用.i 1(X i x) (y iy).n(X ii 1x)2bx21.以下是某地搜集到的新房屋的销售价格闵屋面积Ey 和房屋的面积x 的数据:11524.Q1102 1. CIB-413G29.21口丘22t 肖年愉梧(1)画岀数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为150m2时的销售价格(4)求第2个点的残差。
回归分析练习题
1. 从20的样本中得到的有关回归结果是:SSR=60,SSE=40。
要检验x 与y 之间的线性关系是否显著,即检验假设:01:0H β=。
(1)线性关系检验的统计量F 值是多少? (2)给定显著性水平a =0.05,F a 是多少? (3)是拒绝原假设还是不拒绝原假设?(4)假定x 与y 之间是负相关,计算相关系数r 。
(5)检验x 与y 之间的线性关系是否显著?解:(1)SSR 的自由度为k=1;SSE 的自由度为n-k-1=18;因此:F=1SSR k SSE n k --=6014018=27 (2)()1,18F α=()0.051,18F =4.41 (3)拒绝原假设,线性关系显著。
(4),由于是负相关,因此r=-0.7746(5)从F 检验看线性关系显著。
2. 某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。
通过计算得到下面的有关结果:(1)完成上面的方差分析表。
(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?(3)销售量与广告费用之间的相关系数是多少?(4)写出估计的回归方程并解释回归系数的实际意义。
(5)检验线性关系的显著性(a=0.05)。
(2)R2=0.9756,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。
(3)r=0.9877。
(4)回归系数的意义:广告费用每增加一个单位,汽车销量就增加1.42个单位。
(5)回归系数的检验:p=2.17E—09<α,回归系数不等于0,显著。
回归直线的检验:p=2.17E—09<α,回归直线显著。
3. 根据两个自变量得到的多元回归方程为12ˆ18.4 2.014.74yx x =-++,并且已知n =10,SST =6 724.125,SSR =6 216.375,1ˆ0.0813s β=,2ˆs β=0.056 7。
要求:(1)在a=0.05的显著性水平下,12,x x 与y 的线性关系是否显著? (2)在a =0.05的显著性水平下,1β是否显著?(3)在a =0.05的显著性水平下,2β是否显著?解(1)回归方程的显著性检验:假设:H 0:1β=2β=0 H 1:1β,2β不全等于0 SSE=SST-SSR=6 724.125-6 216.375=507.75 F=1SSR p SSE n p --=6724.1252507.751021--=42.85()2,7F α=4.74,F>()2,7F α,认为线性关系显著。
回归分析练习试题和参考答案解析
1 下面是7个地区2000年的人均国生产总值(GDP)和人均消费水平的统计数据:地区人均GDP/元人均消费水平/元22460 11226 34547 4851 5444 2662 4549 7326 4490 11546 2396 2208 1608 2035求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1 .998a.996 .996 247.303a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规排版。
相关分析与回归分析练习试卷1(题后含答案及解析)
相关分析与回归分析练习试卷1(题后含答案及解析) 题型有:1. 单选题 2. 多选题单项选择题以下每小题各有四项备选答案,其中只有一项是正确的。
1.根据散点图8-1,可以判断两个变量之间存在( )。
A.正线性相关关系B.负线性相关关系C.非线性关系D.函数关系正确答案:A 涉及知识点:相关分析与回归分析2.假设某品牌的笔记本市场需求只与消费者的收入水平和该笔记本的市场价格水平有关。
则在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的相关关系就是一种( )。
A.单相关B.复相关C.偏相关D.函数关系正确答案:C解析:在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。
在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的关系就是一种偏相关。
知识模块:相关分析与回归分析3.相关图又称( )。
A.散布表B.折线图C.散点图D.曲线图正确答案:C解析:相关图又称散点图,是指把相关表中的原始对应数值在乎面直角坐标系中用坐标点描绘出来的图形。
知识模块:相关分析与回归分析4.下列相关系数取值中错误的是( )。
A.-0.86B.0.78C.1.25D.0正确答案:C解析:相关系数r的取值介于-1与1之间。
知识模块:相关分析与回归分析5.如果相关系数r=0,则表明两个变量之间( )。
A.相关程度很低B.不存在任何关系C.不存在线性相关关系D.存在非线性相关关系正确答案:C解析:相关系数r是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
如果相关系数r=0,说明两个变量之间不存在线性相关关系。
知识模块:相关分析与回归分析6.当所有观测值都落在回归直线上,则两个变量之间的相关系数为( )。
A.1B.-1C.+1或-1D.大于-1,小于+1正确答案:C解析:当所有观测值都落在回归直线上时,说明两个变量完全线性相关,所以相关系数为+1或-1。
回归分析习题及答案.doc
1.1回归分析的基本思想及其初步应用例题:1.在画两个变量的散点图时,下面哪个叙述是正确的()(A)预报变量在x轴上,解释变量在y轴上(B)解释变量在X轴上,预报变量在y轴上(0可以选择两个变量中任意一个变量在x轴上(D)可以选择两个变量中任意一个变量在y轴上解析:通常把自变量X称为解析变量,因变量y称为预报变量.选B2,若一组观测值(xi, yi) (x2, y2) ••- (x…, y n)之间满足 y-bxi+a+e;(i=l> 2. •••!!)若巳恒为0,则仁为_____________解析:e』亘为0,说明随机误差对方贡献为0.答案:1.3.假设关于某设备的使用年限x和所支出的维修费用y (万兀),有如下的统计资料:X 2 3 4 5 6y 22 38 55 65 70若由资料可知y对x呈线性相关关系试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?解:(1)列表如下:i 1 2 3 4 5X] 2 3 4 5 622 38 55 65 70时•44 114 220 325 420X; 4 9 16 25 36_ _ 5 5x = 4, y = 5,»;=9o, »,北=112.3z'=l z'=l5 ___况一5xy干旱,仃112.3-5x4x5 …c十正方= ------------- = ------------ -- = 1.23,S,厂2 90 —5x42小「- 5x<=|a = y -bx = 5-1.23x4 = 0.08线性回归方程为:y =bx + a = 1.23x + Q.QS ( 2 )当 x=10 时,y = 1.23x10 + 0.08 = 12.38 (万兀)即估计使用10年时维修费用是1238万元课后练习:1.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7. 19x+73.93 用这个模型预测这个孩子10岁时的身高,则正确的叙述是()A.身高一定是145. 83cm;B.身高在145. 83cm以上;C.身高在145. 83cm以下;D.身I W J在 145. 83cm 左右.2.两个变量y与x的回归模型中,分别选择了 4个不同模型,它们的相关指数人2如下,其中拟合效果最好的模型是()A.模型1的相关指数人2为0. 98B.模型2的相关指数R2为。
人教版选修【1-2】1.1《回归分析的基本思想及其初步应用》习题及答案
数学·选修1-2(人教A版)1.1回归分析的基本思想及其初步应用►达标训练1.下列结论正确的是( )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①② B.①②③C.①②④ D.①②③④解析:根据函数关系、相关关系、回归关系的概念可知选C.答案:C2.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是()A.总偏差平方和 B.残差平方和C.回归平方和 D.相关指数R2答案:B3.下表是某工厂6~9月份用电量(单位:万度)的一组数据:月份x 6789用电量y 653 2由散点图可知,用电量y与月份x间有较好的线性相关关系,其线性回归直线方程是错误!=-1。
4x+a,则a等于( )A.10.5 B.5。
25C.5。
2 D.14。
5解析:答案:D4.(2013·广东四校联考)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)423 5销售额y(万元)49263954根据上表可得回归方程错误!=错误!x+错误!中的错误!为9.4,据此模型预报广告费用为6万元时销售额为()A.63。
6万元 B.65.5万元C.67.7万元 D.72.0万元答案:B5.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n 个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如右图),以下结论正确的是()A.直线l过点(错误!,错误!)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案:A6.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( ) A.模型1:相关指数R2为0。
98B.模型2:相关指数R2为0。
简单线性回归分析思考与练习参考答案
简单线性回归分析思考与练习参考答案第10章简单线性回归分析思考与练习参考答案⼀、最佳选择题1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。
A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错2.如果相关系数r =1,则⼀定有( C )。
A .总SS =残差SSB .残差SS =回归SSC .总SS =回归SSD .总SS >回归SS E.回归MS =残差MS3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。
A .ρ=0时,r =0B .|r |>0时,b >0C .r >0时,b <0D .r <0时,b <0 E. |r |=1时,b =14.如果相关系数r =0,则⼀定有( D )。
A .简单线性回归的截距等于0B .简单线性回归的截距等于Y 或XC .简单线性回归的残差SS 等于0D .简单线性回归的残差SS 等于SS 总E .简单线性回归的总SS 等于05.⽤最⼩⼆乘法确定直线回归⽅程的含义是( B )。
A .各观测点距直线的纵向距离相等B .各观测点距直线的纵向距离平⽅和最⼩C .各观测点距直线的垂直距离相等D .各观测点距直线的垂直距离平⽅和最⼩E .各观测点距直线的纵向距离等于零⼆、思考题1.简述简单线性回归分析的基本步骤。
答:①绘制散点图,考察是否有线性趋势及可疑的异常点;②估计回归系数;③对总体回归系数或回归⽅程进⾏假设检验;④列出回归⽅程,绘制回归直线;⑤统计应⽤。
2.简述线性回归分析与线性相关的区别与联系。
答:区别:(1)资料要求上,进⾏直线回归分析的两变量,若X 为可精确测量和严格控制的变量,则对应于每个X 的Y 值要求服从正态分布;若X 、Y 都是随机变量,则要求X 、Y 服从双变量正态分布。
直线相关分析只适⽤于双变量正态分布资料。
回归分析解答题-后附答案
回归分析解答题一、解答题(本大题共24小题,共288.0分)1.如图是我国2008年至2014年生活垃圾无害化处理量单位:亿吨的折线图.注:年份代码分别对应年份.由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以证明;建立y关于t的回归方程系数精确到,预测2016年我国生活垃圾无害化处理量.附注:参考数据:,,,.参考公式:,回归方程中斜率和截距的最小二乘估计公式分别为:,.2.为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸经计算得,,,,其中为抽取的第i个零件的尺寸,,,,.求,,,,的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小.一天内抽检零件中,如果出现了尺寸在,之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?在,之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差精确到附:样本,,,,的相关系数.3.一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了该种药用昆虫的6组观测数据如表:经计算得:,,,,,线性回归模型的残差平方和,,其中,分别为观测数据中的温度和产卵数,,,,,,.Ⅰ若用线性回归模型,求y关于x的回归方程精确到;Ⅱ若用非线性回归模型求得y关于x的回归方程为,且相关指数.i试与Ⅰ中的回归模型相比,用说明哪种模型的拟合效果更好.用拟合效果好的模型预测温度为时该种药用昆虫的产卵数结果取整数.附:一组数据,,,,,,,其回归直线的斜率和截距的最小二乘估计为;相关指数.4.2015年12月,华中地区数城市空气污染指数“爆表”,此轮污染为2015年以来最严重的污染过程,为了探究车流量与的浓度是否相关,现采集到华中某城市2015年12月份某星期星期一到星期日某一时间段车流量与由散点图知y与x具有线性相关关系,求y关于x的线性回归方程;提示数据:利用所求的回归方程,预测该市车流量为12万辆时的浓度;规定:当一天内的浓度平均值在,内,空气质量等级为优;当一天内的浓度平均值在,内,空气质量等级为良,为使该市某日空气质量为优或者为良,则应控制当天车流量不超过多少万辆?结果以万辆为单位,保留整数参考公式:回归直线的方程是,其中,.5.某单位共有10名员工,他们某年的收入如表:求该单位员工当年年薪的平均值和中位数;从该单位中任取2人,此2人中年薪收入高于7万的人数记为,求的分布列和期望;已知员工年薪收入与工作年限成正相关关系,某员工工作第一年至第四年的年薪分别为4万元,万元,6万元,万元,预测该员工第五年的年薪为多少?附:线性回归方程中系数计算公式分别为:,,其中,为样本均值.6.据某市地产数据研究显示,2016年该市新建住宅销售均价走势如下图所示,3月至7月房价上涨过快,为抑制房价过快上涨,政府从8月开始采用宏观调控措施,10月份开始房价得到很好的抑制.地产数据研究院发现,3月至7月的各月均价万元平方米与月份x之间具有较强的线性相关关系,试建立y 关于x的回归方程;若政府不调控,依此相关关系预测帝12月份该市新建住宅销售均价.参考数据:,,;回归方程中斜率和截距的最小二乘估计公式分别为:,.7.从某居民区随机抽取10个家庭,获得第i个家庭的月收入单位:千元与月储蓄单位:千元的数据资料,算得,,,.Ⅰ求家庭的月储蓄y对月收入x的线性回归方程;Ⅱ判断变量x与y之间是正相关还是负相关;Ⅲ若该居民区某家庭月收入为12千元,预测该家庭的月储蓄.附:线性回归方程中,,其中,为样本平均值,线性回归方程也可写为.8.如表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量吨与相应的生产能耗吨标准煤的几组对照数据的几组对照数据:请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;试根据求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?参考数值附:,,其中,为样本均值9.保险公司统计的资料表明:居民住宅区到最近消防站的距离单位:千米和火灾所造成的损失数额单位:千元有如下的统计资料:如果统计资料表明y与x有线性相关关系,试求:Ⅰ求相关系数精确到;Ⅱ求线性回归方程精确到;若发生火灾的某居民区与最近的消防站相距千米,评估一下火灾的损失精确到.参考数据:,:,,,,参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,10.某交警大队对辖区A路段在连续10天内的n天,对过往车辆驾驶员进行血液酒精浓度检查,查得驾驶员酒驾率可用线性回归模型拟合与的关系.建立关于n的回归方程;该交警大队将在2016年12月11日至20日和21日至30日对A路段过往车辆驾驶员进行血液酒精浓度检查,分别检查,天,其中,都是从,,中随机选择一个,用回归方程结果求两阶段查得的驾驶员酒驾率都不超过的概率.附注:参考数据:,,,回归方程中斜率和截距最小乘估计公式分别为:,.11.(茎叶图数学成绩第4.5.6行各漏印了一个数字)某校为了解学生一次考试后数学、物理两个科目的成绩情况,从中随机抽取了25位考生的成绩进行统计分析位考生的数学成绩已经统计在茎叶图中,物理成绩如下:90 71 64 66 72 39 49 46 55 56 85 52 6l80 66 67 78 70 51 65 42 73 77 58 67Ⅰ请根据数据在答题卡的茎叶图中完成物理成绩统计;ⅡⅢ设上述样本中第i位考生的数学、物理成绩分别为,,,,,通过对样本数据进行初步处理发现:数学、物理成绩具有线性相关关系,得到:,,,,.求y关于x的线性回归方程,并据此预测当某考生的数学成绩为100分时,该考生的物理成绩精确到1分.附:回归直线方程的斜率和截距的最小二乘估计公式分别为:,.12.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费单位:千元对年销售量单位:和年利润单位:千元的影响,对近8年的年宣传费和年销售量,,数据作了初步处理,得到下面的散点图及一些统计量的值.表中,Ⅰ根据散点图判断,与哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?给出判断即可,不必说明理由Ⅱ根据Ⅰ的判断结果及表中数据,建立y关于x的回归方程;Ⅲ已知这种产品的年利率z与x、y的关系为根据Ⅱ的结果回答下列问题:年宣传费时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据,,,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.13.某食品店为了了解气温对销售量的影响,随机记录了该店1月份中5天的日销售量单位:千克与该地当日最低气温单位:求出y与x的回归方程判断y与x之间是正相关还是负相关;若该地1月份某天的最低气温为,请用所求回归方程预测该店当日的销售量;设该地1月份的日最低气温~,,其中近似为样本平均数,近似为样本方差,求.附:回归方程中,,.,若~,,则,.14.中石化集团通过与安哥拉国家石油公司合作,获得了安哥拉深海油田区块的开采权,集团在某些区块随机初步勘探了部分口井,取得了地质资料进入全面勘探时期后,集团按网络点来布置井位进行全面勘探由于勘探一口井的费用很高,如果新设计的井位与原有井位重合或接近,便利用旧井的地质资料,不必打这口新井以节约勘探费用勘探初期数据资料见如表:a,并估计y的预报值;现准备勘探新井,,若通过1、3、5、7号井计算出的,的值与中,的值差不超过,则使用位置最接近的已有旧井,,否则在新位置打开,请判断可否使用旧井?,,设出油量与勘探深度的比值k不低于20的勘探并称为优质井,那么在原有的出油量不低于50L的井中任意勘察3口井,求恰有2口是优质井的概率.15.如图是我国2008年至2014年生活垃圾无害化处理量单位:亿吨的折线图由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;建立y关于t的回归方程系数精确到,预测2016年我国生活垃圾无害化处理量.参考数据:,,,.参考公式:相关系数.回归方程中斜率和截距的最小二乘估计公式分别为:,.16.某公司为评估两套促销活动方案方案1运作费用为5元件;方案2的运作费用为2元件,在某地区部分营销网点进行试点每个试点网点只采用一种促销活动方案,运作一年后,对比该地区上一年度的销售情况,制作相应的等高条形图如图所示.请根据等高条形图提供的信息,为该公司今年选择一套较为有利的促销活动方案不必说明理由;已知该公司产品的成本为10元件未包括促销活动运作费用,为制定本年度该地区的产品销售价格,统计上一年度的8组售价单位:元件,整数和销量单位:件,,,如下表所示:请根据下列数据计算相应的相关指数,并根据计算结果,选择合适的回归模型进行拟合;根据所选回归模型,分析售价x定为多少时?利润z可以达到最大.17.随着移动互联网的快速发展,基于互联网的共享单车应运而生某市场研究人员为了了解共享单车运营公司M的经营状况,对该公司最近六个月内的市场占有率进行了统计,并绘制了相应的折线图.Ⅰ由折线图可以看出,可用线性回归模型拟合月度市场占有率y与月份代码x之间的关系求y关于x的线性回归方程,并预测M公司2017年4月份的市场占有率;Ⅱ为进一步扩大市场,公司拟再采购一批单车现有采购成本分别为1000元辆和1200元辆的A、B两款车型可供选择,按规定每辆单车最多使用4年,但由于多种原因如骑行频率等会导致车辆报废年限各不相同考虑到公司运营的经济效益,该公司决定先对两款车型的单车各100辆进行科学模拟测试,得到两款单车使用寿命频数表如下:经测算,平均每辆单车每年可以带来收入500元不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且以频率作为每辆单车使用寿命的概率如果你是M公司的负责人,以每辆单车产生利润的期望值为决策依据,你会选择采购哪款车型?参考数据:,,.参考公式:回归直线方程为其中,.18.某厂生产不同规格的一种产品,根据检测标准,其合格产品的质量与尺寸之间近似满足关系式、c为大于0的常数按照某项指标测定,当产品质量与尺寸的比在区间,内时为优等品现随机抽取6件合格产品,测得数据如下:,得相关统计量的值如下表:已知优等品的收益单位:千元与,的关系为,当优等品的质量与尺寸之比为时,求其收益的预报值精确到附:对于样本,,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,,.19.某学生为了测试煤气灶烧水如何节省煤气的问题设计了一个实验,并获得了煤气开关旋钮旋转的弧度数x 与烧开一壶水所用时间y 的一组数据,且作了一定的数据处理 如表 ,得到了散点图 如图 .表中,.根据散点图判断,与哪一个更适宜作烧水时间y 关于开关旋钮旋转的弧度数x 的回归方程类型? 不必说明理由根据判断结果和表中数据,建立y 关于x 的回归方程;若旋转的弧度数x 与单位时间内煤气输出量t 成正比,那么x 为多少时,烧开一壶水最省煤气?附:对于一组数据 , , , , , , , , ,其回归直线 的斜率和截距的最小二乘估计分别为,.20.二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格 单位:万元 辆 进行整理,得到如下数据:下面是关于的折线图:由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关数加以说明;求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少?、小数点后保留两位有效数字.基于成本的考虑,该型号二手车的售价不得低于7118元,请根据求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,,.参考数据:,,,,,,,.21.5,得到如下统计表:根据所给组数据,求出关于的线性回归方程.已知购买原材料的费用元与数量袋的关系为,投入使用的每袋原材料相应的销售收入为700元,多余的原材料只能无偿返还,据悉本次交易大会大约有15万人参加,根据中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?注:利润销售收入原材料费用.参考公式:,.参考数据:,,.22.经统计,2015年,某公路在部分界桩附近发生的交通事故次数如下表:把界桩公里数1001记为,公里数1005记为,,数据绘成的散点图如图所示,以x为解释变量、交通事故数y为预报变量,建立了两个不同的回归方程和表述,二者之间的关系.Ⅰ计算的值,判断这两个回归方程中哪个拟合效果更好?并解释更好的这个拟合所对的意义;Ⅱ若保险公司在每次交通事故中理赔60万元的概率为,理赔2万元的概率为,理赔万元的概率为,利用你得到的拟合效果更好的这一个回归方程,试预报这一年在界桩1040公里附近处发生的交通事故的理赔费理赔费精确到万元.附:对回归直线,有.一些量的计算值:表中:,,,.23.如图是某企业2010年至2016年污水净化量单位:吨的折线图.注:年份代码~分别对应年份~.由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;建立y关于t的回归方程,预测2017年该企业污水净化量;请用数据说明回归方程预报的效果.附注:参考数据:,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.反映回归效果的公式为,其中越接近于1,表示回归的效果越好.24.随着移动互联网的快速发展,基于互联网的共享单车应用而生,某市场研究人员为了了解共享单车运营公司M 的经营状况,对该公司最近六个月内的市场占有率进行了统计,并绘制了相应的折线图.Ⅰ由折线图可以看出,可用线性回归模型拟合月度市场占有率y与月份代码x之间的关系,求y关于x的线性回归方程,并预测M公司2017年4月份即时的市场占有率;Ⅱ为进一步扩大市场,公司拟再采购一批单车现有采购成本分别为1000元辆和1200元辆的A、B两款车型可供选择,按规定每辆单车最多使用4年,但由于多种原因如骑行频率等会导致车辆报废年限不相同考虑到公司运营的经济效益,该公司决定先对两款车型的单车各100辆进行科学模拟测试,得到两款单车使用寿命频数表如下:经测算,平均每辆单车每年可以带来收入元,不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且以频率作为每辆单车使用寿命的概率如果你是M公司的负责人,以每辆单车产生利润的期望值为决策依据,你会选择采购哪款车型?参考公式:回归直线方程,其中,答案和解析【答案】1. 解:由折线图看出,y与t之间存在较强的正相关关系,理由如下:,,故y与t之间存在较强的正相关关系;,,关于t的回归方程,2016年对应的t值为9,故,预测2016年我国生活垃圾无害化处理量为亿吨.2. 解:.,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.,,合格零件尺寸范围是,,,显然第13号零件尺寸不在此范围之内,需要对当天的生产过程进行检查.剔除离群值后,剩下的数据平均值为,,剔除离群值后样本方差为,剔除离群值后样本标准差为.3. 解:Ⅰ依题意,,,关于x的线性回归方程为Ⅱi利用所给数据,,得,线性回归方程的相关指数.,因此,回归方程比线性回归方程拟合效果更好由i得温度时,0.230335又,个所以当温度时,该种药用昆虫的产卵数估计为190个4. 解:由数据可得:,,,,,,故y关于x的线性回归方程为.当车流量为12万辆时,即时,.故车流量为12万辆时,的浓度为91微克立方米.根据题意信息得:,即,故要使该市某日空气质量为优或为良,则应控制当天车流量在13万辆以内分5. 解:平均值为11万元,中位数为万元.年薪高于7万的有5人,低于或等于7万的有5人;取值为,,.,,,所以的分布列为数学期望为.设,,,,分别表示工作年限及相应年薪,则,,,,得线性回归方程:.可预测该员工第5年的年薪收入为万元.计算,,,,,从3月到6月,y关于x的回归方程为;利用中回归方程,计算时,;即可预测第12月份该市新建住宅销售均价为万元平方米.7. 解:Ⅰ由题意知,,,,,,回归方程为;分Ⅱ由于回归系数,变量y与x之间是正相关;分Ⅲ时,千元,即某家庭月收入为12千元时,预测该家庭的月储蓄是千元.8. 解:由题设所给数据,可得散点图如图所示:分由对照数据,计算得:,吨,吨.已知,所以,由最小二乘法确定的回归方程的系数为:,.因此,所求的线性回归方程为分由的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:吨标准煤分9. 解:Ⅰ,Ⅱ依题意得,,,,所以,又因为,故线性回归方程为.当时,根据回归方程有:,发生火灾的某居民区与最近的消防站相距千米,火灾的损失千元.10. 解:由表可知,,,分又,,,分,分关于n的回归方程是;分由表及知,,,;分两阶段查得的驾驶员酒驾率的结果有:,,,,,,,,,,,,,,,,,,共9个;分其中都两阶段结果都不超过的有,,,,,,,共4个;分设“两阶段查得的驾驶员酒驾率的结果都不超过”为事件A,则;即两阶段查得的驾驶员酒驾率的结果都不超过概率为分11. 解:Ⅰ物理成绩的茎叶图如图所示;数学成绩的频率分布直方图Ⅲ由已知得,,,时,,预测当某考生的数学成绩为100分时,该考生的物理成绩为76分.12. 解:Ⅰ由散点图可以判断,适宜作为年销售量y关于年宣传费x的回归方程类型;Ⅱ令,先建立y关于w的线性回归方程,由于,,所以y关于w的线性回归方程为,因此y关于x的回归方程为.Ⅲ由Ⅱ知,当时,年销售量y的预报值,年利润z的预报值,根据Ⅱ的结果可知,年利润z的预报值,当时,年利润的预报值最大.13. 解:,.,,,.回归方程为:.,与x之间是负相关.当时,.该店当日的营业额约为千元.样本方差,最低气温~,,,,,..14. 解:Ⅰ,,,回归直线方程为,当时,,即的预报值为24.Ⅱ,,,,,,,,,,均不超过,使用位置接近的已有旧井,.Ⅲ由题意知,,这3口井是优质井,,为非优质井,任意勘察3口井,有种情况,恰有2口是优质井,有种情况,故概率为.15. 解:Ⅰ由折线图看出,y与t之间存在较强的正相关关系,理由如下:,,故y与t之间存在较强的正相关关系;分Ⅱ由及Ⅰ得,分,分关于t的回归方程,2016年对应的t值为9,故,预测2016年我国生活垃圾无害化处理量为亿吨分16. 解:由等高条形图可知,年度平均销售额与方案1的运作相关性强于方案2.由已知数据可知,回归模型对应的相关指数;回归模型对应的相关指数;回归模型对应的相关指数.因为,所以采用回归模型进行拟合最为合适.由可知,采用方案1的运作效果较方案2好,故年利润,当,时,单调递增;当,时,单调递减,故当售价时,利润达到最大.17. 解:Ⅰ由题意,,,,,,时,,即预测M公司2017年4月份即时的市场占有率为;Ⅱ由频率估计概率,每辆A款车可使用1年,2年,3年、4年的概率分别为,,,,每辆A款车的利润数学期望为元;每辆B款车可使用1年,2年,3年、4年的概率分别为,,,,每辆B款车的利润数学期望为元;,应该采购A款车.18. 解:由已知,优等品的质量与尺寸的比在区间,内,即,则随机抽取的6件合格产品中,有3件为优等品,,,件为非优等品,,现从任选2件,共有,、,、,、,、,、,、,、,、,、,、,、,、,、,、,种方法设任选2件恰有一件优等品为事件C,则事件C包含,、,、,、,、,、,、,、,、,共9种方法由古典概型有,故所求概率为解:对,两边取自然对数得由,,得,且根据所给统计量及最小二乘估计公式有,得,故所求y关于x的回归方程为由可知,,则当,即,时得收益的预报值千元.19. 解:更适宜作烧水时间y关于开关旋钮旋转的弧度数x的回归方程类型分由公式可得:,分,分所以所求回归方程为分设,则煤气用量,分当且仅当时取“”,即时,煤气用量最小分答:x为2时,烧开一壶水最省煤气分20. 解:由题意,计算,,且,,,或;与x的相关系数大约为,说明z与x的线性相关程度很高;利用最小二乘估计公式计算,,与x的线性回归方程是,又,关于x的回归方程是;令,解得,即预测某辆A型号二手车当使用年数为9年时售价约万元;当时,,,解得,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.21. 解:由所给数据可得:,,,,则y关于x的线性回归方程为.由中求出的线性回归方程知,当时,,即预计需要原材料袋,因为,所以当时,利润,当时,;当时,利润,当时,.综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11870元.22. 解:Ⅰ拟合时,;拟合时,,比拟合效果更好,,表明界桩公里数解释了的交通事故发生次数的变化;Ⅱ界桩1040公里取,由,每次交通事故的理赔费,万元,预报这一年在界桩1040公里附近处发生的交通事故的理赔费为万元.23. 解:由题意,,,,,故y与t之间存在较强的正相关关系;,,,关于t的回归方程,,,预测2017年该企业污水净化量约为57吨;,企业污水净化量的差异有是由年份引起的,这说明回归方程预报的效果是良好的.24. 解:Ⅰ由题意,,,,,,时,,即预测M公司2017年4月份即时的市场占有率为;Ⅱ由频率估计概率,每辆A款车可使用1年,2年,3年、4年的概率分别为,,,,每辆A款车的利润数学期望为元;每辆B款车可使用1年,2年,3年、4年的概率分别为,,,,每辆B款车的利润数学期望为元;,应该采购A款车.。
回归因素试题解析及答案
回归因素试题解析及答案一、单项选择题1. 回归分析中,自变量X对因变量Y的影响程度是通过()来衡量的。
A. 相关系数B. 回归系数C. 标准差D. 方差答案:B2. 在简单线性回归模型中,回归系数β1表示()。
A. 自变量X每增加一个单位,因变量Y平均增加β1个单位B. 自变量X每增加一个单位,因变量Y平均减少β1个单位C. 自变量X每减少一个单位,因变量Y平均增加β1个单位D. 自变量X每减少一个单位,因变量Y平均减少β1个单位答案:A3. 多元线性回归模型中,如果某个自变量的系数不显著,可能的原因是()。
A. 该自变量与因变量无关B. 该自变量与其他自变量高度相关C. 样本量太小D. 所有上述情况都可能答案:D4. 回归分析中,残差平方和(SSE)是用来衡量()的。
A. 模型的拟合优度B. 模型的预测能力C. 模型的解释能力D. 模型的预测误差答案:D5. 回归分析中,决定系数(R²)的值范围是()。
A. 0到1之间B. 负无穷到正无穷之间C. 0到正无穷之间D. 负无穷到1之间答案:A二、多项选择题6. 在回归分析中,以下哪些因素可能导致自变量和因变量之间的相关性被高估()。
A. 样本选择偏差B. 测量误差C. 多重共线性D. 异方差性答案:A|B|C|D7. 多元回归分析中,以下哪些方法可以用来诊断多重共线性问题()。
A. 方差膨胀因子(VIF)B. 相关系数矩阵C. 标准化回归系数D. 残差图答案:A|B8. 以下哪些因素可能影响回归模型的稳定性()。
A. 异常值B. 杠杆值C. 模型设定误差D. 自变量的多重共线性答案:A|B|C|D9. 回归分析中,以下哪些指标可以用来衡量模型的拟合优度()。
A. R²B. 调整R²C. AICD. BIC答案:A|B|C|D10. 在回归分析中,以下哪些方法可以用来处理异方差性()。
A. 加权最小二乘法B. 稳健标准误C. 变换因变量D. 增加样本量答案:A|B|C三、判断题11. 回归系数的符号和大小完全决定了自变量对因变量的影响方向和强度。
回归分析期末试题及答案
回归分析期末试题及答案一、简答题1. 请解释回归分析的基本思想。
回归分析是一种统计学方法,用于研究变量之间的关系。
其基本思想是通过建立一个数学模型来描述一个或多个自变量对因变量的影响,并根据观察数据对模型进行拟合和推断。
2. 请解释简单线性回归和多元线性回归的区别。
简单线性回归是建立在一个自变量和一个因变量之间的基础上的回归模型。
多元线性回归则是在两个或更多个自变量和一个因变量之间建立的回归模型。
3. 请解释残差的含义。
残差是指建立回归模型后,观测值与模型预测值之间的差异。
残差可以用来评估模型的拟合程度,如果残差较大,则说明模型无法很好地解释观察数据的变化。
4. 请解释R平方的含义及其优缺点。
R平方是一个用来衡量回归模型拟合程度的指标,其值介于0和1之间。
R平方越接近1,说明模型对观察数据的拟合越好;而R平方越接近0,则说明模型对观察数据的拟合越差。
R平方的优点是简单直观,易于理解,但其缺点是不适用于比较不同自变量的模型。
5. 请简要说明什么是多重共线性问题。
多重共线性问题指的是在多元线性回归中,自变量之间存在高度相关性的情况。
多重共线性会导致回归系数的估计不准确,难以解释自变量与因变量之间的关系。
二、计算题1. 已知一个简单线性回归模型为:Y = 2 + 3X,回归系数的解释是什么?回归系数3表示自变量X每增加1个单位,因变量Y会增加3个单位。
而常数项2表示当自变量X为0时,因变量Y的取值为2。
2. 使用最小二乘法求解简单线性回归模型的参数估计值。
最小二乘法是一种常用的回归分析方法,用于估计回归模型中的参数值。
以简单线性回归模型Y = β0 + β1X 为例,最小二乘法通过最小化观测值Y与模型预测值之间的平方差来估计β0和β1。
3. 请计算多元线性回归模型的回归系数。
多元线性回归模型可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn。
回归系数β1、β2、...、βn可以使用最小二乘法来估计,通过最小化观测值Y与模型预测值之间的平方差来得出。
回归分析练习题(有答案)(同名7277)
回归分析练习题(有答案)(同名7277)1.1回归分析的基本思想及其初步应用二、填空题16. 在比较两个模型的拟合效果时,甲、乙两个模型的相关指数2R 的值分别约为0.96和0.85,则拟合效果好的模型是 .17. 在回归分析中残差的计算公式为 .18. 线性回归模型y bx a e =++(a 和b 为模型的未知参数)中,e 称为 .19. 若一组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满足y i =bx i +a+e i (i=1、2.…n)若e i 恒为0,则R 2为_____三、解答题20. 调查某市出租车使用年限x 和该年支出维修费用y (万元),得到数据如下: 使用年限x2 3 4 5 6 维修费用y2.23.85.56.57.0(1) 求线性回归方程;(2)由(1)中结论预测第10年所支出的维修费用.(121()()()ni i i ni i x x y y b x x a y bx==⎧-⋅-⎪⎪=⎨-⎪⎪=-⎪⎩∑∑)21. 以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为2150m 时的销售价格. (4)求第2个点的残差。
二、填空题 16. 甲17. 列联表、三维柱形图、二维条形图 18. 随机误差19.解析: e i 恒为0,说明随机误差对y i 贡献为0.答案:1.三、解答题 20.解析: (1)列表如下:于是23.145905453.112552251251=⨯-⨯⨯-=--=∑∑==xx yx yx b i i i ii ,08.0423.15=⨯-=-=bx y a∴线性回归方程为:08.023.1^+=+=x a bx y (2)当x=10时,38.1208.01023.1^=+⨯=y (万元)即估计使用10年时维修费用是1238万元回归方程为: 1.230.08y x =+(2) 预计第10年需要支出维修费用12.38万元.21.解析:(1)数据对应的散点图如图所示:(2)1095151==∑=i ix x ,1570)(251=-=∑=x x l i ixx,308))((,2.2351=--==∑=y y x x l y i i i xy设所求回归直线方程为a bx y+=, 则1962.01570308≈==xxxyll b8166.115703081092.23≈⨯-=-=x b y a故所求回归直线方程为8166.11962.0+=x y(3)据(2),当2150x m =时,销售价格的估计值为:2466.318166.11501962.0=+⨯=y(万元)1、对于一元线性回归01(1,2,...,)ii i yx i n ββε=++=,()0iE ε=,2var()i εσ=,cov(,)0()i j i j εε=≠,下列说法错误的是(A)0β,1β的最小二乘估计0ˆβ,1ˆβ 都是无偏估计;(B)0β,1β的最小二乘估计0ˆβ,1ˆβ对1y ,2y ,...,ny是线性的;2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换. 如果误差方差与因变量y 的期望成正比,则可通过下列哪种变换将方差常数化 (A) 1y ;(C) ln(1)y +;(D)ln y .3、下列说法错误的是(A)强影响点不一定是异常值;(B)在多元回归中,回归系数显著性的t 检验与回归方程显著性的F 检验是等价的;(C)一般情况下,一个定性变量有k 类可能的取值时,需要引入k-1个0-1型自变量; (D)异常值的识别与特定的模型有关.4、下面给出了4个残差图,哪个图形表示误差序列是自相关的(C)0β,1β的最小二乘估计0ˆβ,1ˆβ之间是相关的;(D)若误差服从正态分布,0β,1β的最小二乘估计和极大似然估计是不一样的.(C)(D)二、填空题(每空2分,共20分)1、考虑模型y Xβε=+,2var()nIεσ=,其中:X n p'⨯,秩为p',20σ>不一定已知,则ˆβ=__________________,ˆvar()β=___________,若ε服从正态分布,则22ˆ()n pσσ'-___________,其中2ˆσ是2σ的无偏估计.2、下表给出了四变量模型的回归结果:则残差平方和=_________,总的观察值个数=__ _______,回归平方和的自由度=________.3、已知因变量y与自变量1x,2x,3x,4x,下表给出了所有可能回归模型的AIC值,则最优子集是_____________________.4、在诊断自相关现象时,若0.66DW =,则误差序列的自相关系数ρ的估计值=_____ ,若存在自相关现象,常用的处理方法有迭代法、_____________、科克伦-奥克特迭代法.5、设因变量y 与自变量x 的观察值分别为12,,...,ny y y和12,,...,nx x x ,则以*x 为折点的折线模型可表示为_____________________.三、(共45分)研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的线性回归关系.观察数据及残差值ie 、学生化残差iSRE 、删除学生化残差()i SRE 、库克距离iD 、杠杆值iich 见表一表一表二参数估计表已知0.025(6) 2.447t=,0.025(7) 2.365t=,0.05(3,6) 4.76F=,0.05(4,7) 4.12F=,根据上述结果,解答如下问题:1、计算误差方差2σ的无偏估计及判定系数2R.(8分)2、对1x,2x,3x的回归系数进行显著性检验.(显著性水平0.05α=)(12分)3、对回归方程进行显著性检验.(显著性水平α=)(8分)0.054、诊断数据是否存在异常值,若存在,是关于自变量还是关于因变量的异常值?(10分)5、写出y关于x,2x,3x的回归方程,并结合实1际对问题作一些基本分析(7分)四、(共8分)某种合金中的主要成分为金属A 与金属B ,研究者经过13次试验,发现这两种金属成分之和x 与膨胀系数y 之间有一定的数量关系,但对这两种金属成分之和x 是否对膨胀系数y 有二次效应没有把握,经计算得y 与x 的回归的残差平方和为3.7,y 与x 、2x 的回归的残差平方和为0.252,试在0.05的显著性水平下检验x 对y 是否有二次效应? (参考数据0.050.05(1,10) 4.96,(2,10) 4.1F F ==)五、(共12分)(1)简单描述一下自变量12,,...,px x x之间存在多重共线性的定义;(2分) (2)多重共线性的诊断方法主要有哪两种?(4分)(3)消除多重共线性的方法主要有哪几种?(6分)应用回归分析试题(二)二、填空题16. 在比较两个模型的拟合效果时,甲、乙两个模型的相关指数2R 的值分别约为0.96和0.85,则拟合效果好的模型是 甲 . 17. 在回归分析中残差的计算公式为列联表、三维柱形图、二维条形图 .18. 线性回归模型y bx a e =++(a 和b 为模型的未知参数)中,e 称为 随机误差 . 19. 若一组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满足y i =bx i +a+e i (i=1、2.…n)若e i 恒为0,则R 2为___e i恒为0,说明随机误差对y i 贡献为0.三、解答题20. 调查某市出租车使用年限x 和该年支出维修费用y (万元),得到数据如下:(2)由(1)中结论预测第10年所支出的维修费用.(121()()()ni i i ni i x x y y b x x a y bx==⎧-⋅-⎪⎪=⎨-⎪⎪=-⎪⎩∑∑) 20.解析: (1)列表如下:4=x ,5=y , 90512=∑=i ix,3.11251=∑=i ii yx于是23.145905453.112552251251=⨯-⨯⨯-=--=∑∑==xxy x yx b i ii ii ,08.0423.15=⨯-=-=bx y a∴线性回归方程为:08.023.1^+=+=x a bx y (2)当x=10时,38.1208.01023.1^=+⨯=y (万元)即估计使用10年时维修费用是1238万元回归方程为: 1.230.08y x =+(2) 预计第10年需要支出维修费用12.38万元.21. 以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为2150m 时的销售价格. (4)求第2个点的残差。
回归分析期末考试练习题
1、对于一元线性回归01(1,2,...,)i i i y x i n ββε=++=,()0i E ε=,2var()i εσ=,cov(,)0()i j i j εε=≠,下列说法错误的是(A)0β,1β的最小二乘估计0ˆβ,1ˆβ 都是无偏估计; (B)0β,1β的最小二乘估计0ˆβ,1ˆβ对1y ,2y ,...,n y 是线性的;2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换. 如果误差方差与因变量y 的期望成正比,则可通过下列哪种变换将方差常数化 (A)1y;(C) ln(1)y +;(D)ln y .3、下列说法错误的是(A)强影响点不一定是异常值;(B)在多元回归中,回归系数显著性的t 检验与回归方程显著性的F 检验是等价的; (C)一般情况下,一个定性变量有k 类可能的取值时,需要引入k-1个0-1型自变量; (D)异常值的识别与特定的模型有关.4、下面给出了4个残差图,哪个图形表示误差序列是自相关的一、选择题.(每题3分,共15分)(C)0β,1β的最小二乘估计0ˆβ,1ˆβ之间是相关的; (D)若误差服从正态分布,0β,1β的最小二乘估计和极大似然估计是不一样的.(A) (B)(C) (D)5、下列哪个岭迹图表示在某一具体实例中最小二乘估计是适用的(A)(B)(C) (D)二、填空题(每空2分,共20分)1、考虑模型y X βε=+,2var()n I εσ=,其中:X n p '⨯,秩为p ',20σ>不一定已知,则ˆβ=__________________, ˆvar()β=___________,若ε服从正态分布,则 22ˆ()n p σσ'- ___________,其中2ˆσ是2σ的无偏估计. 2、下表给出了四变量模型的回归结果:则残差平方和=_________,总的观察值个数=_________,回归平方和的自由度=________. 3、已知因变量y 与自变量1x ,2x ,3x ,4x ,下表给出了所有可能回归模型的AIC 值,则最优子集是_____________________.4、在诊断自相关现象时,若0.66D W =,则误差序列的自相关系数ρ的估计值=_____ ,若存在自相关现象,常用的处理方法有迭代法、_____________、科克伦-奥克特迭代法.5、设因变量y 与自变量x 的观察值分别为12,,...,n y y y 和12,,...,n x x x ,则以*x 为折点的折线模型可表示为_____________________.三、(共45分)研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的线性回归关系.观察数据及残差值i e 、学生化残差i SR E 、删除学生化残差()i S R E 、库克距离i D 、杠杆值ii ch 见表一表一表二参数估计表已知0.025(6) 2.447t =,0.025(7) 2.365t =,0.05(3,6) 4.76F =,0.05(4,7) 4.12F =,根据上述结果,解答如下问题:1、计算误差方差2σ的无偏估计及判定系数2R .(8分)2、对1x ,2x ,3x 的回归系数进行显著性检验.(显著性水平0.05α=)(12分)3、对回归方程进行显著性检验.(显著性水平0.05α=)(8分)4、诊断数据是否存在异常值,若存在,是关于自变量还是关于因变量的异常值?(10分)5、写出y 关于1x ,2x ,3x 的回归方程,并结合实际对问题作一些基本分析(7分)四、(共8分)某种合金中的主要成分为金属A 与金属B ,研究者经过13次试验,发现这两种金属成分之和x 与膨胀系数y 之间有一定的数量关系,但对这两种金属成分之和x 是否对膨胀系数y 有二次效应没有把握,经计算得y 与x 的回归的残差平方和为3.7,y 与x 、2x 的回归的残差平方和为0.252,试在0.05的显著性水平下检验x 对y 是否有二次效应?(参考数据0.050.05(1,10) 4.96,(2,10) 4.1F F ==)五、(共12分)(1)简单描述一下自变量12,,...,p x x x 之间存在多重共线性的定义;(2分) (2)多重共线性的诊断方法主要有哪两种?(4分) (3)消除多重共线性的方法主要有哪几种?(6分)。
土木工程类回归分析模拟试题与答案
回归分析模拟试题与答案一、单项选择题1. 如果在y关于x的线性回归方程=,那么x和y两变量间的相关系数r有( )。
A.r=0B.r=1C.r<0D.r>0答案:C解答:因为b<0,则y随x的增大而减小,所以x与y负线性相关,则r<0。
2. 某零件的长度X和质量y的相关系数为0。
68,经技术改进后,每个零件的长度缩短0。
2厘米,质量降低0。
5克,新零件的长度和质量的相关系数为( )。
A.0.86B.0.50C.0.68D.-0.68答案:C解答:设改进后零件的长度为,质量为,则,那么技术改进后平均长度为,平均质量为,根据相关系数公式可知,改进后的相关系数r''=r''=0.68。
3. 某种零件的长度和质量的相关系数为0.97,更换材料后每个零件质量均降低0.3克,而长度不变,那么此种零件的长度与质量的相关系数为( )。
A.0.5B.0.67C.0.97D.-0.97答案:C4. 根据两个变量的18对观测数据建立一元线性回归方程。
在对回归方程作检验时,残差平方和的自由度为( )。
A.18B.17C.16D.1答案:C解答:在对一元线性回归方程作检验时,总(离差)平方和的自由度f T=n-1=18-1= 17,回归平方和的自由度为f R=1(相当于未知数的个数),而残差平方和的自由度为f E=f T-f R=17-1=16。
5. 回归分析是处理变量相关关系的一种统计技术。
下列不属于变量的是( )。
A.工厂B.温度C.压力D.强度答案:A解答:变量也是一种因子,因子常被分为两类:定性因子(如工厂,原料产地等)与定量因子(如温度、压力、强度等)。
回归分析主要研究定量因子,定量因子又称为变量。
6. 收集了n组数据(x i,y i),i=1,2,…,n,为了解变量x与y间是否有相关关系,可以画( )加以考察。
A.直方图B.散布图C.控制图D.排列图答案:B解答:直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法;散布图用于研究两个变量之间的关系;控制图是对过程质量特性值进行测定、记录、评估,从而监察过程是否处于控制状态的一种用统计方法设计的图;排列图是为了对发生频次从最高到最低的项目进行排列而采用的简单图示技术。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
α=)。
(5)检验回归方程线性关系的显著性(0.05(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:系数a模型非标准化系数标准系数t Sig.相关性B 标准误差试用版零阶偏部分1 (常量) 734.693 139.540 5.265 .003人均GDP .309 .008 .998 36.492 .000 .998 .998 .998 a. 因变量: 人均消费水平有很强的线性关系。
(3)回归方程:734.6930.309y x=+系数a模型非标准化系数标准系数t Sig. 相关性回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型R R 方调整的R 方估计的标准差1 .998(a) 0.996 0.996 247.303a. 预测变量:(常量), 人均GDP(元)。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5)F检验:Anova b模型平方和df 均方 F Sig.1 回归81444968.680 1 81444968.680 1331.692 .000a残差305795.034 5 61159.007总计81750763.714 6a. 预测变量: (常量), 人均GDP。
b. 因变量: 人均消费水平回归系数的检验:t检验%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(6)某地区的人均GDP为5000元,预测其人均消费水平为734.6930.30950002278.693y=+⨯=(元)。
(7)人均GDP 为5000元时,人均消费水平95%的置信区间为[1990.74915,2565.46399],预测区间为[1580.46315,2975.74999]。
2 从n =20的样本中得到的有关回归结果是:SSR (回归平方和)=60,SSE (误差平方和)=40。
要检验x 与y 之间的线性关系是否显著,即检验假设:01:0H β=。
(1)线性关系检验的统计量F 值是多少? (2)给定显著性水平0.05α=,F α是多少? (3)是拒绝原假设还是不拒绝原假设?(4)假定x 与y 之间是负相关,计算相关系数r 。
(5)检验x 与y 之间的线性关系是否显著?解:(1)SSR 的自由度为k=1;SSE 的自由度为n-k-1=18;因此:F=1SSR k SSE n k --=6014018=27 (2)()1,18F α=()0.051,18F =4.41 (3)拒绝原假设,线性关系显著。
(4)=0.7746,由于是负相关,因此r=-0.7746(5)从F 检验看线性关系显著。
3 随机抽取7家超市,得到其广告费支出和销售额数据如下:求:(1)用广告费支出作自变量x,销售额作因变量y,求出估计的回归方程。
(2)检验广告费支出与销售额之间的线性关系是否显著(0.05α=)。
(3)绘制关于x的残差图,你觉得关于误差项ε的假定被满足了吗?(4)你是选用这个模型,还是另寻找一个更好的模型?解:(1)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)29.399 4.807 6.116 0.002a. 因变量: 销售额(万元)(2)回归直线的F检验:模型平方和df 均方 F 显著性1 回归691.723 1 691.723 11.147 .021(a)残差310.277 5 62.055合计1,002.000 6a. 预测变量:(常量), 广告费支出(万元)。
b. 因变量: 销售额(万元)显著。
回归系数的t检验:模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)29.399 4.807 6.116 0.002a. 因变量: 销售额(万元)显著。
(3)未标准化残差图:标准化残差图:学生氏标准化残差图:看到残差不全相等。
(4)应考虑其他模型。
可考虑对数曲线模型:y=b0+b1ln(x)=22.471+11.576ln(x)。
4 根据下面SPSS输出的回归结果,说明模型中涉及多少个自变量?多少个观察值?写出回归方程,并根据F,s e,R2及调整的2aR的值对模型进行讨论。
模型汇总b模型R R 方调整R 方标准估计的误差10.8424070.7096500.630463109.429596Anova b模型平方和df 均方 F Sig.1 回归321946.8018 3 107315.6006 8.9617590.002724残差131723.1982 11 11974.84总计453670 14系数a模型非标准化系数t Sig.B 标准误差1 (常量)657.0534 167.4595393.9236550.002378VAR00002 VAR00003 VAR000045.710311-0.416917-3.4714811.7918360.3221931.4429353.186849-1.293998-2.4058470.0086550.2221740.034870解:自变量3个,观察值15个。
回归方程:ˆy=657.0534+5.710311X1-0.416917X2-3.471481X3拟合优度:判定系数R2=0.70965,调整的2R=0.630463,说明三个自变量对因变量的影响a的比例占到63%。
估计的标准误差S=109.429596,说明随即变动程度为109.429596yx回归方程的检验:F检验的P=0.002724,在显著性为5%的情况下,整个回归方程线性关系显著。
回归系数的检验:β的t检验的P=0.008655,在显著性为5%的情况下,y与X1线性关系1显著。
β的t检验的P=0.222174,在显著性为5%的情况下,y与X2线性关系2不显著。
β的t检验的P=0.034870,在显著性为5%的情况下,y与X3线性关系3显著。
因此,可以考虑采用逐步回归去除X2,从新构建线性回归模型。
5 下面是随机抽取的15家大型商场销售的同类产品的有关数据(单位:元)。
求:(1)计算y与x1、y与x2之间的相关系数,是否有证据表明销售价格与购进价格、销售价格与销售费用之间存在线性关系?(2)根据上述结果,你认为用购进价格和销售费用来预测销售价格是否有用?α=)。
(3)求回归方程,并检验模型的线性关系是否显著(0.05(4)解释判定系数R2,所得结论与问题(2)中是否一致?(5)计算x1与x2之间的相关系数,所得结果意味着什么?(6)模型中是否存在多重共线性?你对模型有何建议?解:(1)y与x1的相关系数=0.309,y与x2之间的相关系数=0.0012。
对相关性进行检验:销售价格购进价格销售费用销售价格Pearson 相关性 1 0.309 0.001显著性(双侧)0.263 0.997N 15 15 15 购进价格Pearson 相关性0.309 1 -.853(**)显著性(双侧)0.263 0.000N 15 15 15 销售费用Pearson 相关性0.001 -.853(**) 1显著性(双侧)0.997 0.000N 15 15 15 **. 在 .01 水平(双侧)上显著相关。
可以看到,两个相关系数的P值都比较的,总体上线性关系也不现状,因此没有明显的线性相关关系。
(2)意义不大。
(3)回归统计Multiple R 0.593684R Square0.35246Adjusted R Square 0.244537标准误差69.75121观测值15方差分析df SS MS F SignificanceF回归分析231778.153915889.08 3.2658420.073722残差1258382.77944865.232总计1490160.9333Coefficients标准误差t Stat P-value Lower95%Upper95%下限95.0%上限95.0%(常量)375.6018339.4105621.106630.290145-363.911115.114-363.911115.114购进价格x10.5378410.210446742.5557110.02520.0793170.9963650.0793170.996365销售费用x2 1.4571940.667706592.1823860.0496810.0023862.9120010.002386 2.912001从检验结果看,整个方程在5%下,不显著;而回归系数在5%下,均显著,说明回归方程没有多大意义,并且自变量间存在线性相关关系。
(4)从R2看,调整后的R2=24.4%,说明自变量对因变量影响不大,反映情况基本一致。
(5)方程不显著,而回归系数显著,说明可能存在多重共线性。
(6)存在多重共线性,模型不适宜采用线性模型。
6 一家电器销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。