回归分析练习试题和参考答案解析
高考数学基础训练:回归分析含详解
高考数学基础训练:回归分析一、单选题1.某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是.A .90B .75C .60D .452.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是()A .0.2B .0.8C .-0.98D .-0.73.为研究变量x ,y 的相关关系,收集得到下面五个样本点(x ,y ):x 99.51010.511y1110865若由最小二乘法求得y 关于x 的回归直线方程为 3.2y x a=-+,则据此计算残差为0的样本点是()A .(9,11)B .(10,8)C .(10.5,6)D .(11.5)4.据一组样本数据()11,x y ,()22,x y ,…,(),n n x y ,求得经验回归方程为ˆ 1.50.5yx =+,且3x =.现发现这组样本数据中有两个样本点()1.2,2.2和()4.8,7.8误差较大,去除后重新求得的经验回归直线l 的斜率为1.2,则()A .变量x 与y 具有正相关关系B .去除两个误差较大的样本点后,重新求得的回归方程仍为ˆ 1.50.5yx =+C .去除两个误差较大的样本点后,y 的估计值增加速度变快D .去除两个误差较大的样本点后,相应于样本点()2,3.75的残差为0.055.对于样本相关系数,下列说法错误的是()A .可以用来判断成对样本数据相关的正负性B .可以是正的,也可以是负的C .样本相关系数越大,成对样本数据的线性相关程度也越高D .取值范围是[]1,1-6.下列说法中正确的是A .先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是分层抽样法B .线性回归直线ˆˆy bxa =+不一定过样本中心()x y C .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1D .若一组数据2,4,a ,8的平均数是5,则该组数据的方差也是57.某同学用收集到的6组数据对(),(1,2,3,4,5,6)i i x y i =制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线1l 的方程:µµ11y b x a =+$,相关系数为1r ,相关指数为21R :经过残差分析确定点E 为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线2l 的方程:µµ22y b x a =+$,相关系数为2r ,相关指数为22R .则以下结论中,正确的是()①10r >,20r >;②µ10b >,µ20b >;③µµ12b b >;④2212R R >A .①②B .①②③C .②④D .②③④8.已知变量y 关于x 的非线性经验回归方程为0.5ˆe bx y-=,其一组数据如下表所示:x 1234ye3e 4e 5e 若5x =,则预测y 的值可能为()A .152e B .112e C .7e D .5e 第II 卷(非选择题)请点击修改第II 卷的文字说明二、填空题9.高中女学生的身高预报体重的回归方程是 0.7575.5y x =-(其中x , y 的单位分别是cm ,kg ),则此方程在样本()160,46处残差的绝对值是______.10.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:甲乙丙丁R 20.980.780.500.85建立的回归模型拟合效果最好的同学是__________.11.在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点()(),1,2,3,,i i x y i n =⋅⋅⋅都在直线210x y +-=上,则这组样本数据的相关系数r 为______.12.在一组样本数据()11,x y ,()22,x y ,…,()66,x y 的散点图中,若所有样本点(),i i x y ()1,2,,6i = 都在曲线212y bx =-附近波动.经计算6112i i x ==∑,6114i i y ==∑,62123ii x==∑,则实数b 的值为________.三、解答题13.某科技公司研发了一项新产品A ,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x (千元)和销售量y (千件)之间的一组数据如下表所示:月份i 123456销售单价i x 99.51010.5118销售量iy 111086515(1)试根据1至5月份的数据,建立y 关于x 的回归直线方程;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过065.千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?参考公式:回归直线方程ˆˆˆybx a =+,其中i ii 122ii 1ˆnnx y n x yb xnx==-⋅⋅=-∑∑.参考数据:5i i i 1392x y ==∑,52i i 1502.5x ==∑.14.为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为2021年7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的2021年7月10日至7月14日时段中的相关数据,这5天的第x 天到该电商平台专营店购物的人数y (单位:万人)的数据如下表:日期7月10日7月11日7月12日7月13日7月14日第x 天12345人数y (单位:万人)75849398100(1)依据表中的统计数据,请判断该电商平台的第x 天与到该电商平台专营店购物的人数y (单位:万人)是否具有较高的线性相关程度?(参考:若0.30.75r <<,则线性相关程度一般,若0.75r >,则线性相关程度较高,计算r 时精确度为0.01)(2)求购买人数y 与直播的第x 天的线性回归方程;用样本估计总体,请预测从2021年7月10日起的第38天到该专营店购物的人数(单位:万人).参考数据:521(434i iy y =-=∑,51(64i i i x x y y =--=∑65.979≈.附:相关系数()()ni i x x y y r --=∑,回归直线方程的斜率121()()()niii nii x x y y bx x ==--=-∑∑ ,截距a y bx =-$$.15.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+或dy c x=+建立y 关于x 的回归方程,令s =1t x=得到如下数据:xyst10.15109.943.040.16113niii s ys y=-⋅∑13113iii t yt y=-⋅∑1322113ik ss=-∑1322113ii t t =-∑ 1322113ii yy =-∑13.94-2.111.670.2121.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适;(2)根据(1)的结果及表中数据,建立 y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为 1221ni i i nii u vnu v unuβ==-⋅=-∑∑, v u αβ=-,相关系数ni i u vnu vr -⋅∑.参考答案:1.A 【解析】【详解】样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,∴样本总数为.∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.考点:频率分布直方图.2.C 【解析】【分析】由相关系数的绝对值越大,越具有强大相关性,即可求解【详解】∵相关系数的绝对值越大,越具有强大相关性,C 相关系数的绝对值最大约接近1,∴C 拟合程度越好.故选:C 3.B 【解析】【分析】先求出线性方程的样本中心点,从而可求得 3.240y x =-+,再根据残差的定义可判断.【详解】由题意可知,99.51010.511105x ++++==,111086585y ++++==所以线性方程的样本中心点为(10,8),因此有 8 3.21040aa =-⨯+⇒=,所以 3.240y x =-+,在收集的5个样本点中,(10,8)一点在 3.240y x =-+上,故计算残差为0的样本点是(10,8).故选:B 4.A 【解析】【分析】由条件可知样本中心不变,可求出新的回归直线方程,即可判断.【详解】因为重新求得的经验回归直线l 的斜率为1.2,所以变量x 与y 具有正相关关系,故A 正确;当3x =时,315055y ..=⨯+=,设去掉两个误差较大的样本点后,横坐标的平均值为x ',纵坐标的平均值为y ',则12636322n x x x x n n n ++⋅⋅⋅+--=--'==,1210510522n y y y n n n y ++⋅⋅⋅+--'==--=,因为去除两个误差较大的样本点后,重新求得回归直线l 的斜率为1.2,所以ˆ53 1.2a =⨯+,解得 1.4ˆa =,所以去除两个误差较大的样本点后的经验回归方程为ˆ 1.2 1.4yx =+,故B 错误;因为1.5 1.2>,所以去除两个误差较大的样本点后y 的估计值增加速度变慢,故C 错误;因为ˆ 1.22 1.4 3.8y=⨯+=,所以ˆ 3.75 3.80.05y y -=-=-,故D 错误.故选:A.5.C 【解析】【分析】根据相关系数的概念,依次分析各选项即可得答案.【详解】解:对于A 选项,当相关系数为正时,表明变量之间是正相关,相关系数为负数时,表明相关系数为负数,故A 选项正确;对于B ,D 选项,相关系数范围是[]1,1-,故可以为正,也可以为负,故B ,D 选项正确;对于C 选项,当相关系数为负数时,样本相关系数越大,线性相关性就越弱,故C 选项错误;故选:C6.D 【解析】A 是系统抽样,B 选项线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,C 选项若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,D 选项若一组数据2,4,a ,8的平均数是5,求出a ,则该组数据的方差即可求解.【详解】A 选项:先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是系统抽样法,所以该选项不正确;B 选项:线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,所以该选项不正确;C 选项:若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,所以该选项不正确;D 选项:若一组数据2,4,a ,8的平均数是5,24854a +++=,解得6a =,则该组数据的方差是()()()()22222545658554-+-+-+-=,所以该选项正确.故选:D 【点睛】此题考查抽样方法,回归直线,相关关系的辨析,求平均数和方差,关键在于熟练掌握相关概念和公式,准确计算.7.B 【解析】【分析】根据散点图逐项进行判断即可.【详解】①:由散点图可知,,x y 之间是正相关关系,所以10r >,20r >,故①正确;②③:由散点图可知,回归直线的斜率是正数,且1l 的斜率大于2l 的斜率,所以µ10b >,µ20b >,µµ12b b >,故②③正确;④:由散点图可知,去掉“离群点”E 后,相关性更强,拟合的效果更好,所以2212R R <,故④错误;故选:B.8.C 【解析】【分析】将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,由样本中心()x z 必在回归直线0.5z bx =-上,可求出b ,从而即可求解.【详解】解:由题意,将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,则x1234z13451234 2.54x +++==,13453.254z +++==,由0.5z bx =-,得3.25 2.50.5b =-,解得 1.5b =,所以 1.50.5e x y -=,所以当5x =时, 1.550.57e e y ⨯-==,故选:C.9.1.5##32【解析】【分析】利用回归直线方程,求出160x =的估计值,然后求解残差的绝对值.【详解】由样本数据得到,女大学生的身高预报体重的回归方程是 0.7575.5y x =-,当160x =时, 0.7516075.544.5y =⨯-=,此方程在样本()160,46处残差的绝对值:44.546 1.5-=.故答案为:1.5.10.选甲相关指数R 2越大,表示回归模型拟合效果越好.【解析】【分析】相关指数越大,相关性越强,拟合效果越好.根据相关指数的大小即可判断.【详解】相关指数2R 越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.【点睛】如果两个变量间的关系是相关关系,相关指数2R 越大,相关系数r 越接近1,残差平方和越接近0,都代表拟合效果越好.11.1-【解析】【分析】根据直线斜率可知两个变量负相关,结合数据点都在直线上可确定1r =-.【详解】直线210x y +-=的斜率20k =-<,∴这两个变量成负相关,0r ∴<,又所有样本点都在直线210x y +-=上,1r ∴=-.故答案为:1-.12.1723【解析】【分析】设2t x =,可得回归直线方程为12y bt =-,求出样本中心点(),t y 代入可得b 的值.【详解】令2t x =则212y bx =-即12y bt =-,6212366i i x t ===∑,61147663ii y y ====∑,因为样本中心点237,63⎛⎫ ⎪⎝⎭在回归直线12y bt =-上,所以7231362b =-,可得:1723b =,故答案为:1723.13.(1)ˆ3240y x =-+.;(2)是.【解析】【分析】(1)先由表中的数据求出,x y ,再利用已知的数据和公式求出 ,ba ,从而可求出y 关于x 的回归直线方程;(2)当8x =时,求出 y 的值,再与15比较即可得结论【详解】(1)因为()199.51010.511105x =++++=,()1111086585y =++++=,所以23925108ˆ 3.2502.5510b -⨯⨯==--⨯,得()ˆ8 3.21040a=--⨯=,于是y 关于x 的回归直线方程为 3.240ˆyx =-+;(2)当8x =时,ˆ 3.284014.4y=-⨯+=,则ˆ14.4150.60.65yy -=-=<,故可以认为所得到的回归直线方程是理想的.14.(1)具有较高的线性相关程度(2) 6.470.8y x =+,314万人【解析】【分析】(1)由已知计算相关系数r 即可.(2)由列表计算 a、b ,可得线性回归方程进一步可得解.(1)由表中数据可得3,90x y ==,所以521()10i i x x =-=∑,又55211()434,()()64i i i i i y y x x y y ==-=--=∑∑,所以()()50.970.75i i x x y y r --=>∑,所以该电商平台直播黄金时段的天数x 与购买人数y 具有较高的线性相关程度.所以可用线性回归模型拟合人数y 与天数x 之间的关系.(2)由表中数据可得()()()5152164ˆ 6.410i i i i i x x y y b x x ==--===-∑∑,则ˆˆ90 6.4370.8a y bx =-=-⨯=,所以 6.470.8y x =+,令38x =,可得 6.4387031ˆ.84y =⨯+=(万人)15.(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54y x =-;(3)当温度为20时这种草药的利润最大.【解析】【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型d y c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz ,利用基本不等式求得利润z 的最大值以及对应的x 值.【详解】(1)由题意知20.9953r =-,10.8858r =,因为121r r <<,所有用d y c x =+模型建立y 与x 的回归方程更合适.(2)因为1311322113 2.1ˆ100.2113i i i i i t y t yd tt ==-⋅-===--∑∑,ˆˆ109.94100.16111.54cy dt =-=+⨯=,所以ˆy 关于x 的回归方程为10ˆ111.54y x=-(3)由题意知11012020(111.54ˆˆ)22z y x x x =-=--20012230.8()2x x =-+2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x =时等号成立,所以当温度为20时这种草药的利润最大.。
(完整版)数学必修三回归分析经典题型(带答案)
数学必修三回归分析经典题型1.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为93.7319.7ˆ+=x y用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) A.身高一定是145.83cm B.身高在145.83cm 以上 C.身高在145.83cm 以下 D.身高在145.83cm 左右 【答案】D【解析】解:把x=10代入可以得到预测值为145.83,由于回归模型是针对3-9岁的孩子的,因此这个仅仅是估计值,只能说左右,不能说在上或者下,没有标准。
选D2.对有线性相关关系的两个变量建立的线性回归方程$y =$a+b $x ,关于回归系数b $,下面叙述正确的是________.①可以小于0;②大于0;③能等于0;④只能小于0. 【答案】①【解析】由b$和r 的公式可知,当r =0时,这两变量不具有线性相关关系,但b 能大于0也能小于0.3.对具有线性相关关系的变量x 、y 有观测数据(x i ,y i )(i =1,2,…,10),它们之间的线性回归方程是$y =3x +20,若101i i x =∑=18,则101i i y =∑=________.【答案】254【解析】由101i i x =∑=18 1.8.因为点在直线$y =3x +2025.4. 所以101i i y =∑=25.4×10=254.4.下表是某厂1~4由散点图可知,用水量其线性回归直线方程是y =-0.7x +a ,则a 等于________. 【答案】5.252.53.5,∵回归直线方程过定点, ∴3.5=-0.7×2.5+a. ∴a =5.25.5.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到线性回归方程$y =b$x +$a ,那么下列说法正确的是________.①直线$y =b$x +$a 必经过点(x ,y ); ②直线$y =b$x +$a 至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点; ③直线$y =b$x +$a 的斜率为1221ni ii nii x ynx y xnx==--∑∑;④直线$y =b $x +$a 和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的偏差$21()ni i i b a y x =⎡⎤⎣⎦∑$-+是该坐标平面上的直线与这些点的最小偏差.【答案】①③④【解析】回归直线的斜率为b ,故③正确,回归直线不一定经过样本点,但一定经过样本中心,故①正确,②不正确.6.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm. 【答案】185【解析】设父亲身高为173176,b$= $a=-b $ 176-1×173=3, ∴$y =x +3,当x =182时,$y =185.7.下表是关于宿州市服装机械厂某设备的使用年限(年)和所需要的维修费用y (万元)的几组统计数据:)请根据上表提供的数据,用最小二乘法求出y 关于的线性回归方程;(2)估计使用年限为10年时,维修费用为多少?【答案】解:(1)0.08 1.23yx =+线性回归方程为 (2)估计使用年限为10年时,维修费用为12.38万元. 【解析】(1)先求然后利用公可求出回归直线y ax b =+方程.(2)把x=10代入回归直线方程可得y 的值,就可得所求的值.解:(1906543222222512=++++=∑=i ixΘ又x y 23.108.0+=∴线性回归方程为 (2)把10=x 代入回归方程得到:38.121023.108.0=⨯+=y∴估计使用年限为10年时,维修费用为12.38万元.。
回归分析练习题及参考答案
1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:地区人均GDP/元人均消费水平/元北京辽宁上海江西河南贵州陕西 224601122634547485154442662454973264490115462396220816082035求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1 .998a.996 .996 247.303a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
回归分析练习题与参考答案
求:(1)人均GDP 作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系 形态。
(2) 计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3) 求出估计的回归方程,并解释回归系数的实际意义。
(4) 计算判定系数,并解释其意义。
(5) 检验回归方程线性关系的显著性(0.05)。
⑹如果某地区的人均 GDP 为5000元,预测其人均消费水平。
(7)求人均GDP 为5000元时,人均消费水平 95%的置信区间与预测区间。
解: (1)12000- 1DOO Q-6000- 6000- 4QD0- 2000- 0- D1000020000人均GDP30000 4MOO可能存在线性关系。
(2)相关系数:a.因变量人均消费水平有很强的线性关系。
(3)回归方程: y 734.6930.309xa.因变量人均消费水平回归系数的含义:人均 GDP 没增加1元,人均消费增加 0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a )a.因变量人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% (4)模型汇总a.预测变量:(常量),人均GDP人均GDP 对人均消费的影响达到 99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5) F检验:ba. 预测变量:(常量),人均GDPb. 因变量:人均消费水平回归系数的检验:t检验a.因变量人均消费水平%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
高中数学回归分析精选题
回归分析精选题20道一.选择题(共12小题)1.设某大学的女生体重y (单位:)k g 与身高x (单位:)cm 具有线性相关关系,根据一组样本数据(i x ,)(1i y i=,2,⋯,)n ,用最小二乘法建立的回归方程为ˆ0.8585.71y x =-,则下列结论中不正确的是()A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,)yC .若该大学某女生身高增加1c m ,则其体重约增加0.85k gD .若该大学某女生身高为170c m ,则可断定其体重必为58.79k g2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是()A .ˆ10200yx =-+ B .ˆ10200yx =+ C .ˆ10200yx =-- D .ˆ10200yx =-3.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数2R 变小D .解释变量x 与预报变量y 的相关性变弱4.在线性回归模型中,分别选择了4个不同的模型,它们的相关指数2R 依次为0.36、0.95、0.74、0.81,其中回归效果最好的模型的相关指数2R 为( )A .0.95B .0.81C .0.74D .0.365.已知四个命题:①在回归分析中,2R 可以用来刻画回归效果,2R 的值越大,模型的拟合效果越好; ②在独立性检验中,随机变量2K 的值越大,说明两个分类变量有关系的可能性越大;③在回归方程ˆ0.212yx =+中,当解释变量x 每增加1个单位时,预报变量ˆy平均增加1个单位;④两个随机变量相关性越弱,则相关系数的绝对值越接近于1; 其中真命题是( )A .①④B .②④C .①②D .②③6.某地区植被被破坏,土地沙化越来越严重,最近三年测得沙漠面积增加值分别为0.2万公顷、0.39万公顷和0.78万公顷,则沙漠面积增加数y (万公顷)关于年数x (年)的函数关系较为接近的是( )A .0.2yx= B .20.10.1y x x=+ C .40.2lo g yx=+ D .210xy=7.对于给定的样本点所建立的模型A 和模型B ,它们的残差平方和分别是212,,a a R 的值分别为1b ,2b ,下列说法正确的是( )A .若12a a <,则12b b <,A 的拟合效果更好 B .若12a a <,则12b b <,B 的拟合效果更好 C .若12a a <,则12b b >,A 的拟合效果更好 D .若12a a <,则12b b >,B 的拟合效果更好8.下列结论正确的是( )①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①②B .①②③C .①②④D .①②③④9.某车间加工零件的数量x 与加工时间y 的统计数据如表:现已求得上表数据的回归方程ˆˆˆy bx a =+中的ˆb 值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( )A .84分钟B .94分钟C .102分钟D .112分钟10.两个变量y与x的回归模型中,分别选择了4个不同模型,它们对应的22121()1()ni i i ni i y y Ry y ==-=--∑∑的值如下,其中拟合效果最好的模型是()A .模型1对应的20.48R =B .模型3对应的20.15R =C .模型2对应的20.96R =D .模型4对应的20.30R =11.对于回归分析,下列说法错误的是( )A .在残差图中,纵坐标表示残差B .若散点图中的一组点全部位于直线ˆ32yx =-+的图象上,则相关系数1r =C .若残差平方和越小,则相关指数2R 越大D .在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 12.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )A .总偏差平方和B .残差平方和C .回归平方和D .相关指数二.多选题(共1小题)13.下列有关回归分析的结论中,正确的有()A .运用最小二乘法求得的回归直线一定经过样本点的中心(x ,)yB .若相关系数r 的绝对值越接近于1,则相关性越强C .若相关指数2R 的值越接近于0,表示回归模型的拟合效果越好D .在残差图中,残差点分布的带状区域的宽度越窄,说明模型拟合的精度越高 三.填空题(共4小题)14.某商店统计了最近6个月某商品的进价x 与售价y (单位:元)的对应数据如表:假设得到的关于x 和y 之间的回归直线方程是ˆˆˆy bx a =+,那么该直线必过的定点是 .15.对具有线性相关关系的变量x ,y ,测得一组数据如表:根据上表,利用最小二乘法得它们的回归直线方程为ˆˆ10.5y x a=+,据此模型预测,当10x=时,y 的估计值是16.已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程ˆ 2.10.85y x =+,则m 的值为 .17.对某城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查后知,y 与x 具有线性相关关系,满足回归方程0.6 1.5yx =+,若该城市居民人均消费水平为7.5(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为 . 四.解答题(共3小题)18.某同学在生物研究性学习中想对春季昼夜温差大小与黄豆种子发芽多少之间的关系进行研究,于是他在4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天每100颗种子浸泡后的发芽数,得到如下资料:(1)从这5天中任选2天,记发芽的种子数分别为m ,n ,求事件“m ,n 均不小于25的概率.(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另三天的数据,求出y 关于x 的线性回归方程ˆˆˆybx a =+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?(参考公式:1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-19.随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y(万元)有如下的数据资料:(1)在给出的坐标系中做出散点图;(2)求线性回归方程ˆˆˆybx a =+中的ˆa、ˆb ; (3)估计使用年限为10年时,车的使用总费用是多少?(最小二乘法求线性回归方程系数公式1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-.20.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)画散点图;(2)如果y对x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为89个,那么机器的运转速度应控制在什么范围内?(参考数值:511380 i iix y==∑,521145)iix==∑回归分析精选题20道参考答案与试题解析一.选择题(共12小题)1.设某大学的女生体重y (单位:)k g 与身高x (单位:)cm 具有线性相关关系,根据一组样本数据(i x ,)(1i y i=,2,⋯,)n ,用最小二乘法建立的回归方程为ˆ0.8585.71y x =-,则下列结论中不正确的是()A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,)yC .若该大学某女生身高增加1c m ,则其体重约增加0.85k gD .若该大学某女生身高为170c m ,则可断定其体重必为58.79k g【分析】根据回归方程为ˆ0.8585.71yx =-,0.85>,可知A ,B ,C 均正确,对于D 回归方程只能进行预测,但不可断定. 【解答】解:对于A ,0.85>,所以y 与x 具有正的线性相关关系,故正确;对于B ,回归直线过样本点的中心(x ,)y ,故正确;对于C ,回归方程为ˆ0.8585.71yx =-,∴该大学某女生身高增加1c m ,则其体重约增加0.85k g,故正确;对于D ,170xc m=时,ˆ0.8517085.7158.79y =⨯-=,但这是预测值,不可断定其体重为58.79k g,故不正确故选:D .【点评】本题考查线性回归方程,考查学生对线性回归方程的理解,属于中档题. 2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是()A .ˆ10200yx =-+ B .ˆ10200yx =+ C .ˆ10200yx =-- D .ˆ10200yx =-【分析】本题考查的知识点是回归分析的基本概念,根据某商品销售量y (件)与销售价格x(元/件)负相关,故回归系数应为负,再结合实际进行分析,即可得到答案.【解答】解:由x 与y 负相关, 可排除B 、D 两项,而C 项中的ˆ102000yx =--<不符合题意.故选:A .【点评】两个相关变量之间的关系为正相关关系,则他们的回归直线方程中回归系数为正;两个相关变量之间的关系为负相关关系,则他们的回归直线方程中回归系数为负.3.有一散点图如图所示,在5个(,)D后,下列说法正确的是()x y数据中去掉(3,10)A.残差平方和变小B.相关系数r变小C.相关指数2R变小D.解释变量x与预报变量y的相关性变弱【分析】利用散点图分析数据,判断相关系数,相关指数,残差的平方和,的变化情况.【解答】解:从散点图可分析得出:只有D点偏离直线远,去掉D点,变量x与变量y的线性相关性变强,相关系数变大,相关指数变大,残差的平方和变小,故选:A.【点评】本题考查了利用散点图分析数据,判断变量的相关性问题,属于运用图形解决问题的能力,属于容易出错的题目.4.在线性回归模型中,分别选择了4个不同的模型,它们的相关指数2R依次为0.36、0.95、0.74、0.81,其中回归效果最好的模型的相关指数2R为()A.0.95B.0.81C.0.74D.0.36【分析】根据两个变量y与x的回归模型中,它们的相关指数2R越接近于1,这个模型的拟合效果就越好,由此选出选项中的答案.【解答】解:两个变量y与x的回归模型中,它们的相关指数2R越接近于1,这个模型的拟合效果就越好,在所给的四个选项中0.95是相关指数最大的值,∴其拟合效果也最好.故选:A.【点评】本题考查了相关指数,这里不用求相关指数,而是根据所给的相关指数判断模型的拟合效果,解题的关键是理解相关指数越大拟合效果越好.5.已知四个命题:①在回归分析中,2R可以用来刻画回归效果,2R的值越大,模型的拟合效果越好;②在独立性检验中,随机变量2K的值越大,说明两个分类变量有关系的可能性越大;③在回归方程ˆ0.212y x=+中,当解释变量x每增加1个单位时,预报变量ˆy平均增加1个单位;④两个随机变量相关性越弱,则相关系数的绝对值越接近于1;其中真命题是()A.①④B.②④C.①②D.②③【分析】对4个选项分别进行判断,即可得出结论.【解答】解:①相关指数2R是用来刻画回归效果的,2R表示解释变量对预报变量的贡献率,2R越接近于1,表示解释变量和预报变量的线性相关关系越强,越趋近0,关系越弱,故2R的值越大,说明回归模型的拟合效果越好,故①正确.②由2K的计算公式可知,对分类变量X与Y的随机变量2K的观测值k来说,k越小,判断“X与Y有关系”的把握越小,随机变量2K的值越大,说明两个分类变量有关系的可能性越大,故②正确;③在回归直线方程ˆ0.212=+中,当解释变量x每增加一个单位时,预报变量ˆy平均增加y x0.2个单位,故③错误.④两个随机变量相关性越强,则相关系数的绝对值越接近于1;两个随机变量相关性越弱,则相关系数的绝对值越接近于0,故④不正确.故选:C.【点评】本题以命题的真假判断为载体,考查了抽样方法,相关系数,回归分析,独立性检验等知识点,难度不大,属于基础题.6.某地区植被被破坏,土地沙化越来越严重,最近三年测得沙漠面积增加值分别为0.2万公顷、0.39万公顷和0.78万公顷,则沙漠面积增加数y (万公顷)关于年数x (年)的函数关系较为接近的是( )A .0.2yx= B .20.10.1y x x=+ C .40.2lo g yx=+D .210xy=【分析】将(1,0.2),(2,0.39),(3,0.78)分别代入0.2y x=,20.10.1yx x=+,40.2lo g yx=+和210xy=中,验证即可.【解答】解:将(1,0.2),(2,0.39),(3,0.78)代入0.2y x=,当3x=时,0.6y=,和0.78相差较大;将(1,0.2),(2,0.39),(3,0.78)代入20.10.1y x x=+,当2x=时,0.6y=,和0.39相差较大;将(1,0.2),(2,0.39),(3,0.78)代入40.2lo g y x=+,当2x=时,0.7y=,和0.39相差较大;将(1,0.2),(2,0.39),(3,0.78)代入210xy =,当1x =时,0.2y =,当2x =时,0.4y =,与0.39相差0.01, 当3x=时,0.8y=,和0.78相差0.02;综合以上分析,选用函数关系210xy =较为近似.故选:D .【点评】本题考查了函数模型的应用问题,也考查了运算求解能力,是基础题.7.对于给定的样本点所建立的模型A 和模型B ,它们的残差平方和分别是212,,a a R 的值分别为1b ,2b ,下列说法正确的是( )A .若12a a <,则12b b <,A 的拟合效果更好 B .若12a a <,则12b b <,B 的拟合效果更好 C .若12a a <,则12b b >,A 的拟合效果更好D .若12a a <,则12b b >,B 的拟合效果更好【分析】比较两个模型的拟合效果时,如果模型残差平方和越小,则相应的相关指数2R 越大,该模型拟合的效果越好,即可得出结论.【解答】解:比较两个模型的拟合效果时,如果模型残差平方和越小, 则相应的相关指数2R 越大,该模型拟合的效果越好. 故选:C .【点评】本题是基础题.考查残差平方和、相关指数. 8.下列结论正确的是()①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①②B .①②③C .①②④D .①②③④【分析】本题是一个对概念进行考查的内容,根据相关关系的定义与回归分析的统计意义进行判断.【解答】解:①函数关系是一种确定性关系,这是一个正确的结论. ②相关关系是一种非确定性关系,是一个正确的结论.③回归分析是对具有相关关系的两个变量进行统计分析的一种方法,所以③不对. 与③对比,依据定义知④是正确的, 故选:C .【点评】本题的考点是相关关系,对本题的正确判断需要对相关概念的熟练掌握. 9.某车间加工零件的数量x 与加工时间y 的统计数据如表:现已求得上表数据的回归方程ˆˆˆy bx a =+中的ˆb 值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( )A .84分钟B .94分钟C .102分钟D .112分钟【分析】根据表中所给的数据,做出横标和纵标的平均数,得到样本中心点,代入样本中心点求出a 的值,写出线性回归方程.将100x=代入回归直线方程,得y ,可以预测加工100个零件需要102分钟,这是一个预报值,不是生产100个零件的准确的时间数. 【解答】解:由表中数据得:20x =,30y=,又ˆb 值为0.9,故300.92012a=-⨯=,0.912y x ∴=+.将100x=代入回归直线方程,得0.910012102y =⨯+=(分钟).∴预测加工100个零件需要102分钟.故选:C .【点评】本题考查线性回归方程的求法和应用,解题的关键是正确应用最小二乘法求出线性回归方程的系数的运算,再一点就是代入样本中心点可以求出字母a 的值,是一个中档题目. 10.两个变量y与x的回归模型中,分别选择了4个不同模型,它们对应的22121()1()ni i i ni i y y Ry y ==-=--∑∑的值如下,其中拟合效果最好的模型是()A .模型1对应的20.48R =B .模型3对应的20.15R =C .模型2对应的20.96R =D .模型4对应的20.30R =【分析】根据回归分析中相关指数2R 越接近于1,拟合效果越好,即可得出答案. 【解答】解:回归分析中,相关指数2R 越接近于1,拟合效果越好; 越接近0,拟合效果越差,由模型2对应的2R 最大,其拟合效果最好. 故选:C .【点评】本题考查了利用相关指数判断模型拟合效果的应用问题,是基础题. 11.对于回归分析,下列说法错误的是( )A .在残差图中,纵坐标表示残差B .若散点图中的一组点全部位于直线ˆ32y x =-+的图象上,则相关系数1r =C .若残差平方和越小,则相关指数2R 越大D .在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 【分析】根据题意,对选项种的命题分析判断正误即可.【解答】解:对于A ,在残差图中,纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,所以A 正确;对于B,散点图中的一组点全部位于直线ˆ32=-+的图象上,则x,y成负相关,且相关y x关系最强,此时相关系数1r=-,所以B错误;对于C,若残差平方和越小,则残差点分布的带状区域的宽度越窄,其相关性越强,相关指数2R越大,所以C正确;对于D,回归分析中,变量间的关系若是非确定关系,即变量间的关系不是函数关系,因变量不能由自变量唯一确定,所以D正确.故选:B.【点评】本题考查了统计知识的概念与应用问题,掌握相关概念的含义是解题的关键,是基础题.12.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是() A.总偏差平方和B.残差平方和C.回归平方和D.相关指数【分析】本题考查的回归分析的基本概念,根据拟合效果好坏的判断方法我们可得,数据点和它在回归直线上相应位置的差异是通过残差的平方和来体现的.【解答】解:拟合效果好坏的是由残差的平方和来体现的,而拟合效果即数据点和它在回归直线上相应位置的差异故据点和它在回归直线上相应位置的差异是通过残差的平方和来体现的.故选:B.【点评】拟合效果好坏的是由残差的平方和来体现的,也可以理解为拟合效果即数据点和它在回归直线上相应位置的差异,故据点和它在回归直线上相应位置的差异是通过残差的平方和来体现的.二.多选题(共1小题)13.下列有关回归分析的结论中,正确的有()A.运用最小二乘法求得的回归直线一定经过样本点的中心(x,)yB.若相关系数r的绝对值越接近于1,则相关性越强C.若相关指数2R的值越接近于0,表示回归模型的拟合效果越好D.在残差图中,残差点分布的带状区域的宽度越窄,说明模型拟合的精度越高【分析】利用回归分析中的相关知识对四个选项逐一分析判断即可.【解答】解:对于A,回归方程必定经过样本中心(x,)y,故选项A正确;对于B,由相关系数的意义可知,相关系数r的绝对值越接近于1,则相关性越强,故选项B正确;对于C ,若相关指数2R 的值越接近于1,表示回归模型的拟合效果越好,故选项C 错误; 对于D ,在残差图中,残差点分布的带状区域的宽度越窄,说明模型拟合的精度越高,故选项D 正确. 故选:A B D .【点评】本题考查了回归分析的理解,主要考查了回归方程的性质,相关系数的意义等,属于基础题.三.填空题(共4小题)14.某商店统计了最近6个月某商品的进价x 与售价y (单位:元)的对应数据如表:假设得到的关于x 和y 之间的回归直线方程是ˆˆˆy bx a =+,那么该直线必过的定点是13(2,8).【分析】根据回归方程必过点(,)x y ,计算出,x y 即可求得答案. 【解答】解:35289121362x+++++==,4639121486y+++++==,回归方程必过点(,)x y ,∴该直线必过的定点是13(2,8).故答案为:13(2,8).【点评】本题考查了回归方程,线性回归方程必过样本中心点(,)x y ,这是线性回归中最常考的知识点,希望大家熟练掌握.属于基础题.15.对具有线性相关关系的变量x ,y ,测得一组数据如表:根据上表,利用最小二乘法得它们的回归直线方程为ˆˆ10.5y x a=+,据此模型预测,当10x=时,y 的估计值是 106.5【分析】根据表中数据计算x 、y ,代入回归直线方程求得ˆa的值, 写出回归直线方程,利用方程求出10x =时ˆy的值即可. 【解答】解:根据表中数据,计算1(24568)55x=⨯++++=,1(2040607080)545y =⨯++++=,代入回归直线方程ˆˆ10.5y x a=+中,求得ˆ5410.55 1.5a =-⨯=,∴回归直线方程为ˆ10.5 1.5yx =+,据此模型预测,10x=时,ˆ10.510 1.5106.5y=⨯+=,即y 的估计值是106.5. 故答案为:106.5.【点评】本题考查了线性回归方程的应用问题,是基础题. 16.已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程ˆ 2.10.85y x =+,则m 的值为 0.5 .【分析】首先求出这组数据的横标和纵标的平均数,写出这组数据的样本中心点,把样本中心点代入线性回归方程求出m 的值. 【解答】解:0123342x +++==,3 5.5715.544m m y++++==,∴这组数据的样本中心点是3(2,15.5)4m +, 关于y 与x 的线性回归方程ˆ 2.10.85y x =+,∴15.532.10.8542m +=⨯+,解得0.5m =,m∴的值为0.5.故答案为:0.5.【点评】本题考查回归分析,考查样本中心点满足回归直线的方程,考查求一组数据的平均数,是一个运算量比较小的题目,并且题目所用的原理不复杂,是一个好题.17.对某城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查后知,y 与x 具有线性相关关系,满足回归方程0.6 1.5yx =+,若该城市居民人均消费水平为7.5(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为 75%.【分析】根据y 与x 具有线性相关关系,且满足回归方程,和该城市居民人均消费水平为,把消费水平的值代入线性回归方程,可以估计该市的职工均工资水平,做出人均消费额占人均工资收入的百分比. 【解答】解:y与x 具有线性相关关系,满足回归方程0.6 1.5yx =+,该城市居民人均消费水平为7.5y=,∴可以估计该市的职工均工资水平7.50.6 1.5x =+,10x ∴=,∴可以估计该城市人均消费额占人均工资收入的百分比约为7.5100%75%10⨯=,故答案为:75%【点评】本题考查线性回归方程的应用,考查用线性回归方程估计方程中的一个变量,利用线性回归的知识点解决实际问题. 四.解答题(共3小题)18.某同学在生物研究性学习中想对春季昼夜温差大小与黄豆种子发芽多少之间的关系进行研究,于是他在4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天每100颗种子浸泡后的发芽数,得到如下资料:(1)从这5天中任选2天,记发芽的种子数分别为m ,n ,求事件“m ,n 均不小于25的概率.(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另三天的数据,求出y 关于x 的线性回归方程ˆˆˆybx a =+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?(参考公式:1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-【分析】(1)用数组(,)m n 表示选出2天的发芽情况,用列举法可得m ,n 的所有取值情况,分析可得m ,n 均不小于25的情况数目,由古典概型公式,计算可得答案;(2)根据所给的数据,先做出x ,y 的平均数,即做出本组数据的样本中心点,根据最小二乘法求出线性回归方程的系数,写出线性回归方程.(3)根据估计数据与所选出的检验数据的误差均不超过2颗,就认为得到的线性回归方程是可靠的,根据求得的结果和所给的数据进行比较,得到所求的方程是可靠的.【解答】解:(1)用数组(,)m n 表示选出2天的发芽情况,m,n 的所有取值情况有(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(30,26),共有10个设“m ,n 均不小于25”为事件A ,则包含的基本事件有(25,30),(25,26),(30,26) 所以3()10P A =,故事件A 的概率为310(2)由数据得12,27xy ==,3972x y=,31977i i i x y ==∑,321434i i x ==∑,23432x =由公式,得9779725ˆ4344322b -==-,5ˆ271232a=-⨯=-所以y 关于x 的线性回归方程为5ˆ32yx =-(3)当10x =时,ˆ22y=,|2223|2-<,当8x=时,ˆ17y=,|1716|2-<所以得到的线性回归方程是可靠的.【点评】本题考查回归直线方程的计算与应用,涉及古典概型的计算,是基础题,在计算线性回归方程时计算量较大,注意正确计算.19.随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y(万元)有如下的数据资料:(1)在给出的坐标系中做出散点图;(2)求线性回归方程ˆˆˆybx a =+中的ˆa、ˆb ; (3)估计使用年限为10年时,车的使用总费用是多少?(最小二乘法求线性回归方程系数公式1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-.【分析】(1)利用描点法作出散点图;(2)把数据代入公式,利用最小二乘法求回归方程的系数,可得回归直线方程; (3)把10x=代入回归方程得y 值,即为预报变量.【解答】解:(1)散点图如图,由图知y 与x 间有线性相关关系.(2)4x=,5y=,52190i i x ==∑,51112.3i i i x y ==∑,∴112.354512.3ˆ 1.239054210a-⨯⨯===-⨯;ˆˆ5 1.2340.08a y b x =-=-⨯=.(3)线性回归直线方程是ˆ 1.230.08y x =+,当10x=(年)时,ˆ 1.23100.0812.38y=⨯+=(万元),即估计使用10年时,支出总费用是12.38万元.【点评】本题考查了线性回归直线方程的求法及利用回归方程估计预报变量,解答此类问题的关键是利用公式求回归方程的系数,计算要细心.20.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)画散点图;(2)如果y 对x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为89个,那么机器的运转速度应控制在什么范围内?(参考数值:511380i i i x y ==∑,521145)i i x ==∑【分析】(1)根据表格数据,可得散点图;(2)先求出横标和纵标的平均数,代入求系数b 的公式,利用最小二乘法得到系数,再根据公式求出a 的值,写出线性回归方程,得到结果.(3)允许每小时的产品中有缺点的零件最多为89个,即线性回归方程的预报值不大于89,写出不等式,解关于x 的一次不等式,得到要求的机器允许的转数. 【解答】解:(1)散点图如图;(2)5x =,50y=,511380i i i x y ==∑,521145i i x ==∑∴13805550ˆ 6.5145555b-⨯⨯==-⨯⨯,ˆˆ17.5ay b x =-=∴回归直线方程为:ˆ 6.517.5yx =+;(3)由89y …得6.517.589x+…,解得11x …∴机器的运转速度应控制11转/秒内【点评】本题考查线性回归分析,考查线性回归方程,考查线性回归方程的应用,考查不等式的解法,是一个综合题目.。
回归分析练习题及参考答案..讲课讲稿
求:(1)人均GDP 作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP 为5000元,预测其人均消费水平。
(7)求人均GDP 为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型摘要模型R R 方调整的R 方估计的标准差1 .998(a) 0.996 0.996 247.303a. 预测变量:(常量), 人均GDP(元)。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5)F检验:回归系数的检验:t检验注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.99836.4920.000a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(6)某地区的人均GDP为5000元,预测其人均消费水平为734.6930.30950002278.693y=+⨯=(元)。
回归分析练习试题和参考答案解析
1 下面是7个地区2000年的人均国生产总值(GDP)和人均消费水平的统计数据:地区人均GDP/元人均消费水平/元22460 11226 34547 4851 5444 2662 4549 7326 4490 11546 2396 2208 1608 2035求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1 .998a.996 .996 247.303a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规排版。
相关分析与回归分析练习试卷1(题后含答案及解析)
相关分析与回归分析练习试卷1(题后含答案及解析) 题型有:1. 单选题 2. 多选题单项选择题以下每小题各有四项备选答案,其中只有一项是正确的。
1.根据散点图8-1,可以判断两个变量之间存在( )。
A.正线性相关关系B.负线性相关关系C.非线性关系D.函数关系正确答案:A 涉及知识点:相关分析与回归分析2.假设某品牌的笔记本市场需求只与消费者的收入水平和该笔记本的市场价格水平有关。
则在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的相关关系就是一种( )。
A.单相关B.复相关C.偏相关D.函数关系正确答案:C解析:在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。
在假定消费者的收入水平不变的条件下,该笔记本的市场需求与其市场价格水平的关系就是一种偏相关。
知识模块:相关分析与回归分析3.相关图又称( )。
A.散布表B.折线图C.散点图D.曲线图正确答案:C解析:相关图又称散点图,是指把相关表中的原始对应数值在乎面直角坐标系中用坐标点描绘出来的图形。
知识模块:相关分析与回归分析4.下列相关系数取值中错误的是( )。
A.-0.86B.0.78C.1.25D.0正确答案:C解析:相关系数r的取值介于-1与1之间。
知识模块:相关分析与回归分析5.如果相关系数r=0,则表明两个变量之间( )。
A.相关程度很低B.不存在任何关系C.不存在线性相关关系D.存在非线性相关关系正确答案:C解析:相关系数r是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
如果相关系数r=0,说明两个变量之间不存在线性相关关系。
知识模块:相关分析与回归分析6.当所有观测值都落在回归直线上,则两个变量之间的相关系数为( )。
A.1B.-1C.+1或-1D.大于-1,小于+1正确答案:C解析:当所有观测值都落在回归直线上时,说明两个变量完全线性相关,所以相关系数为+1或-1。
回归分析练习题及参考答案
1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:地区人均GDP/元人均消费水平/元北京辽宁上海江西河南贵州陕西 224601122634547485154442662454973264490115462396220816082035求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1 .998a.996 .996 247.303a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
回归分析试题答案
诚信应考 考出水平 考出风格浙江大学城市学院2011 — 2012 学年第一学期期末考试卷《 回归分析 》开课单位: 计算分院 ;考试形式:开卷(A4纸一张);考试时间:2011年01月6日; 所需时间: 120 分钟一.计算题(10分。
)1,考虑过原点的线性回归模型1,1,2,...,i i i y x i n βε=+=误差1,...,n εε仍满足基本假定。
求1β的最小二乘估计。
并求出1β 的期望和方差,写出1β的分布。
1221111111121,1,2,...,ˆ()()2()0ˆi i i nni i i i i i ni i i i ni ii nii y x i n Q y yy x Qy x x x yxβεββββ======+==-=-∂=--=∂=∑∑∑∑∑解:第1页共 6 页二. 证明题(本大题共2小题,每小题7分,共14分。
)1,证明:(1)22()1var()[1]i i xxx x e n L σ-=--(2)2211ˆˆ()2n i ii y y n σ==--∑是2σ的无偏估计。
011111122ˆˆˆ()()1()()1var()var[()()]()1var()var((()))()12cov[,(())](1(i i i i i nn i i j j jj j xx ni i i j j j xx ni i j j j xx ni i j j j xxe y y y x x x x y y x x y n L x x e y x x y n L x x y x x y n L x x y x x y n L x n ββσσ======-=----=----=-+--=++---+-=++∑∑∑∑∑解(1):222122222221212211)()1())2()()()11(12()]()1[1]1ˆˆ(2)()(())21ˆ[()]2()111var()[1]2212n i i j j xx xxi i xx xxi xx ni i i ni i i n n i i i i xx x x x x x L n L x x x x n L n L x x n L E E y y n E y y n x x e n n n L n σσσσσ=====----+--=++-+-=--=--=---==----=-∑∑∑∑∑22(11)n σσ--=三.填空题.(每空2分,共46分)1.为了研究家庭收入和家庭消费的关系,通过调查得到数据如下:6.22893,29.12349,43008,97.29,5422=====∑∑∑xy yxy x1)用最小二乘估计求出线性回归方程的参数估计值0ˆβ= 。
回归分析期末试题及答案
回归分析期末试题及答案一、简答题1. 请解释回归分析的基本思想。
回归分析是一种统计学方法,用于研究变量之间的关系。
其基本思想是通过建立一个数学模型来描述一个或多个自变量对因变量的影响,并根据观察数据对模型进行拟合和推断。
2. 请解释简单线性回归和多元线性回归的区别。
简单线性回归是建立在一个自变量和一个因变量之间的基础上的回归模型。
多元线性回归则是在两个或更多个自变量和一个因变量之间建立的回归模型。
3. 请解释残差的含义。
残差是指建立回归模型后,观测值与模型预测值之间的差异。
残差可以用来评估模型的拟合程度,如果残差较大,则说明模型无法很好地解释观察数据的变化。
4. 请解释R平方的含义及其优缺点。
R平方是一个用来衡量回归模型拟合程度的指标,其值介于0和1之间。
R平方越接近1,说明模型对观察数据的拟合越好;而R平方越接近0,则说明模型对观察数据的拟合越差。
R平方的优点是简单直观,易于理解,但其缺点是不适用于比较不同自变量的模型。
5. 请简要说明什么是多重共线性问题。
多重共线性问题指的是在多元线性回归中,自变量之间存在高度相关性的情况。
多重共线性会导致回归系数的估计不准确,难以解释自变量与因变量之间的关系。
二、计算题1. 已知一个简单线性回归模型为:Y = 2 + 3X,回归系数的解释是什么?回归系数3表示自变量X每增加1个单位,因变量Y会增加3个单位。
而常数项2表示当自变量X为0时,因变量Y的取值为2。
2. 使用最小二乘法求解简单线性回归模型的参数估计值。
最小二乘法是一种常用的回归分析方法,用于估计回归模型中的参数值。
以简单线性回归模型Y = β0 + β1X 为例,最小二乘法通过最小化观测值Y与模型预测值之间的平方差来估计β0和β1。
3. 请计算多元线性回归模型的回归系数。
多元线性回归模型可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn。
回归系数β1、β2、...、βn可以使用最小二乘法来估计,通过最小化观测值Y与模型预测值之间的平方差来得出。
回归分析统计案例基础作业练习含答案解析高二数学北京海淀
课时提升作业十六回归分析一、选择题(每小题5分,共25分)1.(2018·廊坊高二检测)下列关于回归分析的说法中错误的是( )A.回归直线一定过样本点的中心(,)B.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适C.两个模型中残差平方和越小的模型拟合的效果越好D.甲、乙两个模型的R2分别约为0.98和0.80,则模型乙的拟合效果更好【解析】选D.对于A,回归直线一定过样本点的中心,正确;对于B,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.故正确;对于C,可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故正确;对于D,因为相关指数R2取值越大,说明残差平方和越小,模型的拟合效果越好,又因为甲、乙两个模型的相关指数R2的值分别约为0.98和0.80,0.98>0.80,所以甲模型的拟合效果好,故不正确.2.(2018·福州高二检测)散点图在回归分析过程中的作用是( )A.查找个体个数B.比较个体数据大小关系C.探究个体分类D.粗略判断变量是否线性相关【解析】选D.散点图在回归分析过程中的作用是粗略判断变量是否线性相关.3.由一组样本数据(x 1,y1),(x2,y2),…,(x n,y n)得到回归直线方程=x+,那么下列说法中不正确的是( )A.直线=x+必经过点(,)B.直线=x+至少经过点(x 1,y1)(x2,y2),…,(x n,b n)中的一个点C.直线=x+的斜率为D.直线=x+的纵截距为-b【解析】选B.回归直线可以不经过任何一个点,所以B错误.4.对相关系数r,下列说法正确的是( )A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.|r|越大,相关程度越小,|r|越小,相关程度越大D.|r|≤1且|r|越接近于1,相关程度越大,|r|越接近于0,相关程度越小【解析】选D.由两个变量相关系数公式r=,可知,|r|越接近于1,相关程度越大,|r|越接近于0,相关程度越小.5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元) 8.2 8.6 10.0 11.3 11.9支出y(万元) 6.2 7.5 8.0 8.5 9.8根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元【解题指南】样本点的中心(,)一定在回归直线上.【解析】选B.由题意得==10,==8,所以=8-0.76×10=0.4,所以=0.76x+0.4,把x=15代入得到=11.8.二、填空题(每小题5分,共15分)6.身高与体重有关系可以用__________来分析.①残差②回归分析③等高条形图④独立检验【解析】人的身高和体重是两种相关性的量,可以用回归分析来分析.答案:②7.已知x,y的取值如表所示:x 2 3 4y 6 4 5如果y与x呈线性相关,且线性回归方程为=bx+,则b=__________. 【解析】因为线性回归方程为=bx+,又因为线性回归方程过点(,),==3,==5,所以回归方程过点(3,5),所以5=3b+,所以b=-答案:-【补偿训练】已知x,γ的取值如表所示:x 3 4 5 6γ 2.5 3 4 4.5从散点图分析,γ与x线性相关,且回归方程为=0.7x+,则=__________.【解析】由统计知识,点(,)=(4.5,3.5),代入方程得到=3.5-0.7×4.5=0.35.答案:0.358.某产品的广告费用x(万元)与销售额Y(万元)的统计数据如下表:广告费用x(万元) 4 2 3 5销售额Y(万元) 49 26 39 54根据上表可得回归方程=x+中的为9.4,据此模型预算广告费用为6万元时销售额为__________.【解题指南】利用线性回归直线经过定点(,),代入方程求得,再代入x=6,求得销售额.【解析】由表可计算==,==42.因为点(,42)在回归直线=x+上,且为9.4,所以42=9.4×+,解得=9.1,故回归方程为=9.4x+9.1.令x=6,得=65.5.答案:65.5万元三、解答题(每小题10分,共20分)9.高三·一班学生每周用于数学学习的时间x(单位:h)与数学平均成绩Y(单位:分)之间有如下数据:x 24 15 23 19 16 11 20 16 17 13Y 92 79 97 89 64 47 83 68 71 69根据这些数据计算相关系数r,判断x与y之间是否具有相关关系.【解析】由表中数据可得=17.4,=75.9,所以相关系数r=≈0.892.所以x与y具有线性相关关系.10.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5工作年限x/年 3 5 6 7 9推销金额Y/万元 2 3 3 4 5(1)求年推销金额Y关于工作年限x的线性回归方程.(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.【解析】(1)设所求的线性回归方程为=x+,则===0.5,=-b=0.4.所以年推销金额Y关于工作年限x的线性回归方程为=0.5x+0.4. (2)当x=11时,=0.5x+0.4=0.5×11+0.4=5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.。
相关分析与回归分析同步练习试卷2(题后含答案及解析)
相关分析与回归分析同步练习试卷2(题后含答案及解析)题型有:1. 单项选择题 3. 名词解释题 4. 简答题 5. 计算分析题单项选择题每小题1分,在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。
多选无分。
1.总体总量指标的点估计值是()A.平均数乘以样本成数B.样本容量乘以样本成数C.样本指标值乘以总体单位数D.样本指标的区间估计值乘以总体单位数正确答案:C 涉及知识点:相关分析与回归分析2.理论上最符合抽样调查随机原则的形式是()A.整群抽样B.类型抽样C.阶段抽样D.简单随机抽样正确答案:D 涉及知识点:相关分析与回归分析3.()是其他抽样方式的基础,也是衡量其他抽样方式抽样效果的标准。
()A.简单随机抽样B.等距抽样C.类型抽样D.整群抽样正确答案:A 涉及知识点:相关分析与回归分析4.为了解职工家庭生活水平状况,决定采用等距抽样进行调查,首先把职工按工资水平的高低进行排队,此种排队方法属于A.按无关标志排队B.按有关标志排队C.按简单标志排队D.按复杂标志排队正确答案:B 涉及知识点:相关分析与回归分析5.产品的单位成本随着劳动生产率的不断提高而下降,此种现象属于()A.完全相关B.不完全相关C.正相关D.负相关正确答案:D 涉及知识点:相关分析与回归分析6.只反映一个自变量和一个因变量韵相关关系是()A.正相关B.负相关C.单相关D.复相关正确答案:C 涉及知识点:相关分析与回归分析7.当相关关系的—个变量变动时,另—变量也相应地发生大致均等的变动,这种相关关系称为()A.线性相关B.非线性相关C.单相关D.完全相关正确答案:A 涉及知识点:相关分析与回归分析8.完全相关关系就是()A.函数关系B.因果关系C.狭义的相关关系D.广义的相关关系正确答案:A 涉及知识点:相关分析与回归分析9.大多数相关关系属于()A.不相关B.完全相关C.不完全相关D.无法判断正确答案:C 涉及知识点:相关分析与回归分析10.制作双变量分组相关表,应将自变量放在()A.横栏B.纵栏C.中间栏D.任意一栏正确答案:A 涉及知识点:相关分析与回归分析11.相关系数的取值范围是()A.-1≤r≤lB.-1≤r≤lC.-1<r<lD.-1≤r<1正确答案:B 涉及知识点:相关分析与回归分析12.两个变量问的相互依存程度越高,则二者之间的相关系数值越接近于()A.1B.-1C.0D.1或-1正确答案:D 涉及知识点:相关分析与回归分析13.两个现象之间相互依存关系程度越弱,则相关系数r()A.越接近于0B.越接近于-1C.越接近于1D.越接近于0.5正确答案:A 涉及知识点:相关分析与回归分析14.在相关分析中,要求相关的两个变量()A.至少有一个是随机变量B.因变量是随机变量C.都不是随机变量D.自变量是随机变量正确答案:A 涉及知识点:相关分析与回归分析名词解释题每小题3分15.一元线性回归模型正确答案:一元线性回归模型又称简单直线回归模型,它是根据两个变量的成对数据,配合直线方程式,再根据自变量的变动值,来推算因变量的估计值的一种统计分析方法。
[精品]回归分析练习题.doc
R 2 =0.538 $ = 199.023 S, =384.105 + 0.0671;(151.105) (0.011) 例1.对于人均存款与人均收入之间的关系式s, =a + 0Y ( +角使用美国36年的年度数据得如下估计模型, 括号内为标准差:(1) 0的经济解释是什么?(2) Q 和0的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话,你可以给出可能的原 因吗?(3) 对于拟合优度你有什么看法吗?(4) 检验是否每一个回归系数都与零显著不同(在1%水平下)。
同时对零假设和备择假设、检验统计值、其 分布和自由度以及拒绝零假设的标准进行陈述。
你的结论是什么?解答:(1) 0表示人均收入每增加1美元时人均储蓄的预期平均变化量。
(2) 由于收入为零时,家庭仍会有支出,可预期零收入时的平均储蓄为负,因此Q 符号应为负。
储蓄是收入 的一部分,且会随着收入的增加而增加,因此预期0的符号为正。
实际的回归式中,0的符号为正,与预期的一 致。
但截距项为负,与预期不符。
这可能与由于模型的错误设定形造成的。
如家庭的人口数可能影响家庭的储蓄 形为,省略该变量将对截距项的估计产生影响;另一种可能就是线性设定可能不正确。
(3) 拟合优度刻画解释变量对被解释变量变化的解释能力。
模型中53.8%的拟合优度,表明收入的变化可以 解释储蓄中53.8%的变动。
(4) 检验单个参数采用t 检验,零假设为参数为零,备择假设为参数不为零。
双变量情形下在零假设下t 分布的 自山度为n-2=36-2=34…山t 分布表知,双侧1%下的临界值位于2.750与2.704之间。
斜率项计算的t 值为0.067/0.011=6.09,截距项计算的t 值为384.105/151.105=2.54。
可见斜率项计算的t 值大于临界值,截距项小于临 界值,因此拒绝斜率项为零的假设,但不拒绝截距项为零的假设。
例2.假设要求你建立一个计量经济模型来说明在学校跑道上慢跑一英里或一英里以上的人数,以便决定是否修 建第二条跑道以满足所有的锻炼者。
回归分析期末考试练习题
1、对于一元线性回归01(1,2,...,)i i i y x i n ββε=++=,()0i E ε=,2var()i εσ=,cov(,)0()i j i j εε=≠,下列说法错误的是(A)0β,1β的最小二乘估计0ˆβ,1ˆβ 都是无偏估计; (B)0β,1β的最小二乘估计0ˆβ,1ˆβ对1y ,2y ,...,n y 是线性的;2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换. 如果误差方差与因变量y 的期望成正比,则可通过下列哪种变换将方差常数化 (A)1y;(C) ln(1)y +;(D)ln y .3、下列说法错误的是(A)强影响点不一定是异常值;(B)在多元回归中,回归系数显著性的t 检验与回归方程显著性的F 检验是等价的; (C)一般情况下,一个定性变量有k 类可能的取值时,需要引入k-1个0-1型自变量; (D)异常值的识别与特定的模型有关.4、下面给出了4个残差图,哪个图形表示误差序列是自相关的一、选择题.(每题3分,共15分)(C)0β,1β的最小二乘估计0ˆβ,1ˆβ之间是相关的; (D)若误差服从正态分布,0β,1β的最小二乘估计和极大似然估计是不一样的.(A) (B)(C) (D)5、下列哪个岭迹图表示在某一具体实例中最小二乘估计是适用的(A)(B)(C) (D)二、填空题(每空2分,共20分)1、考虑模型y X βε=+,2var()n I εσ=,其中:X n p '⨯,秩为p ',20σ>不一定已知,则ˆβ=__________________, ˆvar()β=___________,若ε服从正态分布,则 22ˆ()n p σσ'- ___________,其中2ˆσ是2σ的无偏估计. 2、下表给出了四变量模型的回归结果:则残差平方和=_________,总的观察值个数=_________,回归平方和的自由度=________. 3、已知因变量y 与自变量1x ,2x ,3x ,4x ,下表给出了所有可能回归模型的AIC 值,则最优子集是_____________________.4、在诊断自相关现象时,若0.66D W =,则误差序列的自相关系数ρ的估计值=_____ ,若存在自相关现象,常用的处理方法有迭代法、_____________、科克伦-奥克特迭代法.5、设因变量y 与自变量x 的观察值分别为12,,...,n y y y 和12,,...,n x x x ,则以*x 为折点的折线模型可表示为_____________________.三、(共45分)研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的线性回归关系.观察数据及残差值i e 、学生化残差i SR E 、删除学生化残差()i S R E 、库克距离i D 、杠杆值ii ch 见表一表一表二参数估计表已知0.025(6) 2.447t =,0.025(7) 2.365t =,0.05(3,6) 4.76F =,0.05(4,7) 4.12F =,根据上述结果,解答如下问题:1、计算误差方差2σ的无偏估计及判定系数2R .(8分)2、对1x ,2x ,3x 的回归系数进行显著性检验.(显著性水平0.05α=)(12分)3、对回归方程进行显著性检验.(显著性水平0.05α=)(8分)4、诊断数据是否存在异常值,若存在,是关于自变量还是关于因变量的异常值?(10分)5、写出y 关于1x ,2x ,3x 的回归方程,并结合实际对问题作一些基本分析(7分)四、(共8分)某种合金中的主要成分为金属A 与金属B ,研究者经过13次试验,发现这两种金属成分之和x 与膨胀系数y 之间有一定的数量关系,但对这两种金属成分之和x 是否对膨胀系数y 有二次效应没有把握,经计算得y 与x 的回归的残差平方和为3.7,y 与x 、2x 的回归的残差平方和为0.252,试在0.05的显著性水平下检验x 对y 是否有二次效应?(参考数据0.050.05(1,10) 4.96,(2,10) 4.1F F ==)五、(共12分)(1)简单描述一下自变量12,,...,p x x x 之间存在多重共线性的定义;(2分) (2)多重共线性的诊断方法主要有哪两种?(4分) (3)消除多重共线性的方法主要有哪几种?(6分)。
土木工程类回归分析模拟试题与答案
回归分析模拟试题与答案一、单项选择题1. 如果在y关于x的线性回归方程=,那么x和y两变量间的相关系数r有( )。
A.r=0B.r=1C.r<0D.r>0答案:C解答:因为b<0,则y随x的增大而减小,所以x与y负线性相关,则r<0。
2. 某零件的长度X和质量y的相关系数为0。
68,经技术改进后,每个零件的长度缩短0。
2厘米,质量降低0。
5克,新零件的长度和质量的相关系数为( )。
A.0.86B.0.50C.0.68D.-0.68答案:C解答:设改进后零件的长度为,质量为,则,那么技术改进后平均长度为,平均质量为,根据相关系数公式可知,改进后的相关系数r''=r''=0.68。
3. 某种零件的长度和质量的相关系数为0.97,更换材料后每个零件质量均降低0.3克,而长度不变,那么此种零件的长度与质量的相关系数为( )。
A.0.5B.0.67C.0.97D.-0.97答案:C4. 根据两个变量的18对观测数据建立一元线性回归方程。
在对回归方程作检验时,残差平方和的自由度为( )。
A.18B.17C.16D.1答案:C解答:在对一元线性回归方程作检验时,总(离差)平方和的自由度f T=n-1=18-1= 17,回归平方和的自由度为f R=1(相当于未知数的个数),而残差平方和的自由度为f E=f T-f R=17-1=16。
5. 回归分析是处理变量相关关系的一种统计技术。
下列不属于变量的是( )。
A.工厂B.温度C.压力D.强度答案:A解答:变量也是一种因子,因子常被分为两类:定性因子(如工厂,原料产地等)与定量因子(如温度、压力、强度等)。
回归分析主要研究定量因子,定量因子又称为变量。
6. 收集了n组数据(x i,y i),i=1,2,…,n,为了解变量x与y间是否有相关关系,可以画( )加以考察。
A.直方图B.散布图C.控制图D.排列图答案:B解答:直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法;散布图用于研究两个变量之间的关系;控制图是对过程质量特性值进行测定、记录、评估,从而监察过程是否处于控制状态的一种用统计方法设计的图;排列图是为了对发生频次从最高到最低的项目进行排列而采用的简单图示技术。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
α=)。
(5)检验回归方程线性关系的显著性(0.05(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:系数a模型非标准化系数标准系数t Sig.相关性B标准误差试用版零阶偏部分1(常量).003人均GDP.309.008.998.000.998.998.998 a. 因变量: 人均消费水平有很强的线性关系。
(3)回归方程:734.6930.309y x=+系数a模型非标准化系数标准系数t Sig.相关性回归系数的含义:人均GDP没增加1元,人均消费增加元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t显著性B标准误Beta1(常量)人均GDP(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1.998a.996.996a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型摘要模型R R 方调整的 R 方估计的标准差1.998(a)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5)F检验:Anova b模型平方和df均方F Sig.1回归.6801.680.000a 残差5总计.7146a. 预测变量: (常量), 人均GDP。
b. 因变量: 人均消费水平回归系数的检验:t检验%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t显著性B标准误Beta1(常量)人均GDP(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% (6)某地区的人均GDP 为5000元,预测其人均消费水平为 734.6930.30950002278.693y =+⨯=(元)。
(7)人均GDP 为5000元时,人均消费水平95%的置信区间为[,],预测区间为[,]。
2 从n =20的样本中得到的有关回归结果是:SSR (回归平方和)=60,SSE (误差平方和)=40。
要检验x 与y 之间的线性关系是否显著,即检验假设:01:0H β=。
(1)线性关系检验的统计量F 值是多少 (2)给定显著性水平0.05α=,F α是多少 (3)是拒绝原假设还是不拒绝原假设(4)假定x 与y 之间是负相关,计算相关系数r 。
(5)检验x 与y 之间的线性关系是否显著解:(1)SSR 的自由度为k=1;SSE 的自由度为n-k-1=18;因此:F=1SSR k SSEn k --=6014018=27(2)()1,18F α=()0.051,18F = (3)拒绝原假设,线性关系显著。
(4)=,由于是负相关,因此r=(5)从F 检验看线性关系显著。
3 随机抽取7家超市,得到其广告费支出和销售额数据如下:求:(1)用广告费支出作自变量x,销售额作因变量y,求出估计的回归方程。
(2)检验广告费支出与销售额之间的线性关系是否显著(0.05α=)。
(3)绘制关于x的残差图,你觉得关于误差项ε的假定被满足了吗(4)你是选用这个模型,还是另寻找一个更好的模型解:(1)系数(a)模型非标准化系数标准化系数t显著性B标准误Beta1(常量)广告费支出(万元)(2)回归直线的F检验:ANOVA(b)模型平方和df均方F显著性1回归1.021(a)残差5合计1,6显著。
回归系数的t检验:系数(a)模型非标准化系数标准化系数t显著性B标准误Beta1(常量)广告费支出(万元)显著。
(3)未标准化残差图:标准化残差图:学生氏标准化残差图:看到残差不全相等。
(4)应考虑其他模型。
可考虑对数曲线模型:y=b0+b1ln(x)=+(x)。
4 根据下面SPSS输出的回归结果,说明模型中涉及多少个自变量多少个观察值写出回归方程,并根据F,s e,R2及调整的2aR的值对模型进行讨论。
模型汇总b模型R R 方调整 R 方标准估计的误差1Anova b模型平方和df均方F Sig. 1回归3残差11总计45367014系数a模型非标准化系数t Sig. B标准误差1(常量)VAR00002VAR00003VAR00004解:自变量3个,观察值15个。
回归方程:ˆy=+拟合优度:判定系数R2=,调整的2aR=,说明三个自变量对因变量的影响的比例占到63%。
估计的标准误差yxS=,说明随即变动程度为回归方程的检验:F检验的P=,在显著性为5%的情况下,整个回归方程线性关系显著。
β的t检验的P=,在显著性为5%的情况下,y与X1线性关系显著。
回归系数的检验:1β的t检验的P=,在显著性为5%的情况下,y与X2线性关系不显著。
2β的t检验的P=,在显著性为5%的情况下,y与X3线性关系显著。
3因此,可以考虑采用逐步回归去除X2,从新构建线性回归模型。
5 下面是随机抽取的15家大型商场销售的同类产品的有关数据(单位:元)。
求:(1)计算y与x1、y与x2之间的相关系数,是否有证据表明销售价格与购进价格、销售价格与销售费用之间存在线性关系(2)根据上述结果,你认为用购进价格和销售费用来预测销售价格是否有用α=)。
(3)求回归方程,并检验模型的线性关系是否显著(0.05(4)解释判定系数R2,所得结论与问题(2)中是否一致(5)计算x1与x2之间的相关系数,所得结果意味着什么(6)模型中是否存在多重共线性你对模型有何建议解:(1)y与x1的相关系数=,y与x2之间的相关系数=。
对相关性进行检验:相关性销售价格购进价格销售费用销售价格Pearson 相关性1显著性(双侧)N151515购进价格Pearson 相关性1(**)显著性(双侧)N151515销售费用Pearson 相关性(**)1显著性(双侧)N151515可以看到,两个相关系数的P值都比较的,总体上线性关系也不现状,因此没有明显的线性相关关系。
(2)意义不大。
(3)回归统计Multiple RR SquareAdjusted RSquare标准误差观测值15方差分析df SS MS F Significance F回归分析2残差12总计14Coefficients标准误差t Stat P-value L ower 95%U pper 95%下限 %上限 % (常量)购进价格x10.销售费用x20.从检验结果看,整个方程在5%下,不显著;而回归系数在5%下,均显著,说明回归方程没有多大意义,并且自变量间存在线性相关关系。
(4)从R2看,调整后的R2=%,说明自变量对因变量影响不大,反映情况基本一致。
(5)方程不显著,而回归系数显著,说明可能存在多重共线性。
(6)存在多重共线性,模型不适宜采用线性模型。
6 一家电器销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。
下面是近8个月的销售额与广告费用数据:求:(1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。
(2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。
(3)上述(1)和(2)所建立的估计方程,电视广告费用的系数是否相同对其回归系数分别进行解释。
(4)根据问题(2)所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少(5)根据问题(2)所建立的估计方程,检验回归系数是否显著(0.05α=)。
解:(1)回归方程为:ˆ88.64+1.6yx = (2)回归方程为:12ˆ83.23 2.29 1.3yx x =++ (3)不相同,(1)中表明电视广告费用增加1万元,月销售额增加万元;(2)中表明,在报纸广告费用不变的情况下,电视广告费用增加1万元,月销售额增加万元。
(4)判定系数R 2= ,调整的2a R = ,比例为%。
(5)回归系数的显著性检验:Coeffici ents标准误差 t Stat P-valu eLower 95%Upper95%下限 % 上限 %Intercept电视广告费用工:x1 (万元)报纸广告费用x2(万元)假设:H 0:1β=0 H 1:1β≠0 t=11S ββ=2.290.304= ()0.0255t =,t >()0.0255t ,认为y 与x 1线性关系显著。
(3)回归系数的显著性检验: 假设:H 0:2β=0 H 1:2β≠0 t=22S ββ=1.30.32= ()0.0255t =,t >()0.0255t ,认为y 与x 2线性关系显著。
7 某农场通过试验取得早稻收获量与春季降雨量和春季温度的数据如下:求:(1)试确定早稻收获量对春季降雨量和春季温度的二元线性回归方程。
(2)解释回归系数的实际意义。
(3)根据你的判断,模型中是否存在多重共线性 解:(1)回归方程为:12ˆ-0.59122.386327.672yx x =++ (2)在温度不变的情况下,降雨量每增加1mm ,收获量增加/hm 2,在降雨量不变的情况下,降雨量每增加1度,收获量增加/hm 2。
(3)1x 与2x 的相关系数12x x r =,存在多重共线性。