高考数学基础训练:回归分析含详解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高考数学基础训练:回归分析
一、单选题
1.某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98)
,[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是.
A .90
B .75
C .60
D .45
2.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是()
A .0.2
B .0.8
C .-0.98
D .-0.7
3.为研究变量x ,y 的相关关系,收集得到下面五个样本点(x ,y ):x 99.51010.511y
11
10
8
6
5
若由最小二乘法求得y 关于x 的回归直线方程为 3.2y x a
=-+,则据此计算残差为0的样本点是()A .(9,11)
B .(10,8)
C .(10.5,6)
D .(11.5)
4.据一组样本数据()11,x y ,()22,x y ,…,(),n n x y ,求得经验回归方程为ˆ 1.50.5y
x =+,且3x =.现发现这组样本数据中有两个样本点()1.2,2.2和()4.8,7.8误差较大,去除后重新求得的经验回归直线l 的斜率为1.2,则()
A .变量x 与y 具有正相关关系
B .去除两个误差较大的样本点后,重新求得的回归方程仍为ˆ 1.50.5y
x =+
C .去除两个误差较大的样本点后,y 的估计值增加速度变快
D .去除两个误差较大的样本点后,相应于样本点()2,3.75的残差为0.055.对于样本相关系数,下列说法错误的是()
A .可以用来判断成对样本数据相关的正负性
B .可以是正的,也可以是负的
C .样本相关系数越大,成对样本数据的线性相关程度也越高
D .取值范围是[]1,1-6.下列说法中正确的是
A .先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取
1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方
法是分层抽样法
B .线性回归直线ˆˆy bx
a =+不一定过样本中心()
x y C .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1D .若一组数据2,4,a ,8的平均数是5,则该组数据的方差也是5
7.某同学用收集到的6组数据对(),(1,2,3,4,5,6)i i x y i =制作成如图所示的散点图(点旁
的数据为该点坐标),并由最小二乘法计算得到回归直线1l 的方程:µµ11
y b x a =+$,相关系数为1r ,相关指数为2
1R :经过残差分析确定点E 为“离群点”(对应残差过大的点),把
它去掉后,再用剩下的5组数据计算得到回归直线2l 的方程:µµ22
y b x a =+$,相关系数为2r ,相关指数为2
2R .则以下结论中,正确的是(
)
①10r >,20r >;②µ10b >,µ20b >;③µµ12
b b >;④2212R R >A .①②
B .①②③
C .②④
D .②③④
8.已知变量y 关于x 的非线性经验回归方程为0.5ˆe bx y
-=,其一组数据如下表所示:x 1234y
e
3e 4
e 5
e 若5x =,则预测y 的值可能为(
)A .15
2
e B .11
2
e C .7
e D .5
e 第II 卷(非选择题)
请点击修改第II 卷的文字说明二、填空题
9.高中女学生的身高预报体重的回归方程是 0.7575.5y x =-(其中x , y 的单位分别是cm ,kg ),则此方程在样本()160,46处残差的绝对值是______.
10.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:
甲
乙丙丁R 2
0.98
0.78
0.50
0.85
建立的回归模型拟合效果最好的同学是__________.
11.在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点()(),1,2,3,,i i x y i n =⋅⋅⋅都在直线210x y +-=上,则这组样本数据的相关系数r 为______.
12.在一组样本数据()11,x y ,()22,x y ,…,()66,x y 的散点图中,若所有样本点
(),i i x y ()1,2,,6i = 都在曲线2
1
2y bx =-附近波动.经计算6
112i i x ==∑,61
14i i y ==∑,
6
2
1
23i
i x
==∑,则实数b 的值为________.
三、解答题
13.某科技公司研发了一项新产品A ,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x (千元)和销售量y (千件)之间的一组数据如下表所示:
月份i 123456
销售单价i x 9
9.5
1010.5118
销售量i
y 11
10
8
6
5
15
(1)试根据1至5月份的数据,建立y 关于x 的回归直线方程;
(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过065.
千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?
参考公式:回归直线方程ˆˆˆy
bx a =+,其中i i
i 1
2
2
i
i 1
ˆn
n
x y n x y
b x
nx
==-⋅⋅=-∑∑.
参考数据:5
i i i 1
392x y ==∑,5
2
i i 1
502.5x ==∑.
14.为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为2021年7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的2021年7月10日至7月14日时段中的相关数据,这5天的第x 天到该电商平台专营店购物的人数y (单位:万人)的数据如下表:
日期7月10日
7月11日
7月12日
7月13日
7月14日
第x 天
12345人数y (单位:万人)
75
84
93
98
100
(1)依据表中的统计数据,请判断该电商平台的第x 天与到该电商平台专营店购物的人数y (单位:万人)是否具有较高的线性相关程度?(参考:若0.30.75r <<,则线性相关程度一般,若
0.75r >,则线性相关程度较高,计算
r 时精确度为0.01)
(2)求购买人数y 与直播的第x 天的线性回归方程;用样本估计总体,请预测从2021年7
月10日起的第38天到该专营店购物的人数(单位:万人).
参考数据:5
2
1
(434i i
y y =-=∑,5
1
(64i i i x x y y =--=∑65.979≈.
附:相关系数()()
n
i i x x y y r --=
∑,回归直线方程的斜率1
2
1
()()
()
n
i
i
i n
i
i x x y y b
x x ==--=-∑∑ ,
截距a y bx =-$$.
15.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13
组观测数据,得到如下的散点图:
现根据散点图利用y a =+或d
y c x
=+建立y 关于x 的回归方程,
令s =1
t x
=得到如下数据:x
y
s
t
10.15109.94
3.04
0.16
1
13n
i
i
i s y
s y
=-⋅∑13
1
13i
i
i t y
t y
=-⋅∑13
22
1
13i
k s
s
=-∑13
22
1
13i
i t t =-∑ 13
22
1
13i
i y
y =-∑13.94-2.111.670.21
21.22
且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适;(2)根据(1)的结果及表中数据,建立 y 关于x 的回归方程;
(3)已知蕲艾的利润z 与x 、y 的关系为1
202
z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=
4.4562,11.67×21.22=247.63741
5.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的
最小二乘法估计分别为 12
21
n
i i i n
i
i u v
nu v u
nu
β
==-⋅=
-∑∑, v u αβ=-,相关系数n
i i u v
nu v
r -⋅∑.
参考答案:
1.A 【解析】【详解】
样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,
∴样本总数为
.
∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,
∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.考点:频率分布直方图.2.C 【解析】【分析】
由相关系数的绝对值越大,越具有强大相关性,即可求解【详解】
∵相关系数的绝对值越大,越具有强大相关性,C 相关系数的绝对值最大约接近1,∴C 拟合程度越好.故选:C 3.B 【解析】【分析】
先求出线性方程的样本中心点,从而可求得 3.240y x =-+,再根据残差的定义可判断.【详解】由题意可知,99.51010.511105
x ++++=
=,1110865
8
5y ++++==所以线性方程的样本中心点为(10,8),
因此有 8 3.21040a
a =-⨯+⇒=,所以 3.240y x =-+,
在收集的5个样本点中,(10,8)一点在 3.240y x =-+上,故计算残差为0的样本点是(10,8).故选:B 4.A 【解析】【分析】
由条件可知样本中心不变,可求出新的回归直线方程,即可判断.【详解】
因为重新求得的经验回归直线l 的斜率为1.2,所以变量x 与y 具有正相关关系,故A 正确;当3x =时,315055y ..=⨯+=,设去掉两个误差较大的样本点后,横坐标的平均值为x ',纵坐标的平均值为y ',则12636322n x x x x n n n ++⋅⋅⋅+--=--'==
,1210510
522
n y y y n n n y ++⋅⋅⋅+--'==--=,
因为去除两个误差较大的样本点后,重新求得回归直线l 的斜率为1.2,所以ˆ53 1.2a =⨯+,解得 1.4ˆa =,
所以去除两个误差较大的样本点后的经验回归方程为ˆ 1.2 1.4y
x =+,故B 错误;因为1.5 1.2>,所以去除两个误差较大的样本点后y 的估计值增加速度变慢,故C 错误;
因为ˆ 1.22 1.4 3.8y
=⨯+=,所以ˆ 3.75 3.80.05y y -=-=-,故D 错误.故选:A.5.C 【解析】【分析】
根据相关系数的概念,依次分析各选项即可得答案.【详解】
解:对于A 选项,当相关系数为正时,表明变量之间是正相关,相关系数为负数时,表明相关系数为负数,故A 选项正确;
对于B ,D 选项,相关系数范围是[]1,1-,故可以为正,也可以为负,故B ,D 选项正确;对于C 选项,当相关系数为负数时,样本相关系数越大,线性相关性就越弱,故C 选项错误;故选:C
6.D 【解析】
A 是系统抽样,
B 选项线性回归直线ˆˆy bx
a =+一定过样本中心()
,x y ,C 选项若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,D 选项若一组数据2,4,a ,8的平均数是5,求出a ,则该组数据的方差即可求解.【详解】
A 选项:先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取
1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是
系统抽样法,所以该选项不正确;
B 选项:线性回归直线ˆˆy bx
a =+一定过样本中心()
,x y ,所以该选项不正确;C 选项:若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,所以该选项不正确;
D 选项:若一组数据2,4,a ,8的平均数是5,
248
54
a +++=,解得6a =,则该组数据的方差是
()()()()2
2
2
2
2545658554
-+-+-+-=,所以该选项正确.
故选:D 【点睛】
此题考查抽样方法,回归直线,相关关系的辨析,求平均数和方差,关键在于熟练掌握相关概念和公式,准确计算.7.B 【解析】【分析】
根据散点图逐项进行判断即可.【详解】
①:由散点图可知,,x y 之间是正相关关系,所以10r >,20r >,故①正确;
②③:由散点图可知,回归直线的斜率是正数,且1l 的斜率大于2l 的斜率,所以µ10b >,µ20b >,µµ12
b b >,故②③正确;
④:由散点图可知,去掉“离群点”E 后,相关性更强,拟合的效果更好,所以22
12R R <,故
④错误;故选:B.8.C 【解析】【分析】
将0.5ˆe bx y
-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,由样本中心()
x z 必在回归直线0.5z bx =-上,可求出b ,从而即可求解.
【详解】
解:由题意,将0.5ˆe bx y
-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,则x
1234z
1
3
4
5
1234 2.54
x +++=
=,1345
3.254z +++=
=,由0.5z bx =-,得3.25 2.50.5b =-,解得 1.5b =,所以 1.50.5e x y -=,
所以当5x =时, 1.550.57e e y ⨯-==,故选:C.9.1.5##
3
2
【解析】【分析】
利用回归直线方程,求出160x =的估计值,然后求解残差的绝对值.【详解】
由样本数据得到,女大学生的身高预报体重的回归方程是 0.7575.5y x =-,当160x =时, 0.7516075.544.5y =⨯-=,
此方程在样本()160,46处残差的绝对值:44.546 1.5-=.
故答案为:1.5.
10.选甲
相关指数R 2越大,表示回归模型拟合效果越好.
【解析】
【分析】
相关指数越大,相关性越强,拟合效果越好.根据相关指数的大小即可判断.
【详解】
相关指数2R 越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.
【点睛】
如果两个变量间的关系是相关关系,相关指数2R 越大,相关系数r 越接近1,残差平方和越接近0,都代表拟合效果越好.
11.1
-【解析】
【分析】
根据直线斜率可知两个变量负相关,结合数据点都在直线上可确定1r =-.
【详解】
直线210x y +-=的斜率20k =-<,∴这两个变量成负相关,0r ∴<,又所有样本点都在直线210x y +-=上,1r ∴=-.
故答案为:1-.
12.17
23
【解析】
【分析】
设2t x =,可得回归直线方程为12y bt =-,求出样本中心点(),t y 代入可得b 的值.【详解】
令2t x =则212y bx =-即12
y bt =-,62
12366i i x t ===∑,61147663
i
i y y ====∑,因为样本中心点237,63⎛⎫ ⎪⎝⎭在回归直线12y bt =-上,所以7231362b =-,可得:1723b =,
故答案为:1723
.13.
(1)ˆ3240y x =-+.;(2)是.【解析】
【分析】
(1)先由表中的数据求出,x y ,再利用已知的数据和公式求出 ,b
a ,从而可求出y 关于x 的回归直线方程;
(2)当8x =时,求出 y 的值,再与15比较即可得结论
【详解】
(1)因为()199.51010.511105
x =++++=,()1111086585y =++++=,所以2
3925108ˆ 3.2502.5510b -⨯⨯==--⨯,得()ˆ8 3.21040a
=--⨯=,于是y 关于x 的回归直线方程为 3.240ˆy
x =-+;(2)当8x =时,ˆ 3.284014.4y
=-⨯+=,则ˆ14.4150.60.65y
y -=-=<,故可以认为所得到的回归直线方程是理想的.14.(1)具有较高的线性相关程度
(2) 6.470.8y x =+,314万人
【解析】
【分析】
(1)由已知计算相关系数r 即可.
(2)由列表计算 a
、b ,可得线性回归方程进一步可得解.(1)由表中数据可得3,90x y ==,所以5
21()10i i x x =-=∑,又55
2
11()434,()()64i i i i i y y x x y y ==-=--=∑∑,
所以()()
50.970.75i i x x y y r --=>∑,所以该电商平台直播黄金时段的天数x 与购买人数y 具有较高的线性相关程度.所以可用线性回归模型拟合人数y 与天数x 之间的关系.(2)由表中数据可得()()
()
5
152164ˆ 6.410
i i i i i x x y y b x x ==--===-∑∑,则ˆˆ90 6.4370.8a y bx =-=-⨯=,所以 6.470.8y x =+,
令38x =,可得 6.4387031ˆ.84y =⨯+=(万人)15.(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54y x =-;(3)当温度为20时这种草药的利润最大.
【解析】
【分析】
(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型d y c x
=+建立回归方程更合适;
(2)根据(1)的结论求出y 关于x 的回归方程即可;
(3)由题意写出利润函数ˆz ,利用基本不等式求得利润z 的最大值以及对应的x 值.【详解】
(1)由题意知20.9953r =-
,10.8858r =,因为121r r <<,所有用d y c x =+模型建立y 与x 的回归方程更合适.(2)因为1311322
113 2.1ˆ100.2113i i i i i t y t y
d t
t ==-⋅-==
=--∑∑,ˆˆ109.94100.16111.54c
y dt =-=+⨯=,所以ˆy 关于x 的回归方程为10
ˆ111.54y x
=-
(3)由题意知11012020(111.54ˆˆ)22
z y x x x =-=--20012230.8()2x x =-+2230.8202210.8≤-=,所以22.8ˆ10z
≤,当且仅当20x =时等号成立,所以当温度为20时这种草药的利润最大.。