2018年高考数学理二轮复习练习:专题限时集训7 回归分析、独立性检验 含答案 精品
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专题限时集训(七) 回归分析、独立性检验
(对应学生用书第91页)
(限时:40分钟)
1.(2017·石家庄一模)下列说法错误的是( )
【导学号:07804050】
A .回归直线过样本点的中心(x ,y )
B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1
C .对分类变量X 与Y ,随机变量K 2
的观测值k 越大,则判断“X 与Y 有关系”的把握程度
越小
D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^
就增加
0.2个单位
C [根据相关定义知选项A ,B ,
D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2
的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]
2.(2017·湖南名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅
下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为
C .99.5%
D .95%
D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.] 3.(2017·湖北七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告
费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):
由上表可得回归方程为y ^=10.2x +a ^
,据此模型,预测广告费为10万元时销售额约为( )
【导学号:07804051】
A .101.2万元
B .108.8万元
C .111.2万元
D .118.2万元
C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)
=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^
=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^
=10.2×10+9.2=111.2,故选C.] 4.(2017·佛山二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部
分男、女学生意愿的一份样本,制作出如图77所示的两个等高堆积条形图.
图77
根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量
B .样本中有理科意愿的学生数量多于有文科意愿的学生数量
C .样本中的男生偏爱理科
D .样本中的女生偏爱文科
D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.]
5.(2016·汕头模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数
进行比较,下列结论中正确的是( )
图78(1)
图78(2)
图78(3)
图78(4)
A .r 2<r 4<0<r 3<r 1
B .r 4<r 2<0<r 1<r 3
C .r 4<r 2<0<r 3<r 1
D .r 2<r 4<0<r 1<r 3
A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.]
6.(2017·南昌一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关
系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^
=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )
C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kg
D .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kg
D [因为回归直线方程y ^
=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]
7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )
A
B
C
D
C[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图
对应的带状区域的宽度越窄.故选C.]
8.(2017·江西南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查
一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
由K 2
=
a +b
c +
d a +c
b +d
,得K 2
=
65×35×58×42
≈9.616.
参照下表,
A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C .有99%以上的把握认为“生育意愿与城市级别有关”
D .有99%以上的把握认为“生育意愿与城市级别无关” C [K 2
≈9.616>6.635,
∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.] 二、填空题
9.(2017·汉中二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的
实验数据,计算得回归直线方程为y ^
=0.85x -0.25.由以上信息,可得表中c 的值为________.
【导学号:07804052】
6 [x =
5=5,y =5=5
,代入回归直线方程,得
14+c
5
=0.85×5-0.25,解得c =6.] 10.(2017·安徽百校联盟二模)已知x 、y 的取值为:
从散点图可知y 与x 呈线性相关关系,且回归直线方程为y ^=1.2x +a ^
,则当x =20时,y 的取值为________.
27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的
中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^
=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]
11.(2017·山西太原五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:
已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,
∴a ^
=40-(-20)×3.5=110, ∴回归直线方程为:y ^
=-20x +110,
利润L =(x -2)(-20x +110)=-20x 2
+150x -220, ∴x =150
40=3.75元时,利润最大,
故答案为3.75.]
12.(2017·哈尔滨三中二模)以模型y =c e kx
(e 为自然对数的底)去拟合一组数据时,为了求出回
归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2
[∵y =c e kx
,
∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx
=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2
.] 三、解答题
13.(2017·石家庄一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性
各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图79所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.
图79
(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?
(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2
=
n ad -bc 2a +b c +d a +c
b +d
,其中n =a +b +c +d .
K 2
=
a +b
c +
d a +c
b +d
=
20×20×28×12
≈1.905<6.635,
所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为3
5.
此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,
P (X =0)=⎝ ⎛⎭⎪⎫1-4
52⎝ ⎛⎭⎪⎫1-352
=4
625
,
P (X =1)=C 1245⎝
⎛⎭⎪⎫1-45⎝
⎛⎭
⎪⎫1-352
+⎝ ⎛⎭⎪⎫1-452
C 1235·⎝ ⎛⎭⎪⎫1-35=
44
625
, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛
⎭
⎪⎫
1-352+C 1245⎝ ⎛
⎭⎪⎫
1-45·C 123
5·⎝ ⎛
⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫
352=169
625, P (X =3)=C 1245⎝ ⎛
⎭⎪⎫1-45⎝ ⎛⎭⎪⎫
352
+⎝ ⎛⎭⎪⎫452
C 1235·⎝
⎛⎭⎪⎫
1-35=
264
625,
P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫
352=144
625
,
所以X 的分布列为
所以E (X )=0×625+1×625+2×625+3×625+4×625
=2.8.
14.(2017·湖南三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了
7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2
+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.
∑n i =1
x i -x
y i -y
∑n
i =1
x i -x 2
∑n i =1
t i -t
y i -y
∑n
i =1
t i -t 2
∑n i =1
z i -z
x i -x
∑n
i =1
x i -x 2
∑n
i =1
z i -z
t i -t
∑n
i =1
t i -t
2
其中t i =x 2
i ,t =∑i =1
t i ,z i =ln y i ,z =∑i =1
z i ,
附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^
的斜率和截
距的最小二乘估计分别为:β^=
∑n
i =1
u i -u
v i -v
∑n
i =1
u i -u
2
,α^=v -β^
u .
图710
(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).
图711
(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产
卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65
≈104.58,
e
4.85
≈127.74,e
5.05
≈156.02)
(3)若模型①、②的相关指数计算得分分别为R 2
1=0.82,R 2
2=0.96,请根据相关指数判断哪个模型的拟合效果更好.
【导学号:07804053】
[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.
图1 图2
根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2
,则y =C 1x 2
+C 2=C 1t +C 2,
其中C ^1=
∑7
i =1
t i -t
y i -y
∑7
i =1
t i -t
2
=0.43,C ^2=y -C ^
1t =80-0.43×692=-217.56,
所以y =0.43x 2
-217.56,
当x =30时,估计温度为y 1=0.43×302
-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,
其中C ^3=
∑7
i =1
z i -z
x i -x
∑7
i =1
x i -x
2
=0.32,C ^4=z -C ^
3x =3.57-0.32×26=-4.75.
所以y =e
0.32x -4.75
,
当x =30时,估计温度为y 2=e
0.32×30-4.75
=e
4.85
≈127.74.
(3)因为R 2
1<R 2
2,所以模型②的拟合效果更好.。