2020版高考数学大一轮复习 第十一章 统计、统计案例 第3讲 变量间的相关关系、统计案例分层演练 文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3讲 变量间的相关关系、统计案例
1.某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^
=-5x +150,则下列结论正确的是( )
A .y 与x 具有正的线性相关关系
B .若r 表示y 与x 之间的线性相关系数,则r =-5
C .当销售价格为10元时,销售量为100件
D .当销售价格为10元时,销售量为100件左右
解析:选D.由回归直线方程知,y 与x 具有负的线性相关关系,A 错,若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错.当销售价格为10元时,y ^
=-5×10+150=100,即销售量为100件左右,C 错,故选D.
2.(2019·湖南湘中名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为( )
P (K 2
≥k 0)
0.50
0.40
0.25
0.15
0.10
0.05 0.025 0.010 0.005 0.001
k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
C .99.5%
D .95%
解析:选D.由图表中数据可得,当k >3.841时,有95%的把握认为“X 和Y 有关系”,故选D.
3.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
解析:选B.因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.
4.(2019·湖北七市(州)联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):
广告费x 2 3 4 5 6 销售额y
29
41
50
59
71
由上表可得回归方程为y =10.2x +a ,据此模型,预测广告费为10万元时销售额约为( )
A .101.2万元 B.108.8万元 C .111.2万元
D .118.2万元
解析:选C.根据统计数据表,可得x -=15×(2+3+4+5+6)=4,y -=1
5×(29+41+50
+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),所以50=10.2×4+a ^
,解得a ^=9.2,所以回归方程为y ^=10.2x +9.2,所以当x =10时,y =10.2×10+9.2=111.2,故选C.
5.下列说法错误的是( )
A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系
B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强
C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D .在回归分析中,R 2
为0.98的模型比R 2
为0.80的模型拟合的效果好
解析:选B.根据相关关系的概念知A 正确;当r >0时,r 越大,相关性越强,当r <0
时,r 越大,相关性越弱,故B 不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好.二是R 2
越大,拟合效果越好,所以R 2
为0.98的模型比R 2
为0.80的模型拟合的效果好,C 、D 正确,故选B.
6.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^
=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:x 变为x +1,y ^
=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.
答案:0.245
7.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:
由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^
=-3.2x +40,且m +n =20,则n =________.
解析:x -=9+9.5+m +10.5+11
5=8+m 5,y =11+n +8+6+55=6+n 5,回归直线一定
经过样本中心(x -,y ),即6+n 5=-3.2⎝ ⎛⎭
⎪⎫8+m 5+40,
即3.2m +n =42.
又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩
⎪⎨⎪⎧m =10,
n =10,故n =10.
答案:10
8.已知x ,y 之间的一组数据如下表:
对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =85x -25;④y =3
4x .
其中正确的是________.
解析:由数据可知x -=2+3+4+5+65=4,y -=3+4+6+8+9
5=6.那么拟合直线必过
点(4,6),经验证可知,满足该点的方程为③.
答案:③
9.某公司的广告费支出x (单位:万元)与销售额y (单位:万元)之间有下列对应数据:
x 2 4 5 6 8 y
30
40
60
50
70
(1) (2)根据表中提供的数据,求出y 与x 的回归方程y ^=b ^x +a ^; (3)预测销售额为115万元时,大约需要多少万元广告费. 解:(1)散点图如图.
由图可判断:广告费与销售额具有相关关系.
(2)x -=15×(2+4+5+6+8)=5,y -=1
5
×(30+40+60+50+70)=50,
∑5
i =1x i y i =2×30+4×40+5×60+6×50+8×70=1 380,
∑5
i =1
x 2
i =22
+42
+52
+62
+82
=145, b ^
=∑5
i =1x i y i -5x -y -
∑5i =1
x 2
i -5x -2=1 380-5×5×50145-5×52
=6.5, a ^
=y --b ^x -
=50-6.5×5=17.5.
所以线性回归方程为y ^
=6.5x +17.5.
(3)由题得y =115时,6.5x +17.5=115,得x =15. 故预测销售额为115万元时,大约需要15万元的广告费.
10.(2019·郑州第一次质量预测)近年来郑州空气污染较为严重,现随机抽取一年(365天)内100天的空气中PM2.5指数的检测数据,统计结果如下:
PM2.5 指数 [0,50] (50,100] (100,150]
(150,200]
(200,250]
(250,300] >300 空气
优
良
轻微污染 轻度污染 中度污染
中度重
重度污染
质量 污染 天数
4
13
18
30
9
11
15
[0,100]内时对企业没有造成经济损失;当x 在区间(100,300]内时对企业造成的经济损失成直线模型(当PM2.5指数为150时造成的经济损失为500元,当PM2.5指数为200时,造成的经济损失为700元);当PM2.5指数大于300时造成的经济损失为2 000元.
(1)试写出S (x )的表达式;
(2)试估计在本年内随机抽取一天,该天经济损失S 大于500元且不超过900元的概率; (3)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面列联表,并判断是否有95%的把握认为郑州市本年度空气重度污染与供暖有关?
非重度污染
重度污染
合计 供暖季 非供暖季
合计
100
附:
P (K 2≥k 0)
0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
K 2
=2(a +b )(c +d )(a +c )(b +d )
,其中n =a +b +c +d .
解:(1)依题意,可得S (x )=⎩⎪⎨⎪
⎧0,x ∈[0,100]4x -100,x ∈(100,300].2 000,x ∈(300,+∞)
(2)设“在本年内随机抽取一天,该天经济损失S 大于500元且不超过900元”为事件
A ,
由500<S ≤900,得150<x ≤250,频数为39,P (A )=39
100.
(3)根据题中数据得到如下2×2列联表:
非重度污染
重度污染
合计 供暖季 22 8 30 非供暖季 63 7 70 合计
85
15
100
K 2
的观测值k =2
85×15×30×70≈4.575>3.841,
所以有95%的把握认为空气重度污染与供暖有关.
1.甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差的平方和m 如下表:
) A .甲 B.乙 C .丙
D .丁
解析:选D.相关系数r 越接近于1和残差平方和m 越小,两变量A ,B 的线性相关性越强.故选D.
2.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^
=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A .66% B.67% C .79%
D .84%
解析:选D.因为y 与x 具有线性相关关系,满足回归方程y ^
=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y ^
=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为
4.2
5
=84%. 3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:选A.由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2
的观测值k =
100×(675-300)
2
55×45×75×25
≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市
居民能否做到‘光盘’与性别有关”.
4.(2019·湖南湘东五校联考)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据: 日期 1月 10日 2月 10日 3月 10日 4月 10日 5月 10日 6月 10日 昼夜温 差x/℃ 10
11
13
12
8
6
就诊人 数y /个
22 25 29 26 16 12
该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
参考公式:
参考数据:11×25+13×29+12×26+8×16=1 092, 112
+132
+122
+82
=498.
解:(1)设选到相邻两个月的数据为事件A .因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P (A )=515=13
. (2)由表中
2
月份至
5
月份的数据可得x -=11,y -
=24,
,所以b ^
=
=18
7,则a ^=y --b ^x -
=
-307,
所以y 关于x 的线性回归方程为y ^=187x -30
7.
(3)当x =10时,y ^=1507,⎪⎪⎪⎪⎪⎪1507-22<2;
当x =6时,y ^=787,⎪⎪⎪⎪⎪⎪787-12<2. 所以,该小组所得线性回归方程是理想的.。