2020版高考数学一轮复习课时作业61变量间的相关关系、统计案例(理)(含解析)新人教版

合集下载

2020届高考数学理一轮考点测试变量间的相关关系与统计案例

2020届高考数学理一轮考点测试变量间的相关关系与统计案例

z= ln c+ kx.因为 z= 0. 3x+4,所以 ln c= 4,所以 c= e4.
二、高考小题
7.(2017 ·山东高考 ) 为了研究某班学生的脚长 x( 单位:厘米 ) 和身高 y( 单位:厘米 ) 的关系,从该班随机抽
取 10 名学生,根据测量数据的散点图可以看出
y 与 x 之间有线性相关关系.设其回归直线方程为
i=1
10i =1
10
1 10
∵ yi = 1600,∴
i=1
y

10
i

yi
1

160

又b^= 4,∴ a^= y - b^ x = 160-4×22. 5= 70.
∴回归直线方程为 y^= 4x+ 70. 将 x= 24 代入上式得 y^=4×24+ 70= 166. 故选 C. 8.(2017 ·全国卷Ⅲ ) 某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2016 年 12 月期间月接待游客量 ( 单位:万人 ) 的数据,绘制了下面的折线图.
2014 年 1 月至
根据该折线图,下列结论错误的是 (
)
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在 7, 8 月
D.各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳
答案 A
解析 对于选项 A,由图易知月接待游客量每年 7, 8 月份明显高于 12 月份,故 A 错;对于选项 B,观察折线
A, B 两变量有更强的线性相关性.故选 D.
4.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有

2020高考数学总复习课时作业:变量间的相关性与统计案例 含解析

2020高考数学总复习课时作业:变量间的相关性与统计案例 含解析
x
3
4
5
6
y
2.5
3
4
4.5
A.0.25B.0.35
C.0.45D.0.55
解析:B[由题设有 =4.5, =3.5,故3.5=0.7×4.5+ ,解得 =0.35,故选B.]
3.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
50
60
70
根据上表可得回归方程 = x+ ,计算得 =7,则当投入10万元广告费时,销售额的预报值为()
附:K2= ,其中n=a+b+c+d.
P(K2≥k0)
0.050
0.025
0.010
0.001
k0
3.841
5.024
6.635
10.828
解:(1)补充2×2列联表如下:
在家里感到最幸福
在其他场所感到最幸福
合计
中国高中生
22

55
美国高中生
9
36
45
合计
31
69
100
∵K2= = ≈4.628>3.841,
∴有95%的把握认为是否“恋家”与国别有关.
(2)用分层抽样的方法选出4人,其中在“朋友聚集的地方”感到最幸福的有3人,分别记为a1,a2,a3,在“个人空间”感到最幸福的有1人,记为b,则所有的基本事件为(a1,a2),(a1,a3),(a1,b),(a2,a3),(a2,b),(a3,b),共6个.
天数x(天)
3
4
5
6
7
繁殖个数y(千个)
2

2020年高考数学一轮复习课时分层训练61变量间的相关关系与统计案例理北师大版_4211.doc

2020年高考数学一轮复习课时分层训练61变量间的相关关系与统计案例理北师大版_4211.doc

课时分层训练(六十一) 变量间的相关关系与统计案例A 组 基础达标一、选择题1.如图9­4­2对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2).由这两个散点图可以判断( )(1) (2)图9­4­2A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关C [由题图(1)可知y 随x 的增大而减小,各点整体呈下降趋势,故变量x 与y 负相关,由题图(2)知v 随u 的增大而增大,各点整体呈上升趋势,故变量v 与u 正相关.] 2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y =2.347x -6.423; ②y 与x 负相关且y =-3.476x +5.648; ③y 与x 正相关且y =5.437x +8.493; ④y 与x 正相关且y =-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④D [由回归直线方程y =bx +a ,知当b >0时,y 与x 正相关;当b <0时,y 与x 负相关.所以①④一定错误.故选D.]3.(2018·石家庄一模)下列说法错误的是( )A .回归直线过样本点的中心(x -,y -)B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量χ2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y =0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y平均增加0.2个单位C [根据相关定义分析知A ,B ,D 正确;C 中对分类变量X 与Y 的随机变量χ2的观测值k 来说,k 越大,判断“X 与Y 有关系”的把握程度越大,故C 错误,故选C.] 4.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y =bx +a .已知∑10i =1x i =225,∑10i =1y i =1 600,b =4.该班某学生的脚长为24,据此估计其身高为( )【导学号:79140334】A .160B .163C .166D .170C [∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵v y i =1 600,∴y =110∑10i =1y i =160.又b =4,∴a =y -b x =160-4×22.5=70. ∴回归直线方程为y =4x +70.将x =24代入上式得y =4×24+70=166. 故选C.]5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由χ2=n (ad (a +b )(c +d )(a +c )(b +d ),算得χ2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”C[根据独立性检验的定义,由χ2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.]二、填空题6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为68[由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,即a=68.]7.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.①[χ2=3.918≥3.841,而P(χ2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.]8.(2017·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:℃时,用电量为________度.68[根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40,因为回归直线过样本点的中心,所以a=40-(-2)×10=60,所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量为68度.]三、解答题9.(2018·合肥二检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.【导学号:79140335】(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:χ2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为180=12.(2)根据统计数据,可得2×2列联表如下:则χ2=105×75×90×90=7≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.10.(2016·全国卷Ⅲ)如图9­4­3是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.图9­4­3注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1(t i -t )2∑n i =1(y i -y )2,回归方程y =a +bt 中斜率和截距的最小二乘估计公式分别为b =∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a =y --b t . [解] (1)由折线图中的数据和附注中的参考数据得t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=0.55,∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,r ≈2.892×2.646×0.55≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b =∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2.8928≈0.103, a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y =0.92+0.10t .将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.B 组 能力提升11.下列说法错误的是( )A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫作相关关系B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好B [根据相关关系的概念知A 正确;当r >0时,r 越大,相关性越强,当r <0时,r 越大,相关性越弱,故B 不正确;对于一组数据拟合程度好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好;二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R 2为0.80的模型拟合的效果好,C ,D 正确,故选B.]12.2017年9月18日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:-3.2x +40,且m +n =20,则其中的n =________.【导学号:79140336】10 [x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.]13.(2018·东北三省三校二联)下表数据为某地区某种农产品的年产量x (单位:吨)及对应销售价格y (单位:千元/吨).(1)若y 与x 用最小二乘法求出y 关于x 的线性回归方程y =bx +a ;(2)若每吨该农产品的成本为13.1千元,假设该农产品可全部卖出,预测当年产量为多少吨时,年利润Z 最大?参考公式:⎩⎪⎨⎪⎧b =∑ni =1x i y i -n x -y-∑ni =1x 2i-n x -2=∑ni =1(x i -x )(y i -y -)∑ni =1(x i -x )2,a =y --b x -.[解] (1)∵x =1+2+3+4+55=3,y -=70+65+55+38+225=50,∑5i =1x i y i =1×70+2×65+3×55+4×38+5×22=627,∑5i =1x 2i =1+4+9+16+25=55,根据公式解得b =-12.3,a =50+12.3×3=86.9,∴y =-12.3x +86.9.(2)∵年利润Z =x (86.9-12.3x )-13.1x =-12.3x 2+73.8x =-12.3(x -3)2+110.7, ∴当x =3时,年利润Z 最大.。

2020高三数学一轮复习(人教版文):变量间的相关关系、统计案例

2020高三数学一轮复习(人教版文):变量间的相关关系、统计案例

第四节 变量间的相关关系、统计案例2019考纲考题考情-基础嵐梳理-知识泌固HI 耳 .1. 两个变量的线性相关 ⑴正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。

(2) 负相关在散点图中,点散布在从左上角到右下角的区域, 对于两个 变量的这种相关关系,我们将它称为负相关。

(3) 线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系, 这条直线叫做回归直 线。

2. 回归方程 (1)最小二乘法使得样本数据的点到回归直线的距离的平方和最小的方法 叫做最小二乘法。

(2 )回归方程箱姻屢求考麵举例 考甸标筈】.蛊ft 两严柏芷世2的右耳的社点帀*佥利习机2. TK 最小二韋燻的思锻.能祖据矫出的域性画归方程第竝卷式审立戏性冋P”方性 -「解独r 宦性寰•貝丢求匸乂匸列睚苦[的菇卞 誓慫.方卷比耳罰甲宜曲L 了胖冋归歼祈冊耳*巴世,方■沱.堆試哥单陀叩和]8 -辛园卷H - T ]d cit 性円iti 井怖> 加帖*辛向卷可* T j 和订怜粹鬻:, !017 ■全国卷【-T…t tfl 美性检廉, ±017・全回瓏n ・TH 独立性检監》詹粗如芟11.鑫线畔叵归分和3.独立性桂特檢心載希1熬揮分斷、披学远算教倂:扣基护口底微知识'小题练方程=x+是两个具有线性相关关系的变量的一组数据(X i,y i ),(X 2, y 2),…,(X n , y n )的回归方程,其中,是待定参数n__n -----刀(x — xx y i — y)刀 X i y i — nx y b =i 1a = y —b x 。

3. 回归分析(1) 定义:对具有相关关系的两个变量进行统计分析的一种常 用方法。

(2) 样本点的中心对于一组具有线性相关关系的数据 (X 1, y”, (x 2, 丫2),…, (x n , y n )中(X , y)称为样本点的中心。

2020版高考理科数学(人教版)一轮复习课件:第十一章 第四节 变量间的相关关系、统计案例

2020版高考理科数学(人教版)一轮复习课件:第十一章 第四节 变量间的相关关系、统计案例

[30.06,30.10) 62
[30.10,30.1 4]
18
甲厂 优质品 非优质品
总计
乙厂
总计
优质品 非优质品
总计
甲厂 360 140 500
乙厂 320 180 500
总计 680 320 1 000
P(K2≥k0) k0
P(K2≥k0) k0
0.50 0.40 0.25 0.15 0.455 0.708 1.323 2.072
y2
a
21
22
25
b
46
总计
73 47 120
x
01Biblioteka 34y2.2
4.3
4.8
6.7
考点——在细解中明规律
题目千变总有根,梳干理枝究其本
周光照量X/小时 30<X<50 50≤X≤70 X>70
光照控制仪运行台数
3
2
1
分组 [29.86,29.90) [29.90,29.94) [29.94,29.98) [29.98,30.02)
频数
12
63
86
182
分组 频数
[30.02,30.06) 92
[30.06,30.10) 61
[30.10,30.1 4]
4
分组 [29.86,29.90)
频数
29
[29.90,29.94) 71
[29.94,29.98) 85
[29.98,30.02) 159
分组 频数
[30.02,30.06) 76
目录
基础——在批注中理解透
单纯识记无意义,深刻理解提能力
课时跟踪检测
考点——在细解中明规律

2020届高考数学一轮复习人教A版变量间的相关关系与统计案例课时作业Word版含答案

2020届高考数学一轮复习人教A版变量间的相关关系与统计案例课时作业Word版含答案

一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2<r4<0<r3<r1,故选A.答案 A2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R2来刻画回归的效果,R2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是()A.①②B.②③C.①③D.①②③答案 D3.在一次对性别与说谎是否相关的调查中,得到如下数据:根据表中数据,得到如下结论正确的一项是()A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有99%的把握认为是否说谎与性别有关C.在此次调查中有99.5%的把握认为是否说谎与性别有关D.在此调查中没有充分的证据显示说谎与性别有关解析 由已知得k =30×(6×9-7×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关. 答案 D4.(2019·衡水中学调研)已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误..的是( )A.变量x ,y 之间呈负相关关系B.可以预测,当x =20时,y ^=-3.7 C.m =4D.该回归直线必过点(9,4)解析 由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x -=14×(6+8+10+12)=9,y -=14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C 错;由m =5,得y -=6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C. 答案 C5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.有95%以上的把握认为“爱好该项运动与性别有关”D.有95%以上的把握认为“爱好该项运动与性别无关”解析 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们有99%的把握认为“爱好该项运动与性别有关”. 答案 A 二、填空题6.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y ^=b ^x +a ^中的b ^=-2,预测当气温为-4 ℃时,用电量约为________度.解析 根据题意知x -=18+13+10+(-1)4=10,y -=24+34+38+644=40.所以a ^=40-(-2)×10=60,y ^=-2x +60.所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度. 答案 687.(2019·济南调研)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________. 附表:解析 由列联表计算K 2的观测值k =50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025. 答案 0.0258.(2019·广东深中、华附、省实、广雅四校联考)如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y ^=b ^x +1,则b ^=________.解析 由题图知x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y ^=b ^x +1中,解得b ^=0.8. 答案 0.8 三、解答题9.(2019·天津河西区调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6.(2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”. 10.调查某公司的五名推销员,其工作年限与年推销金额如下表:(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程; (3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.附:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2,a ^=y --b ^x -. 解 (1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此, 工作年限与年推销金额正相关,即工作年限越长,年推销金额越大. (2)由表中数据可得:x -=15×(2+3+5+7+8)=5, y -=15×(3+3.5+4+6.5+8)=5,b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=(-3)×(-2)+(-2)×(-1.5)+0+2×1.5+3×39+4+0+4+9=2126,a ^=y --b ^x -=5-2126×5=2526,∴年推销金额关于工作年限的回归直线方程为 y ^=2126x +2526.(3)当x =10时,y ^=2126×10+2526=23526,∴预测工作年限为10年的推销员的年推销金额为23526万元.能力提升题组 (建议用时:20分钟)11.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A.若K 2的观测值为k =6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D.以上三种说法都不正确解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C.答案 C12.(2019·承德期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是()A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D.答案 D13.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x -=9+9.5+m +10.5+115=8+m5,y -=11+n +8+6+55=6+n5.回归直线一定经过样本中心(x -,y -), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1014.(2019·山东、湖北部分重点中学模拟)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加有n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =C 1·2C 2x ,其中C 1,C 2为常数.(2013年至2019年该市中学生人数大致保持不变)其中k i =log 2 y i ,k -=15∑i =1k i .(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程v ^=β^u +α^的斜率和截距的最小二乘估计分别为β^=∑n i =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -.②解 (1)因为x -=15×(13+14+15+16+17)=15,所以∑i =1(x i -x -)2=(-2)2+(-1)2+02+12+22=10.由k =log 2 y 得k =log 2 C 1+C 2x ,所以C 2=∑5i =1(x i -x -)(k i -k -)∑5i =1(x i -x -)2=110, log 2 C 1=k --C 2x -=1.2-110×15=-0.3,所以C 1=2-0.3=0.8, 所以y =0.8×2x10.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元). 即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=14 000人,一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长0.8×21.8-0.8×21.70.8×21.7=20.1-1=0.1=10%,所以2018年该市特别困难的中学生有2 800×(1-10%)=2 520人.很困难的的学生有4 200×(1-20%)+2 800×10%=3 640人,一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).。

2020版高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例教学案含解析理

2020版高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例教学案含解析理

第三节 变量间的相关关系、统计案例[考纲传真] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=–y -b ^–x .(3)通过求Q = (y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(5)相关指数:R 2=1-.其中(y i -y ^i )2是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y 1 y 2 总计x 1 a b a +b x 2cdc +d总计 a +c b +d a +b +c +dK 2=n ad bc 2a +ba +cb +dc +d(其中n =a +b +c +d ).[常用结论]1.从散点图观察相关性;(1)正相关:样本点分布在从左下角到右上角的区域; (2)负相关:样本点分布在从左上角到右下角的区域 2.b ^的几何意义:体现平均增加或平均减少.3.线性回归方程y ^=b ^x +a ^一定过样本点的中心(–x ,–y ). 4.由回归直线求出的数据是估算值,不是精确值.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)只有两个变量有相关关系,所得到的回归模型才有预测价值. ( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( )(4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )[答案] (1)× (2)√ (3)√ (4)×2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率C [“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.]3.(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数–x =3,–y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5) 在回归直线上,排除B ,选项A 满足.]4.下面是2×2列联表:则表中a ,b 的值分别为( )y 1 y 2 合计 x 1 a 21 73x 222 2547合计 b 46 120A.94,72 C .52,74D .74,52C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:P (K 2≥k 0) 0.100 0.050 0.025 0.010 0.001k 02.7063.841 5.024 6.635 10.828C .99%D .99.9%C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]相关关系的判断1.已知变量x 和y ( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关C [因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.]2.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85 m 106 115 124 103则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙C .丙D .丁D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性.]3.(2019·泰安月考)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.][规律方法] 判定两个变量正、负相关性的方法1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.2相关系数:r >0时,正相关;r <0时,负相关. 3线性回归方程中:时,正相关;时,负相关.线性回归分析及应用【例1】 y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.[规律方法] 线性回归分析问题的类型及解题方法 1求线性回归方程: ①利用公式,求出回归系数②待定系数法:利用回归直线过样本点中心求系数.2利用回归方程进行预测:,把回归直线方程看作一次函数,求函数值. 3利用回归直线判断正、负相关:,决定正相关还是负相关的是系数(2018·临沂期末)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:超市A B C D E F G广告费支出x i 1 246 11 13 19销售额y i19 32 40 44 52 53 54(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据:–x =8,–y =42,=2 794,=708.参考公式:b ^=,a ^=–y -b ^–x .[解] (1)b ^==2 794-7×8×42708-7×82=1.7, ∴a ^=–y -b ^–x =28.4,故y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)∵0.75<0.93,∴二次函数回归模型更合适. 当x =3时,y ^=33.5.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.5万元.独立性检验及应用【例2】 比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:k g),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 k g”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 k g箱产量≥50 k g旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.z附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828,K2=n ad-bc2a+b c+d a+c b+d.[解](1)旧养殖法的箱产量低于50 k g的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50 k g箱产量≥50 k g旧养殖法6238新养殖法3466K2的观测值k=2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 k g 到55 k g 之间,旧养殖法的箱产量平均值(或中位数)在45 k g 到50 k g 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[规律方法] 独立性检验的一般步骤 1根据样本数据制成2×2列联表; 2根据公式计算K 2的观测值k 的值;3查表比较K 2的观测值k 与临界值的大小关系,作统计判断.(2019·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?选择自然科学类 选择社会科学类 合计男生 女生 合计附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .P (K 2≥k 0)0.500 0.400 0.250 0.150 0.100 0.050 0.025 0.010 0.005 0.001 k 00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为180=12.(2)根据统计数据,可得2×2列联表如下:选择自然科学类 选择社会科学类 合计男生 60 45 105 女生 30 45 75 合计9090 180则K 2的观测值为k =2105×75×90×90=7≈5.142 9>5.024, 所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828[解](1)理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.) (2)由茎叶图知m =79+812=80.列联表如下:超过m 不超过m 第一种生产方式 15 5 第二种生产方式515(3)由于K 2的观测值k =20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.自我感悟:______________________________________________________ ________________________________________________________________ ________________________________________________________________。

2020版高考数学一轮复习第9章算法初步、统计与统计案例第4节变量间的相关关系、统计案例课件文北师大版

2020版高考数学一轮复习第9章算法初步、统计与统计案例第4节变量间的相关关系、统计案例课件文北师大版

没有必要进行相关性检验.
()
(4)若事件 A,B 关系越密切,则由观测数据计算得到的 χ2 的值
越小. [答案] (1)√ (2)× (3)× (4)×
()
答案
2.(教材改编)为调查中学生近视情况,测得某校男生 150 名中有
80 名近视,在 140 名女生中有 70 名近视.在检验这些学生眼睛近视
(2016·全国卷Ⅲ)如图是我国 2008 年至 2014 年生活 垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码 1~7 分别对应年份 2008~2014
(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相
关系数加以说明;
(2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我
解析答案
2.(2019·广州模拟)根据下面给出的 2004 年至 2013 年我国二氧 化硫排放量(单位:万吨)的条形统计图. 以下结论不正确的是( )
A.逐年比较,2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关
参考公式:线性相关系数 r=
n
∑ xi- x yi- y
i=1
n
n
∑ xi- x 2 ∑ yi- y 2
i=1
i=1
A.r2<r1<0
B.0<r2<r1
C.r2<0<r1
D.r1=r2
解析答案
C [由己知中的数据可知: 第一组数据正相关,则相关系数大于零, 第二组数据负相关,则相关系数小于零,故选 C.]
(3)当 χ2>3.841 时,有 95% 的把握判定变量 A,B 有关联;

2020版高考数学一轮复习第9章统计与统计案例第3讲变量间的相关关系与统计案例理解析版

2020版高考数学一轮复习第9章统计与统计案例第3讲变量间的相关关系与统计案例理解析版

第3讲变量间的相关关系与统计案例[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2020年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回归方程(1)相关关系的分类02右上角的区域内,如图1;①正相关:从散点图上看,点散布在从□01左下角到□04右下角的区域内,如图2.②负相关:从散点图上看,点散布在从□03左上角到□(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□05一条直线附近,06回归直线.则称这两个变量之间具有线性相关关系,这条直线叫做□(3)回归方程①最小二乘法:使得样本数据的点到回归直线的□07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1nx i -xy i-y∑i =1nx i -x2=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的□08斜率,a ^是在y 轴上的□09截距,x -=1n ∑n i =1x i ,y -=1n ∑n i =1y i ,□10(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =∑i =1nx i -x y i -y∑i =1nx i -x2∑i =1ny i -y2,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量□11正相关; ②当r<0时,表明两个变量□12负相关; ③r 的绝对值越接近1,表明两个变量的线性相关性□13越强;r 的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的□01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□02频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=□03n ad -bc2a +bc +d a +cb +d,其中n =□04a +b +c +d 为样本容量.(3)独立性检验利用随机变量□05K 2来判断“两个分类变量□06有关系”的方法称为独立性检验.1.概念辨析(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (2)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)√ (2)√ (3)√ (4)×2.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位 答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.故选B .(2)在下列各图中,两个变量具有相关关系的图是( )A .①② B.①③ C.②④ D.②③ 答案 D解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性. (3)下面是一个2×2列联表则表中a ,b 处的值分别为________. 答案 52,54解析 因为a +21=73,所以a =52.又因为a +2=b ,所以b =54.(4)已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^=0.95x +a ^,则a ^=________.答案 2.6解析 ∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.题型 一 相关关系的判断1.下列两变量中不存在相关关系的是( )①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A .①②⑤B .①③⑥C .④⑤⑥D .②⑥ 答案 A解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A .判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.见举例说明3.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 所有点均在直线上,则样本相关系数最大即为1,故选D .2.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y 是负相关关系;②在该相关关系中,若用y =c 1e c2x 拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22;③x,y 之间不能建立线性回归方程. 答案 ①②解析 ①显然正确;散点图趋向于曲线而非直线,所以用y =c 1e c2x 拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确.题型 二 回归分析角度1 线性回归方程及应用1.(2018·福州四校联考)某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x/年 1 2 3 4 5维修总费用y/万元0.5 1.2 2.2 3.3 4.5 根据上表可得y关于x的线性回归方程y^=b^x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( ) A.8年 B.9年 C.10年 D.11年答案 D解析由y关于x的线性回归直线y^=b^x-0.69过样本点的中心(3,2.34),得b^=1.01,即线性回归方程为y^=1.01x-0.69,由y^=1.01x-0.69=10得x≈10.6,所以预测该汽车最多可使用11年.故选D.2.某兴趣小组欲研究昼夜温差与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程y^=b^x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式:b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x2,a^=y-b^x.参考数据:11×25+13×29+12×26+8×16=1092,112+132+122+82=498.解(1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)=515=13.(2)由表中2月份至5月份的数据可得x =11,y=24,∑4i=1x i y i=1092,∑i=14x2i=498,所以b^=∑i=14x i y i-4x-y-∑i=1nx2i-4x2=187,则a^=y-b^x=-307,所以y 关于x的线性回归方程为y^=187x-307.(3)当x=10时,y^=1507,⎪⎪⎪⎪⎪⎪1507-22=47<2;当x=6时,y^=787,⎪⎪⎪⎪⎪⎪787-12=67<2.所以,该小组所得线性回归方程是理想的.角度2 非线性回归模型的应用3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x.根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1w i -wy i -y∑8i =1w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x.(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x)-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.2.非线性回归方程的求法(1)根据原始数据(x ,y)作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.1.据某市地产数据研究显示,2018年该市新建住宅销售均价走势如图所示,3月至7月房价上涨过快,为抑制房价过快上涨,政府从8月开始采用宏观调控措施,10月份开始房价得到很好的控制.(1)地产数据研究发现,3月至7月的各月均价y(万元/平方米)与月份x 之间具有较强的线性相关关系,试建立y 关于x 的回归方程;(2)若政府不调控,依此相关关系预测12月份该市新建住宅销售均价.参考数据及公式:∑5i =1x i =25,∑5i =1y i =5.36,∑5i =1(x i -x )(y i -y )=0.64,回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 x i -x y i -y ∑ni =1 x i -x 2,a ^=y -b^x .解 (1)x =255=5,y =5.365=1.072,∑5i =1 (x i -x )2=10,所以b ^=0.6410=0.064,a ^=y -b ^x =1.072-0.064×5=0.752.所以从3月份至7月份y 关于x 的线性回归方程为y ^=0.064x +0.752.(2)将x =12代入回归方程得y ^=0.064×12+0.752=1.52, 所以预测12月份该市新建住宅的销售均价为1.52万元/平方米.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx +a ,②y=c e dx拟合,得到回归方程分别为y ^(1)=0.24x -8.81,y ^(2)=1.70e 0.022x,作残差分析,如下表:(1)求表中空格内的值;(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1x i -xy i -y∑ni =1x i -x2,a ^=y -b ^x .解 (1)根据残差分析,把x =80代入y ^(1)=0.24x -8.81中,得y ^(1)=10.39. ∵10-10.39=-0.39, ∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62, 模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7. ∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg 的样本点被剔除后,剩余的数据如下表:由公式b ^=∑ni =1x i -xy i -y∑n i =1x i -x2,a ^=y -b ^x ,得回归方程为y ^=0.24x -8.76. 题型 三 独立性检验1.假设有两个分类变量X 和Y 的2×2列联表如下:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为( ) A .a =45,c =15 B .a =40,c =20 C .a =35,c =25 D .a =30,c =30 答案 A解析 根据2×2列联表与独立性检验可知,当a a +10与cc +30相差越大时,X 与Y 有关系的可能性越大,即a ,c 相差越大,a a +10与cc +30相差越大.故选A. 2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n ad -bc 2a +bc +d a +cb +d,解 (1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可.) (2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2的观测值k =40×15×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.1.(2018·河南洛阳模拟)学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:根据表中数据,通过计算统计量K 2=n ad -bc 2a +bc +d a +cb +d,并参考以下临界数据:若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过( )A .0.10B .0.05C .0.025D .0.01 答案 A解析 由题意可得K 2=100×30×10-15×45245×55×75×25≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.2.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.(1)求抽取的90名同学中的男生人数;(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解 (1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.(2)2×2列联表如下:由K 2=n ad -bc 2a +bc +d a +cb +d,代入数据得K 2=90×25×10-25×30250×40×55×35=45077≈5.844>5.024. 所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.。

2020版高考数学一轮复习教案- 第9章 第4节 变量间的相关关系、统计案例

2020版高考数学一轮复习教案- 第9章 第4节 变量间的相关关系、统计案例

第四节 变量间的相关关系、统计案例[考纲传真] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=.(3)通过求Q = (y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(5)相关指数:R 2=1-.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad (a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d ).[常用结论]1.从散点图观察相关性;(1)正相关:样本点分布在从左下角到右上角的区域; (2)负相关:样本点分布在从左上角到右下角的区域. 2.b ^的几何意义:体现平均增加或平均减少.3.线性回归方程y ^=b ^x +a ^一定过样本点的中心(—x ,—y ). 4.由回归直线求出的数据是估算值,不是精确值.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系, 也是一种因果关系.( )(2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )[答案] (1)× (2)√ (3)√ (4)×2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率C [“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.] 3.(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数—x =3,—y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5) 在回归直线上,排除B ,选项A 满足.]4.下面是2×2列联表:则表中a ,b 的值分别为( )A.94,72 C .52,74D .74,52C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A.0.1% C .99%D .99.9%C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]相关关系的判断1中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关C [因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.]2.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:( ) A .甲 B .乙 C .丙 D .丁D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性.]3.(2019·泰安月考)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.]时,正相关;线性回归分析及应用【例1】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.利用公式,求出回归系数决定正相关还是负相关的是系数i 售额y i (万元)数据如下表:(1) (2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据:.参考公式:[解] (1)=2 794-7×8×42708-7×82=1.7,故y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)∵0.75<0.93,∴二次函数回归模型更合适. 当x =3时,y ^=33.5.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.5万元.独立性检验及应用养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828,K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解](1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表≈15.705.K2的观测值k=100×100×96×104由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.的观测值k与临界值的大小关系,作统计判断学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K2=,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)[解](1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712.(2)根据统计数据,可得2×2列联表如下:则K2的观测值为k=105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:(3)根据(2)异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),[解](1)理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2的观测值k=20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.。

2020高考数学理科大一轮复习导学案《变量的相关关系》含答案

2020高考数学理科大一轮复习导学案《变量的相关关系》含答案

第四节变量间的相关关系、统计案例知识点一两个变量的相关关系1.相关关系的分类(1)正相关:从散点图上看,点散布在从左下角到右上角的区域内;(2)负相关:从散点图上看,点散布在从左上角到右下角的区域内.2.线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.1.观察下列各图形,其中两个变量x,y具有相关关系的图是(C)A.①②B.①④C.③④D.②③解析:由散点图知③④具有相关关系.2.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是(D)A.①②③B.②③①C.②①③D.①③②解析:第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.知识点二 回归分析 1.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^ x ,其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.2.样本相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,用它来衡量两个变量间的线性相关关系的强弱.(1)当r >0时,表明两个变量正相关; (2)当r <0时,表明两个变量负相关;(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是(A)A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:由相关系数的定义以及散点图所表达的含义可知r2<r4<0<r3<r1.4.(2019·福州四校联考)某汽车的使用年数x与所支出的维修总费用y 的统计数据如表:使用年数x/年1234 5维修总费用y /万元 0.5 1.2 2.2 3.3 4.5根据上表可得y 关于x 的线性回归方程y ^=b ^x -0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( D )A .8年B .9年C .10年D .11年解析:由y 关于x 的线性回归直线y ^=b ^x -0.69过样本点的中心(3,2.34),得b ^=1.01,即线性回归方程为y ^=1.01x -0.69,由y ^=1.01x -0.69=10得x ≈10.6,所以预测该汽车最多可使用11年,故选D.知识点三 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类型,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2cdc +d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量),则利用独立性检验判断表来判断“X与Y的关系”.5.在性别与吃零食这两个分类变量的计算中,下列说法正确的是③.①若K2的观测值为k=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.解析:由独立性检验的基本思想可得,只有③正确.1.函数关系与相关关系的区别与联系(1)区别:①函数关系是一种确定性关系,相关关系是一种非确定性关系.②函数关系是一种因果关系,相关关系不一定是因果关系,也可能是伴随关系.(2)联系:对线性相关关系求回归方程后,可以通过确定的函数关系对两个变量间的取值进行估计.2.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).3.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.4.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.考向一 相关关系的判断【例1】 (1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22;③x 、y 之间不能建立线性回归方程.【解析】 (1)所有点均在直线上,则样本相关系数最大即为1.故选D.(2)①显然正确;由散点图知,用y =c 1e c 2x 拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确.【答案】 (1)D (2)①②判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是(C)A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r 0.820.780.690.85m 106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性(D) A.甲B.乙C.丙D.丁解析:(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.考向二 线性回归分析【例2】 (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.【解】 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,答出其中任意一种或其他合理理由均可.(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.为探究车流量与PM2.5浓度是否相关,现对北方某城市中心车流量最大的地区进行检测,采集到12月某天7个不同时段车流量与PM2.5浓度的数据如下表:车流量x(万辆/小时) 12 3 4 5 6 7PM2.5浓度y(微克/立方米)30 36 38 40 42 4450(1)根据上表中的数据,用最小二乘法求出y 关于x 的线性回归方程. (2)规定:当PM2.5浓度平均值在(0,50]内时,空气质量等级为优;当PM2.5浓度平均值在(50,100]内时,空气质量等级为良.为使该城市空气质量为优和良,利用(1)中回归方程,预测要将车流量控制在每小时多少万辆以内(结果以万辆作为单位,保留整数).解:(1)∵x =4,y =40,∑i =17x i y i =1 200,∑i =17x 2i =140,∴b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2=207,∴a ^=y -b ^x =2007,故y 关于x 的线性回归方程是y ^=207x +2007. (2)由题意需满足207x +2007≤100,即x ≤25,故预测要将车流量控制在每小时25万辆以内. 考向三 独立性检验【例3】 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),【解】(1)第二种生产方式的效率更高.理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.以上给出了4种理由,答出其中任意一种或其他合理理由均可.(2)由茎叶图知m=79+812=80.列联表如下:超过m 不超过m第一种生产方式15 5 第二种生产方式515(3)由于K2=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算随机变量K2的观测值k,k越大,说明“两个变量有关系”的可能性越大.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析能否在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”?附:P (K 2≥k 0)0.100.05 0.010 0.005k 22.7063.841 6.635 7.879K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解:(1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=1,2b =a +c , 解得b =0.01.因为成绩在[90,100]内的有6人,所以n=60.01×10=60.(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x人,则男生有x-4人,于是x+x-4=48,解得x=26,故及格的人中,女生有26人,男生有22人.于是本次测试的及格情况与性别的2×2列联表如下:及格不及格总计男22830女26430总计481260所以K2=60×(22×4-8×26)230×30×48×12=1.667<2.706,故不能在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”.。

2020版高考数学一轮复习第十章统计、统计案例第3讲变量相关关系与统计案例教案理(含解析)新人教A

2020版高考数学一轮复习第十章统计、统计案例第3讲变量相关关系与统计案例教案理(含解析)新人教A

第3讲变量相关关系与统计案例基础知识整合1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非错误!确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为错误!正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为错误!负相关.2.回归方程与回归分析(1)线性相关关系与回归直线如果散点图中点的分布从整体上看大致在错误!一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程①最小二乘法:求回归直线使得样本数据的点到回归直线的错误!距离的平方和最小的方法叫做最小二乘法.②回归方程:方程错误!=错误!x+错误!是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的回归方程,其中错误!,错误!是待定数.错误!(3)回归分析①定义:对具有错误!相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,错误!=错误!(x1+…+x n),y=错误!(y+…+y n),错误!=错误!-错误!错误!,(错误!,错误!)称为样本点的中心.1③相关系数r=错误!,当r〉0时,两变量错误!正相关;当r<0时,两变量错误!负相关;当|r|≤1且|r|越接近于1,相关程度错误!越强;当|r|≤1且|r|越接近于0,相关程度错误!越弱.3.独立性检验(1)独立性检验的有关概念①分类变量可用变量的不同“值”表示个体所属的错误!不同类别的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(2)独立性检验利用随机变量K2=错误!(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查表确定临界值k0:②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内;负相关:样本点分布在从左上角到右下角的区域内.3.回归直线错误!=错误!x+错误!必过样本点的中心.1.下面是一个2×2列联表其中a,b处填的值分别为( )A.94 72 B.52 50C.52 74 D.74 52答案C解析由a+21=73,得a=52,a+22=b,得b=74.故选C.2.(2019·湖北模拟)已知相关变量x和y满足关系y=-0.1x+1,相关变量y与z负相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案D解析因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z负相关,可设z=错误!y+错误!,错误!<0,则z=错误!y+错误!=-0.1错误!x+错误!+错误!,故x与z正相关.3.(2017·重庆高考)已知变量x与y正相关,且由观测数据算得样本平均数错误!=3,错误!=3。

2020高三数学一轮复习(人教版理):课时作业66变量间的相关关系、统计案例

2020高三数学一轮复习(人教版理):课时作业66变量间的相关关系、统计案例
答案 ①
三、解答题 11.某种多面体玩具共有12个面,在其十二个面上分别标有数字 1,2,3,…,12。若该玩具质地均匀,则抛掷该玩具后,任何一个数字所在 的面朝上的概率均相等。为检验某批玩具是否合格,制定检验标准为:多 次抛掷该玩具,并记录朝上的面上标记的数字,若各数字出现的频率的极 差不超过0.05,则认为该玩具合格。
支出y 5.63 5.75 5.82 5.89 6.11 6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
解析
月收入的中位数是
(1)在某批玩具中随机抽取20件进行检验,将每个玩具各面数字出现
频率的极差绘制成茎叶图(如图所示),试估计这批玩具的合格率;
(2)现有该种玩具一个,将其抛掷100次,并记录朝上的一面标记的数
字,得到如下数据:
朝上的面标记
的数字
1 2 3 4 5 6 7 8 9 10 11 12
次数
9 7 8 6 10 9 9 8 10 9 7 8
答案 6
9.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为 此进行了5次试验,收集到的数据如下:
零件数x/个 10 20 30 40 50 加工时间y/分 64 69 75 82 90 由表中数据求得线性回归方程y^ =^bx+a^ ,已知回归直线在y轴上的截距 为56.5,根据回归方程,预测加工102分钟所得零件的个数约为________。
答案 D
7.给出下列说法:①分类变量A与B的随机变量K2的观测值越大,说

2020版高考数学新设计一轮复习新课改省份专用课时跟踪检测(六十六)变量间的相关关系、统计案例含解析

2020版高考数学新设计一轮复习新课改省份专用课时跟踪检测(六十六)变量间的相关关系、统计案例含解析

课时跟踪检测(六十六)变量间的相关关系、统计案例一、题点全面练1.根据如下样本数据:x 345678y 4.0 2.50.50.50.40.1得到的线性回归方程为y^=b^x+a^,则()A.a^>0,b^>0 B.a^>0,b^<0C.a^<0,b^>0 D.a^<0,b^<0解析:选B根据给出的数据可发现:整体上y与x呈现负相关,所以b^<0,由样本点(3,4.0)及(4,2.5)可知a^>0,故选B.2.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线一线总计愿生452065不愿生132235总计5842100由K2=n ad-bc2a+b c+d a+c b+d,得K2=100×45×22-20×13265×35×58×42≈9.616.参照下表,P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828正确的结论是()A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”解析:选C∵K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选 C.3.(2018·哈尔滨一模)千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计:年份/届2014201520162017学科竞赛获省级一等奖及以上的学生人数x 51495557被清华、北大等世界名校录取的学生人数y 10396108107 根据上表可得回归方程y ^=b ^x +a ^中的b ^为1.35,该校2018届同学在学科竞赛中获省级一等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为() A.111B.117C.118D.123 解析:选B 因为x =53,y =103.5,所以a ^=y -b ^x =103.5-1.35×53=31.95,所以回归直线方程为y^=1.35x +31.95.当x =63时,代入解得y ^=117,故选 B.4.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y 与x 具有线性相关关系,且线性回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为() A.66%B.67%C.79%D.84% 解析:选D ∵y 与x 具有线性相关关系,且满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,∴可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%. 5.某炼钢厂废品率x(%)与成本y(元/吨)的线性回归直线方程为y ^=105.492+42.569x.当成本控制在176.5元/吨时,可以预计生产的 1 000吨钢中,约有________吨钢是废品(结果保留两位小数).解析:因为176.5=105.492+42.569x ,解得x ≈1.668,即当成本控制在176.5元/吨时,废品率约为 1.668%,所以生产的 1 000吨钢中,约有1 000×1.668%=16.68吨是废品. 答案:16.686.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)学生的编号i1234 5 数学成绩x8075706560 物理成绩y 7066686462 现已知其线性回归方程为y ^=0.36x +a ^,则根据此线性回归方程估计数学得90分的同学的物理成绩为________.(四舍五入到整数) 解析:x =60+65+70+75+805=70,y=62+64+66+68+705=66,所以66=0.36×70+a^,即a^=40.8,即线性回归方程为y^=0.36x+40.8.当x=90时,y^=0.36×90+40.8=73.2≈73.答案:737.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归直线方程:y^=0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x变为x+1,y^=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2458.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号12345678数学成绩6065707580859095物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数为________.解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为 1.答案:19.(2019·泉州一模)某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试,测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子停下所需要的距离),无酒状态与酒后状态下的试验数据分别列于下表. 表1停车距离d(米)(10,20](20,30](30,40](40,50](50,60] 频数26 a b 8 2 表2平均每毫升血液酒精含量x(毫克)1030507090 平均停车距离y(米)3050607090 已知表1数据的中位数估计值为26,回答以下问题.(1)求a ,b 的值,并估计驾驶员无酒状态下停车距离的平均数;(2)根据最小二乘法,由表2的数据计算y 关于x 的回归方程y ^=b ^x +a ^;(3)该测试团队认为:若驾驶员酒后驾车的平均“停车距离”y 大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?附:回归方程y ^=b ^x +a ^中,b ^=i =1nx i y i -n xy i =1nx 2i -n x 2,a ^=y -b ^x . 解:(1)依题意,得610a =50-26,解得a =40. 又a +b +36=100,解得b =24,故停车距离的平均数为15×26100+25×40100+35×24100+45×8100+55×2100=27. (2)依题意,可知x =50,y =60,i =15x i y i =10×30+30×50+50×60+70×70+90×90=17 800,i =15x 2i=102+302+502+702+902=16 500,所以b ^=17 800-5×50×6016 500-5×502=0.7,a ^=60-0.7×50=25,所以回归直线方程为y ^=0.7x +25.(3)由(1)知当y >81时,认定驾驶员是“醉驾”. 令y ^>81,得0.7x +25>81,解得x >80,则当每毫升血液酒精含量大于80毫克时认定为“醉驾”.10.(2018·豫南九校联考)下表为2015年至2018年某百货零售企业的线下销售额(单位:万元),其中年份代码x =年份—2014.年份代码x123 4 线下销售额y 95165230310(1)已知y 与x 具有线性相关关系,求y 关于x 的线性回归方程,并预测2019年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调查平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:b ^=i =1nx i y i -n xy i =1n x 2i -n x 2,a ^=y -b ^x ,K 2=n ad -bc 2a +b c +d a +c b +d,n =a +b +c +d. P(K 2≥k 0)0.100.050.0250.0100.005 k 0 2.706 3.841 5.024 6.6357.879解:(1)由题意得x =2.5,y =200,i =14x 2i =30,i =14x i y i =2 355,所以b ^=i =14x i y i -4xy i =14x 2i -4x 2=2 355-4×2.5×20030-4×2.52=71,所以a ^=y -b ^x =200-71×2.5=22.5,所以y 关于x 的线性回归方程为y ^=71x +22.5.由于2 019-2 014=5,所以当x =5时,y ^=71×5+22.5=377.5,所以预测2019年该百货零售企业的线下销售额为377.5万元.(2)由题可得2×2列联表如下:持乐观态度持不乐观态度总计男顾客104555 女顾客203050 总计3075105故K 2=105×10×30-45×20255×50×30×75≈6.109. 由于6.109>5.024,所以可以在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关.二、专项培优练(一)易错专练——不丢怨枉分1.(2019·济南诊断)某中学学生会为了调查爱好游泳运动与性别是否有关,通过随机询问110名性别不同的高中生是否爱好游泳运动,得到如下的列联表.由K 2=n ad -bc 2a +b c +d a +c b +d 并参照附表,得到的正确结论是() 男女总计爱好402060 不爱好203050 总计6050110 附表:P(K 2≥k 0)0.0500.0100.001 k 0 3.841 6.63510.828A.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别有关”B.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别无关”C.有99.9%的把握认为“爱好游泳运动与性别有关”D.有99.9%的把握认为“爱好游泳运动与性别无关”解析:选A 因为K 2=110×40×30-20×20260×50×60×50≈7.822>6.635,所以有99%的把握认为“爱好游泳运动与性别有关”,所以在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别有关”. 2.已知x 与y 之间的几组数据如下表:x12345 6 y 02133 4假设根据上表数据所得的线性回归方程为y ^=b ^x +a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是() A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=i =16x i y i -6x ·yi =16x 2i -6x 2=58-6×72×13691-6×722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.3.为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其线性回归方程为y ^=b ^x +a ^.已知i =110x i =225,i =110y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为() A.160B.163C.166D.170解析:选C ∵i =110x i =225,∴x =110i =110x i =22.5. ∵i =110y i =1 600,∴y =110i =110y i =160. 又b ^=4,∴a ^=y -b ^x =160-4×22.5=70.∴线性回归方程为y ^=4x +70. 将x =24代入上式,得y ^=4×24+70=166.(二)素养专练——学会更学通4.[数学运算]某高中学校对全体学生进行体育达标测试,每人测试A ,B 两个项目,每个项目满分均为60分.从全体学生中随机抽取了100人,分别统计他们A ,B 两个项目的测试成绩,得到A 项目测试成绩的频率分布直方图和B 项目测试成绩的频数分布表如下:B 项目测试成绩频数分布表分数区间频数[0,10)2 [10,20)3 [20,30) 5[30,40)15[40,50)40[50,60]35将学生的成绩划分为三个等级,如下表:分数[0,30)[30,50)[50,60]等级一般良好优秀(1)在抽取的100人中,求A项目等级为优秀的人数;(2)已知A项目等级为优秀的学生中女生有14人,A项目等级为一般或良好的学生中女生有34人,试完成下列2×2列联表,并分析是否有95%以上的把握认为“A项目等级为优秀”与性别有关?优秀一般或良好总计男生女生总计(3)将样本的概率作为总体的概率,并假设A项目和B项目测试成绩互不影响,现从该校学生中随机抽取1人进行调查,试估计其A项目等级比B项目等级高的概率.参考数据:P(K2≥k0)0.100.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828参考公式K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d.解:(1)由A项目测试成绩频率分布直方图,得A项目等级为优秀的频率为0.04×10=0.4,所以A项目等级为优秀的人数为0.4×100=40.(2)由(1)知A项目等级为优秀的学生中,女生数为14人,男生数为26人.A项目等级为一般或良好的学生中,女生数为34人,男生数为26人.作出如下2×2列联表:优秀一般或良好总计男生262652女生143448总计4060100则K2=100×26×34-26×14240×60×48×52≈4.514.由于4.514>3.841,所以有95%以上的把握认为“A项目等级为优秀”与性别有关.(3)设“A项目等级比B项目等级高”为事件 C.记“A项目等级为良好”为事件A1,“A项目等级为优秀”为事件A2,“B项目等级为一般”为事件B0,“B 项目等级为良好”为事件B1.于是P(A1)=(0.02+0.02)×10=0.4,P(A2)=0.4.由频率估计概率得P(B0)=2+3+5100=0.1,P(B1)=15+40100=0.55.因为事件A i与B j相互独立,其中i=1,2,j=0,1,所以P(C)=P(A1B0+A2B0+A2B1)=0.4×0.1+0.4×0.1+0.4×0.55=0.3.所以随机抽取一名学生,其A项目等级比B项目等级高的概率为0.3.5.[数据分析]下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,学生答出其中任意一种或其他合理理由均可得分)。

2020版高考数学人教版理科一轮复习课时作业:61 变量间的相关关系、统计案例 Word版含解析

2020版高考数学人教版理科一轮复习课时作业:61 变量间的相关关系、统计案例 Word版含解析

课时作业61 变量间的相关关系、统计案例一、选择题1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:^①y与x负相关且=2.347x-6.423;y^②y与x负相关且=-3.476x+5.648;y^③y与x正相关且=5.437x+8.493;y^④y与x正相关且=-4.326x-4.578.y其中一定不正确的结论的序号是( D )A.①②B.②③C.③④D.①④解析:正相关指的是y随x的增大而增大,负相关指的是y随x 的增大而减小,故不正确的为①④.2.下列说法错误的是( B )A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好解析:根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相当性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好,二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R 2为0.80的模型拟合的效果好,C 、D 正确,故选B.3.为了解某商品销售量y (件)与其单价x (元)的关系,统计了(x ,y )的10组值,并画成散点图如图,则其回归方程可能是( B )A.=-10x -198B.=-10x +198y ^y ^C.=10x +198D.=10x -198y ^y ^解析:由图象可知回归直线方程的斜率小于零,截距大于零,故选B.4.若一函数模型为y =ax 2+bx +c (a ≠0),为将y 转化为t 的回归直线方程,需作变换t =( C )A .x 2B .(x +a )2C.2D .以上都不对(x +b 2a)解析:y 关于t 的回归直线方程,实际上就是y 关于t 的一次函数.因为y =a 2+,所以可知选项C 正确.(x +b 2a )4ac -b 24a5.(2019·湖北七市联考)广告投入对商品的销售额有较大影响,某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元)广告费23456销售额2941505971由表可得回归方程为=10.2x +,据此模拟,预测广告费为10y ^a ^万元时的销售额约为( C )A .101.2B .108.8C .111.2D .118.2解析:由题意得:=4,=50,∴50=4×10.2+,解得=9.2,∴x y a ^a ^回归直线方程为=10.2x +9.2,∴当x =10时,=10.2×10+9.2=y ^y ^111.2,故选C.6.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均y ^消费额占人均工资收入的百分比为( D )A .66%B .67%C .79%D .84%解析:因为y 与x 具有线性相关关系,满足回归方程=0.6x +1.2,y ^该城市职工人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为=84%.4.257.(2019·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线一线总计愿生452065不愿生132235总计5842100由K 2=,n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得K 2=≈9.616.100×(45×22-20×13)265×35×58×42参照下表,P (K 2≥k 0)0.0500.0100.001k 03.8416.63510.828下列说法中,正确的结论是( C )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.二、填空题8.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:气温(℃)181310-1用电量(度)24343864由表中数据得线性回归直线方程=x +中的=-2,预测当气y ^b ^a ^b ^温为-4 ℃时,用电量为68度.解析:回归直线过点(,),x y 根据题意得==10,x 18+13+10+(-1)4==40,将(10,40)代入=-2x +,解得=60,y 24+34+38+644y ^ a ^ a ^则=-2x +60,当x =-4时,=(-2)×(-4)+60=68,即当气温y ^ y ^为-4 ℃时,用电量约为68度.9.(2019·安徽蚌埠段考)为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手非生产能手总计25周岁以上25356025周岁以下103040总计3565100有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.解析:由2×2列联表可知,K 2=≈2.93,100×(25×30-10×35)240×60×35×65因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.三、解答题10.某公司为了了解广告投入对销售收益的影响,在若干地区各投入万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入x (单位:万元)12345销售收益y (单位:万元)2327表中的数据显示,x 与y 之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算y 关于x 的线性回归方程.解:(1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.1+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20, 0.28, 0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.2+5×0.28+7×0.24+9×0.08+11×0.04=5.(3)空白栏中填5.由题意可知,==3,x 1+2+3+4+55==3.8,i y i=1×2+2×3+3×2+4×5+y 2+3+2+5+755∑i =1x 5×7=69,=12+22+32+42+52=55.5∑i =1x 2i 根据公式可求得===1.2,=3.8-b ^69-5×3×3.855-5×321210a ^ 1.2×3=0.2,即线性回归方程为=1.2x +0.2.y ^11.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程=x +中的=y ^b ^a ^b ^0.8(用最小二乘法求得).那么,当广告费用为6千元时,可预测销售额约为( B )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:依题意得=4.5,=3.5,由回归直线必过样本中心点得a x y =3.5-0.8×4.5=-0.1.当x =6时,=0.8×6-0.1=4.7.y ^12.近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和《二十四史》中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录.近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:表一日期12345678910天气晴霾霾阴霾霾阴霾霾霾日期11121314151617181920天气阴晴霾霾霾霾霾霾阴晴日期21222324252627282930天气霾霾晴霾晴霾霾霾晴霾对于此种情况,该市政府为减少雾霾于次年采取了全年限行的政策.下表是一个调查机构对比以上两年11月份(该年不限行30天、次年限行30天,共60天)的调查结果:表二不限行限行总计没有雾霾a 有雾霾b 总计303060(1)请由表一中数据求a ,b 的值,并估计在该年11月份任取一天是晴天的概率;(2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?P (K 2≥k 0)0.1000.0500.0100.001k 02.7063.8416.63510.828(表中数据使用时四舍五入取整数)解:(a )a =10,b =20,所求概率P ==.63015(2)设限行时有x 天没有雾霾,则有雾霾的天数为30-x ,由题意得K 2的观测值k =≤3,代入数据化简得21x 2-440x +1 n (ad -bc )2(a +b )(c +d )(a +c )(b +d )500≤0,x ∈[0,30],x ∈N *,即(7x -30)(3x -50)≤0,解得≤x ≤,307503所以5≤x ≤16,且x ∈N *,所以若没有90%的把握认为雾霾与限行有关系,则限行时有5~16天没有雾霾.尖子生小题库——供重点班学生使用,普通班学生慎用13.(2019·山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:年份2011201220132014201520162017广告费支出x 1246111319销售量y 1.93.24.04.45.25.35.4(1)若用线性回归模型拟合y 与x 的关系,求出y 关于x 的线性回归方程;(2)若用y =c +d 模型拟合y 与x 的关系,可得回归方程=1.63x y ^+0.99,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,x 请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果回答下列问题:①广告费x =20时,销售量及利润的预报值是多少?②广告费x 为何值时,利润的预报值最大?(精确到0.01)参考公式:回归直线=+x 的斜率和截距的最小二乘估计分别y ^ a ^ b ^为==,=- .b ^n∑i =1x i y i-nx y n∑i =1x 2i-nx2n∑i =1(x i-x )(y i-y )n∑i =1(x i-x )2a ^ yb ^x≈2.24.5解:(1)∵=8,=4.2,i y i =279.4,=708,x y 7∑i =1x 7∑i =1x 2i∴===0.17,b ^7∑i =1x i y i -7x y7∑i =1x 2i-7x 2279.4-7×8×4.2708-7×82=- =4.2-0.17×8=2.84,a ^ y b ^x∴y 关于x 的线性回归方程为=0.17x +2.84.y ^(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好,∴选用=1.63+0.99更好.y ^x (3)由(2)知,①当x =20时,销售量的预报值=1.63+0.99≈6.07(万台),y ^20利润的预报值z =200×(1.63+0.99)-20≈1 193.04(万元).20②z =200(1.63+0.99)-x =-x +198+326=-()2+198x x x x +326=-(-99)2+10 127,x =99,即x =9 801时,利润的预报值最大,故广告费为9 x 801万元时,利润的预报值最大.。

2020版高考数学新增分大一轮新高考第十一章 11.3 变量间的相关关系、统计案例 Word版含解析

2020版高考数学新增分大一轮新高考第十一章 11.3 变量间的相关关系、统计案例 Word版含解析

§变量间的相关关系、统计案例最新考纲.通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.通过对典型案例的探究,了解独立性检验的基本思想、方法及其初步应用.通过对典型案例的探究,进一步了解回归分析的基本思想、方法及简单应用..两个变量的线性相关()正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.()负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.()线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线..回归方程()最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.()回归方程方程=+是两个具有线性相关关系的变量的一组数据(,),(,),…,(,)的回归方程,其中,是待定参数..回归分析()定义:对具有相关关系的两个变量进行统计分析的一种常用方法.()样本点的中心对于一组具有线性相关关系的数据(,),(,),…,(,),其中(,)称为样本点的中心.()相关系数当>时,表明两个变量正相关;当<时,表明两个变量负相关.的绝对值越接近于,表明两个变量的线性相关性越强.的绝对值越接近于,表明两个变量之间几乎不存在线性相关关系.通常大于时,认为两个变量有很强的线性相关性..独立性检验()分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.()列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量和,它们的可能取值分别为{,}和{,},其样本频数列联表(称为×列联表)为×列联表总计++总计+++++构造一个随机变量=,其中=+++为样本容量.()独立性检验利用随机变量来判断“两个分类变量有关系”的方法称为独立性检验.概念方法微思考.变量的相关关系与变量的函数关系有什么区别?提示相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系..如何判断两个变量间的线性相关关系?提示散点图中点的分布从整体上看大致在一条直线附近,或者通过计算相关系数作出判断..独立性检验的基本步骤是什么?提示列出×列联表,计算值,根据临界值表得出结论..线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?提示()不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

课时作业61 变量间的相关关系、统计案例一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( D ) A .①② B .②③ C .③④ D .①④解析:正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.2.下列说法错误的是( B )A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好解析:根据相关关系的概念知A 正确;当r >0时,r 越大,相关性越强,当r <0时,r 越大,相当性越弱,故B 不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好,二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R2为0.80的模型拟合的效果好,C 、D 正确,故选B.3.为了解某商品销售量y (件)与其单价x (元)的关系,统计了(x ,y )的10组值,并画成散点图如图,则其回归方程可能是( B )A.y ^=-10x -198B.y ^=-10x +198C.y ^=10x +198D.y ^=10x -198解析:由图象可知回归直线方程的斜率小于零,截距大于零,故选B.4.若一函数模型为y =ax 2+bx +c (a ≠0),为将y 转化为t 的回归直线方程,需作变换t =( C )A .x 2B .(x +a )2C.⎝ ⎛⎭⎪⎫x +b 2a 2D .以上都不对解析:y 关于t 的回归直线方程,实际上就是y 关于t 的一次函数.因为y =a ⎝ ⎛⎭⎪⎫x +b 2a 2+4ac -b 24a,所以可知选项C 正确.5.(2019·湖北七市联考)广告投入对商品的销售额有较大影响,某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元)由表可得回归方程为y =10.2x +a ,据此模拟,预测广告费为10万元时的销售额约为( C )A .101.2B .108.8C .111.2D .118.2解析:由题意得:x =4,y =50,∴50=4×10.2+a ^,解得a ^=9.2,∴回归直线方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.6.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( D )A .66%B .67%C .79%D .84%解析:因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市职工人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.7.(2019·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100由K 2=n ad -bc 2a +bc +d a +cb +d,得K 2=100×45×22-20×13265×35×58×42≈9.616.参照下表,P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”. 二、填空题8.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:气温(℃) 18 13 10 -1 用电量(度)24343864由表中数据得线性回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为68度.解析:回归直线过点(x ,y ),根据题意得x =18+13+10+-14=10,y =24+34+38+644=40,将(10,40)代入y ^=-2x +a ^,解得a ^=60,则y ^=-2x +60,当x =-4时,y ^=(-2)×(-4)+60=68,即当气温为-4 ℃时,用电量约为68度.9.(2019·安徽蚌埠段考)为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手 非生产能手总计 25周岁以上 25 35 60 25周岁以下10 30 40 总计3565100解析:由2×2列联表可知,K 2= 100×25×30-10×35240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.三、解答题10.某公司为了了解广告投入对销售收益的影响,在若干地区各投入万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:算y 关于x 的线性回归方程.解:(1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.1+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20, 0.28, 0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.2+5×0.28+7×0.24+9×0.08+11×0.04=5. (3)空白栏中填5. 由题意可知,x =1+2+3+4+55=3,y =2+3+2+5+75=3.8,∑i =15x i y i =1×2+2×3+3×2+4×5+5×7=69,∑i =15x 2i =12+22+32+42+52=55. 根据公式可求得b ^=69-5×3×3.855-5×32=1210=1.2,a ^=3.8-1.2×3=0.2,即线性回归方程为y ^=1.2x +0.2.11.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中的b ^=0.8(用最小二乘法求得).那么,当广告费用为6千元时,可预测销售额约为( B )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:依题意得x =4.5,y =3.5,由回归直线必过样本中心点得a =3.5-0.8×4.5=-0.1.当x =6时,y ^=0.8×6-0.1=4.7.12.近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和《二十四史》中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录.近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:表一构对比以上两年11月份(该年不限行30天、次年限行30天,共60天)的调查结果:表二没有雾霾 a 有雾霾 b总计303060(1)请由表一中数据求a ,b 的值,并估计在该年11月份任取一天是晴天的概率; (2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828(表中数据使用时四舍五入取整数)解:(a )a =10,b =20,所求概率P =630=15.(2)设限行时有x 天没有雾霾,则有雾霾的天数为30-x ,由题意得K 2的观测值k =n ad -bc 2a +bc +d a +cb +d≤3,代入数据化简得21x 2-440x +1 500≤0,x ∈[0,30],x ∈N *,即(7x -30)(3x -50)≤0,解得307≤x ≤503,所以5≤x ≤16,且x ∈N *,所以若没有90%的把握认为雾霾与限行有关系,则限行时有5~16天没有雾霾. 尖子生小题库——供重点班学生使用,普通班学生慎用13.(2019·山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:年份 2011 2012 2013 2014 2015 2016 2017 广告费 支出x 1 2 4 6 11 13 19 销售量y1.93.24.04.45.25.35.4(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果回答下列问题: ①广告费x =20时,销售量及利润的预报值是多少? ②广告费x 为何值时,利润的预报值最大?(精确到0.01)参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x 2=279.4-7×8×4.2708-7×82=0.17, a ^=y -b ^x =4.2-0.17×8=2.84,∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好,∴选用y ^=1.63+0.99x 更好.(3)由(2)知,①当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).②z =200(1.63+0.99x )-x =-x +198x +326=-(x )2+198x +326=-(x -99)2+10 127,∴当x =99,即x =9 801时,利润的预报值最大,故广告费为9 801万元时,利润的预报值最大.。

相关文档
最新文档