【非常考案】高考数学(通用版)一轮复习练习:9.3变量间的相关关系、统计案例(含答案解析)
2020届高考数学理一轮考点测试变量间的相关关系与统计案例
z= ln c+ kx.因为 z= 0. 3x+4,所以 ln c= 4,所以 c= e4.
二、高考小题
7.(2017 ·山东高考 ) 为了研究某班学生的脚长 x( 单位:厘米 ) 和身高 y( 单位:厘米 ) 的关系,从该班随机抽
取 10 名学生,根据测量数据的散点图可以看出
y 与 x 之间有线性相关关系.设其回归直线方程为
i=1
10i =1
10
1 10
∵ yi = 1600,∴
i=1
y
=
10
i
=
yi
1
=
160
.
又b^= 4,∴ a^= y - b^ x = 160-4×22. 5= 70.
∴回归直线方程为 y^= 4x+ 70. 将 x= 24 代入上式得 y^=4×24+ 70= 166. 故选 C. 8.(2017 ·全国卷Ⅲ ) 某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2016 年 12 月期间月接待游客量 ( 单位:万人 ) 的数据,绘制了下面的折线图.
2014 年 1 月至
根据该折线图,下列结论错误的是 (
)
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在 7, 8 月
D.各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳
答案 A
解析 对于选项 A,由图易知月接待游客量每年 7, 8 月份明显高于 12 月份,故 A 错;对于选项 B,观察折线
A, B 两变量有更强的线性相关性.故选 D.
4.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有
2015年高考数学一轮复习 9-3 变量间的相关关系及统计案例课件 文
(3)(2013·福建卷)已知 x 与 y 之间的几组数据如下表: x123456 y021334
假设根据上表数据所得线性回归直线方程为^y=b^x+a^,若某 同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为 y= b′x+a′,则以下结论正确的是( )
A.b^>b′,a^>a′ B.b^>b′,a^<a′ C.b^<b′,a^>a′ D.b^<b′,a^<a′ 参考公式:回归直线方程是:^y=b^x+a^,a^= y -b^ x
考点
互动探究
核心突破 · 导与练
(对应学生用书 P210)
考点1
相关关系的判断
1.相关关系是非随机变量与随机变量之间的关系.而函数关 系可以看成是两个非随机变量之间的关系.因此,不能把相关关 系等同于函数关系.
2.函数关系是一种因果关系,而相关关系不一定是因果关 系,也可能是伴随关系.
3.散点图是将两个变量的各对数据在直角坐标系中描点得 到的图形,它直观地反映了两个变量之间存在的某种关系和密切 程度,所以它可以判断两个变量间是否是相关关系,是什么样的 相关关系等问题.
像这样的变量称为分类变量.
(2)2×2 列联表:假设有两个分类变量 X 和 Y,它们的值域
分别为{x1,x2}和{y1,y2},其样本频数列联表(称 2×2 列联表) 为:
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
nad-bc2 K2=a+ba+cb+dc+d (其中 n=a+b+c+d 为样本 容量). (3)独立性检验 利用随机变量、 独立性假设 来确定是否一定有把握认为
高考数学(理)一轮复习分层演练:10.3变量间的相关关系、统计案例(含答案)
第3讲 变量间的相关关系、统计案例[学生用书P221])1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i-n x y∑n i =1 x 2i -n x 2,a ^=y -b ^x . (4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:(2)K 2统计量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).1.辨明三个易误点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值). (3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法求解回归方程的关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x ,y ,∑i =1nx 2i ,∑i =1nx i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x ,y ),即有y =b ^x +a ^,可确定a ^.1.有关线性回归的说法,不正确的是( ) A .具有相关关系的两个变量是非确定性关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的线性相关性越强 [答案] D2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( ) A.y ^=-10x +200 B .y ^=10x +200C.y ^=-10x -200 D .y ^=10x -200A [解析] 因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D .又因为x =0时,y >0,所以应选A.3.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A.0.1% B .1% C .99%D .99.9%C [解析] 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.4.下面是一个2×2列联表则表中a 、b 处的值分别为________. [解析] 因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54, [答案] 52、545.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=________.[解析] 由已知得x =2,y =4.5,因为回归方程经过点(x ,y ),所以a ^=4.5-0.95×2=2.6.[答案] 2.6相关关系的判断[学生用书P222][典例引领](2015·高考湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关【解析】 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.某公司在2016年上半年的收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:根据统计资料,则( )A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系C [解析] 月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.线性回归方程及其应用(高频考点)[学生用书P222]线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题. 高考中对线性回归问题的考查主要有以下三个命题角度: (1)由回归直线方程求参数值; (2)求回归直线方程; (3)利用回归方程进行预测.[典例引领](2016·高考全国卷丙)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32, ∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:【解】(1)由折线图中数据和附注中参考数据得 t =4, i =17(t i -t )2=28,=40.17-4×9.32=2.89, r =2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得=2.8928≈0.103, a ^=y -b ^t =1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.最小二乘估计的三个步骤(1)作出散点图,判断是否线性相关. (2)如果是,则用公式求a ^,b ^,写出回归方程. (3)根据方程进行估计.[注意] 回归直线方程恒过点(x -,y -).[题点通关]角度一 由回归直线方程求参数值1.表中提供了某厂节能降耗技术改造后生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对应数据.根据下表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的值为( )A.3 B .3.15C .3.5D .4.5A [解析] 因为线性回归方程过样本中心点,所以由回归方程y ^=0.7x +0.35,知y =0.7x +0.35,又y =2.5+t +4+4.54=11+t 4,x =3+4+5+64=92,所以11+t 4=0.7×92+0.35,解得t =3.故选A.角度二、三 求回归直线方程并进行预测2.(2017·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i-n x -y -∑n i =1x 2i -n x -2, a ^=y --b ^x -.[解] (1) x =3,y =5,∑5i =1x i y i =62.7,∑5i =1x 2i =55, 解得b ^=-1.23,a ^=8.69, 所以y ^=8.69-1.23x .(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,所以当x ≈2.72时,年利润z 最大.独立性检验[学生用书P223][典例引领](2017·云南省第一次统一检测)某校高二年级共有1 600名学生,其中男生960名,女生640名.该校组织了一次满分为100分的数学学业水平模拟考试.根据研究,在正式的学业水平考试中,本次成绩在[80,100]的学生可取得A等(优秀),在[60,80)的学生可取得B等(良好),在[40,60)的学生可取得C等(合格),不到40分的学生只能取得D等(不合格).为研究这次考试成绩优秀是否与性别有关,现按性别采用分层抽样的方法抽取100名学生,将他们的成绩按从低到高分成[30,40)、[40,50)、[50,60)、[60,70)、[70,80)、[80,90)、[90,100]七组加以统计,绘制成如图所示的频率分布直方图.(1)估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数;(2)请你根据已知条件将下列2×2列联表补充完整.并判断是否有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”?【解】(1) 设抽取的100名学生中,本次考试成绩不合格的有x人,根据题意得x=100×[1-10×(0.006+0.012×2+0.018+0.024+0.026)]=2.据此估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数为2100×1600=32.(2)根据已知条件得2×2列联表如下:因为K 2=100×(12×34-6×48)60×40×18×82≈0.407<2.706,所以没有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断.(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.[解] (1) x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5, 从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.[学生用书P314(独立成册)]1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③C .③④D .①④D [解析] 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.2.(2017·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=150,由最小二乘法求得回归直线方程为y ^=0.67x +54.9,则y 1+y 2+y 3+y 4+y 5的值为( )A .75B .155.4C .375D .466.2C [解析] 由x 1+x 2+x 3+x 4+x 5=150,得x =30,代入回归直线方程y ^=0.67x +54.9,得y =75,则y 1+y 2+y 3+y 4+y 5=375.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”C [解析] 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.4.(2017·东营模拟)已知变量x 与y 之间的回归直线方程为y ^=-3+2x ,若∑10i =1x i =17,则∑10i =1y i 的值等于( ) A .3 B .4C .0.4D .40B [解析] 依题意x =1710=1.7,而直线y ^=-3+2x 一定经过样本点的中心(x ,y ), 所以y =-3+2x =-3+2×1.7=0.4,所以∑10i =1y i =0.4×10=4. 5.春节期间,某销售公司每天销售某种取暖商品的销售额y (单位:万元)与当天的平均气温x (单位:℃)有关.现收集了春节期间这个销售公司4天的x 与y 的数据列于下表:根据以上数据,用线性回归的方法,求得y 与x 之间的线性回归方程y ^=b ^x +a ^的系数b ^=-125,则a ^=________. [解析] 由表中数据可得x -=-4,y -=25,所以线性回归方程y ^=-125x +a ^过点(-4,25),代入方程得25=-125×(-4)+a ^,解得a ^=775.[答案]7756.(2017·赣州摸底考试)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i =21,则实数b 的值为________. [解析] 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. [答案] 577.(2017·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)请完成上面的列联表;(2)根据列联表的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”. 参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[解] (1)(2)根据列联表中的数据,得到K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.8.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数. [解] (1)由表中数据计算得,t -=5,y -=4,所以回归方程为y ^=0.85t -0.25.(2)将t =8代入(1)的回归方程中得y ^=0.85×8-0.25=6.55. 故预测t =8时,细菌繁殖个数为6.55千个.9.(2017·郑州第二次质量预测)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y ^=-4x +a ^.若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16 B .13C.12D .23B [解析] 由表中数据得x =6.5,y =80,由y =-4x +a ^,得a ^=106,故线性回归方程为y ^=-4x +106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程可知有6个基本事件,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为26=13.10.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.[解析] x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝⎛⎭⎫8+m 5+40, 即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.[答案] 1011.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图;(2)下表是近五届奥运会中国代表团获得的金牌数之和y (从第26届算起,不包括之前已获得的金牌数)随时间x 变化的数据:作出散点图如下:由图可以看出,金牌数之和y 与时间x 之间存在线性相关关系,请求出y 关于x 的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:x -=28,y -=85.6,附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:[解] (1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:(2)a ^=y --b ^x -=85.6-38.1×28=-981.2,所以金牌数之和y 关于时间x 的线性回归方程为 y ^=38.1x -981.2.当x =32时,中国代表团获得的金牌数之和的预报值 y ^=38.1×32-981.2=238,故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.。
高考数学一轮复习 9.3 变量间的相关关系及统计案例课
【与名师对话】2015高考数学一轮复习 9.3 变量间的相关关系及统计案例课时作业理(含解析)新人教A版附:P(K2≥k0)0.1000.0500.0250.0100.005k0 2.706 3.841 5.024 6.6357.879K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d一、选择题1.(2013·石家庄质检(二))设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归方程(如图),以下结论中正确的是( )A.x和y正相关B.x和y的相关系数为直线l的斜率C.x和y的相关系数在-1到0之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同解析:由图可知x和y是负相关,相关系数与直线的斜率无关,相关系数的取值范围在-1与1之间,所以选C.答案:C2.(2013·湖南省六校联考)两个变量y与x的回归模型中,分别选择了4个不同模型,计算出它们的相关指数R2如下,其中拟合效果最好的模型是( )A.模型1(相关指数R2为0.97)B.模型2(相关指数R2为0.89)C .模型3(相关指数R 2为0.56) D .模型4(相关指数R 2为0.45)解析:在回归分析中,相关指数R 2越大,说明两变量拟合效果越好,故选A. 答案:A3.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:作出X ,Y 对应散点图可知Y 与X 正相关, ∴r 1>0.作出U ,V 对应散点图可知U 与V 负相关 ∴r 2<0.∴r 2<0<r 1. 答案:C4.(2013·郑州第三次质量预测)已知实数:x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a 的值是( ) A .1.30 B .1.45 C .1.65 D .1.80 解析:由数表可知此样本数据的中心点为x =0+1+4+5+6+86=4,y =1.3+1.8+5.6+6.1+7.4+9.36=5.25,代入回归方程y ^=0.95x +a 可得a =1.45,故选B. 答案:B5.(2013·云南昆明高三调研)变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=( )A.35B.45C .1D .3 解析:依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y -1.4=2.2-1.42-1(x -1),即y =0.8x +0.6上,因此解释变量对于预报变量变化的贡献率R 2=1,选C.答案:C6.(2013·东北三校第二次联考)以下有关线性回归分析的说法不正确的是( ) A .通过最小二乘法得到的线性回归直线过样本点的中心(x ,y )B .用最小二乘法求回归直线方程,是寻求使∑i =1n(y i -bx i -a )2最小的a ,b 的值C .相关系数r 越小,表示两个变量相关性越弱D .R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2越接近1,表示回归的效果越好解析:相关系数0<r <1时,表示正相关,r 越小相关性越弱,-1<r <0时表示负相关,r 越小相关性越强,所以C 不正确,选C.答案:C 7.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过点(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( ) A .0 B .1 C .2 D .3解析:一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2=13.079>10.828,故有99%的把握确认这两个变量有关系,④正确.故选B.答案:B 二、填空题8.某地居民2008~2012年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:年份/年20082009201020112012收入x/万元11.512.11313.315支出Y/万元 6.88.89.81012出有________线性相关关系.解析:根据中位数的定义,居民家庭年平均收入的中位数是13,家庭年平均收入与年平均支出有正线性相关关系.答案:13 正9.(2013·河北保定月考)为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:喜爱打篮球不喜爱打篮球合计男生20525女生101525合计302050解析:由公式可得k2≈8.333>7.879,故填99.5%.答案:99.5%三、解答题10.某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位学生说明其亲属30人的饮食习惯; (2)根据以上数据完成下列2×2的列联表:主食蔬菜 主食肉类 合计 50岁以下 50岁以上 合计解:(1)在30位亲属中,50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主. (2)2×2的列联表如下:主食蔬菜 主食肉类 合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(3)因为K 2=12×18×20×10=12×18×20×10=10>6.635,所以有99%的把握认为亲属的饮食习惯与年龄有关.11.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料: 日期12月 1日 12月 2日 12月 3日 12月 4日 12月 5日 温差x (℃) 101113128发芽数y (颗)23 25 30 26 16归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A ,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P (A )=1-410=35. (2)由数据求得,x =12,y =27,由公式求得.b ^=52,a ^=y -b ^x =-3. 所以y 关于x 的线性回归方程为y ^=52x -3.(3)当x =10时,y ^=52×10-3=22,|22-23|<2;当x =8时,y ^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的. [热点预测]12.(2013·辽宁省大连市高三第一次模拟考试节选)某工厂用甲、乙两种不同工艺生产一大批同一种零件,零件尺寸均在[21.7,22.3](单位:cm)之间,把零件尺寸在[21.9,22.1)的记为一等品,尺寸在[21.8,21.9)∪[22.1,22.2)的记为二等品,尺寸在[21.7,21.8)∪[22.2,22.3]的记为三等品,现从甲、乙工艺生产的零件中各随机抽取100件产品,所得零件尺寸的频率分布直方图如图所示:根据上述数据完成下列2×2列联表,根据此数据你认为选择不同的工艺与生产出一等品是否有关?甲工艺乙工艺合计一等品非一等品合计解:2×2甲工艺乙工艺合计一等品5060110非一等品504090合计100100200 χ2=≈2.02<3.841,所以没有理由认为选择不同的工艺与生100×100×110×90产出一等品有关.。
习题-变量间的相关关系、统计案例
10.3 变量间的相关关系、统计案例基础篇 固本夯基考点一 变量间的相关关系1.(2022届陕西宝鸡期末,4)下列两个变量具有相关关系的是( ) A.正方体的体积与棱长 B.汽车匀速行驶时的路程与时间 C.人的体重与饭量 D.人的身高与视力 答案 C2.(2021西南名校联盟联考,3)已知甲、乙、丙、丁四组数据变量间对应的线性相关系数分别为0.46,0.79, -0.92,0.85,则( )A.甲组数据变量间的线性相关程度最强B.乙组数据变量间的线性相关程度最弱C.丙组数据变量间的线性相关程度最强D.丁组数据变量间的线性相关程度最强 答案 C3.(2020陕西铜川二模,5)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x-6.423; ②y 与x 负相关且y ^=-3.476x+5.648; ③y 与x 正相关且y ^=5.437x+8.493; ④y 与x 正相关且y ^=-4.326x-4.578. 其中不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ 答案 D4.(2020陕西榆林三模,3)如图所示,给出了样本容量均为7的A,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组样本数据的相关系数为r 2,则( )A.r 1=r 2B.r 1<r 2C.r 1>r 2D.无法判定 答案 C5.(2022届四川资阳一诊,4)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019 年年末全国农村贫困人口数进行了统计,制成如下散点图:据此散点图,下面 4个回归方程类型中最适宜作为年末贫困人口数y 和年份代码x 的回归方程类型的是( )A.y=a+bxB.y=a+bx C.y=a+be x D.y=a+bln x 答案 A6.(2022届四川绵阳阶段测试,3)某市物价部门对5家商场的某商品一天的销售量及其价格进行了调查,5家商场的价格x(元)和销售量y(件)之间的一组数据如表所示:价格x(元) 9 9.5 10 10.5 11 销售量y(件)1110865按公式计算,y 与x 的回归直线方程是y ^=-3.2x+a ^,相关系数|r|=0.992,则下列说法错误的是( ) A.变量x,y 线性负相关且相关性较强 B.a ^=40C.当x=8.5时,y 的估计值为12.8D.相应于点(10.5,6)的残差为0.4 答案 D7.(2020兰州一诊,7)近五年来某草场羊只数与草场植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示.年份 1 2 3 4 5 羊只数(万只) 1.4 0.9 0.750.60.3 草场植被指数1.14.315.6 31.349.7根据表及图得到以下判断:①羊只数与草场植被指数成减函数关系;②若利用这五组数据得到的两变量间的相关系数为r 1,去掉第一年数据后得到的相关系数为r 2,则|r 1|<|r 2|; ③可以利用回归直线方程,准确地得到当羊只数为2万只时的草场植被指数. 以上判断中正确的个数是( )A.0B.1C.2D.3 答案 B8.(2020课标Ⅱ,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i=1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i=120x i =60,∑i=120y i =1 200,∑i=120(x i -x )2=80,∑i=120(y i -y )2=9 000,∑i=120(x i -x)(y i -y)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);(2)求样本(x i ,y i )(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由. 附:相关系数 r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2,√2≈1.414.解析(1)由已知得样本平均数y =120∑i=120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i=1,2,…,20)的相关系数 r=∑i=120(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i-y)2=√80×9 000=2√23≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.考点二 独立性检验1.(2022届黑龙江月考,8)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则K 2的观测值可能为( )P(K 2≥k 0) 0.10 0.05 0.025 0.010 0.0050.001k0 2.706 3.841 5.024 6.6357.87910.828A.K2=3.206B.K2=6.625C.K2=7.869D.K2=11.208答案C2.(2022届山西运城期中,7)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验.根据四个实验室得到的列联表画出如下四个等高堆积条形图,最能体现该药物对预防禽流感有显著效果的图形是()答案D3.(2020宁夏石嘴山二模,4)通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到K2的观测值k≈4.892,参照下表,得到的正确结论是()P(K2≥k0)0.100.050.025k0 2.706 3.841 5.024A.有97.5%以上的把握认为“爱好该项运动与性别有关”B.有97.5%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”答案C4.(2021四川南充阆中中学4月质检,6)若由一个2×2列联表中的数据计算得K2=4.013,那么有的把握认为两个变量有关系.()P(K2≥k0)0.150.100.050.0250.0100.0050.001k0 2.0722.7063.8415.0246.6357.87910.828A.95%B.97.5%C.99%D.99.9%答案A5.(2021安徽黄山二模,7)给出下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于0,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1; ③两个模型中残差平方和越小的模型拟合的效果越好;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大. 其中正确命题的个数是( )A.1B.2C.3D.4 答案 C6.(2022届河南焦作模拟,17)第32届夏季奥运会于2021年7月23日至8月8日在日本举行,为了解某校学生对奥运会是否关注,随机调查了该校200名学生,统计结果如表:关注 不关注 合计 女生 34 51 85 男生 66 49 115 合计100100200(1)分别估计该校女生和男生关注奥运会的概率;(2)能否有99%的把握认为该校女生和男生对奥运会的关注度有差异? 参考公式及数据: K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.050 0.010 0.001k3.8416.635 10.828解析 (1)估计该校女生关注奥运会的概率约为3485=25;男生关注奥运会的概率约为66115. (2)由题表中数据可知K2=200×(34×49-66×51)2100×100×85×115=13623≈5.913. 因为5.913<6.635,故没有99%的把握认为该校女生和男生对奥运会的关注度有差异.7.(2022届昆明质检,17)“微信运动”是手机APP 推出的多款健康运动软件中的一款,某学校140名教师均在微信好友群中参与了“微信运动”,对运动10 000步或以上的教师授予“运动达人”称号,低于10 000步称为“参与者”.为了解教师们的运动情况,选取了教师们在某日的运动数据进行分析,统计结果如下:运动达人 参与者 合计 男教师 60 20 80 女教师 40 20 60 合计10040140(1)根据上表说明,能否在犯错误概率不超过0.05的前提下认为获得“运动达人”称号与性别有关; (2)从获得“运动达人”称号的教师中采用按性别分层抽样的方法选取5人参加全国第四届“万步有约”全国健走激励大赛某赛区的活动,若从选取的5人中随机抽取2人作为代表参加开幕式,求抽取的2人都为女教师的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.050 0.0100.001k 03.8416.635 10.828解析 (1)∵K2=140×(60×20-40×20)280×60×100×40≈1.167<3.841,∴不能在犯错误的概率不超过0.05的前提下认为获得“运动达人”称号与性别有关.(2)根据分层抽样方法得:参赛的男教师有60100×5=3人,参赛的女教师有40100×5=2人,抽取的男教师记为A,B,C;女教师记为a,b.从抽取的这五名教师中随机选取2名,有AB,AC,Aa,Ab,BC,Ba,Bb,Ca,Cb,ab 共10种选法,其中2人都是女教师的选法有ab 一种,故抽取的2人都为女教师的概率P=110.8.(2019课标Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).P(K 2≥k)0.050 0.010 0.001 k3.8416.63510.828.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)K2=100×(40×20-10×30)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.综合篇 知能转换考法一 线性回归方程的求解与应用1.(2022届四川模拟,8)已知回归直线的斜率的估计值为1.23,样本点的中心为(5,6),则回归直线方程为( ) A.y ^=-0.15x+1.23 B.y ^=-2.38x+1.23C.y ^=1.23x-2.38 D.y ^=1.23x-0.15 答案 D2.(2022届哈尔滨模拟,10)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间具有线性相关关系,利用下表中的五组数据求得回归直线方程为y ^=b ^x+a ^,根据该回归方程,预测当x=8时,y ^=84.8,则b ^=( )x23456y 25 37 50 56 64A.9.4B.9.5C.9.6D.9.8 答案 C3.(2021甘肃二模,7)某地以“绿水青山就是金山银山”理念为引导,推进绿色发展,现要订购一批苗木,苗木长度与售价如下表:苗木长度x(厘米) 38 485868 7888 售价y(元)16.8 18.8 20.8 22.8 2425.8由表可知,苗木长度x(厘米)与售价y(元)之间存在线性相关关系,回归方程为y ^=0.2x+a ^,则当苗木长度为150厘米时,售价大约为( ) A.33.3元 B.35.5元 C.38.9元 D.41.5元 答案 C4.(2021西安中学二模,4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x-85.71. ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg; ④若该大学某女生身高为170 cm,则其体重必为58.79 kg. 则上述判断不正确的个数是( ) A.1 B.2 C.3 D.4 答案 A5.(2020中原名校质量考评,7)根据最小二乘法,由一组样本数据(x i ,y i )(其中i=1,2,…,300)求得的回归方程是y ^=b ^x+a ^,则下列说法正确的是( )A.至少有一个样本点落在回归直线y ^=b ^x+a ^上B.若所有样本点都在回归直线y ^=b ^x+a ^上,则变量间的相关系数为1 C.对所有的解释变量x i (i=1,2,…,300),b ^x i +a ^的值一定与y i 有误差 D.若回归直线y ^=b ^x+a ^的斜率b ^>0,则变量x 与y 正相关 答案 D6.(2021江西八校4月联考,14)如图,根据已知的散点图得到y 关于x 的线性回归方程为y ^=b ^x+0.2,则b ^= .答案 1.67.(2022届江西顶级名校调研,18)根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作.某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用.自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种新冠疫苗的情况如下表:第x 天 1 2 3 4 5 新接种人数y1015192328(1)建立y 关于x 的线性回归方程;(2)假设全村共计2 000名居民(均未接种过新冠疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天.参考公式:回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i=1nx i y i -nxy ∑i=1nx i 2-nx2,a ^=y -b ^x .解析 (1)x =1+2+3+4+55=3,y =10+15+19+23+285=19,则b ^=10+30+57+92+140-5×3×1912+22+32+42+52-5×32=225,a ^=19-225×3=295,故y 关于x 的线性回归方程为y ^=225x+295.(2)设a n =225n+295,数列{a n }的前n 项和为S n ,易知数列{a n }是等差数列, 则S n =n(a 1+a n )2=n (225+295+225n+295)2=115n 2+8n,因为S 6=127.2,S 7=163.8,所以10S 6=1 272,10S 7=1 638,又2 000×80%=1 600(人),所以预测该村80%居民接种新冠疫苗需要7天.8.(2021广西贵港港北模拟,17)某个体服装店经营各种服装,在某周内获纯利润y(元)与该周每天销售这种服装件数x 之间的一组数据关系如下表:x 3456789y66 69 73 81 89 90 91(1)求x ,y ;(2)若y 与x 线性相关,请求纯利润y(元)与每天销售件数x 的回归直线方程. 参考数据及公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y ∑i=1nx i2-nx 2,a ^=y -b ^x ,∑i=17x i 2=280,∑i=17x i y i =3 487. 解析 (1)x =17×(3+4+5+6+7+8+9)=6,y =17×(66+69+73+81+89+90+91)=5597. (2)设回归直线方程为y ^=b ^x+a ^.∵∑i=17x i 2=280,∑i=17x i y i =3 487,∴b ^=3 487-7×6×5597280-7×36=13328=4.75,a ^=5597-6×4.75≈51.36.∴回归直线方程为y ^=4.75x+51.36.9.(2021成都郫都模拟,18)某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:年份 2015 2016 2017 2018 2019 年份代码x 1 2 3 4 5 交易额y/百亿元912172126(1)请根据上表提供的数据,用相关系数r 说明y 与x 的线性关系的强弱(线性相关系数保留三位小数);(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值x i ,变量y 的观测值为y i (1≤i ≤n),则两个变量的相关系数的计算公式为r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2.统计学认为,对于变量x,y,如果r ∈[-1,-0.75],那么负相关很强;如果r ∈[0.75,1],那么正相关很强;如果r ∈(-0.75,-0.30]或r ∈[0.30,0.75),那么相关性一般;如果r ∈[-0.25,0.25],那么相关性较弱)(2)求出y 关于x 的线性回归方程,并预测2020年该网站“双11”当天的交易额. 参考公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x ,参考数据:√1 860≈43.1.解析 (1)根据题表中的数据,可得x =15×(1+2+3+4+5)=3,y =15×(9+12+17+21+26)=17, 则∑i=15(x i -x )(y i -y )=(1-3)×(9-17)+…+(5-3)×(26-17)=43;√∑i=15(x i -x)2∑i=15(y i -y)2=√10×186≈43.1,所以r=∑i=15(x i -x)(y -y)√∑i=15(x i -x)2∑i=15(y i-y)2=4343.1≈0.998,所以变量y 与x 的线性相关性很强. (2)由(1)可得x =3,y =17,∑i=15(x i -x )(y i -y )=43,∑i=15(x i -x )2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,所以b ^=∑i=15(x i -x)(y i -y)∑i=15(x i -x)2=4310=4.3,则a ^=y -b ^x =17-4.3×3=4.1.所以y 关于x 的线性回归方程为y ^=4.3x+4.1.令x=6,可得y ^=4.3×6+4.1=29.9,故预测2020年该网站“双11”当天的交易额为29.9百亿元.思路分析 (1)利用已知条件求解相关系数,判断即可;(2)根据公式求出回归直线方程的系数,得回归直线方程,然后把x=6代入,求出结果进行预测即可.考法二 独立性检验的应用1.(2022届河南月考,9)某外语学校要学生从德语和日语中选择一种作为“第二外语”进行学习,为了解选择第二外语的倾向与性别的关系,随机抽取100名学生,得到下面的数据表:选择德语 选择日语 男生 15 35 女生3020根据表中提供的数据可知( ) 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.100 0.050 0.010 0.005 0.001 k2.7063.841 6.635 7.87910.828A.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别无关B.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别有关C.有99.5%的把握认为选择第二外语的倾向与性别无关D.有99.5%的把握认为选择第二外语的倾向与性别有关答案D2.(2020江西吉安、抚州、赣州一模,5)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A 的100天日落和夜晚天气,得到如下2×2列联表:夜晚天气下雨未下雨日落云里走出现255未出现2545临界值表P(K2≥k0)0.100.050.0100.001k0 2.706 3.841 6.63510.828并计算得到K2≈19.05,下列小波对地区A天气的判断不正确的是()A.夜晚下雨的概率约为12B.未出现“日落云里走”,夜晚下雨的概率约为514C.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨答案D3.(2020湖南衡阳八中月考,5)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:喜欢应用统计课程不喜欢应用统计课程男生205女生1020附表:P(K2≥k)0.100.050.0250.0100.0050.001k 2.706 3.841 5.024 6.6357.87910.828参考公式:K2=n(ad-bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关答案A4.(2020安徽蚌埠三模,15)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则有99%以上的把握认为是否持乐观态度与国内外差异有关(填“能”或“不能”).P(K2≥k)0.0500.0100.0050.001k 3.841 6.6357.87910.828附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).答案能5.(2021山东青岛一模,15)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k)0.050.0250.0100.001k 3.841 5.024 6.63510.828答案0.0256.(2022届吉林重点高中月考,19)新能源汽车是指除汽油、柴油发动机之外所有的其他能源汽车,被认为能减少空气污染和缓解能源短缺.在当今提倡全球环保的前提下,新能源汽车产业必将成为未来汽车产业发展的导向与目标.新能源汽车也越来越受到消费者的青睐.某机构调查了某地区近期购车的200位车主的性别与购车种类情况,得到数据如下:购置新能源汽车购置传统燃油汽车合计男性10020120女性503080合计15050200 (1)根据表中数据,判断是否有99.9%的把握认为购置新能源汽车与性别有关;(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,参加关于“新能源汽车驾驶体验”的问卷调查,并从这6位车主中随机抽取2位车主赠送一份小礼物,求这2位获赠礼品的车主中至少有1位女性车主的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.10 0.05 0.010 0.001 k 02.7063.8416.63510.828解析 (1)由题表得K2=200×(100×30-20×50)2120×80×150×50=1009≈11.111>10.828.所以有99.9%的把握认为购置新能源汽车与性别有关.(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,其中男性车主有100150×6=4人,记为a,b,c,d;女性车主有50150×6=2人,记为E,F.从这6位车主中随机抽取2位车主包含的基本事件有:ab,ac,ad,aE,aF,bc,bd,bE,bF,cd,cE,cF,dE,dF,EF,共15种. 至少有1位女性车主包含的基本事件有:aE,aF,bE,bF,cE,cF,dE,dF,EF,共9种.故所求概率P=915=35. 7.(2022届山西长治质检,17)为了了解某种新型药物对治疗某种疾病的疗效,某机构日前联合医院进行了小规模的调查.结果显示,相当多的受访者担心使用新药后会有副作用.为了了解使用该种新型药品后是否会引起疲乏症状,该机构随机抽取了某地患有这种疾病的275人进行调查,得到统计数据如下表:无疲乏症状有疲乏症状总计 未使用新药 150 25 t 使用新药 x y 100 总计225m275(1)求2×2列联表中的数据x,y,m,t 的值,并确定能否有95%的把握认为有疲乏症状与使用该新药有关; (2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,再从这4人中随机抽取2人作进一步调查,求这2人中恰有1人有疲乏症状的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.150 0.100 0.050 0.025 0.010 k2.072 2.7063.841 5.0246.635解析 (1)t=150+25=175,x=225-150=75,y=100-75=25,m=25+25=50,所以K 2的观测值k=275×(150×25-75×25)2225×50×100×175≈4.910 7>3.841,故有95%的把握认为有疲乏症状与使用新药有关.(2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,其中无疲乏症状的有75100×4=3人,记为a,b,c;有疲乏症状的有25100×4=1人,记为D,则从这4人中随机抽取2人的情况有ab,ac,aD,bc,bD,cD,共6种,这2人中恰有1人有疲乏症状的情况有aD,bD,cD,共3种.故所求概率P=36=12. 8.(2021安徽五校联盟联考(二),18)网购是当前人们购物的新方式,某公司为了改进营销方式,随机调查了100名市民,统计了不同年龄的人群网购的人数如下表:年龄段(岁) (0,20) [20,40) [40,60) [60,100) 网购人数 26 32 34 8 男性人数1510105(1)若把年龄在[20,60)的人称为“网购迷”,否则称为“非网购迷”,请完成下面的2×2列联表,并判断能否有99%的把握认为网购与性别有关;网购迷非网购迷总计男性 女性 总计(2)若从年龄小于40岁的网购男性中用分层抽样的方法抽取5人,再从中抽取两人,求两人年龄都小于20岁的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.10 0.05 0.01 0.001k2.7063.841 6.635 10.828解析 (1)由题中信息完善2×2列联表如下表所示:网购迷 非网购迷 总计 男性 20 20 40 女性 46 14 60 总计6634100∴K2=100×(20×14-46×20)266×34×40×60≈7.605>6.635,故有99%的把握认为网购与性别有关.(2)年龄在(0,20)、[20,40)的网购男性分别有15人、10人.按分层抽样的方法随机抽取5人,从年龄段(0,20)内抽取3人,分别记为1、2、3;从年龄段[20,40)内抽取2人,分别记为a 、b,从中随机抽取2人的可能结果有(1,2)、(1,3)、(1,a)、(1,b)、(2,3)、(2,a)、(2,b)、(3,a)、(3,b)、(a,b),共10个.用A表示“两人年龄都小于20岁”这一事件,则事件A包含的结果为(1,2)、(1,3)、(2,3),共3个.故事件A发生的概率P(A)=310.9.(2021安徽黄山二模,17)2021年3月5日,人社部和全国两会政府工作报告中针对延迟退休给出了最新消息,人社部表示正在研究延迟退休改革方案,两会上指出十四五期间要逐步延迟法定退休年龄.现对某市工薪阶层关于延迟退休政策的态度进行调查,随机调查了50人,他们月收入的频数分布及对延迟退休政策赞成的人数如下表.月收入(单位:百元)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75]频数510151055赞成人数123534(1)根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异;月收入不低于55百元月收入低于55百元合计赞成不赞成合计(2)若采用分层抽样法从月收入在[25,35)和[65,75]的被调查人中选取6人进行跟踪调查,并随机给其中3人发放奖励,求获得奖励的3人中至少有1人月收入在[65,75]的概率.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k)0.0500.0100.001k 3.841 6.63510.828解析(1)2×2列联表如下:月收入不低于55百元月收入低于55百元合计赞成71118不赞成32932合计104050则K2=50×(7×29-3×11)210×40×32×18≈6.27<6.635,所以没有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异.(2)按照分层抽样的方法可知,月收入在[25,35)的抽取4人,记为a,b,c,d,月收入在[65,75]的抽取2人,记为A,B,则从6人中任取3人的所有情况为{A,B,a}、{A,B,b}、{A,B,c}、{A,B,d}、{A,a,b}、{A,a,c}、{A,a,d}、{A,b,c}、{A,b,d}、{A,c,d}、{B,a,b}、{B,a,c}、{B,a,d}、{B,b,c}、{B,b,d}、{B,c,d}、{a,b,c}、{a,b,d}、{a,c,d}、{b,c,d},共20种, 其中至少有1人月收入在[65,75]的情况有16种, 所以3人中至少有1人月收入在[65,75]的概率为1620=45.应用篇 知行合一应用 回归模型的应用1.(2020课标Ⅰ,5,5分探索创新情境)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A.y=a+bxB.y=a+bx 2C.y=a+be xD.y=a+bln x 答案 D2.(2022届宁夏顶级名校月考,20实际生活)“金山银山不如绿水青山;绿水青山就是金山银山.”复兴村借力“乡村振兴”国策,依托得天独厚的自然资源开展乡村旅游,乡村旅游事业蓬勃发展.复兴村旅游协会记录了近八年的游客人数,见下表.年份2013 年 2014 年 2015 年 2016 年 2017 年 2018 年 2019 年2020 年 年份代码x 1 2 345678 游客人数y (百人)4816 32 51 71 97122为了分析复兴村未来的游客人数变化趋势,公司总监分别用两种模型对变量y 和x 进行拟合,得到了相应的回归方程,绘制了残差图.残差图如下(注:残差e ^i =y i -y ^i ):模型①y ^=bx 2+a;模型②y ^=dx+c.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由; (2)根据(1)中选定的模型求出相应的回归方程(系数均保留两位小数); (3)根据(2)中求出的回归方程来预测2021年的游客人数(结果保留整数). 其中,z=x2,z =18∑i=18z i .参考数据:∑i=18(x i -x )·(y i -y )=728∑i=18(x i -x )2=42∑i=18(z i -z )·(y i -y )=6 868∑i=18(z i -z )2=3 570∑i=18z i =204∑i=18y i =400附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x .解析 (1)选择模型①.理由:根据残差图可以看出, 模型①的估计值和真实值相对比较接近;模型②的残差相对比较大,所以模型①的拟合效果相对较好.(2)由(1)可知y 关于x 的回归方程为y ^=bx 2+a.令z=x 2,则y ^=bz+a,由题中所给数据得b ^=6 8683 570≈1.92,又z =18∑i=18z i =2048=25.5,y =4008=50,所以a ^=50-1.92×25.5=1.04,所以y 关于x 的回归方程为y ^=1.92x 2+1.04. (3)将x=9代入回归方程,可得y ^=1.92×92+1.04≈157, 则2021年游客人数大约为157百人. 3.(2021哈尔滨三中一模,19实际生活)宁夏西海固地区,在1972年被联合国粮食开发署确定为最不适宜人类生存的地区之一.为改善这一地区人民生活的贫困状态,20世纪90年代,党中央和自治区政府决定开始吊庄移民,将西海固地区的人口成批地迁移到更加适合生活的地区.为了帮助移民人口尽快脱贫,党中央作出推进东西部对口协作的战略部署,其中确定福建对口帮扶宁夏,在福建人民的帮助下,原西海固人民实现了快速脱贫,下表是对2016年以来近5年某移民村庄100位移民的年人均收入的统计:年份 2016 2017 2018 2019 2020 年份代码x12 3 4 5 人均年收入y(千元) 1.32.85.78.913.8现要建立y 关于x 的回归方程,有两个不同回归模型可供选择,模型一y^(1)=b ^x+a ^;模型二y ^(2)=c ^x 2+d ^,即使画出y 关于x 的散点图,也无法确定哪个模型拟合效果更好,现用最小二乘法原理,已经求得模型一的方程为y ^=3.1x-2.8.(1)请你用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(计算结果保留到小数点后一位);(2)用计算残差平方和的方法比较哪个模型拟合效果更好(已经计算出模型一的残差平方和为∑i=15(y i -y ^i )2=3.7).参考数据:∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52,其中t i =x i 2,i=1,2,3,4,5.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计公式分别为β^=∑i=1nu i v i -nuv ∑i=1nu i 2-nu 2,α^=v -β^u .解析 (1)令t=x 2,则模型二可化为y 关于t 的线性回归问题, t =1+4+9+16+255=11,y =1.3+2.8+5.7+8.9+13.85=6.5, 则由参考数据可得c ^=∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52≈0.5,d ^=y -c ^t =6.5-0.52×11≈0.8, 则模型二的方程为y ^(2)=0.5x 2+0.8. (2)由模型二的回归方程可得,y ^1(2)=0.5×1+0.8=1.3,y ^2(2)=0.5×4+0.8=2.8,y ^3(2)=0.5×9+0.8=5.3,y ^4(2)=0.5×16+0.8=8.8,y ^5(2)=0.5×25+0.8=13.3,∴∑i=15(y i -y ^i (2))2=02+02+0.42+0.12+0.52=0.42<3.7,故模型二的拟合效果更好.创新篇 守正出奇创新 统计与统计案例的综合应用。
2014届高考数学一轮复习教学案变量间的相关关系统计案例
变量间的相关关系__统计案例[知识能否忆起]一、变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.二、两个变量的线性相关1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.2.回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .3.通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.4.相关系数=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.三、独立性检验1.2×2列联表:假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).2.用K 2的大小可以决定是否拒绝原来的统计假设H 0,若K 2值较大,就拒绝H 0,即拒绝事件A 与B 无关.3.当K 2>3.841时,则有95%的把握说事件A 与B 有关; 当K 2>6.635时,则有99%的把握说事件A 与B 有关; 当K 2>2.706时,则有90%的把握说事件A 与B 有关.[小题能否全取]1.(教材习题改编)观察下列各图形其中两个变量x 、y 具有相关关系的图是( ) A .①② B .①④ C .③④D .②③解析:选C 由散点图知③④具有相关关系.2.(教材习题改编)已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+bx ,若∑i =110x i =17,∑i =110y i =4,则b 的值为( )A .2B .1C .-2D .-1解析:选A 依题意知,x =1710=1.7,y =410=0.4,而直线y ^=-3+bx 一定经过点(x ,y ),所以-3+b ×1.7=0.4,解得b =2.3.在一次对性别与说谎是否相关的调查中,得到如下数据:根据表中数据,得到如下结论中正确的一项是( ) A .在此次调查中有95%的把握认为是否说谎与性别有关 B .在此次调查中有99%的把握认为是否说谎与性别有关 C .在此次调查中有99.5%的把握认为是否说谎与性别有关 D .在此次调查中没有充分的证据显示说谎与性别有关解析:选D 由于K 2=30×(6×9-7×8)213×17×14×16≈0.0024,由于K 2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关.故选D.4.某考察团对全国10大城市的居民人均工资收入x (万元/年)与居民人均消费y (万元/年)进行统计调查,发现y 与x 具有相关关系,且y 对x 的回归方程为y ^=0.66x +1.562.若某城市居民人均消费为7.675(万元/年),估计该城市人均消费占人均工资收入的百分比约为________.解析:因为当y ^=7.675时,x =7.675-1.5620.66≈9.262,则7.6759.262≈0.829≈83%. 答案:83%5.已知x ,y 之间的数据如表所示,则回归直线过点________.解析:x =3,y =2.5,∴样本点中心为(3,2.5),回归直线过样本点中心. 答案:(3,2.5)1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.2.由回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.使用K 2统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,在选取样本容量时一定要注意.典题导入[例1] (2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1[自主解答] 因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.[答案] D由题悟法1.相关关系的判断方法一是利用散点图直观判断,二是利用相关系数作出判断. 2.对于由散点图作出相关性判断时,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性.3.由相关系数r 判断时|r |越趋近于1相关性越强.以题试法1.已知变量x ,y 之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )A.y ^=1.5x +2 B.y ^=-1.5x +2 C.y ^=1.5x -2 D.y ^=-1.5x -2解析:选B 设回归方程为y ^=bx +a .由散点图可知变量x 、y 之间负相关,回归直线在y 轴上的截距为正数,所以b <0,a >0,因此其回归直线方程可能为y ^=-1.5x +2.典题导入[例2] (2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y --b x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[自主解答] (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -b x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000 =-20⎝⎛⎭⎫x -3342+361.25. 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.由题悟法1.最小二乘法估计的一般步骤: (1)作出散点图,判断是否线性相关; (2)如果是,则用公式求a ^,b ^,写出回归方程; (3)根据方程进行估计.2.回归直线方程必过定点(x ,y ).以题试法2.(2012·长春模拟)已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y ^=0.95x +a ,则a =( ) A .1.30 B .1.45 C .1.65D .1.80解析:选B 依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a 必过中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45.典题导入[例3] (2012·湖南衡阳第二次联考)衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)请完成上面的列联表;(2)根据列表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”. 参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )[自主解答] (1)列联表如下:(2)根据列联表中的数据,得到K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.由题悟法1.独立性检验的一般步骤: (1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(a +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作统计判断.2.在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.以题试法3.(2012·嘉兴联考)为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________.解析:由K 2=4.844>3.841.故认为选修文科与性别有关系出错的可能性约为5%. 答案:5%。
高三数学(理)一轮复习之双基限时训练:变量间的相关关系与统计案例(人教新课标).pdf
巩固双基,提升能力一、选择题 1.(2012·北京)某棵果树前n年的总产量Sn与n之间的关系如图所示.从目前记录的结果看,前m年的年平均产量最高,m的值为( ) A.5 B.7 C.9 D.11 解析:年平均产量为=,表示点(n,Sn)与原点连线的斜率,由图可知(9,S9)与原点连线的斜率最大,故选C. 答案:C 2.(2012·湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( ) A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(,) C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg 解析:A中由于回归方程中的x系数为正,所以具有正的线性相关关系,A正确;B由线性回归方程的推导可知回归方程必过样本点的中心(,),B正确;C中,身高增加1 cm,则Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85(kg),C正确.D中,将170代入回归方程得y=58.79 kg,这个值只能是一个推测的结果,和实际值允许有误差,D错误. 答案:D 3.(2013·枣庄调研)通过随机询问100名性别不同的大学生是否爱好踢毽子运动,得到如下的列联表: 男女总计爱好104050不爱好203050总计3070100附表: P(K2≥k)0.100.050.025k2.7063.8415.024随机变量K2= 经计算,统计量K2的观测值k≈4.762,参照附表,得到的正确结论是( )A.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关” B.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关” C.有97.5%以上的把握认为“爱好该项运动与性别有关” D.有97.5%以上的把握认为“爱好该项运动与性别无关” 解析:根据题意得k≈4.762>3.841,故应该有95%的把握认为“爱好该项运动与性别有关”,因此选A. 答案:A 4.(2013·泰安模拟)下列说法: 将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; 设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位; 线性回归方程=x+必过(,); 在一个2×2列联表中,由计算得K2=13.079,则有99.9%的把握确认这两个变量间有关系. 其中错误的个数是( ) A.0 B.1 C.2 D.3 本题可以参考独立检验临界值表P(K2≥k)0.500.400.250.150.10k0.4550.7081.3232.0722.706P(K2≥k)0.050.0250.010.0050.001k3.8415.0246.6357.8 7910.828解析:根据方差公式知正确;中应该为x增加一个单位时,y平均减少5个单位;正确;根据独立性检验表知正确.因此错误的为,只有1个. 答案:B 5.已知x与y之间的一组数据: x0123y1357则y与x的线性回归方程=x+必过( ) A.点(2,2) B.点(1.5,0) C.点(1,2) D.点(1.5,4) 解析:由=-知, y与x的线性回归方程必过点(,), 又由已知数据,得=(0+1+2+3)=1.5, =(1+3+5+7)=4,故必过点(1.5,4). 答案:D 6.(2013·泰安模拟)下表是某厂1~4月份用水量(单位:百吨)的一组数据: 月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是=-0.7x+,则等于( ) A.10.5 B.5.15 C.5.2 D.5.25 解析:=2.5,=3.5,回归直线方程过定点(,), 3.5=-0.7×2.5+,=5.25. 答案: D 二、填空题 7.(2013·丽水调研)某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表: 气温(℃)181310-1用电量(度)24343864由表中数据得线性回归方程=x+中=-2,预测当气温为-4℃时,用电量的度数约为________. 解析:=10,=40,回归方程过点(,), 40=-2×10+. =60. =-2x+60.令x=-4,=(-2)×(-4)+60=68. 答案:68 8.某高校“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表: 专业性别 非统计专业统计专业男1310女720为了判断主修统计专业是否与性别有关系,根据表中的数据,得到 K2=≈4.844,因为K2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为__________. 解析:K2≈4.844>3.841,有95%的把握认为主修统计专业与性别有关系,即作出“主修统计专业与性别有关系”的判断,出错的可能性不超过5%. 答案:5% 三、解答题 9.(2013·开封调研)甲、乙两个学校高三年级分别有1 100人,1 000人,为了了解两个学校全体高三年级学生在该地区二模考试的数学成绩情况,采用分层抽样方法从两个学校一共抽取了105名学生的数学成绩,并作出了如下的频数分布统计表,规定考试成绩在[120,150]内为优秀. 甲校: 分组[70,80)[80,90)[90,100)[100,110)频数231015分组[110,120)[120,130)[130,140)[140,150]频数15x31乙校: 分组[70,80)[80,90)[90,100)[100,110)频数1298分组[110,120)[120,130)[130,140)[140,150]频数1010y3(1)计算x,y的值; (2)由以上统计数据填写下面2×2列联表,若按是否优秀来判断,是否有97.5%的把握认为两个学校的数学成绩有差异? 甲校乙校总计优秀非优秀总计解析:(1)x=6,y=7. (2)填表如下: 甲校乙校总计优秀102030非优秀453075总计5550105由表格计算,得K2=≈6.109>5.024,故有97.5%的把握认为两个学校的数学成绩有差异. 10.(2013·南京学情调研)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料: 日期1月 10日2月 10日3月 10日4月 10日5月 10日6月 10日昼夜温 差x(℃)1011131286就诊人 数y(人)222529261612该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验. (1)求选取的2组数据恰好是相邻两个月的概率; (2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程y=bx+a; (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想? 参考公式:b==,a=-b. 解析:(1)设抽到相邻两个月的数据为事件A. 从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的.其中,抽到相邻两个月的数据的情况有5种, P(A)==. (2)由数据求得=11,=24. 由公式求得b=,a=-b=-, y关于x的线性回归方程为y=x-. (3)当x=10时,y=,<2; 同样,当x=6时,y=,<2. 该小组所得线性回归方程是理想的.。
2023届高考数学一轮复习作业变量间的相关关系统计案例新人教B版
变量间的相关关系、统计案例一、选择题1.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2.则( )A.0<r1<r2<1 B.0<r2<r1<1C.-1<r1<r2<0 D.-1<r2<r1<0D [根据相关变量x,y的散点图知,变量x,y具有负线性相关关系,且点(10,21)是离群值.方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以相关系数-1<r2<r1<0.故选D.]2.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln xD [根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.]3.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y=b x+a.已知x i=225,y i=1 600,b=4.该班某学生的脚长为24,据此估计其身高为( )A.160 cm B.163 cm C.166 cm D.170 cmC [∵x i=225,∴=x i=22.5.∵y i=1 600,∴=y i=160.又b=4,∴a=-b=160-4×22.5=70.∴回归直线方程为y=4x+70.将x=24代入上式得y=4×24+70=166.故选C.]4.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的( )A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理D [由条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意愿的学生数量,男生偏爱两理一文,女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故选D.]5.某医疗所为了检查新开发的流感疫苗对甲型H1N1流感的预防作用,把1 000名注射疫苗的人与另外1 000名未注射疫苗的人半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算得P(K2≥6.635)≈0.01,则下列说法正确的是( )A.这种疫苗能起到预防甲型H1N1流感的有效率为1%B.若某人未使用疫苗,则他在半年中有99%的可能性得甲型H1N1流感C.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”D.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”C [因为P(K2≥6.635)≈0.01,这说明假设不合理的程度为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,所以有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”,故选C.]二、填空题6.对具有线性相关关系的变量x,y有一组观测数据(x i,y i)(i=1,2,…,8),其线性回归方程是y=x+a,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数a的值为 . [依题意可知样本点的中心为,则=×+a,解得a=.]7.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:甲乙丙丁r 0.820.780.690.85m106115124103则 同学的试验结果体现A,B两变量有更强的线性相关性.丁 [r越大,m越小,线性相关性越强.]8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是 .①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.① [K2≈3.918>3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.]三、解答题9.(2021·陕西西安高三模拟)某社区随机选取了部分居民,调查他们对今年春节期间社区组织文艺和体育活动的意见(每人只选择其中一项),调查结果如下表所示:文艺活动体育活动男性居民1520女性居民2510(1)估计该社区男性居民中选择体育活动的概率和全体居民中选择文艺活动的概率;(2)判断能否有95%的把握认为居民选择的活动类型与性别有关.附:K2=,其中n=a+b+c+d.P(K2≥k)0.050.010.001k 3.8416.63510.828[解](1)由表格中的数据可知,该社区男性居民中选择体育活动的概率为=,该社区全体居民中选择文艺活动的概率为=.(2)由表格中数据可得K2=≈5.833>3.841,因此,有95%的把握认为居民选择的活动类型与性别有关.1.(2021·南昌市八一中学高三三模)已知变量y关于x的回归方程为y=e bx-0.5,其一组数据如表所示,若x=5,则预测y值可能为( )x1234y e e3e4e6A.e5 B.e C.e7 D.eD [由y=e bx-0.5得:ln y=bx-0.5,∴=b·-0.5,解得:b=1.6,∴回归方程为y=e1.6x-0.5,若x=5,则y=e8-0.5=e.]2.在对具有线性相关的两个变量x和y进行统计分析时,得到如下数据:x4m81012y12356由表中数据求得y关于x的回归方程为y=0.65x-1.8,则(4,1),(m,2),(8,3)这三个样本点中落在回归直线下方的有( )A.1个 B.2个 C.3个 D.0个B [由表中数据,得=×(4+m+8+10+12)=,=×(1+2+3+5+6)=3.4,代入回归方程y=0.65x-1.8中,得3.4=0.65×-1.8,计算得出m=6.所以x=4时,y=0.65×4-1.8=0.8<1,点(4,1)在回归直线y=0.65x-1.8上方;x=6时,y=0.65×6-1.8=2.1>2,点(6,2)在回归直线y=0.65x-1.8下方;x=8时,y=0.65×8-1.8=3.4>3,点(8,3)在回归直线y=0.65x-1.8下方.综上,(4,1),(6,2),(8,3)这三个样本点中落在回归直线下方的有2个.故选B.]3.针对时下的“游戏热”,某校团委对“学生性别和喜欢打游戏是否有关”作了一次调查,其中女生人数是男生人数的,女生喜欢打游戏的人数占女生人数的,男生喜欢打游戏的人数占男生人数的.若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有人.附:P(K2≥k)0.050.010.001k 3.8416.63510.82818 [设男生人数为x,由题意可得列联表如下:喜欢打游戏不喜欢打游戏总计女生x男生x x总计x x若有95%的把握认为是否喜欢打游戏和性别有关,则k≥3.841,即k==≥3.841,解得x≥15.257.因为各部分人数均为整数,所以x是18的倍数,所以若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有18人.]4.碳达峰就是二氧化碳的排放不再增长,达到峰值之后再慢慢减下去;碳中和是指在一定时间内直接或间接产生的温室气体排放总量通过植树造林、节能减排等方式,以抵消自身产生的二氧化碳排放量,实现二氧化碳“零排放”.2020年9月,中国向世界宣布了2030年前实现碳达峰,2060年前实现碳中和的目标.某城市计划通过绿色能源(光伏、风电、核能)替代煤电能源,智慧交通,大力发展新能源汽车以及植树造林置换大气中的二氧化碳实现碳中和.该城市某研究机构统计了若干汽车5年内所行驶的里程数(万千米)的频率分布直方图,如图.(1)求a的值及汽车5年内所行驶里程的平均值(同一组中的数据用该组区间的中点值为代表);(2)据“碳中和罗盘”显示:一辆汽车每年行驶1万千米的排碳量需要近200棵树用1年时间来吸收.根据频率分布直方图,该城市每一辆汽车平均需要多少棵树才能够达到“碳中和”;(3)该城市为了减少碳排量,计划大力推动新能源汽车,关于车主购买汽车时是否考虑对大气污染的因素,对300名车主进行了调查,这些车主中新能源汽车车主占,且这些车主在购车时考虑大气污染因素的占20%,燃油汽车车主在购车时考虑大气污染因素的占10%.根据以上统计情况,补全下面2×2列联表,并回答是否有99%的把握认为购买新能源汽车与考虑大气污染有关.考虑大气污染没考虑大气污染合计新能源汽车车主燃油汽车车主合计附:K2=,其中n=a+b+c+d.P(K2≥k)0.100.0250.010.0050.001k 2.7065.0246.6357.87910.828[解](1)由(0.05+a+0.35+0.25+a+0.05)×1=1,解得a=0.15.设x为汽车5年内所行驶里程的平均值,则x=3.5×0.05+4.5×0.15+5.5×0.35+6.5×0.25+7.5×0.15+8.5×0.05=5.95(万千米).(2)由(1)可知,一辆汽车1年内所行驶里程的平均值为=1.19(万千米).因为一辆汽车每年行驶1万千米的排碳量需要近200棵树用1年时间来吸收,所以每一辆汽车平均需要1.19×200=238(棵)树才能够达到“碳中和”.(3)补全的2×2列联表如下:考虑大气污染没考虑大气污染合计新能源汽车车主104050燃油汽车车主25225250合计35265300所以K 2=≈4.04.因为4.04<6.635,所以没有99%的把握认为购买新能源汽车与考虑大气污染有关.(2021·湖北孝感高中高三月考)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y (个)和温度x (℃)的8组观测数据,制成图1所示的散点图.现用两种模型①y =e bx +a ,②y =cx 2+d 分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.图1 产卵数散点图图2 两种模型的残差图根据收集到的数据,计算得到如下值:x z t (x i -x)2(t i -t)2(z i -z)(x i -x)(y i -y)(t i -t)252.89646168422 68848.4870 308表中z i =ln y i ;z =i ;t i =x ;t =i .(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由;(2)根据(1)中所选择的模型,求出y 关于x 的回归方程(计算过程中四舍五入保留两位小数),并求温度为34 ℃时,产卵数y的预报值.参考数据:e5.41≈224,e5.50≈245,e5.59≈268.附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,v n),其回归直线v=α+βω的斜率和截距的最小二乘估计分别为β = ,α=v-βω.[解](1)应该选择模型①.由于模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.(2)令z=ln y,z与温度x可以用线性回归方程来拟合,则z=a+b x.∴b= = = ≈0.29,a=z-bx≈2.89-0.29×25=-4.36,则z关于x的线性回归方程为z=0.29x-4.36,即ln y=0.29x-4.36,∴产卵数y关于温度x的回归方程为y=e0.29x-4.36,当x=34时,y=e0.29×34-4.36=e5.50≈245(个),∴在气温为34 ℃时,一个红铃虫的产卵数的预报值为245个.。
(旧教材适用)2023高考数学一轮总复习第十章统计统计案例第3讲变量间的相关关系与统计案例课件
抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经
计
算
得
-x
=
1 16
16
x
i
=
9.97
,
s
=
i=1
1 16
16
xi--x 2
=
i=1
0.050 0.010
k0
3.841 6.635
附:K2=a+bcn+add-ab+cc2b+d.
0.005 7.879
0.001 10.828
解析 根据题目所给数据得到如下 2×2 列联表:
乐观
不乐观
总计
国内代表
60
40
100
国外代表
40
60
100
总计
100
100
200
则 K2=20100×0×6100×0×601-004×0×104002=8>6.635,所以有 99%的把握认为是否
∵y 与 x 的相关系数近似为 0.9966,说明 y 与 x 的线性相关程度相当强,
∴可以用线性回归模型拟合 y 与 x 的关系.
(3)建立 y 关于 x 的回归方程,预测第 5 年的销售量约为多少?
参考数据:
∑4
i=1
yi--y 2≈32.7,
5≈2.24,i∑=4 1xiyi=418.
参考公式:
(3)回归分析 ①定义:对具有 □06 相关关系的两个变量进行统计分析的一种常用方法. ②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…, (xn,yn)中,-x =1n(x1+…+xn),-y =1n(y1+…+yn),a^ =-y -b^ -x ,(-x ,-y ) 称为样本点的中心.
高考数学一轮复习 第九章 统计与统计案例 第二节 变量的相关性与统计案例讲义(含解析)-人教版高三全
第二节 变量的相关性与统计案例突破点一 回归分析[基本知识]1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关 回归直线从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线回归方程回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2, a ^=y --b ^x -最小二乘法通过求Q =∑i =1ny i -bx i -a2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法 相关系数当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于时,认为两个变量有很强的线性相关性[基本能力]一、判断题(对的打“√”,错的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) 答案:(1)× (2)√ (3)√ 二、填空题1.已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^x +a ^,则a ^=________.x 0 1 3 4 y2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,经计算得到它们的相关系数r 的值如下表,其中拟合效果最好的模型是________.模型模型1模型2模型3模型4 r答案:模型13.已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+b ^x ,若∑i =110x i =17,∑i =110yi=4,则b ^的值为________.答案:2[全析考法]考法一 相关关系的判断[例1] (1)(2019·某某某某月考)在下列各图中,两个变量具有相关关系的图是( )A .①②B .①③C .②③D .②④(2)(2019·某某一中一模)若对于变量x 的取值为3,4,5,6,7时,变量y 对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u 的取值为1,2,3,4时,变量v 对应的值依次分别为2,3,4,6,则变量x 和y ,变量u 和v 的相关关系是( )A .变量x 和y 是正相关,变量u 和v 是正相关B .变量x 和y 是正相关,变量u 和v 是负相关C .变量x 和y 是负相关,变量u 和v 是负相关D .变量x 和y 是负相关,变量u 和v 是正相关[解析] (1)①为函数关系;②为正相关关系;③为负相关关系;④没有明显相关性. (2)变量x 增加,变量y 减少,所以变量x 和y 是负相关;变量u 增加,变量v 增加,所以变量u 和v 是正相关,故选D.[答案] (1)C (2)D [方法技巧]判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1相关性越强.考法二 线性回归分析[例2] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线yt 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分) [方法技巧]1.回归直线方程中系数的2种求法 (1)公式法:利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心(x -,y -)求系数. 2.回归分析的2种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值. (2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数b ^.[集训冲关]1.[考法一]四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^x -6.423; ②y 与x 负相关且y ^x +5.648; ③y 与x 正相关且y ^x +8.493; ④y 与x 正相关且y ^x -4.578.其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:选D 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.2.[考法二]二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:z =ln yz 关于x 的折线图,如图所示:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少.(b ^,a ^小数点后保留两位有效数字)参考公式:b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2,a ^=y --b ^x -,r =∑i =1nx i -x-y i -y-∑i =1nx i -x-2∑i =1ny i -y-2.参考数据:∑i =16x i y i =187.4,∑i =16x i z i =47.64,∑i =16x 2i =139,∑i =16x i -x-2=4.18,∑i =16y i -y-2=13.96,∑i =16z i -z-2=1.53,ln 1.46≈0.38.解:(1)由题意,知x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,又∑i =16x i z i =47.64,∑i =16x i -x-2=4.18,i =16z i -z-2=1.53,∴r =47.64-6×4.5×2 4.18×1.53=-, 6.395 4)≈-0.99,∴z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)b ^=47.64-6×4.5×22=-,17.5)≈-0.36, ∴a ^=z --b ^x -=2+0.36×4.5=3.62, ∴z 与x 的线性回归方程是z ^x +3.62, 又z =ln y ,∴y 关于x 的回归方程是y ^=e x. 令x =9,得y ^=e =e ,∵ln 1.46≈0.38,∴y ^=1.46,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.突破点二 独立性检验[基本知识]1.分类变量变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. 2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +dK 2=n ad -bc 2a +bc +d a +cb +d(其中n =a +b +c +d 为样本容量),可利用独立性检验判断表来判断“X 与Y 的关系”.[基本能力]一、判断题(对的打“√”,错的打“×”)(1)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的值越大.( )(2)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案:(1)√ (2)× 二、填空题1.下面是2×2列联表:y 1 y 2总计 x 1 a21 73 x 22225 47 总计b46120则表中a ,b 的值分别为________.解析:∵a +21=73,∴a =52,又a +22=b ,∴b =74. 答案:52,742.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2的观测值k =50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案:5%3.(2019·某某质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总计 喜欢玩电脑游戏 12 8 20 不喜欢玩电脑游戏2 8 10 总计141630该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________.[典例] (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n ad-bc2a+b c+d a+c b+d,[解] (1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可得分)(2)由茎叶图知m =79+812=80.列联表如下:超过m 不超过m第一种生产方式 15 5 第二种生产方式515(3)因为K 2=4015×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[方法技巧](1)独立性检验的关键是正确列出2×2列联表,并计算出K 2的值.(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断.[针对训练]1.(2019·某某某某一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B .由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C .若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D .以上三种说法都不正确解析:选C 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C.2.(2019·池州模拟)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).(1)求图中a 的值;(2)估计该次考试的平均分x -(同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.晋级成功 晋级失败总计 男 16女50 总计⎝⎛⎭⎪⎫参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +dP (K 2≥k )k解:(1)由频率分布直方图中各小长方形面积总和为1,得(2a +0.020+0.030+0.040)×10=1,解得a =0.005.(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95, 对应的频率分别为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为x -=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为100×0.25=25,填写2×2列联表如下:晋级成功 晋级失败 总计 男 16 34 50 女 9 41 50 总计2575100K 2=100×16×41-34×9225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.word。
非常考案通用版2017版高考数学一轮复习第九章统计与统计案例第3节变量间的相关关系统计案例课件
2.利用回归直线方程可以进行预测估计总体,但要注意代入相应的数值后 求得的结果只是一个估计值,因为这两个变量之间仅是相关关系,而不是函数 关系.
[变式训练] (2015· 许昌模拟)已知 x 与 y 之间的几组数据如下表: x 1 2 3 4 5 6 y 0 2 1 3 3 4 ^ x +a ^.若某同学根据上表中 假设根据上表数据所得线性回归直线方程为^ y =b 的前两组数据(1,0)和(2,2)求得的直线方程为 y=b′x+a′,则以下结论正确的 是( ) ^>b′,a ^>a′ A.b ^ ^ C.b<b′,a>a′ ^>b′,a ^<a′ B.b ^ ^ D.b<b′,a<a′
样本容量.
2 K 利用随机变量 来判断“两个分类变量有关系”的方法称为独立性检验.
基础自测 1. 判断下列说法是否正确(正确的打“√”,错误的打“×”). (1)散点图是判断两个变量是否相关的一种重要方法和手段.( )
^ x +a ^至少经过点(x ,y ),(x ,y )„,(x ,y )中的一个 (2)回归直线方程^ y=b 1 1 2 2 n n 点.( )
则认为多看电视与人冷漠有关系的把握大约为( A.99.9% C.95% B.97.5% D.90%
2 168 × 68 × 38 - 42 × 20 【解析】 K2= ≈11.377>10.828,故有 99.9%的把 110×58×88×80
握认为多看电视与人冷漠有关系.
【答案】 A
5.调查了某地若干户家庭的年收入 x(单位:万元)和年饮食支出 y(单位:万 元),调查显示年收入 x 与年饮食支出 y 具有线性相关关系,并由调查数据得到 y 对 x 的线性回归方程:^ y=0.254x+0.321.由线性回归方程可知,家庭年收入每增 加 1 万元,年饮食支出平均增加________万元.
高考数学(文)一轮复习 9-3变量相关关系与统计案例
x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为
y1 y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d
10
板块一
板块二
板块三
板块四
高考一轮总复习 ·数学(文)
2.独立性检验 利用随机变量 K2=a+bcn+add-ab+cc2b+d(其中 n=a +b+c+d 为样本容量)来判断“两个变量有关系”的方法 称为独立性检验. 步骤如下: (1)计算随机变量 K2 的观测值 k,查表确定临界值 k0:
18
板块一
板块二
板块三
板块四
高考一轮总复习 ·数学(文)
解析 由已知数据可得有 1-0.05=95%的把握认为 “患肺病与吸烟有关”.
19
板块一
板块二
板块三
板块四
高考一轮总复习 ·数学(文)
4.[2015·湖北高考]已知变量 x 和 y 满足关系 y=-0.1x +1,变量 y 与 z 正相关.下列结论中正确的是( )
20
板块一
板块二
板块三
板块四
高考一轮总复习 ·数学(文)
5.[2017·南昌模拟]某单位为了了解用电量 y(度)与气温 x(℃)之间的关系,随机统计了某 4 天的用电量与当天气温, 并制作了对照表:
气温(℃) 18 13 10 -1 用电量(度) 24 34 38 64 由表中数据得回归直线方程^y=b^x+a^中的b^=-2,预测 当气温为-4 ℃时,用电量为___6_8____.
A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关 解析 因为 y=-0.1x+1 的斜率小于 0,故 x 与 y 负相 关.因为 y 与 z 正相关,可设 z=b^y+a^,b^>0,则 z=b^y+a^ =-0.1b^x+b^+a^,故 x 与 z 负相关.
高考数学(文)一轮复习 9-3a变量相关关系与统计案例模拟演练·提能增分
都在曲线 y=bx2-13附近波动.经计算∑ i=61xi=11,∑ i=61yi=13,
6
5
∑x2i =21,则实数 b 的值为____7____.
i=1
30
高考一轮总复习 ·数学(文)
解析 令 t=x2,则曲线的回归方程变为线性的回归方
6
6
程,即
y=bt-13,此时
t
=∑ i=1x2i =7, 62
(5,0.9),则当 x 每增加 1 个单位时,y 就( )
A.增加 1.4 个单位 B.减少 1.4 个单位
C.增加 7.9 个单位 D.减少 7.9 个单位
6
高考一轮总复习 ·数学(文)
解析 依题意得a+b5-2=0.9,故 a+b=6.5 ①,又 样本点的中心为(5,0.9),故 0.9=5b+a ②,联立①②,解 得 b=-1.4,a=7.9,则y^=-1.4x+7.9,可知当 x 每增加 1 个单位时,y 就减少 1.4 个单位,故选 B.
7
高考一轮总复习 ·数学(文)
4.通过随机询问 200 名性别不同的大学生是否爱好踢 键子运动,计算得到统计量 K2 的观测值 k≈4.892,参照附 表,得到的正确结论是( )
P(K2≥k) 0.10 0.05 0.025 k 2.706 3.841 5.024
8
高考一轮总复习 ·数学(文)
A.有 97.5%以上的把握认为“爱好该项运动与性别有 关”
()
1
1
A.16
B.8
1
1
C.4
D.2
4
高考一轮总复习 ·数学(文)
解析 依题意可知样本点的中心为34,38,则38=13×34+ a,解得 a=18.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分层限时跟踪练(五十二)(限时40分钟)[基础练]扣教材练双基一、选择题1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()图9-3-3A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关【解析】对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.【答案】 D2.(2014·湖北高考)根据如下样本数据得到的回归方程为y=bx+a,则()A.a>0,b>0 B.a>0,b<0C.a<0,b>0 D.a<0,b<0【解析】作出散点图如下:观察图象可知,回归直线y ^=bx +a 的斜率b <0,当x =0时,y ^=a >0.故a >0,b <0. 【答案】 B3.2016年元旦期间,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”【解析】 由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k =-255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选A.【答案】 A4.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1【解析】 样本点都在直线上时,其数据的估计值与真实值是相等的,正相关最强,其相关系数为1.【答案】 D5.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元【解析】 由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元). 【答案】 B 二、填空题6.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578.其中一定不正确...的结论的序号是____________. 【解析】 因为回归直线方程y ^=b ^x +a ^,当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,故①④一定错误.【答案】 ①④7.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是__________.【解析】 由题意知样本中心点为⎝⎛⎭⎫34,38,则38=13×34+a ^,解得a ^=18. 【答案】 188.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(χ2≥3.841)≈0.0根据表中数据,得到χ2=-223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.【解析】 ∵χ2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.【答案】 5% 三、解答题9.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.【解】 (1)x =100+-12-17+17-8+8+127=100;y =100+-6-9+8-4+4+1+67=100;∴s 2数学=9947=142,∴s 2物理=2507, 从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=497994=0.5,a ^=100-0.5×100=50,∴线性回归方程为y ^=0.5x +50, 当y =115时,x =130.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.10.(2015·深圳调研)某企业通过调查问卷(满分50分)的形式对本企业900名员工的工作满意度进行调查,并随机抽取了其中30名员工(16名女员工,14名男员工)的得分,如下表:(2)现用计算器求得这30名员工的平均得分为40.5分,若规定大于平均得分为“满意”,否则为“不满意”,请完成下列表格:(3)1%的前提下,认为该企业员工“性别”与“工作是否满意”有关?参考数据:【解】 (1)所以任选一名员工,他(她)的得分大于45分的概率是830=415,所以估计此次调查中,该单位约有900×415=240名员工的得分大于45分.(2)完成下列表格:(3)假设H 0根据表中数据,求得K 2的观测值 k =-215×15×16×14≈8.571>6.635,查表得P(K 2≥6.635)=0.010.∴能在犯错误的概率不超过1%的前提下,认为性别与工作是否满意有关.[能 力 练]扫盲区 提素能1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过点(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( )A .0B .1C .2D .3本题可以参考独立性检验临界值表:(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2=13.079>6.635,故有99%的把握确认这两个变量间有关系,④正确.故选B.【答案】 B2.经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系.对某小组学生每周用于数学的学习时间x 与数学成绩y 进行数据收集如表:由表中样本数据求得回归方程为y =b x +a ,则点(a ,b )与直线x +18y =100的位置关系是( )A.a ^+18b ^<100 B.a ^+18b ^>100 C.a ^+18b ^=100D.a ^+18b ^与100的大小无法确定【解析】 x =15(15+16+18+19+22)=18,y =15(102+98+115+115+120)=110,所以样本数据的中心点为(18,110), 所以110=18b ^+a ^,即点(a ^,b ^)满足a ^+18b ^=110>100. 【答案】 B3.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.【解析】 儿子和父亲的身高可列表如下:设线性回归方程y =a +b x ,由表中的三组数据可求得b =1,故a =y -b x =176-173=3,故线性回归方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.【答案】 1854.有同学在用电子邮件时发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究国籍与邮箱名称是否含有数字有关,于是我们共收集了124个邮箱名称,其中中国人的64个,外国人的60个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.那么认为“国籍和邮箱名称里是否含有数字有关”的把握性为__________.(用百分数表示)K 2=-2++++【解析】由表中数据,得K 2=70×54×64×60≈6.201,∵K 2≥5.024,∴有97.5%的把握认为“国籍和邮箱名称里是否含有数字有关”. 【答案】 97.5%5.(2015·郑州模拟)有甲乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.已知在全部105人中随机抽取1人为优秀的概率为27.(1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”? (3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6或10号的概率.参考公式:K 2=-2++++【解】 (1)(2)根据列联表中的数据,得到K 2=55×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y). 所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个.事件A 包含的基本事件有:(1,5)、(2,4)、(3,3)、(4,2)、(5,1)、(4,6)、(5,5)、(6,4),共8个,∴P(A)=836=29.6.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图9-3-4表中w i =x i ,w]=18∑ i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x.根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1i -ui -v∑n i =1i -u2,α^=v -β^ u . 【解】 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18i -wi -y∑i =18i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x. (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x)-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。