「精品」全国版高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案

合集下载

高三数学一轮总复习第九章算法统计统计案例9.3变量间的相关关系与统计案例课件.ppt

高三数学一轮总复习第九章算法统计统计案例9.3变量间的相关关系与统计案例课件.ppt

中没有充分的证据显示说谎与性别有关。
答案:D
13
4.某考察团对全国10大城市的居民人均工资收入x(万元/年)与居民人均消费 y(万元/年)进行统计调查,发现y与x具有相关关系,且y对x的回归方程为 ^y =0.66x +1.562。若某城市居民人均消费为7.675(万元/年),估计该城市人均消费占人均工 资收入的百分比约为__________。
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
构造一个随机变量K2=
a+b
nad-bc2 c+da+cb+d
,其中n=a+b+c+d为样本容
量。
7
(3)独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验。
8
1个特值——K2值的作用 当K2≥3.841时,则有95%的把握说事件A与B有关; 当K2≥6.635时,则有99%的把握说事件A与B有关; 当K2≤2.706时,则没有把握认为事件A与B有关。
15
课堂学案 考点通关
考点例析 通关特训
16
考点一
相关关系的判断
【例1】 (1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,
x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=
1 2
x+1上,则这组样本数据的样本相关系数为( )
A.在此次调查中有 95%的把握认为是否说谎与性别有关
B.在此次调查中有 99%的把握认为是否说谎与性别有关
C.在此次调查中有 99.5%的把握认为是否说谎与性别有关
D.在此次调查中没有充分的证据显示说谎与性别有关

高考数学一轮复习第九章统计与统计案例第3节变量间的相关关系与统计案例课件

高考数学一轮复习第九章统计与统计案例第3节变量间的相关关系与统计案例课件
答案:5%
[典题体验] 4.(2020·日照一中检测)两个变量 y 与 x 的回归模型 中,分别选择了 4 个不同模型,它们的相关指数 R2 如下, 其中拟合效果最好的模型是( ) A.模型 1 的相关指数 R2 为 0.98 B.模型 2 的相关指数 R2 为 0.80 C.模型 3 的相关指数 R2 为 0.50 D.模型 4 的相关指数 R2 为 0.25 解析:在两个变量 y 与 x 的回归模型中,它们的相关 指数 R2 越近于 1,模拟效果越好,在四个选项中 A 的相 关指数最大,所以拟合效果最好的是模型 1. 答案:A
如果散点图中点的分布从整体上看大致在一条直线附近,就 称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程 (1)最小二乘法. 求回归直线,使得样本数据的点到它的距离的平方和最小的 方法叫做最小二乘法. (2)回归方程.
方程^y =^b x+^a 是两个具有线性相关关系的变量的一 组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中 ^a,^b是待定参数.
注:年份代码 1~7 分别表示对应年份 2012~2018 年.
(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系, 请用相关系数 r(|r|>0.75 线性相关较强)加以说明;
(2)建立 y 与 t 的回归方程(系数精确到 0.01),预测 2020 年该地区生活垃圾无害化处理量.
附注:
解析:易求-x =9,-y =4,将样本点中心(9,4)代入
选项中验证,满足^y=0.7x-2.3,故选 C. 答案:C
3.(人 A 选修 2-3·习题改编)为了判断高中三年级学
生是否选修文科与性别的关系,现随机抽取 50 名学生,

2019-2020年新人教A版高考数学大一轮复习第九章统计统计案例第三节变量间的相关关系与统计案例课件理

2019-2020年新人教A版高考数学大一轮复习第九章统计统计案例第三节变量间的相关关系与统计案例课件理

i=1
i=1
^b=



n
xi- x 2
n
xi2-n x 2

i=1
i=1
^a= y -^b x .
n
xi- x yi- y
i=1
^a= y -^b x ,^b=

n
xi- x 2
i=1
其中 x =n1i=n1xi, y =n1i=n1yi,( x , y )称为样本点的中心.
A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关
解析:选 C.因为 y=-0.1x+1 的斜率小于 0,故 x 与 y 负相关.因 为 y 与 z 正相关,可设 z=^by+^a,^b>0,则 z=^by+^a=-0.1^bx+^b+^a, 故 x 与 z 负相关.
四基精演练 1.思考辨析(在括号内打“√”或“×”) (1)利用样本点的散点图可以直观判断两个变量的关系是否可以用 线性关系来表示.( √ ) (2)通过回归方程^y =^bx+^a 可以估计和观测变量的取值和变化趋 势.( √ ) (3)任何一组数据都对应着一个回归直线方程.( × ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值 越大.( √ )
第三节 变量间的相关关系与统计案例
教材细梳理
知识点 1 变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相 关关系.与函数关系不同,相关关系是一种__非__确__定__性____关系.
(2)在散点图中,点散布在从左下角到右上角的区域内,两个变量的 这种相关关系称为___正__相__关_____,点散布在左上角到右下角的区域内, 两个变量的相关关系称为___负__相__关_____.

2021届高考数学一轮复习第九篇统计与统计案例第3节变量的相关性与统计案例训练理新人教版

2021届高考数学一轮复习第九篇统计与统计案例第3节变量的相关性与统计案例训练理新人教版

2021届高考数学一轮复习第九篇统计与统计案例第3节变量的相关性与统计案例训练理新人教版知识点、方法题号散点图1,14回来分析3,4,6,8,10,12独立性检验2,5,7,9,11综合应用13,14基础巩固(时刻:30分钟)1.观看下列散点图,其中两个变量的相关关系判定正确的是( D )(A)a为正相关,b为负相关,c为不相关(B)a为负相关,b为不相关,c为正相关(C)a为负相关,b为正相关,c为不相关(D)a为正相关,b为不相关,c为负相关解析:依照散点图,由相关性可知:图a各点散布在从左下角到右上角的区域里,是正相关;图b中各点分布不成带状,相关性不明确,因此不相关;图c中各点分布在从左上方到右下方的区域里,是负相关.故选D.2.通过随机询问200名性别不同的大学生是否爱好踢毽子运动,运算得到统计量K2的观测值P(K2≥k0) 0.10 0.05 0.025 k0 2.706 3.841 5.024(B)有97.5%以上的把握认为“爱好该项运动与性别无关”(C)在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”(D)在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”解析:因为K2的观测值k≈4.892>3.841,因此有95%以上的把握认为“爱好该项运动与性别有关”.故选C.3.依照如下样本数据:x 3 4 5 6 7y 4.0 a-5.4 -0.5 0.5 b-0.6(A)增加1.4个单位(B)减少1.4个单位(C)增加7.9个单位(D)减少7.9个单位解析:依题意得=0.9,故a+b=6.5, ①又样本点的中心为(5,0.9),故0.9=5b+a, ②联立①②,解得b=-1.4,a=7.9,则=-1.4x+7.9,可知当x每增加1个单位时,y就减少1.4个单位.故选B.4.(2021·山东济宁市一模)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如表所示:x 16 17 18 19y 50 34 41 31由表可得回来直线方程=x+中的=-4,据此模型推测零售价为20元时,每天的销售量为( D )(A)26个 (B)27个(C)28个(D)29个解析: ==17.5,==39.将(,)代入回来方程得39=-4×17.5+,解得=109.因此回来方程为=-4x+109.当x=20时, =-4×20+109=29.故选D.Yy1y2总计Xx1 a 10 a+10x2 c 30 c+30总计60 40 100对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( A )(A)a=45,c=15 (B)a=40,c=20(C)a=35,c=25 (D)a=30,c=30解析:当与相差越大,X与Y有关系的可能性越大,即a,c相差越大,与相差越大.故选A.6.(2021·延边州仿真)某公司在2020~2021年的收入与支出情形如表所示:收入x(亿元) 2.2 2.6 4.0 5.3 5.9支出y(亿元) 0.2 1.5 2.0 2.5 3.8 依照表中数据可得回来直线方程为=0.8x+,依此估量假如2020年该公司收入为7亿元时的支出为( B )(A)4.5亿元(B)4.4亿元(C)4.3亿元(D)4.2亿元解析: =×(2.2+2.6+4.0+5.3+5.9)=4, =×(0.2+1.5+2.0+2.5+3.8)=2,因此=2-0.8×4=-1.2,因此回来直线方程为=0.8x-1.2,当x=7时, =0.8×7-1.2=4.4(亿元),即2020年该公司收入为7亿元时的支出为4.4亿元.故选B.7.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:喜爱打篮球不喜爱打篮球总计男生20 5 25 女生10 15 25 总计30 20 50则在犯错误的概率不超过的前提下认为喜爱打篮球与性别有关(请用百分数表示).P(K2≥k0) 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.706 3.841 5.024 6.635 7.879 10.828解析:K2==≈8.333>7.879.答案:0.5%8.某数学老师身高176 cm,他爷爷、父亲和亲小孩的身高分别是173 cm、170 cm和182 cm.因亲小孩的身高与父亲的身高有关,该老师用线性回来分析的方法推测他孙子的身高为cm.父亲身高173 170 176亲小孩身高170 176 182设回来直线方程=+x,由表中的三组数据可求得=1,故=-=176-173=3,故回来直线方程为=3+x,将x=182代入得孙子的身高为185 cm.答案:185能力提升(时刻:15分钟)9.为了研究高中学生对乡村音乐的态度(喜爱和不喜爱两种态度)与性别的关系,运用2×2列联表进行独立性检验,经运算K2=8.01,则认为“喜爱乡村音乐与性别有关系”的把握性约为( C )P(K2≥k0) 0.100 0.050 0.025 0.010 0.001 k0 2.706 3.841 5.024 6.635 10.828 (A)0.1% (B)1% (C)99% (D)99.9%解析:因为K2=8.01>6.635,对比表格:P(K2≥k0) 0.100 0.050 0.025 0.010 0.001 k0 2.706 3.841 5.024 6.635 10.828 因此有99%的把握说喜爱乡村音乐与学生性别有关系.故选C.10.(2021·河南濮阳市一模)在利用最小二乘法求回来方程=0.67x+54.9时,用到了表中的5x 10 20 30 40 50 y 62 a 75 81 89(A)68 (B)70 (C)75 (D)72解析:由题意可得= (10+20+30+40+50)=30,= (62+a+75+81+89),因为回来直线=0.67x+54.9过样本点的中心,因此 (a+307)=0.67×30+54.9,解得a=68.故选A.11.(2021·福建省高中毕业班质检)某公司为了增加其商品的销售利润,调查了该商品投入的广告费用x与销售利润y的统计数据如表:广告费用x(万元) 2 3 5 6销售利润y(万元) 5 7 9 11由表中数据,得线性回来方程=x+ (=,=-),则下列结论错误的是( D )(A) >0 (B) >0(C)直线过点(4,8) (D)直线过点(2,5)解析:变量x,y为正相关,故>0,结合散点图(图略)可知, >0,样本点的中心为(4,8),故直线过点(4,8),只能是选项D中的结论错误.12.为了判定高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:理科文科总计男13 10 23女7 20 27总计20 30 50已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.依照表中数据,得到K2的观测值k=≈4.844,则有的把握认为选修文科与性别有关.解析:由题意知,K2=≈4.844,因为5.024>4.844>3.841,因此有95%的把握认为选修文科与性别有关.答案:95%13.某都市随机抽取一年(365天)内100天的空气质量指数AQI的监测数据,结果统计如下:AQI [0,50] (50,100](100,150]150,200](200,250](250,300](300,+∞)空气质量优良轻微污染轻度污染中度污染中度重污染重度污染天数 4 13 18 30 9 11 15 (1)若某企业每天由空气污染造成的经济缺失S(单位:元)与空气质量指数AQI(记为ω)的关系式为S=试估量在本年内随机抽取一天,该天经济缺失S大于400元且不超过700元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面2×2列联表,并判定能否有95%的把握认为该市本年空气重度污染与供暖有关?附:P(K2≥k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828K2=非重度污染重度污染合计供暖季非供暖季合计100 解:(1)记“在本年内随机抽取一天,该天经济缺失S大于400元且不超过700元”为事件A. 由400<S≤700,即400<3ω-200≤700,解得200<ω≤300,其满足条件天数为20.因此P(A)==.非重度污染重度污染合计供暖季22 8 30非供暖季63 7 70合计85 15 100K2=≈4.575>3.841,因此有95%的把握认为该市本年空气重度污染与供暖有关.14. (2020·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的阻碍.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(x i-)2(w i-)2(x i-)(y i-) (w i-)(y i-) 46.6 563 6.8 289.8 1.6 1 469 108.8表中w i=,=w i,(1)依照散点图判定,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回来方程类型?(给出判定即可,不必说明理由)(2)依照(1)的判定结果及表中数据,建立y关于x的回来方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x,依照(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:关于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回来直线v=α+βu的斜率和截距的最小二乘估量分别为=,=-.解:(1)由题目散点图能够判定,y=c+d适宜作为年销售量y关于年宣传费x的回来方程类型.(2)令w=,先建立y关于w的线性回来方程.由于===68,=-=563-68×6.8=100.6,因此y关于w的线性回来方程为=100.6+68w,因此y关于x的回来方程为=100.6+68. (3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,年利润z的预报值=576.6×0.2-49=66.32.②依照(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.因此当==6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。

第九章 第三节 变量间的相关关系、统计案例

第九章  第三节  变量间的相关关系、统计案例

A.变量x与y正相关,u与v正相关 .变量 与 正相关 正相关, 与 正相关 B.变量x与y正相关,u与v负相关 .变量 与 正相关 正相关, 与 负相关 C.变量x与y负相关,u与v正相关 .变量 与 负相关 负相关, 与 正相关 D.变量x与y负相关,u与v负相关 .变量 与 负相关 负相关, 与 负相关
[究 疑 点] 究 1.相关关系与函数关系有何异同点? .相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 函数关系是一种确定关系, 不同点: 函数关系是一种确定关系 种非确定的关系; 种非确定的关系; (2)函数关系是一种因果关系,而相关关系不一定是因 函数关系是一种因果关系, 函数关系是一种因果关系 果关系,也可能是伴随关系. 果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 .根据独立性检验的基本思想, 关系,这样的结论一定是正确的吗? 关系,这样的结论一定是正确的吗? 提示:在实际问题中, 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如: 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 我们得到“吸烟与患肺癌有关”的结论, 我们得到“吸烟与患肺癌有关”的结论,并且有超过 99%的把握说明吸烟与患肺癌有关系,或者这个结论 的把握说明吸烟与患肺癌有关系, 的把握说明吸烟与患肺癌有关系 出错的概率为0.01以下.但实际上一个人吸烟也不一 以下. 出错的概率为 以下 定会患肺癌, 定会患肺癌,这是数学中的统计思维与确定性思维差 异的反映. 异的反映.

2019版数学(理)高分计划一轮高分讲义:第9章 统计与统计案例 9.3 变量间的相关关系与统计案例

2019版数学(理)高分计划一轮高分讲义:第9章 统计与统计案例 9.3 变量间的相关关系与统计案例

9.3变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2。

(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归方程为错误!=错误!x+错误!,则错误!=错误!=错误!,错误!=错误!-错误!错误!.其中,错误!是回归方程的斜率,错误!是在y轴上的截距,错误!=错误!错误!x i,错误!=错误!错误!y i,(错误!,错误!)称为样本点的中心.说明:回归直线错误!=错误!x+错误!必过样本点的中心(错误!,错误!),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r=错误!,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量正相关;②当r<0时,表明两个变量负相关;③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|〉0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K=错误!,其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.[诊断自测]1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(2)通过回归方程错误!=错误!x+错误!可以估计和观测变量的取值和变化趋势.()(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案(1)√(2)√(3)√(4)×2.教材衍化(1)(必修A3P94A组T3)某种产品的广告费用支出x(单位:万元)与销售额y(单位:万元)之间有如下的对应数据:错误!错误!错误!,则此直线一定经过点( )A .(5,60)B .(5,50)C .(6,50)D .(8,70) 答案 B解析 回归直线样本点的中心为(x -,错误!),而错误!=错误!×(2+4+5+6+8)=5,错误!=错误!×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:则有________的把握认为性别与是否读生产日期有关. 答案 99.5%解析 由表中数据得k =错误!≈8。

高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件

高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件

附:
P(K2≥k0) 0.100 0.050 0.025 0.010 0.001
A.0.1%
k0 2.706 3.841 5.024 6.635 10.828 B.1%
C.99%
D.99.9%
C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1- 0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg 箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=20100×0×621×006×6-963×4×103482≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
() (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优 秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) [答案] (1)× (2)√ (3)√ (4)×
2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近
视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,
关关系,故①正确;由散点图知用y=c1ec2x拟合比用 ^y = b^ x+ ^a 拟合效果要好,
则R
2 1
>R
2 2
,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③
错误.]
[规律方法] 判定两个变量正、负相关性的方法 1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. 2相关系数:r>0时,正相关;r<0时,负相关. 3线性回归方程中: 时,正相关; 时,负相关.

(全国版)高考数学一轮复习 第9章 统计、统计案例 第3讲 变量相关关系与统计案例学案-人教版高三全

(全国版)高考数学一轮复习 第9章 统计、统计案例 第3讲 变量相关关系与统计案例学案-人教版高三全

第3讲 变量相关关系与统计案例板块一 知识梳理·自主学习[必备知识]考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.考点2 回归方程与回归分析 1.线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定数.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i -x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:在具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,x =1n(x 1+…+x n ),y =1n(y 1+…+y n ),a ^=y -b ^x ,(x ,y )称为样本点的中心.(3)相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x )2∑i =1n(y i -y)2,当r >0时,两变量正相关,当r <0时,两变量负相关,当|r |≤1且|r |越接近于1,相关程度越强,当|r |≤1且|r |越接近于0,相关程度越弱.考点3 独立性检验 1.独立性检验的有关概念 (1)分类变量可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量. (2)2×2列联表假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2利用随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:(1)计算随机变量K 2的观测值k ,查表确定临界值k 0:00则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.[必会结论]1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内; 负相关:样本点分布在从左上角到右下角的区域内. 3.回归直线y ^=b ^x +a ^必过样本点的中心.[考点自测]1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)× (2)√ (3)√ (4)× 2.下面是一个2×2列联表其中A .94 72 B .52 50 C .52 74 D .74 52 答案 C解析 由a +21=73,得a =52,a +22=b ,得b =74.故选C.3.[课本改编]四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 正相关指的是y 随x 的增大而增大.负相关指的是y 随x 的增大而减小,故不正确的为①④,故选D.4.从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A .70.09 kgB .70.12 kgC .70.55 kgD .71.05 kg 答案 B解析 x =160+165+170+175+1805=170,y =63+66+70+72+745=69.∵回归直线过点(x ,y ),∴将点(170,69)代入回归直线方程得y ^=0.56x -26.2,代入x =172 cm ,则其体重为70.12 kg.5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算得K 2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).答案 有关解析 K 2>10.828就有99.9%的理由认为两个量是有关的.板块二 典例探究·考向突破 考向线性回归分析例 1 [2018·金华模拟]某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:月份 1 2 3 4 5 6 销售量x (万件)10 1113 12 86 利润y (万元)222529261612(1)根据2至5月份的数据,求出y 关于x 的回归直线方程y =b x +a ;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的回归直线方程是理想的,试问所得回归直线方程是否理想?参考公式:b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x -2,a ^=y --b ^x -.解 (1)根据表中2至5月份的数据, 计算得x -=11,y -=24,∑5i =2x i y i =11×25+13×29+12×26+8×16=1092,∑5i =2x 2i =112+132+122+82=498, 则b ^=∑5i =2x i y i -4x -y -∑5i =2x 2i -4x -2=1092-4×11×24498-4×112=187, a ^=y --b ^x -=24-187×11=-307.故y 关于x 的回归直线方程为y ^=187x -307.(2)当x =10时,y ^=187×10-307=1507,此时⎪⎪⎪⎪⎪⎪1507-22<2;当x =6时,y ^=187×6-307=787,此时⎪⎪⎪⎪⎪⎪787-12<2.故所得的回归直线方程是理想的. 触类旁通(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.【变式训练1】 PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:(1)根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y =b x +a ;(2)若周六同一时间段车流量是200万辆,试根据(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?( 参考公式:b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x ;参考数据:∑5i =1x i =540,∑5i =1y i =420 ) 解 (1)由条件可知,x =15∑5i =1x i =5405=108,y =15∑5i =1y i =4205=84, ∑5i =1(x i -x )(y i -y )=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144,∑5i =1(x i -x )2=(-8)2+(-6)2+02+62+82=200.b ^=∑5i =1(x i -x )(y i -y )∑5i =1 (x i -x )2=144200=0.72, a ^=y -b ^x =84-0.72×108=6.24,故y 关于x 的线性回归方程为y ^=0.72x +6.24.(2)当x =200时,y ^=0.72×200+6.24=150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米.考向两个变量的相关性命题角度1 相关关系的判断例 2 对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.命题角度2 相关系数的意义例 3 [2017·全国卷Ⅰ]为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x =116∑i =116x i =9.97,s =116∑i =116 (x i -x )2=116(∑i =116x 2i -16x 2)≈0.212, ∑i =116(i -8.5)2≈18.439,∑i =116(x i -x -)(i -8.5)=-2.78,其中x i 为抽取的第i个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(x --3s ,x -+3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x)2∑i =1n(y i -y -)2.0.008≈0.09.解 (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数r =∑i =116(x i -x -)(i -8.5)∑i =116(x i -x -)2∑i =116(i -8.5)2≈-2.780.212×16×18.439≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(ⅰ)由于x -=9.97,s ≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x --3s ,x -+3s )以外,因此需对当天的生产过程进行检查.(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为 115(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i =116x 2i ≈16×0.2122+16×9.972≈1591.134, 剔除第13个数据,剩下数据的样本方差为 115(1591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.考向独立性检验例 4 [2017·全国卷Ⅱ]海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法0.01).附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表K 2=100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).触类旁通利用统计量K 2进行独立性检验的步骤(1)根据数据列出2×2列联表; (2)根据公式计算K 2找观测值k ;(3)比较观测值k 与临界值表中相应的检验水平,作出统计推断.【变式训练2】 某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为180=12.(2)根据统计数据,可得2×2列联表如下:∴K 2=105×75×90×90=7≈5.1429>5.024.∴在犯错误的概率不超过0.025的前提下可以认为科类的选择与性别有关.核心规律1.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b ^,常数项为a ^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法,主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.3.根据K 2的值可以判断两个分类变量有关的可信程度,并用来指导科研和生活实际. 满分策略1.相关关系与函数关系的区别相关关系与函数关系不同,函数关系中的两个变量间是一种确定性关系.例如正方形面积S 与边长x 之间的关系S =x 2就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提.2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.板块三 启智培优·破译高考数学思想系列10———线性回归中的函数思想[2015·全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x -错误错∑8i =1(x i-x -)2 ∑8i =1(w i-w -)2∑8i =1(x i-x -)(y i -y -)∑8i =1(w i-w -)(y i -y -)46.65636.8289.81.61469108.8表中w i =x i ,w -=8∑i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u -)(v i -v -)∑ni =1(u i -u -)2,α^=v --β^u -. 解题视点 求解第(1)问时,利用散点图结合学过的函数图象直接判断即可.求解第(2)问时,根据题目提供的数据及公式求出相关量,就可写出回归方程.求解第(3)问中的第一小问时,把x =49直接代入回归方程求解出y 的预报值,再代入年利润z 与x ,y 的关系式求解即可;求解第二小问时,把y 与x 的关系式代入年利润z 与x ,y 的关系式,将z 转化为关于x 的二次函数求最值即可.解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1 (w i -w -)(y i -y -)∑8i =1 (w i -w -)2=108.81.6=68, c ^=y --d ^w -=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6,年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.答题启示 利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.解决此类问题的步骤为:(1)将表中的各对数据在平面直角坐标系中描点,得到散点图;(2)按求回归方程的步骤和公式,写出回归方程;(3)利用回归方程进行分析,分析中注意函数思想的应用.跟踪训练某品牌2017款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S 店分别进行了两天试销售,得到如下数据:(1)分别以五家4S 店的平均单价与平均销量为散点,求出单价与销量的回归直线方程y ^=b ^x +a ^;(2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)?附:b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 解 (1)五家4S 店的平均单价和平均销量分别为(18.3,83),(18.5,80),(18.7,74),(18.4,80),(18.6,78),∴x -=18.3+18.5+18.7+18.4+18.65=18.5,y -=83+80+74+80+785=79,∴b ^=-0.2×4+0×1+0.2×(-5)+(-0.1)×1+0.1×(-1)0.04+0+0.04+0.01+0.01=-20.1=-20.∴a ^=y --b ^x -=79-(-20)×18.5=79+370=449, ∴y ^=-20x +449.(2)设该款汽车的单价应为x 万元, 则利润f (x )=(x -12)(-20x +449) =-20x 2+689x -5388,f ′(x )=-40x +689,令-40x +689=0,解得x ≈17.2,故当x ≈17.2时,f (x )取得最大值.∴要使该款汽车获得最大利润,该款汽车的单价约为17.2万元.板块四 模拟演练·提能增分[A 级 基础达标]1.[2018·湖北模拟]已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案 C解析 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.2.[2018·桂林模拟]根据如下样本数据:x 3 4 5 6 7 8 y4.2.5-0.50.5-2.0-3.0得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0答案 B解析 由表中数据画出散点图,如图,由散点图可知b <0,a >0.3.通过随机询问200名性别不同的大学生是否爱好踢键子运动,计算得到统计量K 2的观测值k ≈4.892,参照附表,得到的正确结论是( )P (K 2≥k )0.10 0.05 0.025 k2.7063.8415.024AB .有97.5%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关” 答案 C解析 因为K 2的观测值k ≈4.892>3.841,所以有95%以上的把握认为“爱好该项运动与性别有关”.4.[2018·洛阳模拟]为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=bx +a 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案 B解析 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y =x 的斜率要小一些,综上可知应选B.5.某产品的广告费用x (单位:万元)与销售额y (单位:万元)的统计数据如下表:广告费用x 4 2 3 5 销售额y49263954根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 答案 B解析 x =4+2+3+54=3.5,y =49+26+39+544=42.因为回归直线过点(x ,y ),所以42=9.4×3.5+a ^,解得a ^=9.1.故回归方程为y ^=9.4x +9.1.所以当x =6时,y ^=6×9.4+9.1=65.5.6.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:已知P (k =50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.答案 95%解析 由题意知,k =50×(13×20-10×7)223×27×20×30≈4.844,因为 5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.7.[2018·沧州七校联考]某单位为了制定节能减排的计划,随机统计了某4天的用电量y (单位:度)与当天气温x (单位:℃),并制作了对照表(如表所示).由表中数据,得线性回归方程y ^=-2x +a ^,当某天的气温为-5 ℃时,预测当天的用电量约为________度.答案 解析 气温的平均值x -=14×(18+13+10-1)=10,用电量的平均值y -=14×(24+34+38+64)=40,因为回归直线必经过点(x -,y -),将其代入线性回归方程得40=-2×10+a ^,解得a ^=60,故回归方程为y ^=-2x +60.当x =-5时,y ^=(-2)×(-5)+60=70,所以当某天的气温为-5 ℃时,预测当天的用电量约为70度.8.已知x ,y 之间的一组数据如下表:对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =5x -5;④y =32x .则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).答案 ③解析 由题意知x -=4,y -=6,∴b ^=∑5i =1 (x i -x -)(y i -y -)∑5i =1(x i -x -)2=85,∴a ^=y --b ^x -=-25,∴y ^=85x -25,∴填③. 9.由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.(1)求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; (2)①判断变量x 与y 之间是正相关还是负相关; ②当使用年限为8年时,试估计支出的维修费是多少. 解 (1)∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2.(2)①由(1)知b ^=1.2>0,∴变量x 与y 之间是正相关.②由(1)知,当x =8时,y ^=9.8,即使用年限为8年时,支出的维修费约是9.8万元. 10.[2018·聊城模拟]在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.(1)求a 的值,并计算所抽取样本的平均值x -(同一组中的数据用该组区间的中点值作代表);(2)填写下面的2×2列联表,并判断能否有超过95%的把握认为“获奖与学生的文、理科有关”?文科生 理科生 合计 获奖 5 不获奖合计200K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828x -=45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69.(2)2×2列联表如下:文科生 理科生 合计 获奖 5 35 40 不获奖45115160因为K 2=40×160×50×150=6≈4.167>3.841,所以有超过95%的把握认为“获奖与学生的文、理科有关”.[B 级 知能提升]1.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6.则实数a ^的值是( )A.116 B.18 C.14 D.12答案 B解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18.2.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为7,则下列说法正确的是( )参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )附表:B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A ,B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C 正确.3.[2018·赣州模拟]在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i =21,则实数b 的值为________. 答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 4.某校开展“翻转合作学习法”教学试验,经过一年的实践后,对“翻转班”和“对照班”的220名学生的数学学习情况进行测试,按照大于或等于120分为“成绩优秀”,120分以下为“成绩一般”统计,得到如下的2×2列联表:秀与翻转合作学习法”有关;(2)为了交流学习方法,从这次测试数学成绩优秀的学生中,用分层抽样的方法抽出6名学生,再从这6名学生中抽出3名交流学习方法,求至少抽到一名“对照班”学生的概率.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解 (1)K 2=220×(20×70-40×90)260×160×110×110=556≈9.167<10.828,∴在犯错误的概率不超过0.001的前提下,不能认为“成绩优秀与翻转合作学习法”有关.(2)设从“翻转班”中抽取x 人,从“对照班”中抽取y 人,由分层抽样的定义可知660=x 40=y20,解得x =4,y =2. 在这6名学生中,设“对照班”的2名学生分别为A 1,A 2,“翻转班”的4名学生分别为B 1,B 2,B 3,B 4.则所有的抽样情况如下,{A 1,A 2,B 1},{A 1,A 2,B 2},{A 1,A 2,B 3},{A 1,A 2,B 4}, {A 1,B 1,B 2},{A 1,B 1,B 3},{A 1,B 1,B 4},{A 1,B 2,B 3}, {A 1,B 2,B 4},{A 1,B 3,B 4},{A 2,B 1,B 2},{A 2,B 1,B 3}, {A 2,B 1,B 4},{A 2,B 2,B 3},{A 2,B 2,B 4},{A 2,B 3,B 4}, {B 1,B 2,B 3},{B 1,B 2,B 4},{B 1,B 3,B 4},{B 2,B 3,B 4}, 共20种.其中至少有一名“对照班”学生的情况有16种.记事件A 为至少抽到一名“对照班”学生交流学习方法,则P (A )=1620=45=0.8.5.[2018·太原模拟]假设关于某种设备的使用年限x (年)与所支出的维修费用y (万元)有如以下的统计数据:已知∑i =1x 2i =90,∑i =1y 2i =140.8,∑i =1x i y i =112.3,79≈8.9,2≈1.4. (1)求x -,y -;(2)对x ,y 进行线性相关性检验;(3)如果x 与y 具有线性相关关系,求出回归直线方程; (4)估计使用年限为10年时,维修费用约是多少? 解 (1)x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.(2)因为∑5i =1x i y i -5x -y -=112.3-5×4×5=12.3, ∑5i =1x 2i -5x -2=90-5×16=10, ∑5i =1y 2i -5y -2=140.8-125=15.8, 所以r =12.310×15.8=12.3158≈0.987.因为0.987>0.75,所以x 与y 之间具有很强的线性相关关系. (3)因为b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=12.310=1.23,a ^=y --b ^x -=5-1.23×4=0.08,所以所求的回归直线方程为y ^=1.23x +0.08.(4)当x =10时,y ^=1.23×10+0.08=12.38,即估计使用年限为10年时,维修费用约为12.38万元.。

高考数学一轮复习 第9章 统计与统计案例 第3讲 变量间的相关关系与统计案例创新教学案(含解析)新人

高考数学一轮复习 第9章 统计与统计案例 第3讲 变量间的相关关系与统计案例创新教学案(含解析)新人

第3讲变量间的相关关系与统计案例[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测]从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2021年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回归方程(1)相关关系的分类02右上角的区域内,如图1;①正相关:从散点图上看,点散布在从□01左下角到□03左上角到□04右下角的区域内,如图②负相关:从散点图上看,点散布在从□2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□05一条06回归直线.直线附近,那么称这两个变量之间具有线性相关关系,这条直线叫做□(3)回归方程①最小二乘法:使得样本数据的点到回归直线的□07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,那么b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x-2,a ^=y--b ^x -.其中,b ^是回归方程的□08斜率,a ^是在y 轴上的□09截距,x -=1n ∑n i =1x i ,y -=1n ∑n i =1y i ,□10(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2i =1n (y i -y -)2,用它来衡量两个变量间的线性相关关系.①当r >0时,说明两个变量□11正相关; ②当r <0时,说明两个变量□12负相关; ③r 的绝对值越接近1,说明两个变量的线性相关性□13越强;r 的绝对值接近于0,说明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.2.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)残差平方和为∑ni =1(y i -y ^i )2. (3)相关指数:R 2=1-□01∑ni =1 (y i -y ^i )2∑n i =1 (y i-y -)2.3.独立性检验(1)分类变量:变量的不同“值〞表示个体所属的□01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□02频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=□03n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =□04a +b +c +d 为样本容量.(3)独立性检验利用随机变量□05K 2来判断“两个分类变量□06有关系〞的方法称为独立性检验.1.概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)“名师出高徒〞可以解释为教师的教学水平与学生水平成正相关关系.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,那么由观测数据计算得到的K 2的观测值越大.( ) (5)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,那么他有99%的可能物理优秀.( )答案 (1)× (2)√ (3)√ (4)√ (5)×2.小题热身(1)设回归方程为y ^=3-5x ,那么变量x 增加一个单位时( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.应选B.(2)在以下各图中,两个变量具有相关关系的图是( )A .①②B .①③C .②④D .②③答案 D解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性.(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100算得K 2=58×42×35×65≈9.616.附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关〞B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关〞C .有99%以上的把握认为“生育意愿与城市级别有关〞D .有99%以上的把握认为“生育意愿与城市级别无关〞 答案 C解析 因为K 2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关〞.(4)变量x ,y 具有线性相关关系,它们之间的一组数据如下表所示,假设y 关于x 的回归方程为y ^=1.3x -1,那么m =________.x 1 2 3 4 y0.11.8m4答案 3.1解析 由得x -=14×(1+2+3+4)=2.5, y -=14(0.1+1.8+m +4)=14×(5.9+m ).因为(x -,y -)在直线y ^=1.3x -1上,所以y -=1.3×2.5-1=2.25, 所以14×(5.9+m )=2.25,解得m =3.1.题型一 相关关系的判断1.以下两变量中不存在相关关系的是()①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A.①②⑤B.①③⑥C.④⑤⑥D.②⑥答案 A解析根据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.以下命题中正确的为()A.线性相关系数r越大,两个变量的线性相关性越强B.线性相关系数r越小,两个变量的线性相关性越弱C.残差平方和越小的模型,模型拟合的效果越好D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好答案 C解析线性相关系数r的绝对值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.3.对四组数据进行统计,获得如下图的散点图,关于其相关系数的比较,正确的选项是()A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3答案 A解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,那么r 2<r 4<0<r 3<r 1.应选A.1.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.|r |越趋近于1相关性越强.见举例说明3.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关. 2.判断拟合效果的两个方法(1)残差平方和越小,拟合效果越好.见举例说明2. (2)相关指数R 2越大,越接近于1,拟合效果越好.1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,那么这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 所有点均在直线上,那么样本相关系数最大即为1,应选D.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④答案 D解析 由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.题型二 回归分析角度1 线性回归方程及应用1.某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x /年 1 2 3 4 5 维修总费用y /万元0.51.22.23.34.5根据上表可得y 关于x 的线性回归方程y ^=b ^x -0.69,假设该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )A .8年B .9年C .10年D .11年答案 D解析 由y 关于x 的线性回归直线y ^=b ^x -0.69过样本点的中心(3,2.34),得b ^=1.01,即线性回归方程为y ^=1.01x -0.69,令y ^=1.01x -0.69=10,得x ≈10.6,所以预测该汽车最多可使用11年.应选D.2.(2019·东北三省三校三模)现代社会,“鼠标手〞已成为常见病.一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(sEMG)等指标.(1)10名实验对象实验前、后握力(单位:N)测试结果如下: 实验前:346,357,358,360,362,362,364,372,373,376. 实验后:313,321,322,324,330,332,334,343,350,361.完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N?(2)实验过程中测得时间t (分)与10名实验对象前臂表面肌电频率(sEMG)的中位数y (Hz)的九组对应数据(t ,y )为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立y 关于时间t 的线性回归方程;(3)假设肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?参考数据:∑9i =1(t i -t )(y i -y -)=-1800; 参考公式:回归方程y ^=b ^t +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t )(y i -y -)∑ni =1 (t i-t )2,a ^=y --b ^t 解 (1)根据题意得到茎叶图如以下图所示:由图中数据可得x -1=110×(346+357+358+360+362+362+364+372+373+376)=363,x -2=110×(313+321+322+324+330+332+334+343+350+361)=333, ∴x -1-x -2=363-333=30(N), ∴故实验前后握力的平均值下降了30 N.(2)由题意得t =19×(0+20+40+60+80+100+120+140+160)=80, y -=19×(87+84+86+79+78+78+76+77+75)=80,∑9i =1 (t i -t )2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24000,又∑9i =1(t i -t )(y i -y -)=-1800,∴b ^=∑9i =1(t i -t )(y i -y -)∑9i =1 (t i-t )2=-180024000=-0.075, ∴a ^=y --b ^t =80-(-0.075)×80=86,∴y 关于时间t 的线性回归方程为y ^=-0.075t +86.(3)九组数据中40分钟到60分钟y 的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了.角度2 非线性回归模型的应用3.(2019·某某二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量x i (单位:亿元)对年销售额y i (单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y =α+βx 2,②y =e λx +t ,其中α,β,λ,t 均为常数,e 为自然对数的底数.现该公司收集了近12年的年研发资金投入量x i 和年销售额y i 的数据,i =1,2,…,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值.令u i =x 2,v i =ln y i (i =1,2,…,12),经计算得如下数据: x - y - i =112(x i -x -)2 i =112(y i -y -)2 u - v - 20 66770 2004604.20i =112(u i -u -)2 i =112(u i -u -)·(y i -y -) i =112(v i -v -)2 i =112(x i -x -)·(v i -v -) 3125000 215000.308 14(1)设{u i }和{y i }的相关系数为r 1,{x i }和{v i }的相关系数为r 2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)①根据(1)的选择及表中数据,建立y 关于x 的回归方程(系数精确到0.01); ②假设下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 是多少亿元?附:相关系数r =i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2i =1n (y i -y -)2,回归直线y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2,a ^=y --b ^x -;参考数据:308=4×77,90≈9.4868,e 4.4998≈90.解 (1)由题意,r 1=i =112(u i -u -)(y i -y -)i =112(u i -u -)2i =112(y i -y -)2=215003125000×200=2150025000=4350=0.86,r 2=i =112(x i -x -)(v i -v -)i =112(x i -x -)2i =112(v i -v -)2=14770×0.308=1477×0.2=1011≈0.91,那么|r 1|<|r 2|,因此从相关系数的角度,模型y =e λx +t 的拟合程度更好.(2)①先建立v 关于x 的线性回归方程, 由y =e λx +t ,得ln y =t +λx ,即v =t +λx ;由于λ=i =112(x i -x -)(v i -v -)i =112(x i -x -)2=14770≈0.018,t =v --λx -=4.20-0.018×20=3.84,所以v 关于x 的线性回归方程为v ^=0.02x +3.84, 所以ln y ^=0.02x +3.84, 那么y ^=e 0.02x +3.84.②下一年销售额y 需达到90亿元,即y =90, 代入y ^=e 0.02x +3.84,得90=e 0.02x +3.84, 又e 4.4998≈90,所以4.4998≈0.02x +3.84, 所以x ≈4.4998-3.840.02=32.99,所以预测下一年的研发资金投入量约是32.99亿元.1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).见举例说明1.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,假设具有线性相关关系,那么可通过线性回归方程来估计和预测.2.非线性回归方程的求法(1)根据原始数据(x ,y )作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见举例说明3.1.(2019·某某二模)一汽车销售公司对开业4年来某种型号的汽车“五一〞优惠金额与销售量之间的关系进行分析研究并做了记录,得到如下资料.日期 第1年 第2年 第3年 第4年 优惠金额x (千元) 10 11 13 12 销售量y (辆)22243127(1)用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)假设第5年优惠金额为8.5千元,估计第5年的销售量y (辆)的值.参考公式:b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -.解 (1)由题意,得x -=11.5,y -=26,∑i =14x i y i =1211,∑i =14x 2i =534,∴b ^=∑i =14x i y i -4x -y -∑i =14x 2i -4x-2=1211-4×11.5×26534-4×11.52=155=3,那么a ^=y --b ^x -=26-3×11.5=-8.5.∴y ^=3x -8.5.(2)当x =8.5时,y ^=17,∴第5年优惠金额为8.5千元时,销售量估计为17辆.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y =bx +a ,②y =c e dx拟合,得到回归方程分别为y ^(1)=0.24x -8.81,y ^(2)=1.70e 0.022x ,作残差分析,如下表:(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)假设残差大于1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 解 (1)根据残差分析,把x =80代入y ^(1)=0.24x -8.81中,得y ^(1)=10.39. ∵10-10.39=-0.39, ∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62, 模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7. ∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg 的样本点被剔除后,剩余的数据如下表:体重y (kg)6 8 10 15 18 e ^(1)0.410.01-0.39-0.190.41由公式b ^=∑n i =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2,a ^=y --b ^x -, 得回归方程为y ^=0.24x -8.76.题型三 独立性检验1.假设有两个分类变量X 和Y 的2×2列联表如下:YXy 1 y 2 总计 x 1 a 10 a +10 x 2 c 30 c +30 总计6040100( ) A .a =45,c =15 B .a =40,c =20 C .a =35,c =25 D .a =30,c =30答案 A解析 根据2×2列联表与独立性检验可知,当a a +10与c c +30相差越大时,X与Y 有关系的可能性越大,即a ,c 相差越大,a a +10与c c +30相差越大.应选A.2.(2019·某某三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人.在一次地理考试后,对成绩作了数据分析(总分值100分),成绩为85分以上的同学称为“地理之星〞,得到了如以下联表:地理之星 非地理之星 合计男生7女生合计如果从全班45人中任意抽取1人,抽到“地理之星〞的概率为1 3.(1)完成“地理之星〞与性别的2×2列联表,并回答是否有90%以上的把握认为获得“地理之星〞与“性别〞有关?(2)假设此次考试中获得“地理之星〞的同学的成绩平均值为90,方差为7.2,请你判断这些同学中是否有得到总分值的同学,并说明理由.(得分均为整数分)参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d. 临界值表:P(K2≥k0)0.100.050.0100.0050.001 k0 2.706 3.841 6.6357.87910.828解(1)根据题意知“地理之星〞总人数为45×13=15,填写列联表如下:地理之星非地理之星合计男生7815 女生82230 合计153045根据表中数据,计算K2=45×(7×22-8×8)215×30×15×30=1.8<2.706,所以没有90%的把握认为获得“地理之星〞与性别有关.(2)没有得总分值的同学,记各个分值由高到低分别为x1,x2, (x15)①假设有2个以上的总分值,那么s 2=115×[(100-90)2+(100-90)2+…+(x 15-90)2]>403>7.2,不符合题意.②假设恰有1个总分值,为使方差最小,那么其他分值需集中分布在平均数90的附近,且为保证平均值为90,那么有10个得分为89,其余4个得分为90,此时方差取得最小值,∴s 2min =115×[(100-90)2+4×(90-90)2+10×(89-90)2]=223>7.2,与题意方差为7.2不符合,所以这些同学中没有得总分值的同学.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系〞,这种推断犯错误的概率不超过P (K 2≥k 0);否那么,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系〞.1.学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:不关注 关注 总计 男生 30 15 45 女生451055总计7525100 根据表中数据,通过计算统计量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),并参考以下临界数据:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828 假设由此认为“学生对2018年俄罗斯世界杯的关注与性别有关〞,那么此结论出错的概率不超过()A.0.10 B.0.05C.0.025 D.0.01答案 A解析由题意可得K2=100×(30×10-15×45)245×55×75×25≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关〞出错的概率不超过0.10.应选A.2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m 不超过m附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解(1)第二种生产方式的效率更高.理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)(2)由茎叶图知m=79+812=80.列联表如下:超过m 不超过m第一种生产方式15 5 第二种生产方式515(3)由于K2的观测值k=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.组基础关1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,那么()A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1答案 C解析对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,应选C.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,那么与性别有关联的可能性最大的变量是()表1C .智商D .阅读量答案 D解析 K 21=52×(6×22-10×14)216×36×20×32,令5216×36×20×32=m ,那么K 21=82m ,同理,K 22=m ×(4×20-12×16)2=1122m ,K 23=m ×(8×24-8×12)2=962m ,K 24=m ×(14×30-6×2)2=4082m ,∴K 24>K 22>K 23>K 21,那么与性别有关联的可能性最大的变量是阅读量.应选D.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i=21,那么实数b 的值为________. 答案 57解析 令t =x 2,那么曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y -=∑6i =1yi 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.4.针对时下的“韩剧热〞,某校团委对“学生性别和喜欢韩剧是否有关〞作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.假设有95%的把握认为是否喜欢韩剧和性别有关,那么男生至少有________人.答案 解析 设男生人数为x ,由题意可得列联表如下:喜欢韩剧不喜欢韩剧总计 男生 x 6 5x 6 x 女生 x 3 x 6 x 2 总计x 2x3x 2假设有95%的把握认为是否喜欢韩剧和性别有关,那么k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以假设有95%的把握认为是否喜欢韩剧和性别有关,那么男生至少有12人.5.(2018·全国卷Ⅱ)以下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)组 能力关1.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如下图),规定80分及以上者晋级成功,否那么晋级失败(总分值为100分).(1)求图中a 的值;(2)估计该次考试的平均分x-(同一组中的数据用该组的区间中点值代表);(3)根据条件完成下面的2×2列联表,并判断能否有85%的把握认为“晋级成功〞与性别有关.,其中n=a+b+c+d.K2=(a+b)(c+d)(a+c)(b+d)解(1)由频率分布直方图中各小长方形的面积总和为1,可知(2a+0.020+0.030+0.040)×10=1,故a=0.005.(2)由频率分布直方图知各小组的区间中点值分别为55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,故可估计平均数x-=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74.(3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25,故晋级成功的人数为100×0.25=25,故填表如下:K 2=100×(16×41-34×9)225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功〞与性别有关.2.(2019·某某一中模拟)某餐厅通过查阅了最近5次食品交易会参会人数x (万人)与餐厅所用原材料数量y (袋),得到如下统计表:(1)根据所给5组数据,求出y 关于x 的线性回归方程y =b x +a ;(2)购买原材料的费用C (元)与数量t (袋)的关系为C =⎩⎨⎧400t -20,0<t <36(t ∈N ),380t ,t ≥36(t ∈N ),投入使用的每袋原材料相应的销售收入为700元,多余的原材料只能无偿返还,据悉本次交易大会大约有15万人参加.根据(1)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=i =1n (x i -x -)(y i -y -)i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -.参考数据:∑i =15x i y i =1343,∑i =15x 2i =558,∑i =15y 2i =3237.解 (1)由所给数据,得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x-2=1343-5×10.4×25558-5×10.42=2.5,a ^=y --b ^x -=25-2.5×10.4=-1,那么y 关于x 的线性回归方程为y ^=2.5x ^-1.(2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要原材料36.5袋,因为C =⎩⎨⎧400t -20,0<t <36,t ∈N ,380t ,t ≥36,t ∈N ,所以当t <36时,利润L =700t -(400t -20)=300t +20, 当t =35时,利润L =300×35+20=10520; 当t ≥36时,利润L =700t -380t ,当t =36时,利润L =700×36-380×36=11520,因为预计需要原材料36.5袋,且多余的原材料只能无偿返还,所以当t =37时,利润L =700×36.5-380×37=11490.综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11520元.。

高考数学一轮复习 第9章 统计与统计案例 9.3 变量间的相关关系与统计案例习题课件 文

高考数学一轮复习 第9章 统计与统计案例 9.3 变量间的相关关系与统计案例习题课件 文

12.某医疗研究所为了检验某种血清预防感冒的作用, 把 500 名使用血清的人与另外 500 名未用血清的人一年中的 感冒记录作比较,提出假设 H0:“这种血清不能起到预防 感冒的作用”,利用 2×2 列联表计算得 K2≈3.918,经查对 临界值表知 P(K2≥3.841)≈0.05.对此,四名同学作出了以下 的判断:
x345 6 y 2.5 t 4 4.5 根据上表提供的数据,求出 y 关于 x 的线性回归方程为 ^y=0.7x+0.35,那么表中 t 的精确值为 ( ) A.3 B.3.15 C.3.5 D.4.5
12/11/2021
第七页,共三十六页。
解析 ∵-x =3+4+4 5+6=4.5,代入^y=0.7x+0.35, 得y^=3.5,∴t=3.5×4-(2.5+4+4.5)=3.故选 A.
势;
(3)试以第 3 年的前 4 个月的数据(如下表),用线性回归
的拟合模式估计第 3 年 8 月份的利润.
月份
12 3 4
利润 y(单位:百万元) 4 4 6 6
12/11/2021
第二十七页,共三十六页。
相关公式:b^= a^=-y -b^-x . 解 (1)由折线图可知 5 月和 6 月的平均利润最高. (2)第 1 年前 7 个月的总利润为 1+2+3+5+6+7+4 =28(百万元), 第 2 年前 7 个月的总利润为 2+5+5+4+5+5+5= 31(百万元),
C.a=35,c=25 D.a=30,c=30
12/11/2021
第十页,共三十六页。
解析 根据 2×2 列联表与独立性检验可知, 当a+a10与c+c30相差越大时,X 与 Y 有关系的可能性越 大, 即 a、c 相差越大,a+a10与c+c30相差越大,故选 A.

2019版高考数学(理)高分计划一轮高分讲义:第9章 统计与统计案例 9.3 变量间的相关关系与统计案例

2019版高考数学(理)高分计划一轮高分讲义:第9章 统计与统计案例 9.3 变量间的相关关系与统计案例

9.3 变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为=x +,则=y ^ b ^ a ^ b ^ =,=-.其中,是回归方程的斜n∑i =1(xi -x )(yi -y )n∑i =1(xi -x )2n∑i =1xiyi -nx yn∑i =1x 2i -nx 2a ^ yb ^ x b^ 率,是在y 轴上的截距,=x i ,=y i ,(,)称为a ^ x - 1n ∑n i =1y - 1n ∑n i =1x - y- 样本点的中心.说明:回归直线=x +必过样本点的中心(,),这个结论y ^ b ^ a ^ x - y-既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =,用它来衡量两个变量间的线性相关n∑i =1(xi -x )(yi -y )n∑i =1(xi -x )2n∑i =1(yi -y )2关系.①当r >0时,表明两个变量正相关;②当r <0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1y 2总计x 1a b a +b x 2c d c +d 总计a +cb +d a +b +c +d构造一个随机变量K 2=,其中n (ad -bc )2(a +b )(c +d )(a +c )(b +d )n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.[诊断自测]1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )(2)通过回归方程=x +可以估计和观测变量的取值和变化趋y ^ b ^ a^ 势.( )(3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( )(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)√ (2)√ (3)√ (4)×2.教材衍化(1)(必修A3P 94A 组T 3)某种产品的广告费用支出x (单位:万元)与销售额y (单位:万元)之间有如下的对应数据:x 24568y3040605070由最小二乘法得到线性回归直线方程=x +,则此直线一定y ^ b ^ a^ 经过点( )A .(5,60)B .(5,50)C .(6,50)D .(8,70)答案 B解析 回归直线样本点的中心为(,),而x - y - =×(2+4+5+6+8)=5,=×(30+40+60+50+70)=50,x - 15y- 15所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:女男总计读生产日期162844不读生产日期20828总计363672则有________的把握认为性别与是否读生产日期有关.答案 99.5%解析 由表中数据得k =≈8.416>7.879,所以可知有99.5%72×(16×8-20×28)236×36×44×28的把握认为性别与是否读生产日期有关.3.小题热身(1)设回归方程为=3-5x ,则变量x 增加一个单位时 ( )y^ A .y 平均增加3个单位 B .y 平均减少5个单位C .y 平均增加5个单位 D .y 平均减少3个单位答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.故选B.(2)(2018·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x +54.9.y^零件数x (个)1020304050加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________.答案 68解析 由=30,得=0.67×30+54.9=75.x - y - 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.题型1 相关关系的判断 对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得典例1散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②,由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关散点分布向右上升为正相关,反之为负相关.答案 C解析 题图①的散点分布在斜率小于0的直线附近,y随x的增大而减小,故变量x与y负相关;题图②的散点分布在斜率大于0的直线附近,u随v的增大而增大,故变量u与v正相关,故选C. 甲、乙、丙、丁四位同学各自对A,B两变量的线性典例2相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性( ) A.甲B.乙C.丙D.丁考查r的取值与1的关系.答案 D解析 在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两个变量有更强的线性相关性,故选D.方法技巧判定两个变量正、负相关性的方法1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.见典例1.2.相关系数:r >0时,正相关;r <0时,负相关.3.线性回归直线方程中:>0时,正相关;<0时,负相关.b ^ b^ 冲关针对训练下面是水稻产量与施化肥量的一组观测数据(单位:千克/亩):施化肥量15202530354045水稻产量320330360410460470480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解 (1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.题型2 线性回归分析角度1 线性回归方程及应用典例 (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:=,=-.b ^ n∑i =1(ti -t )(yi -y )n∑i =1(ti -t )2a ^ yb ^ t 收集相关数据,代入公式.解 (1)由所给数据计算得=×(1+2+3+4+5+6+7)=4,t 17=×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,y 17(t i -)2=9+4+1+0+1+4+9=28,7∑i =1t (t i -)(y i -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)7∑i =1t y +0×0.1+1×0.5+2×0.9+3×1.6=14,===0.5,b ^7∑i =1(ti -t )(yi -y )7∑i =1(ti -t )21428=-=4.3-0.5×4=2.3,a ^ y b^ t所求回归方程为=0.5t +2.3.y^ (2)由(1)知,=0.5>0,故2007年至2013年该地区农村居民家b^ 庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得=0.5×9+2.3=6.8,y^ 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.角度2 非线性回归模型的应用 (2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品典例的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =,=w i .xi w 18∑8 i =1(1)根据散点图判断,y =a +bx 与y =c +d 哪一个适宜作为年x 销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少?②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为=,=-.β^ ∑ni =1 (ui -u )(v i -v )∑ni =1(ui -u )2α^ v β^u (1)散点图趋势是曲线,推断y =c +d 适宜;(2)将非x 线性回归方程y =c +d 用换元法w =转化为线性回归方程x x y =c +d w ,进而求解.解 (1)由散点图可以判断,y =c +d 适宜作为年销售量y 关x 于年宣传费x 的回归方程类型.(2)令w =,先建立y 关于w 的线性回归方程.由于x ===68,d ^ ∑8i =1 (w i -w )(yi -y )∑8i =1(w i -w )2108.81.6=-=563-68×6.8=100.6,c ^ y d^ w 所以y 关于w 的线性回归方程为=100.6+68w ,因此y 关于xy^的回归方程为=100.6+68.y^ x (3)①由(2)知,当x =49时,年销售量y 的预报值=100.6+68y^ =576.6,49年利润z 的预报值=576.6×0.2-49=66.32.z^ ②根据(2)的结果知,年利润z 的预报值=0.2(100.6+68)-x =-x +13.6+20.12.z^ x x ==6.8,即x =46.24时,取得最大值.x 13.62z^故年宣传费为46.24千元时,年利润的预报值最大.方法技巧1.利用线性回归方程时的关注点(1)正确理解计算,的公式和准确的计算是求线性回归方程的b ^ a^关键.(2)回归直线方程=x +必过样本点中心(,).y ^ b ^ a ^ x - y - (3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.见角度1典例.2.非线性回归方程的求法(1)根据原始数据(x ,y )作出散点图.(2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见角度2典例.冲关针对训练(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:y i =9.32,t i y i =40.17, =0.55,∑7 i =1∑7 i =1∑7 i =1 (yi -y )2≈2.646.7参考公式:相关系数r =,∑ni =1(ti -t )(yi -y )∑n i =1 (ti -t )2∑ni =1 (yi -y )2回归方程=+t 中斜率和截距的最小二乘估计公式分别为:y ^ a ^ b^ =,=- .b ^ ∑ni =1 (ti -t )(yi -y )∑ni =1(ti -t )2a ^ y b ^t 解 (1)由折线图中数据和附注中参考数据得=4, (t i -)2=28,t ∑7i =1t=0.55,∑7i =1 (yi -y )2 (t i -)(y i -)=t i y i -y i =40.17-4×9.32=2.89,∑7 i =1t y ∑7 i =1t ∑7 i =1r ≈≈0.99.2.890.55×2×2.646因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由=≈1.331及(1)得y 9.327==≈0.103,=-≈1.331-0.103×4≈0.b ^ ∑7i =1(ti -t )(yi -y )∑7i =1 (ti -t )22.8928a ^ y b ^ t 92.所以,y 关于t 的回归方程为=0.92+0.10t .y^将2016年对应的t =9代入回归方程得=0.92+0.10×9=1.82.y^ 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.题型3 独立性检验 (2018·广州测试)某企业生产的某种产品被检测出其中典例一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机从这两条流水线上生产的大量产品中各抽取50件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在(195,210]内,则为合格品,否则为不合格品.下表是甲流水线样本的频数分布表,下图是乙流水线样本的频率分布直方图.(1)根据上图,估计乙流水线产品的该项质量指标值的中位数;(2)若将频率视为概率,某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线分别生产出不合格品约多少件?(3)根据已知条件完成下面的2×2列联表,并回答能否有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”?附:K 2=(其中n =a +b +c +d ).n (ad -bc )2(a +b )(c +d )(a +c )(b +d)解 (1)设乙流水线产品的该项质量指标值的中位数为x ,因为0.48=(0.012+0.032+0.052)×5<0.5<(0.012+0.032+0.052+0.076)×5=0.86,所以(0.012+0.032+0.052)×5+0.076×(x -205)=0.5,解得x =.390019(2)由甲、乙两条流水线各抽取50件产品可得,甲流水线生产的不合格品有15件,则甲流水线生产的产品为不合格品的概率为=,1550310乙流水线生产的产品为不合格品的概率为(0.012+0.028)×5=.15所以某个月内甲、乙两条流水线均生产了5000件产品,则甲、乙两条流水线生产的不合格品件数分别为5000×=1500,5000×=1000.31015(3)2×2列联表:甲流水线乙流水线合计 合格品354075不合格品151025 合计5050100则K 2==≈1.3,100×(350-600)250×50×75×2543因为1.3<2.072,所以没有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”.方法技巧独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.见典例.冲关针对训练(2017·洛阳模拟)某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据以上数据完成下列2×2列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(2)能否在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关?并写出简要分析.(3)能否说有99%的亲属的饮食习惯与年龄有关?附:K 2=,n =a +b +c +d .n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P (K 2≥k0)0.0500.0100.001k 03.841 6.63510.828解 (1)2×2列联表如下:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(2)因为K 2的观测值k ==10>6.635,所30×(8-128)212×18×20×10以能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关.(3)这种说法不正确.能在犯错误的概率不超过0.01的前提下认为其亲属的饮食习惯与年龄有关,是这个论断成立的可能性大小的结论,与是否有“99%的亲属的饮食习惯与年龄有关”无关.1.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为=x +.已知 i=225,i =1600,=4.该y ^ b ^ a^ 10∑i =1x10∑i =1yb ^ 班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170答案 C解析 ∵ i=225,∴= i=22.5.10∑i =1xx 11010∑i =1x∵i =1600,∴=i =160.10∑i =1yy 11010∑i =1y又=4,∴=-=160-4×22.5=70.b ^ a ^ y b^ x ∴回归直线方程为=4x +70.y^ 将x =24代入上式得=4×24+70=166.y^ 故选C.2.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元)8.28.610.011.311.9支出y (万元)6.27.58.08.59.8根据上表可得回归直线方程=x +,其中=0.76,=-.y ^ b ^ a ^ b ^ a ^ y b ^ x 据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元答案 B解析 由统计数据表可得==10.0,x- 8.2+8.6+10.0+11.3+11.95==8.0,则y- 6.2+7.5+8.0+8.5+9.85=8.0-0.76×10.0=0.4,所以回归直线方程为=0.76x +0.4,a ^ y^当x =15时,=0.76×15+0.4=11.8,故估计年收入为15万元y^ 家庭的年支出为11.8万元.故选B.3.(2018·江西南城一中、高安中学联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市总计愿生 45 2065不愿生13 2235总计5842100由K 2=,得n (ad -bc )2(a +b )(c +d )(a +c )(b +d )K 2=≈9.616.参照下表,100×(45×22-20×13)265×35×58×42P (K 2≥k 0)0.0500.0100.001k 03.8416.63510.828正确的结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案 C解析 K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.4.(2018·广东广州检测)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A .成绩B .视力C .智商D .阅读量答案 D解析 K 2=,52×(6×22-10×14)216×36×20×32令=m ,5216×36×20×32则K =82m ,同理,K =m ×(4×20-12×16)2=1122m ,212K =m ×(8×24-8×12)2=962m ,K =m ×(14×30-6×2)23242=4082m ,∴K >K >K >K ,则与性别有关联的可能性最大的变2422321量是阅读量,故选D.[重点保分 两级优选练]A 级一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且=2.347x -6.423;y ^ ②y 与x 负相关且=-3.476x +5.648;y ^ ③y 与x 正相关且=5.437x +8.493;y ^ ④y 与x 正相关且=-4.326x -4.578.y ^ 其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④答案 D解析 由回归直线方程=x +,知当>0时,y 与x 正相关;y ^ b ^ a ^ b ^ 当<0时,y 与x 负相关.∴①④一定错误.故选D.b ^ 2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3答案 A解析 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A.3.(2018·辽宁沈阳二中一模)某考察团对全国10大城市居民人均工资水平x (千元)与居民人均消费水平y (千元)进行统计调查,y 与x 具有相关关系,回归方程为=0.66x +1.562,若某城市居民人均消y ^ 费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )A .83%B .72%C .67%D .66%答案 A解析 由7.675=0.66x +1.562,得x ≈9.262,所以×100%≈83%.故选A.7.6759.2624.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:x3456y 2.5t 4 4.5根据上表提供的数据,求出y 关于x 的线性回归方程为=0.7x +0.35,那么表中t 的精确值为 ( )y ^ A .3 B .3.15 C .3.5 D .4.5答案 A解析 ∵==4.5,代入=0.7x +0.35,得x - 3+4+5+64y ^ =3.5,∴t =3.5×4-(2.5+4+4.5)=3.故选A.y ^5.(2018·长春检测)已知变量x 与y 正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能x y 是( )A.=0.4x +2.3B.=2x -2.4y ^ y ^ C.=-2x +9.5 D.=-0.3x +4.4y ^ y ^ 答案 A解析 由变量x 与y 正相关知C 、D 均错误,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A.6.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为=0.85x -85.71,则下列结论中不正确的是( )y ^ A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(,)x - y - C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg答案 D解析 D 选项中,若该大学某女生身高为170 cm ,根据回归方程只能近似认为其体重为58.79kg ,但不是绝对的.故D 不正确.故选D.7.(2018·湖南邵阳调研)假设有两个分类变量X 和Y 的2×2列联表如下: YX y 1y 2总计x 1a 10a +10x 2c 30c +30总计6040100对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为( )A .a =45,c =15 B .a =40,c =20C .a =35,c =25D .a =30,c =30答案 A解析 根据2×2列联表与独立性检验可知,当与相差越大时,X 与Y 有关系的可能性越大,a a +10cc +30即a 、c 相差越大,与相差越大,故选A.a a +10cc +308.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元)456789销量y (件)908483807568由表中数据,求得线性回归方程为=-4x +a .若在这些样本点y ^ 中任取一点,则它在回归直线左下方的概率为( )A. B. C. D.16131223答案 B解析 由题意可知==,x - 4+5+6+7+8+96132==80.y - 90+84+83+80+75+686又点在直线=-4x +a 上,故a =106.(132,80)y ^ 所以回归方程为y =-4x +106.由线性规划知识可知,点(5,84),(9,68)在直线y =-4x +106的左下方.故所求事件的概率P ==.故选B.26139.(2018·安徽皖南一模)下列说法错误的是( )A .回归直线过样本点的中心(,)x - y - B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程=0.2x +0.8中,当解释变量x 每增加1个y ^ 单位时,预报变量平均增加0.2个单位y ^ D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小答案 D解析 回归直线过样本点的中心(,),A 正确;两个随机变x - y - 量相关性越强,则相关系数的绝对值越接近1,B 正确;在线性回归方程=0.2x +0.8中,当解释变量x 每增加1个单位时,预报量平y ^ 均增加0.2个单位,C 正确;对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,因此D 不正确.故选D.10.已知x 与y 之间的几组数据如下表:x123456y 021334假设根据上表数据所得线性回归直线方程为=x +.若某同学y ^ b ^ a ^ 根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.>b ′,>a ′B.>b ′,<a ′b ^ a ^ b ^ a ^ C.<b ′,>a ′ D.<b ′,<a ′b ^ a ^ b ^ a ^ 答案 C 解析 ==,=,x 21672y 136代入公式求得==,=-=-×=-,而b ^ 58-6×72×13691-6×(72)257a ^ y b ^ x 136577213b ′=2,a ′=-2,∴<b ′,>a ′,故选C.b ^ a ^ 二、填空题11.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1ec 2x 拟合时的相关指数为R ,21用=x +拟合时的相关指数为R ,则R >R ;y ^ b ^ a ^ 2212③x ,y 之间不能建立线性回归方程.答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1ec 2x 拟合比用=x +拟合效果要好,则R >R ,故②正确;x ,y 之间可以建立y ^ b ^ a ^ 212线性回归方程,但拟合效果不好,故③错误.12.(2017·赣州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-附近波动.经计算13x i =11,y i =13,x =21,则实数b 的值为________.∑6 i =1∑6 i =1∑6 i =12i 答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -,此时==,==,代入y =bt -,得13t ∑6 i =1x 2i 672y ∑6 i =1yi 613613=b ×-,解得b =.13672135713.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”;q :若某人未使用该血清,则他在一年中有95%的可能性得感冒;r :这种血清预防感冒的有效率为95%;s :这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是________.(把你认为正确的命题的序号都填上)①p ∧(綈q );②(綈p )∧q ;③(綈p ∧綈q )∧(r ∨s );④(p ∨綈r )∧(綈q ∨s ).答案 ①④解析 由题意,得K 2≈3.918,P (K 2≥3.841)≈0.05,所以,只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.所以p 真,q 假,r 假,s 假.由真值表知①④为真命题.14.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下的列联表:优秀非优秀总计甲班10b 乙班c 30总计已知在全部105人中随机抽取1人,成绩优秀的概率为,则下27列说法正确的是________.①列联表中c 的值为30,b 的值为35;②列联表中c 的值为15,b 的值为50;③根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,能认为“成绩与班级有关系”;④根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,不能认为“成绩与班级有关系”.答案 ③解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,①②错误;根据列联表中的数据,得到K 2=≈6.1>5.024,105×(10×30-20×45)255×50×30×75因此在犯错误的概率不超过0.025的前提下认为“成绩与班级有关系”.故③正确,④错误.B 级三、解答题15.(2018·湖南百所重点中学诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高?(2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.月份1234利润y (单位:百万元)4466相关公式:=b^=-.a ^ y -b ^ x - 解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元),第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),所以这3年的前7个月的总利润呈上升趋势.∴==0.8,∴=5-2.5×0.8=3,b ^ 54-4×2.5×530-4×2.52a^ ∴=0.8x +3,y^ 当x =8时,=0.8×8+3=9.4.y^ ∴估计第3年8月份的利润为9.4百万元.16.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg 箱产量≥50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K 2=.n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解 (1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”.由题意知P (A )=P (BC )=P (B )P (C ).旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg 总计旧养殖法6238100新养殖法3466100总计96104200K 2=≈15.705.200×(62×66-34×38)2100×100×96×104由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法产量的中位数的估计值为50+≈52.35(kg).0.5-0.340.068。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3讲 变量相关关系与统计案例板块一 知识梳理·自主学习[必备知识]考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.考点2 回归方程与回归分析 1.线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定数.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i -x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:在具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,x =1n(x 1+…+x n ),y =1n(y 1+…+y n ),a ^=y -b ^x ,(x ,y )称为样本点的中心.(3)相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,当r>0时,两变量正相关,当r<0时,两变量负相关,当|r|≤1且|r|越接近于1,相关程度越强,当|r|≤1且|r|越接近于0,相关程度越弱.考点3 独立性检验1.独立性检验的有关概念(1)分类变量可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量.(2)2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2利用随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:(1)计算随机变量K2的观测值k,查表确定临界值k0:00认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.[必会结论]1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内;负相关:样本点分布在从左上角到右下角的区域内.3.回归直线y ^=b ^x +a ^必过样本点的中心.[考点自测]1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( )(4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)× (2)√ (3)√ (4)× 2.下面是一个2×2列联表其中a ,b A .94 72 B .52 50 C .52 74 D .74 52 答案 C解析 由a +21=73,得a =52,a +22=b ,得b =74.故选C.3.[课本改编]四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 正相关指的是y 随x 的增大而增大.负相关指的是y 随x 的增大而减小,故不正确的为①④,故选D.4.从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A .70.09 kgB .70.12 kgC .70.55 kgD .71.05 kg 答案 B解析 x =160+165+170+175+1805=170,y =63+66+70+72+745=69.∵回归直线过点(x ,y ),∴将点(170,69)代入回归直线方程得y ^=0.56x -26.2,代入x =172 cm ,则其体重为70.12 kg. 5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算得K 2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).答案 有关解析 K 2>10.828就有99.9%的理由认为两个量是有关的.板块二 典例探究·考向突破 考向线性回归分析例 1 [2018·金华模拟]某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:(1)根据2至5月份的数据,求出y 关于x 的回归直线方程y =b x +a ;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的回归直线方程是理想的,试问所得回归直线方程是否理想?参考公式:b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x -2,a ^=y --b ^x -.解 (1)根据表中2至5月份的数据, 计算得x -=11,y -=24,∑5i =2x i y i =11×25+13×29+12×26+8×16=1092,∑5i =2x 2i =112+132+122+82=498, 则b ^=∑5i =2x i y i -4x -y -∑5i =2x 2i -4x -2=1092-4×11×24498-4×112=187, a ^=y --b ^x -=24-187×11=-307.故y 关于x 的回归直线方程为y ^=187x -307.(2)当x =10时,y ^=187×10-307=1507,此时⎪⎪⎪⎪⎪⎪1507-22<2;当x =6时,y ^=187×6-307=787,此时⎪⎪⎪⎪⎪⎪787-12<2.故所得的回归直线方程是理想的. 触类旁通(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.【变式训练1】 PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:(1)根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y =b x +a ;(2)若周六同一时间段车流量是200万辆,试根据(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?( 参考公式:b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x ;参考数据:∑5i =1x i =540,∑5i =1y i =420 ) 解 (1)由条件可知,x =15∑5i =1x i =5405=108,y =15∑5i =1y i=4205=84, ∑5i =1 (x i -x )(y i -y )=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144,∑5i =1(x i -x )2=(-8)2+(-6)2+02+62+82=200. b ^=∑5i =1(x i -x )(y i -y )∑5i =1 (x i -x )2=144200=0.72,a ^=y -b ^x =84-0.72×108=6.24,故y 关于x 的线性回归方程为y ^=0.72x +6.24.(2)当x =200时,y ^=0.72×200+6.24=150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米.考向两个变量的相关性命题角度1 相关关系的判断例 2 对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.命题角度2 相关系数的意义例 3 [2017·全国卷Ⅰ]为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x =116∑i =116x i =9.97,s =116∑i =116 (x i -x )2=116(∑i =116x 2i -16x 2)≈0.212, ∑i =116(i -8.5)2≈18.439,∑i =116(x i -x -)(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i=1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(x --3s ,x -+3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x)2∑i =1n(y i -y -)2.0.008≈0.09.解 (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数r =∑i =116(x i -x -)(i -8.5)∑i =116(x i -x -)2∑i =116(i -8.5)2≈-2.780.212×16×18.439≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小. (2)(ⅰ)由于x -=9.97,s ≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x --3s ,x -+3s )以外,因此需对当天的生产过程进行检查.(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为 115(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i =116x 2i ≈16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为1(1591.134-9.222-15×10.022)≈0.008,15这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.考向独立性检验例 4 [2017·全国卷Ⅱ]海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3).附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)记B 表示事件“旧养殖法的箱产量低于50 kg”,C 表示事件“新养殖法的箱产量不低于50 kg”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表K 2=100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).触类旁通利用统计量K 2进行独立性检验的步骤(1)根据数据列出2×2列联表; (2)根据公式计算K 2找观测值k ;(3)比较观测值k 与临界值表中相应的检验水平,作出统计推断.【变式训练2】 某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为180=12.(2)根据统计数据,可得2×2列联表如下:∴K 2=105×75×90×90=7≈5.1429>5.024.∴在犯错误的概率不超过0.025的前提下可以认为科类的选择与性别有关.核心规律1.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b ^,常数项为a ^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法,主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.3.根据K 2的值可以判断两个分类变量有关的可信程度,并用来指导科研和生活实际.满分策略1.相关关系与函数关系的区别相关关系与函数关系不同,函数关系中的两个变量间是一种确定性关系.例如正方形面积S 与边长x 之间的关系S =x 2就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提.2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.板块三 启智培优·破译高考数学思想系列10———线性回归中的函数思想[2015·全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w -=8∑i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u -)(v i -v -)∑ni =1(u i -u -)2,α^=v --β^u -. 解题视点 求解第(1)问时,利用散点图结合学过的函数图象直接判断即可.求解第(2)问时,根据题目提供的数据及公式求出相关量,就可写出回归方程.求解第(3)问中的第一小问时,把x =49直接代入回归方程求解出y 的预报值,再代入年利润z 与x ,y 的关系式求解即可;求解第二小问时,把y 与x 的关系式代入年利润z 与x ,y 的关系式,将z 转化为关于x 的二次函数求最值即可.解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1 (w i -w -)(y i -y -)∑8i =1 (w i -w -)2=108.81.6=68, c ^=y --d ^w -=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6,年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.答题启示 利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.解决此类问题的步骤为:(1)将表中的各对数据在平面直角坐标系中描点,得到散点图;(2)按求回归方程的步骤和公式,写出回归方程;(3)利用回归方程进行分析,分析中注意函数思想的应用.跟踪训练某品牌2017款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S 店分别进行了两天试销售,得到如下数据:(1)分别以五家4S 店的平均单价与平均销量为散点,求出单价与销量的回归直线方程y ^=b ^x +a ^; (2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)?附:b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 解 (1)五家4S 店的平均单价和平均销量分别为(18.3,83),(18.5,80),(18.7,74),(18.4,80),(18.6,78),∴x -=18.3+18.5+18.7+18.4+18.65=18.5,y -=83+80+74+80+785=79,∴b ^=-0.2×4+0×1+0.2×(-5)+(-0.1)×1+0.1×(-1)0.04+0+0.04+0.01+0.01=-20.1=-20.∴a ^=y --b ^x -=79-(-20)×18.5=79+370=449, ∴y ^=-20x +449.(2)设该款汽车的单价应为x 万元, 则利润f (x )=(x -12)(-20x +449) =-20x 2+689x -5388,f ′(x )=-40x +689,令-40x +689=0,解得x ≈17.2,故当x ≈17.2时,f (x )取得最大值.∴要使该款汽车获得最大利润,该款汽车的单价约为17.2万元.板块四 模拟演练·提能增分[A 级 基础达标]1.[2018·湖北模拟]已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关答案 C解析 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.2.[2018·桂林模拟]根据如下样本数据:得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0 C .a <0,b >0 D .a <0,b <0答案 B解析 由表中数据画出散点图,如图,由散点图可知b <0,a >0.3.通过随机询问200名性别不同的大学生是否爱好踢键子运动,计算得到统计量K 2的观测值k ≈4.892,参照附表,得到的正确结论是( )A .有B .有97.5%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关” 答案 C解析 因为K 2的观测值k ≈4.892>3.841,所以有95%以上的把握认为“爱好该项运动与性别有关”.4.[2018·洛阳模拟]为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=bx +a 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案 B解析 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y =x 的斜率要小一些,综上可知应选B.5.某产品的广告费用x (单位:万元)与销售额y (单位:万元)的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 答案 B 解析 x =4+2+3+54=3.5,y =49+26+39+544=42.因为回归直线过点(x ,y ),所以42=9.4×3.5+a ^,解得a ^=9.1.故回归方程为y ^=9.4x +9.1.所以当x =6时,y ^=6×9.4+9.1=65.5.6.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:已知P (K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.答案 95%解析 由题意知,k =50×(13×20-10×7)223×27×20×30≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.7.[2018·沧州七校联考]某单位为了制定节能减排的计划,随机统计了某4天的用电量y (单位:度)与当天气温x (单位:℃),并制作了对照表(如表所示).由表中数据,得线性回归方程y ^=-2x +a ^,当某天的气温为-5 ℃时,预测当天的用电量约为________度.答案 70解析 气温的平均值x -=14×(18+13+10-1)=10,用电量的平均值y -=14×(24+34+38+64)=40,因为回归直线必经过点(x -,y -),将其代入线性回归方程得40=-2×10+a ^,解得a ^=60,故回归方程为y ^=-2x +60.当x =-5时,y ^=(-2)×(-5)+60=70,所以当某天的气温为-5 ℃时,预测当天的用电量约为70度.8.已知x ,y 之间的一组数据如下表:对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =5x -5;④y =32x .则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).答案 ③解析 由题意知x -=4,y -=6,∴b ^=∑5i =1 (x i -x -)(y i -y -)∑5i =1(x i -x -)2=85,∴a ^=y --b ^x -=-25,∴y ^=85x -25,∴填③. 9.由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.(1)求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; (2)①判断变量x 与y 之间是正相关还是负相关; ②当使用年限为8年时,试估计支出的维修费是多少.解 (1)∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2.(2)①由(1)知b ^=1.2>0,∴变量x 与y 之间是正相关.②由(1)知,当x =8时,y ^=9.8,即使用年限为8年时,支出的维修费约是9.8万元. 10.[2018·聊城模拟]在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.(1)求a 的值,并计算所抽取样本的平均值x -(同一组中的数据用该组区间的中点值作代表); (2)填写下面的2×2列联表,并判断能否有超过95%的把握认为“获奖与学生的文、理科有关”?K 2=n (ad -bc )2(a+b )(c +d )(a +c )(b +d )x -=45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69. (2)2×2列联表如下:因为K 2=40×160×50×150=6≈4.167>3.841,所以有超过95%的把握认为“获奖与学生的文、理科有关”.[B 级 知能提升]1.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6.则实数a ^的值是( )A.116B.18C.14D.12 答案 B解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18.2.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为7,则下列说法正确的是( )参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )附表:A B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A ,B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C 正确.3.[2018·赣州模拟]在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________.答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i 6=72,y=∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.4.某校开展“翻转合作学习法”教学试验,经过一年的实践后,对“翻转班”和“对照班”的220名学生的数学学习情况进行测试,按照大于或等于120分为“成绩优秀”,120分以下为“成绩一般”统计,得到如下的2×2列联表:合作学习法”有关;(2)为了交流学习方法,从这次测试数学成绩优秀的学生中,用分层抽样的方法抽出6名学生,再从这6名学生中抽出3名交流学习方法,求至少抽到一名“对照班”学生的概率.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解 (1)K 2=60×160×110×110=6≈9.167<10.828,∴在犯错误的概率不超过0.001的前提下,不能认为“成绩优秀与翻转合作学习法”有关. (2)设从“翻转班”中抽取x 人,从“对照班”中抽取y 人,由分层抽样的定义可知660=x 40=y20,解得x =4,y =2.在这6名学生中,设“对照班”的2名学生分别为A 1,A 2,“翻转班”的4名学生分别为B 1,B 2,B 3,B 4.则所有的抽样情况如下,{A 1,A 2,B 1},{A 1,A 2,B 2},{A 1,A 2,B 3},{A 1,A 2,B 4}, {A 1,B 1,B 2},{A 1,B 1,B 3},{A 1,B 1,B 4},{A 1,B 2,B 3}, {A 1,B 2,B 4},{A 1,B 3,B 4},{A 2,B 1,B 2},{A 2,B 1,B 3}, {A 2,B 1,B 4},{A 2,B 2,B 3},{A 2,B 2,B 4},{A 2,B 3,B 4}, {B 1,B 2,B 3},{B 1,B 2,B 4},{B 1,B 3,B 4},{B 2,B 3,B 4}, 共20种.其中至少有一名“对照班”学生的情况有16种.记事件A 为至少抽到一名“对照班”学生交流学习方法,则P (A )=1620=45=0.8.5.[2018·太原模拟]假设关于某种设备的使用年限x (年)与所支出的维修费用y (万元)有如以下的统计数据:已知∑5i =1x 2i =90,∑i =1y 2i =140.8,∑i =1x i y i =112.3,79≈8.9,2≈1.4. (1)求x -,y -;(2)对x ,y 进行线性相关性检验;(3)如果x 与y 具有线性相关关系,求出回归直线方程; (4)估计使用年限为10年时,维修费用约是多少? 解 (1)x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.(2)因为∑5i =1x i y i -5x -y -=112.3-5×4×5=12.3, ∑5i =1x 2i -5x -2=90-5×16=10, ∑5i =1y 2i -5y -2=140.8-125=15.8, 所以r =12.310×15.8=12.3158≈0.987.因为0.987>0.75,所以x 与y 之间具有很强的线性相关关系.(3)因为b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=12.310=1.23,a ^=y --b ^x -=5-1.23×4=0.08,所以所求的回归直线方程为y ^=1.23x +0.08.(4)当x =10时,y ^=1.23×10+0.08=12.38,即估计使用年限为10年时,维修费用约为12.38万元.。

相关文档
最新文档