(新人教A版)2020版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理
高考数学(理)一轮复习课件:统计与概率-3变量间的相关关系与统计案例(人教A版)
第3课时 变量间的相关关系与统计案例
考纲下载 1.会作两个有关联变量的数据的散点图,会利用散点 图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方 程系数公式建立线性回归方程.
3.了解独立性检验(只要求 2×2 列联表)的基本思想、 方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
y2 总计
x1
a
x2
2
总计 b
21 73 25 27 46
则表中a、b处的值分别为( )
A.94、96
B.52、50
C.52、54
D.54、52
答案:C 解析:a=73-21=52,b=a+2=54,故选C.
5. [原创]某医疗研究所为了了解某种血清预防感冒的 作用,把 500 名使用过血清的人与另外 500 名未使用血清 的人一年中的感冒记录作比较,提出假设 H0:“这种血清 不能起到预防感冒的作用”,利用 2×2 列联表计算得 K2 ≈3.918,经查临界值表知 P(K2≥3.841)≈0.05.则下列结论 中,正确结论的序号是________.
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
随机变量 K2=(a+b)(cn+(da)d-(bac+)c2)(b+d), 其中 n=a+b+c+d 为样本容量.
(3)独立性检验 利用随机变量 K2 来确定在多大程度上可以认为“两
个分分类类变变量量有有关关系系”的方法称为两个分类变量的独立性
nn
(xi - x )(y i- y )
ii==11
为:^b=
, ^a=y-y---^b^bx-x- .
2020高考数学总复习第九章算法初步、统计、统计案例9.4变量间的相关关系与统计案例课件文新人教A版
想、方法解决一些简单的实际问题.
课堂探究 考点突破
真题模拟演练
课堂探究 考点突破
考点一 相关关系的判断 (1)对变量 x,y 有观测数据(xi,yi)(i=1,2,…,10),得 散点图如图①,对变量 u,v 有观测数据(ui,vi)(i=1,2,…,10), 得散点图如图②.由这两个散点图可以判断( C )
箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣 进行比较.
解:(1)旧养殖法的箱产量低于 50 kg 的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件 A 的概率估计值为 0.62.
(2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽 车的成本为 12 万元/辆,为使该款汽车获得最大利润,则该款汽车的单 价约为多少万元(保留一位小数)?
n
xi- x yi- y
i=1
附:b^=
,a^= y -b^ x .
n
xi- x 2
i=1
解:(1)五家 4S 店的平均单价和平均销量分别为(18.3,83), (18.5,80),(18.7,74),(18.4,80),(18.6,78),
n
n
xi- x yi- y xiyi-n x y
i=1
i=1
参考公式:b^=
=
,a^= y -b^ x ,r
n
xi- x 2
n
x2i -n x 2
i=1
i=1
n
xi- x yi- y
i=1
=
.
n
n
xi- x 2 yi- y 2
高考数学一轮复习 9-4 变量间的相关关系及统计案例课件 理 新人教A版
答案:(1)√ (2)× (3)√
4.已知线性回归方程为y=0.50x-0.81,则当x=25时,y的估计 值为________.
解析:把x=25代入方程,得y=11.69. 答案:11.69
三、独立性检验 5.判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越 大.( ) (2)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成 绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) 答案:(1)√ (2)×
6.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为( )
A.94,72
B.52,50
C.52,74
D.74,52
解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.
答案:C
相关关系的判断(自主探究)
例1 (1)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点 图 (1) ; 对 变 量 u 、 v 有 观 测 数 据 (ui , vi)(i = 1,2 , … , 10) , 得 散 点 图 (2).由这两个散点图可以判断( )
2.K2 统计量 K2=a+bcn+add-ab+cc2b+d(其中 n=a+b+c+d 为样本容量).
1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定 的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系, 而相关关系不一定是因果关系,也可能是伴随关系.
【创新教程】高考数学大一轮复习 第九章 第3节 变量间的相关关系与统计案例名师课件 理 新人教A版
[拓展提高] 利用散点图判断两个变量是否有 相关关系是比较简便的方法.在散点图中如果所有 的样本点都落在某一函数的曲线上,就用该函数来 描述变量之间的关系,即变量之间具有函数关系,如果所有的 样本点落在某一函数的曲线附近,变量之间就有相关关系,如 果所有的样本点都落在某一直线附近,变量之间就有线性相关 关系.
3.独立性检验 (1)分类变量 变量的不同“值”表示个体所属的___不__同__类__别___,像这样 的变量称为分类变量.
(2)列联表 列出两个分类变量的__频__数__表___,称为列联表.假设有两 个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样 本频数列联表(称为2×2列联表)为
i=1
a^=-y -b^-x .
(3)回归分析 ①定义:对具有_相__关__关__系__的两个变量进行统计分析的一种 常用方法. ②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2, y2),…,(xn,yn)中,-x =1n(x1+…+xn), -y =1n(y1+…+yn),a^=-y -b^-x ,(-x ,-y )称为样本点的中 心.
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
构造一个随机变量 K2=a+ban+adc-bb+cd2 c+d,其中 n =a+b+c+d 为样本容量.
(3)独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法称 为独立性检验. (4)独立性检验的步骤 ①计算随机变量K2的观测值k,查表确定临界值k0:
(2)由于变量 y 的值随 x 值的增加而增加(b^=0.3>0),故 x 与 y 之间是正相关.
(3)将 x=7 代入回归方程可以预测该家庭的月储蓄为 y= 0.3×7-0.4=1.7(千元).
2024届高考数学一轮复习 第九章《统计与成对数据的统计分析》第三节 成对数据的统计分析
2. 已知变量 和 满足关系式 ,变量 与 正相关,则下列结论中正确的是( )
A. 与 正相关, 与 负相关 B. 与 正相关, 与 正相关C. 与 负相关, 与 负相关 D. 与 负相关, 与 正相关
C
3. 变量 与 相对应的一组数据为 , , , , ;变量 与 相对应的一组数据为 , , , , 表示变量 与 之间的线性相关系数, 表示变量 与 之间的线性相关系数,则( )
1
2
3
4
5
32.0
31.0
33.0
36.0
37.0
25.0
30.0
34.0
37.0
39.0
6
7
8
9
10
38.0
39.0
43.0
45.0
41.0
42.0
44.0
48.0
(1) 求第10年该城市的居民年收入 ;
[解析] 因为 ,所以 ,解得 .
(2) 若该城市的居民年收入 与该种商品的销售额 之间满足经验回归方程 .
3. (新教材改编题)如图所示的散点图中,两个变量的相关关系为正相关的是________.
图(4)
[解析] 只有题图(4)中随着 的增大, 值也呈现增加的趋势,故题图(4)中变量关系为正相关.
A. B. C. D.
C
4. 一位同学分别对甲、乙、丙、丁四组变量进行线性相关试验,并分别计算出决定系数 ,则线性相关程度最高的一组变量是( )
甲
乙
丙
丁
0.87
0.91
0.58
0.83
A. 甲 B. 乙 C. 丙 D. 丁
B
[解析] 越大,两个变量的线性相关程度越高. ,则线性相关程度最高的是乙,故选B.
2019-2020年新人教A版高考数学大一轮复习第九章统计统计案例第三节变量间的相关关系与统计案例课件理
i=1
i=1
^b=
=
,
n
xi- x 2
n
xi2-n x 2
i=1
i=1
^a= y -^b x .
n
xi- x yi- y
i=1
^a= y -^b x ,^b=
,
n
xi- x 2
i=1
其中 x =n1i=n1xi, y =n1i=n1yi,( x , y )称为样本点的中心.
A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关
解析:选 C.因为 y=-0.1x+1 的斜率小于 0,故 x 与 y 负相关.因 为 y 与 z 正相关,可设 z=^by+^a,^b>0,则 z=^by+^a=-0.1^bx+^b+^a, 故 x 与 z 负相关.
四基精演练 1.思考辨析(在括号内打“√”或“×”) (1)利用样本点的散点图可以直观判断两个变量的关系是否可以用 线性关系来表示.( √ ) (2)通过回归方程^y =^bx+^a 可以估计和观测变量的取值和变化趋 势.( √ ) (3)任何一组数据都对应着一个回归直线方程.( × ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值 越大.( √ )
第三节 变量间的相关关系与统计案例
教材细梳理
知识点 1 变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相 关关系.与函数关系不同,相关关系是一种__非__确__定__性____关系.
(2)在散点图中,点散布在从左下角到右上角的区域内,两个变量的 这种相关关系称为___正__相__关_____,点散布在左上角到右下角的区域内, 两个变量的相关关系称为___负__相__关_____.
高中数学新课标人教A版必修3:变量间的相关关系与统计案例 课件
3.通过对典型案例的探究,了
解独立性检验(只要求2×2列
联表)Байду номын сангаас基本思想、方法及初
步应用
核心素养
1.数据分析. 2.数学运算
目录
01 知 识 逐 点 夯 实 重点准 逐点清 结论要牢记
02 考 点 分 类 突 破 理解透 规律明 变化究其本
03 课 时 检 测
课前自修 课堂讲练
01
知识逐点夯实
重点准 逐点清 结论要牢记 课前自修
2.独立性检验
利用随机变量K2(也可表示为χ2)的观测值k=
nad-bc2 a+bc+da+cb+d
(其中n=a+b+c+d为样本容量)来判断
“两个变量有关系”的方法称为独立性检验.
[提醒] 独立性检验是对两个变量有关系的可信程度的判断, 而不是对其是否有关系的判断.
[逐点清]
3.(易错题)为调查中学生近视情况,测得某校男生150名中有80名
与吸烟有关”.故选C.
答案:C
[记结论·提速度] [记结论]
1.求解回归方程的关键是确定回归系数^a,^b,应充分利用回 归直线过样本中心点( x , y ).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2 越大,则两分类变量有关的把握越大.
3.根据回归方程计算的 ^y 值,仅是一个预报值,不是真实发 生的值.
=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个
结论,其中正确的是
()
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
2020版高考数学一轮复习第9章统计与统计案例第3讲变量间的相关关系与统计案例理解析版
第3讲变量间的相关关系与统计案例[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2020年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回归方程(1)相关关系的分类02右上角的区域内,如图1;①正相关:从散点图上看,点散布在从□01左下角到□04右下角的区域内,如图2.②负相关:从散点图上看,点散布在从□03左上角到□(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□05一条直线附近,06回归直线.则称这两个变量之间具有线性相关关系,这条直线叫做□(3)回归方程①最小二乘法:使得样本数据的点到回归直线的□07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1nx i -xy i-y∑i =1nx i -x2=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的□08斜率,a ^是在y 轴上的□09截距,x -=1n ∑n i =1x i ,y -=1n ∑n i =1y i ,□10(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =∑i =1nx i -x y i -y∑i =1nx i -x2∑i =1ny i -y2,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量□11正相关; ②当r<0时,表明两个变量□12负相关; ③r 的绝对值越接近1,表明两个变量的线性相关性□13越强;r 的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的□01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□02频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=□03n ad -bc2a +bc +d a +cb +d,其中n =□04a +b +c +d 为样本容量.(3)独立性检验利用随机变量□05K 2来判断“两个分类变量□06有关系”的方法称为独立性检验.1.概念辨析(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (2)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)√ (2)√ (3)√ (4)×2.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位 答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.故选B .(2)在下列各图中,两个变量具有相关关系的图是( )A .①② B.①③ C.②④ D.②③ 答案 D解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性. (3)下面是一个2×2列联表则表中a ,b 处的值分别为________. 答案 52,54解析 因为a +21=73,所以a =52.又因为a +2=b ,所以b =54.(4)已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^=0.95x +a ^,则a ^=________.答案 2.6解析 ∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.题型 一 相关关系的判断1.下列两变量中不存在相关关系的是( )①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A .①②⑤B .①③⑥C .④⑤⑥D .②⑥ 答案 A解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A .判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.见举例说明3.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 所有点均在直线上,则样本相关系数最大即为1,故选D .2.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y 是负相关关系;②在该相关关系中,若用y =c 1e c2x 拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22;③x,y 之间不能建立线性回归方程. 答案 ①②解析 ①显然正确;散点图趋向于曲线而非直线,所以用y =c 1e c2x 拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确.题型 二 回归分析角度1 线性回归方程及应用1.(2018·福州四校联考)某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x/年 1 2 3 4 5维修总费用y/万元0.5 1.2 2.2 3.3 4.5 根据上表可得y关于x的线性回归方程y^=b^x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( ) A.8年 B.9年 C.10年 D.11年答案 D解析由y关于x的线性回归直线y^=b^x-0.69过样本点的中心(3,2.34),得b^=1.01,即线性回归方程为y^=1.01x-0.69,由y^=1.01x-0.69=10得x≈10.6,所以预测该汽车最多可使用11年.故选D.2.某兴趣小组欲研究昼夜温差与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程y^=b^x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式:b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x2,a^=y-b^x.参考数据:11×25+13×29+12×26+8×16=1092,112+132+122+82=498.解(1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)=515=13.(2)由表中2月份至5月份的数据可得x =11,y=24,∑4i=1x i y i=1092,∑i=14x2i=498,所以b^=∑i=14x i y i-4x-y-∑i=1nx2i-4x2=187,则a^=y-b^x=-307,所以y 关于x的线性回归方程为y^=187x-307.(3)当x=10时,y^=1507,⎪⎪⎪⎪⎪⎪1507-22=47<2;当x=6时,y^=787,⎪⎪⎪⎪⎪⎪787-12=67<2.所以,该小组所得线性回归方程是理想的.角度2 非线性回归模型的应用3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x.根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1w i -wy i -y∑8i =1w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x.(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x)-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.2.非线性回归方程的求法(1)根据原始数据(x ,y)作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.1.据某市地产数据研究显示,2018年该市新建住宅销售均价走势如图所示,3月至7月房价上涨过快,为抑制房价过快上涨,政府从8月开始采用宏观调控措施,10月份开始房价得到很好的控制.(1)地产数据研究发现,3月至7月的各月均价y(万元/平方米)与月份x 之间具有较强的线性相关关系,试建立y 关于x 的回归方程;(2)若政府不调控,依此相关关系预测12月份该市新建住宅销售均价.参考数据及公式:∑5i =1x i =25,∑5i =1y i =5.36,∑5i =1(x i -x )(y i -y )=0.64,回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 x i -x y i -y ∑ni =1 x i -x 2,a ^=y -b^x .解 (1)x =255=5,y =5.365=1.072,∑5i =1 (x i -x )2=10,所以b ^=0.6410=0.064,a ^=y -b ^x =1.072-0.064×5=0.752.所以从3月份至7月份y 关于x 的线性回归方程为y ^=0.064x +0.752.(2)将x =12代入回归方程得y ^=0.064×12+0.752=1.52, 所以预测12月份该市新建住宅的销售均价为1.52万元/平方米.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx +a ,②y=c e dx拟合,得到回归方程分别为y ^(1)=0.24x -8.81,y ^(2)=1.70e 0.022x,作残差分析,如下表:(1)求表中空格内的值;(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1x i -xy i -y∑ni =1x i -x2,a ^=y -b ^x .解 (1)根据残差分析,把x =80代入y ^(1)=0.24x -8.81中,得y ^(1)=10.39. ∵10-10.39=-0.39, ∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62, 模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7. ∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg 的样本点被剔除后,剩余的数据如下表:由公式b ^=∑ni =1x i -xy i -y∑n i =1x i -x2,a ^=y -b ^x ,得回归方程为y ^=0.24x -8.76. 题型 三 独立性检验1.假设有两个分类变量X 和Y 的2×2列联表如下:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为( ) A .a =45,c =15 B .a =40,c =20 C .a =35,c =25 D .a =30,c =30 答案 A解析 根据2×2列联表与独立性检验可知,当a a +10与cc +30相差越大时,X 与Y 有关系的可能性越大,即a ,c 相差越大,a a +10与cc +30相差越大.故选A. 2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n ad -bc 2a +bc +d a +cb +d,解 (1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可.) (2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2的观测值k =40×15×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.1.(2018·河南洛阳模拟)学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:根据表中数据,通过计算统计量K 2=n ad -bc 2a +bc +d a +cb +d,并参考以下临界数据:若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过( )A .0.10B .0.05C .0.025D .0.01 答案 A解析 由题意可得K 2=100×30×10-15×45245×55×75×25≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.2.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.(1)求抽取的90名同学中的男生人数;(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解 (1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.(2)2×2列联表如下:由K 2=n ad -bc 2a +bc +d a +cb +d,代入数据得K 2=90×25×10-25×30250×40×55×35=45077≈5.844>5.024. 所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.。
2020版高考数学一轮复习第十章统计、统计案例第3讲变量相关关系与统计案例教案理(含解析)新人教A
第3讲变量相关关系与统计案例基础知识整合1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非错误!确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为错误!正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为错误!负相关.2.回归方程与回归分析(1)线性相关关系与回归直线如果散点图中点的分布从整体上看大致在错误!一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程①最小二乘法:求回归直线使得样本数据的点到回归直线的错误!距离的平方和最小的方法叫做最小二乘法.②回归方程:方程错误!=错误!x+错误!是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的回归方程,其中错误!,错误!是待定数.错误!(3)回归分析①定义:对具有错误!相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,错误!=错误!(x1+…+x n),y=错误!(y+…+y n),错误!=错误!-错误!错误!,(错误!,错误!)称为样本点的中心.1③相关系数r=错误!,当r〉0时,两变量错误!正相关;当r<0时,两变量错误!负相关;当|r|≤1且|r|越接近于1,相关程度错误!越强;当|r|≤1且|r|越接近于0,相关程度错误!越弱.3.独立性检验(1)独立性检验的有关概念①分类变量可用变量的不同“值”表示个体所属的错误!不同类别的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(2)独立性检验利用随机变量K2=错误!(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查表确定临界值k0:②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内;负相关:样本点分布在从左上角到右下角的区域内.3.回归直线错误!=错误!x+错误!必过样本点的中心.1.下面是一个2×2列联表其中a,b处填的值分别为( )A.94 72 B.52 50C.52 74 D.74 52答案C解析由a+21=73,得a=52,a+22=b,得b=74.故选C.2.(2019·湖北模拟)已知相关变量x和y满足关系y=-0.1x+1,相关变量y与z负相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案D解析因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z负相关,可设z=错误!y+错误!,错误!<0,则z=错误!y+错误!=-0.1错误!x+错误!+错误!,故x与z正相关.3.(2017·重庆高考)已知变量x与y正相关,且由观测数据算得样本平均数错误!=3,错误!=3。
2020高考文科数学(人教A版)总复习课件:变量间的相关关系、统计案例
第十章
10.4 变量间的相关关系、统计案例
必必备备知知识识··预预案案自自诊诊 关键能力·学案突破
学科素养·微专题
-12-
知识梳理 考点自测
4.(2018山西大同、阳泉二模,4)某班主任对全班50名学生进行了作 业量的调查,数据如表:
认为作业量大 认为作业量不大 合计
男生 18
9
27
^
������
=
∑ (������������
������=1
-������)(������������-������)
������
∑
(������������-������)2
������=1
=
������∑=1������������������������-������������ ������ ������∑=������1���������2��� -������������2
变量间的相关关系、统计案例
第十章
知识梳理 考点自测
10.4 变量间的相关关系、统计案例
必必备备知知识识··预预案案自自诊诊 关键能力·学案突破
学科素养·微专题
-2-
1.变量间的相关关系
有两类:一类是函数关系,另一类是 相关关系 .当自变量取
值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关
系. ( × )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关
系表示. ( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.
(√ ) (4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越
【人教A版】2020年高考数学一轮课件:第九章 第3节 变量间的相关关系与统计案例
@《创新设计》
2.线性回归方程
距离的平方和 最小的方法叫做最 (1)最小二乘法:使得样本数据的点到回归直线的______________ 小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,
n n
y=bx+a _,则b=i yn),其回归方程为_____________
设银行连续五年的储蓄存款(年底余额),如下表1: 年份x 储蓄存款y(千亿元) 2013 5 表1 2014 6 2015 7 2016 8 2017 10
22
知识衍化体验
考点聚集突破
@《创新设计》
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5 得到下表2: 时间代号t 1 2 3 4 5
考点聚集突破
@《创新设计》
解析
(1)由散点图知③中的点都分布在一条直线附近 .④中的点都分布在一条曲线
附近,所以③④中的两个变量具有相关关系.
(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性
越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有 丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相 关性. 答案 (1)C (2)D
^ ^
^
^
^
^
∑ (xi-x)(yi-y) =
1
-
-
∑ ( x i- x ) =
i 1
n
-
2
i 1 = n
∑ xiyi-nx y =
-2 2 ∑ x - nx i i=1
- -
,a= y -b x .
^
2020高考数学一轮复习第九章算法初步、统计、统计案例第4讲变量间的相关关系、统计案例课件
②在( x -3s,x +3s)之外的数据称为离群值,试剔除离群值,估计这条生产
线当天生产的零件尺寸的均值与标准差.(精确到 0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数
n
r=
∑
i=1
xi- x yi- y
n
n
. 0.008≈0.09.
∑
i=1
xi- x 2
∑
i=1
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
(2)独立性检验 利用随机变量 K2(也可表示为 X2)=a+bcn+add-ab+cc2b+d(其中 n=a+b+ c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验. (3)独立性检验的一般步骤 ①根据样本数据列出 2×2 列联表; ②计算随机变量 K2 的观测值 k,查表确定临界值 k0: ③如果 k≥k0,就推断“X 与 Y 有关系\”,这种推断犯错误的概率不超过 P(K2≥k0);否则,就认为在犯错误的概率不超过 P(K2≥k0)的前提下不能推断“X 与 Y 有关”.
例 1 (1)(2019·四川资阳模拟)在一次对人体脂肪含量和年龄关系的研 究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年
龄关系的散点图.根据该图,下列结论中正确的是( B ) A.人体脂肪含量与年龄正相关,且脂肪含
量的中位数等于20% B.人体脂肪含量与年龄正相关,且脂肪含
量的中位数小于20% C.人体脂肪含量与年龄负相关,且脂肪含
考点2 线性回归分析——师生共研
例 2 (2017·课标全国Ⅰ)为了监控某种零件的一条生产线的生产过 程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位: cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
考试要求 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.知 识 梳 理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y^=b ^x +a ^,则b ^=∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i -nx-2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距. 回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=1-∑ni =1 (y i -y ^i )2∑n i =1(y i -y -)2.其中∑n i =1 (y i -y ^i )2是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x -,y -).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.基 础 自 测1.判断下列结论正误(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)× (4)√2.(选修2-3P91探究改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验D.概率解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C3.(选修2-3P85讲解改编)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80 C.模型3的相关指数R 2为0.50 D.模型4的相关指数R 2为0.25解析 在两个变量y 与x 的回归模型中,它们的相关指数R 2越近于1,模拟效果越好,在四个选项中A 的相关指数最大,所以拟合效果最好的是模型1. 答案 A4.(2019·临沂模拟)已知变量x 和y 的统计数据如下表:根据上表可得回归直线方程为y ^=b ^x -0.25,据此可以预测当x =8时,y ^=( ) A.6.4B.6.25C.6.55D.6.45解析 由题意知x -=3+4+5+6+75=5,y -=2.5+3+4+4.5+65=4,将点(5,4)代入y ^=b ^x -0.25,解得b ^=0.85,则y ^=0.85x -0.25,所以当x =8时,y ^=0.85×8-0.25=6.55,故选C. 答案 C5.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D6.(2019·天津和平区检测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K2=6.705,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动没有关系”.()A.99.9%B.99%C.1%D.0.1%解析因为6.635<6.705<10.828,因此有1%的把握认为“学生性别与支持该活动没有关系”,故选C.答案 C考点一相关关系的判断【例1】(1)观察下列各图形,其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A.甲B.乙C.丙D.丁解析 (1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性. 答案 (1)C (2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关. 2.利用相关系数判定,当|r |越趋近于1相关性越强.当残差平方和越小,相关指数R 2越大,相关性越强.若r >0,则正相关;r <0时,则负相关.3.线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.【训练1】 (1)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A.x 与y 正相关,x 与z 负相关 B.x 与y 正相关,x 与z 正相关 C.x 与y 负相关,x 与z 负相关 D.x 与y 负相关,x 与z 正相关(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用y =c 1ec 2x拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.解析 (1)由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y=c 1ec 2x拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 答案 (1)C (2)①② 考点二 线性回归方程及应用【例2】 (2019·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑n i =1x i y i -nx -·y-∑ni =1x 2i -nx -2,a ^=y --b ^x -)解 (1)t -=3,z -=2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4,所以z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4,得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8.(3)因为y ^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.规律方法 1.(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程. 【训练2】 (2018·全国Ⅱ卷)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.考点三独立性检验【例3】(2019·湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.参考数据:参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)因为限行分单双号,王先生的车被限行的概率为0.05, 所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m )×50+0.1=1,解得m =0.003. (2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A 1,A 2,A 3,A 4, 空气中度污染的天气被抽取的有2天,记作B 1,B 2,从这6天中随机抽取2天,所包含的基本事件有(A 1,A 2),(A 1,A 3),(A 1,A 4),(A 1,B 1),(A 1,B 2),(A 2,A 3),(A 2,A 4),(A 2,B 1),(A 2,B 2),(A 3,A 4),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共15个,记事件A 为“至少有一天空气质量是中度污染”,则事件A 所包含的事件有(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共9个, 故P (A )=915=35,即至少有一天空气质量是中度污染的概率为35.(3)2×2列联表如下:由表中数据可得,K 2=240×(90×22-90×38)180×60×128×112≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤: (1)根据样本数据制成2×2列联表:(2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k与临界值的大小关系,作统计推断.【训练3】为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)2≈4.844.则认为选修文科与性别有关系出错的可能性为________.23×27×20×30解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%[思维升华]1.求回归方程,关键在于正确求出系数a^,b^ ,由于a^ ,b^ 的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.[易错防范]1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.2.独立性检验中统计量K2的观测值k0的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.基础巩固题组(建议用时:40分钟)一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3解析 由散点图知图(1)与图(3)是正相关,故r 1>0,r 3>0,图(2)与图(4)是负相关,故r 2<0,r 4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1,故选A. 答案 A2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( ) A.①② B.②③C.①③D.①②③答案 D3.在一次对性别与说谎是否相关的调查中,得到如下数据:根据表中数据,得到如下结论正确的一项是( ) A.在此次调查中有95%的把握认为是否说谎与性别有关 B.在此次调查中有99%的把握认为是否说谎与性别有关 C.在此次调查中有99.5%的把握认为是否说谎与性别有关 D.在此调查中没有充分的证据显示说谎与性别有关解析 由已知得k =30×(6×9-7×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关. 答案 D4.(2019·衡水中学调研)已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误..的是( )A.变量x ,y 之间呈负相关关系B.可以预测,当x =20时,y ^=-3.7 C.m =4D.该回归直线必过点(9,4)解析 由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x -=14×(6+8+10+12)=9,y -=14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C 错;由m =5,得y -=6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C. 答案 C5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.有95%以上的把握认为“爱好该项运动与性别有关”D.有95%以上的把握认为“爱好该项运动与性别无关”解析 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们有99%的把握认为“爱好该项运动与性别有关”. 答案 A 二、填空题6.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y ^=b ^x +a ^中的b ^=-2,预测当气温为-4 ℃时,用电量约为________度.解析 根据题意知x -=18+13+10+(-1)4=10,y -=24+34+38+644=40.所以a ^=40-(-2)×10=60,y^=-2x +60.所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度. 答案 687.(2019·济南调研)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________. 附表:解析 由列联表计算K 2的观测值k =50(22×12-8×8)30×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025. 答案 0.0258.(2019·广东深中、华附、省实、广雅四校联考)如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y ^=b ^x +1,则b ^=________.解析 由题图知x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y ^=b ^x +1中,解得b ^=0.8. 答案 0.8 三、解答题9.(2019·天津河西区调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs .其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6.(2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”. 10.调查某公司的五名推销员,其工作年限与年推销金额如下表:(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程; (3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.附:b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2,a ^=y --b ^x -. 解 (1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此, 工作年限与年推销金额正相关,即工作年限越长,年推销金额越大. (2)由表中数据可得:x -=15×(2+3+5+7+8)=5, y -=15×(3+3.5+4+6.5+8)=5, b ^=∑n i =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2=(-3)×(-2)+(-2)×(-1.5)+0+2×1.5+3×39+4+0+4+9=2126,a ^=y --b ^x -=5-2126×5=2526,∴年推销金额关于工作年限的回归直线方程为 y ^=2126x +2526. (3)当x =10时,y ^=2126×10+2526=23526,∴预测工作年限为10年的推销员的年推销金额为23526万元.能力提升题组 (建议用时:20分钟)11.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A.若K 2的观测值为k =6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D.以上三种说法都不正确解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C. 答案 C12.(2019·承德期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析 在A 中,最低气温与最高气温为正相关,故A 正确;在B 中,10月的最高气温不低于5月的最高气温,故B 正确;在C 中,月温差(最高气温减最低气温)的最大值出现在1月,故C 正确;在D 中,最低气温低于0 ℃的月份有3个,故D 错误.故选D. 答案 D13.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.解析 x -=9+9.5+m +10.5+115=8+m5,y -=11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x -,y -), 即6+n5=-3.2⎝⎛⎭⎫8+m 5+40,即3.2m +n =42. 又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1014.(2019·山东、湖北部分重点中学模拟)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加有n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =C 1·2C 2x ,其中C 1,C 2为常数.(2013年至2019年该市中学生人数大致保持不变)其中k i =log 2 y i ,k -=15∑i =1k i .(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程v ^=β^u +α^的斜率和截距的最小二乘估计分别为β^=∑ni =1(u i -u -)(v i -v -)∑n i =1(u i -u -)2,α^=v --β^u -. ②解 (1)因为x -=15×(13+14+15+16+17)=15,所以∑i =1(x i -x -)2=(-2)2+(-1)2+02+12+22=10.由k =log 2 y 得k =log 2 C 1+C 2x ,所以C 2=∑5i =1(x i -x -)(k i -k -)∑5i =1(x i -x -)2=110, log 2 C 1=k --C 2x -=1.2-110×15=-0.3,所以C 1=2-0.3=0.8,所以y =0.8×2x10.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元). 即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=14 000人,一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长0.8×21.8-0.8×21.70.8×21.7=20.1-1=0.1=10%, 所以2018年该市特别困难的中学生有2 800×(1-10%)=2 520人. 很困难的的学生有4 200×(1-20%)+2 800×10%=3 640人, 一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).。