高考数学总复习专题讲解60---成对数据的统计分析

合集下载

高考数学一轮复习考点知识专题讲解64---成对数据的统计分析

高考数学一轮复习考点知识专题讲解64---成对数据的统计分析
n

i∑=1(yi-
y
2

其中 R2 越接近于 1,表示回归的效果越好.
[解] (1)由折线图中的数据得,
7
7
t =4,i∑=1(ti- t )2=28,i∑=1(yi- y )2=18,
21
所以 r=
≈0.935.
28×18
因为 y 与 t 的相关系数近似为 0.935,说明 y 与 t 的线性相关程度相当大,所以可
所以预测 2021 年该企业污水净化量约为 58.5 吨. (3)因为 R2=1-i∑=i∑7=711((yyi-i-^yyi))22=1-94×118=1-18=78=0.875,所以“污水净化量的
差异”有 87.5%是由年份引起的,这说明回归方程预报的效果是良好的.
在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即 可(注意回归直线过样本点的中心( x , y )),利用回归方程进行预测,常把线性回归方
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系, 我们将它称为正相关. (2)负相关 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为 负相关. (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具 有线性相关关系,这条直线叫做回归直线. 2.回归方程
- 9 - / 24
程看作一次函数,求函数值.
[教师备选例题]
某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储
蓄存款(年底余额),如下表 1:
年份 x
2013
2014
2015
2016

2024届高考数学一轮复习 第九章《统计与成对数据的统计分析》第三节 成对数据的统计分析

2024届高考数学一轮复习 第九章《统计与成对数据的统计分析》第三节 成对数据的统计分析
CD
2. 已知变量 和 满足关系式 ,变量 与 正相关,则下列结论中正确的是( )
A. 与 正相关, 与 负相关 B. 与 正相关, 与 正相关C. 与 负相关, 与 负相关 D. 与 负相关, 与 正相关
C
3. 变量 与 相对应的一组数据为 , , , , ;变量 与 相对应的一组数据为 , , , , 表示变量 与 之间的线性相关系数, 表示变量 与 之间的线性相关系数,则( )
1
2
3
4
5
32.0
31.0
33.0
36.0
37.0
25.0
30.0
34.0
37.0
39.0
6
7
8
9
10
38.0
39.0
43.0
45.0
41.0
42.0
44.0
48.0
(1) 求第10年该城市的居民年收入 ;
[解析] 因为 ,所以 ,解得 .
(2) 若该城市的居民年收入 与该种商品的销售额 之间满足经验回归方程 .
3. (新教材改编题)如图所示的散点图中,两个变量的相关关系为正相关的是________.
图(4)
[解析] 只有题图(4)中随着 的增大, 值也呈现增加的趋势,故题图(4)中变量关系为正相关.
A. B. C. D.
C
4. 一位同学分别对甲、乙、丙、丁四组变量进行线性相关试验,并分别计算出决定系数 ,则线性相关程度最高的一组变量是( )




0.87
0.91
0.58
0.83
A. 甲 B. 乙 C. 丙 D. 丁
B
[解析] 越大,两个变量的线性相关程度越高. ,则线性相关程度最高的是乙,故选B.

2024届高考数学一轮总复习第八章统计与统计分析第三讲成对数据的统计分析课件

2024届高考数学一轮总复习第八章统计与统计分析第三讲成对数据的统计分析课件
参考公式: 最小二乘法求线性回归方程系数公式:
b^=x1yx1+21+xx2y22+2+……++xx2n-nynn--xn2x y ,a^=-y -b^-x . 参考数据:15×16+20×20+35×40+50×48=4 440, 152+202+352+502=4 350.
解:(1)散点图如图 D64:
(4)判断经验回归方程的拟合效果,可以利用样本相关系数判 断,|r|越趋近于 1,两变量的线性相关性越强.
【变式训练】
(2022 年金台区期中)某消费品企业销售部对去年各销售地的
居民年收入(即此地所有居民在一年内的收入的总和)及其产品销 售额进行抽样分析,收集数据整理如下:
销售地
A
B
C
D
年收入 x(亿元)
a^=-y -b^-x =31-0.96×30=2.2. ∴y 关于 x 的线性回归方程为^y=0.96x+2.2. (3)由题意,B 地今年居民收入为 20+20×20%=24, 把 x=24 代入^y=0.96x+2.2, 得^y=0.96×24+2.2=25.24(万元). ∴预测 B 地今年的销售额 y 将达到 25.24 万元.
答案:ABC
(2)某研究机构为调查人的最大可视距离 y(单位:米)和年龄 x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集 数据得到下表:
x
20
25
30
35
40
y
167
160
150
143
130
(1)根据上表提供的数据,求出 y 关于 x 的线性回归方程^y= b^x+a^;
(2)根据(1)中求出的线性回归方程,估计年龄为 50 岁的人的 最大可视距离.
第三讲 成对数据的统计分析

统计成对数据的统计分析知识点易错点总结-高考三轮复习冲刺

统计成对数据的统计分析知识点易错点总结-高考三轮复习冲刺

统计、成对数据的统计分析一、随机抽样1.简单随机抽样(1)简单随机抽样分为放回简单随机抽样和不放回简单随机抽样。

(2)简单随机样本:通过简单随机抽样获得的样本称为简单随机样本。

(3)简单随机抽样的常用方法。

实现简单随机抽样的方法有很多,抽签法和随机数法是比较常用的两种方法。

注意:除非特殊声明,本章简单随机抽样指不放回简单随机抽样。

2.总体平均数与样本平均数注意在简单随机抽样中我们常用样本平均数去估计总体平均数;②总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性);③一般情况下,样本量越大,估计越准确。

3.分层随机抽样(1)定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层。

在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配。

(2)分层随机抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层随机抽样。

(3)分层随机抽样的平均数计算在比例分配的分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,样本平均数分别为x̅,y̅,总体的样本平均数为w̅,则w̅=MM+N x̅+NM+Ny̅=mm+nx̅+nm+ny̅。

注意:①随机抽样时,总体中的每个个体入样的概率相同。

②比例分配的分层随机抽样,每一层入样的个体数为该层的个体数乘以抽样比。

【重点难点易错点】1.简单随机抽样的要点:.简单随机抽样需满足:①被抽取的样本和总体的个体数有限;②逐个抽取;③等可能抽取。

2.在使用随机数法时,如遇到三位数(或四位数),可从选择的随机数表中的某行某列的数字计起,每三个(或四个)作为一个单位,按某种顺序依次选取,有超过总体号码或出现重复号码的数字舍去。

高考数学必背知识手册-第八章-成对数据的统计分析(公式、定理、结论图表)

高考数学必背知识手册-第八章-成对数据的统计分析(公式、定理、结论图表)

第八章成对数据的统计分析(公式、定理、结论图表)一、成对数据的统计相关性1.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图. (2)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.4.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r >0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r <0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.二、一元线性回归模型及其应用1.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y ,其回归方程为a bx y +=∧,则1221,.ni i i nii x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y .(3)相关系数:()()()()12211nii i nni i i i xx y y rx x y y ===--=--∑∑∑1222211ni ii n ni i i i x y nxyx nx y ny ===-=⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭∑∑∑.【方法归纳】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r 越趋近于1相关性越强.当残差平方和越小,相关指数2R 越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算 ,ba 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线 y bxa =+ 过样本点的中心(),x y 进行求值.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。

高中数学选修二第8章:成对数据的统计分析-知识点

高中数学选修二第8章:成对数据的统计分析-知识点

1高中数学选修二第8章:成对数据的统计分析-知识点1、来自 同一 对象的 两 组数据称为成对数据,研究成对数据 相关性 的方法称为相关分析。

可以用散点图 观察两个变量之间的相关性,当所有点都在一条直线的附近波动时,这两个变量之间具有一种 线性相关 关系。

2、相关关系和函数关系的区别:函数关系是两个变量之间有 完全确定 的关系;而相关关系并 没有 严格的确定关系,当一个变量变化时,另一变量的取值有一定的 随机性 。

3、两组数据x i 和y i 的线性相关系数r 是度量两个变量x 和y 之间 线性相关程度 的统计量。

r== 。

其中x 和y 是这两组数据的 算术平均数。

4、相关系数r 的性质:①r >0时, 正 相关;r <0时, 负 相关;r=0时, 无 相关性。

②r 的取值范围是 [-1,1] ,当r 越接近 1 时,相关程度越 高 ,当r 越接近 0 时,相关程度越 低。

当r 越> 0.75时,就可以认为两个变量有很高 的线性相关关系。

③相关系数的计算结果,与哪个变量作为横轴或纵轴 无关 ,与变量的单位 也无关 ;④相关系数会受到数据量 多少 的影响,也会受到少数异常值 较大的影响。

5、把 拟合误差 取得 最小 值时得到的线性方程y=a ˆx+bˆ称为变量y 随x 波动的 回归方程 或 回归模型 ,自变量x 称为 解释 变量,因变量y 称为 反应 变量,回归方程所定义的直线称为 回归直线,系数aˆ和b ˆ称为 回归系数 ,其中,a ˆ= ,bˆ= y -a ˆx 。

由成对数据求回归方程的方法称为 一元线性回归分析 。

回归方程经过样本点的中心(x ,y )。

6、最小二乘法(也叫 最小平方 法)是一种数学 优化 技术,通过最 小 化 误差的平方和 寻找数据的 最佳 函数匹配,是使得样本数据的点到回归曲线的距离 的平方和 最小 的方法。

由最小二乘法确定的回归方程所定义的直线是给定数据点的最佳拟合直线 。

成对数据的统计分析 2025年高考数学基础专项复习

成对数据的统计分析 2025年高考数学基础专项复习
后,变量与变量的线性相关程度变强, 更进一步接近1,所以变小,故A错误,B
正确,D错误.故选ACD.
3.[人A选必三P101例1变式]某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,
通常把它的使用价值逐年减少的“量”换算成费用,称为失效费.该种机械设备的使用年限(单位:年)与失效费
较弱)

附: =
∑ − −
=1

∑ − 2
=1

∑ − 2
=1
, 2 ≈ 1.41.
1
【解析】 解法一 由题表知, = 5 × 2 + 4 + 5 + 6 + 8 = 5,
1
5
= × 3 + 4 + 5 + 6 + 7 = 5,
5
∑ − − = 2 − 5 × 3 − 5) + (4 − 5 × 4 − 5 + (5 − 5) × 5 − 5 + 6 − 5 × 6 − 5 + 8 − 5 × (7
3.[链接人A选必三P116知识]近年来,我国云计算市场规模持续增长.某科技公司云计算市场规模与年份代码
的关系可以用模型 = 10 拟合,设 = lg ,2018年至2022年的数据统计如表所示:
年份
年份代码
2018年
2019年
2020年
2021年
2022年
1
2
3
4
5
云计算市场规模
4.[苏教选必二P164例4变式]某公司为了预测下个月产品的销售情况,找出了近7个月的产品的销售量(单位:
万件)的统计表如下.
月份代码
销售量/万件

成对数据的统计分析-高考数学复习

成对数据的统计分析-高考数学复习

价值.
(3)| r |=1的充要条件是成对数据构成的点都在回归线上.
知识点三 一元线性回归模型
1. 一元线性回归模型
=++,
x 与 Y 的关系可以表示为൝
()=0,()= 2 .
我们称上式为 Y 关于 x 的一元线性回归模型.
Y
称为因变量或响应变量,
模型的未知参数, a 称为
bx + a 之间的
当 x =10时, ො =10.5×10+1.5=106.5.
关键能力 重点探究
考点一
例1
成对数据的相关性
两个变量的相关关系有①正相关,②负相关,③不相关,则
下列散点图从左到右分别反映的变量间的相关关系是(
A. ①②③
B. ②③①
C. ②①③
D. ①③②
D )
第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则
数为1.
考点二
经验回归方程的概念
(2024·河南郑州模拟)设( x 1, y 1),( x 2, y 2),···,( xn , yn )( n ≥2,
例3
x 1, x 2,···, xn 不全相同)是变量 x 和 y 的 n 个样本点,直线 l 是由这些
样本点通过最小二乘估计得到的经验回归直线(如图),以下结论正确的
且 r 2=-0.995 3.
(1)用相关系数说明哪种模型建立 y 与 x 的回归方程更合适.
[解]
(1)由题意知 r 2=-0.995 3,
观测数据,得到如下的散点图:
现根据散点图利用 y = a + b
程,令 s =

或 y = c + 建立 y 关于 x 的经验回归方

1
, t = 得到如下数据:

成对数据的统计分析-高考数学复习

成对数据的统计分析-高考数学复习
解析:根据散点图判断,用 y=c·dx(c,d>0)的拟合效果更好.
12345
返回导航
13
3.(教材改编题)下表是某饮料专卖店一天卖出奶茶的杯数 y 与当天气温 x(单位:℃)
的对比表,已知表中数据计算得到 y 关于 x 的经验回归方程为^y=b^x+27,则据此模型预 计 35 ℃时卖出奶茶的杯数为__6____.
返回导航
20
解析:记三条回归直线分别为 l1:^y=b^1x+a^1,l2:^y=b^2x+a^2,l3:^y=b^3x+a^3,画出 这三条回归直线的大致图象,如图所示,
由图可知这三条回归直线的斜率大小关系为b^2<b^3<b^1<0,截距大小关系为a^2>a^3>a^1>0.
返回导航
21
规律总结
返回导航
考点2 回归模型及应用
28
命题角度 1 一元线性回归模型 【例 3】 如图是某采矿厂的污水排放量 y(单位:吨)与矿产品年产量 x(单位:吨)的 折线图:
(1)依据折线图计算样本相关系数 r(精确到 0.01),并据此判断是否可用线性回归模型 拟合 y 与 x 的关系?(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
返回导航
26
规律总结
根据样本相关系数 r 判断相关性:当 r>0 时,正相关;当 r<0 时,负相关;|r|越接近 于 1,线性相关性越强.
n
yi-y^i2
i=1
根据决定系数 R2 来刻画回归效果,决定系数 R2=1-
越接近于 1,一元线
n
yi- y 2
i=1
性回归模型的拟合效果越好,即 R2 越大,说明模型拟合的效果越好. 根据残差判断相关性:在回归分析中,对一组给定的样本数据(x1,y1),(x2,y2),…,

2025届高中数学一轮复习课件《成对数据的统计分析》ppt

2025届高中数学一轮复习课件《成对数据的统计分析》ppt

④相关系数为 r4
高考一轮总复习•数学
第20页
解析:(1)根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A 选项错误;散点 的分布是从左下到右上,从而花瓣长度和花萼长度呈正相关,B 选项错误,C 选项正确;由 于 r=0.824 5 是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即 取出的数据的相关系数不一定是 0.824 5,D 选项错误.故选 C.
(2)易知题中图①与图③是正相关,图②与图④是 ①比③拟合程度高,故 r1>r3>0. 负相关,且图①与图②中的样本点集中分布在一 ②比④拟合程度高,由于 r2,r4 均小于 0,故 r2<r4<0. 条直线附近,则 r2<r4<0<r3<r1.故选 A.
高考一轮总复习•数学
第21页
判断相关关系的两种方法 (1)散点图法:如果所有的样本点都落在某条曲线附近,变量之间就有相关关系.如果 所有的样本点都落在某一直线附近,变量之间就有线性相关关系. (2)相关系数法:利用相关系数判定,|r|越趋近于 1,相关性越强.
n
xi- x yi- y
参考公式及数据:b^=i=1

n
xi- x 2
i=1
a^= y -b^ x , 2≈1.414.
高考一轮总复习•数学
解:(1)由表格中的数据可得 x =1+2+3+47+5+6+7=4, y =2+5+8+12+7 15+19+23=12,
7
xi- x yi- y
n
xiyi-n x y
参考公式及数据:①b^=i=1

n
x2i -n x 2
i=1
a^=
y
-b^
x
,②

高三总复习数学课件 成对数据的统计分析

高三总复习数学课件 成对数据的统计分析

2.样本相关系数
(1)计算公式:r=
n
xi- x yi- y
i=1
.r为变量x和变量y的样本
Байду номын сангаас
n
xi- x 2
n
yi- y 2
i=1
i=1
相关系数.
(2)样本相关系数r的特征 ①r∈__[-__1_,_1_] _. ②当r>0时,称成对样本数据_正__相关; 当r<0时,称成对样本数据_负__相关. ③当|r|越接近1时,成对样本数据的线性相关程度_越__强__;当|r|越接近0时, 成对样本数据的线性相关程度_越__弱__.
量有关的把握越大.
1.为调查中学生近视情况,测得某校男生150名中有80名近视,140名女生
中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪
种方法最有说服力
()
A.回归分析
B.均值与方差
C.独立性检验
D.概率
解析:“近视”与“性别”是两类变量,其是否有关,应用独立性检验
判断.
答案:C
成对数据的统计分析
1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关 系.会通过相关系数比较多组成对数据的相关性.
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理, 掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
3.针对实际问题,会用一元线性回归模型进行预测. 4.理解2×2列联表的统计意义.了解2×2列联表独立性检验及其应用.
4.该班某学生的脚长为24,据此估计其身高为
()
A.160
B.163
C.166
D.170

2024版高考数学总复习:成对数据的统计分析课件

2024版高考数学总复习:成对数据的统计分析课件
回归直线方程过样本点的中心( ,
ҧ ),是回归直线方程最常用的一

个特征.

我们将=
ො x+
称为Y关于x的经验回归方程,也称经验回归函数或

经验回归公式,其图形称为经验回归直线.这种求经验回归方程的
෠ 叫做b,a的最小二乘估计,
方法叫做最小二乘法,求得的,

8.刻画回归效果的方式
(1)残差图法:作图时纵坐标为残差,横坐标可以选为样本编号,或
第九章
第三节
统计与统计案例
成对数据的统计分析
考试要求:掌握散点图、最小二乘法思想、回归分析以及独立性检
验.
01
必备知识·回顾教材重“四基”
一、教材概念·结论·性质重现
1.相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另
相关关系
一个的程度,这种关系称为_________.
2.散点图
间越独立,χ2越大说明变量之间越相关,χ2=
− 2
+ + + +
.忽
略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以
找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,
这个临界值就可作为判断χ2大小的标准.
(2)基于概率值α的检验规则:
9
4
解析:由2
9
9
-1=2,得x= ,即x的估计值为 .
4
4
1
2
3
4
5
02
关键能力·研析考点强“四翼”
考点1 相关关系的判断——基础性
考点2 一元线性回归模型及其应用——基础性
考点3 残差分析——应用性

高三数学一轮复习《成对数据的统计分析》讲义

高三数学一轮复习《成对数据的统计分析》讲义

高三数学一轮复习《成对数据的统计分析》讲义【必备知识】1、变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,称这两个变量线性相关.2、样本相关系数(1)样本相关系数∑∑∑===----=ni ini ini iiy yx x y yx x r 12121)()())(((2)当0>r ,成对样本数据正相关;当0<r 时,成对样本数据负相关. (3)当||r 越接近1时,成对样本数据的线性相关程度越强; 当||r 越接近0时,成对样本数据的线性相关程度越弱. 3、一元线性回归模型(1)经验回归方程为a x b yˆˆˆ+=,其中∑∑∑∑====--=---=ni ini ii ni ini iixn xyx n yx x x y yx x b 1221121)())((.(2)残差分析①观测值:通过观测得到的数据.②预测值:通过经验回归方程得到的yˆ. ③残差:观测值减去预测值的差.④残差分析:通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等.这方面的工作称为残差分析.4.独立性检验(1)假定通过简单随机抽样得到了X 和Y 的抽 样数据列联表,如表所示. 则))()()(()(22d b c a d c b a bc ad n ++++-=χ.(2)独立性检验当αχx ≥2时,推断0H 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过α;X Y 合计 Y =0 Y =1 X =0 a b a +b X =1 c d c +d 合计a +cb +dn =a +b +c +d当αχx <2时,没有充分证据推断0H 不成立,可以认为X 和Y 独立.利用χ2的取值推断分类变量X 和Y 是否独立的方法称为2χ独立性检验,简称独立性检验.考点04 相关关系的判断【常见方法】判断相关关系的方法:(1)回归方程法:利用回归方程中x 的系数bˆ的正负判断. (2)散点图法:如果所有的样本点都落在某一曲线附近,那么变量之间就有相关关系;如果所有的样本点都落在某一直线附近,那么变量之间就有线性相关关系.(3)相关系数法:利用相关系数判断,|r |越趋近于1,相关性越强. 【典例分析04】1、为了对变量x 与y 的线性相关进行检验,由样本点(x 1,y 1)、(x 2,y 2)、…、(x 10,y 10)求得两个变量的样本相关系数为r ,那么下面说法中正确的是( )A .若所有样本点都在直线y =-2x +1上,则r =1B .若所有样本点都在直线y =-2x +1上,则r =-2C .若||r 越大,则变量x 与y 的线性相关性越强D .若||r 越小,则变量x 与y 的线性相关性越强 2、下列命题中正确的为( )A .线性相关系数r 越大,两个变量的线性相关性越强B .线性相关系数r 越小,两个变量的线性相关性越弱C .残差平方和越小的模型,模型拟合的效果越好D .用相关指数R 2来刻画回归效果,R 2越小,说明模型的拟合效果越好3、某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x考点05 线性回归方程角度01 线性回归方程及其应用 【常见方法】求线性回归方程的基本步骤(1)先把数据制成表,从表中计算出x 、y ,x 21 +x 22 +…+x 2n 、x 1y 1+x 2y 2+…+x n y n 的值;(2)计算回归系数b aˆ,ˆ; (3)写出线性回归方程a x b yˆˆˆ+=.注意:回归方程一定过点(x ,y ). 【典例分析05】1、某食品厂2020年2月至6月的某款饮料生产产量(单位:万件)的数据如下表:月份x 2 3 4 5 6 生产产量y /万件356.5810.5(1)根据以上数据,求y 关于x 的线性回归方程a x b yˆˆˆ+=; (2)调查显示该年7月份的实际市场需求量为13.5万件,求该年7月份所得回归方程预测的生产产量与实际市场需求量的误差.参考公式:∑∑∑∑====--=---=ni ini ii ni ini iix n xy x n yx x x y yx x b 1221121)())((,x b y aˆˆ-=.角度02 相关系数及其应用【常见方法】1.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好; (2)决定系数R 2越大,模型的拟合效果越好;(3)回归方程的拟合效果,可以利用相关系数判断.当|r |越趋近于1时,两变量的线性相关程度越强. 2.确定残差系数2R∑∑==---=n i ini i iy yyyR 12122)()ˆ(1.其中∑=-ni iiyy 12)ˆ(是残差平方和,其值越小,则2R 越大(接近1),模型的拟合效果越好.2、某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得60201=∑=i ix,1200201=∑=i i y ,80)(2012=-∑=i i x x ,9000)(2012=-∑=i i y y ,800))((201=--∑=i iiy yx x .(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数∑∑∑===----=ni ini ini iiy yx x y yx x r 12121)()())((, 2 ≈1.414.角度03 非线性回归分析【常见方法】非线性回归方程的求法(1)根据原始数据(x ,y )作出散点图.(2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得到非线性回归方程.3、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y i (i =1,2,…,8)数据作了初步处理,得到如图所示的散点图及一些统计量的值.xyw∑=-812)(i ix x∑=-812)(i iw w∑=--81))((i iiy yx x∑=--81))((i iiy yw w46.6563 6.8 289.81.61.469108.8表中i i x w =,∑==18i i w w .(1)根据散点图判断,bx a y +=与x d c y +=哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.考点06 独立性检验【常见方法】独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式))()()(()(22d b c a d c b a bc ad n ++++-=χ计算2χ.(3)如果αχx ≥2,则“X 与Y 有关系”这种推断犯错误的概率不超过a ;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够的证据支持结论“X 与Y 有关系”. 【典例分析06】1、甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品 二级品 合计 甲机床 150 50 200 乙机床 120 80 200 合计270130400①甲机床、乙机床生产的产品中一级品的频率分别是多少?②能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异? 附:))()()(()(22d b c a d c b a bc ad n ++++-=χ)(2αχx P ≥0.050 0.010 0.001 x α3.8416.63510.828。

适用于新教材2024版高考数学一轮总复习:成对数据的统计分析课件北师大版

适用于新教材2024版高考数学一轮总复习:成对数据的统计分析课件北师大版
线性回归方程才有实际意义.
4.列联表与独立性检验
(1)2×2列联表
B
总计
A
B1
B2
A1
a
b
a+b
ห้องสมุดไป่ตู้
A2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
(2)独立性检验
依据上述 2×2 列联表构造统计量 χ2=
( - )2
(+)(+)(+)(+)
.
利用χ2的取值推断分类变量A和B是否独立的方法称为独立性检验.
微思考 成对样本数据的线性相关性的强弱与样本相关系数r有怎样的
关系?
提示 样本相关系数r的取值范围为[-1,1],当|r|越接近1时,成对样本数据的
线性相关性越强;当|r|越接近0时,成对样本数据的线性相关性越弱.
一定过点(, )
^
^
3.我们将 Y= + bX 称为 Y 关于 X 的线性回归方程,相应的直线称作 Y 关于 X
微点拨 由散点图判断两个变量正相关、负相关的方法:当散点图中的点散
布在平面直角坐标系中从左下角到右上角的区域时,两个变量正相关;当散
点图中的点散布在平面直角坐标系中从左上角到右下角的区域时,两个变
量负相关.
2.(线性)相关系数
一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(xn,yn),记
在统计中,用以下结果对变量的独立性进行判断.
①当χ2≤
2.706 时,没有充分的证据判断变量A,B有关联,可以认为变量
A,B是没有关联的;

高考数学总复习专题讲解60---成对数据的统计分析

高考数学总复习专题讲解60---成对数据的统计分析

高考数学总复习专题讲解60 成对数据的统计分析[考点要求] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎪⎨⎪⎧b^=∑ni =1(x i -x )(y i -y )∑n i =1(x i-x )2=∑ni =1x i y i -n x -y-∑ni =1x 2i -nx 2a^=y -b ^x . 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心.(3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论]1.回归直线必过样本点的中心(x ,y ).2.当两个变量的相关系数|r |=1时,两个变量呈函数关系.一、思考辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) [答案] (1)√ (2)√ (3)× (4)√ 二、教材改编1.在两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25 A [R 2越接近于1,其拟合效果越好.] 2.下面是2×2列联表:A .94,72B .52,50C .52,74D .74,52 C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为________.5% [K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y (杯)与当天最高气温x (℃)的有关数据,通过描绘散点图,发现y 和x 呈线性相关关系,并求得其回归方程y ^=2x +60.如果气象预报某天的最高气温为34 ℃,则可以预测该天这种饮料的销售量为__________杯.128 [由题意x =34时,该小卖部大约能卖出热饮的杯数y ^=2×34+60=128杯.]考点1 相关关系的判断判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.1.已知变量x 和y 近似满足关系式y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关C [由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.]2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由相关系数的定义以及散点图可知r 2<r 4<0<r 3<r 1.]3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-3x +1上,则这组样本数据的样本相关系数为( )A .-3B .0C .-1D .1C [在一组样本数据的散点图中,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-3x +1上,所以b =-3<0,即这组样本数据的两个变量负相关,且相关系数为-1.故选C.]4.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关系数为r 1,用y ^=b ^x +a ^拟合时的相关指数为r 2,则|r 1|>|r 2|;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则|r 1|>|r 2|,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.]相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性.考点2 回归分析线性回归分析求线性回归直线方程的步骤(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系; (2)利用公式b ^=∑ni =1(x i -x )(y i -y )∑ni =1(x i -x )2=∑ni =1x i y i -n x y∑n i =1x 2i -nx 2, a ^=y -b ^x 求得回归系数; (3)写出回归直线方程.如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2012~2018.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程,预测2021年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1(t i -t )(y i -y )=21,14≈3.74,∑7i =1(y i -y ^i )2=94.参考公式:相关系数r =∑n i =1(t i -t )(y i -y )∑ni =1(t i -t )2∑ni =1(y i -y )2,线性回归方程y ^=a ^+b ^t ,b ^=∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a ^=y -b ^t . 反映回归效果的公式为:R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y )2,其中R 2越接近于1,表示回归的效果越好. [解] (1)由折线图中的数据得,t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=18,所以r =2128×18≈0.935.因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51. 将2021年对应的t =10代入得y ^=34×10+51=58.5, 所以预测2021年该企业污水净化量约为58.5吨.(3)因为R 2=1-∑7i =1(y i -y ^i )2∑7i =1(y i -y )2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(x ,y )),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.[备选例题]某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:年份x 2013 2014 2015 2016 2017 储蓄存款y (千亿元)56 7810表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:时间代号t1 2 3 4 5 z1 235表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少? (附:对于线性回归方程y ^=b ^x +a ^, 其中b ^=∑ni =1x i y i -n x y ∑n i =1x 2i -nx2,a ^=y -b ^x )[解] (1)t =3,z =2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-3×1.2=-1.4,所以z ^=1.2t -1.4. (2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8.(3)因为y ^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.1.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 C [∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160. 又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166.故选C.]2.某产品的广告费用x 万元与销售额y 万元的统计数据如表:广告费用x (万元) 2 3 4 5 销售额y (万元)26m4954根据上表可得回归方程y ^=9x +10.5,则m 的值为( ) A .36 B .37 C .38 D .39D [由回归方程的性质,线性回归方程过样本点的中心,则26+m +49+544=2+3+4+54×9+10.5,解得m =39.故选D.]非线性回归方程 非线性回归方程的求法 (1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数.(3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得非线性回归方程.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x yw∑8i =1(x i -x )2∑8i =1(w i -w )2∑8i =1(x i -x )(y i -y )∑8i =1(w i -w )·(y i -y )46.6563 6.8289.81.61 469108.8表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑ni =1(u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.[备选例题]某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =c 1·2c 2x ,其中c 1,c 2为常数.(2013年至2019年该市中学生人数大致保持不变)y k ∑5i =1(k i -k )2∑5i =1(y i -y )∑5i =1(x i -x )(y i -y )∑5i =1(x i -x )·(k i -k )2.31.23.14.621一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源汽车的年销量数据及其散点图(如图所示):年份 2013 2014 2015 2016 2017 年份代码x12345新能源汽车的年销量y /万辆1.55.917.732.955.6(1)请根据散点图判断y ^=b ^x +a ^与y ^=c ^x 2+d ^中哪个更适宜作为新能源汽车年销量y 关于年份代码x 的回归方程模型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程,并预测2020年我国新能源汽车的年销量.(精确到0.1)c ^=∑i =1n(w i -w )(y i -y )∑i =1n(w i -w )2,d ^=y -c ^w .附:令w i =x 2i .y ∑5i =1(x i -x )2∑5i =1(w i -w )2∑5i =1(x i -x )·(y i -y ) ∑5i =1(w i -w )·(y i -y )22.7210 374 135.2 851.2[解] (1)根据散点图得,y =c x 2+d 更适宜作为年销量y 关于年份代码x 的回归方程.(2)依题意得,w -=1+4+9+16+255=11,c ^=∑i =15(w i -w -)⎝ ⎛⎭⎪⎫y i -y -∑i =15(w i -w -)2=851.2374≈2.28,则d ^=y --c ^w -=22.72-2.28×11=-2.36, ∴y ^=2.28x 2-2.36.令x =8,则y ^=2.28×64-2.36=143.56≈143.6, 故预测2020年我国新能源汽车的年销量为143.6万辆. 考点3 独立性检验1.比较几个分类变量有关联的可能性大小的方法(1)通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.(2)通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. 2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .(3)比较观测值k 与临界值的大小关系,作统计推断.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m 不超过m第一种生产方式 第二种生产方式附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解](1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.[备选例题](2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg 旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解](1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表:箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是( )A BC DD[根据四个选项中的等高条形图可知,选项D中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.]2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828[解](1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2的观测值k=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.。

第60讲 成对数据的统计分析(1)

第60讲 成对数据的统计分析(1)

第六十讲:成对数据的统计分析【核心考点】 1、会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系。

2、了解最小二乘法的思想,能根据给出的线性回归方程(线性回归系数公式不要求记忆)。

3、了解回归分析的基本思想、方法及其简单应用。

4、了解独立性检验(只要求2*2列联表)的思想、方法及其初步应用。

【知识梳理】1、回归分析:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是 ;统计量有: 相关指数等。

从散点图看相关性:正相关:样本点分布在从 的区域内; 负相关:样本点分布在从 的区域内。

从相关系数看相关性:当0r >时表明两个变量正相关;当0r <时表明两个变量负相关;r 的绝对值越小,线性相关关系;r 的绝对值越大,线性相关关系 ; 通常认为0.75r >时具有较强的相关性。

从相关指数看相关性:2R 的值越大,说明残差平方和越小,也就是模型的拟合效果越好。

在线性回归模型中,2R 表示解释量对于预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好。

2、线性回归方程:两个具有线性相关关系的变量的一组数据:11(,)x y ,22(,)x y ,…(,)n n x y ,其回归方程为ˆˆˆybx a =+,则1122211()()ˆ()n niiii i i nniii i x x y y xy n x yb x x xn x ====---==--∑∑∑∑ˆˆay b x =-,其中ˆb 是回归方程的 , ˆa是在y 轴上的截距。

3、独立性检验:2K 统计量:22()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++为样本容量)【学情自测】1、某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,所得数据如下表:对的线性回归直线方程为( )A 、ˆ 2.30.7yx =- B 、ˆ 2.30.7y x =+ C 、ˆ0.7 2.3yx =- D 、ˆ0.7 2.3y x =+ 2、为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22⨯已知2( 3.841)0.05P K ≥≈,2( 5.024)0.025P K ≥≈根据表中数据,得到2K 的观测值:50(13201017) 4.84423172030k ⨯⨯-⨯=≈⨯⨯⨯,则认为选修文科与性别有关系出错的可能性为 。

高考数学复习考点知识专题讲解课件第54讲 成对数据的统计分析

高考数学复习考点知识专题讲解课件第54讲 成对数据的统计分析
(10,21),根据剩下的数据得到经验回归方程
̰2 x+̰

̰=
2 ,相关系数为r2.则
( D )
A.0<r1<r2<1
B.0<r2<r1<1
C.-1<r1<r2<0
D.-1<r2<r1<0
课前基础巩固
(ii)相关系数r的性质
正相关
①当r>0时,表明成对样本数据
;
当r<0时,表明成对样本数据 负相关 .
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
课前基础巩固
2. 一元回归模型
(1)线性回归模型:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
2

(



)
2
记n=a+b+c+d,则随机变量χ =
,读作卡方.
(+)(+)(+)(+)
课前基础巩固
2. 独立性检验
(1)基于小概率值α的检验规则: 提出零假设H0:X和Y相互独立,并给出在问题中
正相关
负相关
图可以判断,变量x与y
,u与v
.(填正相关、负相关或不相关)
[解析] 由这两个散点图可以判断,变
量x与y负相关,u与v正相关.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高考数学总复习专题讲解60 成对数据的统计分析[考点要求] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎪⎨⎪⎧b^=∑ni =1(x i -x )(y i -y )∑n i =1(x i-x )2=∑ni =1x i y i -n x -y-∑ni =1x 2i -nx 2a^=y -b ^x . 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x -,y -)称为样本点的中心.(3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论]1.回归直线必过样本点的中心(x ,y ).2.当两个变量的相关系数|r |=1时,两个变量呈函数关系.一、思考辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) [答案] (1)√ (2)√ (3)× (4)√ 二、教材改编1.在两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25 A [R 2越接近于1,其拟合效果越好.] 2.下面是2×2列联表:A .94,72B .52,50C .52,74D .74,52 C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为________.5% [K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y (杯)与当天最高气温x (℃)的有关数据,通过描绘散点图,发现y 和x 呈线性相关关系,并求得其回归方程y ^=2x +60.如果气象预报某天的最高气温为34 ℃,则可以预测该天这种饮料的销售量为__________杯.128 [由题意x =34时,该小卖部大约能卖出热饮的杯数y ^=2×34+60=128杯.]考点1 相关关系的判断判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.1.已知变量x 和y 近似满足关系式y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关C [由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.]2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由相关系数的定义以及散点图可知r 2<r 4<0<r 3<r 1.]3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-3x +1上,则这组样本数据的样本相关系数为( )A .-3B .0C .-1D .1C [在一组样本数据的散点图中,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =-3x +1上,所以b =-3<0,即这组样本数据的两个变量负相关,且相关系数为-1.故选C.]4.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关系数为r 1,用y ^=b ^x +a ^拟合时的相关指数为r 2,则|r 1|>|r 2|;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则|r 1|>|r 2|,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.]相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性.考点2 回归分析线性回归分析求线性回归直线方程的步骤(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系; (2)利用公式b ^=∑ni =1(x i -x )(y i -y )∑ni =1(x i -x )2=∑ni =1x i y i -n x y∑n i =1x 2i -nx 2, a ^=y -b ^x 求得回归系数; (3)写出回归直线方程.如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图. 注:年份代码1~7分别对应年份2012~2018.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程,预测2021年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1(t i -t )(y i -y )=21,14≈3.74,∑7i =1(y i -y ^i )2=94.参考公式:相关系数r =∑n i =1(t i -t )(y i -y )∑ni =1(t i -t )2∑ni =1(y i -y )2,线性回归方程y ^=a ^+b ^t ,b ^=∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a ^=y -b ^t . 反映回归效果的公式为:R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y )2,其中R 2越接近于1,表示回归的效果越好. [解] (1)由折线图中的数据得,t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=18,所以r =2128×18≈0.935.因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51. 将2021年对应的t =10代入得y ^=34×10+51=58.5, 所以预测2021年该企业污水净化量约为58.5吨.(3)因为R 2=1-∑7i =1(y i -y ^i )2∑7i =1(y i -y )2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(x ,y )),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.[备选例题]某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:年份x 2013 2014 2015 2016 2017 储蓄存款y (千亿元)56 7810表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:时间代号t1 2 3 4 5 z1 235表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少? (附:对于线性回归方程y ^=b ^x +a ^, 其中b ^=∑ni =1x i y i -n x y ∑n i =1x 2i -nx2,a ^=y -b ^x )[解] (1)t =3,z =2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-3×1.2=-1.4,所以z ^=1.2t -1.4. (2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8.(3)因为y ^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.1.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170 C [∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160. 又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166.故选C.]2.某产品的广告费用x 万元与销售额y 万元的统计数据如表:广告费用x (万元) 2 3 4 5 销售额y (万元)26m4954根据上表可得回归方程y ^=9x +10.5,则m 的值为( ) A .36 B .37 C .38 D .39D [由回归方程的性质,线性回归方程过样本点的中心,则26+m +49+544=2+3+4+54×9+10.5,解得m =39.故选D.]非线性回归方程 非线性回归方程的求法 (1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数.(3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得非线性回归方程.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x yw∑8i =1(x i -x )2∑8i =1(w i -w )2∑8i =1(x i -x )(y i -y )∑8i =1(w i -w )·(y i -y )46.6563 6.8289.81.61 469108.8表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑ni =1(u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.[备选例题]某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =c 1·2c 2x ,其中c 1,c 2为常数.(2013年至2019年该市中学生人数大致保持不变)y k ∑5i =1(k i -k )2∑5i =1(y i -y )∑5i =1(x i -x )(y i -y )∑5i =1(x i -x )·(k i -k )2.31.23.14.621一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源汽车的年销量数据及其散点图(如图所示):年份 2013 2014 2015 2016 2017 年份代码x12345新能源汽车的年销量y /万辆1.55.917.732.955.6(1)请根据散点图判断y ^=b ^x +a ^与y ^=c ^x 2+d ^中哪个更适宜作为新能源汽车年销量y 关于年份代码x 的回归方程模型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程,并预测2020年我国新能源汽车的年销量.(精确到0.1)c ^=∑i =1n(w i -w )(y i -y )∑i =1n(w i -w )2,d ^=y -c ^w .附:令w i =x 2i .y ∑5i =1(x i -x )2∑5i =1(w i -w )2∑5i =1(x i -x )·(y i -y ) ∑5i =1(w i -w )·(y i -y )22.7210 374 135.2 851.2[解] (1)根据散点图得,y =c x 2+d 更适宜作为年销量y 关于年份代码x 的回归方程.(2)依题意得,w -=1+4+9+16+255=11,c ^=∑i =15(w i -w -)⎝ ⎛⎭⎪⎫y i -y -∑i =15(w i -w -)2=851.2374≈2.28,则d ^=y --c ^w -=22.72-2.28×11=-2.36, ∴y ^=2.28x 2-2.36.令x =8,则y ^=2.28×64-2.36=143.56≈143.6, 故预测2020年我国新能源汽车的年销量为143.6万辆. 考点3 独立性检验1.比较几个分类变量有关联的可能性大小的方法(1)通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.(2)通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. 2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .(3)比较观测值k 与临界值的大小关系,作统计推断.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m 不超过m第一种生产方式 第二种生产方式附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解](1)第二种生产方式的效率更高.理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.[备选例题](2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg 旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解](1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表:箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是( )A BC DD[根据四个选项中的等高条形图可知,选项D中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.]2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828[解](1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K2的观测值k=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.。

相关文档
最新文档