2023年新高考数学一轮复习讲义精讲精练第31讲 统计与统计模型(解析)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第31讲统计与统计模型
学校____________ 姓名____________ 班级____________
一、知识梳理
数据的收集与直观表示
1.总体、个体、样本与样本容量
考察问题涉及的对象全体是总体,总体中每个对象是个体,抽取的部分对象组成总体的一个样本,一个样本中包含的个体数目是样本容量.
2.普查与抽样调查
(1)普查:一般地,对总体中每个个体都进行考察的方法称为普查(也称为全面调查).
(2)抽样调查:只抽取样本进行考察的方法称为抽样调查.
3.简单随机抽样
(1)定义:一般地,简单随机抽样(也称为纯随机抽样)就是从总体中不加任何分组、划类、排队等,完全随机地抽取个体.
(2)两种常用方法:抽签法,随机数表法.
4.分层抽样
一般地,如果相对于要考察的问题来说,总体可以分成有明显差别的、互不重叠的几部分时,每一部分可称为层,在各层中按层在总体中所占比例进行随机抽样的方法称为分层随机抽样(简称为分层抽样).
5.数据的直观表示
(1)常见的统计图表有柱形图、折线图、扇形图、茎叶图、频数分布直方图、频率分布直方图等.
(2)频率分布直方图
①作频率分布直方图的步骤
(ⅰ)找出最值,计算极差:即一组数据中最大值与最小值的差;
(ⅱ)合理分组,确定区间:根据数据的多少,一般分5~9组;
(ⅲ)整理数据:
逐个检查原始数据,统计每个区间内数的个数(称为区间对应的频数),并求出频数与数据个数的比值(称为区间对应的频率),各组均为左闭右开区间,最后
一组是闭区间;
(ⅳ)作出有关图示:
根据上述整理后的数据,可以作出频率分布直方图,如图所示.频率分布直图的
纵坐标是频率
组距
,每一组数对应的矩形高度与频率成正比,而且每个矩形的面积
等于这一组数对应的频率,从而可知频率分布直方图中,所有矩形的面积之和为1.
②频率分布折线图
作图的方法都是:把每个矩形上面一边的中点用线段连接起来.为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.
不难看出,虽然作频率分布直方图过程中,原有数据被“压缩”了,从这两种图中也得不到所有原始数据.但是,由这两种图可以清楚地看出数据分布的总体态势,而且也可以得出有关数字特征的大致情况.比如,估计出平均数、中位数、百分位数、方差.当然,利用直方图估计出的这些数字特征与利用原始数据求出的数字特征一般会有差异.
数据的数字特征、用样本估计总体
1.数据的数字特征
(1)最值
一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况.
(2)平均数
①定义:如果给定的一组数是x1,x2,…,x n,则这组数的平均数为x-=1
n(x1+
x2+…+x n).这一公式在数学中常简记为x-=1
n∑
n
i=1
x i,
②性质:一般地,利用平均数的计算公式可知,如果x1,x2,…,x n的平均数
为x ,且a ,b 为常数,则ax 1+b ,ax 2+b ,…,ax n +b 的平均数为a x -+b . (3)中位数
有奇数个数,且按照从小到大排列后为x 1,x 2,…,x 2n +1,则称x n +1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x 1,x 2,…,x 2n ,则称x n +x n +1
2为这组数的中位数. (4)百分位数
①定义:一组数的p %(p ∈(0,100))分位数指的是满足下列条件的一个数值:至少有p %的数据不大于该值,且至少有(100-p )%的数据不小于该值. ②确定方法:设一组数按照从小到大排列后为x 1,x 2,…,x n ,计算i =np %的值,如果i 不是整数,设i 0为大于i 的最小整数,取xi 0为p %分位数;如果i 是整数,取x i +x i +1
2为p %分位数. (5)众数
一组数据中,出现次数最多的数据称为这组数据的众数. (6)极差、方差与标准差
①极差:一组数的极差指的是这组数的最大值减去最小值所得的差,描述了这组数的离散程度. ②方差
定义:如果x 1,x 2,…,x n 的平均数为x ,则方差可用求和符号表示为s 2
=1n ∑n
i =1
(x i -x -)2
=1n ∑n i =1
x 2i -x -2. 性质:如果a ,b 为常数,则ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2. ③标准差
定义:方差的算术平方根称为标准差.一般用s 表示,即样本数据x 1,x 2,…,x n 的标准差为s =
1n ∑n i =1
(x i -x )2
.性质:如果a ,b 为常数,则ax 1+b ,ax 2+b ,…,ax n +b 的标准差为|a |s .
2.用样本的数字特征估计总体的数字特征
一般情况下,如果样本容量恰当,抽样方法合理,在估计总体的数字特征时,
只需直接算出样本对应的数字特征即可.
统计模型
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系. (2)相关关系的分类:正相关和负相关.
(3)线性相关:如果变量x 与变量y 之间的关系可以近似地用一次函数来刻画,则称x 与y 线性相关. 2.相关系数
(1)r =
∑n
i =1
(x i -x -)(y i -y -
)∑n i =1
(x i -x -)2∑n i =1
(y i -y -
)2
=
∑n
i =1x i y i -n x -y
-
(∑n
i =1
x 2i -n
x -
2)(∑n
i =1y 2i -ny 2)
.
(2)当r >0时,成对样本数据正相关;当r <0时,成对样本数据负相关. (3)|r |≤1;当|r |越接近1时,成对样本数据的线性相关程度越强;当|r |越接近0时,成对样本数据的线性相关程度越弱. 3.一元线性回归模型
(1)我们将y ^=b
^x +a ^称为y 关于x 的回归直线方程,其中
⎩⎪⎨
⎪⎧b ^=∑n
i =1(x i -x -)(y i -y -)∑n i =1
(x i -x -)2=∑n i =1x i y i -n x -y -
∑n i =1
x 2i -n x
-
2,a ^=y ^-b ^x -.
(2)残差:观测值减去预测值,称为残差. 4.2×2列联表和χ2
如果随机事件A 与B 的样本数据的2×2列联表如下.
记n=a+b+
χ2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
.
5.独立性检验
统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
要推断“
(1)作2×2列联表.
(2)根据2×2列联表计算χ2的值.
(3)查对分位数k,作出判断.如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A 与B有关);或说有1-α的把握认为A与B有关.若χ2<k成立,就称不能得到前述结论.这一过程通常称为独立性检验.
二、考点和典型例题
1、数据的收集与直观表示
【典例1-1】北京2022年冬奥会期间,某大学派出了100名志愿者,为了解志愿者的工作情况,该大学学生会将这100名志愿者随机编号为1,2,…,100,再从中利用系统抽样的方法抽取一个容量为20的样本进行问卷调查,若所抽中的最小编号为3,则所抽中的最大编号为()
A.96B.97C.98D.99【答案】C
【详解】
由题意知,派出了100名志愿者中,利用系统抽样的方法抽取一个容量为20的样本进行
问卷调查,可得间距为100
5 20
=,
因为所抽样本中的最小编号为3,可得样本中最大编号为3(201)598
+-⨯=.故选:C.
【典例1-2】某社区卫生室为了了解该社区居民的身体健康状况,对该社区1100名男性居民和900名女性居民按性别采用等比例分层随机抽样的方法进行抽样调查,抽取了一个容量为100的样本,则应从男性居民中抽取的人数为()
A.45B.50C.55D.60
【答案】C
【详解】
应从男性居民中抽取的人数为
1100
10055
1100900
⨯=
+
;
故选:C.
【典例1-3】已知某地区中小学生人数比例和近视情况分别如图甲和图乙所示,
为了了解该地区中小学生
的近视形成原因,用分层抽样的方法随机抽取1%的学生进行调查,其中被抽取的小学生有80人,则样本容量和该地区的高中生近视人数分别为()
A.200,25B.200,2500C.8000,25D.8000,2500
【答案】B
【详解】
由由扇形分布图结合分层抽样知识易知样本容量为
80
=200
40%
,则样本中高中生的人数为
20025=
⨯%50,易知总体的容量为50
=5000 1%
,
结合近视率条形图得该地区高中生近视人数为500050=
⨯%2500.
故选:B.
【典例1-4】将某市参加高中数学建模竞赛的学生成绩分成5组:
[50,60),[60,70),[70,80),[80,90),[90,100),并整理得到频率分布直方图(如图所示).现按成绩运用分层抽样的方法抽取100位同学进行学习方法的问卷调查,则成绩在区间[70,80)内应抽取的人数为()
A.10B.20C.30
D.35
【答案】D
【详解】
⨯=,
解:依题意[70,80)中的频率为0.035100.35
⨯=(人);
所以[70,80)中应抽取0.3510035
故选:D
【典例1-5】某学校为调查学生参加课外体育锻炼的时间,将该校某班的40名学生进行编号,分别为00,01,02,…,39,现从中抽取一个容量为10的样本进行调查,选取方法是从下面的随机数表的第1行第11列开始向右读取数据,直到取足样本,则抽取样本的第6个号码为()
908460798024365987388207538935963523 791805989007 35
464062988054972056951574800832164670 50806772164275
A.07B.40C.35D.23
【答案】D【详解】
重复的号码只能算作一个,抽取样本号码是24,36,38,07,35,23,18,05,20,15,所以抽取样本的第6个号码为23.
故选:D
2、数据的数字特征、用样本估计总体
【典例2-1】某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,满分为10分,将两位同学的得分制成如下茎叶图,其中茎叶图茎部分是得分的个位数,叶部分是得分的小数,则下列说法错误的是()
A .甲同学的平均分大于乙同学的平均分
B .甲、乙两位同学得分的极差分别为2.4和1
C .甲、乙两位同学得分的中位数相同
D .甲同学得分的方差更小 【答案】D 【详解】
对于甲,1
10
x =甲(7.8+7.8+7.5+7.5+8.0+8.0+8.2+8.3+8.4+9.9)=8.14
对于乙,1
(7.57.87.87.88.08.08.38.38.58.5)8.0510
x =+++++++++=乙 故A 正确.
甲的极差9.97.5 2.4-=,乙的极差8.57.51-= 故B 正确. 甲得分的中位数8882+=,乙得分的中位数88
82
+=, 故C 正确. 对于甲,
2
222222
17.58.147.58.147.88.147.88.1488.1488.1410s ⎡=
-+-+-+-+-+-⎣
甲()()()()()()2222
8.28.148.38.148.48.149.98.14⎤-+-+-+-⎦()()()()0.390=,
对于乙,
22222221
(7.58.05)(7.88.05)(7.88.05)(7.88.05)(88.05)(88.05)10
s ⎡=
-+-+-+-+-+-⎣乙2222(8.38.05)(8.38.05)(8.58.05)(8.58.05)⎤-+-+-+-⎦0.103=
故D 错误. 故选D .
【典例2-2】已知数据1x ,2x ,…,n x 的平均值为2,方差为1,若数据11ax +,21ax +,…,()10n ax a +>的平均值为b ,方差为4,则b =( ).
A .5
B .4
C .3
D .2
【答案】A 【详解】
因为1x ,2x ,…,n x 的平均值为2,方差为1,
由数据11ax +,21ax +,…,()10n ax a +>的平均值为b ,方差为4,
所以22114a b a ⋅+=⎧⎨⋅=⎩,解得2a =,5b =.
故选:A .
【典例2-3】某校高一年级1000名学生在一次考试中的成绩的频率分布直方图如图所示,现用分层抽样的方法从成绩40~70分的同学中共抽取80名同学,则抽取成绩50~60分的人数是( )
A .20
B .30
C .40
D .50
【答案】B 【详解】
从频率分布直方图可以看出三个分数段的的同学的频率之比为
0.005:0.015:0.0201:3:4=,
所以抽取成绩50~60分的人数为3
8030134
⨯=++,
故选:B
【典例2-4】某高中为了了解本校学生考入大学一年后的学习情况,对本校上一年考入大学的同学进行了调查,根据学生所属的专业类型,制成饼图,现从这些同学中抽出100人进行进一步调查,已知张三为理学专业,李四为工学专业,则下列说法不正确的是( )
A .若按专业类型进行分层抽样,则张三被抽到的可能性比李四大
B .若按专业类型进行分层抽样,则理学专业和工学专业应抽取30人和20人
C .采用分层抽样比简单随机抽样更合理
D .该问题中的样本容量为100 【答案】A 【详解】
对于选项A ,张三与李四被抽到的可能性一样大,故A 错误; 对于选项B ,理学专业应抽取的人数为30
10030100
⨯=, 工学专业应抽取的人数为20
10020100
⨯
=,故B 正确; 对于选项C ,因为各专业差异比较大,所以采用分层随机抽样更合理,故C 正确; 对于选项D ,该问题中的样本容量为100,故D 正确. 故选:A.
【典例2-5】如图是2021年青年歌手大奖赛中,七位评委为甲、乙两名选手打出的分数的茎叶图(其中m n 、均为数字09中的一个),在去掉一个最高分和一个是低分后,则下列
说法错误的是( )
A .甲选手得分的平均数一定大于乙选手得分的平均数
B .甲选手得分的中位数一定大于乙选手得分的中位数
C .甲选手得分的众数与m 的值无关
D .甲选手得分的方差与n 的值无关 【答案】C 【详解】
由题意,甲选手得分的平均数955120808055
m x m
+++++=+=+甲,
乙选手得分的平均数1244718
808055
x ++++=+
=+乙,故选项A 正确;
无论m 为何值,甲选手得分的中位数一定是85,乙选手得分的中位数是84,故选项B 正确;
当1m =时,甲选手得分的众数为81,85,当2m =时,甲选手得分的众数为85,故选项C 不正确;
因为90n +是最高分,被去掉,故甲选手得分的方差与n 的值无关,故选项D 正确; 故选:C.
3、统计模型
【典例3-1】已知下列命题:
①回归直线y bx a =+恒过样本点的中心()
,x y ;
①两个变量线性相关性越强,则相关系数r 就越接近于1; ①两个模型中残差平方和越小的模型拟合的效果越好. 则正确命题的个数是( ).
A .0
B .1
C .2
D .3 【答案】D
【详解】
由回归方程的性质可得,回归直线y bx a =+恒过样本点的中心()
,x y ,①对,
由相关系数的性质可得,两个变量线性相关性越强,则相关系数r 就越接近于1,①对, 根据残差的定义可得,两个模型中残差平方和越小的模型拟合的效果越好,①对, 故正确命题的个数为3,
故选:D.
【典例3-2】下列说法错误的是( )
A .相关系数r 的绝对值越大,两个变量的线性相关性越强
B .在回归分析中,残差平方和越大,模型的拟合效果越好
C .相关指数20.64R =,表示解释变量对于预报变量变化的贡献率为64%
D .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
【答案】B
【详解】 1r ≤,相关系数r 的绝对值越接近1,两个变量的线性相关性越强,故A 正确; 在回归分析中,残差平方和越小,模型的拟合效果越好,故B 错误;
相关指数20.64R =,表示解释变量对于预报变量变化的贡献率为64%,故C 正确;
在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,故D 正确; 故选:B.
【典例3-3】如图是一组实验数据构成的散点图,以下函数中适合作为y 与x 的回归方程的类型是( )
A .y ax b =+
B .2y ax c =+
C .log a y b x c
=+
D .x y ba c =+
【答案】D
【详解】
由散点图中各点的变化趋势:非线性、且R x ∈上单调递减,
所以适合指数型模型.
故选:D
【典例3-4】当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:
计算得到一些统计量的值为:661128.5,106.05i i i i i u x u ====∑∑,其中,ln i i u y =.
若用模型e bx y a =拟合y 与x 的关系,根据提供的数据,求出y 与x 的经验回归方程;
参考公式:对于一组数据(),i i x y (1,2,3,,i n =⋅⋅⋅),其经验回归直线ˆˆˆy
bx a =+的斜率和截距的最小二乘估计分别为122
1ˆn
i i i n i i x y nxy b x
nx =-=-=-∑∑,ˆˆa y bx =-. 【答案】0.36 3.49e x y +=
【解析】
解:因为e bx y a =两边取对数可得()ln ln e ln ln e bx bx y a a ==+,
即ln ln y a bx =+,令ln i i u y =,所以ln u bx a =+,
由611 4.756i i u u ===∑,()1123456 3.56x =+++++=,22222221
12345691i i n x ==+++++=∑. 所以12
2
21106.056 3.5 4.75ˆ0.36916 3.5n i i
i n i i x u nxu b x
nx ==--⨯⨯===-⨯-∑∑, 又ln ˆu bx
a =+,即4.750.36 3.5ln a =⨯+, 所以ln 3.49a =,所以 3.49e a =.
所以y 关于x 的经验回归方程为0.36 3.49e x y +=.
【典例3-5】2022年北京冬奥会即第24届冬季奥林匹克运动会在2022年2月4日至2月20日在北京和张家口举行.某研究机构为了解大学生对冰壶运动是否有兴趣,从某大学随
机抽取男生、女生各200人,对冰壶运动有兴趣的人数占总数的
2740,女生中有80人对冰壶运动没有兴趣.
(1)完成上面2×2列联表,并判断是否有99%的把握认为对冰壶运动是否有兴趣与性别有关?
(2)按性别用分层抽样的方法从对冰壶运动有兴趣的学生中抽取9人,若从这9人中随机选出2人作为冰壶运动的宣传员,设X 表示选出的2人中女生的人数,求X 的分布列和数学期望.
附:2
2()()()()()()n ad bc K n a b c d a b c d a c b d -==+++++++.
【答案】(1)列联表见解析,有99%的把握认为对冰壶运动是否有兴趣与性别有关.
(2)分布列见解析,8()9
E X =
. 【解析】(1)
解:依题意对冰壶运动有兴趣的人数为()2720020027040⨯+=人, 则女生中对冰壶运动有兴趣的有20080120-=人,
男生中对冰壶运动有兴趣的有270120150-=人, 所以男生中对冰壶运动无兴趣的有20015050-=人,
所以22⨯列联表:
22400(1508050120)40010.256 6.635
27013020020039
K ⨯⨯-⨯==≈>⨯⨯⨯, ∴有99%的把握认为对冰壶运动是否有兴趣与性别有关. (2) 解:从对冰壶运动有兴趣的学生中抽取9人,抽到的男生人数、女生人数分别为:15095270
⨯=(人),12094270⨯=(人), 则X 的所有可能取值为0,1,2,
所以2529C 105(0)C 3618
P X ====, 114529C C 205(1)C 369
P X ====, 4292C 61(2)C 366
P X ====, 故X 的分布列是:
故5518()01218969E X =⨯+⨯+⨯=.。