高考数学考点专项突破 统计与统计案例(含解析)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学习资料
统计与统计案例
一、单选题
1、(江苏金陵中学开学初调研)已知变量x 与y 正相关,且由观测数据算得样本平均数3x =, 3.5y =,则由该观测的数据算得的线性回归方程可能是( )
A .0.4.3ˆ2y
x =+ B .2 2.4ˆy
x =- C .9ˆ2.5y
x =-+ D .0.3 4.4ˆy
x =-+ 【答案】A 【解析】
因为与正相关,排除选项C 、D,又因为线性回归方程恒过样本点的中心,故排除选项B;故选A .
2、(山东青岛中学调研)已知两个变量x 和y 之间有线性相关关系,经调查得到如下样本数据,
根据表格中的数据求得同归方程ˆˆˆy
bx a =+,则下列说法正确的是( ) A .0a >,0b > B .0a >,0b < C .0a <,0b > D .0a <,0b <
【答案】B
【解析】由已知数据,可知y 随着x 的增大而减小, 则变量x 和变量y 之间存在负相关的关系,0b ∴<, 当0x =时,则 3.50a y =>>,
即:0a >,0b <. 故选:B.
3、(2020届山东省济宁市高三3月月考)下列说法正确的是( )
A .回归直线ˆˆˆy bx a =+至少经过其样本数据()()()122,,,,,i n n x y x y x y 中的一个点
B .从独立性检验可知有99%的把握认为吃地沟油与患胃肠癌有关系时,我们就说如果某人吃地沟油,那么他有99%可能患胃肠癌
C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D .将一组数据的每一个数据都加上或减去同一个常数后,其方差也要加上或减去这个常数 【答案】C
【解析】回归直线ˆˆˆy bx a =+可以不经过其样本数据()()()122,,,,,i n n x y x y x y 中的一个点,则A 错误;
从独立性检验可知有99%的把握认为吃地沟油与患胃肠癌有关系时,我们就说如果某人吃地沟油,那么他有99%可能患胃肠癌,则B 错误;
在残差图中,残差点分布的带状区域的宽度越窄,表示数据的残差越小,其模型拟合的精度越高,即C 正确; 将一组数据的每一个数据都加上或减去同一个常数后,其平均数也加上或减去同一个常数,则其方差不变,故D 错误, 故选:C
4、(江西省抚州市临川区第一中学2017—2018学年高二下学期期末)临川一中舞蹈社为了研究男女学生对舞蹈的喜爱程度,随机调查学校110名学生是否喜欢跳舞,由列联表和公式
()
()()()()
2
2n ad bc K a b c d a c b d -=
++++计算出2K ,并由此作出结论:“有99%的可能性认为学生喜欢跳舞与性别有关”,则2K 可以为( )
A 。
3.565 B.4.204 C.5。
233 D.6。
842
【答案】D 【解析】
利用所给数据,在2 6.635K ≥时,可作出结论:“有99%的可能性认为学生喜欢跳舞与性别有关”,只有D 满足。
故选D 。
5、(2020年高考全国Ⅰ卷理数)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(,)(1,2,,20)i i x y i =得到下面的散点
图:
由此散点图,在10°C 至40°C 之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A .y a bx =+
B .2y a bx =+
C .e x y a b =+
D .ln y a b x =+
【答案】D
【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近, 因此,最适合作为发芽率y 和温度x 的回归方程类型的是ln y a b x =+。
故选:D.
6、(2020届山东省济宁市第一中学高三一轮检测)某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表:
绘出散点图如下:
根据以上信息,判断下列结论:
①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高. 其中正确的个数为( ). A .0 B .3
C .2
D .1
【答案】D
【解析】对于①,根据此散点图知,各点都分布在一条直线附近,可以判断数学成绩与物理成绩具有较强的线性相关关系,①正确;
对于②,根据此散点图,可以判断数学成绩与物理成绩具有较强的线性相关关系,
不是一次函数关系,②错误;
对于③,甲同学数学考了80分,他的物理成绩可能比数学只考了60分的乙同学的物理成绩要高,所以③错误.
综上,正确的命题是①,只有1个.
故选:D.
7、(2020年山东一中调研)学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:
根据表中数据,通过计算统计量
()
()()()()
2
2
n ad bc
K
a b c d a c b d
-
=
++++
,并参考以下临界数据:
若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过( ) A.0.10 B.0.05 C.0.025D。
0.01
【解析】因为()
()()()()
()2
2
210030101545=
3.030 2.70645255575
n ad bc K a b c d a c b d -⨯-⨯=
≈>++++⨯⨯⨯,所以若由此
认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过0.10,故选A 。
. 8、(江苏淮阴中学调研)通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:
由2
222
()110(40302030),7.8()()()()60506050
n ad bc K K a b c d a c b d -⨯⨯-⨯=
=≈++++⨯⨯⨯算得 附表:
参照附表,得到的正确结论是( )
A .有99%以上的把握认为“爱好该项运动与性别有关”
B .有99%以上的把握认为“爱好该项运动与性别无关”
C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关" 【答案】A
由2
7.8 6.635K ≈>,而()2 6.6350.010
P K ≥=,故由独立性检验的意义可知选A
9、(江苏南通中学开学初调研)下列说法中,正确说法的个数是( )
①在用22⨯列联表分析两个分类变量A 与B 之间的关系时,随机变量2K 的观测值k 越大,说明“A 与B 有关系"的可信度越大
②以模型kx
y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程
0.34z x =+,则,c k 的值分别是4e 和0. 3
③已知两个变量具有线性相关关系,其回归直线方程为y a bx =+,若2b =,1,3x y ==,则1a = A .0 B .1 C .2 D .3
【答案】D
【解析】对于①,分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系"的可信度越大,正确; 对于②,
kx y ce =,∴两边取对数,可得()
ln ln ln ln ln kx kx
y ce c e c kx ==+=+,
令ln z y =,可得ln ,
0.34,ln 4,0.3z c kx z x c k =+=+∴==, 4c e ∴=.即②正确;
对于③,根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,2,1b x ==,
3y =,则1a =。
故 ③正确
因此,本题正确答案是:①②③ 答案选D
10、(南京一中学情调研)某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如下表:根据表中数据得到
()2
277520450530025750320455
K ⨯⨯-⨯=
⨯⨯⨯≈15。
968,
因为2K ≥10。
828,则断定秃发与心脏病有关系,那么这种判断出错的可能性为( ) 附表:
A. 0。
1
B. 0。
05
C. 0.01 D 。
0。
001 【答案】D
点睛:独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.
二、多选题
11、(2021年山东日照一中开学调研)经过对2K 的统计量的研究,得到了若干个临界值,当2K 的观测值3.841k >时,我们( )
A .在犯错误的概率不超过0。
05的前提下可认为A 与
B 有关 B .在犯错误的概率不超过0.05的前提下可认为A 与B 无关
C .有99%的把握说A 与B 有关
D .有95%的把握说A 与B 有关 【答案】AD .
【解析】:根据独立性检验原理知,当2K 的观测值 3.841k >时,
我们有以下结论:在犯错误的概率不超过0.05的前提下可认为A 与B 有关; 即有95%的把握说A 与B 有关; 所以选项A 、D 正确. 故选:AD .
12、(2020届山东省德州市高三上期末)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关"作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的4
5
,女生喜欢抖音的人数占女生人数
3
5
,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:
附:()
()()()()
2
2
n ad bc K a b c d a c b d -=++++
A .25
B .45
C .60
D .75
【答案】BC
【解析】设男生的人数为(
)5n n N
*
∈,根据题意列出22⨯列联表如下表所示:
则()2
21042310557321
n n n n n n
K n n n n ⨯⨯-⨯==
⨯⨯⨯,
由于有95%的把握认为是否喜欢抖音和性别有关,则2
3.841 6.632
K
≤<,
即
10
3.841 6.632
21
n
≤<,得8.066113.9272
n
≤<, n N*
∈,则n的可能取值有9、10、11、12,
因此,调查人数中男生人数的可能值为45或60。
故选:BC。
13、(2020届山东省烟台市高三上期末)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如图所示的列联表.经计算2
K的观测值 4.762
k≈,则可以推断出()
A.该学校男生对食堂服务满意的概率的估计值为
5
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.有95%的把握认为男、女生对该食堂服务的评价有差异
D.有99%的把握认为男、女生对该食堂服务的评价有差异
【答案】AC
【解析】对于选项A,该学校男生对食堂服务满意的概率的估计值为
303
30205
=+,故A 正确;
对于选项B,该学校女生对食堂服务满意的概率的估计值为
4043
401055
=>+,故B 错误;
因为 4.762 3.841k ≈>,所以有95%的把握认为男、女生对该食堂服务的评价有差异,故C 正确,D 错误 故选:AC
14、(2010德州期末)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的
4
5
,女生喜欢抖音的人数占女生人数35,
若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:
k
附:2
()()()()()
n ad bc K a b c d a c b d -=++++
A .25
B .45
C .60
D .75
【答案】BCD .
【解析】:设男生可能有x 人,依题意可得列联表如下;
若有95%的把握认为是否喜欢抖音和性别有关,则2 3.841K >,
由2
242312()25555 3.841732155x x x x x x K x x x x -=
=>,解得40.335x >, 由题意知0x >,且x 是5的整数倍,所以45,60,和75都满足题意. 故选:BCD .
15、(2020·山东滕州市第一中学高三3月模拟)(多选题)下列说法中,正确的命题是( ) A .已知随机变量ξ服从正态分布(
)2
2,N δ
,()40.84P ξ<=,则()240.16P ξ<<=.
B .以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程
0.34z x =+,则c ,k 的值分别是4e 和0.3.
C .已知两个变量具有线性相关关系,其回归直线方程为y a bx =+,若2b =,1x =,3y =,则1a =.
D .若样本数据1x ,2x ,…,10x 的方差为2,则数据121x -,221x -,…,1021x -的方差为16. 【答案】BC
【解析】因为随机变量ξ服从正态分布(
)2
2,N δ
,()40.84P ξ<=,
所以()()2440.50.840.50.340.16P P ξξ<<=<-=-=≠,即A 错;
ln ln()ln ln kx kx y ce y ce y kx c =∴=∴=+,0.34ln 0.34z x y x =+∴=+,从而
40.3,ln 40.3,k c k c e ==∴==,即B 正确;
y a bx =+过(,)x y , 321a b b a =+=∴=,即C 正确;
因为样本数据1x ,2x ,…,10x 的方差为2,所以数据121x -,221x -,…,1021x -的方差为222=8⨯,即D 错误; 故选:BC
16、下列命题中正确的命题是( )
A .标准差越小,则反映样本数据的离散程度越大
B .在回归直线方程ˆ0.43y
x =-+中,当解释变量x 每增加1个单位时,则预报变量y 减少0.4个单位 C .对分类变量X 与Y 来说,它们的随机变量2K 的观测值k 越小,“X 与Y 有关系"的把握程度越大 D .在回归分析模型中,残差平方和越小,说明模型的拟合效果越好 【答案】BD
【解析】:标准差越小,则反映样本数据的离散程度越小,因此A 不正确;
在回归直线方程ˆ0.43y x =-+中,当解释变量x 每增加1个单位时,则预报变量y 减少0。
4个单位,B 正确;
对分类变量X 与Y 来说,它们的随机变量2K 的观测值k 越小,“X 与Y 有关系”的把握程度越小,因此C 不正确;
在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,D 正确. 故选:BD . 三、填空题
17、(山东师范大学附属中学调研)某设备的使用年限x 与所支出的维修费用y 的统计数据如下表:
根据上表可得回归直线方程为 1.3y x a =+,据此模型预测,若使用年限为14年,估计维修费约为__________万元. 【答案】18 【解析】
23456 1.5 4.5 5.5 6.57.0
4,555
x y ++++++++=
===,
则中心点为()4,5,代入回归直线方程可得5 1.34.2ˆ0a
=-⨯=-, 1.30.2y x =-。
当14x =时, 1.3140.218y =⨯-=(万元), 即估计使用14年时,维修费用是18万元. 故答案为:18.
18、(江苏南通一中调研)如果根据性别与是否爱好运动的列联表得到K 2
≈3.852>3.841,则判断性别与是否爱好运动有关,那么这种判断犯错的可能性不超过________. 【答案】5%
19、(江苏栟茶中学开学初调研)某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数据如下表:
在犯错误的概率不超过________的前提下性别与休闲方式有关系.
【答案】0。
10
【解析】由列联表中的数据,得K2的观测值为
k=
()2
892426318
55343257
⨯⨯-⨯
⨯⨯⨯
≈3.689>2.706,
因此,在犯错误的概率不超过0。
10的前提下认为性别与休闲方式有关系.
故答案:0.10
20、(江苏徐州一中调研)为了了解司机开车时礼让斑马线行人的情况,交警部门调查了100名机动车司机,得到以下统计数据:
若以2
χ为统计量进行独立性检验,则2χ的值是__________。
(结果保留2位小数)
参考公式
()
11221221 2
1212
n n n n n
n n n n
χ
++++
-
=
【答案】8.25
【解析】填写2×2列联表,如下:
根据数表,计算
()
()()()()
2
2
n ad bc
a b c d a c b d
-
X=
++++
=
()2
10040252015
55456040
⨯⨯-⨯
⨯⨯⨯
≈8。
25>7.879,
所以有99。
5%的把握认为开车时使用手机与司机的性别有关;
21、(2021年江苏淮阴中学调研)某单位为了了解用电量y度与气温之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
由表中数据得线性回归方程中,,预测当气温为时,用电量的度数约为。
【答案】65.5
【解析】
由题得
所以回归直线经过(10,40),所以,
令x=—4,所以
所以当气温为—4 ℃时,用电量约为68千瓦时.故答案为:68。
四、解答题
22、(2020届山东省潍坊市高三上期末)读书可以使人保持思想活力,让人得到智慧启发,让人滋养浩然正气书籍是文化的重要载体,读书是承继文化的重要方式某地区为了解学生课余时间的读书情况,随机抽取了n名学生进行调查,根据调查得到的学生日均课余读书时间绘制成如图所示的频率分布直方图,将日均课余读书时间不低于40分钟的学生称为“读书之星”,日均课余读书时间低于40分钟的学生称为“非读书之星”:已知抽取的样本中日均课余读书时间低于10分钟的有10人
(1)求,n p的值;
(2)根据已知条件完成下面的22
列联表,并判断是否有95%以上的把握认为“读书之星"与性别有关?
(3)将上述调查所得到的频率视为概率,现从该地区大量学生中,随机抽取3名学生,每次抽取1名,已知每个人是否被抽到互不影响,记被抽取的“读书之星”人数为随机变量X ,求X 的分布列和期望()E X
附:()()()()()
2
2
n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.
【解析】(1)()0.0050.0180.0200.0220.025101P +++++⨯= 解得:0.01P =, 所以10
0.101
0n =
=. (2)因为100n =,所以“读书之星”有1000.2525⨯= 从而22⨯列联表如下图所示:
将22⨯列联表中的数据代入公式计算得
()2
210030101545100 3.0304555752533
K ⨯⨯-⨯==≈⨯⨯⨯
因为3.030 3.841<,所以没有95%以上的把握认为“读书之星"与性别有关
(3)将频率视为概率,即从该地区学生中抽取一名学生是“读书之星”的概率为
1
4。
由题意可知1~3,4X B ⎛⎫ ⎪⎝⎭
所以()3
03
01127041464
P X C ⎛⎫⎛⎫⨯ ⎪ ⎪⎝⎭-=
⎝⎭==
()32
11271146414P X C ⎛==-=
⎫⨯ ⎪⎝⎭, ()2
23
19
21464
14P X C ⎛⎫⎛⎫⨯ ⎪ ⎪⎝⎭⎝⎭==-=
()333
413641P X C ⎛⎫ ⎪⎭
=⎝== 所以X 的分布列为
故()13344
E X =⨯
=。
23、(2020年高考全国Ⅰ卷理数)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为
调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i=1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
20
1
60i i
x
==∑,20
1
1200i i y ==∑,
20
2
1
)
8(0i
i x x =-=∑,202
1
)9000(i i y y =-=∑,20
1
)()800(i i i y y x x =--=∑.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(x i ,y i ) (i=1,2,…,20)的相关系数(精确到0。
01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:
相关系数)()
(i
i
n
x y r x y --=
∑
1.414≈.
【解析】(1)由已知得样本平均数20
1
60120
i i
y y
===
∑,从而该地区这种野生动物数量的估计值为
60×200=12000. (2)样本(,)i i x y (1,2,
,20)i =的相关系数
20
)()
0.943(i
i
x y y x r --=
=
=≈∑.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
24、(2020·山东省淄博实验中学高三上期末)近年来,国资委。
党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:
并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:
(1)求出相关系数r 的大小,并判断管理时间y 与土地使用面积x 是否线性相关? (2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?
(3)若以该村的村民的性别与参与管理意愿的情况估计贫困县的情况,则从该贫困县中任取3人,记取到不愿意参与管理的男性村民的人数为x ,求x 的分布列及数学期望. 参考公式:
1
()()
n
i
x x y y r --=
∑2
2
(),()()()()n ad bc k a b c d a c b d -=++++
其中n a b c d =+++.临界值表:
25.2≈
【解析】(1)依题意:12345810132524
3,1655
x y ++++++++=
===
故
5
1
()()(2)(8)(1)(6)192847i x x y y =-
-=-⨯-÷-
⨯-+⨯+⨯=∑
5
5
2
21
1
()
411410,()643698164254i i x x y y ==-=+++=-=++++=∑∑
则5
5
2
1
()()
0.933)(x x y y r x y
--=
=
=≈-∑∑,
故管理时间y 与土地使用面积x 线性相关. (2)依题意,完善表格如下:
计算得2k 的观测值为
22
300(150505050)3005000500018.7510.828200100200100200100200100
k ⨯⨯-⨯⨯⨯===>⨯⨯⨯⨯⨯⨯
故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.
(3)依题意,x 的可能取值为0,1,2,3,从该贫困县中随机抽取一名,则取到不愿意参与管理的男性村民的概率为
1
6
, 故35125(0)(),6216P X
===1
235125(1)(),6672
P X C ==⨯⨯=
23333
2515(2)(11(3)62),72166
6P P X X C C ⎛⎫=== ⎪⎭⨯⎝==⨯= 故x 的分布列为
则数学期望为12525511
()012321672722162
E X =⨯
+⨯+⨯+⨯= (或由1(3,)6
X B ~,得11
()362
E X =⨯=
25、(2020年高考全国III 卷理数)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到
某公园锻炼的人次,整理数据得到下表(单位:天): 锻炼人次
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表); (3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
附:K2
【解析】(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
(2)一天中到该公园锻炼的平均人次的估计值为
1
⨯+⨯+⨯=.
(100203003550045)350
100
(3)根据所给数据,可得22
⨯列联表:
根据列联表得
2
2
100(3382237) 5.82055457030
K ⨯⨯-⨯=≈⨯⨯⨯.
由于5.820 3.841>,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关. 26、(2020年高考山东)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和2SO 浓度(单位:3μg/m ),得下表:
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且2SO 浓度不超过150"的概率; (2)根据所给数据,完成下面的22⨯列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与2SO 浓度有关?
附:2
2
()()()()()
n ad bc K a b c d a c b d -=++++,
【解析】(1)根据抽查数据,该市100天的空气中PM2。
5浓度不超过75,且2SO 浓度不超过150的天数为32186864+++=,因此,该市一天空气中PM2.5浓度不超过75,且2SO 浓度不超过150的概率的估计值为
64
0.64100
=. (2)根据抽查数据,可得22⨯列联表:
(3)根据(2)的列联表得2
2
100(64101610)7.48480207426
K ⨯⨯-⨯=
≈⨯⨯⨯. 由于7.484 6.635>,故有99%的把握认为该市一天空气中PM2.5浓度与2SO 浓度有关
27、(2020届山东省潍坊市高三上学期统考)班主任为了对本班学生的考试成绩进行分析,决定从本班24名女同学,18名男同学中随机抽取一个容量为7的样本进行分析.
(1)如果按照性别比例分层抽样,可以得到多少个不同的样本?(写出算式即可,不必计算出结果) (2)如果随机抽取的7名同学的数学,物理成绩(单位:分)对应如下表:
①若规定85分以上(包括85分)为优秀,从这7名同学中抽取3名同学,记3名同学中数学和物理成绩均为优秀的人数为,求的分布列和数学期望;
②根据上表数据,求物理成绩关于数学成绩的线性回归方程(系数精确到0.01);若班上某位同学的数学成绩为96分,预测该同学的物理成绩为多少分?
附:线性回归方程,
其中,。
【解析】(1)依据分层抽样的方法,24名女同学中应抽取的人数为
名, 18名男同学中应抽取的人数为
名, 故不同的样本的个数为.
(2)①∵7名同学中数学和物理成绩均为优秀的人数为3名,
ξξy x y bx a =+1
2
1
()()
()
n
i
i
i n
i
i x x y y b x x ==--=
-∑∑a y bx =-7
24442
⨯=7
18342
⨯=43
2419C C
∴的取值为0,1,2,3。
∴,, ,。
∴的分布列为
∴。
②∵,. ∴线性回归方程为.
当时,。
可预测该同学的物理成绩为96分。
28、(2020届山东省德州市高三上期末)某公司为了了解年研发资金投人量(单位:亿元)对年销售额(单位:亿元)的影响。
对公司近年的年研发资金投入量和年销售额的数据,进行了对比分析,建立了两个函数模型:①,②,其中、、、均为常数,为自然对数的底数.并得到一
些统计量的值.令,,经计算得如下数据:
ξ()3
4374
035C P C ξ===()21433
711835
C C C P ξ===()12433712235C C C P ξ===()33375
31
3C C P ξ===ξ()41812190123353535357
E ξ=⨯
+⨯+⨯+⨯=526
0.65912
b =
≈830.657633.60a y b x =-⨯=-⨯=0.6533.60y x =+96x =0.659633.6096y =⨯+=x y 12i x i y 2
y x αβ=+x t
y e
λ+=αβλt e 2
i i u x =()ln 1,2,,12i i v y i ==⋅⋅⋅
(1)请从相关系数的角度,分析哪一个模型拟合程度更好? (2)(ⅰ)根据(1)的选择及表中数据,建立关于的回归方程;
(ⅱ)若下一年销售额需达到亿元,预测下一年的研发资金投入量是多少亿元?
附:①相关系数,
回归直线中公式分别为:,;
②参考数据:
,.
【解析】(1)设和的相关系数为,和的相关系数为,由题意,
y x y 90x ()()
n
i
i
x x y y r --=
∑y a bx =+()()
()
1
2
1
n
i
i
i n
i
i x x y y b x x ==--=
-∑∑a y bx =-308477=⨯9.4868≈ 4.499890e ≈{}i u {}i y 1r {}i x {}i v 2r
,
,
则,因此从相关系数的角度,模型的拟合程度更好;
(2)(ⅰ)先建立关于的线性回归方程, 由,得,即;
由于,, 所以关于的线性回归方程为,
所以,则;
(ⅱ)下一年销售额需达到亿元,即,代入,得,
又,所以,所以,
所以预测下一年的研发资金投入量约是亿元。
29、(2020·湖北高三期末(理))某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019年元旦期间的90位游客购买情况进行统计,得到如下人数分布表。
()()
12
1
43
0.8650
i
i
u u y y r --=
=
==∑()()
12
210
0.9111
i
i
x x v v r --=
=
=≈∑12r r <x t
y e λ+=v x x t y e λ+=ln y t x λ=+v t x λ=+()()
(
)
12
1
12
2
1
20.18211i
i
i i i x x v v x x
λ==--=
=
≈-∑∑2
4.20200.5611
t v x λ=-=-⨯≈v x 0.180.56v x =+ln 0.180.56y x =+0.180.56e x y +=y 9090y =0.180.56e x y +=0.180.5690x e +=44998e 90⋅≈ 4.49980.180.56x ≈+ 4.49980.56
21.890.18
x -≈≈21.89
(1)根据以上数据完成列联表,并判断是否有的把握认为购买金额是否少于60元与性别有关.
(2)为吸引游客,该超市推出一种优惠方案,购买金额不少于60元可抽奖3次,每次中奖概率为(每次抽奖互不影响,且的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10元,中奖3次减15元.若游客甲计划购买80元的土特产,请列出实际付款数(元)的分布列并求其数学期望。
附:参考公式和数据:,。
附表:
【解析】(1)列联表如下:
22⨯95%p p X ()()()()()2
2n ad bc K a b c d a c b d -=++++n a b c d =+++22⨯
, 因此有的把握认为购买金额是否少于60元与性别有关.
(2)可能取值为65,70,75,80,且. ,, ,, 所以的分布列为。
30、(2020届山东省滨州市高三上期末)近年,国家逐步推行全新的高考制度.新高考不再分文理科,某省采用模式,其中语文、数学、外语三科为必考科目,每门科目满分均为分。
另外考生还要依据想考
()22901220401814405 3.84130605238247
K ⨯⨯-⨯==>>⨯⨯⨯95%X 10201903p +=
=()3331165327P X C ⎛⎫=== ⎪⎝⎭()22312270339P X C ⎛⎫==⨯= ⎪⎝⎭
()21
312475339P X C ⎛⎫==⨯⨯= ⎪⎝⎭()3
032880327P X C ⎛⎫=== ⎪⎝⎭X 12486570758075279927
EX =⨯+⨯+⨯+⨯=33+150
取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物门科目中自选门参加考试(选),每门科目满分均为分。
为了应对新高考,某高中从高一年级名学生(其中男生人,女生人)中,采用分层抽样的方法从中抽取名学生进行调查,其中,女生抽取人。
(1)求的值;
(2)学校计划在高一上学期开设选修中的“物理”和“地理"两个科目,为了了解学生对这两个科目的选课情况,对抽取到的名学生进行问卷调查(假定每名学生在“物理"和“地理”这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的一个不完整的列联表,请将下面的列联表补充完整,并判断是否有的把握认为选择科目与性别有关?说明你的理由;
(3)在抽取到的名女生中,按(2)中的选课情况进行分层抽样,从中抽出名女生,再从这名女生中抽取人,设这人中选择“物理”的人数为,求的分布列及期望.附:
,
63631001000550450n 45n n 22⨯22⨯99%459944X X 2
2
()()()()()n ad bc K a b a c c d b d -=++++n a b c d =+++
【解析】(1)由题意得
, 解得。
(2)2×2列联表为:
, 故有的把握认为选择科目与性别有关。
(3)从名女生中分层抽样抽名女生,所以这女生中有人选择“物理”, 人选择“地理”。
名女生中再选择名女生,则这名女生中选择“物理”的人数可为,,,,,
设事件发生的概率为,则,,,,所以的分布列为:
451000450
n =100n =2
2
100(45202510)8.1289 6.63555457030K ⨯⨯-⨯=≈>⨯⨯⨯99%459954944X 01234X ()P X 44491(0)126C P X C ===1354492010(1)12663
C C P X C ====2254496010(2)12621C C P X C ====3154494020(3)12663C C P X C ====45495(4)126
C P X C ===X
期望. 31、(2020·山东高三模拟)新高考,取消文理科,实行“”,成绩由语文、数学、外语统一高考成绩和自主选考的3门普通高中学业水平考试等级性考试科目成绩构成.为了解各年龄层对新高考的了解情况,随机调查50人(把年龄在称为中青年,年龄在称为中老年),并把调查结果制成下表:
(1)分别估计中青年和中老年对新高考了解的概率;
(2)请根据上表完成下面列联表,是否有95%的把握判断对新高考的了解与年龄(中青年、中老年)有关?
附:. 1206040520()012341261261261261269
E X =⨯+⨯+⨯+⨯+⨯=33+[15,45)[45,75)22⨯2
2
()()()()()n ad bc K a b c d a c b d -=++++。