“十年高考”:概率与统计 回归分析与独立性检验(附详细答案解析)

合集下载

【高考数学】专题十 概率与统计第二十九讲 回归分析与独立性检验(含答案)

【高考数学】专题十  概率与统计第二十九讲  回归分析与独立性检验(含答案)

取的 16 个零件的尺寸:
抽取次序 1
2
3
4
5
6
7
8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9
10
11
12
13
14
15
16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得
x
正确的是
A. x 与 y 正相关, x 与 z 负相关 C. x 与 y 负相关, x 与 z 负相关
2.(2014 湖北)根据如下样本数据
B. x 与 y 正相关, x 与 z 正相关 D. x 与 y 负相关, x 与 z 正相关
x
3
4
5
6
7
8
y
4.0
2.5
− 0.5
0.5
− 2.0
− 3.0
得到的回归方程为 yˆ = bx + a ,则
=
1 16
16 i =1
xi
=
9.97 , s
=
1 16
16 i =1
( xi
− x)2
=
1 16
(
16 i =1
xi2
−16x 2 )
16
16
0.212 , (i − 8.5)2 18.439 , (xi − x)(i − 8.5) = −2.78 ,其中 xi 为抽取的
i =1
i =1
第 i 个零件的尺寸, i =1,2,…,16.
专题十 概率与统计
第二十九讲 回归分析与独立性检验
2019 年

十年高考理科数学真题 专题十一 概率与统计 三十三 回归分析与独立性检验及答案

十年高考理科数学真题 专题十一  概率与统计 三十三  回归分析与独立性检验及答案

专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii y y =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.65636.8289.8 1.61469 108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, )(2k P ≥χ 0.050.01k3.841 6.635ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=4 17y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。

十年高考统计与概率分析

十年高考统计与概率分析

2015(Ⅱ) 作图 2013(Ⅱ) 频率分布直方图 2014(Ⅰ) 频率分布直方图 2015(Ⅰ) 散点图 2015(Ⅱ) 茎叶图 2016(Ⅰ) 频率分布直方图 2016(Ⅲ) 折线图 2017(Ⅱ) 频率分布直方图 2017(Ⅱ) 折线图 2018(Ⅲ) 茎叶图
表4-概率计算统计
以购买易损零件所需要的期望值为决策依据,在n=19 与n=20之中选其一,应选用哪个?
以检验费用与赔偿费用和的期望值为决策依据,是否 该对这箱余下的所有产品做检验?
2017(Ⅰ) 试说明上述监控生产过程方法的合理性. 2018(Ⅰ)
2018(Ⅱ) 你认为用哪个模型得到的预测值更可靠?并说明理由.
表3-统计决断问题统计
试题年份 图形类型 考查内容
2009 2009
作图 频率分布直方图
作频率分布直方图 作茎叶图 估计方差,计算平均数 计算概率与方差 计算平均数与方差 求回归方程 估计平均值与分散程度 求分布列 回归分析,相关系数 计算概率,2×2列联表,中 位数 回归分析,统计推断 计算平均数,中位数,2×2 列联表
表5-与函数结合统计
年份 函数类型 问题描述
2011 2012
分段函数购进16枝玫瑰花,求 当天的利润y(单位:元)关于需 求量n(单位:份,n∈N)的函 数解析式 将T表示为X的函数 计算二次型函数的最值 求进货量n为多少时期望达到最大 值 求f(p)的最大值点p0
回归方程 非线性回归方程从统计 的角度计算二次型函数 的最值 茎叶图、从统计的角度 计算概率 分布列、从统计的角度 求最值、统计推断 从统计角度计算概率、 条件概率、期望 相关关系、回归直线方 程
频率分布直方图 232 表格 散点图 222 341
2015(Ⅱ) 18

2017高考十年高考文数分项版(新课标1专版)专题11 概率和统计(解析版) 含解析

2017高考十年高考文数分项版(新课标1专版)专题11 概率和统计(解析版) 含解析

一.基础题组1。

【2013课标全国Ⅰ,文3】从1,2,3,4中任取2个不同的数,则取出的2个数之差的绝对值为2的概率是( ).A .12B .13C .14D .16【答案】:B【解析】:由题意知总事件数为6,且分别为(1,2),(1,3),(1,4),(2,3),(2,4),(3,4),满足条件的事件数是2,所以所求的概率为13。

2。

【2011课标,文6】有3个兴趣小组,甲、乙两位同学各自参加其中一个小组,每位同学参加各个小组的可能性相同,则这两位同学参加同一个兴趣小组的概率为( )A 。

13B 。

12 C.23D 。

34【答案】A【解析】因为每位同学参加各个小组的可能性相等,所以所求概率为13,选A 。

3。

【2008全国1,文2】掷一个骰子,向上一面的点数大于2且小于5的概率为1P ,抛两枚硬币,正面均朝上的概率为2P ,则( ) A .12P P < B .12P P > C .12P P = D 。

不能确定 【答案】B5。

【2016新课标1文数】为美化环境,从红、黄、白、紫4种颜色的花中任选2种花种在一个花坛中,余下的2种花种在另一个花坛中,则红色和紫色的花不在同一花坛的概率是(A )13 (B )12 (C )23 (D )56【答案】C【解析】试题分析:将4种颜色的花种任选2种种在一个花坛中,余下2种种在另一个花坛中,有6种种法,其中红色和紫色的花不在同一个花坛的种数有4种,故所求概率为23,选C 。

【考点】古典概型【名师点睛】作为客观题形式出现的古典概型试题,一般难度不大,解答中的常见错误是在用列举法计数时出现重复或遗漏,避免此类错误发生的有效方法是按照一定的标准进行列举。

6。

【2011全国1,文19】(Ⅰ)设所求概率为1P ,则1=1(10.5)(10.6)0.8.P --⨯-=故该地1位车主至少购买甲、乙两种保险中的l 种的概率为0.8.(Ⅱ)对每位车主甲、乙两种保险都不购买的概率为(10.5)(10.6)0.2.-⨯-=于是所求概率为:123(0.2)(10.2)0.384.C -=7. 【.2009....全国卷...Ⅰ.,文..20..】甲、乙二人进行一次围棋比赛,约定先胜3局者获得这次比赛的胜利,比赛结束。

概率统计解答题(理科)(解析版)- 十年(2014-2023)高考数学真题分项汇编(全国通用)

概率统计解答题(理科)(解析版)- 十年(2014-2023)高考数学真题分项汇编(全国通用)

Cm2 m3
)
(Cmn22
Cm2 n1
)]

m 1
Cm2 n2

民间解答:(1) 7C36 4C74 7 20 4 35 0 ;
(2)对任意的 m N* ,

当 n m 时,左边 m 1 Cmm
m
1
,右边
m
1
Cm2 m2
m 1,等式成立,
② 假设 n k k ≥ m 时命题成立,
题型一:二项式定理
1.(2019·江苏·第24题)设 (1 x)n a0 a1x a2 x2 an xn , n 4, n N* .已知 a32 2a2a4 . (1)求 n 的值;(2)设 (1 3)n a b 3 ,其中 a,b N* ,求 a2 3b2 的值. 【答案】见解析
PK2 k
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)答案见解析
(2)(i)证明见解析;(ii) R 6 ;
解析:(1)由已知 K 2
n(ad bc)2
= 200(4090 6010)2
(a b)(c d)(a c)(b d) 50150100100
6
2
24
解得 n 5 .
(2)由(1)知, n 5 .
(1 3)n (1 3)5
C50 C15 3 C52 ( 3)2 C53 ( 3)3 C54 ( 3)4 C55 ( 3)5 ab 3. 解法一:因为 a,b N* ,所以 a C50 3C52 9C54 76,b C15 3C35 9C55 44 , 从而 a2 3b2 762 3 442 32 .
都为 1 , 2

高考数学专题《概率与统计》解读含答案解析

高考数学专题《概率与统计》解读含答案解析

重难点04 概率与统计新高考概率与统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。

试题考查特点是以实际应用问题为载体,小题部分主要是考查排列组合与古典概型,解答题部分主要考查独立性检验、超几何分布、离散型分布以及正态分布对应的数学期望以及方差。

概率的应用立意高,情境新,赋予时代气息,贴近学生的实际生活。

取代了传统意义上的应用题,成为高考中的亮点。

解答题中概率与统计的交汇是近几年考查的热点趋势,应该引起关注。

求解概率问题首先确定是何值概型再用相应公式进行计算,特别对于解互斥事件(独立事件)的概率时,要注意两点:(1)仔细审题,明确题中的几个事件是否为互斥事件(独立事件),要结合题意分析清楚这些事件互斥(独立)的原因;(2)要注意所求的事件是包含这些互斥事件(独立事件)中的哪几个事件的和(积),如果不符合以上两点,就不能用互斥事件的和的概率.离散型随机变量的均值和方差是概率知识的进一步延伸,是当前高考的热点内容.解决均值和方差问题,都离不开随机变量的分布列,另外在求解分布列时还要注意分布列性质的应用.捆绑法:题目中规定相邻的几个元素捆绑成一个组,当作一个大元素参与排列。

相离问题插空排:元素相离(即不相邻)问题,可先把无位置要求的几个元素全排列,再把规定的相离的几个元素插入上述几个元素的空位和两端。

定序问题缩倍法:在排列问题中限制某几个元素必须保持一定的顺序,可用缩小倍数的方法。

标号排位问题分步法:把元素排到指定位置上,可先把某个元素按规定排入,第二步再排另一个元素,如此继续下去,依次即可完成。

有序分配问题逐分法:有序分配问题指把元素分成若干组,可用逐步下量分组法。

对于二项式定理的应用,只要会求对应的常数项以及对应的n项即可,但是应注意是二项式系数还是系数。

新高考统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。

高考数学常见题型解法归纳反馈训练第65讲回归分析和独立性检验

高考数学常见题型解法归纳反馈训练第65讲回归分析和独立性检验

第65讲 回归分析和独立性检验【知识要点】(一)变量间的相关关系、回归分析的基本思想及初步运用 一、相关关系1、概念:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系.2、相关关系与函数关系的异同点. 相同点:两者均是指两个变量间的关系.不同点:函数关系是一种确定关系,是一种因果系.如正方形的面积s 和边长a 的关系2s a =就是一种函数关系.相关关系是一种非确定的关系,也不一定是因果关系.如产品的销售额与广告费的投入的关系. 二、散点图表示具有相关关系的两个变量的一组数据的图形叫做散点图.正相关:如果散点图中的点散布在从左小角到右上角的区域内,称为正相关. 负相关:如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.注:如果关于两个变量统计数据的散点图呈现发散状,则这两个变量之间不具有相关关系. 三、回归分析1、对具有相关关系的两个变量进行统计分析的方法叫回归分析.回归分析的一般步骤为画散点图→求回归直线方程→用回归直线方程进行预报.2、回归直线方程回归直线:观察散点图的特征,如果各点大致分布在一条直线的附近,就称两个变量之间具有线性相关的关系,这条直线叫做回归直线.回归直线方程:设所求的直线方程为y bx a ∧=+,其中121()(),()niii nii x x y y b a y bx x x ==--==--∑∑,1111,,n ni i i i x x y y n n ====∑∑(,)x y 称为样本点的中心,回归直线过样本点的中心.回归方程的截距a 和斜率b 是用最小二乘法计算出来的. 3、相关系数两个变量之间线性相关关系的强弱用相关系数r 来衡量.相关系数:()()niix x y y r --=∑ 0r >,表示两个变量正相关;0r <,表示两个变量负相关;r 的绝对值越接近1,表明两个变量的线性相关性越强.r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,r 的绝对值大于0.75时,表明两个变量的线性相关性很强. 4、建立回归模型的基本步骤:①确定研究对象,明确哪个是解释变量,哪个是预报变量;②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系) ③由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a =+) ④按照公式计算回归方程中的参数(如最小二乘法) ⑤得出结果后检查数据模型是否合适检查数据模型拟合效果的好坏,一般有两种方法.方法一:通过残差分析,如果残差点比较均匀地落在水平的带状区域中,则说明选用的模型比较合适,反之,不合适)方法二:用相关指数2R 来刻画回归的效果,其计算公式是:22121()1()nii nii y y R y y ∧==-=--∑∑其中i y y ∧-=真实值-预报值=残差,2R 值越大,说明残差的平方和越小,也就是说模型的拟合效果越好.(二)独立性检验的基本思想及其初步运用一、用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,是否患肺癌,国籍等二、独立性检验的方法1、列出两个分类变量的频数表(列联表),直观判断.2、画三维柱形图、二维条形图、等高条形图,直观判断.3、两个分类变量的独立性检验 一般步骤: (1)2*2列联表(2)提出假设:设p 与q 没有关系 (3)根据列联表中的数据2K 计算的值22()()()()()()n ad bc K n a b c d a b c d a c b d -==+++++++其中为样本容量(4)根据计算得到的随机变量2K 的观测值作出判断如:2 4.232K =因为4.232介于临界值3.841和5.024之间,2( 3.841)p K ≥=0.05,所以两个分类变量没有关系的概率是5%,即两个分类变量有关系的概率为95%. 三、温馨提示(1)独立性检验的必要性:为什么不能只凭列联表和图形下结论?原因是列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此需要用列联表检验这个方法来确认所得得结论在多大程度上适用于总体.(2)独立性检验的思想来自于统计上的假设性检验,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出矛盾来确定结论是否成立.但是二者的矛盾的含义不同,反证法中的矛盾是指不符合逻辑的事情发生;而假设检验中的矛盾是指不符合逻辑的小概率事件发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的发生.(3)2K 与k 的关系并不是2K k =,k 是2K 的观测值,或者说2K 是一个随机变量,它在dc b a ,,,取不同的值时,2K 可能不同,而k 是取定一组数d c b a ,,,后的一个确定值. 【方法讲评】【例1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数12211()()()()niii n niii i x x y y r x x y y ===--=--∑∑∑,0.0080.09≈.(2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估计值为10.02.因为162211(16)0.21216i i x x =-≈∑,所以162211(16)16i i x x =-∑=20.212,所以162221160.21216i i x x ==⋅+∑ 22160.212169.971591.134=⋅+⋅≈剩下数据的样本方差为2222211611611611[()()][()152()]1515x x x x x x x x x x -++-=+++-++2222222211611315161622222111[()15215][(+x )15]151511[9.221510.02][1591.1349.221510.02]0.0081515i i x x x x x x x x x x ==+++-⋅=++++-=--⋅=--⋅≈∑0.0080.09≈.【点评】(1)统计概率的解答题一般阅读量信息量比较大,并且数据比较多,对考生的心理素质要求较高,如果学生急躁冒进,对解题的影响就大了. 遇到这样的题目,建议先绕过拦路虎,杀个回马枪.先把其它题目完成再回过头来解答. 不要硬碰硬. (2)前几年的高考,数据直接代进去就可以了,运算量比较小,最近几年的高考,有的数据不能直接代进去,还要把目标数据变形后才能代进去. 故近几年的高考统计概率题的数据分析处理能力要求更高了. 本题中要求162 1()iix x=-∑,已知告诉的却是16211()16iix x=-∑0.212≈,所以要化简计算才能得到1621()iix x=-∑.本题中要求剩下的15个数的平均数,但是已知告诉的却是16119.9716iix x===∑,所以要利用平均数的定义和16119.9716iix x===∑求出剩下的15个数的平均数. 本题要求剩下的15个数的方差,但是已知告诉的却是16个数的标准差16211()0.21216iix x=-≈∑,所以要利用方差的定义结合16211()0.21216iix x=-≈∑求出剩下的15个数的方差. 这是本题的三个难点.【反馈检测1】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t的关系,请用相关系数加以说明;(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32iiy==∑,7140.17i iit y==∑721()0.55iiy y=-=∑7 2.646≈.参考公式:相关系数12211()()()(y y)ni iin ni ii it t y yrt t===--=--∑∑∑回归方程y a bt=+中斜率和截距的最小二乘估计公式分别为:121()()()ni iiniit t y ybt t==--=-∑∑,=.a y bt-【反馈检测2】经销商小王对其所经营的某一型号二手汽车的使用年数x (0<x ≤10)与销售价格y (单位:万元/辆)进行整理,得到如下的对应数据:(Ⅰ)试求y 关于x 的回归直线方程;(附:回归方程y b x a ∧∧∧=+中,1221,ni ii nii x y nx yb a y bx xnx ---==--∑∑(Ⅱ)已知每辆该型号汽车的收购价格为20.05 1.7517.2w x x =-+万元,根据(Ⅰ)中所求的回归方程,预测x 为何值时,小王销售一辆该型号汽车所获得的利润z 最大.【例2】全国人大常委会会议于 2015年12月27日通过了关于修改人口与计划生育法的决定, “全面二孩”从2016年元旦起开始实施,A 市妇联为了解该市市民对“全面二孩”政策的态度,随机抽取了男性市民30人、女性市民70人进行调查, 得到以下的22⨯列联表:(1)根椐以上数据,能否有0090的把握认为A 市市民“支持全面二孩”与“性别”有关?(2)现从持“支持”态度的市民中再按分层抽样的方法选出15名发放礼品,分别求所抽取的15人中男性市民和女性市民的人数;(3) 将上述调查所得到的频率视为概率,.现在从A 市所有市民中,采用随机抽样的方法抽取3位市民进行长期跟踪调查, 记被抽取的3位市民中持“支持”态度人数为X .①求X 的分布列;②求X 的数学期望()E X 和方差()D X . 参考公式:()()()()()22n ad bc K a b a d a c b d -=++++,其中n a b c d =+++ 参考数据:()2P K k >0.15 0.10 0.05 0.025 0.010 0.005 0.001 k2.0722.7063.8415.0246.6357.87910.828(3)(i )由22⨯列联表可知,抽到持“支持”态度的市民的频率为6031005=,将频率视为概率,即从A 市市民中任意抽取到一名持“支持”态度的市民的概率为35. 由于总体容量很大,故X 可视作服从二项分布,即3(3,)5XB ,所以3332()()()(0,1,2,3)55k k k P X k C k -===.从而X 的分布列为:X123P8125 36125 54125 27125(ii )39()355E X np ==⨯=;()(1)D X np p =-=321835525⨯⨯=. 【点评】第三小问中,由于总体容量很大,故X 可视作服从二项分布.【反馈检测3】【2017课标II ,理18】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下: (1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:22()()()()()n ad bc K a b c d a c b d -=++++高中数学常见题型解法归纳及反馈检测第65讲:回归分析和独立性检验参考答案【反馈检测1答案】(Ⅰ)0.99r ≈,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系;(Ⅱ)1.82亿吨(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得103.02889.2)())((ˆ71271≈=---=∑∑==i ii i it ty y t tb , 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.【反馈检测2答案】(I )ˆ 1.4518.7y x =-+;(II )预测当3x =时,销售利润z 取得最大值.【反馈检测2详细解析】(Ⅰ)由已知得6,10x y ==由552111242,220,i ii i x yx --==∑∑解得12211.45ni ii nii x y nx yb xnx---==--∑∑,18.7a y bx =-=所以回归直线的方程为14.518.7y x =-+(Ⅱ)221.4518.7(0.05 1.7517.2)0.050.3 1.5z x x x x x =-+--+=-++20.05(3) 1.95x =--+文档从网络中收集,已重新整理排版.word 版本可编辑.欢迎下载支持.11文档来源为:从网络收集整理.word 版本可编辑. 所以预测当3x =时,销售利润z 取得最大值.【反馈检测3答案】(1)0.4092;(2) 有99%的把握认为箱产量与养殖方法有关;(3)52.35kg.(2)根据箱产量的频率分布直方图得列联表箱产量50kg < 箱产量50kg ≥ 旧养殖法62 38 新养殖法 34 66()222006266343815.70510010096104K ⨯⨯-⨯=≈⨯⨯⨯由于15.705 6.635>故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg 的直方图面积为()0.0040.0200.04450.340.5++⨯=<,箱产量低于55kg 的直方图面积为()0.0040.0200.044+0.06850.680.5++⨯=>故新养殖法箱产量的中位数的估计值为0.5-0.3450+ 2.35kg 0.068()≈5.。

高考数学复习第9章概率与统计第6讲回归分析与独立性检验

高考数学复习第9章概率与统计第6讲回归分析与独立性检验
第6讲 回归分析与独立性检验
课标要求
1.通过收集现实问题中两个有关联变量的数据作 出散点图,并利用散点图直观认识变量间的相关 关系. 2.经历用不同估算方法描述两个变量线性相关的 过程.知道最小二乘法的思想,能根据给出的线性 回归方程系数公式建立线性回归方程. 3.通过典型案例,学习下列一些常见的统计方法, 并能初步应用这些方法解决一些实际问题. (1)通过对典型案例(如“肺癌与吸烟有关吗”等) 的探究,了解独立性检验(只要求 2×2 列联表)的 基本思想、方法及初步应用. (2)通过对典型案例(如“人的体重与身高的关 系”等)的探究,了解回归的基本思想、方法及其 初步应用
有关”
B.有 95%的把握认为“对能否缓解交通拥堵的认识与性别 无关”
C.有 99%的把握认为“对能否缓解交通拥堵的认识与性别 有关”
D.有 99%的把握认为“对能否缓解交通拥堵的认识与性别 无关”
解 析 : 由 2×2 列 联 表 , 可 求 K2 的 观 测 值 , k =
4488++3300+1428++21022102×+4280-3102+×23002≈5.288>3.841.由统计表 P(K2≥3.841)=0.05,∴有 95%的把握认为“能否缓解交通拥堵 的认识与性别有关”.
i 1
i 1
n
xi yi nx y

i1
叫做变量 y 与 x 之间的样本相
n
(
xi2
2
nx )(
n
yi2
n
2
y
)
i1
i1
关系数,简称相关系数,用它来衡量两个变量之间的线性相关
程度.
②当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量___负__相__关_. r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关 关系.通常|r|>0.75 时,认为两个变量有很强的线性相关性.

十年高考全国课标卷统计与概率解答——2018年高考全国课标卷理科为例_宋建辉 - 副本

十年高考全国课标卷统计与概率解答——2018年高考全国课标卷理科为例_宋建辉 - 副本

十年高考全国课标卷统计与概率解答题的考察研究—以2009年至2018年高考全国课标卷理科为例宋健辉(福建省福州格致中学)1引言统计与概率是高中数学的重要内容,《2018年普通高等学校招生全国统一考试大纲的说明(理科)》对统计与概率内容的要求是,高考主要考查随机抽样,用样本估计总体,变量的相关性,随机事件的概率,古典概型,几何概型,回归分析,独立性检验,离散型随机变量的分布列、期望、方差,正态分布.考查重点是用样本估计总体,古典概型,离散型随机变量的分布列、期望、方差,应用回归分析与独立性检验思想方法解决简单实际问题的能力.试题强调应用性,以实际问题为背景,构建数学模型,突出考查统计与概率的思想和考生的数据处理能力以及应用意识.本文将以2009年至2018年高考全国课标卷统计与概率(理科)解答题为例,对其进行一次理论与实践的总结和分析,与大家分享试题背后的思想和试题对教学的引导作用,希望能给一线教师提供一点经验.2基本情况分析表12009年至2018年高考课标卷统计与概率解答题统计试题年份题号考查的知识点涉及的统计图或表字符2009(海南宁夏卷)19 从统计的角度计算概率、由频率分布直方图估计均值与方差频率分布表、频率分布直方图4172010 19 分层抽样、独立性检验、调整抽样方法2×2列联表1692011 19 从统计的角度计算概率、分段函数、分布列频率分布表3072012 18 分段函数、分布列、期望方差、统计推断统计表290 2013(Ⅰ)19 概率计算、分布列、数学期望文字语言267 2013(Ⅱ)19 分段函数、由频率分布直方图估计概率、期望频率分布直方图2612014(Ⅰ)17 由频率分布直方图估计均值与方差、由正态分布计算概率与期望频率分布直方图2322014(Ⅱ)19 线性回归方程表格222 2015(Ⅰ)19 非线性回归方程、从统计的角度计算二次型函数的最值散点图3412015(Ⅱ)18 茎叶图、从统计的角度计算概率茎叶图、数据以及表格3772016(Ⅰ)19 分布列、从统计的角度求最值、统计推断频率分布直方图2912016(Ⅱ)18 从统计的角度计算概率、条件概率、表格2391期望2016(Ⅲ)18 相关系数、回归直线方程折线图190表格440 2017(Ⅰ)19 正态分布3 的理解、统计推断、期望与方差试题年份题号考查的知识点涉及的统计图或表字符频率分布直方图243 2017(Ⅱ)18 从统计的角度计算概率、独立性检验、由频率分布直方图估计中位数2017(Ⅲ)18 分布列、统计推断频率分布表383 2018(Ⅰ)20 二项分布、导数求最值、期望、统文字语言333计推断折线图210 2018(Ⅱ)18 利用回归方程求预报值、判断回归模型得到预报值的可靠性2018(Ⅲ)18 茎叶图、中位数、独立性检验茎叶图、2×2列联275表由表1,统计与概率命题范围主要有:用样本估计总体,离散型随机变量的分布列、期望与方差,正态分布,回归分析与独立性检验,统计决策,并多次与函数结合在一起考查.其基本情况有如下4点:①从题号来看,除了2014年Ⅰ卷和2018年Ⅰ卷外,其余均是解答题的第18或19题,属中档和中档偏上的题目.但从实测数据来看,以福建省2016年和2017年公布的数据:2016年难度0.34,2017年难度0.24,由此可以看到课标卷的统计概率题难点在于“新”.②除了2013年Ⅰ卷和2018年Ⅰ卷外,所有题目都与统计图表紧密相连,涉及频率分布直方图、茎叶图、折线统计图、散点图,读图识表作图是基本要求.③不含空格,从统计的字符来看,信息量相当大,需要很好的数学阅读能力.④大部分考查离散型随机变量分布,尤其是超几何分布与二项分布,其中2014年Ⅰ卷与2017年Ⅰ卷结合正态考查二项分布.十年所考的19题对统计与概率的知识、思想能力进行了非常全面的考查,强调应用性,试题呈现出三大特点:(1)背景公平,控制难度.全国卷的统计与概率解答题主要是以考数学应用题的考查目标而出现的,此它必须以大多数考生熟悉的社会热点问题为背景才能显示公平,而且考查的难度适中.(2)以统计为主,概率为辅.在命题设计中,对概率的考查基本上都是从统计的角度来计算概率,即概率计算是为统计服务的,重在强调对统计的基本思想方法及其应用的考查,重在利用统计与概率思想解决实际问题.(3)强调对随机模型的建立,统计数据的收集、整理和处理,直至最终作出相关统计决策的全过程的考查.3试题分析3.1突出统计概率思想分析、解释和统计决断统计与概率思想包含统计思想与概率思想两个部分,统计思想是指利用统计数据,依据23统计问题的要求,得到统计结论;概率思想是通过对随机现象的观察研究发现必然,去研究隐藏在随机现象背后的统计规律,进而理解随机现象.例1(2018全国1卷理20)某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验.设每件产品为不合格品的概率都为(01)p p <<,且各件产品是否为不合格品相互独立.(1)记20件产品中恰有2件不合格品的概率为()f p ,求()f p 的最大值点0p ; (2)现对一箱产品检验了20件,结果恰有2件不合格品,以(1)中确定的0p 作为p 的值.已知每件产品的检验费用为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用.(i )若不对该箱余下的产品作检验,这一箱的检验费用与赔偿费用的和记为X ,求EX ;(ii )以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?简解(1)由221820()(1),(0,1)f p C p p p =-∈,求得当110p =时,()f p 有最大,所以00.1p =(3)(i )剩余180件产品中恰有Y 件是不合格品服从二项分布(180,0.1)B ,所以检验费用与赔偿费用的和2540X Y =+,则(2540)490EX E Y =+=.(ii )如果对余下的产品作检验,则这一箱产品所需要的检验费为400元,由于400EX >,故应该对余下的所有产品作检验.本题以统计思想为引导,从统计的角度求得概率,让概率为统计服务,考查样本估计总体的思想,考查统计思维.课标卷的统计概率解答题尤其突出统计概率思想分析问题、解释问题和统计推断,充分体现了高考的考查重点是利用统计与概率思想解决实际问题,体现了数学的应用性价值.十年高考题中具有“统计决断”特征的试题如下:年份 问题描述2010 根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比例?说明理由. 2012 若花店计划一天应购进16枝或17枝玫瑰花,你认为应购进16枝还是17?请说明理由 2016(Ⅰ) 以购买易损零件所需费用的期望值为决策依据,在n=19与n=20之中选其一,应选用哪个. 2017(Ⅰ)试说明上述监控生产过程方法的合理性.42018(Ⅰ) 以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验 2018(Ⅱ)你认为用哪个模型得到的预测值更可靠?并说明理由.3.2对数据处理能力提出了较高要求数据处理能力是指会收集数据、整理数据、分析数据,能从数据中提取对研究问题有用的信息,并做出合理判断.数据处理能力主要是针对研究对象的特殊性,选择合理的收集数据的方法,根据问题的具体情况,选取合适的统计方法整理数据,并构建模型对数据进行分析、推断,获得结论.数据处理能力要求学生能理解问题所提供的文字、数字、图形、图表等信息,并能从中提取有关信息,对它们进行分析和处理.能对有关的数据和图形进行统计和分析,应用统计或统计案例中的方法解决实际问题.例2(2017全国1卷理19)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm ).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布2(,)N μσ.(1)假设生产状态正常,记X 表示一天内抽取的16个零件中其尺寸在(3,3)μσμσ-+之外的零件数,求(1)P X ≥及X 的数学期望;(2)一天内抽检零件中,如果出现了尺寸在(3,3)μσμσ-+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i )试说明上述监控生产过程方法的合理性;(ii )下面是检验员在一天内抽取的16个零件的尺寸: 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 10.26 9.9110.1310.029.2210.0410.059.95经计算得16119.9716i i x x ===∑,16162221111()(160.2121616i ii i s x x x x ===-=-≈∑∑其中i x 为抽取的第i 个零件的尺寸,1,2,16i =K .用样本平均数x 作为μ的估计值ˆμ,用样本标准差s 作为σ的估计值ˆσ,利用估计值判断是否需对当天的生产过程进行检查?剔除(3,3)μσμσ-+之外的数据,用剩下的数据估计μ和σ(精确到0.01).附:若随机变量Z 服从正态分2(,)N μσ,则(33)0.9974P Z μσμσ-<<+=,160.99740.9592=,0.0080.09≈.简解(1)由正态分布知一个零件的尺寸在(3,3)μσμσ-+之外的概率为0.0026,再由独5立重复试验的概率模型可知故X 服从二项分布(16,0.0026)B ,从而16(1)1(0)10.99740.0408P X P X ≥=-==-=,160.00260.416EX =⨯=.(3)(ⅰ)如果生产状态正常,零件尺寸服从正态分布,那么零件在(3,3)μσμσ-+之外取值的概率只有0.0026.抽取的16个零件中,出现尺寸在(3,3)μσμσ-+之外的概率只有0.0408,发生的概率很小.这样小概率事件在实际中几乎不会发生.一旦发生这种情况,就有理由认为这个事件不是小概率事件,即可推断零件尺寸不服从正态分布,也就是说生产状态不正常,即这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.(ⅱ)由题中所给条件易得结果,只是要注意充分利用题中的信息.在计算σ的估计值时,先判断剔除的数据是9.22,计算剩下数据的平均数为1(169.979.22)10.0215⨯⨯-=,进而剔除数据后的样本方差为221(1591.1349.221510.02)0.00815⨯--⨯≈,因此σ的估计值为ˆ0.09σ=. 本题充满了创新性,数据处理问题是该题的另一个亮点,从大量数据中对研究问题提取出有用的信息,构建“随机抽样一收集数据一整理、分析数据一提取信息一用信息去说明问题”的框架.在统计问题中,数据的获得是至关重要的.此题用给出的数据,灵活的考查了相关知识,尤其第(ⅱ)小题,在原有16个数据平均数和标准差考查去掉一个数后的平均数标准差,用数据说话,也是每年高考概率与统计试题之中的有效考查方式.课标卷的统计与概率解答题分别以“频率分布直方图”、“茎叶图”、“折线统计图”、“统计表”和“文字语言”不同方式呈现对数据处理能力的考查,考查的知识点也各不相同,但从考查的“数据处理能力”来看,思路一直没有改变,且不断加强.无论是哪种方式呈现,数据都是含有信息的,根据数据的特点选择不同的计算方式以及对公式或数据进行变形和对参考数据的解读,这些都是最基本的,所以与数据处理能力相伴而生的是对数据的解读和对数据或公式的变形应用,体现了数据分析的核心素养. 3.3作图读图识图提到了非常重要的位置从表1的统计来看,所有试题都与统计图表紧密相连,突出考查“读图识图”的应用意识和能力,另外统计与概率中有大量的数据与图形相关,要能够识图处理数据.主要类型如下表所示:表3统计图类型统计试题年份 图形类型 考查内容 2009 作图 作图作频率分布直方图2015(Ⅱ) 作图 作茎叶图 2009 频率分布直方图 估计方差,计算平均数 2013(Ⅱ)频率分布直方图计算概率与方差62014(Ⅰ) 频率分布直方图计算平均数与方差 2015(Ⅰ) 散点图 求回归方程 2015(Ⅱ) 茎叶图 估计平均值与分散程度2016(Ⅰ) 频率分布直方图求分布列 2016(Ⅲ) 折线图 回归分析,相关系数 2017(Ⅱ) 频率分布直方图计算概率,2×2列联表,中位数2018(Ⅱ) 折线图 回归分析,统计推断2018(Ⅱ)茎叶图计算平均数,中位数,2×2列联表例3(2018全国2卷理18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:ˆ9917.5yt =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.简解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=亿元;利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=亿元. (3)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线ˆ30.413.5yt =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述20107年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.本题背景源于社会生活的实际,要求考生读懂该统计图,从统计图中获得相关的信息,问题的设置很人性化,通俗易懂,有利于考生分析、解决问题.本题注重对数学素养和能力的考查,在引导中学加强“数学应用能力和应用意识”的教育培养方面具有很好的引导作用,堪称“读图识图”的典范. 3.4从统计的角度计算概率概率计算问题,从课标卷来看,既注重计算概率的基本根据计数原理的应用,更注重从统计的观点来计算概率,尤其在统计与概率的解答题中体现的淋漓尽致,是新课标思想的极致体现.表4概率计算统计 试题年份 问题描述2009 求甲、乙两工人都被抽到的概率2011 分别估计用A配方,B配方生产的产品的优质品率 2013(Ⅰ) 求这批产品通过检验的概率2013(Ⅱ) 根据直方图估计利润T不少于57000元的概率2015(Ⅱ) 求事件C:“A地区用户的满意度等级高于B地区用户的满意度等级“ 的概率2016(Ⅱ)求一续保人本年度的保费高于基本保费的概率; 若一续保人本年度的保费高于基本保费,求其保费比基本保费高出60%的 概率2017(Ⅱ)估计事件A的概率3.5注重综合考查,关注知识交汇考试大纲在考查要求上开门见山地强调了知识交汇,与函数相结合考查是课标卷的统计与概率解答题又一特色之一,试题的设计注重学科的内在联系和知识的综合性,从学科的整体高度和思维价值的高度考虑问题,将交汇的特色突出地彰显.试题年份 函数类型 问题描述2011 分段函数 利用分段函数求分布列2012分段函数若花店一天购进16枝玫瑰花,求当天的利润y(单位: 元)关于需求量n (单位:份,n N )的函数解析式 2013(Ⅱ) 分段函数 将T表示为X的函数 2015(Ⅰ) 回归方程 计算二次型函数的最值2017(Ⅲ) 一次函数 求进货量n为多少时期望达到最大值 2018(Ⅰ) 导数求()f p 的最大值点0p4结语随着人们对统计在决策中的作用的认识的深入,课标卷中加大了对统计内容考查的力度.课标卷统计与概率的命题,从数学学科的整体高度和思维能力的角度出发,将知识、能力与素养融为一体,全面考查了学生的数学能力与素养,试题注重了数学的学科特点,突出了知识的基础性和综合性,以知识为主体,顺应时代需求,在知识交汇处设计试题,使对统计概率的基础知识的考查达到了必要的深度和广度,以此来推动概率统计思想在中学教学中的渗透和发展.本文以2009年至2018年高考全国课标卷理科为例,把十年课标卷的统计与概率内容进行了一次较为系统的总结与分析,详细阐述了近几年统计与概率解答题的探索与改革方向,以及试题背后蕴含的统计思想,以期让一线教师更加了解试题的设计初衷,为更好地进行统计与概率的教与学提供了一个参考框架.本人水平有限,如有不当之处请批评指正.参考文献[1]中华人民共和国教育部.普通高中数学课程标准(实验)[S].北京:人民教育出版社,2003[2]教育部考试中心.2018年普通高等学校招生全国考试大纲的说明[M].北京:高等教育出版社,2017[3]陈昂,任子朝.课改后统计与概率内容考查研究[J].数学通报,2013,62(2):13—16[4]吕荣春.全国卷高考数学分析与对策[M].四川:四川大学出版社,20188。

理科数学2010-2019高考真题分类训练专题十一概率与统计第三十三讲回归分析与独立性检验

理科数学2010-2019高考真题分类训练专题十一概率与统计第三十三讲回归分析与独立性检验

专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(1,y 1),(2,y 2),…,(n ,y n )(n ≥2,1,2,…,n 不全相等)的散点图中,若所有样本点(i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:g )与身高(单位:cm )具有线性相关关系,根据一组样本数据(i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.8585.71,则下列结论中不正确...的是 A .y 与具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85gD .若该大学某女生身高为170cm ,则可断定其体重必为58.79g 8.(2011山东)某产品的广告费用与销售额y 的统计数据如下表广告费用(万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii yy =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.6563 6.8289.81.61469108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷 合计 男 女 合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:)(2k P ≥χ 0.050.01 k3.8416.635。

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
(2)相关关系:这是一种非确定性关系,①两个变量中一个为可控制变量,另一个为 随机变量,例如施肥量是可控制变量,而农作物的产量是随机变量。②两个变量均为随机变
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1

【十年高考(文数)2010-2019】十 概率与统计第二十九讲 回归分析与独立性检验(附答案)

【十年高考(文数)2010-2019】十  概率与统计第二十九讲  回归分析与独立性检验(附答案)

1专题十 概率与统计第二十九讲 回归分析与独立性检验2019年1.(2019全国1文17)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bc K a b c d a c b d −=++++.P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.8282010-2018年一、选择题1.(2015湖北)已知变量x 和y 满足关系0.11y x =−+,变量y 与z 正相关,下列结论中正确的是A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 2.(2014湖北)根据如下样本数据x3456782y4.0 2.50.5−0.52.0−3.0−得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b >3.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是4.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .15.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(i x ,i y )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x −85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )3C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 6.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、填空题7.(2015北京)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 . 三、解答题8.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.4为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=−+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.9.(2017新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:0.212≈18.439≈,161(8.5) 2.78i i x x i =−−=−∑,其中i x 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件5尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s −+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s −+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r −−=∑0.09≈.10.(2016年全国III 卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1–7分别对应年份2008–2014.(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑0.55=≈2.646.6参考公式:相关系数(niit t y y r −−=∑ 回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()((ni i i ni i t t y y b t t ==−−=−∑∑),=.a y bt −))) 11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中i w =,w =81i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =−.根据(Ⅱ)的结果回7答下列问题:(ⅰ)年宣传费49x =时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==−−=−∑∑,ˆˆv u αβ=−. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==−−=−∑∑,ˆˆay bt =− 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:8将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22×列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++−=n n n n n n n n n χ,附:)(2k P ≥χ 0.050.01k3.841 6.6351专题十 概率与统计第二十九讲 回归分析与独立性检验答案部分 2019年1.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为400.850=,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为300.650=,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)22100(40203010) 4.76250507030K ××−×=≈×××. 由于4.762 3.841>,故有95%的把握认为男、女顾客对该商场服务的评价有差异.2010-2018年1.C 【解析】因为变量x 和y 满足关系0.11y x =−+,其中0.10−<,所以x 与y 成负相关;又因为变量y 与z 正相关,不妨设z ky b =+(0)k >,则将0.11y x =−+代入即可得到:(0.11)0.1()z k x b kx k b =−++=−++,所以0.10k −<,所以x 与z 负相关,综上可知,应选C .2.A 【解析】画出散点图知0,0b a <>.3.D 【解析】因为222152(6221410)5281636322016363220χ××−××==××××××,222252(4201612)521121636322016363220χ××−××==××××××,222352(824128)52961636322016363220χ××−××==××××××,222452(143062)524081636322016363220χ××−××==××××××,2则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.4.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.5.D 【解析】由回归方程为$y =0.85x –85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+−=−,所以回归直线过样本点的中心(x ,y ), 利用回归方程可以预测估计总体,所以D 不正确.6.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =−=−×=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 7.乙 数学 【解析】①由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故填乙.②由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前,故填数学.8.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=−+×=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+×=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =−+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.3(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 9.【解析】(1)由样本数据得(,)(1,2,,16)i x i i =L 的相关系数为16()(8.5)0.18ix x i r −−==≈−∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s −+以外,因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215×−=, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==×+×≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815−−×≈, 这条生产线当天生产的零件尺寸的标准差的估计值0.09≈. 10.【解析】(Ⅰ)由折线图中数据和附注中参考数据得4=t ,28)(712=−∑=i i t t ,55.0)(712=−∑=i iy y,489.232.9417.40))((717171=×−=−=−−∑∑===i i i i i i i iy t y t y y t t,99.0646.2255.089.2≈××≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得103.02889.2)())((ˆ71271≈=−−−=∑∑==i i i i it t y y t tb , 92.04103.0331.1ˆˆ≈×−≈−=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=×+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型. (Ⅱ)令w =,先建立y 关于w 的线性回归方程,由于81821(108.8ˆ681.6(iii ii w w y y dw w ==−−===−∑∑. ˆˆ56368 6.8100.6cy dw =−=−×=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+. (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+=5年利润z 的预报值ˆ576.60.24966.32z=×−=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+−=−++. 所13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I )由所给数据计算得17t =(1+2+3+4+5+6+7)=4 17y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =−∑=9+4+1+0+1+4+9=287111()()t tt y y =−−∑=(3)( 1.4)(2)(1)(1)(0.7)−×−+−×−+−×−00.110.520.93 1.614+×+×+×+×=71117211()()140.528()t t tt y y btt ==−−===−∑∑$,$ 4.30.54 2.3a y bt=−=−×=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:非体育迷 体育迷 合计 男 30 15 45 女4510 55 合计 7525100由2×2列联表中数据代入公式计算,得:6222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++−×−×==≈×××因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。

专题十概率与统计第二十九讲回归分析与独立性检验答案 十年高考数学(文科)真题题型分类汇编

专题十概率与统计第二十九讲回归分析与独立性检验答案 十年高考数学(文科)真题题型分类汇编

专题十 概率与统计第二十九讲 回归分析与独立性检验答案部分 2019年1.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为400.850=,因此男顾客对该商场服务满意的概率的估计值为0.8. 女顾客中对该商场服务满意的比率为300.650=,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)22100(40203010) 4.76250507030K ⨯⨯-⨯=≈⨯⨯⨯. 由于4.762 3.841>,故有95%的把握认为男、女顾客对该商场服务的评价有差异.2010-2018年1.C 【解析】因为变量x 和y 满足关系0.11y x =-+,其中0.10-<,所以x 与y 成负相关;又因为变量y 与z 正相关,不妨设z ky b =+(0)k >,则将0.11y x =-+代入即可得到:(0.11)0.1()z k x b kx k b =-++=-++,所以0.10k -<,所以x 与z 负相关,综上可知,应选C .2.A 【解析】画出散点图知0,0b a <>.3.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.4.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.5.D 【解析】由回归方程为y =0.85x –85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ), 利用回归方程可以预测估计总体,所以D 不正确.6.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 7.乙 数学 【解析】①由图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排名比总成绩排名靠前,故填乙.②由图可知,比丙的数学成绩排名还靠后的人比较多;而总成绩的排名中比丙排名靠后的人数比较少,所以丙的数学成绩的排名更靠前,故填数学.8.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 9.【解析】(1)由样本数据得(,)(1,2,,16)i x i i =的相关系数为16()(8.5)0.18ix x i r --==≈-∑.由于||0.25r <,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.162221160.212169.971591.134ii x==⨯+⨯≈∑,剔除第13个数据,剩下数据的样本方差为221(1591.1349.221510.02)0.00815--⨯≈,0.09≈. 10.【解析】(Ⅰ)由折线图中数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,89.232.9417.40))((717171=⨯-=-=--∑∑∑===i i i i i i i iy t y t y y t t,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得103.02889.2)())((ˆ71271≈=---=∑∑==i ii i it ty y t tb , 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I )由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y b tt ==--===-∑∑, 4.30.54 2.3a y bt =-=-⨯=. 所求回归方程为0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)1003.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。

专题十 概率与统计第二十九讲 回归分析与独立性检验

专题十  概率与统计第二十九讲  回归分析与独立性检验

专题十 概率与统计第二十九讲 回归分析与独立性检验一、选择题1.(2015湖北)已知变量x 和y 满足关系0.11y x =-+,变量y 与z 正相关,下列结论中正确的是 A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关 2.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b >3.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是4.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为 A .−1 B .0 C .12D .15.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(i x ,i y )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不.正确..的是A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 6.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、填空题7.(2015北京)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 . 三、解答题8.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+y t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.9.(2017新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,s ==0.212≈18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当 天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()niix x y y r --=∑,0.09≈.10.(2016年全国III 卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1–7分别对应年份2008–2014.(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑0.55=≈2.646.参考公式:相关系数()()niit t y y r --=∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()niii ni i t t y y b t t ==--=-∑∑,=.a y bt -11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中i w =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利润z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费49x =时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性. (I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率. 21212211222112)(++++-=n n n n n n n n n χ, 附:。

专题2.5 概率与统计-回归分析、独立性检验(解析版)

专题2.5 概率与统计-回归分析、独立性检验(解析版)

专题2.5 概率与统计-回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.1.随着手机的日益普及,学生使用手机对学校管理和学生发展带来诸多不利影响.为保护学生视力,让学生在学校专心学习,防止沉迷网络和游戏,促进学生身心健康发展,教育部于2021年1月15日下发文件《关于加强中小学生手机管理工作的通知》,对中小学生的手机使用和管理作出了相关的规定某研究型学习小组调查研究“中学生使用智能手机对学习的影响”,对我校80名学生调查得到部分统计数据如下表,记A为事件:“学习成绩优秀且不使用手机”;B为事件:“学习成绩不优秀且不使用手机”,且已知事件A的频率是事件B的频率的2倍.(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a =+和z dx c =+(其中ln z y =)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R 更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程: (方程表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害.附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2) 根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i ii nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑,0.22 2.42z x ∴=-,故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.223.084x y ee e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb,ˆa ,即可建立y 关于x 的线性回归方程; (3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400ii xx y y r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为13100元. 4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =,1t x=得到如下数据:且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953. (1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅=∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54y x=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz ,利用基本不等式求得利润z 的最大值以及对应的x 值. 【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=, 所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一) 【答案】(1)表格见解析,不能;(2)2930. 【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=. 6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bc K a b c d a c b d -=++++. 【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有.【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论.【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合与x 的关系.请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并估算该种机械设备使用10年的失效费.参考公式:相关系数()()niix x y yr --=∑线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i i y y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb、ˆa ,写出线性回归方程,进而将10x =代入估算求值. 【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428ii x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.(2)因为()()()7172114ˆ0.528iii i i x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c x y c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58ii x x =-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示: A 学校B学校(1)以样本估计总体,计算A学校学生日游戏时间的平均数以及B学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K⨯⨯-⨯=≈<⨯⨯⨯,所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关.10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”.(1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率;(2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标℃卷) 【答案】(1)15;(2)填表见解析;有. 【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K 的计算公式计算2K 的观测值k ,与附表中的数据比较可得出结论. 【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人, 随机选一人,则该客户是高消费的中老年人的概率为200110005=. (2)2×2列联表如下:可得2K的观测值1000(300200100400)7.937400600700300k⨯⨯-⨯=≈⨯⨯⨯,因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关.11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关; (2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三) 【答案】(1)有;(2)59. 【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论;(2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:22.02≈.【试题来源】重组卷05-冲刺2021年高考数学之精选真题 模拟重组卷(新课标卷) 【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==,()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑,()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明;(2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a =+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni ii x y==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155ii x==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==, 所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01).参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15xy e=.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dxy ce =更适合作为y 关于x 的回归方程类型.(2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01); (3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2) 令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为 1.228.96y u =+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案. 【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()iii ii u u y y d u u ==-⋅-==≈≈-∑∑, 所以 3.638.9570.269 1.22c y d u =-⋅=-⨯≈, 所以y 关于u 的线性回归方程为 1.228.96y u =+, 所以y 关于x 的回归方程为8.961.22y x=+(3)假设印刷x 千册,依题意得8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭, 解得11.12x ≥,所以至少印刷11120册才能使销售利润不低于80000元.。

高考数学一轮复习第九章概率与统计第11讲回归分析与独立性检验课件理

高考数学一轮复习第九章概率与统计第11讲回归分析与独立性检验课件理
n
(xn,yn),通过求偏差的平方和 Q= (yi-b^xi-a^)2 的最小值而 i1
得到回归直线的方法,即求回归直线,使得样本数据的点到它 的距离的平方和最小,这一方法叫做最小二乘法,则回归直线
方程^y=b^x+a^的系数为:


n
n
(xi x)( yi y)
xi yi nx y
(ui u)2
i1
解:(1)由散点图可以判断,y=c+d x适合作为年销售 y
关于年宣传费用 x 的回归方程类型.
(2)令 w= x,先建立 y 关于 w 的线性回归方程.
8
∵d^=
i1
(wi
8

w)( yi

y)
=1018.6.8=68,
(wi w)2
i1
∴^c=-y -d^-w =563-68×6.8=100.6.
系时,用什么方法最有说服力( A.平均数与方差 C.独立性检验
) B.回归直线方程 D.概率
解析:由于参加讨论的公民按性别被分成了两组,而且每 一组又被分成了两种情况:认为有关与无关,故该资料取自完 全随机统计,符合 2×2 列联表的要求.故用独立性检验最有说 服力.
答案:C
2.已知变量 x 与 y 正相关,且由观测数据算得样本平均数 x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )
i 1
n
n
( xi x)2 ( yi y)2
i 1
i 1
n
xi yi nx y

i1
叫做变量 y 与 x 之间的样本相
n
(
i2

n
2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2)能否有 95%的把握认为男、女顾客对该商场服务的评价有差异?
附: K 2
n(ad bc)2

(a b)(c d )(a c)(b d )
P K 2 k
0.050
0.010
0.001
k
3.841 6.635 10.828
2010 — 2018 年
一、选择题
1.(2015 湖北)已知变量 x 和 y 满足关系 y 0.1x 1 ,变量 y 与 z 正相关,下列结论中
销售额 y(万元) 49 26 39 54
根据上表可得回归方程 yˆ bˆx aˆ 中的 bˆ 为 9.4,据此模型预报广告费用为 6 万元时销
售额为
A.63.6 万元
B.65.5 万元
C.67.7 万元
D.72.0 万元
二、填空题
7.(2015 北京)高三年级 267 位学生参加期末考试,某班 37 位学生的语文成绩,数学成绩
A.成绩
B.视力
C.智商
D.阅读量
4.(2012 新课标)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn 不
全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线 y 1 x 1 上,则 2
这组样本数据的样本相关系数为
A.−1
第 3 页 共 13 页
(1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.
9.(2017 新课标Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔 30 min 从该
生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽
取的 16 个零件的尺寸:
抽取次序 1
2
3
4
5
6
7
8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9
10
11
12
13
14
15
16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得
的折线图.
为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回 归模型.根据 2000 年至 2016 年的数据(时间变量 t 的值依次为1,2 ,…,17 )建立模 型①: yˆ 30.4 13.5t ;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2 ,…,7 )建立模型②: yˆ 99 17.5t .
第 1 页 共 13 页
得到的回归方程为 yˆ bx a ,则
A. a 0 , b 0 B. a 0 , b 0 C. a 0 , b 0 D. a 0 , b 0 3.(2014 江西)某人研究中学生的性别与成绩、视力、智商、阅读量这 4 个变量之间的关
系,随机抽查 52 名中学生,得到统计数据如表 1 至表 4,则与性别有关联的可能性最 大的变量是
B.0
C.1 2
D.1
5.(2012 湖南)设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关
系,根据一组样本数据( xi , yi )(i=1,2,…,n),用最小二乘法建立的回归方程为 y =0.85x 85.71,则下列结论中不.正.确.的是
A.y 与 x 具有正的线性相关关系
与总成绩在全年级中的排名情况如下,甲、乙、丙为该班三位学生.
从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是

②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是

三、解答题
8.(2018 全国卷Ⅱ)下图是某地区 2000 年至 2016 年环境基础设施投资额 y (单位:亿元)
B.回归直线过样本点的中心( x , y )
C.若该大学某女生身高增加 1cm,则其体重约增加 0.85kg D.若该大学某女生身高为 170cm,则可断定其体重必为 58.79kg 6.(2011 山东)某产品的广告费用 x 与销售额 y 的统计数据如下表
第 2 页 共 13 页
广告费用 x(万元) 4 2 3 5
i 1
个零件的尺寸, i =1,2,…,16.
(1)求 (xi , i) (i 1, 2,,16) 的相关系数 r ,并回答是否可以认为这一天生产的零件
尺寸不随生产过程的进行而系统地变大或变小(若 | r | 0.25 ,则可以认为零件的尺寸不
随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在 (x 3s, x 3s) 之外的零件,就认为这
x

1 16
16 i 1
xi

9.97 ,
s

1 16
16
( xi
i 1
x)2

1 16
(
16 i 1
xi2
16x 2 )
.5)2 18.439 , (xi x )(i 8.5) 2.78,其中 xi 为抽取的第 i
i 1
条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在 (x 3s, x 3s) 之外的数据称为离群值,试剔除离群值,估计这条生产线当天生
产的零件尺寸的均值与标准差.(精确到 0.01 )
“十年高考”:概率与统计(回归分析与独立性检验)
(附详细答案解析)
2019 年
1.(2019 全国 1 文 17)某商场为提高服务质量,随机调查了 50 名男顾客和 50 名女顾客,
每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
正确的是
A. x 与 y 正相关, x 与 z 负相关 B. x 与 y 正相关, x 与 z 正相关 C. x 与 y 负相关, x 与 z 负相关 D. x 与 y 负相关, x 与 z 正相关
2.(2014 湖北)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
0.5
0.5
2.0
3.0
相关文档
最新文档