高考数学概率与回归方程 (3)

合集下载

2024高考数学压轴题——概率与统计高考常见题型解题思路及知识点总结

2024高考数学压轴题——概率与统计高考常见题型解题思路及知识点总结

2024高考数学压轴题——概率与统计高考常见题型解题思路及知识点总结2024高考数学压轴题——概率与统计的挑战与应对随着高考的临近,数学科目的复习也进入了关键阶段。

2024年的高考数学压轴题将会涉及到概率与统计的内容,这不仅考察学生的基本数学知识,更侧重于考察学生的逻辑思维能力、实际应用能力和问题解决能力。

本文将针对这一部分的常见题型、解题思路和知识点进行总结,希望能为广大考生提供一些帮助和指导。

一、常见题型的解题思路1、概率计算:在解决概率计算问题时,学生需要明确事件的独立性、互斥性和概率公式的应用。

尤其是古典概率和条件概率的计算,需要学生熟练掌握。

对于涉及多个事件的概率计算,学生需要理清事件的关联关系,采用加法、乘法或全概率公式进行计算。

2、随机变量及其分布:这部分要求学生掌握离散型和连续型随机变量的分布律及分布函数,理解并掌握几种常见的分布,如二项分布、泊松分布和正态分布等。

对于随机变量的数字特征,如期望、方差和协方差等,学生需要理解其含义并掌握计算方法。

3、统计推断:在统计推断问题中,学生需要掌握参数估计和假设检验的基本方法。

对于点估计,学生需要理解矩估计法和最大似然估计法的原理,并能够进行计算。

对于假设检验,学生需要理解显著性检验的原理,掌握单侧和双侧检验的方法。

4、相关与回归分析:相关与回归分析要求学生能够读懂散点图,理解线性相关性和线性回归的概念,掌握回归方程的拟合方法和拟合优度的评估方法。

二、概率与统计的相关知识点总结1、概率的基本概念:事件、样本空间、事件的概率、互斥事件、独立事件等。

2、随机变量及其分布:离散型随机变量和连续型随机变量,二项分布、泊松分布和正态分布等。

3、统计推断:参数估计、假设检验、点估计、置信区间、单侧和双侧检验等。

4、相关与回归分析:线性相关性和线性回归的概念,回归方程的拟合方法和拟合优度的评估方法。

三、示例分析下面我们通过一个具体的示例来演示如何分析和解决一道概率与统计的压轴题。

高考数学基础训练:回归分析含详解

高考数学基础训练:回归分析含详解

高考数学基础训练:回归分析一、单选题1.某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是.A .90B .75C .60D .452.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是()A .0.2B .0.8C .-0.98D .-0.73.为研究变量x ,y 的相关关系,收集得到下面五个样本点(x ,y ):x 99.51010.511y1110865若由最小二乘法求得y 关于x 的回归直线方程为 3.2y x a=-+,则据此计算残差为0的样本点是()A .(9,11)B .(10,8)C .(10.5,6)D .(11.5)4.据一组样本数据()11,x y ,()22,x y ,…,(),n n x y ,求得经验回归方程为ˆ 1.50.5yx =+,且3x =.现发现这组样本数据中有两个样本点()1.2,2.2和()4.8,7.8误差较大,去除后重新求得的经验回归直线l 的斜率为1.2,则()A .变量x 与y 具有正相关关系B .去除两个误差较大的样本点后,重新求得的回归方程仍为ˆ 1.50.5yx =+C .去除两个误差较大的样本点后,y 的估计值增加速度变快D .去除两个误差较大的样本点后,相应于样本点()2,3.75的残差为0.055.对于样本相关系数,下列说法错误的是()A .可以用来判断成对样本数据相关的正负性B .可以是正的,也可以是负的C .样本相关系数越大,成对样本数据的线性相关程度也越高D .取值范围是[]1,1-6.下列说法中正确的是A .先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是分层抽样法B .线性回归直线ˆˆy bxa =+不一定过样本中心()x y C .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1D .若一组数据2,4,a ,8的平均数是5,则该组数据的方差也是57.某同学用收集到的6组数据对(),(1,2,3,4,5,6)i i x y i =制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线1l 的方程:µµ11y b x a =+$,相关系数为1r ,相关指数为21R :经过残差分析确定点E 为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线2l 的方程:µµ22y b x a =+$,相关系数为2r ,相关指数为22R .则以下结论中,正确的是()①10r >,20r >;②µ10b >,µ20b >;③µµ12b b >;④2212R R >A .①②B .①②③C .②④D .②③④8.已知变量y 关于x 的非线性经验回归方程为0.5ˆe bx y-=,其一组数据如下表所示:x 1234ye3e 4e 5e 若5x =,则预测y 的值可能为()A .152e B .112e C .7e D .5e 第II 卷(非选择题)请点击修改第II 卷的文字说明二、填空题9.高中女学生的身高预报体重的回归方程是 0.7575.5y x =-(其中x , y 的单位分别是cm ,kg ),则此方程在样本()160,46处残差的绝对值是______.10.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:甲乙丙丁R 20.980.780.500.85建立的回归模型拟合效果最好的同学是__________.11.在一组样本数据()11,x y ,()22,x y ,…,(),n n x y (122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点()(),1,2,3,,i i x y i n =⋅⋅⋅都在直线210x y +-=上,则这组样本数据的相关系数r 为______.12.在一组样本数据()11,x y ,()22,x y ,…,()66,x y 的散点图中,若所有样本点(),i i x y ()1,2,,6i = 都在曲线212y bx =-附近波动.经计算6112i i x ==∑,6114i i y ==∑,62123ii x==∑,则实数b 的值为________.三、解答题13.某科技公司研发了一项新产品A ,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x (千元)和销售量y (千件)之间的一组数据如下表所示:月份i 123456销售单价i x 99.51010.5118销售量iy 111086515(1)试根据1至5月份的数据,建立y 关于x 的回归直线方程;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过065.千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?参考公式:回归直线方程ˆˆˆybx a =+,其中i ii 122ii 1ˆnnx y n x yb xnx==-⋅⋅=-∑∑.参考数据:5i i i 1392x y ==∑,52i i 1502.5x ==∑.14.为了巩固拓展脱贫攻坚的成果,振兴乡村经济,某知名电商平台决定为脱贫乡村的特色水果开设直播带货专场.该特色水果的热卖黄金时段为2021年7月10日至9月10日,为了解直播的效果和关注度,该电商平台统计了已直播的2021年7月10日至7月14日时段中的相关数据,这5天的第x 天到该电商平台专营店购物的人数y (单位:万人)的数据如下表:日期7月10日7月11日7月12日7月13日7月14日第x 天12345人数y (单位:万人)75849398100(1)依据表中的统计数据,请判断该电商平台的第x 天与到该电商平台专营店购物的人数y (单位:万人)是否具有较高的线性相关程度?(参考:若0.30.75r <<,则线性相关程度一般,若0.75r >,则线性相关程度较高,计算r 时精确度为0.01)(2)求购买人数y 与直播的第x 天的线性回归方程;用样本估计总体,请预测从2021年7月10日起的第38天到该专营店购物的人数(单位:万人).参考数据:521(434i iy y =-=∑,51(64i i i x x y y =--=∑65.979≈.附:相关系数()()ni i x x y y r --=∑,回归直线方程的斜率121()()()niii nii x x y y bx x ==--=-∑∑ ,截距a y bx =-$$.15.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+或dy c x=+建立y 关于x 的回归方程,令s =1t x=得到如下数据:xyst10.15109.943.040.16113niii s ys y=-⋅∑13113iii t yt y=-⋅∑1322113ik ss=-∑1322113ii t t =-∑ 1322113ii yy =-∑13.94-2.111.670.2121.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适;(2)根据(1)的结果及表中数据,建立 y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.637415.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v u αβ=+的斜率和截距的最小二乘法估计分别为 1221ni i i nii u vnu v unuβ==-⋅=-∑∑, v u αβ=-,相关系数ni i u vnu vr -⋅∑.参考答案:1.A 【解析】【详解】样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,∴样本总数为.∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.考点:频率分布直方图.2.C 【解析】【分析】由相关系数的绝对值越大,越具有强大相关性,即可求解【详解】∵相关系数的绝对值越大,越具有强大相关性,C 相关系数的绝对值最大约接近1,∴C 拟合程度越好.故选:C 3.B 【解析】【分析】先求出线性方程的样本中心点,从而可求得 3.240y x =-+,再根据残差的定义可判断.【详解】由题意可知,99.51010.511105x ++++==,111086585y ++++==所以线性方程的样本中心点为(10,8),因此有 8 3.21040aa =-⨯+⇒=,所以 3.240y x =-+,在收集的5个样本点中,(10,8)一点在 3.240y x =-+上,故计算残差为0的样本点是(10,8).故选:B 4.A 【解析】【分析】由条件可知样本中心不变,可求出新的回归直线方程,即可判断.【详解】因为重新求得的经验回归直线l 的斜率为1.2,所以变量x 与y 具有正相关关系,故A 正确;当3x =时,315055y ..=⨯+=,设去掉两个误差较大的样本点后,横坐标的平均值为x ',纵坐标的平均值为y ',则12636322n x x x x n n n ++⋅⋅⋅+--=--'==,1210510522n y y y n n n y ++⋅⋅⋅+--'==--=,因为去除两个误差较大的样本点后,重新求得回归直线l 的斜率为1.2,所以ˆ53 1.2a =⨯+,解得 1.4ˆa =,所以去除两个误差较大的样本点后的经验回归方程为ˆ 1.2 1.4yx =+,故B 错误;因为1.5 1.2>,所以去除两个误差较大的样本点后y 的估计值增加速度变慢,故C 错误;因为ˆ 1.22 1.4 3.8y=⨯+=,所以ˆ 3.75 3.80.05y y -=-=-,故D 错误.故选:A.5.C 【解析】【分析】根据相关系数的概念,依次分析各选项即可得答案.【详解】解:对于A 选项,当相关系数为正时,表明变量之间是正相关,相关系数为负数时,表明相关系数为负数,故A 选项正确;对于B ,D 选项,相关系数范围是[]1,1-,故可以为正,也可以为负,故B ,D 选项正确;对于C 选项,当相关系数为负数时,样本相关系数越大,线性相关性就越弱,故C 选项错误;故选:C6.D 【解析】A 是系统抽样,B 选项线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,C 选项若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,D 选项若一组数据2,4,a ,8的平均数是5,求出a ,则该组数据的方差即可求解.【详解】A 选项:先把高二年级的2000名学生编号:1到2000,再从编号为1到50的学生中随机抽取1名学生,其编号为m ,然后抽取编号为50,100,150,m m m +++ 的学生,这种抽样方法是系统抽样法,所以该选项不正确;B 选项:线性回归直线ˆˆy bxa =+一定过样本中心(),x y ,所以该选项不正确;C 选项:若两个随机变量的线性相关性越强,则相关系数r 的绝对值越接近于1,所以该选项不正确;D 选项:若一组数据2,4,a ,8的平均数是5,24854a +++=,解得6a =,则该组数据的方差是()()()()22222545658554-+-+-+-=,所以该选项正确.故选:D 【点睛】此题考查抽样方法,回归直线,相关关系的辨析,求平均数和方差,关键在于熟练掌握相关概念和公式,准确计算.7.B 【解析】【分析】根据散点图逐项进行判断即可.【详解】①:由散点图可知,,x y 之间是正相关关系,所以10r >,20r >,故①正确;②③:由散点图可知,回归直线的斜率是正数,且1l 的斜率大于2l 的斜率,所以µ10b >,µ20b >,µµ12b b >,故②③正确;④:由散点图可知,去掉“离群点”E 后,相关性更强,拟合的效果更好,所以2212R R <,故④错误;故选:B.8.C 【解析】【分析】将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,由样本中心()x z 必在回归直线0.5z bx =-上,可求出b ,从而即可求解.【详解】解:由题意,将0.5ˆe bx y-=两边同时取对数,得ln 0.5y bx =-,设0.5z bx =-,则x1234z13451234 2.54x +++==,13453.254z +++==,由0.5z bx =-,得3.25 2.50.5b =-,解得 1.5b =,所以 1.50.5e x y -=,所以当5x =时, 1.550.57e e y ⨯-==,故选:C.9.1.5##32【解析】【分析】利用回归直线方程,求出160x =的估计值,然后求解残差的绝对值.【详解】由样本数据得到,女大学生的身高预报体重的回归方程是 0.7575.5y x =-,当160x =时, 0.7516075.544.5y =⨯-=,此方程在样本()160,46处残差的绝对值:44.546 1.5-=.故答案为:1.5.10.选甲相关指数R 2越大,表示回归模型拟合效果越好.【解析】【分析】相关指数越大,相关性越强,拟合效果越好.根据相关指数的大小即可判断.【详解】相关指数2R 越大,相关性越强,回归模型拟合效果越好,所以效果最好的是甲.【点睛】如果两个变量间的关系是相关关系,相关指数2R 越大,相关系数r 越接近1,残差平方和越接近0,都代表拟合效果越好.11.1-【解析】【分析】根据直线斜率可知两个变量负相关,结合数据点都在直线上可确定1r =-.【详解】直线210x y +-=的斜率20k =-<,∴这两个变量成负相关,0r ∴<,又所有样本点都在直线210x y +-=上,1r ∴=-.故答案为:1-.12.1723【解析】【分析】设2t x =,可得回归直线方程为12y bt =-,求出样本中心点(),t y 代入可得b 的值.【详解】令2t x =则212y bx =-即12y bt =-,6212366i i x t ===∑,61147663ii y y ====∑,因为样本中心点237,63⎛⎫ ⎪⎝⎭在回归直线12y bt =-上,所以7231362b =-,可得:1723b =,故答案为:1723.13.(1)ˆ3240y x =-+.;(2)是.【解析】【分析】(1)先由表中的数据求出,x y ,再利用已知的数据和公式求出 ,ba ,从而可求出y 关于x 的回归直线方程;(2)当8x =时,求出 y 的值,再与15比较即可得结论【详解】(1)因为()199.51010.511105x =++++=,()1111086585y =++++=,所以23925108ˆ 3.2502.5510b -⨯⨯==--⨯,得()ˆ8 3.21040a=--⨯=,于是y 关于x 的回归直线方程为 3.240ˆyx =-+;(2)当8x =时,ˆ 3.284014.4y=-⨯+=,则ˆ14.4150.60.65yy -=-=<,故可以认为所得到的回归直线方程是理想的.14.(1)具有较高的线性相关程度(2) 6.470.8y x =+,314万人【解析】【分析】(1)由已知计算相关系数r 即可.(2)由列表计算 a、b ,可得线性回归方程进一步可得解.(1)由表中数据可得3,90x y ==,所以521()10i i x x =-=∑,又55211()434,()()64i i i i i y y x x y y ==-=--=∑∑,所以()()50.970.75i i x x y y r --=>∑,所以该电商平台直播黄金时段的天数x 与购买人数y 具有较高的线性相关程度.所以可用线性回归模型拟合人数y 与天数x 之间的关系.(2)由表中数据可得()()()5152164ˆ 6.410i i i i i x x y y b x x ==--===-∑∑,则ˆˆ90 6.4370.8a y bx =-=-⨯=,所以 6.470.8y x =+,令38x =,可得 6.4387031ˆ.84y =⨯+=(万人)15.(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54y x =-;(3)当温度为20时这种草药的利润最大.【解析】【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型d y c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz ,利用基本不等式求得利润z 的最大值以及对应的x 值.【详解】(1)由题意知20.9953r =-,10.8858r =,因为121r r <<,所有用d y c x =+模型建立y 与x 的回归方程更合适.(2)因为1311322113 2.1ˆ100.2113i i i i i t y t yd tt ==-⋅-===--∑∑,ˆˆ109.94100.16111.54cy dt =-=+⨯=,所以ˆy 关于x 的回归方程为10ˆ111.54y x=-(3)由题意知11012020(111.54ˆˆ)22z y x x x =-=--20012230.8()2x x =-+2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x =时等号成立,所以当温度为20时这种草药的利润最大.。

高考数学概率与统计题型解析与答题技巧

高考数学概率与统计题型解析与答题技巧

高考数学概率与统计题型解析与答题技巧在高考数学中,概率与统计是一个重要的板块,它不仅考查学生的数学知识和技能,还培养学生的数据分析和推理能力。

对于很多同学来说,这部分内容既有一定的挑战性,又充满了得分的机会。

下面我们就来详细解析高考数学中概率与统计的常见题型以及相应的答题技巧。

一、概率题型1、古典概型古典概型是概率中最基础的题型之一。

它的特点是试验结果有限且等可能。

例如,从装有若干个红球和白球的袋子中摸球,计算摸到某种颜色球的概率。

答题技巧:首先,确定总的基本事件数和所求事件包含的基本事件数。

然后,利用古典概型的概率公式 P(A)=所求事件包含的基本事件数÷总的基本事件数进行计算。

2、几何概型几何概型与古典概型不同,它的试验结果是无限的。

常见的有长度型、面积型、体积型几何概型。

比如,在一个区间内随机取一个数,求满足某个条件的概率。

答题技巧:对于几何概型,关键是要正确确定几何度量。

例如,长度型就计算长度,面积型就计算面积,体积型就计算体积。

然后,按照几何概型的概率公式 P(A)=构成事件 A 的区域长度(面积或体积)÷试验的全部结果所构成的区域长度(面积或体积)进行求解。

3、条件概率条件概率是指在事件 B 发生的条件下,事件 A 发生的概率。

题目中通常会给出一些条件,让我们计算在这些条件下的概率。

答题技巧:利用条件概率公式 P(A|B)= P(AB)÷P(B),先求出 P(AB)和 P(B),再计算条件概率。

4、相互独立事件与互斥事件相互独立事件是指一个事件的发生与否对另一个事件的发生概率没有影响;互斥事件则是指两个事件不能同时发生。

答题技巧:对于相互独立事件,它们同时发生的概率用乘法计算,即 P(AB)= P(A)×P(B);对于互斥事件,它们至少有一个发生的概率用加法计算,即 P(A∪B)= P(A)+ P(B)。

二、统计题型1、抽样方法包括简单随机抽样、分层抽样和系统抽样。

高中数学:线性回归方程

高中数学:线性回归方程

高中数学:线性回归方程线性回归是利用数理统计中的回归分析来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,是变量间的相关关系中最重要的一部分,主要考查概率与统计知识,考察学生的阅读能力、数据处理能力及运算能力,题目难度中等,应用广泛.一线性回归方程公式二规律总结(3)回归分析是处理变量相关关系的一种数学方法.主要用来解决:①确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;②根据一组观察值,预测变量的取值及判断变量取值的变化趋势;③求线性回归方程.线性回归方程的求法1四线性回归方程的应用例2例3例4例5例6推导2个样本点的线性回归方程例7 设有两个点A(x1,y1),B(x2,y2),用最小二乘法推导其线性回归方程并进行分析。

解:由最小二乘法,设,则样本点到该直线的“距离之和”为从而可知:当时,b有最小值。

将代入“距离和”计算式中,视其为关于b的二次函数,再用配方法,可知:此时直线方程为:设AB中点为M,则上述线性回归方程为可以看出,由两个样本点推导的线性回归方程即为过这两点的直线方程。

这和我们的认识是一致的:对两个样本点,最好的拟合直线就是过这两点的直线。

上面我们是用最小二乘法对有两个样本点的线性回归直线方程进行了直接推导,主要是分别对关于a和b的二次函数进行研究,由配方法求其最值及所需条件。

实际上,由线性回归系数计算公式:可得到线性回归方程为设AB中点为M,则上述线性回归方程为。

求回归直线方程例8 在硝酸钠的溶解试验中,测得在不同温度下,溶解于100份水中的硝酸钠份数的数据如下0 4 10 15 21 29 36 51 6866.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1 描出散点图并求其回归直线方程.解:建立坐标系,绘出散点图如下:由散点图可以看出:两组数据呈线性相关性。

设回归直线方程为:由回归系数计算公式:可求得:b=0.87,a=67.52,从而回归直线方程为:y=0.87x+67.52。

高考数学概率统计知识点总结(文理通用)

高考数学概率统计知识点总结(文理通用)

概率与统计知识点及专练(一)统计基础知识:1. 随机抽样:(1).简单随机抽样:设一个总体的个数为N ,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法.(2).系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样).(3).分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样.2. 普通的众数、平均数、中位数及方差: (1).众数:一组数据中,出现次数最多的数(2).平均数:常规平均数:12nx x x x n ++⋅⋅⋅+=(3).中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数(4).方差:2222121[()()()]n s x x x x x x n =-+-+⋅⋅⋅+-(5).标准差:s3 .频率直方分布图中的频率:(1).频率 =小长方形面积:f S y d ==⨯距;频率=频数/总数; 频数=总数*频率(2).频率之和等于1:121n f f f ++⋅⋅⋅+=;即面积之和为1: 121n S S S ++⋅⋅⋅+=4. 频率直方分布图下的众数、平均数、中位数及方差: (1).众数:最高小矩形底边的中点(2).平均数:112233n n x x f x f x f x f =+++⋅⋅⋅+ 112233n n x x S x S x S x S =+++⋅⋅⋅+(3).中位数:从左到右或者从右到左累加,面积等于0.5时x 的值(4).方差:22221122()()()nn s x x f x x f x x f =-+-+⋅⋅⋅+-5.线性回归直线方程:(1).公式:ˆˆˆy bx a=+其中:1122211()()ˆ()n ni i i ii in ni ii ix x y y x y nxybx x x nx====---∑∑==--∑∑(展开)ˆˆa y bx=-(2).线性回归直线方程必过样本中心(,) x y(3).ˆ0:b>正相关;ˆ0:b<负相关(4).线性回归直线方程:ˆˆˆy bx a=+的斜率ˆb中,两个公式中分子、分母对应也相等;中间可以推导得到6. 回归分析:(1).残差:ˆˆi i ie y y=-(残差=真实值—预报值)分析:ˆie越小越好(2).残差平方和:2 1ˆ() ni iiy y =-∑分析:①意义:越小越好;②计算:222211221ˆˆˆˆ()()()() ni i n niy y y y y y y y =-=-+-+⋅⋅⋅+-∑(3).拟合度(相关指数):2 2121ˆ()1()ni iiniiy y Ry y==-∑=--∑分析:①.(]20,1R∈的常数;②.越大拟合度越高(4).相关系数:()()n ni i i ix x y y x y nx y r---⋅∑∑==分析:①.[1,1]r∈-的常数;②.0:r>正相关;0:r<负相关③.[0,0.25]r∈;相关性很弱;(0.25,0.75)r∈;相关性一般;[0.75,1]r∈;相关性很强7. 独立性检验:(1).2×2列联表(卡方图): (2).独立性检验公式①.22()()()()()n ad bc k a b c d a c b d -=++++②.上界P 对照表:(3).独立性检验步骤:①.计算观察值k :2()()()()()n ad bc k a b c d a c b d -=++++ ②.查找临界值0k :由犯错误概率P ,根据上表查找临界值0k③.下结论:0k k ≥即认为有P 的没把握、有1-P 以上的有把握认为两个量相关;0k k <:即认为没有1-P 以上的把握认为两个量是相关关系。

考点11 回归分析与独立性检验(学生版)

考点11  回归分析与独立性检验(学生版)

考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。

例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。

〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。

2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。

3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。

4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。

〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。

2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。

高考数学真题专题(理数)回归分析与独立性检验

高考数学真题专题(理数)回归分析与独立性检验

专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .0.4 2.3y x =+B .2 2.4y x =-C .29.5y x =-+D .0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑0.55=≈2.646.参考公式:相关系数()()ni it t y y r --=∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,=.a y bt -11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中i w =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:。

高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。

模块二讲重点 概率与统计(3)统计及统计案例小题-2021届高考数学二轮复习课件(新高考版)

模块二讲重点 概率与统计(3)统计及统计案例小题-2021届高考数学二轮复习课件(新高考版)

提取频率分布直方图中的数据
(1)组距、频率:频率分布直方图中每个矩形的宽表示
组距,高表示
频率 组距
,面积表示该组数据的频率,各个矩形
的面积之和为1;
(2)众数:最高小长方形底边中点的横坐标;
(3)中位数:平分频率分布直方图面积且垂直于横轴的
直线与横轴交点的横坐标;
(4)平均数:频率分布直方图中每个小长方形的面积乘
【分析】 由茎叶图,可得甲的中位数是65,从而可知乙 的中位数也是65,可得到y=5,再利用二者平均数也相等,可 求出x的值,即可得到答案.
【解析】 由茎叶图,可知甲的中位数为65,则乙的中位 数也是65,故y=5,
因为甲、乙的平均数相等, 所以56+62+65+5 74+70+x=59+61+657+65+78, 解得x=3.故选D.
小长方形底边中点的横坐标,再求和;
(5)参数:若纵轴上存在参数,则根据所有小长方形的
面积之和为1,列方程即可求得参数值.
用样本的数字特征估计总体的数字特征 (1)众数:一组数据中出现次数最多的数; (2)方差和标准差反映了数据波动程度的大小. ①方差:s2=1n[(x1--x )2+(x2--x )2+…+(xn--x )2]; ②标准差: s= n1[(x1--x )2+(x2--x )2+…+(xn--x )2]. 性质:标准差(或方差)越小,说明数据波动越小,越稳 定;标准差越大,说明数据越分散,越不稳定.
模 块 二 讲 重 点 第 1 0讲 概 率 与统 计(3) 统计及 统计案 例小题 -2021 届高考 数学二 轮复习 课件( 新高考 版)
模 块 二 讲 重 点 第 1 0讲 概 率 与统 计(3) 统计及 统计案 例小题 -2021 届高考 数学二 轮复习 课件( 新高考 版)

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
(2)相关关系:这是一种非确定性关系,①两个变量中一个为可控制变量,另一个为 随机变量,例如施肥量是可控制变量,而农作物的产量是随机变量。②两个变量均为随机变
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1

高考数学必考题型及答题技巧免费

高考数学必考题型及答题技巧免费

高考数学必考题型及答题技巧免费(经典版)编制人:__________________审核人:__________________审批人:__________________编制单位:__________________编制时间:____年____月____日序言下载提示:该文档是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。

文档下载后可定制修改,请根据实际需要进行调整和使用,谢谢!并且,本店铺为大家提供各种类型的经典范文,如演讲致辞、规章制度、策划方案、合同协议、条据文书、心得体会、职业规划、教学资料、作文大全、其他范文等等,想了解不同范文格式和写法,敬请关注!Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you!Moreover, our store provides various types of classic sample essays for everyone, such as speeches, rules and regulations, planning plans, contract agreements, documentary evidence, insights, career planning, teaching materials, complete essays, and other sample essays. If you want to learn about different sample formats and writing methods, please pay attention!高考数学必考题型及答题技巧免费高考数学必考题型及答题技巧免费下载虽说高考数学题型灵活多变,历年考纲也会有所变动,但是,依然能够从中发现一些规律,以下是本店铺准备的一些高考数学必考题型及答题技巧免费,仅供参考。

统计概率中的比较两类方法或者策略的分析问题-高考数学大题精做之解答题题型全覆盖高端精品

统计概率中的比较两类方法或者策略的分析问题-高考数学大题精做之解答题题型全覆盖高端精品

高考数学大题精做之解答题题型全覆盖高端精品第四篇概率与统计专题07比较两类方法或者策略的分析问题类型对应典例利用方案的数学期望(均值)的大小进行决策典例1利用平均利润的大小进行比较方案典例2回归方程模型拟合效果好坏的判断典例3利用方差的大小进行方案的决策典例4根据变量的取值不同进行方案的决策典例5利用相关指数2R 判断拟合效果更好典例6【典例1】某大型公司为了切实保障员工的健康安全,贯彻好卫生防疫工作的相关要求,决定在全公司范围内举行一次乙肝普查.为此需要抽验960人的血样进行化验,由于人数较多,检疫部门制定了下列两种可供选择的方案.方案①:将每个人的血分别化验,这时需要验960次.方案②:按k 个人一组进行随机分组,把从每组k 个人抽来的血混合在一起进行检验,如果每个人的血均为阴性,则验出的结果呈阴性,这k 个人的血就只需检验一次(这时认为每个人的血化验一次);否则,若呈阳性,则需对这k 个人的血样再分别进行一次化验.这样,该组k 个人的血总共需要化验1k +次.假设此次普查中每个人的血样化验呈阳性的概率为p ,且这些人之间的试验反应相互独立.(1)设方案②中,某组k 个人中每个人的血化验次数为X ,求X 的分布列;(2)设0.1p =.试比较方案②中,k 分别取2,3,4时,各需化验的平均总次数;并指出在这三种分组情况下,相比方案①,化验次数最多可以平均减少多少次?(最后结果四舍五入保留整数).【思路引导】(1)根据概率性质可知若每个人的血样化验呈阳性的概率为p ,则每个人的血呈阴性反应的概率为1q p =-.由独立性事件概率性质可得k 个人的血混合后呈阴性反应和呈阳性反应的概率.即可由血化验次数为X 得其分布列.(2)结合(1)可求得平均每个人化验次数()E x .当0.1p =时,0.9q =.将k 分别取2,3,4,代入平均化验次数的表达式,即可求得化验次数.根据结果,即可求得相比方案①,化验次数最多平均减少的次数.【典例2】某种产品的质量以其质量指标值衡量,质量指标值越大表明质量越好,记其质量指标值为M ,当85M ≥时,产品为一级品;当7585M ≤<时,产品为二级品;当7075M ≤<时,产品为三级品.现用两种新配方(分别称为A 配方和B 配方)做实验,各生产了100件这种产品,并测量了每件产品的质量指标值,得到下面试验结果:A 配方的频数分布表指标值分组[75,80)[80,85)[85,90)[90,95)频数10304020B 配方的频数分布表指标值分组[70,75)[75,80)[80,85)[85,90)[90,95)频数510153040(1)从A 配方生产的产品中按等级分层抽样抽取5件产品,再从这5件产品中任取3件,求恰好取到1件二级品的频率;(2)若这种新产品的利润率y 与质量指标M 满足如下条件:22,85,5,7585,,7075,t M y t M t M ≥⎧⎪=≤<⎨⎪≤<⎩,其中10,7t ⎛⎫∈ ⎪⎝⎭,请分别计算两种配方生产的产品的平均利润率,如果从长期来看,你认为投资哪种配方的产品平均利润率较大【思路引导】(1)按分层抽样抽取的5件产品中有2件为二级品,记为a ,b ,有3件为一级品,记为x ,y ,z ,可得从这5件产品中任取3件的取法及恰好取到1件的取法,可得答案;(2)分别将()E A 与()E B 用t 表示,计算出()()E A E B -的值,由10,7t ⎛⎫∈ ⎪⎝⎭可得哪种配方的产品平均利润率较大.【典例3】新疆在种植棉花有着得天独厚的自然条件,土质呈碱性,夏季温差大,阳光充足,光合作用充分,生长时间长,这种环境下种植的棉花绒长、品质好、产量髙,所以新疆棉花举世闻名.每年五月份,新疆地区进入灾害天气高发期,灾害天数对当年棉花产量有着重要影响,根据过去五年的数据统计,得到相关数据如下表:灾害天气天数x (天)23458棉花产量y (吨/公顷)3.22.421.91.7根据以上数据,技术人员分别借助甲、乙两种不同的回归模型,得到两个回归方程,方程甲: (1)4 1.1y x =+,方程乙:(2)264 1.6y x⋅=+.(1)为了评价两种模型的拟合效果,完成以下任务:①完成下表;(计算结果精确到0.1)②分别计算模型甲与模型乙的残差平方和1Q 及2Q ,并比铰12,Q Q 的大小,判断哪个模型拟合效果更好?灾害天气天数x (天)23458棉花产量y (吨公顷)3.22.42 1.91.7模型甲估计值 (1)iy 2.42.11.6残差(1)i e0.1-0.1模型乙估计值(2)ˆi y2.321.9残差(2)ˆi e0.100(2)根据天气预报,今年五月份新疆M 市灾害天气是6天的概率是0.5,灾害天气是7天的概率为0.4,灾害天气是10天的概率为0.1,若何女士在新疆M 市承包了15公顷地种植棉花,请你根据第(1)问中拟合效果较好的模型估计一下何女士今年棉花的产量.(计算过程中所有结果精确到0.01)【思路引导】(1)根据已知模型计算,然后计算残差平方和,小的效果好;(2)利用模型2估算出灾害天气为6,7,10时的棉花产量X ,得X 分布列,由期望公式计算期望后可得.【典例4】2017年11月河南省三门峡市成功入围“十佳魅力中国城市”,吸引了大批投资商的目光,一些投资商积极准备投入到“魅力城市”的建设之中.某投资公司准备在2018年年初将四百万元投资到三门峡下列两个项目中的一个之中.项目一:天坑院是黄土高原地域独具特色的民居形式,是人类“穴居”发展史演变的实物见证.现准备投资建设20个天坑院,每个天坑院投资0.2百万元,假设每个天坑院是否盈利是相互独立的,据市场调研,到2020年底每个天坑院盈利的概率为p (01)p <<,若盈利则盈利投资额的40%,否则盈利额为0.项目二:天鹅湖国家湿地公园是一处融生态、文化和人文地理于一体的自然山水景区.据市场调研,投资到该项目上,到2020年底可能盈利投资额的50%,也可能亏损投资额的30%,且这两种情况发生的概率分别为p 和1p -.(1)若投资项目一,记1X 为盈利的天坑院的个数,求()1E X (用p 表示);(2)若投资项目二,记投资项目二的盈利为2X 百万元,求()2E X (用p 表示);(3)在(1)(2)两个条件下,针对以上两个投资项目,请你为投资公司选择一个项目,并说明理由.【思路引导】(1)1~(20,)X B p ,易求得期望值;(2)2X 只取两个值:2和-1.2,列出分布列,可得期望;(3)投资一的盈利期望为11(0.08)0.08()E X E X =,211(0.08)0.08()D X D X =,再计算出2()D X ,然后分类,12(0.08)()E X E X =时比较1(0.08)D X 和2()D X ,12(0.08)()E X E X >,12(0.08)()E X E X <.先盈利大的,盈利相同时选稳定的.【典例5】某城市有东、西、南、北四个进入城区主干道的入口,在早高峰时间段,时常发生交通拥堵,交警部门记录了11月份30天内的拥堵情况(如下表所示,其中●表示拥堵,○表示通畅).假设每个人口是否发生拥堵相互独立,将各入口在这30天内拥堵的频率代替各入口每天拥堵的概率.11.111.211.311.411.511.611.711.811.911.1011.1111.1211.1311.1411.15东入口●○○○○●○●●○●●●○●西入口○○●●○●○●○●○●●○○南入口○●○○○●○○○○○○○○●北入口●○○○●○○●○○○○○●○11.1611.1711.1811.1911.2011.2111.2211.2311.2411.2511.2611.2711.2811.2911.30东入口●○○●○○○●●○●○●○●西入口●○●●○●○●○●○●○●○南入口○○○●○○○○●○○○○○●北入口○○●○○○○○○○○○○●○(1)分别求该城市一天中早高峰时间段这四个主干道的入口发生拥堵的概率.(2)各人口一旦出现拥堵就需要交通协管员来疏通,聘请交通协管员有以下两种方案可供选择.方案一:四个主干道入口在早高峰时间段每天各聘请一位交通协管员,聘请每位交通协管员的日费用为m(135175m <<,且140m ≠)元.方案二:在早高峰时间段若某主干道入口发生拥堵,交警部门则需临时调派两位交通协管员协助疏通交通,调派后当日需给每位交通协管员的费用为200元.以四个主干道入口聘请交通协管员的日总费用的数学期望为依据,你认为在这两个方案中应该如何选择?请说明理由.【思路引导】(1)根据所给数据利用古典概型的概率公式计算可得.(2)计算出方案二聘请交通协管员的日总费的期望值,结合方案一比较分析.【典例6】某市房管局为了了解该市市民2018年1月至2019年1月期间买二手房情况,首先随机抽样其中200名购房者,并对其购房面积m (单位:平方米,60130m ≤≤)进行了一次调查统计,制成了如图1所示的频率分布直方图,接着调查了该市2018年1月至2019年1月期间当月在售二手房均价y (单位:万元/平方米),制成了如图2所示的散点图(图中月份代码113-分别对应2018年1月至2019年1月).(1)试估计该市市民的购房面积的中位数0m ;(2)从该市2018年1月至2019年1月期间所有购买二手房中的市民中任取3人,用频率估计概率,记这3人购房面积不低于100平方米的人数为X ,求X 的数学期望;(3)根据散点图选择 =+y a 和 ln y cd x =+ 两个模型进行拟合,经过数据处理得到两个回归方程,分别为 0.9369y =+0.95540.0306ln y x =+,并得到一些统计量的值如下表所示:请利用相关指数2R 判断哪个模型的拟合效果更好,并用拟合效果更好的模型预测出2019年12月份的二手房购房均价(精确到0.001)(参考数据)ln 20.69≈,ln 3 1.10≈,ln 23 3.14≈,ln 25 3.22≈141≈ 1.73≈ 4.80≈.(参考公式) ()()221211==-=--∑∑ni ii n ii y y R y y .【思路引导】(1)利用中位数两边矩形面积之和均为0.5可计算出中位数的值;(2)由题意可知,()~3,0.4X B ,然后利用二项分布的期望公式求出()E X 的值;(3)计算出两个回归模型的相关指数,选择相关指数较大的回归模型较好,然后将2019年12月份对应的代码24代入回归方程可求出2019年12月份的二手房购房均价的估计值.1.某高校设计了一个实验学科的实验考查方案:考生从6道备选题中一次性随机抽取3题,按照题目要求独立完成全部实验操作.规定:至少正确完成其中2题的便可提交通过.已知6道备选题中考生甲有4道题能正确完成,2道题不能完成;考生乙每题正确完成的概率都是23,且每题正确完成与否互不影响.(1)分别写出甲、乙两考生正确完成题数的概率分布列,并计算数学期望;(2)试从两位考生正确完成题数的数学期望及至少正确完成2题的概率分析比较两位考生的实验操作能力.2.某服装加工厂为了提高市场竞争力,对其中一台生产设备提出了甲、乙两个改进方案:甲方案是引进一台新的生产设备,需一次性投资1000万元,年生产能力为30万件;乙方案是将原来的设备进行升级改造,需一次性投入700万元,年生产能力为20万件.根据市场调查与预测,该产品的年销售量的频率分布直方图如图所示,无论是引进新生产设备还是改造原有的生产设备,设备的使用年限均为6年,该产品的销售利润为15元/件(不含一次性设备改进投资费用).(1)根据年销售量的频率分布直方图,估算年销量的平均数x(同一组中的数据用该组区间的中点值作代表);(2)将年销售量落入各组的频率视为概率,各组的年销售量用该组区间的中点值作年销量的估计值,并假设每年的销售量相互独立.①根据频率分布直方图估计年销售利润不低于270万元的概率:②若以该生产设备6年的净利润的期望值作为决策的依据,试判断该服装厂应选择哪个方案.(6年的净利润=6年销售利润-设备改进投资费用)3.某企业拥有3条相同的生产线,每条生产线每月至多出现一次故障.各条生产线是否出现故障相互独立,且出现故障的概率为13.(1)求该企业每月有且只有1条生产线出现故障的概率;(2)为提高生产效益,该企业决定招聘名维修工人及时对出现故障的生产线进行维修.已知每名维修工人每月只有及时维修1条生产线的能力,且每月固定工资为1万元.此外,统计表明,每月在不出故障的情况下,每条生产线创造12万元的利润;如果出现故障能及时维修,每条生产线创造8万元的利润;如果出现故障不能及时维修,该生产线将不创造利润,以该企业每月实际获利的期望值为决策依据,在1n =与2n =之中选其一,应选用哪个?(实际获利=生产线创造利润-维修工人工资)4.某种大型医疗检查机器生产商,对一次性购买2台机器的客户,推出两种超过质保期后两年内的延保维修优惠方案:方案一:交纳延保金7000元,在延保的两年内可免费维修2次,超过2次每次收取维修费2000元;方案二:交纳延保金10000元,在延保的两年内可免费维修4次,超过4次每次收取维修费1000元.某医院准备一次性购买2台这种机器.现需决策在购买机器时应购买哪种延保方案,为此搜集并整理了50台这种机器超过质保期后延保两年内维修的次数,得下表:维修次数0123台数5102015以这50台机器维修次数的频率代替1台机器维修次数发生的概率,记X 表示这2台机器超过质保期后延保的两年内共需维修的次数.(1)求X 的分布列;(2)以所需延保金及维修费用的期望值为决策依据,医院选择哪种延保方案更合算?5.高铁和航空的飞速发展不仅方便了人们的出行,更带动了我国经济的巨大发展.据统计,在2018年这一年内从A市到B市乘坐高铁或飞机出行的成年人约为50万人次.为了解乘客出行的满意度,现从中随机抽取100人次作为样本,得到下表(单位:人次):老年人中年人青年人满意度乘坐高铁乘坐飞机乘坐高铁乘坐飞机乘坐高铁乘坐飞机10分(满意)1212022015分(一般)2362490分(不满意)106344(1)在样本中任取1个,求这个出行人恰好不是青年人的概率;(2)在2018年从A市到B市乘坐高铁的所有成年人中,随机选取2人次,记其中老年人出行的人次为X.以频率作为概率,求X的分布列和数学期望;(3)如果甲将要从A市出发到B市,那么根据表格中的数据,你建议甲是乘坐高铁还是飞机?并说明理由.6.有两种理财产品A 和B ,投资这两种理财产品一年后盈亏的情况如下(每种理财产品的不同投资结果之间相互独立):产品A :投资结果获利50%不赔不赚亏损30%概率1351214产品B :投资结果获利40%不赔不赚亏损30%概率p13q注:0p >,0q >(1)若甲、乙两人分别选择了产品,A B 投资,一年后他们中至少有一人获利的概率大于34,求实数p 的取值范围;(2)若丙要将20万元人民币投资其中一种产品,以一年后的投资收益的期望值为决策依据,则丙选择哪种产品投资较为理想.7.某烘焙店加工一个成本为60元的蛋糕,然后以每个120元的价格出售,如果当天卖不完,剩下的这种蛋糕作餐厨垃圾处理.(1)若烘焙店一天加工16个这种蛋糕,,求当天的利润y(单位:元)关于当天需求量n(单位:个,n N)的函数解析式;(2)烘焙店记录了100天这种蛋糕的日需求量(单位:个),整理得下表:日需求量n14151617181920频数10201616151310①若烘焙店一天加工16个这种蛋糕,X表示当天的利润(单位:元),求X的分布列与数学期望及方差;②若烘焙店一天加工16个或17个这种蛋糕,仅从获得利润大的角度考虑,你认为应加工16个还是17个?请说明理由.参考答案【典例1】解:(1)设每个人的血呈阴性反应的概率为q ,则1q p =-.所以k 个人的血混合后呈阴性反应的概率为k q ,呈阳性反应的概率为1k q -.依题意可知11,1X k k =+,所以X 的分布列为:X1k 11k+Pkq 1kq -(2)方案②中.结合(1)知每个人的平均化验次数为:()111()111k k k E x q q q k k k ⎛⎫=⋅++⋅-=-+ ⎪⎝⎭,所以当2k =时,21()0.910.692E X =-+=,此时960人需要化验的总次数为662次,3k =时,31()0.910.60433E X =-+=,此时960人需要化验的总次数为580次,4k =时,41()0.910.59394E X =-+=,此时960人需要化验的次数总为570次,即2k =时化验次数最多,3k =时次数居中,4k =时化验次数最少而采用方案①则需化验960次,故在这三种分组情况下,相比方案①,当4k =时化验次数最多可以平均减少960570390-=次.【典例2】解:(1)由题知,按分层抽样抽取的5件产品中有2件为二级品,记为a ,b ,有3件为一级品,记为x ,y ,z ,从5件产品中任取3件共有10种取法,枚举如下:(,,)a b x ,(,,)a b y ,(,,)a b z ,(,,)a x y ,(,,)a x z ,(,,)a y z ,(,,)b x y ,(,,)b x z ,(,,)b y z ,(,,)x y z 其中恰好取到1件二级品共有6种取法,所以恰好取到1件二级品的概率为63105=.(2)由题知A 配方生产的产品平均利润率22(1030)5(4020)()20.6100t tE A t t +⨯++==+,B 配方生产的产品平均利润率2225(1015)5(3040)() 1.30.7100t t tE B t t ++⨯++⨯==+,所以2()()0.70.10.1(71)E A E B t t t t -=-=-,因为107t <<,所以()()E A E B <,所以投资B 配方的产品平均利润率较大.【典例3】解:(1)①完成表格如下:灾害天气天数x (天)23458棉花产量y (吨/公顷)3.22.42 1.9 1.7模型甲估计值(1)ˆi y3.1 2.4 2.11.9 1.6残差(1)ˆi e0.10.1-00.1模型乙估计值(2)ˆi y3.2 2.321.9 1.7残差(2)ˆi e0.1000②计算模型甲的残差平方和为22210.1(0.1)0.10.03Q =+-+=,模型乙的残差平方和为220.10.01Q ==,∴12Q Q >,模型乙的拟合效果更好.(2)设今年棉花的单位产量为X 吨公顷,则X 的分布列如下表:X1.78 1.73 1.66P0.50.40.1于是() 1.780.5 1.730.4 1.660.10.890.6920.166 1.75E X =⨯+⨯+⨯=++≈,所以何女士今年棉花的产量大约是1.751526.25⨯=吨【典例4】(1)解:由题意1~(20,)X B p 则盈利的天坑院数的均值()120E X p =.(2)若投资项目二,则2X 的分布列为2X 2-1.2P P1p-盈利的均值()22 1.2(1) 3.2 1.2E X p p p =--=-.(3)若盈利,则每个天坑院盈利0.240%0.08⨯=(百万元),所以投资建设20个天坑院,盈利的均值为()10.08E X ()10.08E X =0.0820p =⨯ 1.6p =(百万元).()()2110.080.08D X D X =20.0820(1)p p =⨯-0.128(1)p p =-()222(2 3.2 1.2)(1.2 3.2 1.2)(1)D X p p p p =-++--+-10.24(1)p p =-①当()()120.08E X E X =时,1.6 3.2 1.2p p =-,解得34p =.()()120.08D X D X <.故选择项目一.②当()()120.08E X E X >时,1.6 3.2 1.2p p >-,解得304p <<.此时选择项一.③当()()120.08E X E X <时,1.6 3.2 1.2p p <-,解得34p >.此时选择项二.【典例5】解:(1)将东、西、南、北四个主干道入口发生拥堵的情况分别记为事件A ,B ,C ,D ,则()()151302P A P B ===,()()61305P C P D ===.(2)对于方案二,设四个主干道聘请交通协管员的日总费用为X ,则X 的可能取值为0,400,800,1200,1600.()22111601125100P X ⎛⎫⎛⎫==-⨯-= ⎪ ⎪⎝⎭⎝⎭,()2211111140400112112225255100P X ⎛⎫⎛⎫⎛⎫⎛⎫==⨯-⨯-⨯+-⨯⨯-⨯= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,()22222141414433800112212525255100P X ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫==-⨯+⨯-+⨯⨯⨯-⨯=⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭,()221111111012001212255225100P X ⎛⎫⎛⎫⎛⎫⎛⎫==⨯-⨯⨯+-⨯⨯⨯=⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,()22111160025100P X ⎛⎫⎛⎫==⨯=⎪ ⎪⎝⎭⎝⎭,故()164033101040080012001600560100100100100100E X =⨯+⨯+⨯+⨯+⨯=元.对于方案一,四个主干道聘请交通协管员的日总费用为4m 元,当135140m <<时,4560m <,应该选择方案一;当140175m <<时,4560m >,应该选择方案二.【典例6】解:(1)由频率分布直方图,可得,前三组频率和为0.050.10.20.35++=,前四组频率和为0.050.10.20250.6+++=,故中位数出现在第四组,且00.159010960.25m =+⨯=;(2)由频率分布直方图,可得每一位市民购房面积不低于100平方米的概率为0.20.150.050.4++=,那么由题意则知()~3,0.4X B ,从而可得所求期望为()30.4 1.2=⨯=E X ;(3)设模型0.9369y =+ 0.9550.0306ln =+y x 的相关指数分别为21R ,22R ,则210.00059110.006050R =-,220.00016410.006050R =-,显然2212R R <.故模型 0.95540.0306ln y x =+的拟合效果更好.由2019年12月份对应的代码为24,则 ()0.95540.0306ln 240.95540.03063ln 2ln 3 1.052=+=++≈y 万元/平方米.1.解:(Ⅰ)设考生甲、乙正确完成实验操作的题数分别为ξ,η,则ξ的取值分别为1、2、3,η的取值分别,0、1、2、3,122130424242333666131(1),(2),(3)555C C C C C C P P P C C C ξξξ=========所以考生甲正确完成实验操作的题数的概率分布列为:ξ123P153515131()1232555E ξ=⋅+⋅+⋅=因为2~(3,)3B η,所以考生乙正确完成实验操作的题数的概率分布列为:η0123P127627122782716128()0123227272727E η=⋅+⋅+⋅+⋅=(Ⅱ)因为31412820(2),(2)555272727P P ξη≥=+=≥=+=所以(2)(2)P P ξη≥>≥从做对题的数学期望考察,两人水平相当;从至少正确完成2题的概率考察,甲通过的可能性大,因此可以判断甲的实验操作能力较强.2.【思路引导】(1)利用小矩形的中点乘以小矩形的面积之和,从而求得平均数;(2)①由题意得只有当年销售量不低于18万件时年销售利润才不低于270万,再从频率分布直方图中,估计年销售利润不低于270万的概率;②分别计算两种方案6年的净利润的期望值,再比较大小,从而得到结论。

第12章第4节回归方程—2022届新高考数学一轮复习考点突破课件(共50张PPT)

第12章第4节回归方程—2022届新高考数学一轮复习考点突破课件(共50张PPT)

【解析】 由-x =30,得-y =0.67×30+54.9=75. 设表中的“模糊数字”为 a, 则 62+a+75+81+89=75×5,∴a=68. 选 D 【答案】 D
课后练习
36
知识梳理
典例精析
ቤተ መጻሕፍቲ ባይዱ
课堂练习
3. (2014 湖北) 根据如下样本数据:
x3 4 5 6 7
8
y 4.0 2.5 -0.5 0.5 -2.0 -3.0
父亲身高 x/cm 174 176 176 176 178 儿子身高 y/cm 175 175 176 177 177 求:(1)y 对 x 的线性回归方程; (2)利用(1)中所求的直线方程,预测当一位父亲的身高为 182 cm,他儿子 的身高为多少.
13
知识梳理
典例精析
课堂练习
课后练习
【解】 (1)表格中数据较大,直接用公式求解很不方便。将 5 个父亲的 身高同减 176 cm,5 个儿子的身高同减 175 cm,表格中的数据变为:
C.
1 2
D. 1
【解析】 因为所有样本点都落在一条直线上,所以相关系数|r|=1,又
这组样本数据完全正相关,故 r>0,所以相关系数为 1,故选 D.
【答案】 D
27
知识梳理
典例精析
课堂练习
课后练习
二、计算 某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份 2008 2010 2012 2014 2016 需求量/万吨 236 246 257 276 286 (1)利用所给数据求年需求量与年份之间的回归直线方程; (2)利用(1)中所求出的直线方程预测该地 2018 年的粮食需求量.
A. y=a+bx

高考数学概率与统计知识点

高考数学概率与统计知识点

高中数学之概率与统计求等可能性事件、互斥事件和相互独立事件的概率解此类题目常应用以下知识:(1)等可能性事件(古典概型)的概率:P(A)=)()(I card A card =n m;等可能事件概率的计算步骤:计算一次试验的基本事件总数n ;设所求事件A,并计算事件A 包含的基本事件的个数m ; 依公式()mP A n =求值;答,即给问题一个明确的答复.(2)互斥事件有一个发生的概率:P(A+B)=P(A)+P (B); 特例:对立事件的概率:P(A)+P(A )=P(A +A )=1. (3)相互独立事件同时发生的概率:P(A ·B)=P (A )·P(B ); 特例:独立重复试验的概率:Pn(k)=kn k kn p p C --)1(.其中P 为事件A在一次试验中发生的概率,此式为二项式[(1-P)+P]n 展开的第k+1项.(4)解决概率问题要注意“四个步骤,一个结合”:求概率的步骤是:第一步,确定事件性质⎧⎪⎪⎨⎪⎪⎩等可能事件 互斥事件 独立事件 n 次独立重复试验即所给的问题归结为四类事件中的某一种. 第二步,判断事件的运算⎧⎨⎩和事件积事件即是至少有一个发生,还是同时发生,分别运用相加或相乘事件.第三步,运用公式()()()()()()()()(1)k k n k n n m P A nP A B P A P B P A B P A P B P k C p p -⎧=⎪⎪⎪+=+⎨⎪⋅=⋅⎪=-⎪⎩等可能事件: 互斥事件: 独立事件: n 次独立重复试验:求解第四步,答,即给提出的问题有一个明确的答复. 例1. 在五个数字12345,,,,中,。

例2. 若随机取出三个数字,则剩下两个数字都是奇数的概率是(结果用数值表示).[解答过程]0.3提示:1335C 33.54C 102P ===⨯例2.一个总体含有100个个体,以简单随机抽样方式从该总体中抽取一个容量为5的样本,则指定的某个个体被抽到的概率为 .[解答过程]1.20提示:51.10020P == 例3.接种某疫苗后,出现发热反应的概率为0.80.现有5人接种该疫苗,至少有3人出现发热反应的概率为__________.(精确到0.01)[考查目的] 本题主要考查运用组合、概率的基本知识和分类计数原理解决问题的能力,以及推理和运算能力.[解答提示]至少有3人出现发热反应的概率为33244555550.800.200.800.200.800.94C C C ⋅⋅+⋅⋅+⋅=.故填0.94.离散型随机变量的分布列 1.随机变量及相关概念①随机试验的结果可以用一个变量来表示,这样的变量叫做随机变量,常用希腊字母ξ、η等表示.②随机变量可能取的值,可以按一定次序一一列出,这样的随机变量叫做离散型随机变量. ③随机变量可以取某区间内的一切值,这样的随机变量叫做连续型随机变量. 2.离散型随机变量的分布列①离散型随机变量的分布列的概念和性质一般地,设离散型随机变量ξ可能取的值为1x ,2x ,……,ix ,……,ξ取每一个值ix (=i 1,2,……)的概率P(i x =ξ)=i P ,则称下表.为随机变量ξ的概率分布,简称ξ的分布列.由概率的性质可知,任一离散型随机变量的分布列都具有下述两个性质: (1)0≥i P ,=i 1,2,…;(2)++21P P …=1. ②常见的离散型随机变量的分布列: (1)二项分布n 次独立重复试验中,事件A 发生的次数ξ是一个随机变量,其所有可能的取值为0,1,2,…n,并且kn k kn k q p C k P P -===)(ξ,其中n k ≤≤0,p q -=1,随机变量ξ的分布列如下:称这样随机变量ξ服从二项分布,记作),(~p n B ξ,其中n 、p 为参数,并记:),;(p n k b q p C k n k k n =- .(2) 几何分布在独立重复试验中,某事件第一次发生时所作的试验的次数ξ是一个取值为正整数的离散型随机变量,“k ξ=”表示在第k 次独立重复试验时事件第一次发生. 随机变量ξ的概率分布为:例1.厂家在产品出厂前,需对产品做检验,厂家将一批产品发给商家时,商家按合同规定也需随机抽取一定数量的产品做检验,以决定是否接收这批产品.(Ⅰ)若厂家库房中的每件产品合格的概率为0.8,从中任意取出4件进行检验,求至少有1件是合格的概率;(Ⅱ)若厂家发给商家20件产品中,其中有3件不合格,按合同规定该商家从中任取2件.都进行检验,只有2件都合格时才接收这批产品.否则拒收,求出该商家检验出不合格产品数ξ的分布列及期望ξE ,并求出该商家拒收这批产品的概率.[解答过程](Ⅰ)记“厂家任取4件产品检验,其中至少有1件是合格品”为事件A 用对立事件A 来算,有()()4110.20.9984P A P A =-=-=(Ⅱ)ξ可能的取值为0,1,2.()2172201360190C P C ξ===, ()11317220511190C C P C ξ===,()2322032190C P C ξ===136513301219019019010E ξ=⨯+⨯+⨯=.记“商家任取2件产品检验,都合格”为事件B,则商家拒收这批产品的概率()136271119095P P B =-=-=.所以商家拒收这批产品的概率为2795.例12.某项选拔共有三轮考核,每轮设有一个问题,能正确回答问题者进入下一轮考核,否则即被淘汰. 已知某选手能正确回答第一、二、三轮的问题的概率分别为54、53、52,且各轮问题能否正确回答互不影响.(Ⅰ)求该选手被淘汰的概率;(Ⅱ)该选手在选拔中回答问题的个数记为ξ,求随机变量ξ的分布列与数学期望. (注:本小题结果可用分数表示)[解答过程]解法一:(Ⅰ)记“该选手能正确回答第i 轮的问题”的事件为(123)i A i =,,,则14()5P A =,23()5P A =,32()5P A =,∴该选手被淘汰的概率112223112123()()()()()()()P P A A A A A A P A P A P A P A P A P A =++=++142433101555555125=+⨯+⨯⨯=.(Ⅱ)ξ的可能值为123,,,11(1)()5P P A ξ===,1212428(2)()()()5525P P A A P A P A ξ====⨯=, 12124312(3)()()()5525P P A A P A P A ξ====⨯=.ξ∴的分布列为11235252525E ξ∴=⨯+⨯+⨯=.解法二:(Ⅰ)记“该选手能正确回答第i 轮的问题”的事件为(123)i A i =,,,则14()5P A =,23()5P A =,32()5P A =.∴该选手被淘汰的概率1231231()1()()()P P A A A P A P A P A =-=-4321011555125=-⨯⨯=. (Ⅱ)同解法一.(3)离散型随机变量的期望与方差随机变量的数学期望和方差(1)离散型随机变量的数学期望:++=2211p x p x E ξ…;期望反映随机变量取值的平均水平.⑵离散型随机变量的方差:+-+-=222121)()(p E x p E x D ξξξ…+-+n n p E x 2)(ξ…;方差反映随机变量取值的稳定与波动,集中与离散的程度.⑶基本性质:b aE b a E +=+ξξ)(;ξξD a b a D 2)(=+. (4)若ξ~B(n,p),则 np E =ξ ; Dξ =npq(这里q =1-p) ;如果随机变量ξ服从几何分布,),()(p k g k P ==ξ,则p E 1=ξ,D ξ =2p q 其中q=1-p.例1.甲、乙两名工人加工同一种零件,两人每天加工的零件数相等,所得次品数分别为ε、η,ε和η的分布列如下:思路:一是要比较两名工人在加工零件数相等的条件下出次品数的平均值,即期望;二是要看出次品数的波动情况,即方差值的大小.解答过程:工人甲生产出次品数ε的期望和方差分别为:7.0103210111060=⨯+⨯+⨯=εE ,891.0103)7.02(101)7.01(106)7.00(222=⨯-+⨯-+⨯-=εD ;工人乙生产出次品数η的期望和方差分别为:7.0102210311050=⨯+⨯+⨯=ηE ,664.0102)7.02(103)7.01(105)7.00(222=⨯-+⨯-+⨯-=ηD由E ε=E η知,两人出次品的平均数相同,技术水平相当,但D ε>D η,可见乙的技术比较稳定.小结:期望反映随机变量取值的平均水平;方差反映随机变量取值的稳定与波动,集中与离散的程度. 例2.某商场经销某商品,根据以往资料统计,顾客采用的付款期数ξ的分布列为商场经销一件该商品,采用1期付款,其利润为200元;分2期或3期付款,其利润为250元;分4期或5期付款,其利润为300元.η表示经销一件该商品的利润.(Ⅰ)求事件A :“购买该商品的3位顾客中,至少有1位采用1期付款”的概率()P A ;(Ⅱ)求η的分布列及期望E η.[解答过程](Ⅰ)由A 表示事件“购买该商品的3位顾客中至少有1位采用1期付款”. 知A 表示事件“购买该商品的3位顾客中无人采用1期付款”2()(10.4)0.216P A =-=, ()1()10.2160.784P A P A =-=-=.(Ⅱ)η的可能取值为200元,250元,300元.(200)(1)0.4P P ηξ====,(250)(2)(3)0.20.20.4P P P ηξξ===+==+=,(300)1(200)(250)10.40.40.2P P P ηηη==-=-==--=.η的分布列为2000.42500.43000.2E η=⨯+⨯+⨯240=(元).抽样方法与总体分布的估计 抽样方法1.简单随机抽样:设一个总体的个数为N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法. 2.系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样). 3.分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样. 总体分布的估计由于总体分布通常不易知道,我们往往用样本的频率分布去估计总体的分布,一般地,样本容量越大,这种估计就越精确.总体分布:总体取值的概率分布规律通常称为总体分布.当总体中的个体取不同数值很少时,其频率分布表由所取样本的不同数值及相应的频率表示,几何表示就是相应的条形图.当总体中的个体取值在某个区间上时用频率分布直方图来表示相应样本的频率分布.总体密度曲线:当样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,即总体密度曲线. 典型例题例1.某工厂生产A 、B 、C 三种不同型号的产品,产品数量之比依次为2:3:5.现用分层抽样方法抽出一个容量为n 的样本,样本中A种型号产品有16件.那么此样本的容量n= .解答过程:A 种型号的总体是210,则样本容量n=1016802⨯=.例2.一个总体中有100个个体,随机编号0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m ,那么在第k 组中抽取的号码个位数字与m k +的个位数字相同,若6m =,则在第7组中抽取的号码是 .解答过程:第K组的号码为(1)10k - ,(1)101k -+,…,(1)109k -+,当m =6时,第k 组抽取的号的个位数字为m+k的个位数字,所以第7组中抽取的号码的个位数字为3 ,所以抽取号码为63.正态分布与线性回归1.正态分布的概念及主要性质(1)正态分布的概念如果连续型随机变量ξ 的概率密度函数为222)(21)(σμπσ--=x ex f ,x R ∈ 其中σ、μ为常数,并且σ>0,则称ξ服从正态分布,记为~N ξ(μ,2σ).(2)期望Eξ =μ,方差2σξ=D .(3)正态分布的性质 正态曲线具有下列性质:①曲线在x 轴上方,并且关于直线x =μ对称.②曲线在x=μ时处于最高点,由这一点向左右两边延伸时,曲线逐渐降低.③曲线的对称轴位置由μ确定;曲线的形状由σ确定,σ越大,曲线越“矮胖”;反之越“高瘦”. 三σ原则即为数值分布在(μ—σ,μ+σ)中的概率为0.6526数值分布在(μ—2σ,μ+2σ)中的概率为0.9544ﻫ数值分布在(μ—3σ,μ+3σ)中的概率为0.9974(4)标准正态分布当μ=0,σ=1时ξ服从标准的正态分布,记作~N ξ(0,1) (5)两个重要的公式①()1()x x φφ-=-,② ()()()P a b b a ξφφ<<=-.(6)2(,)N μσ与(0,1)N 二者联系.若2~(,)N ξμσ,则~(0,1)N ξμησ-=;②若2~(,)N ξμσ,则()()()b a P a b μμξφφσσ--<<=-.2.线性回归简单的说,线性回归就是处理变量与变量之间的线性关系的一种数学方法.变量和变量之间的关系大致可分为两种类型:确定性的函数关系和不确定的函数关系.不确定性的两个变量之间往往仍有规律可循.回归分析就是处理变量之间的相关关系的一种数量统计方法.它可以提供变量之间相关关系的经验公式.具体说来,对n 个样本数据(11,x y ),(22,x y ),…,(,n n x y ),其回归直线方程,或经验公式为:a bx y+=ˆ.其中,,)(1221x b y a x n xyx n yx b ni ini ii⋅-=--=∑∑==,其中y x ,分别为|i x |、|i y |的平均数.例1.如果随机变量ξ~N (μ,σ2),且E ξ=3,D ξ=1,则P(-1<ξ≤1=等于( ) A .2Φ(1)-1 ﻩB.Φ(4)-Φ(2) C.Φ(2)-Φ(4) ﻩD.Φ(-4)-Φ(-2)解答过程:对正态分布,μ=E ξ=3,σ2=D ξ=1,故P (-1<ξ≤1)=Φ(1-3)-Φ(-1-3)=Φ(-2)-Φ(-4)=Φ(4)-Φ(2). 答案:B例2. 将温度调节器放置在贮存着某种液体的容器内,调节器设定在d ℃,液体的温度ξ(单位:℃)是一个随机变量,且ξ~N (d ,0.52). (1)若d=90°,则ξ<89的概率为 ;(2)若要保持液体的温度至少为80 ℃的概率不低于0.99,则d 至少是 ?(其中若η~N(0,1),则Φ(2)=P (η<2)=0.9772,Φ(-2.327)=P(η<-2.327)=0.01).解答过程:(1)P(ξ<89)=F(89)=Φ(5.09089-)=Φ(-2)=1-Φ(2)=1-0.9772=0.0228.(2)由已知d 满足0.99≤P(ξ≥80),即1-P(ξ<80)≥1-0.01,∴P(ξ<80)≤0.01.∴Φ(5.080d-)≤0.01=Φ(-2.327).∴5.080d -≤-2.327.∴d ≤81.1635. 故d 至少为81.1635.小结:(1)若ξ~N(0,1),则η=σμξ-~N(0,1).(2)标准正态分布的密度函数f (x )是偶函数,x<0时,f(x )为增函数,x>0时,f (x )为减函数.。

高考数学一轮复习概率与统计的综合问题

高考数学一轮复习概率与统计的综合问题

(2)由题意得 X 的可能取值为 0,1,2,
P(X=0)=12×32×21=16,P(X=2)=21×32×12+12×13×13=29,P(X=1) =1-61-92=1118,
所以 X 的分布列为
X
0
1
2
P
1 11 2 6 18 9
所以 E(X)=0×16+1×1118+2×29=1198.
[方法技巧] 高考常将求概率与等可能事件、互斥事件、相互独立事件、超几何 分布、二项分布、频率分布直方图等交汇在一起进行考查,因此在解答 此类题时,准确把题中所涉及的事件进行分解,明确所求问题所属的事 件类型是关键.特别是要注意挖掘题目中的隐含条件.
[针对训练] (2023·聊城模拟)某校高二年级发起了“发扬奥林匹克精神,锻炼健 康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.
x2i -6 x 2
i=1
3.92-(-0.26)×3.5=4.83.
所以^z=ln ^y=-0.26x+4.83,即 y 关于 x 的经验回归方程为 y=e- 0.26x+4.83.
令 e-0.26x+4.83<10=eln 10≈e2.3,所以-0.26x+4.83<2.3,解得 x>9.73. 由于 x∈N ,所以 x≥10,所以从第十个月开始,该年级体重超重的 人数降至 10 人以下.
[针对训练] 已知A,B两个投资项目的利润率分别为随机变量X1和X2,根据市场 分析,X1和X2的分布列如下:
X1
5%
10%
P
0.6
0.4
X2
2% 8% 12%
P
0.1
0.5
0.4
(1)在 A,B 两个项目上各投资 200 万元,Y1 和 Y2(单位:万元)分别 为投资项目 A 和 B 所获得的利润,求 D(Y1)和 D(Y2);

高考数学复习:概率与统计的综合问题

高考数学复习:概率与统计的综合问题

思维升华
高考常将回归模型与分布列等交汇在一起进行考查,求经验回归方程 时要充分利用已知数据,合理利用公式减少运算.求解概率问题时要 注意概率模型的应用,明确所求问题所属的事件类型是关键.
跟踪训练2 (2023·武汉模拟)某企业计划新购买100台设备,并将购买的 设备分配给100名年龄不同(视为技术水平不同)的技工加工一批模具,因 技术水平不同而加工出的产品数量不同,故产生的经济效益也不同.若用 变量x表示不同技工的年龄,变量y为相应的效益值(元),根据以往统计经验,
6
6
参考数据:y2i =3 463, (yi- y )2=289.
i=1
i=1
参考公式: r=
n
xi- x yi- y
n
xi- x yi- y
i=1
i=1
,b^ =

n
xi- x 2
n
yi- y 2
n
xi- x 2
i=1
i=1
i=1
a^ = y -b^ x .
6
6
因为xi=54,所以 x =9,所以 (xi- x )2=64,
X的分布列为
X
0
1
2
P
1 30
1 3
19 30
E(X)=0×310+1×13+2×3109=85.
思维升华
高考常将频率分布直方图与分布列等交汇在一起进行考查,解题时要正 确理解频率分布直方图,能利用频率分布直方图正确计算出各组数据. 概率问题以计算为主,往往和实际问题相结合,要注意理解实际问题的 意义,使之和相应的概率计算对应起来.
X0 1 2 3 4
P
1 256
3 64
27 128

高考回归方程的知识点

高考回归方程的知识点

高考回归方程的知识点高考是每个学生都经历的重要考试,它对于一个学生的未来起着决定性的作用。

而高考数学中的回归方程是一个比较重要的知识点,它不仅在数学中有着广泛的应用,而且在实际生活中也有着很多的应用价值。

下面我们就来详细了解一下高考回归方程的知识点。

1. 回归方程的概念回归方程是一种用于揭示自变量与因变量之间关系的数学模型。

在数学中,通常用直线或曲线来表示回归方程。

回归分析主要用于统计数据的分析和预测。

通过回归方程,我们可以根据已有的数据来预测未知的数据。

2. 简单线性回归方程简单线性回归方程是回归方程中最简单的一种形式。

它表示两个变量之间的线性关系。

简单线性回归方程的一般形式为:y = ax + b,其中y是因变量,x是自变量,a和b是常数。

a代表的是变量y随着变量x的变化而变化的速率,b代表的是y在x=0时的值。

3. 多元线性回归方程多元线性回归方程是回归方程中常用的一种形式。

它表示多个自变量与因变量之间的线性关系。

多元线性回归方程的一般形式为:y =a₁x₁ + a₂x₂ + ... + anxn + b,其中y是因变量,x₁、x₂、...、xn是自变量,a₁、a₂、...、an和b是常数。

多元线性回归方程可以用来分析多个自变量对于因变量的影响程度。

4. 回归方程的确定系数确定系数是用来衡量回归方程对于实际数据拟合程度的指标。

它的取值范围在0到1之间,越接近1表示回归方程对数据的拟合程度越好。

确定系数的计算公式为:R² = 1 - (SSE/SST),其中SSE表示残差平方和,SST表示总平方和。

通过计算确定系数,我们可以评估回归方程的质量,并对预测结果进行准确性评估。

5. 回归方程在实际生活中的应用回归方程在实际生活中有着广泛的应用。

例如,在经济学中,可以使用回归方程来分析商品价格与供需关系,从而预测价格变动趋势;在医学研究中,可以使用回归方程分析药物剂量与疗效之间的关系,从而确定最佳剂量;在市场营销中,可以使用回归方程来分析消费者行为与销售量之间的关系,从而制定合理的市场营销策略。

回归直线方程是否有关的概率

回归直线方程是否有关的概率

回归直线方程是否有关的概率回归分析是统计学中一种用于探究自变量和因变量之间关系的分析方法。

在回归分析中,我们通常会得到一个回归方程,用来描述自变量和因变量之间的关系。

这个回归方程通常是一个直线方程,也称为直线回归方程。

直线回归方程可以表示为:Y = a + bX,其中Y是因变量,X是自变量,a是截距,b是斜率。

直线回归方程的斜率b表示自变量X每变化一个单位时,因变量Y相对应变化的量。

而直线回归方程的截距a表示当自变量X为0时,因变量Y 的取值。

回归方程的确定通常需要通过最小二乘法来进行。

最小二乘法是一种通过最小化残差平方和来确定回归方程的方法。

残差是每个数据点的实际观测值与回归方程预测值之间的差异。

最小二乘法通过调整回归方程的斜率和截距,使得残差的平方和最小,从而得到最佳的回归方程。

在回归直线方程的确定中,我们通常会关注回归方程的拟合程度,即回归方程对数据的拟合程度。

回归方程的拟合程度通常通过R方来衡量,R方的取值范围在0到1之间,越接近1表示回归方程对数据的拟合程度越好。

回归直线方程的确定与概率也是密切相关的。

在回归分析中,我们通常会对回归方程的显著性进行检验,以确定回归方程是否能够准确地描述自变量和因变量之间的关系。

回归方程的显著性检验通常是通过t检验或F检验来进行的。

在回归方程的显著性检验中,我们通常会计算回归方程的p值。

p值表示在零假设成立的情况下,观察到的数据或更极端数据的概率。

如果回归方程的p值小于显著性水平(通常为0.05),则我们可以拒绝零假设,认为回归方程是显著的,能够准确描述自变量和因变量的关系。

因此,回归直线方程的确定与概率是有关的。

通过回归方程的显著性检验,我们可以确定回归方程的可靠性,从而确定回归方程是否能够准确描述自变量和因变量的关系。

在回归分析中,概率统计的方法能够帮助我们更好地理解回归方程的意义,以及回归方程的确定程度。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

章末检测一、选择题1.对于线性回归方程y ^=b ^x +a ^,下列说法中不正确的是( ) A .直线必经过点(x ,y )B .x 增加1个单位时,y 平均增加b ^个单位 C .样本数据中x =0时,可能有y =a ^D .样本数据中x =0时,一定有y =a ^答案 D解析 线性回归方程是根据样本数据得到的一个近似曲线,故由它得到的值也是一个近似值. 2.根据如下样本数据:得到的线性回归方程为y =b x +a ,则( ) A.a ^>0,b ^<0 B.a ^>0,b ^>0 C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 A解析 根据题意,画出散点图.根据散点图,知两个变量为负相关,且回归直线与y 轴的交点在y 轴正半轴,所以a ^>0,b ^<0.3.如图是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )A .性别与喜欢理科无关B .女生中喜欢理科的比例约为80%C .男生比女生喜欢理科的可能性大些D .男生中不喜欢理科的比例约为60% 答案 C解析 由图可知,女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.4.某个工业企业生产性固定资产价值与工业增加值数据如下(单位:万元):A .0B .-0.897 3C .1.022 8D .0.991 8答案 D解析 利用相关系数公式即可求得. 5.下列是x 与y 之间的一组数据( )则y 关于x 的回归方程y ^=b ^x +a ,对应的直线必过点( ) A .(32,4)B .(32,2)C .(2,2)D .(1,2)答案 A解析 (32,4)为样本点的中心,一定在回归直线上.6.为预测某种产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取了8组观察值.计算知∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1 849,则y 关于x 的回归方程是( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x 答案 A解析 本题主要考查线性回归方程的计算.由b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x ,直接计算得b ^≈2.62,a ^≈11.47, 所以回归方程为y ^=2.62x +11.47.7.如果某地的财政收入x 与支出y 满足线性回归方程y ^=b ^x +a ^+e (单位:亿元).其中,b ^=0.8,a ^=2,|e |≤0.5.若今年该地区财政收入10亿元,则年支出预计不会超过( ) A .9亿元 B .10亿元 C .9.5亿元 D .10.5亿元答案 D解析 回归方程为y ^=0.8x +2+e ,当x =10时,y =0.8×10+2+e ≤10+0.5=10.5.故选D. 8.甲、乙、丙、丁四位同学各自对A ,B 两变量进行线性相关检验,并用回归分析方法分别求得相关系数r 如下表:( ) A .甲 B .乙 C .丙 D .丁 答案 D解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知丁的线性相关性更强.故选D.9.根据下面的列联表得到如下四个判断:①至少有99.9%的把握认为“患肝病与嗜酒有关”;②至少有99%的把握认为“患肝病与嗜酒有关”;③在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”;④在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”.其中正确命题的个数为(A .0 B .1 C .2 D .3 答案 C解析 由列联表中数据可求得随机变量K 2的观测值k =992×(700×32-60×200)2760×232×900×92≈7.349>6.635,所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关系”,即至少有99%的把握认为“患肝病与嗜酒有关系”.因此②③正确,故选C.10.下表给出5组数据(x ,y ),为选出4组数据使其线性相关程度最大,且保留第1组数据(-5,-3),则应去掉( )A.第2组 C .第4组 D .第5组答案 B解析 通过散点图选择,画出散点图如图,应除去第三组,对应点的坐标是(-3,4).故选B.二、填空题11.已知下表所示数据的线性回归方程为y ^=4x +242,则实数a =________.答案 262解析 由题意,得x =4,y =15(1 028+a ),代入y ^=4x +242,可得15(1 028+a )=4×4+242,解得a =262.12.在评价建立的线性回归模型刻画身高和体重之间关系的效果时,R 2=________,可以叙述为“身高解释了64%的体重变化,而随机变量贡献了剩余的36%”. 答案 0.64解析 当R 2=0.64时,说明体重的差异有64%是由身高引起的,所以身高解释了64%的体重变化,而随机变量贡献了剩余的36%.13.若两个分类变量X 与Y 的2×2列联表为:则“X 与Y 答案 0.01解析 由列联表数据,可求得随机变量K 2的观测值 k =81×(10×16-40×15)225×56×50×31≈7.227>6.635.因为P (K 2≥6.635)≈0.01,所以“x 与y 之间有关系”出错的概率为0.01.14.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm. 答案 185解析 由题意可得父亲和儿子的身高组成了三个坐标(173,170)、(170,176)、(176,182), ∴x =173+170+1763=173,y =170+176+1823=176,∴b ^=∑3i =1 (x i -x )(y i -y )∑3i =1 (x i -x )2=1, ∴a ^=y -b ^×x =176-173=3,∴y ^=x +3,即孙子的身高约为y ^=182+3=185. 三、解答题15.要分析学生中考的数学成绩对高一年级数学学习有什么影响,在高一年级学生中随机抽选10名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩,如下表:表中x (1)画出散点图; (2)求线性回归方程;(3)若某学生的入学成绩为80分,试预测他在高一年级期末考试中的数学成绩. 解 (1)作出散点图如图,从散点图可以看出,这两个变量具有线性相关关系.(2)列表如下: 可求得x =110×(63+67+…+76)=70,y =110×(65+78+…+75)=76, ∑t =110x 2i =51 474,∑i =110x i y i =55 094. ∴b ^=55 094-10×70×7651 474-10×702≈0.765 56.a ^≈76-0.765 56×70≈22.41,故所求的线性回归方程为y ^=22.41+0.765 56x .(3)若学生入学成绩为80分,代入上面线性线性回归方程y ^=22.41+0.765 56x ,可求得y ^≈84(分).故该同学高一期末数学成绩预测为84分.16.为了了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级的学生进行了问卷调查得到如下列联表.平均每天喝500 mL 以上为常喝,体重超过50 kg 为肥胖.已知在30人中随机抽取1人,抽到肥胖的学生的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由.(3)现从常喝碳酸饮料且肥胖的学生中(其中有2名女生)抽取2人参加电视节目,则正好抽到1男1女的概率是多少?解 (1)设常喝碳酸饮料且肥胖的学生有x 人,则x +230=415,解得x =6.(2)由已知数据,得K 2=30×(6×18-2×4)10×20×8×22≈8.523>7.879.因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.(3)设常喝碳酸饮料的肥胖者男生为A ,B ,C ,D ,女生为E ,F ,则任取2人有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF 共15种.其中1男1女有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,故抽出1男1女的概率P =815.17.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解 (1)设事件A 表示“选取的2组数据恰好是不相邻2天的数据”,则A 表示“选取的数据恰好是相邻2天的数据”.基本事件总数为10,事件A 包含的基本事件数为4. ∴P (A )=410=25,∴P (A )=1-P (A )=35.(2)x =12,y =27,∑i =13x i y i =977,∑i =13x 2i =434,∴b ^=∑i =13x i y i -3x y∑i =13x 2i -3x2=977-3×12×27434-3×122=2.5,a ^=y -b ^x =27-2.5×12=-3, ∴y ^=2.5x -3.(3)由(2)知:当x =10时,y ^=22,误差不超过2颗; 当x =8时,y ^=17,误差不超过2颗. 故所求得的线性回归方程是可靠的.18.某食品厂为了检查甲、乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本,称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.下图是甲流水线样本的频率分布直方图,乙流水线样本的频数分布表如下:(1)若以频率作为概率,试估计从甲流水线上任取5件产品,其中合格品的件数X 的数学期望; (2)从乙流水线样本的不合格品中任取2件,求其中超过合格品重量的件数Y 的分布列; (3)由以上统计数据完成下面的2×2列联表,并回答有多大的把握认为“产品的包装质量与两条自动包装流水线的选择有关”.参数公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参数数据:解 (1)由题图知甲样本中合格品数为(0.06+0.09+0.03)×5×40=36,故合格品的频率为3640=0.9,据此可估计从甲流水线上任取1件产品,该产品为合格品的概率p =0.9,则X ~(5,0.9),E (X )=5×0.9=4.5.(2)由题表知乙流水线样本中不合格品共10个,超过合格品质量的有4件,则Y 的可能取值为0,1,2,且P (Y =k )=C k 4C 2-k6C 210(k =0,1,2),于是有P (Y =0)=13,P (Y =1)=815,P (Y =2)=215.所以Y 的分布列为:(3)2×2列联表如下:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )=80×(360-120)66×14×40×40≈3.117>2.706,所以有90%的把握认为“产品的包装质量与两条自动包装流水线的选择有关”.。

相关文档
最新文档