高考试题 回归分析,独立性检验
高中选修1-2回归分析和独立性检验知识总结与联系
高中选修1-2回归分析和独立性检验知识总结与联系-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN1122211()()()n n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑选修1-2第一部分 变量间的相关关系与统计案例【基础知识】一、回归分析1.两个变量的线性相关:判断是否线性相关 ①用散点图(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ②用相关系数r(3)除用散点图外,还可用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,ni ix y nx yr -•=∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系. 2.回归方程:两个变量具有线性相关关系,数据收集如下:可用最小二乘法得到回归方程ˆy bx a =+,其中3.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心.样本点中心一定落在回归直线上。
4、回归效果的刻画:用相关指数2R来刻画回归的效果,公式是2 2121()1()ni iiniiy yRy y==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好二.独立性检验的基本思想及其初步应用题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()A.r2<r4<0<r3<r1B. r4<r2<0<r 1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).题型二 线性回归方程【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一价格x 9 9.5 10 10.5 11销售量y11 10 8 6 5 y 关于商品的价格x 的线性回归方程为________.(参考公式:b ^= ,a ^=y -b ^x )【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x /cm 174 176 176 176 178儿子身高y /cm175 175 176 177 177则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1C .y =88+12x D .y =176题型三 独立性检验【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线由K 2=n (ad -dc )(a +b )(c +d)(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分附 K 2巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是( )A. 0B. 1C. 2D. 32.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( ) A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^=0.08x +1.23 3.从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.804.根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A. 70.09 kgB. 70.12 kgC. 70.55 kgD. 71.05 kg5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x的回归直线方程:y ^=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A 和B 有关系,则具体计算出的数据应该是( )A .k≥6.635B .k <6.635C .k≥7.879D .k <7.8797.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:非统计专业统计专业男13 10女7 20为了判断主修统计专业是否与性别有关系,根据表中数据得到,k=50(13×20-10×7)220×30×23×27≈4.844,因为k>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.与销售额(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为百万元时,销售额多大?9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤(参考数值:)9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生60 20 80北方学生10 10 20合计70 30 100(1)甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和优秀率都相同,勤奋程度和自觉性都一样)。
高考试题回归分析,独立性检验
高考试题回归分析,独立性检验标准化工作室编码[XX968T-XX89628-XJ668-XT689N]回归分析与独立性检验1.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生. 从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 .2.根据下面给出的2004年至2013年我国二氧化碳年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A .逐年比较,2008年减少二氧化碳排放量的效果最显着B .2007年我国治理二氧化碳排放显现成效C .2006年以来我国二氧化碳年排放量呈减少趋势D .2006年以来我国二氧化碳年排放量与年份正相关3.为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为( )]A .万元B .万元C .万元D .万元4.在画两个变量的散点图时,下面哪个叙述是正确的( )A .预报变量在x 轴上,解释变量在y 轴上B .解释变量在x 轴上,预报变量在y 轴上C .可以选择两个变量中任意一个变量在x 轴上D .可以选择两个变量中任意一个变量在y 轴上5( )A .种子经过处理跟是否生病有关B .种子经过处理跟是否生病无关2004年 2005年 2006年 2007年 2008年 2009年 2010年 2011年 2012年 2013年190020002100220023002400250026002700C .种子是否经过处理决定是否生病D .以上都是错误的 6.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题中,y 的预报最大取值是10,则x 的最大取值不能超过( )A .16B .17C .15D .127.在研究身高和体重的关系时,求得相关指数≈2R ___________,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”所以身高对体重的效应比随机误差的效应大得多。
2018 高考 回归分析和独立性检验专题复习(学生版)
回归分析与独立性检验(一)变量间的相关关系、回归分析的基本思想及初步运用一、相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系. 二、散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图. 三、回归分析:对具有相关关系的两个变量进行统计分析的方法叫回归分析. 1、回归直线方程设所求的直线方程为y b x a ∧=+,其中121()(),()ni i i ni i x x y y b a y b x x x ==--==--∑∑,1111,,nni i i i x x y y nn====∑∑(,)x y 称为样本点的中心,回归直线过样本点的中心.回归方程的截距a 和斜率b 是用最小二乘法计算出来的. 2、相关系数:两个变量之间线性相关关系的强弱用相关系数r 来衡量.相关系数:()()ni i x x y y r --=∑0r >,表示两个变量正相关;0r <,表示两个变量负相关;r的绝对值越接近1,表明两个变量的线性相关性越强.r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,r 的绝对值大于0.75时,表明两个变量的线性相关性很强. (二)独立性检验的基本思想及其初步运用一、用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例:是否吸烟,是否患肺癌等 二、独立性检验的方法:列出两个分类变量的频数表(列联表),直观判断.一般步骤: (1)2*2列联表(2)提出假设:设p 与q 没有关系 (3)根据列联表中的数据2K 计算的值22()()()()()()n a d b c Kn a b c d a b c d a c b d -==+++++++其中为样本容量(4)根据计算得到的随机变量2K 的观测值作出判断如:24.232K =因为4.232介于临界值3.841和5.024之间,2( 3.841)p K ≥=0.05,所以两个分类变量没有关系的概率是5%,即两个分类变量有关系的概率为95%.【例1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅. (1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). (2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()ni i x x y y r --=∑0.09≈.【反馈检测1】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32i i y ==∑,7140.17i i i t y ==∑0.55=2.646≈.参考公式:相关系数()()ni i t t y y r --=∑回归方程y a b t =+ 中斜率和截距的最小二乘估计公式分别为:121()()()ni i i ni i t t y y b t t ==--=-∑∑,=.a yb t -【例2】全国人大常委会会议于 2015年12月27日通过了关于修改人口与计划生育法的决定, “全面二孩”从2016年元旦起开始实施,A市妇联为了解该市市民对“全面二孩”政策的态度,随机抽取了男性市民30人、女性市民70人进行调查, 得到以下的22⨯列联表:(1)根椐以上数据,能否有090的把握认为A市市民“支持全面二孩”与“性别”有关?(2)现从持“支持”态度的市民中再按分层抽样的方法选出15名发放礼品,分别求所抽取的15人中男性市民和女性市民的人数;(3)将上述调查所得到的频率视为概率,.现在从A市所有市民中,采用随机抽样的方法抽取3位市民进行长期跟踪调查, 记被抽取的3位市民中持“支持”态度人数为X.①求X的分布列;②求X的数学期望()E X和方差()D X.参考公式:()()()()()22n a d b cKa b a d a c b d-=++++,其中n a b c d=+++【反馈检测3】【2017课标II ,理18】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:22()()()()()n a d b c K a b c d a c b d -=++++。
考点11 回归分析与独立性检验(学生版)
考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。
例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。
〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。
2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。
4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。
〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。
2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。
回归分析与独立性检验
建构数学
• 1.计算公式
相关系数
r=
(x
i=1 n i=1
n
i
- x)(yi - y)
n
x y
i1
n
i i
nxy
_ _
(xi - x)2 (yi - y)2
i=1
_ 2 n _ 2 n 2 2 xi n x yi n y i1 i1
y a bx
其中a+bx是确定性函数, 是随机误差
注: 产生的主要原因:
(1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
正相关
负相关
散点图只是形象地描述点的分布情况,它的“线性”是否 明显只能通过观察,要想把握其特征,必须进行定量的研究
问题:有时散点图的各点并不集中在一条 直线的附近,仍然可以按照求回归直线方 程的步骤求回归直线,显然这样的回归直 线没有实际意义。在怎样的情况下求得的 回归直线方程才有实际意义? 即建立的线性回归模型是否合理? 如何对一组数据之间的线性相关程 度作出定量分析?
1
1 5.54 5.54 1
2
2 7.52 15.04 4
3
3 10.02 30.06 9
4
4 11.73 46.92 16
5
5 15.69 78.45 25
6
6 16.12 96.72 36
7
7 16.98 118.9 49
8
8 4.50 21.06 13.08 168.5 64 560.1 204
2
K2 即在 H 0 成立的情况下, 大于6.635概率非常小, 近似为0.010 K2 现在的 =56.632的观测值远大于6.635,
高考五大高频考点例析
(1)作散点图检验是否线性相关; (2)求回归方程;
(3)若市政府下一步再扩大两千煤气用户,试预测该市
煤气消耗量.
解:(1)作出散点图(如图),观察呈线性正相关.
1+1.1+1.5+1.6+1.8 7 (2) x = = , 5 5 6+7+9+11+12 y= =9, 5
x2=12+1.12+1.52+1.62+1.82=10.26, i
3π 第四次:sin 2π>sin 成立,a=1,T=T+a=2,k=5,5<6, 2 继续循环; 5π 第五次:sin >sin 2π 成立,a=1,T=T+a=3,k=6,6<6 2 不成立,跳出循环,输出 T 的值为 3.
答案:3
4.某保险公司业务流程如下:(1)保险投保,填单交费, 公司承保,出具保单;(2)保险提赔,公司勘查;同 意,则赔偿,否则拒赔.画出该公司的业务流程图. 解:业务流程图如下:
1)+3=-3,i=1;S=(-3)×(-1)+2= 5,i=0;S=-5+1=-4,i=-1,结 束循环,故输出的S=-4.
[答案]
-4
[跟踪演练]
3.(2012· 江西高考)下图为某算法的程序框图,则程序运
行后输出的结果是____________.
解析:此框图依次执行如下循环: π 第一次:T=0,k=1,sin >sin 0 成立,a=1,T=T+a=1, 2 k=2,2<6,继续循环; π 第二次:sin π>sin 不成立,a=0,T=T+a=1,k=3,3<6, 2 继续循环; 3π 第三次: sin >sin π 不成立, a=0, T=T+a=1, k=4, 4<6, 2 继续循环;
2
所以数列{an}的前 n 项和
高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)
高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。
回归分析、独立性检验
突破点8 回归分析、独立性检验(1)正相关:在散点图中,点散布在从左下角到右上角的区域. (2)负相关:在散点图中,点散布在从左上角到右下角的区域.(3)相关系数r :当r >0时,两变量正相关;当r <0时,两变量负相关;当|r |≤1且|r |越接近于1,相关程度越高,当|r |≤1且|r |越接近于0,相关程度越低.方程y ^=b^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.(x -,y -)称为样本中心点.(1) (2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作出正确判断.如果k ≥k α,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”.回访1 变量的相关性1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图8-1A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关D [对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]2.(2012·全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1D [样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图8-2表中w i =x i ,w ]=18∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1 (u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.2分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d^ w =563-68×6.8=100.6,4分所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .6分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.8分 ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.12分 回访2 独立性检验4.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图8-3将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:K 2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,[解] (1)“体育迷”有25人,从而2×2列联表如下:2分将2×2列联表中的数据代入公式计算,得k =n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.6分(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.8分由题意知X ~B ⎝ ⎛⎭⎪⎫3,14,从而X 的分布列为10分E (X )=np =3×14=34,D (X )=np (1-p )=3×14×34=916.12分题型分析:用、回归方程的求法和应用,难度中等.在一次抽样调查中测得样本的5组数据,得到一个变量y 关于x 的回归方程模型,其对应的数值如下表:(1)试作出散点图,根据散点图判断,y =a +bx 与y =kx +m 哪一个适宜作为变量y 关于x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立变量y 关于x 的回归方程; (3)根据(2)中所求的变量y 关于x 的回归方程预测:当x =3时,对应的y 值为多少?(保留四位有效数字)[解] (1)作出变量y 与x 之间的散点图,如图所示,2分由图可知变量y 与x 近似地呈反比例函数关系,那么y =kx +m 适宜作为变量y 关于x 的回归方程模型.4分(2)由(1)知y =k x +m 适宜作为变量y 关于x 的回归方程模型,令t =1x ,则y =kt +m ,由y 与x 的数据表可得y 与t 的数据表如下:……………6分作出y 与t 的散点图,如图所示.8分由图可知y 与t 近似地呈线性相关关系.又t -=1.55,y -=7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,所以k =∑i =15t i y i -5t -y -∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,m =y --k t -=7.2-4.134 4×1.55≈0.8,所以y =4.134 4t +0.8, 所以y 关于x 的回归方程为y =4.134 4x +0.8.10分(3)由(2)得y 关于x 的回归方程是y =4.134 4x +0.8,当x =3时,可得y =4.134 43+0.8≈2.178.12分1.正确理解计算b^,a ^的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(x -,y -).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.[变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =bx +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b^=∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.[解] (1)x -=3,y -=5,2分∑i =15x i =15,∑i =15y i =25,∑i =15x i y i =62.7,∑i =15x 2i =55,解得b^=-1.23,a^=8.69,4分 所以y ^=8.69-1.23x .6分(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,10分所以当x =2.72,即年产量为2.72吨时,年利润z 取得最大值.12分题型分析:概率统计等知识交汇,是潜在的命题点之一,须引起足够的重视.(2016·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)(1) (2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X ,求X 的分布列及数学期望E (X ).附表及公式:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解题指导] 计算k ――→查表下结论――→几何概型求概率――→超几何分布求X 的分布列及E (X ).[解] (1)由表中数据得k =50×(22×12-8×8)230×20×30×20=509≈5.556>5.024,2分所以有97.5%的把握认为视觉和空间能力与性别有关.3分(2)设甲、乙解答一道几何题的时间分别为x ,y 分钟,则⎩⎨⎧5≤x ≤7,6≤y ≤8表示的平面区域如图所示.设事件A 为“乙比甲先做完此道题”,则x >y 满足的区域如图中阴影部分所示.5分由几何概型可得P (A )=12×1×12×2=18,即乙比甲先解答完的概率为18.7分(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C28=28种,其中丙、丁2人没有一个人被抽到的有C26=15种;恰有一人被抽到的有C12·C16=12种;2人都被抽到的有C22=1种.所以X的可能取值为0,1,2,P(X=0)=1528,8分P(X=1)=1228=37,9分P(X=2)=128.10分X的分布列为:11分E(X)=0×1528+1×37+2×128=12.12分求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k之后的结论.[变式训练2](名师押题)2016年1月1日起全国统一实施全面二孩政策.为了解适龄民众对放开生育二孩政策的态度,某市选取70后和80后作为调查对象,随机调查了100人,得到数据如下表:(1)以这100该市70后公民中随机抽取3人,记其中生二孩的人数为X,求随机变量X的分布列和数学期望;(2)根据调查数据,是否有90%以上的把握认为“生二孩与年龄有关”,并说明理由.参考数据:11参考公式:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d[解] (1)由已知得70后“生二孩”的概率为23,并且X ~B ⎝ ⎛⎭⎪⎫3,23,所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),4分 X 的分布列为6分所以E (X )=3×23=2.8分(2)由表中数据知k =100×(30×10-45×15)275×25×45×55=10033≈3.030>2.706,10分所以有90%以上的把握认为“生二孩与年龄有关”.12分。
高考数学二轮复习 第1部分 重点强化专题 专题3 概率与统计 专题限时集训7 回归分析、独立性检验
专题限时集训(七) 回归分析、独立性检验(对应学生用书第91页)(限时:40分钟)1.(2017·某某一模)下列说法错误的是( )【导学号:07804050】A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^就增加0.2个单位C [根据相关定义知选项A ,B ,D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]2.(2017·某某名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为C .99.5%D .95%D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.]3.(2017·某某七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):广告费x 2 3 4 5 6 销售额y2941505971由上表可得回归方程为y ^=10.2x +a ^,据此模型,预测广告费为10万元时销售额约为( )【导学号:07804051】A .101.2万元B .108.8万元C .111.2万元D .118.2万元C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.]4.(2017·某某二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图77所示的两个等高堆积条形图.图77根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量B .样本中有理科意愿的学生数量多于有文科意愿的学生数量C .样本中的男生偏爱理科D .样本中的女生偏爱文科D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.] 5.(2016·某某模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数进行比较,下列结论中正确的是( )图78(1)图78(2)图78(3)图78(4)A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.] 6.(2017·某某一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kgD .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kgD [因为回归直线方程y ^=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加 1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )ABCDC[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图对应的带状区域的宽度越窄.故选C.]8.(2017·某某南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线一线合计愿生452065不愿生132235合计5842100由K2=n ad-bc2a+b c+d a+c b+d,得K2=100×45×22-20×13265×35×58×42≈9.616.参照下表,P(K2≥k)0.0500.0100.001k 3.841 6.63510.828A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”C[K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.]二、填空题9.(2017·某某二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.【导学号:07804052】6 [x =5=5,y =5=5,代入回归直线方程,得14+c5=0.85×5-0.25,解得c =6.]10.(2017·某某百校联盟二模)已知x 、y 的取值为:从散点图可知y 与x 呈线性相关关系,且回归直线方程为y =1.2x +a ,则当x =20时,y 的取值为________.27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]11.(2017·某某某某五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,∴a ^=40-(-20)×3.5=110, ∴回归直线方程为:y ^=-20x +110,利润L =(x -2)(-20x +110)=-20x 2+150x -220, ∴x =15040=3.75元时,利润最大,故答案为3.75.]12.(2017·某某三中二模)以模型y =c e kx(e 为自然对数的底)去拟合一组数据时,为了求出回归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2[∵y =c e kx,∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2.] 三、解答题13.(2017·某某一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图79所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.图79(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系? (2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .P (K 2≥k 0)0.025 0.010 0.005 k 05.0246.6357.879正常 偏高 合计 男性 16 4 20 女性 12 8 20 合计281240K 2=n ad -bc 2a +bc +d a +cb +d =40×16×8-4×12220×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=⎝⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫1-352=4625, P (X =1)=C 1245⎝⎛⎭⎪⎫1-45⎝⎛⎭⎪⎫1-352+⎝ ⎛⎭⎪⎫1-452C 1235·⎝ ⎛⎭⎪⎫1-35=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45·C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝⎛⎭⎪⎫1-35=264625, P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352=144625,所以X 的分布列为X 0 1 2 3 4 P462544625169625264625144625所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8.14.(2017·某某三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.温度x /℃ 20 22 24 26 28 30 32 产卵数y /个6 10 21 24 64 113 322 t =x 2 400 484 576 676 784 900 1024 z =ln y1.792.303.043.184.164.735.77xtyz26692803.57错误! 错误! 错误! 错误!1157.540.430.32 0.00012其中t i =x 2i ,t =∑ni =1t i ,z i =ln y i ,z =∑ni =1z i ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .图710(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).图711(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算得分分别为R 21=0.82,R 22=0.96,请根据相关指数判断哪个模型的拟合效果更好.【导学号:07804053】[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.图1 图2根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2,则y =C 1x 2+C 2=C 1t +C 2,其中C ^1=∑7i =1t i -ty i -y∑7i =1t i -t2=0.43,C ^2=y -C ^1t =80-0.43×692=-217.56,所以y =0.43x 2-217.56,当x =30时,估计温度为y 1=0.43×302-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,word 其中C ^3=∑7i =1 z i -z x i -x∑7i =1x i -x2=0.32,C ^4=z -C ^3x =3.57-0.32×26=-4.75.所以y =e 0.32x -4.75,当x =30时,估计温度为y 2=e0.32×30-4.75=e 4.85≈127.74. (3)因为R 21<R 22,所以模型②的拟合效果更好.。
回归分析与独立性检验练习
回归分析与独立性检验综合训练回归分析: 热身练习1. 在画两个变量的散点图时,下面哪个叙述是正确的( )(A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上 (C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上 2. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) A.身高一定是145.83cm; B.身高在145.83cm 以上; C.身高在145.83cm 以下; D.身高在145.83cm 左右.3. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( )A.模型1的相关指数2R 为0.98 B.模型2的相关指数2R 为0.80 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.254. 若有一组数据的总偏差平方和为100,相关指数为0.5,则期残差平方和为_______ 回归平方和为____________5.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090yx =+,下列判断正确的是() A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90 独立性检验: 热身练习1.下面是一个2×2列联表:则表中a 、b 处的值分别为( )A .94、96B .52、50C .52、60D .54、52 2.下列关于等高条形图的叙述正确的是( ).A .从等高条形图中可以精确地判断两个分类变量是否有关系B .从等高条形图中可以看出两个变量频数的相对大小C .从等高条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对3.关于分类变量x 与y 的随机变量K 2的观测值k ,下列说法正确的是( ).A .k 的值越大,“X 和Y 有关系”可信程度越小B .k 的值越小,“X 和Y 有关系”可信程度越小C .k 的值越接近于0,“X 和Y 无关”程度越小D .k 的值越大,“X 和Y 无关”程度越大 4.若由一个2×2列联表中的数据计算得k =4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到k =50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为________.6.第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招幕了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.(1)根据以上数据完成以下2×2列联表:喜爱运动 不喜爱运动 总计 男 10 16 女 614 总计30(2) 基础练习1.下列变量间的关系,不是函数关系的是( ) A .角度和它的余弦值 B .正方形的边长和面积C .正多边形的边数和顶点的角度之和D .人的年龄和身高2. “回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他提出的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆya bx =+中,b ( )A .在(-1,0)内B .等于0C .在(0,1)内D .在[1,)+∞内 3.已知回归直线斜率的估计值为1.23,样本的中心点为(4,5),则回归直线方程为( )A .ˆ 1.234yx =+ B .ˆ 1.235y x =+ C .ˆ 1.230.08y x =+ D .ˆ0.08 1.23y x =+ 4.对于回归直线方程ˆ 4.67 2.85yx =+,当21x =时,y 的估计值为 5.一所大学图书馆有6台复印机供学生使用管理人员发现,每台机器的维修费用与其使用的时间有一定的关系,根据去年一年的记录,得到每周使用时间(单位:小时)与年维修费用(单位:元)的数据如下:时间 33 21 31 37 46 42 费用 16 14 25 29 38 34则使用时间与维修费用之间的相关系数为6.某种产品的广告支出与销售额(单位:百万元)之间有如下的对应关系x 2 4 5 6 8 y3040605070(1)假定x 与y 之间具有线性相关关系,求回归直线方程.(2)若实际销售额不少于60百万元,则广告支出应该不少于多少?7.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:32.5435464.566.5⨯+⨯+⨯+⨯=) 8.下表为收集到的一组数据:(1)作出x 与y 的散点图,猜测(2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报x =40时y 的值.综合练习:一、选择题1.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( ) Ay ∧=1.23x +4 By ∧=1.23x+5 C y ∧=1.23x+0.08 D y ∧=0.08x+1.232.回归分析中,相关指数R 2的值越大,说明残差平方和( )A 越小B 越大C 可能大也可能小D 以上都不对3.为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程1l 和2l ,两人计算知x 相同,y 也相同,下列正确的是()A 1l 与2l 一定平行B 1l 与2l 相交于点),(y xC 1l 与2l 重合D 无法判断1l 和2l 是否相交 4.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题中,y 的预报最大取值是10,则x 的最大取值不能超过( )A 16B 17C 15D 12二、填空题5.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是____________6.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定断言“X 和Y 有关系”的可信度。
高考数学复习第9章概率与统计第6讲回归分析与独立性检验
课标要求
1.通过收集现实问题中两个有关联变量的数据作 出散点图,并利用散点图直观认识变量间的相关 关系. 2.经历用不同估算方法描述两个变量线性相关的 过程.知道最小二乘法的思想,能根据给出的线性 回归方程系数公式建立线性回归方程. 3.通过典型案例,学习下列一些常见的统计方法, 并能初步应用这些方法解决一些实际问题. (1)通过对典型案例(如“肺癌与吸烟有关吗”等) 的探究,了解独立性检验(只要求 2×2 列联表)的 基本思想、方法及初步应用. (2)通过对典型案例(如“人的体重与身高的关 系”等)的探究,了解回归的基本思想、方法及其 初步应用
有关”
B.有 95%的把握认为“对能否缓解交通拥堵的认识与性别 无关”
C.有 99%的把握认为“对能否缓解交通拥堵的认识与性别 有关”
D.有 99%的把握认为“对能否缓解交通拥堵的认识与性别 无关”
解 析 : 由 2×2 列 联 表 , 可 求 K2 的 观 测 值 , k =
4488++3300+1428++21022102×+4280-3102+×23002≈5.288>3.841.由统计表 P(K2≥3.841)=0.05,∴有 95%的把握认为“能否缓解交通拥堵 的认识与性别有关”.
i 1
i 1
n
xi yi nx y
=
i1
叫做变量 y 与 x 之间的样本相
n
(
xi2
2
nx )(
n
yi2
n
2
y
)
i1
i1
关系数,简称相关系数,用它来衡量两个变量之间的线性相关
程度.
②当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量___负__相__关_. r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关 关系.通常|r|>0.75 时,认为两个变量有很强的线性相关性.
回归分析与独立性检验常考题型与解题对策
回归分析与独立性检验常考题型与解题对策作者:刘金泉
来源:《中学生数理化·高二版》2016年第04期
统计案例内容主要包括回归分析和独立性检验,它们是统计中的两种重要方法,也是各类考试中常涉及的知识点,下面通过对典型例题的归类、解析,使同学们进一步了解回归分析及独立性检验(2×2列联表)的基本思想、方法,并能初步应用这些方法解决一些简单的实际问题。
题型一相关关系概念辨析
例1下列两个变量之间是相关关系的是(
)。
A.圆的面积与半径
B.单产量为常数时,土地面积与粮食总产量
c.球的体积与半径
D.一个考生的数学成绩与物理成绩
解析:区分相关关系与函数关系的不同。
函数关系中的两个变量间是一种确定性关系,例如正方形面积S与边长x之间的关系s=x2就是函数关系。
相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系,例如商品的销售额与广告费是相关关系。
两个变量具有相关关系是回归分析的前提。
这里A、B、C都是确定的函数关系,一个考生的数学成绩与物理成绩相关但不确定,所以选D。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
高考数学一轮复习题库:第十一章概率与统计11.9回归分析与独立性检验
5.甲、乙、丙、丁四位同学各 自对 A,B 两变量的线性相关性做试验,并用回归分析方 法分别求得相关系数 r 与残差平方和 m 如下表:
甲
乙
丙
丁Hale Waihona Puke r 0.82 0.78 0.69 0.85
m 106 115 124 103
则哪位同学的试验结果体现 A,B 两变量更强的线性相关性 ( ).
A.甲
随机抽取了 100 名观
众进行调查,其中女性有 55 名.下面是根据调查结果绘制的观众日均收看该体育节目时间
的频率分布直方图:
将日均收看该体育节 目时间不低于 40 分钟的观众称为“体育迷”,已知“体育迷”中 有 10 名女性.
(1)根据已知条件完成下面的 2× 2 列联表,并据此资料你是否认为“体育迷”与性别有 关?
年份 /年
2007 2008 2009 2010 2011
收入 x/万元
11.5 12.1
13
13.3
15
支出 Y/万元
6.8
8.8
9.8
10
12
根据统计资料, 居民家庭年平均收入的中位数是 __________ ,家庭年平均收入与年平均
支出有 __________ 线性相关关系.
三、解答题
11.电视传媒公司为了解某地区观众对某类体育节目的收视情况,
非体育迷
体育迷
合计
男
女
合计
(2)将日均收看该体育节目不低于 50 分钟的观众称为“超级体育迷”,已知“超级体育
迷”中有 2 名女性.若从“超级体育迷”中任意选取
附: K 2=
n ad- bc 2
.
a+ b c+ d a+ c b+ d
正态分布、回归分析、独立性检验(教师)
资料范本本资料为word版本,可以直接编辑和打印,感谢您的下载正态分布、回归分析、独立性检验(教师)地点:__________________时间:__________________说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容正态分布、回归分析、独立性检验一、正态分布1.已知随机变量X服从正态分布N(a,4),且P(X>1)=0.5,则实数a的值为( )A.1B.2C.3D.4【解题指南】画正态曲线图,由对称性得图象关于x=a对称且P(X>a)=0.5,结合题意得到a的值.【解析】选A.随机变量X服从正态分布N(a,4),所以曲线关于x=a对称,且P(X>a)=0.5,由P(X>1)=0.5,可知μ=a=1.故选A.2.(2014·广州高二检测)已知ξ~N(3,σ2),若P(ξ≤2)=0.2,则P(ξ≤4)等于( )A.0.2B.0.3C.0.7D.0.8【解析】选D.根据正态曲线的特征:知对称轴为x=3,[来源:学+科+网Z+X+X+K]所以P(ξ≤3)=0.5,则P(ξ≤2)=P(ξ>4)=0.2,所以P(ξ≤4)=1-P(ξ>4)=1-0.2=0.8.3.随机变量ξ服从正态分布N(1,4),若P(2<ξ<3)=a,则P(ξ<-1)+P(1<ξ<2)=( )A.1-a2B.12-aC.a+0.003aD.12+a【解析】选B.因为随机变量ξ服从正态分布N(1,4),所以正态曲线关于x=1对称,因为P(2<ξ<3)=a,所以P(-1<ξ<0)=a,P(1<ξ<2)=P(0<ξ<1),P(ξ<-1)+P(1<ξ<2)=12-a,故选B.4.已知随机变量X服从正态分布N(3,1),且P(2≤X≤4)=0.6826,则P(X>4)= ( )A.0.158 8B.0.158 7C.0.158 6D.0.158 5【解析】选B.P(3≤X≤4)=12P(2≤X≤4)=0.3413,P(X>4)=0.5-P(3≤X≤4)=0.5-0.3413=0.1587.5.设随机变量ξ服从正态分布N(μ,σ2),且二次方程x2+4x+ξ=0无实数根的概率为12,则μ等于( )A.1B.2C.4D.不能确定【解析】选C.因为方程x2+4x+ξ=0无实数根的概率为12,由Δ=16-4ξ<0,得ξ>4,即P(ξ>4)=12=1-P(ξ≤4),故P(ξ≤4)=12,所以μ=4.6. 设某地区某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,令ξ表示从中随机抽取的一名儿童的身高,则下列概率中最大的是( )A.P(120<ξ<130)B.P(125<ξ<135)C.P(130<ξ<140)D.P(135<ξ<145)【解析】选C.因为某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,即ξ~N(135,100),所以在长度都是10的区间上,概率最大的应该是在对称轴两侧关于对称轴对称的区间,从四个选项可知C最大,故选C.7.设随机变量ξ服从正态分布N(0,1),则下列结论正确的是.①P(|ξ|<a)=P(ξ<a)+P(ξ>-a)(a>0);②P(|ξ|<a)=2P(ξ<a)-1(a>0);③P(|ξ|<a)=1-2P(ξ<a)(a>0);④P(|ξ|<a)=1-P(|ξ|>a)(a>0).【解析】因为P(|ξ|<a)=P(-a<ξ<a),所以①不正确;因为P(|ξ|<a)=P(-a<ξ<a)=P(ξ<a)-P(ξ<-a)=P(ξ<a)-P(ξ>a)=P(ξ<a)-(1-P(ξ<a))=2P(ξ<a)-1,所以②正确,③不正确;因为P(|ξ|<a)+P(|ξ|>a)=1,所以P(|ξ|<a)=1-P(|ξ|>a)(a>0),所以④正确.答案:②④8.在某次数学考试中,考生的成绩服从正态分布N(90,100),则考试成绩在110分以上的概率是.【解析】因为考生的成绩X~N(90,100),所以正态曲线关于x=90对称,且标准差为10,根据3σ原则知P(70<x<110)=P(90-2×10<x<90+2×10)=0.9544,所以考试成绩X位于区间(70,110)上的概率为0.9544,则考试成绩在110分以上的概率是=12(1-0.9544)=0.0228.9.某大型国有企业为10000名员工定制工作服,设员工的身高(单位:cm)服从正态分布N(173,52),则适合身高在163~183cm范围内员工穿的服装大约要定制套.【解析】因为员工的身高(单位:cm)服从正态分布N(173,52),即服从均值为173cm,方差为25的正态分布,因为适合身高在163~183cm范围内取值即在(μ-2σ,μ+2σ)内取值,其概率为:95.44%,从而得出适合身高在163~183cm范围内员工穿的服装大约套数是:10000×95.44%=9544套.10.随机变量ξ服从正态分布N(1,σ2),已知P(ξ<0)=0.3,则P(ξ<2)等于( )A.0.7B.0.6C.0.5D.0.3【解析】选A.根据图象的对称性知P(ξ>2)=P(ξ<0)=0.3,所以P(ξ<2)=1-P(ξ>2)=0.7.11.正态分布N0,49中,数值落在(-∞,-2)∪(2,+∞)内的概率是( )A.0.46B.0.997C.0.03D.0.0026[来源:]【解析】选D.由题意μ=0,σ=23,所以P(-2<X<2)=P0-3×23<X<0+3×23=0.9974,所以P(X<-2)+P(X>2)=1-P(-2≤X≤2)=1-0.9974=0.0026.故选D.12.某中学高考数学成绩近似地服从正态分布N(100,100),则此校数学成绩在80~120分的考生占总人数的百分比为( )A.31.74%B.68.26%C.95.44%D.99.74%【解析】选C.设此校学生的数学成绩为X,随机变量X~N(100,100),所以μ=100,σ2=100,即σ=10.则P(μ-2σ<X≤μ+2σ)=95.44%.故选C.13.我校在模块考试中约有1000人参加考试,其数学考试成绩ξ~N(90,a2)(a>0,试卷满分150分),统计结果显示数学考试成绩在70分到110分之间的人数约为总人数的35,则此次数学考试成绩不低于110分的学生人数约为( )A.600B.400C.300D.200【解析】选D.由平均分为90,考试成绩在70分到110分之间的人数为600,则落在90分到110分之间的人数为300人,故数学考试成绩不低于110分的学生人数约为500-300=200.14.某个部件由三个元件按如图方式连接而成,元件1或元件2正常工作,且元件3正常工作,则部件正常工作,设三个电子元件的使用寿命(单位:小时)均服从正态分布N(1000,502),且各个元件能否正常工作相互独立,那么该部件的使用寿命超过1000小时的概率为.【解析】三个电子元件的使用寿命均服从正态分布N(1000,502)得:三个电子元件的使用寿命超过1000小时的概率为p=12,超过1000小时时元件1或元件2正常工作的概率p1=1-(1-p)2=34,那么该部件的使用寿命超过1000小时的概率为p2=p1×p=38.二、回归分析1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )A.y与x具有正的线性相关关系B.回归直线过样本点的中心点(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg【解析】选D.对于A,0.85>0,所以y与x具有正的线性相关关系,故正确;对于B,回归直线过样本点的中心点(x,y),故正确;对于C,因为回归方程为=0.85x-85.71,所以该大学某女生身高增加1cm,则其体重约增加0.85kg,故正确;对于D,x=170cm时,=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79kg,故不正确.2.某单位为了制定节能减排的目标,先调查了用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表: 由表中数据,得线性回归方程y=-2x+a,则a= ( )A.20 B.40C.60D.80【解析】选C.根据所给的表格中的数据,求出数据的样本点的中心,根据样本点的中心在线性回归直线上,代入可得a的值.由表格得x=18+13+10-14=10,y=24+34+38+644=40,因为(x,y)满足线性回归方程y=-2x+a,则可知40=10×(-2)+a,解得:a=60,3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据(1)请画出上表数据的散点图.(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+.(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【解析】(1)如图(2)由对照数据,计算得:∑i=14xiyi=66.5,∑i=1nxi2=32+42+52+62=86,x=4.5,y=3.5,=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,=y-x=3.5-0.7×4.5=0.35,所求的线性回归方程为:=0.7x+0.35.(3)x=100,=100×0.7+0.35=70.35(吨),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨).三、独立性检验1.下面是一个2×2列联表:则表中a,b的值分别为( )A.54,103B.64,103C.54,93D.64,93【解析】选A.由题意,a+40=94,40+63=b,所以a=54,b=103.2.对于独立性检验,下列说法正确的是( )A.K2独立性检验的统计假设是各事件之间相互独立B.K2可以为负值C.K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”D.2×2列联表中的4个数据可以是任意正数【解析】选A.由独立性检验的检验步骤可知A正确;因为2×2列联表中的数据均为正整数,故K2不可能为负值,排除B;因为K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的出错率,故排除C;因为2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D.3.在对人们休闲方式的一次调查中,根据数据建立如下的2×2列联表:为了判断休闲方式是否与性别有关,根据表中数据,得到K2的观测值k≈4.667,因为3.841≤k≤6.635,所以判定休闲方式与性别有关系,那么这种判断出错的可能性至多为( )A.1%B.99%C.5%D.95%选C.因为3.841≤k≤6.635,P(K2≥3.841)≈0.05,P(K2≥6.635)≈0.01,所以判断出错的可能性至多为5%.4.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2548名男性中有1560名持反对意见,2452名女性中有1200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力( )A.平均数与方差B.回归直线方程C.独立性检验D.概率【解析】选C.由于参加调查的人按性别被分成了两组,而且每一组又被分成了两种情况,判断有关与无关,符合2×2列联表的要求,故用独立性检验最有说服力.5.在列联表中,类1在类B中所占的比例为.【解析】因为由列联表可以看出类1在类B中有c个,而类B共有(c+d)个,所以类1在类B中所占的比例是cc+d.6.某厂家为调查一种新推出的产品的颜色接受程度是否与性别有关,数据如下表:根据表中的数据,得到k≈10.653,因为k≥7.879,所以产品的颜色接受程度与性别有关系,那么这种判断出错的可能性为.【解析】根据k≈10.653,对照临界值表可以得到,这种判断出错的可能性是0.005.7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k≈4.844.则可以在犯错误的概率不超过的前提下认为选修文科与性别有关系.【解析】因为根据表中数据,得到K2的观测值k≈4.844>3.841.所以可以在犯错误的概率不超过0.05的前提下认为选修文科与性别有关系.答案:0.058.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.【解析】(1)将2×2列联表中的数据代入计算公式,得K2的观测值k=100×60×10-20×10280×20×70×30=10021≈4.762,由于4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中抽取3人的一切可能结果所组成的基本事件为下列10个:a1,a2,b1,a1,a2,b2,a1,a2,b3,a1,b1,b2,a1,b1,b3,a1,b2,b3,a2,b1,b2,a2 ,b1,b3,a2,b2,b3,b1,b2,b3,其中ai(i=1,2)表示喜欢甜品的学生,bj(j=1,2,3)表示不喜欢甜品的学生,这10个基本事件的出现是等可能的.抽取3人,至多有1人喜欢甜品的事件为以下7个:a1,b1,b2,a1,b1,b3,a1,b2,b3,a2,b1,b2,a2,b1,b3,a2,b2,b3,b1,b2,b3,从这5名学生中随机抽取3人,至多有1人喜欢甜品的概率为710.。
高考数学三轮冲刺专题回归分析及独立性检验练习(含解析)(2021年整理)
回归分析及独立性检验一、选择题(本大题共12小题,共60分)1。
设某中学的高中女生体重单位:与身高单位:具有线性相关关系,根据一组样本数据2,3,,,用最小二乘法近似得到回归直线方程为,则下列结论中不正确的是A。
y与x具有正线性相关关系B。
回归直线过样本的中心点C. 若该中学某高中女生身高增加1cm,则其体重约增加D。
若该中学某高中女生身高为160cm,则可断定其体重必为(正确答案)D【分析】本题考查了回归分析与线性回归方程的应用问题,是基础题目根据回归分析与线性回归方程的意义,对选项中的命题进行分析、判断正误即可.【解答】解:由于线性回归方程中x的系数为,因此y与x具有正的线性相关关系,A正确;由线性回归方程必过样本中心点,因此B正确;由线性回归方程中系数的意义知,x每增加1cm,其体重约增加,C正确;当某女生的身高为160cm时,其体重估计值是,而不是具体值,因此D错误.故选:D.2. 为了研究某班学生的脚长单位:厘米和身高单位:厘米的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24,据此估计其身高为A。
160 B. 163 C。
166 D. 170(正确答案)C解:由线性回归方程为,则,,则数据的样本中心点,由回归直线方程样本中心点,则,回归直线方程为,当时,,则估计其身高为166,故选C.由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得,将代入回归直线方程即可估计其身高.本题考查回归直线方程的求法及回归直线方程的应用,考查计算能力,属于基础题.3. 为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下收入x 万元支出y 万元据上表得回归直线方程,其中,,据此估计,该社区一户收入为15万元家庭年支出为A. 万元B. 万元C. 万元 D。
万元(正确答案)B解:由题意可得,,代入回归方程可得,回归方程为,把代入方程可得,故选:B.由题意可得和,可得回归方程,把代入方程求得y值即可.本题考查线性回归方程,涉及平均值的计算,属基础题.4. 下列说法错误的是A。
回归分析与独立性检验
回归分析与独立性检验作者:金石来源:《数学金刊·高考版》2015年第02期回归分析与独立性检验是常见的统计方法,这部分内容多出现在高考试题中,更是近几年高考的热点. 此部分知识主要考查同学们的统计基本思想及初步应用,试题难度为中等偏上.重点难点重点:理解回归分析、独立性检验的基本思想及实施步骤.难点:回归分析中残差变量的解释与分析,相关系数、指标R2的理解;独立性检验中随机变量K2的含义.方法突破(1)回归分析中重点考查的是对两个线性相关关系的变量的研究,具体步骤是:①画散点图;②利用最小二乘法求回归直线方程中的■=■=■,■=■-■■;③用回归直线方程进行预报.(2)首先要充分理解独立性检验原理. 独立性检验原理指的是在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就判断这个假设不成立,且该推断犯错误的概率不超过这个小概率. 在解决具体问题时通过计算随机变量K2=■的观测值k(注意公式中a,b,c,d,a+c,b+d,a+b,c+d在2×2列联表中的位置),并且在临界值表格中找到满足k≥k0的临界值k0,那么犯错误的概率不超过k0对应的P(k≥k0)即为判断犯错误的概率,从而得出有多大的把握认为两个分类变量有关.典例精讲■例1 某产品的广告费用x与销售额y的统计数据如下表:■根据上表可得回归方程■=■x+■中的■=9.4,据此模型预报广告费用为6万元时销售额为()A. 63.6万元?摇B. 65.5万元?摇?摇C. 67.7万元?摇D. 72.0万元思索由于回归直线过样本点的中心(■,■),所以利用所给数据求出■,■,将其带入回归方程中,求出■,从而得出回归直线方程;再令x=6,求得■的值即为本题的答案.破解由已知可得■=■=3.5,■=■=42,所以样本点的中心为(3.5,42),且■=9.4. 由此得■=■-■■=42-9.4×3.5=9.1. 所以回归直线方程为■=9.4x+9.1. 当x=6时,■=65.5万元,故选B.■例2 某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:■■(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:■=■,■=■-■■.思索利用所给数据和回归直线的斜率和截距的最小二乘估计公式求出■,■,进而得到回归直线方程. 利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,可以从正负相关及该地区农村居民家庭人均纯收入每年变化幅度方面加以说明. 预测该地区2015年农村居民家庭人均纯收入,可将2015年的年份代号9代入所求的回归直线方程求出■即可.破解(1)由所给数据计算得■=■(1+2+3+4+5+6+7)=4,■=■(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,■(ti-■)2=9+4+1+0+1+4+9=28,■(ti-■)(yi-■)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,■=■=■=0.5,■=■-■■=4.3-0.5×4=2.3. 故所求回归方程为■=0.5t+2.3.(2)由(1)知,■=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 将2015年的年份代号t=9代入(1)中的回归方程,得■=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.■例3 通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:■由K2=■算得K2=■≈7.8.附表:■参照附表,判断下列结论正确的是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C. 有99%以上的把握认为“爱好该项运动与性别有关”D. 有99%以上的把握认为“爱好该项运动与性别无关”思索由所给随机变量K2的观测值k在临界值表格中找到满足k≥k0的临界值k0,那么犯错误的概率不超过k0对应的P(k≥k0)即为判断犯错误的概率,从而得到有多大的把握认为两个分类变量有关.破解由于K2的观测值k在临界值表格中找到满足k≥k0的临界值k0=6.635,那么犯错误的概率不超过k0对应的P(k≥k0)=0.010即为判断犯错误的概率,所以在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别有关”. 也可以表示为有99%以上的把握认为“爱好该项运动与性别有关”. 故选C.■例4 为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:■(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?附表:■K2=■.思索首先将2×2列联表补充完整,可以清晰地得出调查的500位老年人中有多少位需要志愿者提供帮助,这样就可以得出该地区老年人中,需要帮助的老年人的比例的估算值了. 再由所给随机变量K2公式求出观测值k在临界值表格中找到满足k≥k■的临界值k■,那么犯错误的概率不超过k0对应的P(k≥k0)即为判断犯错误的概率,从而得到有多大的把握认为两个分类变量有关.破解首先将2×2列联表补充完整,如下表:■(1)由表中清晰地得出调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者帮助的老年人的比例的估算值为■=14%.(2)由所给随机变量K2公式求出观测值k=■≈9.967,由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.变式练习1. 已知变量x与y正相关,且由观测数据算得样本平均数■=3,■=3.5,则由该观测数据算得的线性回归方程可能是()A. ■=0.4x+2.3?摇B. ■=2x-2.4C. ■=-2x+9.5?摇D. ■=-0.3x+4.42. 设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为■=0.85x-85.71,则下列结论中不正确的是()A. y与x具有正的线性相关关系B. 回归直线过样本点的中心(■,■)C. 若该大学某女生身高增加1cm,则其体重约增加0.85kg?摇D. 若该大学某女生身高为170cm,则可断定其体重必为58.79kg3. 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据:■(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程■=■x+■;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤. 试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)4. “十一”期间,某城市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表,下列结论正确的是()■A. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到…光盘‟与性别有关”B. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到…光盘‟与性别无关”C. 有90%以上的把握认为“该市居民能否做到…光盘‟与性别有关”D. 有90%以上的把握认为“该市居民能否做到…光盘‟与性别无关”5. 为考察高中生的性别与是否喜欢数学课程之间的关系,在我市某普通中学高中生中随机抽取200名学生,得到如下2×2列联表:■根据独立性检验的基本思想,约有多大的把握认为“性别与喜欢数学课之间有关系”?附表:■■K2=■.参考答案1. A2. D3. (1)图略;(2)■xiyi=66.5,■=■=4.5,■=■=3.5,■x2i=32+42+52+62=86,■=■=■=0.7,■=■-■■=3.5-0.7×4.5=0.35. 故线性回归方程为■=0.7x+0.35.(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65(吨标准煤).4. C5. 由所给随机变量K2公式求出观测值k=■≈6.061>5.024,所以约有97.5%的把握认为“性别与喜欢数学课之间有关系”.。
创新方案高考数学复习人教新课标回归分析独立必性检验高中数学
创新方案高考数学复习人教新课标回归分析独立必性检验高中数学一、背景近年来,社会经济的快速发展使得人类生活日益便利,但也带来了新的问题。
其中之一便是教育问题。
如何提高学生的创新能力,培养学生的独立思考能力,是当今教育工作者所面临的重要问题。
在高中阶段,数学是一门重要的学科,对学生的思维能力和创新能力的培养具有重要的意义。
因此,如何有效地进行数学复习,使得学生能够提高自己的数学能力,具备独立思考的能力,成为了当今教育工作者需要思考的问题。
二、回归分析回归分析是一种常用的数学方法,用于分析两个或多个变量之间的关系。
在高考数学中,回归分析是一个重要的考点,需要学生深入理解。
回归分析的主要思想是通过一条直线或曲线来拟合数据,从而找到变量之间的关系。
其中最常见的是线性回归分析。
线性回归分析的数学模型为:Y = aX + b其中,Y表示因变量,X表示自变量,a和b为常数。
a称为斜率,b称为截距。
该模型可以用最小二乘法来求解。
在高考数学中,回归分析与解决实际问题的联系十分紧密。
学生需要具备应用回归分析解决实际问题的能力。
例如:一家超市需要根据历史销售数据来预测未来一段时间的销售情况。
通过回归分析,可以得到销售额与时间的关系式。
根据这个关系式,可以预测未来一段时间的销售额,并制定相应的营销策略。
三、独立必性检验独立必性检验是一种用于检验两个变量之间是否存在显著关系的方法。
在高考数学中,独立必性检验是一个重要的考点,需要学生深入理解。
独立必性检验的基本思想是对样本数据进行分组分析,并计算每组的期望频数和观察频数。
通过计算期望频数和观察频数的差异,并使用卡方检验来判断两个变量之间是否存在显著关系。
在高考数学中,独立必性检验常常用于解决实际问题。
例如,可以通过独立必性检验来检验两个变量之间是否存在相关性。
如果发现相关性,就需要考虑采取相应的措施来减少其负面影响。
四、创新方案:利用信息技术提高数学复习效果在当今信息化的时代,利用信息技术来提高学生的数学能力,具有重要的意义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析与独立性检验
1.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生. 从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 .
2.根据下面给出的2004年至2013年我国二氧化碳年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A .逐年比较,2008年减少二氧化碳排放量的效果最显着
B .2007年我国治理二氧化碳排放显现成效
C .2006年以来我国二氧化碳年排放量呈减少趋势
D .2006年以来我国二氧化碳年排放量与年份正相关
3.为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
根据上表可得回归直线方程ˆˆˆy
bx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为( )]
A .11.4万元
B .11.8万元
C .12.0万元
D .12.2万元 4.在画两个变量的散点图时,下面哪个叙述是正确的
( )
A .预报变量在x 轴上,解释变量在y 轴上
B .解释变量在x 轴上,预报变量在
y 轴上
C .可以选择两个变量中任意一个变量在x 轴上
D .可以选择两个变量中任意一个变量在y 轴上
5
2004年 2005年 2006年 2007年 2008年 2009年 2010年 2011年 2012年 2013年
根据以上数据,则 ( ) A .种子经过处理跟是否生病有关 B .种子经过处理跟是否生病无关 C .种子是否经过处理决定是否生病 D .以上都是错误的
6.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题
中,y 的预报最大取值是10,则x 的最大取值不能超过
( )
A .16
B .17
C .15
D .12
7.在研究身高和体重的关系时,求得相关指数≈2
R ___________,可以叙述为“身高解释了64%的体重变化,而随机
误差贡献了剩余的36%”所以身高对体重的效应比随机误差的效应大得多。
8.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
(I )由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;
(II )建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量。
参考数据:
7
1
9.32i
i y
==∑,7
1
40.17i i i t y ==∑,
7
2
1
()
0.55i
i y y =-=∑,
7≈2.646.
参考公式:相关系数1
2
2
1
1
()()
()(y
y)n
i
i
i n n
i i
i i t t y y r t t ===--=
--∑∑∑,
回归方程
y a bt =+ 中斜率和截距的最小二乘估计公式分别为:
9.某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图. 根据该折线图,下列结论错误的是
A .月接待游客量逐月增加
B .年接待游客量逐年增加
C .各年的月接待游客量高峰期大致在7,8月
D .各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳
10.为了研究某班学生的脚长x (单位:厘米)和身高
y (单位:厘米)的关系,从该班随机抽取10名学生,根据测
量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy
bx a =+.已知10
1
225i i x ==∑,10
1
1600i
i y
==∑,ˆ4b
=.该班某学生的脚长为24,据此估计其身高为 (A )160 (B )163 (C )166 (D )170
11.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下:
(1) 设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低
于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:。