【配套K12】[学习]2018-2019学年高中数学 第三章 统计案例 3.1 回归分析的基本思想及
2018-2019版高中数学 第三章 统计案例章末复习学案 新人教A版选修2-3
第三章 统计案例章末复习学习目标 1.会求线性回归方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤.1.最小二乘法对于一组数据(x i ,y i ),i =1,2,…,n ,如果它们线性相关,则线性回归方程为y ^=b ^x +a ^,其中b ^=∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x .2.2×2列联表 2×2列联表如表所示:其中n =a +b +c +d 为样本容量. 3.独立性检验 常用随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )来检验两个变量是否有关系.类型一 回归分析例1 (2016·全国Ⅲ改编)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y)2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y)∑i =1n(t i -t )2∑i =1n(y i -y)2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y)∑i =1n(t i -t)2,a ^=y -b ^t .考点 线性回归分析题点 线性回归方程的应用解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17(y i -y)2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.892×2.646×0.55≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系. (2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y)∑i =17(t i -t)2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2019年对应的t =12代入回归方程得y ^=0.92+0.10×12=2.12.所以预测2019年我国生活垃圾无害化处理量约为2.12亿吨. 反思与感悟 解决回归分析问题的一般步骤 (1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程. (3)回归分析.画残差图或计算R 2,进行残差分析. (4)实际应用.依据求得的回归方程解决实际问题.跟踪训练1 经分析预测,美国通用汽车等10家大公司的销售总额x i (i =1,2,…,10,单位:百万美元)与利润y i (i =1,2,…,10,单位:百万美元)的近似线性关系为y ^=0.026x +a ^,经统计∑i =110x i =623 090,∑i =110y i =29 300.(1)求a ^;(2)若通用汽车公司的销售总额x 1=126 974(百万美元),残差e ^1=-387,估计通用汽车的利润;(3)福特公司的销售总额为96 933百万美元,利润为3 835,比较通用汽车公司与福特公司利润的解释变量对于预报变量变化的贡献率说明了什么?(以上答案精确到个位) 考点 残差分析与相关指数 题点 残差及相关指数的应用解 (1)由∑i =110x i =623 090,∑i =110y i =29 300,得样本点中心为(62 309,2 930),所以a ^=2 930-0.026×62 309≈1 310.(2)由(1)知y ^=0.026x +1 310, 当x 1=126 974时,y ^1=0.026×126 974+1 310≈4 611,所以y 1=y ^1+e ^1=4 611+(-387)=4 224, 估计通用汽车公司的利润为4 224百万美元.(3)由(1)(2)可得通用汽车公司利润的解释变量对于预报变量变化的贡献率为R 21,则R 21=1-(y 1-y ^1)2(y 1-y )2=1-(-387)21 2942≈0.911=91.1%. 设福特公司利润的解释变量对于预报变量变化的贡献率为R 22,由y ^=0.026x +1 310得y ^2=0.026×96 933+1 310≈3 830,则R 22=1-(3 835-3 830)2(3 835-2 930)2=1-529052≈0.999 97=99.997%.由R 21<R 22知,用y ^=0.026x +1 310作为解释变量与预报变量的关系,预报通用汽车公司的效果没有预报福特公司的效果好,或者说预报通用汽车公司的精确度低于预报福特公司的精确度.类型二 独立性检验例2 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人? (2)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?下面的临界值表供参考:独立性检验统计量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .考点 独立性检验思想的应用题点 分类变量与统计、概率的综合性问题 解 (1)由题意,男生抽取6×2020+10=4(人).(2)K 2=60×(20×20-10×10)230×30×30×30≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关. 反思与感悟 独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)通过公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )先计算观测值k ,再与临界值表作比较,最后得出结论.跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;(2)根据以上数据完成下列2×2列联表;(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?考点独立性检验思想的应用题点独立性检验在分类变量中的应用解(1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如表所示:(3)K2=30×(8-128)212×18×20×10=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.1.甲、乙、丙、丁四位同学各自对A,B两变量进行线性相关检验,并用回归分析方法分别求得相关系数r如下表:则这四位同学的试验结果能体现出A ,B 两变量有更强的线性相关性的是( ) A .甲 B .乙 C .丙D .丁考点 线性相关系数 题点 线性相关系数的应用 答案 D解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知丁的线性相关性更强.故选D.2.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,以下说法正确的是( ) A .没有充足的理由认为课外阅读量大与作文成绩优秀有关 B .有0.5%的把握认为课外阅读量大与作文成绩优秀有关 C .有99.9%的把握认为课外阅读量大与作文成绩优秀有关 D .有99.5%的把握认为课外阅读量大与作文成绩优秀有关 考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 D解析 根据临界值表,10.828>9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.3.某化妆品公司为了增加其商品的销售利润,调查了该商品投入的广告费用x 与销售利润y 的统计数据如下表:由表中数据,得线性回归方程l :y ^=b ^x +a ^,则下列结论正确的是( )A.b ^<0B.a ^<0C .直线l 过点(4,8)D .直线l 过点(2,5)考点 线性回归方程 题点 样本点中心的应用 答案 C解析 因为b ^=1.4>0,a ^=y -b ^x =8-1.4×4=2.4>0,所以排除A ,B ;因为y ^=1.4x +2.4,所以1.4×2+2.4=5.2≠5,所以点(2,5)不在直线l 上,所以排除D ;因为x =4,y =8,所以回归直线l 过样本点的中心(4,8),故选C.4.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁.为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:附表:参照附表,在犯错误的概率不超过________(填百分比)的前提下,认为“小鼠是否被感染与服用疫苗有关”.考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 5%解析 K 2的观测值k =100×(10×30-20×40)230×70×50×50≈4.762>3.841,所以在犯错误的概率不超过5%的前提下,认为“小鼠是否被感染与服用疫苗有关”.5.对于线性回归方程y ^=b ^x +a ^,当x =3时,对应的y 的估计值是17,当x =8时,对应的y 的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x =________时,y 的估计值是38. 考点 线性回归分析题点 线性回归方程的应用答案 y ^=x +14 24解析 首先把两组值代入线性回归方程,得⎩⎪⎨⎪⎧3b ^+a ^=17,8b ^+a ^=22,解得⎩⎪⎨⎪⎧b ^=1,a ^=14.所以线性回归方程是y ^=x +14.令x +14=38,可得x =24,即当x =24时,y 的估计值是38.1.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量. (2)画出散点图,观察它们之间的关系. (3)由经验确定回归方程的类型.(4)按照一定的规则估计回归方程中的参数. (5)得出结果后分析残差图是否有异常.2.独立性检验是利用随机变量K 2来判断两个分类变量间是否存在相关关系的方法,常用的直观方法为等高条形图,等高条形图由于是等高的,因此它能直观地反映两个分类变量之间的差异的大小,而利用假设的思想方法,计算出某一个随机变量K 2的值来判断更精确些.一、选择题1.有人收集了春节期间平均气温x 与某取暖商品销售额y 的有关数据如表:则该商品销售额与平均气温有( ) A .确定性关系 B .正相关关系 C .负相关关系 D .函数关系考点 回归分析题点回归分析的概念和意义答案 C解析根据春节期间平均气温x与某取暖商品销售额y的有关数据知,y随x的减小而增大,是负相关关系,故选C.2.如果K2的观测值为8.654,可以认为“x与y无关”的可信度为( )A.99.5% B.0.5%C.99% D.1%考点独立性检验及其基本思想题点独立性检验的方法答案 B解析∵8.654>7.879,∴x与y无关的可信度为0.5%.3.下面的等高条形图可以说明的问题是( )A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C.此等高条形图看不出两种手术有什么不同的地方D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握考点定性分析的两类方法题点利用图形定性分析答案 D解析由等高条形图可知选项D正确.4.为了了解疾病A是否与性别有关,在某医院随机地对入院的50人进行了问卷调查,得到了如下的列联表:则认为疾病A与性别有关的把握约为( )A .95%B .99%C .99.5%D .99.9%考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 C解析 由公式得K 2=50×(20×15-5×10)225×25×30×20≈8.333>7.879,故有(1-0.005)×100%=99.5%的把握认为疾病A 与性别有关.5.某考察团对全国10大城市进行职工人均工资水平x (单位:千元)与居民人均消费水平y (单位:千元)统计调查,y 与x 具有线性相关关系,回归方程为y ^=0.66x +1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( ) A .83% B .72% C .67%D .66%考点 线性相关系数 题点 线性相关系数的应用 答案 A解析 将y =7.675代入回归方程,可计算得x ≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.6.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:根据以上数据可得出( )A .种子是否经过处理与是否生病有关B .种子是否经过处理与是否生病无关C .种子是否经过处理决定是否生病D .有90%的把握认为种子经过处理与生病有关 考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 B解析 k =407×(32×213-61×101)293×314×133×274≈0.164<0.455,即没有充足的理由认为种子是否经过处理跟生病有关.7.为预测某种产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取了8组观察值.计算知∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1 849,则y 关于x 的回归方程是( )A.y ^=11.47+2.62xB.y ^=-11.47+2.62xC.y ^=2.62+11.47xD.y ^=11.47-2.62x 考点 线性回归分析 题点 线性回归方程的应用 答案 A解析 由b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,直接计算得b ^≈2.62,a ^≈11.47,所以线性回归方程为y ^=2.62x +11.47.8.若对于变量y 与x 的10组统计数据的回归模型中,相关指数R 2=0.95,又知残差平方和为120.53,那么∑i =110(y i -y )2的值为( )A .241.06B .2 410.6C .253.08D .2 530.8考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 B解析 设总偏差平方和为x ,根据公式R 2=1-残差平方和总偏差平方和,有0.95=1-120.53x,∴x =120.531-0.95=2 410.6,故选B.二、填空题9.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多. 考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 85% 15%解析 由相关指数R 2的意义可知,R 2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.10.为了规定工时定额,需要确定加工零件所花费的时间,为此进行5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=150,由最小二乘法求得线性回归方程为y ^=0.67x +54.9,则y 1+y 2+y 3+y 4+y 5的值为______.考点 线性回归方程 题点 样本点中心的应用 答案 375解析 由题意,得x =15(x 1+x 2+x 3+x 4+x 5)=30,且回归直线y ^=0.67x +54.9恒过点(x ,y ),则y =0.67×30+54.9=75,所以y 1+y 2+y 3+y 4+y 5=5y =375.11.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________. ①若K 2的观测值k =6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误. 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 ③解析 K 2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.三、解答题12.如表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出如表数据的散点图;(2)请根据如表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? 考点 线性回归分析 题点 线性回归方程的应用解 (1)由题设所给数据,可得散点图如图.(2)由数据,计算得:∑i =14x 2i =86,x =3+4+5+64=4.5, y =2.5+3+4+4.54=3.5,∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为b ^=∑i =14x i y i -4x y∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7, a ^=y -b ^x =3.5-0.7×4.5=0.35,因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)中的线性回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤). 四、探究与拓展13.对某台机器购置后的运营年限x (x =1,2,3,…)与当年利润y 的统计分析知具备线性相关关系,线性回归方程为y ^=10.47-1.3x ,估计该台机器使用________年最合算. 考点 线性回归分析 题点 线性回归方程的应用 答案 8解析 只要预计利润不为负数,使用该机器就算合算,即y ^≥0,所以10.47-1.3x ≥0,解得x ≤8.05,所以该台机器使用8年最合算.14.某校高一年级理科有8个班,在一次数学考试中成绩情况分析如下:附:∑8i =1x i y i =171,∑8i =1x 2i =204. (1)求145分以上成绩y 对班级序号x 的线性回归方程;(精确到0.000 1)(2)能否在犯错误的概率不超过0.01的前提下认为7班与8班的成绩是否优秀(大于145分)与班级有关系.考点 独立性检验思想的应用题点 独立性检验与线性回归方程、均值的综合应用解 (1)x =4.5,y =5,∑8i =1x i y i =171,∑8i =1x 2i =204, b ^=∑8i =1x i y i -8x y∑8i =1x 2i -8x2=171-8×4.5×5204-8×4.52=-314≈-0.214 3,a ^=y -b ^x =5-(-0.214 3)×4.5≈5.964 4,∴线性回归方程为y ^=-0.214 3x +5.964 4. (2)K 2=90×(3×38-42×7)245×45×80×10=1.8,∵1.8<6.635,∴不能在犯错误的概率不超过0.01的前提下认为7班与8班的成绩是否优秀(大于145分)与班级有关系.。
高中数学第三章统计案例3_2回归分析课后训练苏教版选修2-3(7页)
高中数学第三章统计案例3_2回归分析课后训练苏教版选修2-3(7页)文档来源为:从网络收集整理文档来源为:从网络收集整理.word版本可编辑?欢迎下载支持.PAGEPAGE #文档收集于互联网.已整理.word版本可编辑.文档来源为:从网络收集整理文档来源为:从网络收集整理.word版本可编辑?欢迎下载支持.PAGEPAGE #文档收集于互联网.已整理.word版本可编辑.3.2回归分析练习对某种机器购苣后运营年限次序x(l,2,3,…),与当年增加利润y的统计分析知具备线性相关关系,回归方程为:y =10.47—1.3<估计该台机器使用年最合算.假设关于某设备的使用年限x与所支出的维修费用y(万元)有如下的统汁数据X234—6y2.23.85.56.5若由此资料知y与龙呈线性关系,则线性回归方程是?假设关于某市房屋而积/平方米)与购房费用y(万元),有如下的统汁数据: 龙(平方米)8090100110y(万元)42465359由资料表明y对%呈线性相关,若在该市购买120平方米的房屋,估计购房费用是万元.下表是关于某设备的使用年限(年)和所需要的维修费用y(万元)的几组统计数据:X234厂6y2.23.85.56.5请根孺上表提供的数据,用最小二乘法求出y关于”的线性回归方程?某车间为了规泄工时左额,需要确左加工零件所花费的时间,为此作了四次试验, 得到的数据如下:零件的个数*(个)234厂加工的时间y(小时)2.5344.5试预测加工10个零件需要多少时间?6 ?某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究, 他们分别记录了 3月1日至3月5日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:日期3月1日3月2日3月3日3月4日3月5日温差H°C)1011138发芽数y(颗)2325302616(1)若选取的是3月1日与3月5日的两组数据,请根据3月2日至3月4日的数据,求出p关于X的线性回归方程y =从+“;(2)若由线性回归方程得到的估计数据与所选岀的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?7.某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:X21568y3040506070如果y与x之间具有线性相关关系.(1)作岀这些数据的散点图:(2)求这些数据的线性回归方程:(3)预测当广告费支出为9百万元时的销售额.有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统汁,得到一个卖出的热饮杯数与当天气温的对比表,如下表所示:摄氏温度/°c—54712151923273136热饮杯数15615013212813011610489937654(1)画出散点图:(2)从散点图中发现气温与热饮销售杯数之间关系的一般规律;(3)求回归方程:(4)如果某天的气温是2 r,预测这天卖出的热饮杯数.某个服装店经营某种服装,在某周内获纯利y(元),与该周每天销售这种服装件数x 之间的一组数据关系见表:X3456789y666973818990917 7 n已知.2 =280,工牙2 =45309,工舌牙=3487?⑴求x, y;(2)判断纯利y与每天销售件数*之间是否线性相关,如果线性相关,求岀回归方程?—个车间为了规左工时左额,需要确左加工零件所花费的时间,为此进行了 10次试验?测得的数据如下.零件数龙(个)102030405060708090100加工时间y(分)626875818995102108115122(1)求y对*的回归直线方程:⑵据此估计加工200个零件所用的时间是多少?文档来源为:从网络收集整理文档来源为:从网络收集整理.word版本可编辑?欢迎下载支持. PAGEPAGE #文档收集于互联网.已整理.word版本可编辑.文档来源为:从网络收集整理文档来源为:从网络收集整理.word版本可编辑?欢迎下载支持.774文档收集于互联网.已整理.word版本可编辑.参考答案1.答案:8解析:令即 10.47 — l?3x$o,.SW8,.:?估计该台机器使用8年较为合算.2?答案:y=0?08+l?23%5 __解析:代入 b =弋—= 1.23, y = a + bx,Ev-5?i-l/. a =0. 08..?.线性回归方程是y =0. 08+1. 23x.3?答案:64.5解析:V x =95, y =50 代入公式求得 b=0. 58, a=—5.1,.线性回归方程为y=0. 58.Y-5. 1.将x=120代入线性回归方程得y =64. 5(万元).估计购买120平方米的房屋时,购买房屋费用是64. 5万元.4.答案:y=l?23x+0?085 _解析:》彳=4+9+16+25+36 = 90,且x=4, y =5,刀=5, r-l.f_112?3 — 5x4x5_12?390 — 5x16 10a =5-1.23X4=0. 08,回归直线为y=l. 23x+0?08.5?解:5?解:2+3+4+5~~4-=3.5,齐2.5+3+4+4.5“5,4= 2X2. 5+3X3+4X4 + 5X4.5 = 52.5,x/ =4 + 9+16+25=54,、52.5-4x3.5x3.5 「54 — 4x3.5261=3.5-0.7X3.5 = 1.05.回归直线方程为y =0. 7x+l. 05,当 x=10 时,y=0.7X10+1.05=8. 05,预测加工10个零件需要8. 05小时._ 16?解:(1)由数拯,求得 x = —(11 + 13+12)=12,3- 1y = - (25+30+26)=27,33x y =972.3工兀牙=11X25 + 13X30 + 12X26=977,工舛2 =113+133+12”=434,3? = 432 ?97 /-I线性回归方程为y=7w+15?当”=9时,y=78?即当广告费支出为9百万元时,销售额为78百万元.解:(1)散点图如下图所示:从上图看到,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间呈负相关,即气温越髙,卖出去的热饮杯数越少.从散点图可以看岀,这些点大致分布在一条直线的附近,因此.可用公式求岀回归方程的系数._ _ 11 11x 215.364, y~lll?636,工x「=4335,工召开=14778./-I /-I112>必-1伐亍b = —__— p -2.352 ■X,2 -1 lx2 -1 lx2/-Ia = y-bx ?. 767.回归方程为:y=-2. 352x4-147. 767.⑷当x=2时,严143.因此,某天的气温为2 °C时,这天大约可以卖岀143杯热饮.9?解:9?解:(1) x = = 6 ,-66+69+73+81+89+90+91 右“? 7(2)画出散点图可知,y与%有线性相关关系, 设回归直线方程:y = bx + a. 559 3487-7x6x—严 b = =空=4.75,280-7x36 28?=79. 86-6X4. 75 = 51.36,■11215678910 X 10 20 30 10 50 60 70 80 90 100 X 62 68 75 S1 S9 95 102 108 1156201 3602 2503 2404 4505 7007 1408 6401035012200x =55, y =91. 7>10 10 10工彳=38500,工)「=87777,工兀’=55950/-I /-1 /-I回归直线方程V =4?75%+51?36.10.解:⑴列出下表,并用科学计算器进行计算.设所求的回归直线方程为y = bx + a.10 __2>川-10心/-I同时,利用上表可得… =55950-10x55x91.7r-la = y-bx =91. 7—0. 668X55=54. 96,38500-10x552即所求的回归直线方程为y =0. 668x4-54. 96?(2)这个回归直线方程的意义是当*增大1时,y的值约增加0?668,而54. 96是y不随 x增大而变化的部分.因此当 x=200 时,y 的估计值为 y=54. 96 + 0. 668X200=188. 56=189.故加工200个零件时所用的时间约为189分.。
2018-2019学年高中数学 第三章 统计案例课后训练 新人教A版选修2-3
第三章 统计案例[A 基础达标]1.对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则下列说法中不正确的是( )A .由样本数据得到的回归方程y ^=b ^x +a ^必过样本点的中心(x -,y -) B .残差平方和越小的模型,拟合的效果越好C .用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D .若变量y 和x 之间的相关系数r =-0.936 2,则变量y 与x 之间具有线性相关关系 解析:选C.R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C. 2.下列说法中正确的有:( ) ①若r >0,则x 增大时,y 也相应增大; ②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上. A .①② B .②③ C .①③D .①②③解析:选C.若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确,r <0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.3.若两个变量的残差平方和是325, i =1n(y i -y ―)2=923,则随机误差对预报变量的贡献率约为( ) A .64.8% B .60% C .35.2%D .40%解析:选C.由题意可知随机误差对预报变量的贡献率约为325923≈0.352.4.有下列数据x 1 2 3 y35.9912.01A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:选A .分别把x =1,2,3,代入求值,求最接近y 的值,即为模拟效果最好,故选A . 5.通过随机询问100名性别不同的小学生是否爱吃零食,得到如下的列联表:由K 2=n (ad (a +b )(c +d )(a +c )(b +d ),计算得K 2=250×50×30×70≈4.762.参照附表,得到的正确结论为( )A .在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”B .在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”C .有97.5%以上的把握认为“是否爱吃零食与性别有关”D .有97.5%以上的把握认为“是否爱吃零食与性别无关”解析:选A .因为K 2≈4.762>3.841,P (K 2>3.841)=0.05.所以在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”,故选A .6.某种活性细胞的存活率y (%)与存放温度x (℃)之间有如下几组样本数据:6 ℃时,该种细胞的存活率的预报值为________%.解析:设回归直线方程为y ^=-3.2x +a ^,因为x ―=1,y ―=50,则a ^=y ―+3.2x ―=53.2.当x =6时,y ^=-3.2×6+53.2=34. 答案:347.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y =3e 2x +1的图象附近,则可通过转换得到的线性回归方程为________. 解析:由y =3e2x +1,得ln y =ln (3e2x +1),即ln y =ln 3+2x +1,令u =ln y ,v =x ,则线性回归方程为u =1+ln 3+2v . 答案:u =1+ln 3+2x (其中u =ln y )8.为了调查患慢性气管炎是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:________的前提下认为患慢性气管炎与吸烟有关. 附:K 2=n (ad -(a +b )(c +d )(a +c )(b +d ).解析:K 2的观测值k =100×(20×55-20×5)240×60×25×75≈22.2>10.828.所以在犯错误的概率不超过0.001的前提下认为患慢性气管炎与吸烟有关. 答案:22.2 0.0019.某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B 类同学),现用分层抽样方法(按A 类、B 类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 c m 作为达标的标准,对抽取的100名学生,得到以下列联表:(1)(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系(K 2的观测值精确到0.001)? 解:(1)填写列联表如下:身高达标 身高不达标总计 经常参加体育锻炼 40 35 75 不经常参加体育锻炼10 15 25 总计5050100(2)由列联表中的数据,得K 2的观测值为 k =100×(40×15-35×10)275×25×50×50≈1.333<3.841.所以不能在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系. 10.某城市理论预测2011年到2015年人口总数与年份的关系如表所示:年份2011+x (年) 0 1 2 3 4 人口数y (十万)5781119(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)据此估计2018年该城市人口总数. 解:(1)散点图如图:(2)因为x ―=0+1+2+3+45=2,y ―=5+7+8+11+195=10,a ^=y ―-b ^x ―=3.6;所以线性回归方程为y ^=3.2x +3.6. (3)令x =7,则y ^=3.2×7+3.6=26.即估计2018年该城市人口总数为26十万.[B 能力提升]11.(2018·河南洛阳3月模拟)某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶图,其中一个数字被污损.东部 西部 9 8 83 3 72 1 09 · 9(1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数的概率;(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并整理了如下对照表:年龄x20 30 40 50 周均学习成语知识时间y2.5344.5根据表中数据,试求线性回归方程y ^=b ^x +a ^,并预测年龄为60岁的观众周均学习成语知识的时间.解:(1)设被污损的数字为a ,则a 有10种情况.由88+89+90+91+92>83+83+87+90+a +99,得a <8,所以有8种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数, 所求概率为810=45.a ^=y -b ^x =3.5-7100×35=2120.所以y ^=7100x +2120.当x =60时,y ^=5.25.即预测年龄为60岁的观众周均学习成语知识的时间为5.25小时.12.(选做题)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如下茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d ,P (K 2≥k 0)0.025 0.010 0.005 k 05.0246.6357.879解:(1)由茎叶图可得正常 偏高 合计 男性 16 4 20 女性 12 8 20 合计281240K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=40×(16×8-4×12)220×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=(1-45)2(1-35)2=4625, P (X =1)=C 1245(1-45)(1-35)2+(1-45)2C 1235(1-35)=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝ ⎛⎭⎪⎫1-35=264625,P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352 =144625, 所以X 的分布列为所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8, 即此项血液指标为正常的人数X 的数学期望为2.8.。
2018-2019版高中数学第三章统计案例章末复习课件新人教A版选修2-3
50岁以上
16
2
18
解答
(3)在犯错误的概率不超过 0.01的前提下,是否能认为 “ 其亲属的饮食习 惯与年龄有关”?
解
2 30 × 8 - 128 K2= =10>6.635, 12×18×20×10
故在犯错误的概率不超过 0.01 的前提下认为 “ 其亲属的饮食习惯与年龄 有关”.
解答
跟踪训练 1
经分析预测,美国通用汽车等 10 家大公司的销售总额 xi(i=
1,2,…,10,单位:百万美元)与利润 yi(i=1,2,…,10,单位:百万美 元)的近似线性关系为y=0.026x+a,经统计 xi=623 090, yi=29 300.
i=1 i=1 ^ ^ 10 10
(1)求a;
,
参考公式:相关系数 r=
n n i=1 i =1
ti- t 2 yi- y 2
回归方程 y = a + b t 中斜率和截距的最小二乘估计公式分别为: b =
^
^
^
^
i =1
ti- t yi- y ti - t 2
n
n
,a= y -b t .
^
^
i=1
解答
(1) 根据茎叶图,帮助这位同学说明其亲属
30人的饮食习惯; 解 30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉 类为主.
解答
(2)根据以上数据完成下列2×2列联表;
主食蔬菜 主食肉类 合计 50岁以下
50岁以上
解 2×2列联表如表所示: 总计
主食蔬菜 主食肉类 合计 50岁以下 4 8 12
由(1)知y=0.026x+1 310,
推荐学习K122018-2019学年高中数学人教A版选修2-3教学案:复习课(三) 统计案例-含解析
复习课(三) 统计案例(1)解回归方程并进行预报估计,题型多为解答题,有时也有小题出现.(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题.[考点精要]1.一个重要方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归直线方程为y ^=b ^x +a ^.其中b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .2.重要参数相关指数R 2是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.3.两种重要图形 (1)散点图:散点图是进行线性回归分析的主要手段,其作用如下:一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;二是判断样本中是否存在异常. (2)残差图:残差图可以用来判断模型的拟合效果,其作用如下:一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.二是确认样本点在采集中是否有人为的错误.[典例] (全国卷Ⅲ)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .[解] (1)由折线图中数据和附注中参考数据得 t =4,∑i =17(t i -t )2=28,∑i =17(y i -y )2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.892×2.646×0.55≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. [类题通法]回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并且用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R 2来检查模型的拟合效果,从而得到最佳模型.[题组训练]1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 画散点图,由散点图可知X 与Y 是正相关,则相关系数r 1>0,U 与V 是负相关,相关系数r 2<0,故选C .2.寒假中, 某同学为组织一次爱心捐款, 在网上给网友发了张帖子, 并号召网友转发,下表是发帖后一段时间收到帖子的人数统计:(1)作出散点图,并猜测x 与y 之间的关系.(2)建立x与y的关系,预报回归模型.(3)如果此人打算在帖子传播10天时进行募捐活动,根据上述回归模型,估计可去多少人.解:(1)画出散点图如图所示.从散点图可以看出x与y不具有线性相关关系,同时可发现样本点分布在某一个函数曲线y=k e mx的周围,其中k, m是参数.(2)对y=k e mx两边取对数,把指数关系变成线性关系.令z=ln y,则变换后的样本点分布在直线z=bx+a(a=ln k, b=m)的周围,这样就可以利用线性回归模型来建立x与y 之间的非线性回归方程了,数据可以转化为:求得回归直线方程为z^=0.620x+1.133,所以y^=e0.620x+1.133.^=e0.620×10+1.133≈1 530(人).(3)当x=10, 此时y所以估计可去1 530人.(1)近几年高考中对独立性检验的考查频率有所降低,题目多以解答题形式出现,一般为容易题,多与概率、统计等内容综合命题.(2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k 很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过概率P(K2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k>6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.[考点精要]在实际问题中常用的几个数值(1)K2≥6.635表示认为“X与Y有关系”犯错误的概率不超过0.01.(2)K2≥3.841表示认为“X与Y有关系”犯错误的概率不超过0.05.(3)K2≥2.706表示认为“X与Y有关系”犯错误的概率不超过0.1.[典例]某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食为肉类为主.)(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯.(2)根据以上数据完成如表所示的2×2列联表.(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?[解](1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如表所示:(3)随机变量K 2的观测值k =30×(8-128)12×18×20×10=30×120×12012×18×20×10=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”. [类题通法]独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K 2统计量法:通过公式 K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )先计算观测值k ,再与临界值表作比较,最后得出结论.[题组训练]1.下表是某地区的一种传染病与饮用水的调查表:(1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由.(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水有关.解:(1)把表中的数据代入公式得K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21.∵54.21>6.635,所以在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水不干净有关.(2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)214×72×55×31≈5.785.因为5.785>5.024,所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关. 2.2016年第三十一届奥运会在巴西首都里约热内卢举行,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人, 其中男生抽取多少人?(2)在(1)中抽取的6人中任选2人, 求恰有一名女生的概率.(3)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?下面的临界值表供参考:独立性检验统计量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)由题意,男生抽取6×2020+10=4(人),女生抽取6×1020+10=2(人).(2)在(1)中抽取的6人中任选2人,恰有一名女生的概率P =C 14C 12C 26=815.(3)K 2=60×(20×20-10×10)230×30×30×30≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.1.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效果与教学措施( )A .有关 C .关系不明确D .以上都不正确解析:选A 随机变量K 2的观测值k =100×(48×12-38×2)250×50×86×14≈8.306>6.635,则有99%的把握认为“实验效果与教学措施有关”.2.下列说法中正确的有:( ) ①若r >0,则x 增大时,y 也相应增大; ②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.A .①②B .②③C .①③D .①②③解析:选C 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确.r <0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.3.有下列数据( )下列四个函数中,模拟效果最好的为( ) A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:选A 分别把x =1,2,3,代入求值,求最接近y 的值.即为模拟效果最好,故选A .4.若两个变量的残差平方和是325,∑i =1n(y i -y )2=923,则随机误差对预报变量的贡献率约为( )A .64.8%B .60%C .35.2%D .40%解析:选C 由题意可知随机误差对预报变量的贡献率约为325923≈0.352.5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )A .b ^>b ′,a ^>a ′B .b ^>b ′,a ^<a ′ C .b ^< b ′,a ^>a ′ D .b ^<b ′,a ^<a ′解析:选C 过(1,0)和(2,2)的直线方程为y =2x -2,画出六点的散点图,回归直线的大概位置如图所示,显然b ^<b ′,a ^>a ′. 故选C .6.收集一只棉铃虫的产卵数y 与温度x 的几组数据后发现两个变量有相关关系,并按不同的曲线来拟合y 与x 之间的回归方程,并算出了对应相关指数R 2如下表:A .y ^=19.8x -463.7B .y ^=e 0.27x -3.84 C .y ^=0.367x 2-202 D .y ^=(x -0.78)2-1解析:选B 用相关指数R 2来刻画回归效果,R 2的值越大,说明模型的拟合效果越好.7.某学校对课程《人与自然》的选修情况进行了统计,得到如下数据:那么,认为选修《人与自然》与性别有关的把握是________. 解析:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=163.794>10.828,即有99.9%的把握认为选修《人与自然》与性别有关. 答案:99.9%8.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.解析:由表知x =30,设模糊不清的数据为m ,则y =15(62+m +75+81+89)=307+m5,因为y =0.67x +54.9, 即307+m5=0.67×30+54.9,解得m =68. 答案:689.变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=______.解析:在线性回归中,相关指数R 2等于相关系数,由x 1=1,x 2=2,x 3=3,x 4=4得:x =2.5,y 1=1.4,y 2=2.2,y 3=3,y 4=3.8得:y =2.6,所以相关系数r =∑i =14(x i -x )(y i -y )∑i =14 (x i -x )2∑i =14(y i -y )2= 1.5×1.2+0.5×0.4+0.5×0.4+1.5×1.2(-1.5)2+(-0.5)2+0.52+1.52·(-1.2)2+(-0.4)2+0.42+1.22=45× 3.2=44=1.故R 2=1. 答案:110.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗?解:根据题意,计算随机变量的观测值:K 2=913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因此有97.5%的把握认为“文科学生总成绩不好与数学成绩不好有关系”. 11.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是1225,请完成上面的2×2列联表.(2)在(1)的条件下,试运用独立性检验的思想方法分析:在犯错误概率不超过0.1%的情况下判断学生的学习积极性与对待班级工作的态度是否有关?并说明理由.解:(1)如果随机抽查这个班的一名学生,抽到积极参加班级工作的学生的概率是1225,所以积极参加班级工作的学生有24人,由此可以算出学习积极性一般且积极参加班级工作的人数为6,不太主动参加班级工作的人数为26,学习积极性高但不太主动参加班级工作的人数为7,学习积极性高的人数为25,学习积极性一般的人数为25,得到:(2)K 2=50×(18×19-6×7)225×25×24×26≈11.538,因为11.538>10.828,所以在犯错误的概率不超过0.001的前提下可以认为学习积极性与对待班级工作的态度有关系.12.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:将2×2列联表中的数据代入公式计算,得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.其中a i 表示男性,i =1,2,3.b j 表示女性,j =1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的. 用A 表示“任选2人中,至少有1人是女性”这一事件,则A ={(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),(b 1,b 2)}, 事件A 由7个基本事件组成,因而P (A )=710.(时间120分钟 满分150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.下列说法正确的有( ) ①回归方程适用于一切样本和总体. ②回归方程一般都有时间性.③样本取值的范围会影响回归方程的适用范围. ④回归方程得到的预报值是预报变量的精确值. A .①② B .②③ C .③④D .①③解析:选B 回归方程只适用于所研究样本的总体,所以①不正确;而“回归方程一般都有时间性”正确,③也正确;而回归方程得到的预报值是预报变量的近似值,故选B .2.某校教学大楼共有5层,每层均有2个楼梯,则由一楼至五楼的不同走法共有( ) A .24种 B .52种 C .10种D .7种解析:选A 因为每层均有2个楼梯,所以每层有两种不同的走法,由分步计数原理可知:从一楼至五楼共有24种不同走法.3.设随机变量X 服从二项分布X ~B (n ,p ),则(D (X ))2(E (X ))2等于( )A .p 2B .(1-p )2C .1-pD .以上都不对解析:选B 因为X ~B (n ,p ),(D (X ))2=[np (1-p )]2,(E (X ))2=(np )2,所以(D (X ))2(E (X ))2=[np (1-p )]2(np )2=(1-p )2.故选B .4.若(2x+3)4=a0+a1x+a2x2+a3x3+a4x4,则(a0+a2+a4)2-(a1+a3)2的值是() A.1 B.-1C.0 D.2解析:选A令x=1,得a0+a1+…+a4=(2+3)4,令x=-1,a0-a1+a2-a3+a4=(-2+3)4.所以(a0+a2+a4)2-(a1+a3)2=(2+3)4(-2+3)4=1.5.给出以下四个说法:①绘制频率分布直方图时,各小长方形的面积等于相应各组的组距;②在刻画回归模型的拟合效果时,R2的值越大,说明拟合的效果越好;③设随机变量ξ服从正态分布N(4,22),则P(ξ>4)=1 2;④对分类变量X与Y,若它们的随机变量K2的观测值k越小,则判断“X与Y有关系”的犯错误的概率越小.其中正确的说法是()A.①④B.②③C.①③D.②④解析:选B①中各小长方形的面积等于相应各组的频率;②正确,相关指数R2越大,拟合效果越好,R2越小,拟合效果越差;③随机变量ξ服从正态分布N(4,22),正态曲线对称轴为x=4,所以P(ξ>4)=12;④对分类变量X与Y,若它们的随机变量K2的观测值k越小,则说明“X与Y有关系”的犯错误的概率越大.6.若随机变量ξ~N(-2,4),则ξ在区间(-4,-2]上取值的概率等于ξ在下列哪个区间上取值的概率()A.(2,4] B.(0,2]C.[-2,0) D.(-4,4]解析:选C此正态曲线关于直线x=-2对称,∴ξ在区间(-4,-2]上取值的概率等于ξ在[-2,0)上取值的概率.7.如图所示,A,B,C表示3种开关,若在某段时间内它们正常工作的概率分别为0.9,0.8,0.7,那么此系统的可靠性为()A.0.504 B.0.994C.0.496 D.0.06解析:选B A、B、C三个开关相互独立,三个中只要至少有一个正常工作即可,由间接法知P=1-(1-0.9)×(1-0.8)(1-0.7)=1-0.1×0.2×0.3=0.994.8.一牧场有10头牛,因误食含有病毒的饲料而被感染,已知该病的发病率为0.02.设发病的牛的头数为ξ,则D (ξ)等于( )A .0.2B .0.8C .0.196D .0.804解析:选C 因为由题意知该病的发病率为0.02,且每次试验结果都是相互独立的,所以ξ~B (10,0.02),所以由二项分布的方差公式得到D (ξ)=10×0.02×0.98=0.196.故选C . 9.学校小卖部为了研究气温对饮料销售的影响,经过统计,得到一个卖出饮料数与当天气温的对比表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为6,据此模型预测气温为30 ℃时销售饮料瓶数为( )A .141B .191C .211D .241 解析:选B 由题意,x =-1+3+8+12+175=7.8,y =3+40+52+72+1225=57.8,因为回归方程y ^=b ^x +a ^中的b ^为6,所以57.8=6×7.8+a ^,所以a ^=11,所以y ^=6x +11,所以x =30时,y ^=6×30+11=191,故选B . 10.如图,用4种不同颜色对图中5个区域涂色(4种颜色全部使用),要求每个区域涂一种颜色,相邻的区域不能涂相同的颜色,则不同的涂色种数有( )A .72B .96C .108D .120解析:选B 颜色都用上时,必定有两块同色,在图中,同色的可能是1,3或1,5或2,5或3,5.对每种情况涂色有A 44=24种,所以一共有96种.11.假设每一架飞机的引擎在飞行中出现故障的概率为1-p ,且各引擎是否有故障是独立的,已知4引擎飞机中至少有3个引擎正常运行,飞机就可成功飞行;2个引擎飞机要2个引擎全部正常运行,飞机才可成功飞行.要使4个引擎飞机更安全,则p 的取值范围是( )A .⎝⎛⎭⎫23,1B .⎝⎛⎭⎫13,1C .⎝⎛⎭⎫0,23 D .⎝⎛⎭⎫0, 13 解析:选B 4个引擎飞机成功飞行的概率为C 34p 3(1-p )+p 4,2个引擎飞机成功飞行的概率为p 2,要使C 34p 3(1-p )+p 4>p 2,必有13<p <1. 12.(全国丙卷)定义“规范01数列”{a n }如下:{a n }共有2m 项,其中m 项为0,m 项为1,且对任意k ≤2m ,a 1,a 2,…,a k 中0的个数不少于1的个数.若m =4,则不同的“规范01数列”共有( )A .18个B .16个C .14个D .12个解析:选C 由题意知:当m =4时,“规范01数列”共含有8项,其中4项为0,4项为1,且必有a 1=0,a 8=1.不考虑限制条件“对任意k ≤2m ,a 1,a 2,…,a k 中0的个数不少于1的个数”,则中间6个数的情况共有C 36=20(种),其中存在k ≤2m ,a 1,a 2,…,a k 中0的个数少于1的个数的情况有:①若a 2=a 3=1,则有C 14=4(种);②若a 2=1,a 3=0,则a 4=1,a 5=1,只有1种;③若a 2=0,则a 3=a 4=a 5=1,只有1种.综上,不同的“规范01数列”共有20-6=14(种).故共有14个.故选C .二、填空题(本大题共4小题,每小题5分,共20分.请把正确答案填在题中的横线上) 13.(四川高考)同时抛掷两枚质地均匀的硬币,当至少有一枚硬币正面向上时,就说这次试验成功,则在2次试验中成功次数X 的均值是__________.解析:法一:由题意可知每次试验不成功的概率为14,成功的概率为34,在2次试验中成功次数X 的可能取值为0,1,2,则P (X =0)=116,P (X =1)=C 12×14×34=38,P (X =2)=⎝⎛⎭⎫342=916. 所以在2次试验中成功次数X 的分布列为则在2次试验中成功次数E (X )=0×116+1×38+2×916=32.法二:此试验满足二项分布,其中p =34,所以在2次试验中成功次数X 的均值为E (X )=np =2×34=32.答案:3214.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如表根据列联表数据,求得K 2≈__________. 解析:由计算公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2≈7.469. 答案:7.46915.从0,1,2,3,4,5,6,7,8,9中任取七个不同的数,则这七个数的中位数是6的概率为________.解析:十个数中任取七个不同的数共有C 710种情况,七个数的中位数为6,那么6只有处在中间位置,有C 36种情况,于是所求概率P =C 36C 710=16.答案:1616.某射手射击1次,击中目标的概率是0.9,他连续射击4次,且各次射击是否击中目标相互之间没有影响,有下列结论:①他第3次击中目标的概率是0.9;②他恰好击中目标3次的概率是0.93×0.1; ③他至少击中目标1次的概率是1-0.14.其中正确结论的序号是________(写出所有正确结论的序号).解析:①因为各次射击是否击中目标相互之间没有影响,所以第3次击中目标的概率是0.9,正确;②恰好击中目标3次的概率应为C 34×0.93×0.1;③4次射击都未击中的概率为0.14; 所以至少击中目标1次的概率为1-0.14. 答案:①③三、简答题(本大题共6小题,共70分,解答时写出必要的文字说明、证明过程或演算步骤)17.(本小题满分10分)已知(a 2+1)n 展开式中的各项系数之和等于⎝⎛⎭⎫165x 2+1x 5的展开式的常数项,而(a 2+1)n 的展开式的系数最大的项等于54,求a 的值.解:⎝⎛⎭⎫165x 2+1x 5的展开式的通项为T r +1=C r 5⎝⎛⎭⎫165x 25-r ⎝⎛⎭⎫1x r =⎝⎛⎭⎫1655-r C r 5x 20-5r 2, 令20-5r =0,得r =4, 故常数项T 5=C 45×165=16. 又(a 2+1)n 展开式的各项系数之和等于2n , 由题意知2n =16,得n =4.由二项式系数的性质知,(a 2+1)n 展开式中系数最大的项是中间项T 3,故有C 24a 4=54,解得a =±3.18.(本小题满分12分)(全国甲卷)某险种的基本保费为a (单元:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:(1)求一续保人本年度的保费高于基本保费的概率;(2)若一续保人本年度的保费高于基本保费,求其保费比基本保费高出60%的概率; (3)求续保人本年度的平均保费与基本保费的比值.解:(1)设A 表示事件“一续保人本年度的保费高于基本保费”,则事件A 发生当且仅当一年内出险次数大于1,故P (A )=1-(0.30+0.15)=0.55.(2)设B 表示事件“一续保人本年度的保费比基本保费高出60%”,则事件B 发生当且仅当一年内出险次数大于3,故P (B )=0.1+0.05=0.15.又P (AB )=P (B ),故P (B |A )=P (AB )P (A )=P (B )P (A )=0.150.55=311.因此所求概率为311.(3)记续保人本年度的保费为X ,则X 的分布列为EX =0.85a ×0.30+a ×0.15+1.25a ×0.20+1.5a ×0.20+1.75a ×0.10+2a ×0.05=1.23a .因此续保人本年度的平均保费与基本保费的比值为1.23.19.(本小题满分12分)退休年龄延迟是平均预期寿命延长和人口老龄化背景下的一种趋势.某机构为了解某城市市民的年龄构成,按1%的比例从年龄在20~80岁(含20岁和80岁)之间的市民中随机抽取600人进行调查,并将年龄按[20,30),[30,40),[40,50),[50,60),[60,70),[70,80]进行分组,绘制成频率分布直方图,如图所示.规定年龄在[20,40)岁的人为“青年人”,[40,60)岁的人为“中年人”,[60,80]岁的人为“老年人”.(1)根据频率分布直方图估计该城市60岁以上(含60岁)的人数,若每一组中的数据用该组区间的中点值来代表,试估算所调查的600人的平均年龄;(2)将上述人口分布的频率视为该城市年龄在20~80岁的人口分布的概率,从该城市年龄在20~80岁的市民中随机抽取3人,记抽到“老年人”的人数为X ,求随机变量X 的分布列和数学期望.解:(1)由频率分布直方图可知60岁以上(含60岁)的频率为(0.01+0.01)×10=0.2,故样本中60岁以上(含60岁)的人数为600×0.2=120,故该城市60岁以上(含60岁)的人数为120÷1%=12 000.所调查的600人的平均年龄为25×0.1+35×0.2+45×0.3+55×0.2+65×0.1+75×0.1=48(岁). (2)由频率分布直方图知,“老年人”所占的频率为15,所以从该城市年龄在20~80岁的市民中随机抽取1人,抽到“老年人”的概率为15,分析可知X 的所有可能取值为0,1,2,3, P (X =0)=C 03⎝⎛⎭⎫150⎝⎛⎭⎫453=64125, P (X =1)=C 13⎝⎛⎭⎫151⎝⎛⎭⎫452=48125, P (X =2)=C 23⎝⎛⎭⎫152⎝⎛⎭⎫451=12125, P (X =3)=C 33⎝⎛⎭⎫153⎝⎛⎭⎫450=1125. 所以X 的分布列为EX =0×64125+1×48125+2×12125+3×1125=35.⎝⎛⎭⎫或EX =3×15=3520.(本小题满分12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6, 所以y 关于w 的线性回归方程y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.21.(本小题满分12分)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可吸入肺颗粒物.我国PM2.5标准采用世卫组织设定的最宽限值,即PM2.5日均值在35微克/立方米以下空气质量为一级;在35微克/立方米~75微克/立方米之间空气质量为二级;在75微克/立方米以上空气质量为超标.某试点城市环保局从该市市区2015年全年每天的PM2.5监测数据中随机抽取15天的数据作为样本,监测值如茎叶图所示(十位为茎,个位为叶)(1)从这15天的PM2.5日均监测数据中,随机抽出三天,求恰有一天空气质量达到一级的概率.(2)从这15天的数据中任取三天数据,记ξ表示抽到PM2.5监测数据超标的天数,求ξ的分布列及数学期望.(3)以这15天的PM2.5日均值来估计一年的空气质量情况,则一年(按360天计算)中平均有多少天的空气质量达到一级或二级.解:(1)记“从15天的PM2.5日均监测数据中,随机抽出三天,恰有一天空气质量达到一级”为事件A ,P (A )=C 15C 210C 315=4591.(2)依据条件,ξ服从超几何分布:ξ的可能值为0,1,2,3, 其分布列为:P (ξ=k )=C k 5C 3-k10C 315(k =0,1,2,3).则E (X )=0×2491+1×4591+2×2091+3×291=1,(3)依题意可知,一年中每天空气质量达到一级或二级的概率为P =1015=23,一年中空气质量达到一级或二级的天数为η, 则η~B ⎝⎛⎭⎫360,23, 所以E (η)=360×23=240,所以一年中平均有240天的空气质量达到一级或二级.22.(本小题满分12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别的列联表,并判断在犯错误的概率不超过0.05的前提下认为“该校学生的每周平均体育运动时间与性别有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:(1)由分层抽样得收集的女生样本数据为300×4 50015 000=90, 所以应收集90位女生的样本数据.(2)由频率分布直方图得2×(0.150+0.125+0.075+0.025)=0.75,。
2019_2018学年高中数学第三章统计案例本章整合课件新人教A版选修
公式应用
专题一 专题二
专题一 回归分析的基本思想及其应用 回归分析是对具有相关关系的两个变量进行统计分析的一种常 用方法,其步骤是先画出两个变量的散点图,然后利用常见的函数 模型去拟合样本点,拟合的效果如何常借助于R2去分析(或利用残 差图去分析).
专题一 专题二
123
附注:
7
7
参考数据: ∑ yi=9.32, ∑ tiyi=40.17,
7
∑
(������������
-������)2
=0.55,
7 ≈2.646.
������=1
i=1
������=1
������
参考公式:相关系数 r= ������=∑1(������������-������)(������������-������) ,
应用2为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同 质量的6个物体进行测量,数据如表所示:
x/g 5
10 15 20 25 30
y/cm 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求回归直线方程; (2)求出R2并说明回归模型拟合的程度; (3)进行残差分析. 提示:本题考查残差分析,一般从以下几方面予以说明: (1)散点图;(2)相关系数;(3)R2;(4)残差图中的异常点和样本点的带 状分布区域的宽窄.
123
解析:由题中柱形图知,2019年以来我国二氧化硫年排放量呈减少 趋势,故其排放量与年份负相关,故D错误. 答案:D
123
2.(2019·课标全国Ⅰ高考)某公司为确定下一年度投入某种产品的
宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润 z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8) 数据作了初步处理,得到下面的散点图及一些统计量的值.
2018-2019学年高中数学 第三章 统计案例章末评估验收 新人教A版选修2-3
第三章统计案例章末评估验收(三)(时间:120分钟满分:150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项符合题目要求)1.下列关于K2的说法正确的是( )A.K2在任何相互独立问题中都可以用来检验有关还是无关B.K2的值越大,两个事件的相关性就越大C.K2是用来判断两个分类变量是否有关系的,只对于两个分类变量适合D.K2的观测值k的计算公式为k=n(ad-bc)(a+b)(c+d)(a+c)(b+d)解析:K2是用来判断两个分类变量是否有关的,故A错;K2的值越大,只能说明有更大地把握认为二者有关系,却不能判断相关性的大小,B错;D中(ad-bc)应为(ad-bc)2.答案:C2.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( )图①图②A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:由题图①可知,x与y负相关.由题图②可知,u与v正相关.答案:C3.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:根据以上数据,则( ) A .含杂质的高低与设备改造有关 B .含杂质的高低与设备改造无关 C .设备是否改造决定含杂质的高低 D .以上答案都不对解析:由已知数据得到如下2×2列联表由公式k =382×(37158×224×59×323≈13.11,由于13.11>6.635,所以有99%的把握认为含杂质的高低与设备是否改造是有关的. 答案:A4.为了考查两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2,已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( )A .l 1和l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合解析:由回归直线定义知选A. 答案:A5.相关变量x ,y 的样本数据如下:经回归分析可得y 与x 线性相关,并由最小二乘法求得回归直线方程y ^=1.1x +a ,则a =( ) A .0.1 B .0.2 C .0.3D .0.4解析:由题意,x -=1+2+3+4+55=3,y -=2+2+3+5+65=3.6,因为回归直线方程y ^=1.1x +a 过样本中心点(x -,y -), 所以3.6=1.1×3+a , 所以a =0.3.故选C. 答案:C6.假设两个分类变量X 与Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其列联表为:( ) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =2,b =3,c =5,d =4 解析:(1)利用|ad -bc |越大越有关进行判断. (2)利用aa +b 与cc +d相差越大越有关进行判断.法一 对于A ,|ad -bc |=|10-12|=2; 对于B ,|ad -bc |=|10-12|=2; 对于C ,|ad -bc |=|10-12|=2; 对于D ,|ad -bc |=|8-15|=7.故选D. 法二 比较aa +b -cc +d.A 中,⎪⎪⎪⎪⎪⎪59-35=245;B 中,⎪⎪⎪⎪⎪⎪58-46=124;C 中,⎪⎪⎪⎪⎪⎪25-49=245;D 中,⎪⎪⎪⎪⎪⎪25-59=745.故选D.答案:D7.为预测某种产品的回收率y ,需要研究它和原料有效成分的含量x 之间的相关关系,现取了8组观察值.计算得=1 849,则y 对x的回归方程是( )A.y ^=11.47+2.62xB.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x解析:≈2.62,a ^=11.47,所以y 对x 的回归方程为y ^=2.62x +11.47.答案:A8.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( ) A .总偏差平方和 B .残差平方和 C .回归平方D .相关指数R 2解析:根据残差平方和的概念知选项B 正确. 答案:B9.废品率x %与每吨生铁成本y (元)之间的回归直线方程为y ^=234+3x ,表明( ) A .废品率每增加1%,生铁成本增加3x 元 B .废品率每增加1%,生铁成本每吨平均增加3元 C .废品率每增加1%,生铁成本增加234元 D .废品率不变,生铁成本为234元解析:回归直线方程表示废品率x %与每吨生铁成本y (元)之间的相关关系.故回归直线方程y ^=234+3x 时,废品率每增加1%,生铁成本每吨平均增加3元.答案:B10.在一次对性别与是否说谎有关的调查中,得到如下数据,根据表中数据判断如下结论中正确的是( )A.在此次调查中有95%B .在此次调查中有99%的把握认为是否说谎与性别有关 C .在此次调查中有99.5%的把握认为是否说谎与性别有关 D .在此次调查中没有充分证据显示说谎与性别有关解析:由表中数据得k =30×(6×9-8×7)214×16×13×17≈0.002 42<3.841.因此没有充分证据认为说谎与性别有关,故选D. 答案:D11.两个相关变量满足如下关系:A.y ^=0.56x +997.4 B.y ^=0.63x -231.2 C.y ^=50.2x +501.4D.y ^=60.4x +400.7解析:利用公式=997.4,所以回归直线方程为y ^=0.56x +997.4.答案:A12.某社区为了了解本社区居民的受教育程度与年收入的关系,随机调查了100户居民,得到如下表所示的2×2列联表(单位:人):A .2.5%B .2%C .1.5%D .1%解析:由列联表中的数据可得K 2=100×(10×30-15×45)255×45×25×75≈9.818,由于9.818>6.635,所以推断“受教育程度与年收入有关系”,犯错误的概率不超过1%.答案:D二、填空题(本大题共4小题,每小题5分,共20分.把答案填在题中横线上)13.下表是关于新生婴儿的性别与出生时间段调查的列联表,那么,A =________,B =________,C =________,D =________.。
2018_2019学年高中数学第3章统计案例章末检测新人教B版
第三章 统计案例(A)(时间∶120分钟 满分∶150分)一、选择题(本大题共12小题,每小题5分,共60分)1.下列变量之间:①人的身高与年龄、产品的成本与生产数量;②商品的销售额与广告费;③家庭的支出与收入.其中不是函数关系的有( )A .0个B .1个C .2个D .3个2.已知回归直线方程y ^=b ^x +a ^,其中a ^=3且样本点中心为(1,2),则回归直线方程为( )A.y ^=x +3B.y ^=-2x +3C.y ^=-x +3 D.y ^=x -33.如果经计算得到事件A 和事件B 无关,那么( )A .χ2≥6.635B .χ2≤6.635C .χ2≤3.841D .χ2≥3.8414.某工厂某产品产量y (千件)与单位成本x (元)满足回归直线方程y ^=75.7-2.13x ,则以下说法中正确的是( )A .产量每增加1 000件,单位成本下降2.13元B .产量每减少1 000件,单位成本下降2.13元C .产量每增加1 000件,单位成本上升2 130元D .产量每减少1 000件,单位成本上升2 130元5.对两个变量y 和x 进行线性相关检验,已知n 是观察值组数,r 是相关系数,且已知:①n =10,r =0.953 3;②n =15,r =0.301 2;③n =17,r =0.999 1;④n =3,r =0.995 0.则变量y 与x 具有线性相关关系的是( ) A .①和② B .①和③ C .②和④ D .③和④6.根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的回归直线方程y ^=7.19x +73.93,用此方程预测10岁时的身高,有关叙述正确的是( )A .身高一定为145.83 cmB .身高大于145.83 cmC .身高小于145.83 cmD .身高在145.83 cm 左右7.考察棉花种子经过处理跟生病之间的关系得到如下表数据:A .种子经过处理跟是否生病有关B .种子经过处理跟是否生病无关C .种子是否经过处理决定是否生病D .以上都是错误的8.对于线性相关系数r ,叙述正确的是( )A .|r |∈(0,+∞),|r |越大,相关程度越大,反之,相关程度越小B .r ∈(-∞,+∞),r 越大,相关程度越大,反之,相关程度越小C .|r |≤1,|r |越接近于1,相关程度越大,|r |越接近于0,相关程度越小D .以上说法都不对9.已知x 、y 之间的一组数据:y 与x 之间的回归直线方程y =β0+β1x 必定过( )A .(0,0)点B .(x ,0)点C .(0,y )点D .(x ,y )点10.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ^,纵截距是a ^,那么必有( )A.b ^与r 的符号相同B.a ^与r 的符号相同C.b ^与r 的符号相反 D.a ^与r 的符号相反11.为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,得到如下结果(单位:人)A .90%B .95%C .99%D .100%12.某卫生机构抽查了366人进行健康体检,阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,则认为糖尿病患者与遗传有关系,这种判断犯错误的概率不超过( )A .0.001B .0.005C .0.01D .0.05二、填空题(本大题共4小题,每小题5分,共20分)13.对于回归直线方程y ^=4.75x +257,当x =28时,y 的估计值为________.14.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶,则χ2=______.15.从某地区老人中随机抽取600人,其生活能否自理的情况如下表所示:16.许多因素都会影响贫穷,教育也许是其中的一个.在研究这两个因素的关系时,收集了某国50个地区的成年人至多受过9年教育的百分比(x )和收入低于官方规定的贫困线的人数占本地区人数的百分比(y )的数据,建立的回归直线方程是y ^=4.6+0.8x .这里,斜率的估计等于0.8说明___________________________________________________________________________________________________________________________________________________________________________________________________________________.三、解答题(本大题共6小题,共70分)17.(10分)调查了90名不同男、女大学生对于外出租房的态度,各种态度人数分布见下表,试判断学生性别与其态度间有无关系?18.(12分)为了了解某地母亲身高x与女儿身高Y的相关关系,随机测得10对母女的身高如表所示:19.(12分)调查在2~3级风的海上航行中男女乘客的晕船情况,结果如下表所示:20.(12分)一机器可以按各种不同的速度运转,其生产的物件有一些会有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x表示转速(单位:转/秒),用y表示每小时生产的有缺点物件个数,现观测得到(x,y)的4组观测值为(8,5),(12,8),(14,9),(16,11).(1)假定y与x之间有线性相关关系,求y对x的回归直线方程.(2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒.(精确到1转/秒)21.(12分)对某校学生进行心理障碍测试得到如下列联表.22.(12分)在钢中碳含量对于电阻的效应的研究中,得到如下表所示的一组数据:第三章 统计案例(A)答案1.D [给出的三个关系具有不确定性,应是相关关系.] 2.C [回归直线过样本点中心(1,2),代入验证即可.] 3.C4.A [在回归直线方程y ^=b ^x +a ^中,b ^=-2.13是斜率的估计值,说明产量每增加1 000件,单位成本下降2.13元.]5.B6.D [用回归直线方程预测的不是精确值,而是估计值.当x =10时,y ^=145.83,只能说身高在145.83 cm 左右.]7.B 8.C 9.D 10.A 11.C 12.D 13.390 14.16.373 15.95%解析 经计算,得χ2=600×(188×21-368×23)2(188+23)×(188+368)×(368+21)×(23+21)≈6.094>3.841,∴有关的可能性为95%.16.一个地区受过9年或更少的教育的百分比每增加1%,则收入低于官方规定的贫困线的人数占本地区人数的百分比将增加0.8%左右17.解 χ2=90×(23×22-17×28)240×50×51×39≈0.02<3.841,故认为性别与外出租房的态度无关.18.解 首先画出这10对数据的散点图,如图所示:从散点图上看,这些点基本上集中在一条直线附近,具有线性相关性.x =110(159+160+…+157)=158.8.y =110(158+159+…+156)=159.2.∑10i =1x 2i -10x 2=(1592+1602+…+1572)-10×158.82=47.6. ∑10i =1x i y i -10x y =(159×158+160×159+…+157×156)-10×158.8×159.2=37.4,所以b ^=37.447.6≈0.79,a ^=159.2-0.79×158.8≈33.75.所以y 对x 的回归直线方程是y ^=33.75+0.79x .当母亲身高为161 cm 时,女儿身高为y ^=33.75+0.79×161≈161, 即当母亲身高为161 cm 时,女儿的身高也约为161 cm.19.解 χ2=71×(12×24-25×10)222×49×37×34≈0.08.因为0.08<3.841,所以我们没有理由说晕船与性别有关.20.解 (1)设回归直线方程为y ^=b ^x +a ^,x =12.5,y =8.25,∑4i =1x 2i =660,∑4i =1x i y i=438.于是b ^=438-4×12.5×8.25660-4×12.5=25.535=5170, a ^ =y -b ^x =8.25-5170×12.5=-67.∴所求的回归直线方程为y ^=5170x -67;(2)由y ^=5170x -67≤10,得x ≤76051≈15,即机器速度不得超过15转/秒.21.解 对于上述三种心理障碍分别构造三个随机变量χ21,χ22,χ23. 由表中数据可得χ21=110×(5×60-25×20)230×80×25×85≈0.863,χ22=110×(10×70-20×10)230×80×20×90≈6.366>3.841,χ23=110×(15×30-15×50)230×80×65×45≈1.410.所以没有充分的证明显示焦虑与性别有关, 有95%的把握认为说谎与性别有关, 没有充分的证明显示懒惰与性别有关.22.解x =3.87≈0.543,y =17×145.4≈20.77,∑7i =1x 2i =2.595, 所以b ^=85.61-7×0.543×20.772.595-7×0.5432≈12.55. a ^=20.77-12.55×0.543≈13.96.所以回归直线方程为y ^=13.96+12.55x .。
高中数学第三章统计案例3.1回归分析的基本思想及其初步应用第1课时线性回归模型高效演练新人教A版选
2018-2019学年高中数学第三章统计案例3.1 回归分析的基本思想及其初步应用第1课时线性回归模型高效演练新人教A版选修2-3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018-2019学年高中数学第三章统计案例3.1 回归分析的基本思想及其初步应用第1课时线性回归模型高效演练新人教A版选修2-3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018-2019学年高中数学第三章统计案例3.1 回归分析的基本思想及其初步应用第1课时线性回归模型高效演练新人教A版选修2-3的全部内容。
第1课时线性回归模型A级基础巩固一、选择题1.有下列说法:①线性回归分析就是由样本点去寻找一条直线,贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程错误!=错误!x+错误!及其回归系数b,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确说法的个数是( )A.1 B.2 C.3 D.4解析:①反映的是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③反映的是回归模型y=bx+a+e,其中e为随机误差,故也正确.④不正确,在求回归方程之前必须进行相关性检验,以体现两变量的关系.答案:C2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( )A.b与r的符号相同 B.a与r的符号相同C.b与r的符号相反 D.a与r的符号相反解析:因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0。
高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应用教学设计2 新人教A版选修2-3
江苏省苏州市高中数学第三章统计案例3.1 回归分析的基本思想及其初步应用教学设计2 新人教A版选修2-3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(江苏省苏州市高中数学第三章统计案例3.1 回归分析的基本思想及其初步应用教学设计2 新人教A版选修2-3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为江苏省苏州市高中数学第三章统计案例3.1 回归分析的基本思想及其初步应用教学设计2 新人教A版选修2-3的全部内容。
回归分析的基本思想及初步应用一、教材分析1、教材的地位和作用在《数学③(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,最小二乘法求回归直线方程等内容。
在人教A版选修1—2第一章第一节“回归分析的基本思想及其初步应用"这一节中进一步介绍回归分析的基本思想及其初步应用。
这部分内容《教师用书》共计4课时,第一课时:介绍线性回归模型的数学表达式,解释随机误差项产生的原因,使学生能正确理解回归方程的预报结果,并能从残差分析角度讨论回归模型的拟合效果;第二课时:从相关系数、相关指数角度探讨回归模型的拟合效果,以及建立回归模型的基本步骤;第三课时:介绍两个变量非线性相关关系;第四课时:回归分析的应用. 本节课是第一课时的内容.2、教学目标知识和技能:认识随机误差,认识残差以及相关指数根据散点分布特点,建立线性回归模型了解模型拟合效果的分析工具——残差分析过程与方法:经历数据处理全过程,培养对数据的直观感觉,体会统计方法的应用.通过一次函数模型和线性回归模型的比较,使学生体会函数思想。
情感、态度与价值观:通过案例分析,了解回归分析的实际应用,感受数学“源于生活,用于生活”,提高学习兴趣教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性。
2018版高中数学第三章统计案例3.2回归分析的基本思想及其初步应用课件新人教A版选修2_3
|自我尝试| 1. 判断下列命题是否正确. (正确的打“√”, 错误的打“×”) (1)列联表中的数据是两个分类变量的频数.( √ ) (2)事件 A 与 B 的独立性检验无关, 即两个事件互不影响. ( × ) (3)K2 的大小是判断事件 A 与 B 是否相关的统计量.( √ )
2.下列关于等高条形图的叙述正确的是( ) A.从等高条形图中可以精确地判断两个分类变量是否有关系 B.从等高条形图中可以看出两个变量频数的相对大小 C.从等高条形图中可以粗略地看出两个分类变量是否有关系 D.以上说法都不对
(2)列联表. ①定义:列出的两个分类变量的频数表称为列联表. ②2×2 列联表. 一般地,假设有两个分类变量 X 和 Y,它们的取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为 y1 y2 总计 x1 a +b a b x2 c+d c d 总计 a+c b+d a+b+c+d×2 列联表的意义. 3.了解随机变量 K2 的意义. 4.通过对典型案例分析,了解独立性检验的基本思想和方法.
自主学习 |新知预习|
基础认识
1.分类变量和列联表 (1)分类变量. 变量的不同“值”表示个体所属的不同类别,像这样的变量称 为分类变量.
解析:∵a+21=73,∴a=52,又 b=a+8=52+8=60,故选 C. 答案:C
5.下列关于随机变量 K2 的说法正确的是________.(填序号) ①K2 在任何相互独立问题中都可以用来检验有关还是无关; ②K2 的值越大,两个事件的相关性就越大; ③K2 是用来判断两个分类变量是否有关系的随机变量, 只对于 两个分类变量适合; ④K2 的观测值 k 的计算公式为 nad-bc k= . a+bc+da+cb+d
2018-2019学年高中数学 第三章 统计案例章末综合检测 新人教A版选修2-3
第三章 统计案例章末综合检测(三)(时间:120分钟,满分:150分)一、选择题:本题共12小题,每小题5分,在每小题给出的四个选项中,只有一项是符合题目要求的.1.在吸烟与患肺病是否有关的研究中,下列属于两个分类变量的是( ) A .吸烟,不吸烟 B .患病,不患病 C .是否吸烟,是否患病D .以上都不对解析:选C.“是否吸烟”是分类变量,它的两个不同取值:吸烟和不吸烟;“是否患病”是分类变量,它的两个不同取值:患病和不患病.可知A ,B 都是一个分类变量所取的两个不同值.故选C.2.某商品销售量y (单位:件)与销售价值x (单位:元/件)负相关,则其回归方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200D.y ^=10x -200解析:选A.由x 与y 负相关,可排除B ,D 两项,而C 项中的y ^=-10x -200<0不符合题意,故选A.3.两个相关变量满足如下关系:根据表格已得回归方程为y =9.5x +8.8,表中有一数据模糊不清,推算该数据是( ) A .37 B .38.5 C .39D .40.5解析:选C.因为x =2+3+4+5+65=4,所以y =9.5×4+8.8=46.8.设模糊不清的数据为a ,则25+a +50+56+64=5y =234,解得a =39.故选C.4.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( ) A.a a +b 与d c +d B.c a +b 与a c +d C.aa +b 与cc +dD.aa +b 与cb +c解析:选C.由等高条形图的解可知aa +b 与cc +d的值相差越大,|ad -bc |就越大,相关性就越强.5.在一次独立性检验中,得出列联表如下:( ) A .200 B .720 C .100D .180解析:选B.由表得K 2的观测值k =(1 180+a )×(200a -180×800)2380×(800+a )×(180+a )×1 000, 当a =200时,k =(1 180+200)×(200×200-180×800)2380×(800+200)×(180+200)×1 000≈103.37>2.706,此时两个变量A 和B 有关联; 当a =720时,k =(1 180+720)×(200×720-180×800)2380×(800+720)×(180+720)×1 000=0,由k ≤2.706知此时没有充分证据显示两个变量A 和B 有关联,则a 的可能值是720. 6.下列关于K 2的说法正确的是( )A .K 2在任何相互独立问题中都可以用来检验有关还是无关 B .K 2的值越大,两个事件的相关性就越大C .K 2是用来判断两个分类变量是否有关系的,只对于两个分类变量适合D .K 2的观测值k 的计算公式为k =n (ad -bc )(a +b )(c +d )(a +c )(b +d )解析:选C.K 2是用来判断两个分类变量是否有关的,故A 错;K 2的值越大,只能说明有更大地把握认为二者有关系,却不能判断相关性的大小,B 错;D 中(ad -bc )应为(ad -bc )2. 7.以下关于线性回归的判断,正确的个数是( )①若散点图中所有点都在一条直线附近,则这条直线为回归直线;②散点图中的绝大多数点都线性相关,个别特殊点不影响线性回归,如图中的A ,B ,C 三点; ③已知回归直线方程为y ^=0.50x -0.81,则x =25时,y 的估计值为11.69;④回归直线方程的意义是它反映了样本整体的变化趋势. A .0 B .1 C .2D .3解析:选D.能使所有数据点都在它附近的直线不止一条,而据回归直线的定义知只有按最小二乘法求得回归系数a ^,b ^得到的直线y ^=b ^x +a ^才是回归直线,所以①不对;②正确;将x =25代入y ^=0.50x -0.81,得y ^=11.69,所以③正确;④正确.故选D.8.假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其2×2列联表如下:( ) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =2,b =3,c =5,d =4解析:选D.对于A ,|ad -bc |=|10-12|=2; 对于B ,|ad -bc |=|10-12|=2; 对于C ,|ad -bc |=|10-12|=2; 对于D ,|ad -bc |=|8-15|=7.9.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2 548名男性中有1 560名持反对意见,2 452名女性中有1 200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力( ) A .平均数与方差 B .回归直线方程 C .独立性检验 D .概率解析:选C.根据所学内容以及此题所提供的数据可知,要想回答性别对判断“中国进入了世界体育强国之列”是否有关系时,用独立性检验最有说服力.10.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( ) 表1表3表4A .成绩 C .智商D .阅读量解析:选D.结合各列联表中数据,得K 2的观测值分别为k 1,k 2,k 3,k 4. 因为k 1=52×(6×22-14×10)216×36×32×20=52×8216×36×32×20,k 2=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,k 3=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,k 4=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则k 4>k 2>k 3>k 1,所以阅读量与性别有关联的可能性最大.11.某学校开展研究性学习活动,某同学获得一组实验数据如下:(1.99,1.5),(3,4.04),(4,7.5),(5.1,12),(6.12,18.01).对于这组数据,现在给出以下拟合曲线,其中拟合程度最好的是( ) A .y =2x -2 B .y =(12)xC .y =log 2xD .y =12(x 2-1)解析:选D.本题若求R 2或残差来分析拟合效果,运算将很烦琐,计算量太大,可以将各组数据代入检验,发现D 最接近.故选D. 12.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( ) A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:选C.法一:b ′=2,a ′=-2,由公式b ^=∑6i =1(x i -x )(y i -y )∑6i =1 (x i -x )2求得, b ^=57,a ^=y --b ^x -=136-57×72=-13, 所以b ^<b ′,a ^>a ′.法二:过(1,0)和(2,2)的直线方程为y =2x -2, 画出六点的散点图,回归直线的大概位置如图所示,显然b ′>b ^,a ^>a ′.二、填空题:本题共4小题,每小题5分.13.下表是关于新生婴儿的性别与出生时间段调查的列联表,那么,A =________,B =________,C =________,D =________.解析:由题意可知,A =9245=53,C =180-92=88. 答案:47 53 88 8214.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程为y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 答案:0.25415.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为________. 解析:当y ^=7.675时,x =7.675-1.5620.66≈9.262,所以7.6759.262≈0.829≈83%.答案:83%16.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”.利用2×2列联表计算得k ≈3.918,经查阅临界值表知P (K 2≥3.841)≈0.05. 对此,四名同学做出了以下判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”.q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒.r:这种血清预防感冒的有效率为95%.s:这种血清预防感冒的有效率为5%.则下列复合命题中正确的是________.(填序号)①p∧(綈q); ②(綈p)∧q;③(綈p∧綈q)∧(r∨s); ④(p∨綈r)∧(綈q∨s).解析:查阅临界值表,知P(K2≥3.841)≈0.05,故有95%的把握认为“这种血清能起到预防感冒的作用”.95%仅是指“血清能起到预防感冒的作用”的可信程度,但也有“在100个使用血清的人中一个患感冒的人也没有”的可能,故p真,其余命题都为假.结合复合命题的真值可知,选①④.答案:①④三、解答题:解答应写出文字说明、证明过程或演算步骤.17.(本小题满分10分)冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示.解:由已知数据得到如下2×2列联表:K2的观测值k=≈13.11,由于13.11>10.828,故有99.9%的把158×224×59×323握认为含杂质的高低与设备改造是有关的.18.(本小题满分12分)2017年某市开展了“寻找身边的好老师”活动,市六中积极行动,认真落实,通过微信关注评选“身边的好老师”,并对选出的五位“好老师”的班主任的工作年限和被关注数量进行了统计,得到如下数据:(1)程y ^=b ^x +a ^,并就此分析:“好老师”的班主任工作年限为15年时被关注的数量; (2)若用y i x i(i =1,2,3,4,5)表示统计数据时被关注数量的“即时均值”(四舍五入到整数),从“即时均值”中任选2组,求这2组数据之和小于8的概率. 解:(1)x =8,y =36,b ^=40+120+320+600+600-5×8×3616+36+64+100+144-5×64=6,a ^=36-48=-12,所以y ^=6x -12,当x =15时,y ^=6×15-12=78百人.(2)这5次统计数据,被关注数量的“即时均值”分别为3,3,5,6,4.从5组“即时均值”任选2组,共有C 25=10种情况,其中2组数据之和小于8为(3,3),(3,4),(3,4)共3种情况,所以这2组数据之和小于8的概率为310.19.(本小题满分12分)某市规定中学生百米成绩达标标准为不超过16秒.现从该市中学生中按照男、女生比例随机抽取了50人,其中有30人达标.将此样本的频率估计为总体的概率.(1)随机调查45名学生,设ξ为达标人数,求ξ的数学期望与方差; (2)如果男、女生采用相同的达标标准,男、女生达标情况如表:根据表中所给的数据,完成0.01的前提下能否认为“体育达标与性别有关”?若有,你能否给出一个更合理的达标方案? 解:由题意可知,随机抽取1人,则此人百米成绩达标的概率为3050=35.(1)由题设可知,ξ~B ⎝⎛⎭⎪⎫45,35,故E (ξ)=45×35=27,D (ξ)=45×35×25=10.8.(2)K 2的观测值k =32×18×30×20≈8.333>6.635,所以在犯错误的概率不超过0.01的前提下认为“体育达标与性别有关”.男、女生要使用不同的达标标准.20.(本小题满分12分)中石化集团通过与安哥拉国家石油公司合作,获得了安哥拉深海油田区块的开采权,集团在某些区块随机初步勘探了部分旧井,取得了地质资料.进入全面勘探时期后,集团按网络点来布置井位进行全面勘探.由于勘探一口井的费用很高,如果新设计的井位与原有井位重合或接近,便利用旧井的地质资料,不必打这口新井,以节约勘探费用.勘探初期部分旧井的数据资料见下表:(1)1~6号旧井位置线性分布,借助前5组数据求得回归方程为y =b x +a ,其中b =6.5,求a ^,并估计6号旧井中y 的预报值;(2)现准备勘探新井7(1,25),若通过1,3,5,7号井计算出的b ^′,a ^′的值与(1)中b ^,a ^的值的差均不超过10%,则使用位置最接近的已有旧井6(1,y ),否则在新位置打井,请判断可否使用旧井.(注:其中b ^的计算结果用四6.8即b ^′=6.8,a ^′=19.05, 由(1)知b ^=6.5,a ^=17.5.因为b ^′-b ^b ^≈5%,a ^′-a ^a^≈9%,均不超过10%,因此使用位置最接近的已有旧井6(1,24).21.(本小题满分12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否在犯错误的概率不超过0.05的前提下认为“该校学生的每周平均体育运动时间与性别有关”.解:(1)300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由第二问知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表结合列联表可算得K2的观测值k=75×225×210×90=21≈4.762>3.841.所以,在犯错误的概率不超过0.05的前提下认为“该校学生的每周平均体育运动时间与性别有关”.22.(本小题满分12分)在关于人的脂肪含量(百分比)和年龄(岁)的关系的研究中,研究人员获得了一组数据如下表:(1)(2)建立年龄为解释变量,脂肪含量为预报变量的回归模型,并分析该模型能否较好地刻画两者的关系;(3)求相关指数R2,并说明其含义.解:(1)画出散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系. (2)计算得线性回归方程为y ^=0.576x -0.448. 残差e ^i =y i -y ^i ,数据如下 e ^1=-3.3,e ^2=2.696,e ^3=-0.816,e ^4=2.732,e ^5=2.028,e ^6=-1.476,e ^7=-0.152,e ^8=-0.48,e ^9=-0.456,e ^10=-0.408,e ^11=-1.584,e ^12=0.54, e ^13=1.088,e ^14=-0.088.以年龄为x 轴,残差为y 轴画残差图(图略),可知残差点比较均匀地落在水平的带状区域中,说明用上述回归模型拟合数据效果很好.。
[配套K12]2018版高中数学 第三章 统计案例疑难规律方法学案 苏教版选修2-3
第三章 统计案例1 本章知识大串烧一、独立性检验的基本思想通过分析数据与图形,得出的估计是粗略的,因为我们说的“大得多”、“小得多”,到底是有多大的差距?也就是说得到的结论是直观上的印象,其实与是否有关还是有较大的差距的.下面从理论上说明两个变量是否有关,请同学们从中体会其思想方法. 1.基本思想与图形的联系假设两个变量是无关的,可知如下的比应差不多,即:aa +b ≈cc +d⇒|ad -bc |=0.构造统计量χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d )(此公式如何记忆,其特点是什么?结合2×2列联表理解),显然所构造的统计量与|ad -bc |的大小具有一致性. 2.独立性检验的思想方法如果χ2的值较大,说明其发生(无关系)的概率很小,此时不接受假设,也就是两个变量是有关系的(称小概率事件发生);如果χ2的值较小,此时接受假设,说明两分类变量是无关系的.其思想方法类似于数学上的反证法.3.得到χ2的值常与以下几个临界值加以比较:如果χ2>2.706,就有90%的把握认为Ⅰ和Ⅱ有关系;如果χ2>3.841,就有95%的把握认为Ⅰ和Ⅱ有关系;如果χ2>6.635,就有99%的把握认为Ⅰ和Ⅱ有关系;如果χ2>10.828,就有99.9%的把握认为Ⅰ和Ⅱ有关系;如果χ2≤2.706,就认为没有充分的证据显示Ⅰ和Ⅱ有关系. 像这种利用统计量χ2来确定在多大程度上可以认为“两个变量有关系”的方法称为两个变量的独立性检验. 二、回归分析1.线性回归方程y ^=b ^x +a ^,其中:b ^=∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2=∑ni =1x i y i -n x y ∑n i =1x 2i -n (x )2,a ^ =y -b ^x . (注:b ^=∑ni =1x i y i -n x y∑n i =1x 2i -n (x )2主要方便计算,其中(x i ,y i )为样本数据,(x ,y )为样本点的中心)公式作用:通过刻画线性相关的两变量之间的关系,估计和分析数据的情况,解释一些实际问题,以及数据的变化趋势. 2.样本相关系数的具体计算公式r =∑n i =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2=∑n i =1x i y i -n x y(∑ni =1x 2i -n (x )2)(∑n i =1y 2i -n (y )2) 公式作用:反映两个变量之间线性相关关系的强弱.当r 的绝对值接近1时,表明两个变量的线性相关性越强;当r 的绝对值接近0时,表明两个变量之间几乎不存在线性相关关系.规定当|r |>r 0.05时,认为两个变量有很强的线性相关关系.公式联系:(1)由于分子与回归方程中的斜率b ^的分子一样(这也给出了公式的内在联系以及公式的记法),因此,当r >0时,两个变量正相关;当r <0时,两个变量负相关. (2)常配合散点图判断两个随机变量是否线性相关.散点图是从形上进行粗略地分析判断,这个判断是可行的、可靠的,也是进行线性回归分析的基础,否则回归方程失效;它形象直观地反映了数据点的分布情况.相关系数r 是从数上反映了两个变量是否具有线性相关关系,以及线性相关关系的强弱,它较精确地反映了数据点的分布情况,准确可靠.2 回归分析题目击破1.基本概念函数关系是一种确定关系,而相关关系是一种非确定关系,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.例1 下列变量之间的关系是相关关系的是________.(填序号) ①正方形的边长与面积之间的关系; ②水稻产量与施肥量之间的关系; ③人的身高与年龄之间的关系; ④降雪量与交通事故发生率之间的关系.分析 两变量之间的关系有两种:函数关系和带有随机性的相关关系. 解析 ①是函数关系;②不是严格的函数关系,但是具有相关性,因而是相关关系;③既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;④降雪量与交通事故发生率之间具有相关关系. 答案 ②④点评 该例主要考查对变量相关关系概念的掌握. 2.线性回归方程设x 与y 是具有相关关系的两个变量,且相应于n 个观测值的n 个点大致分布在一条直线的附近,这条直线就叫做线性回归直线.例2 假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计资料:若由资料知y 对x 呈线性相关关系,试求:(1)线性回归方程y ^=a ^+b ^x ;(2)估计使用年限10年时,维修费用是多少?分析 因为y 对x 呈线性相关关系,所以可以用线性相关的方法解决问题. 解 (1)制表于是有b ^=112.3-5×4×590-5×42=1.23, a ^=y -b ^x =5-1.23×4=0.08.∴线性回归方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即估计使用10年时维修费用约是12.38万元.点评 已知y 对x 呈线性相关关系,无需进行相关性检验,否则,应首先进行相关性检验.3.非线性回归问题分析非线性回归问题的具体做法(1)若问题中已给出经验公式,这时可以将解释变量进行变换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决.(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决. 下面举例说明非线性回归分析问题的解法.例3 某地区对本地的企业进行了一次抽样调查,表中是这次抽查中所得到的各企业的人均资本x (单位:万元)与人均产值y (单位:万元)的数据:(1)设y 与x 之间具有近似关系y ≈ax b(a ,b 为常数),试根据表中数据估计a 和b 的值; (2)估计企业人均资本为16万元时的人均产值(精确到0.01).解 (1)在y ≈ax b的两边取常用对数,可得lg y ≈lg a +b lg x ,设lg y =z ,lg a =A ,lg x =X ,则z ≈A +bX . 相关数据计算如下表所示.由公式(1)可得⎩⎪⎨⎪⎧A ^=-0.215 5,b ^=1.567 7,由lg a ^=-0.215 5,得a ^≈0.608 8, 即a ,b 的估计值分别为0.608 8和1.567 7.(2)由(1)知y ^=0.608 8x1.567 7.样本数据及回归曲线的图形如图所示.当x =16时,y ^=0.608 8×161.567 7≈47.01(万元),故当企业人均资本为16万元时,人均产值约为47.01万元.3 独立性检验思想的应用在日常生活中,经常会面临一些需要推断的问题.在对这些问题作出推断时,我们不能仅凭主观臆断作出结论,需要通过试验来收集数据,并依据独立性检验思想做出合理的推断. 所谓独立性检验,就是根据采集样本的数据,利用公式计算χ2的值,比较与临界值的大小关系来判定事件X 与Y 是否有关的问题.其基本步骤如下: (1)考察需抽样调查的背景问题,确定所涉及的变量; (2)根据样本数据制作列联表;(3)计算统计量χ2,并查表分析.当χ2很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关系.下面举例说明独立性检验思想在解决实际问题中的应用.例1 水果富含各种维生素,不但有益于人体健康,还可起到养颜护肤的功效.下表是一次调查所得的数据,试问:适量吃水果与皮肤好有关系吗?有多大的把握认为你的结论成立?解 假设“适量吃水果与皮肤好没有关系”,由题意可知,a =30,b =224,c =24,d =1 355,a +b =254,c +d =1 379,a +c =54,b +d =1 579,n =1 633,代入得到χ2=1 633×(30×1 355-224×24)2254×1 379×54×1 579≈68.033>10.828.∴我们有99.9%的把握认为吃水果与皮肤好有关系.点评该例中我们有较大的把握认为结论成立,但我们所说的“吃水果与皮肤好有关系”指的都是统计上的关系,不要误认为里面存在因果关系,具体到某一个适量吃水果的人,并不能说明他一定有好的皮肤.例2 某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,根据上述数据能得出什么结论?分析首先由已知条件确定a、b、c、d、n的数值,再利用公式求出χ2的值,最后根据χ2的值分析结果.解由题目中表的数据可知,χ2=n(ad-bc)2(a+c)(a+b)(c+d)(b+d)=189×(54×63-40×32)294×95×86×103≈10.759.因为10.759>7.879,所以有99.5%的把握说员工“工作积极”与“积极支持企业改革”有关,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.点评在列联表中注意事件的对应及有关值的确定,避免混乱;把计算出的χ2的值与临界值作比较,确定出“Ⅰ与Ⅱ有关系”的把握程度.例3 为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,统计结果为:患慢性气管炎共有56人,患慢性气管炎且吸烟的有43人,未患慢性气管炎但吸烟的有162人.根据调查统计结果,分析患慢性气管炎与吸烟在多大程度上有关系?解根据所给样本数据得到如下2×2列联表:由列联表可以粗略估计出:在吸烟者中,有20.98%的患慢性气管炎;在不吸烟者中,有9.70%的患慢性气管炎.两个比例的值相差较大,所以结论“患慢性气管炎与吸烟有关”成立的可能性较大.根据列联表中的数据,得到χ2=339×(43×121-13×162)256×283×205×134≈7.469>6.635.所以有99%的把握认为“患慢性气管炎与吸烟有关”.点评 对列联表的比例进行分析,可粗略地判断两个分类变量是否有关系.通过计算统计量χ2,可以比较精确地给出这种判断的可靠程度.先收集数据,然后通过一些统计方法对数据进行科学的分析,这是我们用统计方法解决实际问题的基本策略.4 巧解非线性回归问题如果题目所给样本点的分布不呈带状分布,即两个变量不呈线性关系,那么,就不能直接利用线性回归方程建立两个变量之间的关系,这时我们可以把散点图和已经学过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出与这些散点拟合最好的函数,然后利用变量置换,把非线性回归方程问题转化为线性回归方程的问题来解决,这是解决此类问题的通法,体现了转化思想. 1.案例分析例 一个昆虫的某项指标和温度有关,现收集了7组数据如下表:试建立某项指标y 关于温度x 的回归模型,并判断你所建立的回归模型的拟合效果. 分析 根据表中的数据画出散点图,再由图设出相应的回归模型.解 画出散点图如图所示,样本点并没有分布在某个带状区域内,而是分布在某一条二次函数曲线y =Bx 2+A 的周围.令X =x 2,则变换后的样本点应该分布在y =bX +a (b =B ,a =A )的周围. 由已知数据可得变换后的样本数据表:计算得到线性回归方程为y ^=0.199 94X +4.999 03.用x 2替换X ,得某项指标y 关于温度x 的回归方程y ^=0.199 94x 2+4.999 03. 计算得r ≈0.999 999,几乎为1,说明回归模型的拟合效果非常好.点评 本题是非线性回归分析问题,解决这类问题应该先画出散点图,把它与我们所学过的函数图象相对照,选择一种跟这些样本点拟合的最好的函数,然后采用适当的变量变换转化为线性回归分析问题,使之得以解决. 2.知识拓展常见的非线性函数转换方法:(1)幂型函数y =ax m(a 为正数,x ,y 取正值)解决方案:对y =ax m 两边取常用对数,有lg y =lg a +m lg x ,令u =lg y ,v =lg x ,则原式可变为u =mv +lg a ,其中m ,lg a 为常数,该式表示u ,v 的线性函数. (2)指数型函数y =ca x (a ,c >0,且a ≠1)解决方案:对y =ca x 两边取常用对数,则有lg y =lg c +x lg a ,令u =lg y ,则原式可变为u =x lg a +lg c ,其中lg a 和lg c 为常数,该式表示u ,x 的线性函数.与幂函数不同的是x 保持不变,用y 的对数lg y 代替了y .(3)反比例函数y =k x(k >0)解决方案:令u =1x,则y =ku ,该式表示y ,u 的线性函数.(4)二次函数y =ax 2+c解决方案:令u =x 2,则原函数可变为y =au +c ,该式表示y ,u 的线性函数. (5)对数型函数y =c log a x解决方案:令x =a u ,则原函数可变为y =cu ,该式表示y ,u 的线性函数.。
【配套K12】2018-2019学年高中数学苏教版选修2-3:阶段质量检测(三) 统计案例-含解析
阶段质量检测(三) 统计案例 [考试时间:120分钟 试卷总分:160分]一、填空题(本大题共14个小题,每小题5分,共70分,把正确答案填在题中横线上) 1.下列有关线性回归的说法①变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到具有相关关系的两个变量的一组数据的图形叫做散点图;③线性回归直线得到具有代表意义的线性回归方程;④任何一组观测值都能得到具有代表意义的线性回归方程其中错误的是________. 2.下表是x 与y 之间的一组数据,则y 关于x 的线性回归直线必过点________.3.对两个变量y 和x r 是相关系数,且已知:①n =7,r =0.953 3;②n =15,r =0.301 2;③n =17,r =0.999 1;④n =3,r =0.995 0,则变量y 和x 具有线性相关关系的是________.(填序号)4.由线性回归直线方程y ∧=4.75x +157,当x =28时,y ∧为________.5.一家保险公司调查其总公司营业部的加班情况,收集了10周中每周加班工作时间y (小时)与签发保险单数目x 的数据如下表所示:已知用最小二乘法估计求出的线性回归方程的斜率为0.003 585,则线性回归方程为________________________________________________________________________.6.某班主任对全班50名学生进行了作业量多少的调查,数据如下表,则喜不喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为________.7.①回归分析和独立性检验没有什么区别;②回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系;③回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验;④独立性检验可以100%确定两个变量之间是否具有某种关系. 8.如图,有5组数据对(x ,y ),去掉哪组数据后剩下的4组数据的线性相关程度最大________.9.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表,由表中数据得线性回归方程y ∧=b ∧x +a ∧,其中b ∧=-2.现预测当气温为-4℃时,用电量的度数约为________.10.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表给出性别与吃零食的2×2列联表:试回答吃零食与性别有关系吗?(“有”或“没有”)________.11.变量x ,y 具有线性相关关系,当x 的取值分别为8,12,14和16时,通过观测知y 的值分别为5,8,9和11,若在实际问题中,y 的预报值最大是10,则x 的最大取值不能超过________.12.下表是某厂1~4月份用水量(单位:百吨)的一组数据,由某散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是y∧=-0.7x +a ∧,则该厂6月份的用水量约为________.13.为研究变量x 和y 的线性相关关系,甲、乙两人分别作了研究,利用线性回归方程得到回归直线l 1和l 2,两人计算知x 相同,y 也相同,则l 1与l 2的位置关系是________.14.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则________.(填序号)①r 2<r 1<0;②0<r 2<r 1;③r 2<0<r 1;④r 2=r 1.二、解答题(本大题共6小题,共90分,解答应写出必要的文字说明,证明过程或演算步骤)15.(本小题满分14分)某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对比表如下表:16.(本小题满分14分)有两个分类变量x 与y ,其一组观测值如下面的2×2列联表所示:其中a,15-a 均为大于5的整数,则a 取何值时,有90%的把握认为x 与y 之间有关系?17.(本小题满分14分)某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目进行分析,根据上述数据能得出什么结论?18.(本小题满分16分)某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高约为多少?19.(本小题满分16分)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:现规定平均成绩在80分以上(不含80分)的为优秀.(1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.20.(本小题满分16分)某运动员训练次数与运动成绩之间数据关系如下:(1)(2)求出回归方程;(3)计算相关系数,并利用其检验两变量的相关关系的显著性;(4)试预测该运动员训练47次和55次的成绩.答 案1.解析:任何一组观测值并不都能得到具有代表意义的线性回归方程. 答案:④2.解析:∵x =0+1+2+34=1.5,y =1+3+5+74=4,∴样本点的中心为(1.5,4),而回归直线必过样本点的中心,故必过(1.5,4). 答案:(1.5,4)3.解析:判断变量y 与x 是否具有线性相关关系时,观察值组数n 不能太小.若y 与x 具有线性相关性,则相关系数|r |≥0.75,故②④错.答案:①③4.解析:将x 的值代入回归直线方程得估计值y ∧=4.75×28+157=290. 答案:2905.解析:线性回归直线y ∧=b ∧x +a ∧过样本中心点(x -,y -),故将x -,y -求出代入即可.答案:y ∧=0.118 2+0.003 585x6.解析:假设H 0:喜欢玩电脑游戏与认为作业量的多少没有关系,根据列联表中的数据,可以求得χ2=50×(18×15-9×8)227×23×26×24≈5.06,对照临界值表,当假设成立时,χ2≥5.024的概率约为0.025,所以我们有97.5%的把握认为喜欢玩电脑游戏与认为作业量的多少有关系.答案:97.5%7.解析:由回归分析、独立性检验的意义知,回归分析与独立性检验都是研究两个变量之间的相关性,但方法与手段有所不同,研究角度不同.由其意义知,③正确.答案:③8.解析:由散点图可知,除D 之外的其余各点近似地在某条直线附近,而D 点则偏离这一直线.故应去掉D .答案:D9.解析:由题意可知x =14(18+13+10-1)=10,y =14(24+34+38+64)=40,b ∧=-2.又回归方程y ∧=-2x +a ∧过点(10,40),故a ∧=60,所以当x =-4时,y ∧=-2×(-4)+60=68.答案:6810.解析:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=85(140-480)217×68×45×40=≈4.722>3.841.故约有95%的把握认为“吃零食与性别”有关. 答案:有11.解析:因为x =16时,y =11;当x =14时,y =9,所以当y 的最大值为10时,x 的最大值属于区间(14,16).答案:1512.解析:∵x =2.5,y =3.5,b ∧=-0.7,∴a ∧=3.5+0.7×2.5=5.25. ∴当x =6时,y ∧=-0.7×6+5.25=1.05. 答案:1.05百吨13.解析:每条回归直线都过样本的中心(x ,y ). 答案:l 1与l 2有公共点(x ,y )14.解析:对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.答案:③15.解:由表中数据画出散点图,如图所示.由散点图可知热茶销售量与气温之间具有较强的线性相关关系.16.解:查表可知,要有90%的把握认为x 与y 之间有关系,则χ2≥2.706,而 χ2=65×[a (30+a )-(20-a )(15-a )]220×45×15×50=65×(65a -300)220×45×15×50=13×(13a -60)260×90.由χ2≥2.706,得a ≥7.19或a ≤2.04.又a >5,且15-a >5,a ∈Z ,即a =8,9. 故a 为8或9时,有90%的把握认为x 与y 之间有关系.17.解:根据列联表中的数据,得到χ2=189×(54×63-40×32)294×95×86×103=10.76.因为10.76>7.879,所以有99.5%的把握说:员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.18.解:由题意父亲身高x cm 与儿子身高y cm 对应关系如下表:则x -=173+170+1763=173,y -=170+176+1823=176,∑3i =1(x i -x )(y i -y )=(173-173)×(170-176)+(170-173)×(176-176)+(176-173)(182-176)=18,∑3i =1(x i -x )2=(173-173)2+(170-173)2+(176-173)2=18. 所以b ∧=1818=1.所以a ∧=y -b ∧x =176-173=3.所以线性回归方程y ∧=b ∧x +a ∧=x +3.所以可估计孙子身高为182+3=185(cm). 19.解:(1)由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为3050=60%,乙班优秀人数为25人,优秀率为2550=50%,所以甲、乙两班的优秀率分别为60%和50%.(2)列联表如下:因为χ2=100×(30×25-20×25)250×50×55×45=10099≈1.010,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.20.解:(1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)计算得x =39.25,y =40.875,b ∧≈1.0415,a ∧≈-0.004,所求回归方程为y ∧=1.0415 x -0.004.(3)计算得∑8i =1x 2i =12 656,∑8i =1y 2i=13 731, r =∑8i =1x i y i -8x -y-∑8i =1x 2i -8x2∑8i =1y 2i-8y 2=345.2512 656-8×39.252×13 731-8×40 8752≈345.25347.79≈0.993, 查表得r 0.05=0.707,r >r 0.05,由此可得出,训练次数与运动成绩有较强的线性相关关系. (4)由上述分析可知,我们可用回归方程y =1.041 5x -0.004作为该运动员成绩的预报值.将x =47和x =55分别代入该方程可得y ≈49和y ≈57. 故预测该运动员训练47次和55次的成绩分别为49和57.。
[配套K12]2017-2018学年高中数学 第三章 统计案例 3.1 回归分析的基本思想及其初步应
3.1 回归分析的基本思想及其初步应用教材《必修3》中学习了回归直线方程y =b x +a . 问题1:回归直线方程准确地反映了x ,y 之间的关系吗? 提示:不是.问题2:所有的两个相关变量都可以求回归方程吗? 提示:可以,但拟合程度很差.1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. 2.回归直线方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数,其最小二乘估计分别为:⎩⎪⎨⎪⎧b ^=∑i =1n x i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x =1n ∑i =1nx i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的中心.线性回归方程中系数b ^的含义(1)b ^是回归直线的斜率的估计值,表示x 每增加一个单位,y 的平均增加单位数,而不是增加单位数.(2)当b ^>0时,变量y 与x 具有正的线性相关关系;当b ^<0时,变量y 与x 具有负的线性相关关系.具有相关关系的两个变量的回归直线方程y ^=b ^x +a ^. 问题1:预报变量y ^与真实值y 一样吗? 提示:不一定.问题2:预报值y ^与真实值y 之间误差大了好还是小了好? 提示:越小越好.1.残差平方和法(1)e ^i =y i -y ^i =y i -b ^x i -a ^(i =1,2,…,n ),称为相应于点(x i ,y i )的残差. (2)残差平方和∑i =1n(y i -y ^i )2越小,模型拟合效果越好.2.残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度越窄,说明模型的精确度越高.3.利用相关指数R 2刻画回归效果其计算公式为R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2,其几何意义:R 2越接近于1,表示回归效果越好.1.在线性回归模型中,因为e 是一个随机变量,所以可以通过其数字特征来刻画它的一些总体特征.2.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示回归的效果越好.(1)画出散点图; (2)求线性回归方程;(3)试预测广告费用支出为10百万元时,销售额多大? (1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算.所以,x =255=5,y =2505=50,∑i =15x 2i =145,∑i =15x i y i =1 380.于是可得b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=1 380-5×5×50145-52×5=6.5, a ^=y -b ^x =50-6.5×5=17.5.所以所求的线性回归方程为y ^=6.5x +17.5.(3)根据上面求得的线性回归方程,当广告费用支出为10百万元时, y ^=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元.求线性回归方程的步骤 (1)列表表示x i ,y i ,x i y i ,x 2i ;(2)计算x ,y ,∑i =1nx 2i ,∑i =1nx i y i ;(3)代入公式计算a ^,b ^的值; (4)写出线性回归方程.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据.(1)请画出上表数据的散点图;(要求:点要描粗)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力. 解:(1)如图:(2)∑i =1nx i y i =6×2+8×3+10×5+12×6=158,x -=6+8+10+124=9,y -=2+3+5+64=4,∑i =1nx 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y --b ^x -=4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.已知某种商品的价格x (元)与需求量y (件)之间的关系有如下一组数据.求y 对x x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,∴b ^=∑i =15x i y i -5x - y-∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15a ^=y -b ^x =7.4+1.15×18=28.1,∴所求回归直线方程为y ^=-1.15x +28.1. 列出残差表∴∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y -)2=53.2,R 2=1-∑i =15y i -y ^i2∑i =15y i -y-2≈0.994,故回归模型的拟合效果很好.在进行线性回归分析时,要按线性回归分析步骤进行.在求R 2时,通常采用分步计算的方法,R 2越大,模型的拟合效果越好.关于x 与y 有如下数据:有如下的两个线性模型:(1)y ^=6.5x +17.5; (2)y ^=7x +17.试比较哪一个拟合效果更好. 解:由(1)可得y i -y ^i 与y i -y 的关系如下表:∴∑i =15(y i -y ^i )2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,∑i =15(y i -y -)2=(-20)2+(-10)2+102+02+202=1 000.∴R 21=1-∑i =15y i -y ^i2∑i =15y i -y-2=1-1551 000=0.845.由(2)可得y i -y ^i 与y i -y -的关系如下表:∴∑i =15(y i -y ^i )2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,∑i =15(y i -y -)2=(-20)2+(-10)2+102+02+202=1 000.∴R 22=1-∑i =15y i -y ^i2∑i =15y i -y-2=1-1801 000=0.82.由于R 21=0.845,R 22=0.82,0.845>0.82, ∴R 21>R 22.∴(1)的拟合效果好于(2)的拟合效果.试建立y 与x 之间的回归方程.作出变量y 与x 之间的散点图,如图所示.由图可知变量y 与x 近似地呈反比例函数关系.设y =k x,令t =1x,则y =kt .由y 与x 的数据表可得y 与t 的数据表:作出y 与t由图可知y 与t 近似地呈线性相关关系.又t =1.55,y =7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,b ^=∑i =15t i y i -5t - y-∑i =15t 2i -5t -2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,a ^=y --b ^ t -=7.2-4.1344×1.55≈0.8,∴y ^=4.134 4t +0.8.所以y 与x 的回归方程是y ^=4.134 4x+0.8.非线性回归分析的步骤非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:某电容器充电后,电压达到100 V ,然后开始放电,由经验知道,此后电压U 随时间t 变化的规律用公式U =A e bt(b <0)表示,现测得时间t (s)时的电压U (V)如下表:性回归分析问题)解:对U =A e bt两边取对数得ln U =ln A +bt ,令y =ln U ,a =ln A ,x =t ,则y =a +bx ,y 与x 的数据如下表:根据表中数据画出散点图,如图所示,从图中可以看出,y 与x 具有较好的线性相关关系,由表中数据求得x =5,y≈3.045,由公式计算得b ^≈-0.313,a ^=y -b ^x =4.61,所以y 对x 的线性回归方程为y ^=-0.313x +4.61.所以ln U ^=-0.313t +4.61,即U ^=e -0.313t +4.61=e -0.313t ·e 4.61,因此电压U 对时间t 的回归方程为U ^=e -0.313t ·e 4.61.9.明辨相关系数的意义下列现象的线性相关程度最高的是( )A .某商店的职工人数与商品销售额之间的相关系数为0.87B .流通费用率与商业利润率之间的相关系数为-0.94C .商品销售额与商业利润率之间的相关系数为0.51D .商品销售额与流通费用率之间的相关系数为0.81 |r |越接近于1,相关程度越高. B1.本题易错误地认为r 越接近于1,相关程度越高,从而误选A. 2.变量之间线性相关系数r 具有如下性质:(1)r 2≤1,故变量之间线性相关系数r 的取值范围为.(2)|r |越大,变量之间的线性相关程度越高;|r |越接近0,变量之间的线性相关程度越低.(3)当r >0时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r <0时,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当r =0时,称两个变量线性不相关.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 对于变量X 与Y 而言,Y 随X 的增大而增大, 故变量Y 与X 正相关,即r 1>0;对于变量U 与V 而言,V 随U 的增大而减小, 故变量V 与U 负相关, 即r 2<0.故r 2<0<r 1.1.关于回归分析,下列说法错误的是( )A .在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B .线性相关系数可以是正的也可以是负的C .在回归分析中,如果r 2=1或r =±1,说明x 与y 之间完全线性相关 D .样本相关系数r ∈(-1,1)解析:选D 样本的相关系数应满足-1≤r ≤1.2.若某地财政收入x 与支出y 满足回归方程y ^=bx +a +e i (i =1,2,…)(单位:亿元),其中b ^=0.8,a ^=2,|e i |<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5亿元解析:选C y ^=0.8×10+2+e i =10+e i , ∵|e i |<0.5,∴y ^<10.5.3.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析:由相关指数R 2的意义可知,R 2≈0.85表明气温解释了85%的热茶销售杯数变化,而随机误差贡献了剩余的15%.答案:85% 15%4.若施肥量x (kg)与小麦产量y (kg)之间的回归直线方程为y ^=250+4x ,当施肥量为50 kg 时,预计小麦产量为________kg.解析:把x =50代入y ^=250+4x ,可求得y ^=450. 答案:4505.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)因为x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80.从而a ^=y +20x =80+20×8.5=250, 故y ^=-20x +250.(2)由题意知,工厂获得利润z =(x -4)y =-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25,所以当x =334=8.25时,z max =361.25(元).即当该产品的单价定为8.25元时,工厂获得最大利润.一、选择题1.(福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x -.据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元 解析:选B 由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元).2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:哪位同学建立的回归模型拟合效果最好?( ) A .甲 B .乙 C .丙D .丁解析:选A 相关指数R 2越大,表示回归模型的拟合效果越好.3.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )解析:选A 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.4.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 解析:选B 样本点的中心是(3.5,42), 则a ^=y -b ^x =42-9.4×3.5=9.1, 所以回归直线方程是y ^=9.4x +9.1, 把x =6代入得y ^=65.5.5.(湖北高考)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关解析:选C 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 答案:17.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________. 解析:回归平方和=总偏差平方和-残差平方和=80-60=20, 故R 2=2080=0.25⎝ ⎛⎭⎪⎫或R 2=1-6080=0.25.答案:0.258.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x 2i =79,∑i =16x i y i =1 481.则销量每增加1 000箱,单位成本下降________元. 解析:由题意知,b ^=1 481-6×72×7179-6×⎝ ⎛⎭⎪⎫722≈-1.818 2,a ^=71-(-1.818 2)×72≈77.36,y ^=-1.818 2x +77.36,销量每增加1 000箱,则单位成本下降1.818 2元.答案:1.818 29.某中高二某班为了对即将上市的班刊进行合理定价,将对班刊按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y =b x +a .(2)预计今后的销售中,销量与单价服从(1)中的关系,且班刊的成本是4元/件,为了获得最大利润,班刊的单价定为多少元?解:(1)x =8+8.2+8.4+8.6+8.8+96=8.5,y =90+84+83+80+75+686=80,∑i =14x i y i =8×90+8.2×84+8.4×83+8.6×80+8.8×75+9×68=4 066,∑i =14x 2i =82+8.22+8.42+8.62+8.82+92=434.2, b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=4 066-6×8.5×80434.2-6×8.52=-20, a ^=y -b ^x =80+20×8.5=250,所求线性回归方程为y ^=-20x +250.(2)获得利润z =(x -4)y =-20x 2+330x -1 000, 当x =8.25时,z max =361.25(元),所以当单价定为8.25元时,可获得最大利润.10.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量.参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由折线图中的数据和附注中的参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,∴r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2017年对应的t =10代入回归方程得y ^=0.92+0.10×10=1.92. 所以预测2017年我国生活垃圾无害化处理量约为1.92亿吨.11.假设关于某设备使用年限x (年)和所支出的维修费用y (万元)有如下统计资料:若由资料知,y 对x 呈线性相关关系,试求: (1)回归直线方程;(2)估计使用年限为10年时,维修费用约是多少?解:(1)由表格中的数据可得x =15(2+3+4+5+6)=4y =15(2.2+3.8+5.5+6.5+7.0)=5.∑i =15x 2i =22+32+42+52+62=90, ∑i =15x i y i =2×2.2+3×3.8+4×5.5+5×6.5+6×7.0=112.3,所以回归系数b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x 2=112.3-5×4×590-5×42=12.310=1.23. 可得a ^=y -b ^x =5-1.23×4=0.08. 所以回归直线方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元) 即估计用10年时,维修费约为12.38万元.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1课时 线性回归模型
A 级 基础巩固
一、选择题 1.有下列说法:
①线性回归分析就是由样本点去寻找一条直线,贴近这些样本点的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示; ③通过回归方程y ^=b ^x +a ^
及其回归系数b ,可以估计和观测变量的取值和变化趋势; ④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确说法的个数是( )
A .1
B .2
C .3
D .4
解析:①反映的是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③反映的是回归模型y =bx +a +e ,其中e 为随机误差,故也正确.④不正确,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
答案:C
2.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵轴上的截距是a ,那么必有( )
A .b 与r 的符号相同
B .a 与r 的符号相同
C .b 与r 的符号相反
D .a 与r 的符号相反
解析:因为b >0时,两变量正相关,此时r >0;b <0时,两变量负相关,此时r <0. 答案:A
3.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合效果最好的是( )
解析:用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合效果越好.
答案:A
4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^
=0.85x -85.71,则下列结论中不正确的是( )
A .y 与x 具有正的线性相关关系
B .回归直线过样本点的中心(— x ,—
y )
C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg
D .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg
解析:回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确;
由回归方程系数的意义可知回归直线过样本点的中心— x ,—
y ,B 正确;依据回归方程中y
的含义可知,x 每变化1个单位,y 相应变化约0.85个单位,C 正确;用回归方程对总体进行估计不能得到肯定的结论,故D 错误.
答案:D
5.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x ,. 据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元
C .12.0万元
D .12.2万元
解析:由已知得— x =8.2+8.6+10.0+11.3+11.9
5=10(万元),
— y =6.2+7.5+8.0+8.5+9.8
5
=8(万元), 故a ^
=8-0.76×10=0.4.
所以回归直线方程为y ^=0.76x +0.4,社区一户年收入为15万元家庭年支出为y ^
=0.76x +0.4,社区一户年收入为15万元家庭支出为y ^
=0.76×15+0.4=11.8(万元).
答案:B 二、填空题
6.若施化肥量x (kg)与小麦产量y (kg)之间的回归直线方程为y ^
=250+4x ,当施化肥量为50 kg 时,预计小麦产量为________kg.
解析:把x =50代入y ^=250+4x ,得y ^
=450. 答案:450
7.已知x ,y 的取值如表所示:
若从散点图分析,y 与x 线性相关,且y =0.95x +a ,则a 的值等于________. 解析:x =14(0+1+3+4)=2,y =2.2+4.3+4.8+6.7
4=4.5,而回归直线方程过样本
点的中心(2,4.5),
所以a ^
=y -0.95x =4.5-0.95×2=2.6. 答案:2.6
8.已知一个线性回归方程为y ^
=1.5x +45,其中x 的取值依次为1,7,5,13,19,则
—
y =________.
解析:— x =1+7+5+13+195
=9,因为回归直线方程过点(— x ,— y ),所以— y =1.5x
+45=1.5×9+45=58.5.
答案:58.5
三、解答题
9.某医院用光电比色计检验尿汞时,得尿汞含量x (单位:mg/L)与消光系数y 读数的结果如下:
(1)(2)求回归方程. 解:(1)散点图如图所示:
(2)由图可知y 与x 的样本点大致分布在一条直线周围,因此可以用线性回归方程来拟合它.
设回归方程为y ^=b ^x +a ^
.
故所求的线性回归方程为y ^
=36.95x -11.3.
10.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数
x 之间的一组数据关系表:
(1)求x -,y -;
(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. 解:(1)x -=3+4+5+6+7+8+9
7=6,
y -=66+69+73+81+89+90+917=5597.
(2)因为y 与x 有线性相关关系,
a ^
=
5597-6×4.75=719
14
≈51.36. 故回归方程为y ^
=4.75x +51.36.
B 级 能力提升
1.某学生四次模拟考试中,其英语作文的减分情况如下表:
显然所减分数y ( )
A .y =0.7x +5.25
B .y =-0.6x +5.25
C .y =-0.7x +6.25
D .y =-0.7x +5.25
解析:由题意可知,所减分数y 与模拟考试次数x 之间为负相关,所以排除A. 考试次数的平均数为x =1
4(1+2+3+4)=2.5,
所减分数的平均数为y =1
4
(4.5+4+3+2.5)=3.5,
即直线应该过点(2.5,3.5),代入验证可知直线y =-0.7x +5.25成立,故选D. 答案:D
2.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:
小李这56号打6小时篮球的投篮命中率为________.
解析:这5天的平均投篮命中率为
— y =0.4+0.5+0.6+0.6+0.4
5=0.5, — x =1+2+3+4+5
5
=3.
所以b ^=0.110=0.01,a ^=— y -b ^—
x =0.47.
所以回归直线方程为y ^
=0.01x +0.47. 当x =6时,y ^
=0.01×6+0.47 =0.53. 答案:0.5 0.53
3.某市垃圾处理厂的垃圾年处理量(单位:千万吨)与资金投入量x (单位:千万元)有如下统计数据:
的概率;
(2)由表中数据求得线性回归方程为y ^=4x +a ^,该垃圾处理厂计划2017年的垃圾处理量不低于9.0千万吨,现由垃圾处理厂决策部门获悉2017年的资金投入量约为1.8千万元,请你预测2017年能否完成垃圾处理任务,若不能,缺口约为多少千万吨?
解:(1)从统计的5年垃圾处理量中任取2年的基本事件共10个:(7.4,7.0),(7.4,9.2),(7.4,7.9),(7.4,10.0),(7.0,9.2),(7.0,7.9),(7.0,10.0),(9.2,7.9),(9.2,10.0),(7.9,10.0),其中垃圾处理量至少有一年不低于8.0千万吨的基本事件有6个:(7.4,9.2),(7.4,10.0),(7.0,9.2),(7.0,10.0),(9.2,7.9),(9.2,10.0).
所以,这2年的垃圾处理量至少有一年不低于8.0千万吨的概率为P =610=35
.
(2)— x =1.5+1.4+1.9+1.6+2.15=1.7,
— y =7.4+7.0+9.2+7.9+10.0
5
=8.3, 因为直线y ^=4x +a ^过样本中心点(— x ,—
y ),
所以8.3=4×1.7+a ^,解得a ^
=1.5. 所以y ^
=4x +1.5.
当x =1.8时,y ^
=4×1.8+1.5=8.7<9.0, 所以不能完成垃圾处理任务,缺口约为0.3千万吨.。