2018年秋高中数学 统计案例阶段复习课第3课统计案例学案新人教A版
2018-2019学年高中数学 第三章 统计案例学案 新人教A版选修2-3
三 统计案例1.最小二乘法对于一组数据(x i ,y i ),i =1,2,…,n ,如果它们线性相关,则线性回归方程为y ^=b ^ x +a ^, 其中b ^=2.2×2列联表 2×2列联表如表所示:B B 总计A aba +bAcdc +d总计a +cb +d n3.K 2检验常用随机变量K 2=n (a d -b c )2(a +b )(c +d )(a +c )(b +d )来检验两个变量是否有关系.1.回归分析的两个关注点(1)回归分析是建立在两个具有相关性的变量之间的一种模拟分析,因此先判断其是否具有相关性.(2)并非只有线性相关关系,还可能存在非线性相关关系. 2.独立性检验的两个注意点(1)通过独立性检验得到的结论未必正确,它只是对一种可靠性的预测. (2)2×2列联表中,当数据a ,b ,c ,d 都不小于5时,才可以用K 2检验.主题1 回归分析某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为【解】 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.c ^=y ―-d ^w ―=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程. (3)回归分析.画残差图或计算R 2,进行残差分析. (4)实际应用.依据求得的回归方程解决问题.在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:x (元) 14 16 18 20 22 y (件)1210753且知x 与y 解:x ―=15×(14+16+18+20+22)=18,y ―=15×(12+10+7+5+3)=7.4,所以a ^=7.4+1.15×18=28.1,所以y 对x 的回归直线方程为y ^=-1.15x +28.1. 列出残差表为y i-y^i0 0.3 -0.4 -0.1 0.2y i-y― 4.6 2.6 -0.4 -2.4 -4.4主题2 独立性检验某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数大于等于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯;(2)根据以上数据完成如表所示的2×2列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(3)【解】(1)30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主.(2)2×2列联表如表所示:主食蔬菜主食肉类总计50岁以下 4 8 1250岁以上16 2 18总计2010 30(3)随机变量K 2的观测值k =30×(4×2-8×16)212×18×20×10=10>6.635,所以在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K 2统计量法:通过公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )先计算观测值k ,再与临界值表作比较,最后得出结论.在考查黄烟是否经过药物处理与发生青花病的关系时,得到如下数据:在试验的470株黄烟中,经过药物处理的黄烟有25株发生青花病,60株没有发生青花病;未经过药物处理的有185株发生青花病,200株没有发生青花病.试推断经过药物处理跟发生青花病是否有关系.解:由已知,得2×2列联表如下:经过药物处理未经过药物处理总计 青花病 25 185 210 无青花病 60 200 260 总计85385470提出假设H 0根据列联表中的数据,可以求得随机变量K 2的观测值为 k =470×(25×200-185×60)2210×260×85×385≈9.788.因为当H 0成立时,K 2≥7.879的概率约为0.005,而此时K 2的观测值k ≈9.788>7.879, 所以在犯错误的概率不超过0.005的前提下认为经过药物处理跟发生青花病是有关系的., [A 基础达标]1.对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则下列说法中不正确的是( )A .由样本数据得到的回归方程y ^=b ^x +a ^必过样本点的中心(x ,y ) B .残差平方和越小的模型,拟合的效果越好C .用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D .若变量y 和x 之间的相关系数r =-0.936 2,则变量y 与x 之间具有线性相关关系 解析:选C.R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C. 2.下列说法中正确的有:( ) ①若r >0,则x 增大时,y 也相应增大; ②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上. A .①② B .②③ C .①③D .①②③解析:选C.若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确,r <0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.3.若两个变量的残差平方和是325, i =1n(y i -y ―)2=923,则随机误差对预报变量的贡献率约为( ) A .64.8% B .60% C .35.2%D .40%解析:选C.由题意可知随机误差对预报变量的贡献率约为325923≈0.352.4.有下列数据A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:选A .分别把x =1,2,3,代入求值,求最接近y 的值,即为模拟效果最好,故选A . 5.通过随机询问100名性别不同的小学生是否爱吃零食,得到如下的列联表:由K 2=n ((a +b )(c +d )(a +c )(b +d ),计算得K 2=250×50×30×70≈4.762.参照附表,得到的正确结论为( )A .在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”B .在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”C .有97.5%以上的把握认为“是否爱吃零食与性别有关”D .有97.5%以上的把握认为“是否爱吃零食与性别无关”解析:选A .因为K 2≈4.762>3.841,P (K 2>3.841)=0.05.所以在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”,故选A .6.某种活性细胞的存活率y (%)与存放温度x (℃)之间有如下几组样本数据:经测算, 6 ℃时,该种细胞的存活率的预报值为________%.解析:设回归直线方程为y ^=-3.2x +a ^,因为x ―=1,y ―=50,则a ^=y ―+3.2x ―=53.2.当x =6时,y ^=-3.2×6+53.2=34. 答案:347.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y =3e 2x +1的图象附近,则可通过转换得到的线性回归方程为________. 解析:由y =3e 2x +1, 得ln y =ln (3e2x +1),即ln y =ln 3+2x +1,令u =ln y ,v =x ,则线性回归方程为u =1+ln 3+2v . 答案:u =1+ln 3+2x (其中u =ln y )8.为了调查患慢性气管炎是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:过________的前提下认为患慢性气管炎与吸烟有关. 附:K 2=n (ad (a +b )(c +d )(a +c )(b +d ).解析:K 2的观测值k =100×(20×55-20×5)240×60×25×75≈22.2>10.828.所以在犯错误的概率不超过0.001的前提下认为患慢性气管炎与吸烟有关. 答案:22.2 0.0019.某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B 类同学),现用分层抽样方法(按A 类、B 类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 c m 作为达标的标准,对抽取的100名学生,得到以下列联表:(1)(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系(K 2的观测值精确到0.001)? 解:(1)填写列联表如下:(2)k =100×(40×15-35×10)275×25×50×50≈1.333<3.841.所以不能在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系. 10.某城市理论预测2011年到2015年人口总数与年份的关系如表所示:年份2011+x (年) 0 1 2 3 4 人口数y (十万)5781119(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)据此估计2018年该城市人口总数. 解:(1)散点图如图:(2)因为x ―=0+1+2+3+45=2,y ―=5+7+8+11+195=10,a ^=y -b ^x =3.6;所以线性回归方程为y ^=3.2x +3.6. (3)令x =7,则y ^=3.2×7+3.6=26. 即估计2018年该城市人口总数为26十万.[B 能力提升]11.(2018·河南洛阳3月模拟)某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶图,其中一个数字被污损.东部 西部 9 8 83 3 72 1 09 · 9(1)数的概率;(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下对照表:年龄x20 30 40 50 周均学习成语知识时间y2.5344.5根据表中数据,试求线性回归方程y ^=b ^x +a ^,并预测年龄为60岁的观众周均学习成语知识的时间.解:(1)设被污损的数字为a ,则a 有10种情况.由88+89+90+91+92>83+83+87+90+a +99,得a <8,所以有8种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数, 所求概率为810=45.a ^=y -b ^x =3.5-7100×35=2120.所以y ^=7100x +2120.当x =60时,y ^=5.25.即预测年龄为60岁的观众周均学习成语知识的时间为5.25小时.12.(选做题)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如下茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d ,解:(1)由茎叶图可得K 2=n (ad -bc (a +b )(c +d )(a +c )(b +d )=40×(16×8-4×12)220×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=(1-45)2(1-35)2=4625, P (X =1)=C 1245(1-45)(1-35)2+(1-45)2C 1235(1-35)=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝ ⎛⎭⎪⎫1-35=264625,P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352 =144625, 所以X 的分布列为所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8, 即此项血液指标为正常的人数X 的数学期望为2.8.。
18学年高中数学复习课二统计教学案新人教A版3180202135
复习课(二) 统 计系统抽样、有时与用样本估计总体或概率问题交汇命题.属于中、低档题.[考点精要]1.简单随机抽样 (1)特征:①一个一个不放回的抽取; ②每个个体被抽到可能性相等. (2)常用方法: ①抽签法; ②随机数表法. 2.系统抽样(1)适用环境:当总体中个数较多时,可用系统抽样.(2)操作步骤:将总体平均分成几个部分,再按照一定方法从每个部分抽取一个个体作为样本.3.分层抽样(1)适用范围:当总体由差异明显的几个部分组成时可用分层抽样.(2)操作步骤:将总体中的个体按不同特点分成层次比较分明的几部分,然后按各部分在总体中所占的比实施抽样.[典例] (1)采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15(2)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.[解析] (1)从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n 组抽到的号码为a n =9+30(n -1)=30n -21,由451≤30n -21≤750,得23615≤n ≤25710,所以n =16,17,…,25,共有25-16+1=10人.(2)小学中抽取30×150150+75+25=18所学校;从中学中抽取30×75150+75+25=9所学校.[答案] (1)C (2)18 9 [类题通法] 1.系统抽样的特点(1)适用于元素个数很多且均衡的总体. (2)各个个体被抽到的机会均等.(3)总体分组后,在起始部分抽样时采用的是简单随机抽样. (4)如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn. 2.与分层抽样有关问题的常见类型及解题策略(1)确定抽样比.可依据各层总数与样本数之比,确定抽样比.(2)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本(或总体)数.(3)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数.[题组训练]1.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )A .抽签法B .系统抽样法C .分层抽样法D .随机数法解析:选C 根据年级不同产生差异及按人数比例抽取易知应为分层抽样法. 2.某学校高一、高二、高三3个年级共有430名学生,其中高一年级学生160名,高二年级学生180名,为了解学生身体状况,现采用分层抽样方法进行调查,在抽取的样本中高二学生有32人,则该样本中高三学生人数为________.解析:高三年级学生人数为430-160-180=90,设高三年级抽取x 人,由分层抽样可得32180=x90,解得x =16. 答案:163.某单位有职工960人,其中青年职工420人,中年职工300人,老年职工240人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为14人,则样本容量为________.解析:因为分层抽样的抽样比应相等,所以420960=14样本容量,样本容量=960×14420=32.答案:32分布直方图的读图问题.[考点精要]1.频率分布直方图2.茎叶图[典例] (1)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5].样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为________.(2)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].①求图中a的值;②根据频率分布直方图,估计这100名学生语文成绩的平均分;③若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.[个数为50×0.18=9.答案:9(2)解:①由频率分布直方图可知(0.04+0.03+0.02+2a)×10=1.所以a=0.005.②该100名学生的语文成绩的平均分约为x=0.05×55+0.4×65+0.3×75+0.2×85+0.05×95=73.③由频率分布直方图及已知的语文成绩、数学成绩分布在各分数段的人数比,可得下表:100-(5+20+40+25)=10.[类题通法]与频率分布直方图有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.[题组训练]1.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为( )A.0.2 B.0.4C.0.5 D.0.6解析:选 B 由茎叶图可知数据落在区间[22,30)内的频数为4,所以数据落在区间[22,30)内的频率为410=0.4,故选B.2.为了了解某学校学生的身体发育情况,抽查了该校100名高中男生的体重情况,根据所得数据画出样本的频率分布直方图如图所示.根据此图,估计该校2 000名高中男生中体重大于70.5公斤的人数为( )A .300B .360C .420D .450解析:选B 样本中体重大于70.5公斤的频率为: (0.04+0.034+0.016)×2=0.090×2=0.18.故可估计该校2 000名高中男生中体重大于70.5公斤的人数为:2 000×0.18=360(人). 3.某商场在庆元宵节促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.解析:总销售额为2.50.1=25(万元),故11时至12时的销售额为0.4×25=10(万元).答案:10题型为选择题或填空题,常与直观图、茎叶图等内容相结合命题.[考点精要] 有关数据的数字特征[典例] (1)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )A .46,45,56B .46,45,53C .47,45,56D .45,47,53(2)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差(3)由正整数组成的一组数据x 1,x 2,x 3,x 4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)[解析] (1)从茎叶图中可以看出样本数据的中位数为中间两个数的平均数,即45+472=46,众数为45,极差为68-12=56,故选择A.(2)由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A 错;甲、乙的成绩的中位数分别为6,5,B 错;甲、乙的成绩的方差分别为15×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,15×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=125,C 对;甲、乙的成绩的极差均为4,D 错.故选C.(3)假设这组数据按从小到大的顺序排列为x 1,x 2,x 3,x 4,则⎩⎪⎨⎪⎧x 1+x 2+x 3+x 44=2,x 2+x32=2,∴⎩⎪⎨⎪⎧x 1+x 4=4,x 2+x 3=4,又s = 14x 1-2+x 2-2+x 3-2+x 4-2]=12x 1-2+x 2-2+x 3-2+x 4-2=12x 1-2+x 2-2]=1,∴(x 1-2)2+(x 2-2)2=2. 同理可求得(x 3-2)2+(x 4-2)2=2.由x 1,x 2,x 3,x 4均为正整数,且(x 1,x 2),(x 3,x 4)均为圆(x -2)2+(y -2)2=2上的点,分析知x 1,x 2,x 3,x 4应为1,1,3,3.[答案] (1)A (2)C (3)1,1,3,3 [类题通法]平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.[题组训练]1.(山东高考)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中根据茎叶图能得到的统计结论的编号为( ) A .①③ B .①④ C .②③D .②④解析:选B 法一:∵x 甲=26+28+29+31+315=29,x 乙=28+29+30+31+325=30,∴x 甲<x 乙,又s 2甲=9+1+0+4+45=185,s 2乙=4+1+0+1+45=2,∴s 甲>s 乙.故可判断结论①④正确.法二:甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.2.甲和乙两个城市去年上半年每月的平均气温(单位:℃)用茎叶图记录如图所示,根据茎叶图可知,两城市中平均温度较高的城市是__________,气温波动较大的城市是__________.解析:根据题中所给的茎叶图可知,甲城市上半年的平均温度为9+13+17×2+18+226=16,乙城市上半年的平均温度为12+14+17+20+24+276=19,故两城市中平均温度较高的是乙城市,观察茎叶图可知,甲城市的温度更加集中在峰值附近,故乙城市的温度波动较大.答案:乙 乙3.甲、乙两台机床同时加工直径为100 mm 的零件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm):甲:99,100,98,100,100,103; 乙:99,100,102,99,100,100.(1)分别计算上述两组数据的平均数和方差;(2)根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求. 解:(1)x 甲=99+100+98+100+100+1036=100(mm),x 乙=99+100+102+99+100+1006=100(mm),s 2甲=16[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73(mm 2),s 2乙=16[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1(mm 2).(2)因为s 2甲>s 2乙,说明甲机床加工零件波动比较大,因此乙机床加工零件更符合要求.考查形式为选择题、填空题、解答题,属于中低档题.[考点精要]1.两个变量的线性相关(1)散点图:将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形.(2)正相关与负相关:①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x 2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b x .[典例] 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[解] (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000 =-20(x -8.25)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. [类题通法](1)线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算.(2)回归直线方程恒过点(x ,y ).[题组训练]某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?解:(1)将6组数据按月份顺序编号为1,2,3,4,5,6,从中任取两组数据,基本事件构成的集合为Ω={(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)}共15个基本事件,设抽到相邻两个月的事件为A ,则A ={(1,2),(2,3),(3,4),(4,5),(5,6)}共5个基本事件,∴P (A )=515=13.(2)由表中数据求得x =11,y =24,∑i =14x i y i =1 092,∑i =14x 2i =498. 代入公式可得b ^=187.再由a ^=y -b ^x ,求得a ^=-307,所以y 关于x 的线性回归方程为 y ^=187x -307.(3)当x =10时,y ^=1507,⎪⎪⎪⎪⎪⎪1507-22=47<2;同样,当x =6时,y ^=787,⎪⎪⎪⎪⎪⎪787-12=67<2.所以该小组所得线性回归方程是理想的.1.某全日制大学共有学生5 600人,其中专科生有1 300人、本科生有3 000人、研究生有1 300人,现采用分层抽样的方法抽取280人,调查学生利用因特网查找学习资料的情况,则应在专科生、本科生与研究生这三类学生中分别抽取( )A .65人,150人,65人B .30人,150人,100人C .93人,94人,93人D .80人,120人,80人解析:选A 抽样比为2805 600=120,所以专科生应抽取120×1 300=65(人),本科生应抽取120×3 000=150(人),研究生应抽取120×1 300=65(人),故选A. 2.某学校为调查学生的学习情况,对学生的课堂笔记进行了抽样调查,已知某班级一共有56名学生,根据学号(001~056),用系统抽样的方法抽取一个容量为4的样本,已知007号、021号、049号在样本中,那么样本中还有一个学生的学号为( )A .014B .028C .035D .042解析:选C 由系统抽样的原理知抽样的间隔为564=14,故第一组的学号为001~014,所以007为第一组内抽取的学号,所以第二组抽取的学号为021;第三组抽取的学号为035;第四组抽取的学号为049.故选C.3.如图是2016年某中学举行的校园之星评选活动中,七位评委为某位同学打出的分数的茎叶图,则该组数据的中位数和众数分别为( )A.86,84 B .84,84 C .85,84D .85,93解析:选B 将打分按从小到大的顺序排列为79,84,84,84,86,87,93,则中位数为84,而众数就是出现次数最多的数,即84,故选B.4.为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )A. 6B. 8C. 12D. 18解析:选C 由题意,第一组和第二组的频率之和为0.24+0.16=0.4,故样本容量为200.4=50,又第三组的频率为0.36,故第三组的人数为50×0.36=18,故该组中有疗效的人数为18-6=12.5.某题的得分情况如下:其中众数是( ) A .37.0% B .20.2% C .0分D .4分解析:选C 根据众数的概念可知C 正确. 6.观察下列各图:其中两个变量x ,y 具有相关关系的图是( ) A .①② B .①④ C .③④D .②③解析:选C 由散点图知③④具有相关关系.7.某学生在一门功课的22次考试中,所得分数如茎叶图所示,则该学生该门功课考试分数的极差与中位数之和为________.解析:最大数为98,最小数为56,极差为98-56=42,中位数为76,所以极差与中位数之和为118.答案:1188.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.解析:平均命中率y =15×(0.4+0.5+0.6+0.6+0.4)=0.5;而x =3,∑5i =1x i y i =7.6,∑5i =1x 2i =55,由公式得b ^=0.01,a ^=y -b ^ x =0.5-0.01×3=0.47,∴y ^=0.01x +0.47,令x =6,得y ^=0.53.答案:0.5 0.539.某高中共有学生900人,其中高一年级240人,高二年级260人,为做某项调查,拟采用分层抽样法抽取容量为45的样本,则在高三年级抽取的人数是________.解析:高三的人数为900-240-260=400,所以在高三抽取的人数为45900×400=20.答案:2010.(重庆高考改编)20名学生某次数学考试成绩(单位:分)的频率分布直方图如图:(1)求频率分布直方图中a 的值;(2)分别求出成绩落在[50,60]与[60,70]中的学生人数.解:(1)据直方图知组距为10,由(2a +3a +7a +6a +2a )×10=1,解得a =1200=0.005. (2)成绩落在[50,60)中的学生人数为2×0.005×10×20=2. 成绩落在[60,70)中的学生人数为3×0.005×10×20=3.11.高三某班学生每周用于物理学习的时间x (单位:小时)与物理成绩y (单位:分)之间有如下关系:) 解:由已知可得x =24+15+23+19+16+11+20+16+17+1310=17.4,y =92+79+97+89+64+47+83+68+71+5910=74.9.设回归直线方程为y =3.53x +a ^, 则74.9=3.53×17.4+a ^, 解得a ^≈13.5.12.为了比较两种治疗失眠症的药(分别称为A 药,B 药)的疗效,随机地选取20位患者服用A 药,20位患者服用B 药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A 药的20位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4 服用B 药的20位患者日平均增加的睡眠时间: 3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好? (2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?解:(1)设A 药观测数据的平均数为x ,B 药观测数据的平均数y ,由观测结果可得x =120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y =120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6,由以上计算结果可得x >y ,因此可以看出A 药的疗效更好. (2)由观测结果可绘制如下茎叶图从以上茎叶图可以看出,A 药疗效的试验结果有710的叶集中在茎2,3上,B 药疗效的试验结果有710的叶集中在茎0,1上,由此可以看出A 药的疗效更好.。
《统计》复习课件人教A版必修三数学课件
用频率分布直方图中最高矩形所在的区间的中点值作为众数 的近似值,众数为65, 又因为第一个小矩形的面积为0.3,所以设第二个小矩形底边 的一部分长为x,则x×0.04=0.2,得x=5,
所以中位数为60+5=65. 由平均数公式计算:
0.3×55+0.4×65+0.15×75+0.1×85+0.05×95=67
所以平均数为67.
八、标准差、方差
标准差:s
1 n
[(
x1
x)2
( x2
x)2
( xn
x)2
]
方差:
s2 1 n
2
2
2
x1 x x2 x ... xn x
标准差(方差)较大,数据的离散程度较大; 标准差较小,数据的离散程度较小。
方差的运算性质:
如果数据 x1, x2 , , xn 的平均数为 x ,
A.分层抽样
B.简单随机抽样
C.系统抽样
D.任一种都可以
7.甲校有3600名学生,乙校有5400名学生,丙校有 1800名学生,为统计三校学生某方面的情况,计划采用分 层抽样法,抽取一个容量为90人的样本,应在这三校分别 抽取学生( B )
A.30人,30人,30人30人,50人,10人
2、相关关系是一种非确定性关系,不是因果关系, 不能由一个变量的值确定另一个变量的值,但总体 又呈现一定的规律。
3、如果散点图中的点散布在从左下角到右上角的区域, 也就是说,从总体的变化规律来看,两个变量中的一 个随另一个增大而增大,即两个变量的变化趋势相同。 这种相关关系称为正相关。
4、如果散点图中的点散布在从左上角到右下角的区域。 也就是说,从总体的变化规律来看,两个变量中的一 个随另一个增大而减少,即两个变量的变化趋势相反。 这种相关关系称为负相关。
高中数学第3章统计案例阶段复习课第3课统计案例学案新人教A版选修23
高中数学第3章统计案例阶段复习课第3课统计案例学案新人教A版选修23第3课统计案例回归分析【例1】y x据并作了初步处理,得到了下面的散点图及一些统计量的值.x y u∑i=18(x i-x)2∑i=18(x i-x)(y i-y)∑i=18(u i-u)2∑i=18(u i-u)(y i-y)15.25 3.630.269 2 085.5-230.30.7877.049其中u i =1x i ,u =18 ∑i =18u i .(1)根据散点图判断:y =a +bx 与y =c +dx哪一个更适宜作为每册成本费y (元)与印刷数x (千册)的回归方程类型?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(回归系数的结果精确到0.01);(3)若每册书定价为10元,则至少应该印刷多少千册才使销售利润不低于78 840元?(假设能够全部售出,结果精确到1)(附:对于一组数据(ω1,v 1)(ω2,v 2),…,(ωn ,v n ),其回归直线v ^=a ^+β^ω的斜率和截距的最小二乘估计分别为β^=∑i =1n(ωi -ω)(v i -v )∑i =1n(ωi -ω)2,α^=v -β^ω.)[思路点拨] (1)借助散点图求解;(2)令u =1x―→建立y 关于u 的回归方程―→建立y 关于x 的回归方程;(3)建立利润函数f (x ),解f (x )≥78.840得x 的范围.[解] (1)由散点图判断,y =c +d x适宜作为每册成本费y (元)与印刷册数x (千册)的回归方程.(2)令u =1x,先建立y 关于u 的线性回归方程,由于d ^=∑i =18(u i -u )(y i -y)∑i =18(u i -u)2=7.0490.787≈8.96, ∴c ^=y -d ^·u =3.63-8.96×0.269≈1.22, ∴y 关于u 的线性回归方程为y ^=1.22+8.96u , 从而y 关于x 的回归方程为y ^=1.22+8.96x.(3)假设印刷x 千册,依题意:10x -⎝ ⎛⎭⎪⎫1.22+8.96x ·x ≥78.840.即8.78x ≥87.8,解得x ≥10,∴至少印刷10千册才能使销售利润不低于78 840元.求线性回归方程的基本步骤提醒:对非线性回归问题应利用变量代换,把问题化为线性回归分析问题,使之得到解决.1.在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:x (元) 14 16 18 20 22 y (件)1210753[解] x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15y 2i =122+102+72+52+32=327,∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5 x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,所以a ^=7.4+1.15×18=28.1,所以y 对x 的线性回归方程为y ^=-1.15x +28.1, 列出残差表为y i -y ^i 0 0.3 -0.4 -0.1 0.2 y i -y4.62.6-0.4-2.4-4.4所以∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2,R 2=1-∑i =15(y i -y ^i )2∑i =15(y i -y)2≈0.994.所以R 2≈0.994,拟合效果较好.独立性检验【例2】 别有关,决定从本单位全体650人中采用分层抽样的办法抽取50人进行问卷调查,得到了如下列联表:喜欢户外运动 不喜欢户外运动总计 男性5 女性 10总计50已知在这50人中随机抽取1人抽到喜欢户外运动的员工的概率是35.(1)请将上面的列联表补充完整; (2)求该公司男、女员工各多少人;(3)在犯错误的概率不超过0.005的前提下能否认为喜欢户外运动与性别有关?并说明你的理由.下面的临界值表仅供参考:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001k 02.072 2.7063.841 5.024 6.635 7.879 10.828(参考公式:K 2=2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d )[解] (1)因为在全部50人中随机抽取1人抽到喜欢户外运动的员工的概率是35,所以喜欢户外运动的男女员工共30人,其中男员工20人,列联表补充如下:喜欢户外运动不喜欢户外运动总计 男性 20 5 25 女性 10 15 25 总计302050(3)K 2的观测值k =50×(20×15-10×5)230×20×25×25≈8.333>7.879,所以在犯错误的概率不超过0.005的前提下认为喜欢户外运动与性别有关.独立性检验的一般步骤1.提出假设H 0:Ⅰ和Ⅱ没有关系; 2.根据2×2列联表计算K 2的观测值;3.根据K 2的观测值与临界值的大小关系作统计推断.2.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断.[解] 建立性别与态度的2×2列联表如下:肯定 否定 总计 男生 22 88 110 女生 22 38 60 总计44126170根据列联表中所给的数据,可求出男生中作肯定态度的频率为22110=0.2,女生中作肯定态度的频率为2260≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.根据列联表中的数据得到K 2的观测值 k =170×(22×38-22×88)2110×60×44×126≈5.622>5.024.因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.独立性检验与统计的综合应用【例3将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;(2)下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:mm 2) 表1:注射药物A 后皮肤疱疹面积的频数分布表疱疹面积 [60,65) [65,70) [70,75) [75,80] 频数30402010表疱疹面积 [60,65) [65,70) [70,75) [75,80) [80,85] 频数1025203015疱疹面积小 于70 mm 2疱疹面积不小 于70 mm 2合计注射药物A a = b = 注射药物B c = d =合计n =[解] (1)甲、乙两只家兔分在不同组的概率为p =C 12C 99198C 100200=100199.(2)2×2列联表如下.疱疹面积小 于70 mm 2疱疹面积不小 于70 mm 2合计 注射药物A a =70 b =30 100 注射药物B c =35d =65100合计 10595n =2001.(改变问法)本例条件不变,改变问法:是否有99%的把握认为注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异?[解] 根据列联表中的数据得到K 2的观测值 k =200×(70×65-35×30)2100×100×105×95≈24.56.由于K 2>6.635,所以有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.2.(改变问法)在本例(2)中完成如图所示的频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小.图Ⅰ 注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ 注射药物B 后皮肤疱疹面积的频率分布直方图[解] 如图所示图Ⅰ 注射药物A 后皮肤疱疹面积的频率分布直方图。
高中数学 第三章 统计案例综合训练学案 新人教A版选修2-3-新人教A版高二选修2-3数学学案
第三章统计案例(综合训练1)一、学习要求1.通过典型案例的探究,了解统计学中对两个变量统计分析的思想方法和步骤;2.能综合运用概率、统计的知识解决有关问题。
二、问题探究■合作探究例1.【10新课标(文19)】为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男女需要40 30不需要160 270(1)估计该地区老年人中,需要志愿者提供帮助的老年人比例;(2)能否有的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:0.050 0.010 0.0013.841 6.635 10.828。
【解析】(1)样本中,该地区的老年人需要志愿者提供帮助的有:403070+=(人),∴估计该地区老年人中,需要志愿者提供帮助的老年人比例为:707 50050=。
(2)根据表中数据,得到:,∵,∴有的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关。
(3)根据(2)的结论可知,地区的老年人是否需要志愿者提供帮助与性别有关,所以可按性别进行分层抽样调查,从而能更好地估计该地区的老年人中需要志愿者提供帮助的老年人的比例。
■自主探究1.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查,得到了如下的列联表:喜爱打篮球不喜爱打篮球合计男生 5女生10合计50已知在全部50人中随机抽取1人,抽到喜爱打篮球的学生的概率为。
(Ⅰ)补充完整上面的列联表,并判断是否有的把握认为喜爱打篮球与性别有关?(Ⅱ)若采用分层抽样的方法从喜爱打篮球的学生中随机抽取3人,则男生和女生抽取的人数分别是多少?解:(Ⅰ)这50人中喜爱打篮球的人数为:(人)。
列联表补充如下:喜爱打篮球不喜爱打篮球合计男生20 5 25女生10 15 25合计30 20 50,∵,∴有的把握认为喜爱打篮球与性别有关。
人教A版高中数学选修第三章统计案例学案
统计【学法导航】1.一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验.在确认其具有线性相关关系后,再求其回归直线方程;由部分数据得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将非确定性的相关关系问题转化成确定性的函数关系问题进行研究.由于回归直线将部分观测值所反映的规律性进行了延伸,它在情况预报、资料补充等方面有着广泛的应用。
2.对卡方统计量的表达式的由来,学生只需要了解,作为探究问题可以在课后学习。
统计的基本思维模式是归纳的,它的特征之一是通过部分数据来推测全体数据的性质,因此,统计推断可能是错误的,也就是说,我们从数据上体现的只是统计上的关系,而不是因果关系。
【典例精析】1.线性相关性检验例1.一个工厂在某年里每月产品的总成本y (万元)与该月产量x (万件)之间由如下一组数据: 1)画出散点图: 2)r==在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r 0.05=0.576<0.997891, 这说明每月产品的总成本y (万元)与该月产量x (万件)之间存在线性相关关系。
3)设回归直线方程,利用x 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07 y2.252.372.402.552.642.752.923.033.143.263.363.50i 1 2 3 4 5 6 7 8 9 10 11 12 xi 1.08 1.12 1.19 1.28 1.36 1.48 1.59 1.68 1.80 1.87 1.98 2.07 yi 2.25 2.37 2.40 2.55 2.64 2.75 2.92 3.03 3.14 3.26 3.36 3.50 xiyi 2.43 2.264 2.856 3.264 3.590 4.07 4.643 5.090 5.652 6.096 6.653 7.245=,==2.8475,=29.808,=99.2081,=54.243,计算a ,b ,得b≈1.215, a=≈0.974,∴回归直线方程为:2.独立性检验例2.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示: 患慢性气管炎未患慢性气管炎合计 吸烟 43 162 205 不吸烟 13 121 134 合计56283339试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗? 解析:由公式469.728356134205)1316212143(3392=⨯⨯⨯⨯-⨯⨯=K ,因为7.469>6.635,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。
《统计案例》教案新人教A版选修
《统计案例》教案1(新人教A版选修2-3)第三章统计案例3.1回归分析的基本思想及其初步应用(共计4课时)授课类型:新授课一、教学内容与教学对象分析学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
二、学习目标1、知识与技能通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题。
2、过程与方法本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引导学生去发现解决问题的新思路-进行回归分析,进而介绍残差分析的方法和利用R的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤。
3、情感、态度与价值观通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心。
加强与现实生活的联系,以科学的态度评价两个变量的相关系。
教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时。
体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神。
培养学生运用所学知识,解决实际问题的能力。
三、教学重点、难点教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
2018-2019学年高中数学人教A版选修2-3教学案:复习课(三) 统计案例 Word版含解析
复习课(三) 统计案例(1)解回归方程并进行预报估计,题型多为解答题,有时也有小题出现.(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题.[考点精要]1.一个重要方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归直线方程为y ^=b ^x +a ^.其中b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .2.重要参数相关指数R 2是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.3.两种重要图形 (1)散点图:散点图是进行线性回归分析的主要手段,其作用如下:一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;二是判断样本中是否存在异常. (2)残差图:残差图可以用来判断模型的拟合效果,其作用如下:一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.二是确认样本点在采集中是否有人为的错误.[典例] (全国卷Ⅲ)如图是我国2008年到2019年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .[解] (1)由折线图中数据和附注中参考数据得 t =4,∑i =17(t i -t )2=28,∑i =17(y i -y )2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.892×2.646×0.55≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t . 将2019年对应的t =9代入回归方程得 y ^=0.92+0.10×9=1.82.所以预测2019年我国生活垃圾无害化处理量将约为1.82亿吨. [类题通法]回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并且用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R 2来检查模型的拟合效果,从而得到最佳模型.[题组训练]1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 画散点图,由散点图可知X 与Y 是正相关,则相关系数r 1>0,U 与V 是负相关,相关系数r 2<0,故选C .2.寒假中, 某同学为组织一次爱心捐款, 在网上给网友发了张帖子, 并号召网友转发,下表是发帖后一段时间收到帖子的人数统计:(1)作出散点图,并猜测x 与y 之间的关系. (2)建立x 与y 的关系, 预报回归模型.(3)如果此人打算在帖子传播10天时进行募捐活动, 根据上述回归模型, 估计可去多少人.解:(1)画出散点图如图所示.从散点图可以看出x 与y 不具有线性相关关系, 同时可发现样本点分布在某一个函数曲线y =k e mx 的周围, 其中k, m 是参数.(2)对y =k e mx 两边取对数,把指数关系变成线性关系. 令z =ln y ,则变换后的样本点分布在直线z =bx +a (a =ln k, b =m )的周围, 这样就可以利用线性回归模型来建立x 与y 之间的非线性回归方程了, 数据可以转化为:求得回归直线方程为z ^=0.620x +1.133, 所以y ^=e 0.620x +1.133.(3)当x =10, 此时y ^=e 0.620×10+1.133≈1 530(人). 所以估计可去1 530人.(1)近几年高考中对独立性检验的考查频率有所降低,题目多以解答题形式出现,一般为容易题,多与概率、统计等内容综合命题.(2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系” 这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系” 成立,在该假设下构造的随机变量K 2应该很小,如果由观测数据计算得到的K 2的观测值k 很大,则在一定程度上说明假设不合理,根据随机变量K 2的含义,可以通过概率P (K 2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k >6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系” 这一结论成立的可信程度约为99%.[考点精要]在实际问题中常用的几个数值(1)K 2≥6.635表示认为“X 与Y 有关系”犯错误的概率不超过0.01. (2)K 2≥3.841表示认为“X 与Y 有关系”犯错误的概率不超过0.05. (3)K 2≥2.706表示认为“X 与Y 有关系”犯错误的概率不超过0.1.[典例] 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食为肉类为主.)(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯. (2)根据以上数据完成如表所示的2×2列联表.(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?[解] (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主. (2)2×2列联表如表所示:(3)随机变量K 2的观测值k =12×18×20×10=12×18×20×10=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”. [类题通法]独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2统计量法:通过公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)先计算观测值k,再与临界值表作比较,最后得出结论.[题组训练]1.下表是某地区的一种传染病与饮用水的调查表:(1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由.(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水有关.解:(1)把表中的数据代入公式得K2的观测值k=830×(52×218-466×94)2146×684×518×312≈54.21.∵54.21>6.635,所以在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水不干净有关.(2)依题意得2×2列联表:此时,K2的观测值k=86×(5×22-50×9)214×72×55×31≈5.785.因为5.785>5.024,所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关.2.2019年第三十一届奥运会在巴西首都里约热内卢举行,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?(2)在(1)中抽取的6人中任选2人,求恰有一名女生的概率.(3)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?下面的临界值表供参考:独立性检验统计量K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解:(1)由题意,男生抽取6×2020+10=4(人),女生抽取6×1020+10=2(人).(2)在(1)中抽取的6人中任选2人,恰有一名女生的概率P=C14C12C26=815.(3)K2=60×(20×20-10×10)230×30×30×30≈6.667,由于6.667>6.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.1.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效果与教学措施()A.有关C.关系不明确D.以上都不正确解析:选A随机变量K2的观测值k=100×(48×12-38×2)250×50×86×14≈8.306>6.635,则有99%的把握认为“实验效果与教学措施有关”.2.下列说法中正确的有:( ) ①若r >0,则x 增大时,y 也相应增大; ②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.A .①②B .②③C .①③D .①②③解析:选C 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确.r <0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.3.有下列数据( )下列四个函数中,模拟效果最好的为( ) A .y =3×2x -1B .y =log 2xC .y =3xD .y =x 2解析:选A 分别把x =1,2,3,代入求值,求最接近y 的值.即为模拟效果最好,故选A .4.若两个变量的残差平方和是325, i =1n(y i -y )2=923,则随机误差对预报变量的贡献率约为( )A .64.8%B .60%C .35.2%D .40%解析:选C 由题意可知随机误差对预报变量的贡献率约为325923≈0.352.5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )A .b ^>b ′,a ^>a ′B .b ^>b ′,a ^<a ′ C .b ^< b ′,a ^>a ′ D .b ^<b ′,a ^<a ′解析:选C 过(1,0)和(2,2)的直线方程为y =2x -2,画出六点的散点图,回归直线的大概位置如图所示,显然b ^<b ′,a ^>a ′. 故选C .6.收集一只棉铃虫的产卵数y 与温度x 的几组数据后发现两个变量有相关关系,并按不同的曲线来拟合y 与x 之间的回归方程,并算出了对应相关指数R 2如下表:A .y ^=19.8x -463.7B .y ^=e 0.27x -3.84 C .y ^=0.367x 2-202 D .y ^=(x -0.78)2-1解析:选B 用相关指数R 2来刻画回归效果,R 2的值越大,说明模型的拟合效果越好. 7.某学校对课程《人与自然》的选修情况进行了统计,得到如下数据:那么,认为选修《人与自然》与性别有关的把握是________. 解析:K 2=n(ad -bc )2(a +b )(c +d )(a +c )(b +d )=163.794>10.828,即有99.9%的把握认为选修《人与自然》与性别有关. 答案:99.9%8.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.解析:由表知x =30,设模糊不清的数据为m ,则y =15(62+m +75+81+89)=307+m5,因为y =0.67x +54.9, 即307+m5=0.67×30+54.9,解得m =68. 答案:689.变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=______.解析:在线性回归中,相关指数R 2等于相关系数,由x 1=1,x 2=2,x 3=3,x 4=4得:x =2.5,y 1=1.4,y 2=2.2,y 3=3,y 4=3.8得:y =2.6,所以相关系数r =∑i =14(x i -x )(y i -y )∑i =14(x i -x )2∑i =14(y i -y )2= 1.5×1.2+0.5×0.4+0.5×0.4+1.5×1.2(-1.5)2+(-0.5)2+0.52+1.52·(-1.2)2+(-0.4)2+0.42+1.22=45× 3.2=44=1.故R 2=1. 答案:110.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗?解:根据题意,计算随机变量的观测值:K 2=913×(478×24-399×12)2490×423×877×36≈6.233>5.024,因此有97.5%的把握认为“文科学生总成绩不好与数学成绩不好有关系”.11.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是1225,请完成上面的2×2列联表.(2)在(1)的条件下,试运用独立性检验的思想方法分析:在犯错误概率不超过0.1%的情况下判断学生的学习积极性与对待班级工作的态度是否有关?并说明理由.解:(1)如果随机抽查这个班的一名学生,抽到积极参加班级工作的学生的概率是1225,所以积极参加班级工作的学生有24人,由此可以算出学习积极性一般且积极参加班级工作的人数为6,不太主动参加班级工作的人数为26,学习积极性高但不太主动参加班级工作的人数为7,学习积极性高的人数为25,学习积极性一般的人数为25,得到:(2)K 2=50×(18×19-6×7)225×25×24×26≈11.538,因为11.538>10.828,所以在犯错误的概率不超过0.001的前提下可以认为学习积极性与对待班级工作的态度有关系.12.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:将2×2列联表中的数据代入公式计算,得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.其中a i表示男性,i=1,2,3.b j表示女性,j=1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=7 10.(时间120分钟满分150分)一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.下列说法正确的有()①回归方程适用于一切样本和总体.②回归方程一般都有时间性.③样本取值的范围会影响回归方程的适用范围.④回归方程得到的预报值是预报变量的精确值.A.①②B.②③C.③④D.①③解析:选B回归方程只适用于所研究样本的总体,所以①不正确;而“回归方程一般都有时间性”正确,③也正确;而回归方程得到的预报值是预报变量的近似值,故选B.2.某校教学大楼共有5层,每层均有2个楼梯,则由一楼至五楼的不同走法共有() A.24种B.52种C.10种D.7种解析:选A因为每层均有2个楼梯,所以每层有两种不同的走法,由分步计数原理可知:从一楼至五楼共有24种不同走法.3.设随机变量X服从二项分布X~B(n,p),则(D(X))2(E(X))2等于()A.p2B.(1-p)2 C.1-p D.以上都不对解析:选B因为X~B(n,p),(D(X))2=[np(1-p)]2,(E(X))2=(np)2,所以(D(X))2 (E(X))2=[np(1-p)]2(np)2=(1-p)2.故选B.4.若(2x +3)4=a 0+a 1x +a 2x 2+a 3x 3+a 4x 4,则(a 0+a 2+a 4)2-(a 1+a 3)2的值是( ) A .1 B .-1 C .0D .2解析:选A 令x =1,得a 0+a 1+…+a 4=(2+3)4,令x =-1,a 0-a 1+a 2-a 3+a 4=(-2+3)4. 所以(a 0+a 2+a 4)2-(a 1+a 3)2=(2+3)4(-2+3)4=1.5.给出以下四个说法:①绘制频率分布直方图时,各小长方形的面积等于相应各组的组距; ②在刻画回归模型的拟合效果时,R 2的值越大,说明拟合的效果越好; ③设随机变量ξ服从正态分布N (4,22),则P (ξ>4)=12;④对分类变量X 与Y ,若它们的随机变量K 2的观测值k 越小,则判断“X 与Y 有关系”的犯错误的概率越小.其中正确的说法是( ) A .①④ B .②③ C .①③D .②④解析:选B ①中各小长方形的面积等于相应各组的频率;②正确,相关指数R 2越大,拟合效果越好,R 2越小,拟合效果越差;③随机变量ξ服从正态分布N (4,22),正态曲线对称轴为x =4,所以P (ξ>4)=12;④对分类变量X 与Y ,若它们的随机变量K 2的观测值k 越小,则说明“X 与Y 有关系”的犯错误的概率越大.6.若随机变量ξ~N (-2,4),则ξ在区间(-4,-2]上取值的概率等于ξ在下列哪个区间上取值的概率( )A .(2,4]B .(0,2]C .[-2,0)D .(-4,4]解析:选C 此正态曲线关于直线x =-2对称,∴ξ在区间(-4,-2]上取值的概率等于ξ在[-2,0)上取值的概率.7.如图所示,A ,B ,C 表示3种开关,若在某段时间内它们正常工作的概率分别为0.9,0.8,0.7,那么此系统的可靠性为( )A .0.504B .0.994C .0.496D .0.06解析:选B A 、B 、C 三个开关相互独立,三个中只要至少有一个正常工作即可,由间接法知P =1-(1-0.9)×(1-0.8)(1-0.7)=1-0.1×0.2×0.3=0.994.8.一牧场有10头牛,因误食含有病毒的饲料而被感染,已知该病的发病率为0.02.设发病的牛的头数为ξ,则D (ξ)等于( )A .0.2B .0.8C .0.196D .0.804解析:选C 因为由题意知该病的发病率为0.02,且每次试验结果都是相互独立的,所以ξ~B (10,0.02),所以由二项分布的方差公式得到D (ξ)=10×0.02×0.98=0.196.故选C . 9.学校小卖部为了研究气温对饮料销售的影响,经过统计,得到一个卖出饮料数与当天气温的对比表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为6,据此模型预测气温为30 ℃时销售饮料瓶数为( )A .141B .191C .211D .241解析:选B 由题意,x =-1+3+8+12+175=7.8,y =3+40+52+72+1225=57.8,因为回归方程y ^=b ^x +a ^中的b ^为6,所以57.8=6×7.8+a ^,所以a ^=11,所以y ^=6x +11,所以x =30时,y ^=6×30+11=191,故选B . 10.如图,用4种不同颜色对图中5个区域涂色(4种颜色全部使用),要求每个区域涂一种颜色,相邻的区域不能涂相同的颜色,则不同的涂色种数有( )A .72B .96C .108D .120解析:选B 颜色都用上时,必定有两块同色,在图中,同色的可能是1,3或1,5或2,5或3,5.对每种情况涂色有A 44=24种,所以一共有96种.11.假设每一架飞机的引擎在飞行中出现故障的概率为1-p ,且各引擎是否有故障是独立的,已知4引擎飞机中至少有3个引擎正常运行,飞机就可成功飞行;2个引擎飞机要2个引擎全部正常运行,飞机才可成功飞行.要使4个引擎飞机更安全,则p 的取值范围是( )A .⎝⎛⎭⎫23,1 B .⎝⎛⎭⎫13,1 C .⎝⎛⎭⎫0,23 D .⎝⎛⎭⎫0, 13 解析:选B 4个引擎飞机成功飞行的概率为C 34p 3(1-p )+p 4,2个引擎飞机成功飞行的概率为p 2,要使C 34p 3(1-p )+p 4>p 2,必有13<p <1. 12.(全国丙卷)定义“规范01数列”{a n }如下:{a n }共有2m 项,其中m 项为0,m 项为1,且对任意k ≤2m ,a 1,a 2,…,a k 中0的个数不少于1的个数.若m =4,则不同的“规范01数列”共有( )A .18个B .16个C .14个D .12个解析:选C 由题意知:当m =4时,“规范01数列”共含有8项,其中4项为0,4项为1,且必有a 1=0,a 8=1.不考虑限制条件“对任意k ≤2m ,a 1,a 2,…,a k 中0的个数不少于1的个数”,则中间6个数的情况共有C 36=20(种),其中存在k ≤2m ,a 1,a 2,…,a k 中0的个数少于1的个数的情况有:①若a 2=a 3=1,则有C 14=4(种);②若a 2=1,a 3=0,则a 4=1,a 5=1,只有1种;③若a 2=0,则a 3=a 4=a 5=1,只有1种.综上,不同的“规范01数列”共有20-6=14(种).故共有14个.故选C .二、填空题(本大题共4小题,每小题5分,共20分.请把正确答案填在题中的横线上) 13.(四川高考)同时抛掷两枚质地均匀的硬币,当至少有一枚硬币正面向上时,就说这次试验成功,则在2次试验中成功次数X 的均值是__________.解析:法一:由题意可知每次试验不成功的概率为14,成功的概率为34,在2次试验中成功次数X 的可能取值为0,1,2,则P (X =0)=116,P (X =1)=C 12×14×34=38,P (X =2)=⎝⎛⎭⎫342=916. 所以在2次试验中成功次数X 的分布列为则在2次试验中成功次数E (X )=0×116+1×38+2×916=32.法二:此试验满足二项分布,其中p =34,所以在2次试验中成功次数X 的均值为E (X )=np =2×34=32.答案:3214.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如表根据列联表数据,求得K 2≈__________. 解析:由计算公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得K 2≈7.469. 答案:7.46915.从0,1,2,3,4,5,6,7,8,9中任取七个不同的数,则这七个数的中位数是6的概率为________.解析:十个数中任取七个不同的数共有C 710种情况,七个数的中位数为6,那么6只有处在中间位置,有C 36种情况,于是所求概率P =C 36C 710=16.答案:1616.某射手射击1次,击中目标的概率是0.9,他连续射击4次,且各次射击是否击中目标相互之间没有影响,有下列结论:①他第3次击中目标的概率是0.9;②他恰好击中目标3次的概率是0.93×0.1; ③他至少击中目标1次的概率是1-0.14.其中正确结论的序号是________(写出所有正确结论的序号).解析:①因为各次射击是否击中目标相互之间没有影响,所以第3次击中目标的概率是0.9,正确;②恰好击中目标3次的概率应为C 34×0.93×0.1;③4次射击都未击中的概率为0.14; 所以至少击中目标1次的概率为1-0.14. 答案:①③三、简答题(本大题共6小题,共70分,解答时写出必要的文字说明、证明过程或演算步骤)17.(本小题满分10分)已知(a 2+1)n 展开式中的各项系数之和等于⎝⎛⎭⎫165x 2+1x 5的展开式的常数项,而(a 2+1)n 的展开式的系数最大的项等于54,求a 的值.解:⎝⎛⎭⎫165x 2+1x 5的展开式的通项为T r +1=C r 5⎝⎛⎭⎫165x 25-r ⎝⎛⎭⎫1x r=⎝⎛⎭⎫1655-r C r 5x 20-5r 2, 令20-5r =0,得r =4, 故常数项T 5=C 45×165=16. 又(a 2+1)n 展开式的各项系数之和等于2n , 由题意知2n =16,得n =4.由二项式系数的性质知,(a 2+1)n 展开式中系数最大的项是中间项T 3,故有C 24a 4=54,解得a =±3.18.(本小题满分12分)(全国甲卷)某险种的基本保费为a (单元:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:(1)求一续保人本年度的保费高于基本保费的概率;(2)若一续保人本年度的保费高于基本保费,求其保费比基本保费高出60%的概率; (3)求续保人本年度的平均保费与基本保费的比值.解:(1)设A 表示事件“一续保人本年度的保费高于基本保费”,则事件A 发生当且仅当一年内出险次数大于1,故P (A )=1-(0.30+0.15)=0.55.(2)设B 表示事件“一续保人本年度的保费比基本保费高出60%”,则事件B 发生当且仅当一年内出险次数大于3,故P (B )=0.1+0.05=0.15.又P (AB )=P (B ),故P (B |A )=P (AB )P (A )=P (B )P (A )=0.150.55=311.因此所求概率为311.(3)记续保人本年度的保费为X ,则X 的分布列为EX =0.85a ×0.30+a ×0.15+1.25a ×0.20+1.5a ×0.20+1.75a ×0.10+2a ×0.05=1.23a .因此续保人本年度的平均保费与基本保费的比值为1.23.19.(本小题满分12分)退休年龄延迟是平均预期寿命延长和人口老龄化背景下的一种趋势.某机构为了解某城市市民的年龄构成,按1%的比例从年龄在20~80岁(含20岁和80岁)之间的市民中随机抽取600人进行调查,并将年龄按[20,30),[30,40),[40,50),[50,60),[60,70),[70,80]进行分组,绘制成频率分布直方图,如图所示.规定年龄在[20,40)岁的人为“青年人”,[40,60)岁的人为“中年人”,[60,80]岁的人为“老年人”.(1)根据频率分布直方图估计该城市60岁以上(含60岁)的人数,若每一组中的数据用该组区间的中点值来代表,试估算所调查的600人的平均年龄;(2)将上述人口分布的频率视为该城市年龄在20~80岁的人口分布的概率,从该城市年龄在20~80岁的市民中随机抽取3人,记抽到“老年人”的人数为X ,求随机变量X 的分布列和数学期望.解:(1)由频率分布直方图可知60岁以上(含60岁)的频率为(0.01+0.01)×10=0.2, 故样本中60岁以上(含60岁)的人数为600×0.2=120,故该城市60岁以上(含60岁)的人数为120÷1%=12 000.所调查的600人的平均年龄为25×0.1+35×0.2+45×0.3+55×0.2+65×0.1+75×0.1=48(岁). (2)由频率分布直方图知,“老年人”所占的频率为15,所以从该城市年龄在20~80岁的市民中随机抽取1人,抽到“老年人”的概率为15,分析可知X 的所有可能取值为0,1,2,3,P (X =0)=C 03⎝⎛⎭⎫150⎝⎛⎭⎫453=64125, P (X =1)=C 13⎝⎛⎭⎫151⎝⎛⎭⎫452=48125, P (X =2)=C 23⎝⎛⎭⎫152⎝⎛⎭⎫451=12125, P (X =3)=C 33⎝⎛⎭⎫153⎝⎛⎭⎫450=1125. 所以X 的分布列为EX =0×64125+1×48125+2×12125+3×1125=35.⎝⎛⎭⎫或EX =3×15=35 20.(本小题满分12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6, 所以y 关于w 的线性回归方程y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.21.(本小题满分12分)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可吸入肺颗粒物.我国PM2.5标准采用世卫组织设定的最宽限值,即PM2.5日均值在35微克/立方米以下空气质量为一级;在35微克/立方米~75微克/立方米之间空气质量为二级;在75微克/立方米以上空气质量为超标.某试点城市环保局从该市市区2019年全年每天的PM2.5监测数据中随机抽取15天的数据作为样本,监测值如茎叶图所示(十位为茎,个位为叶)(1)从这15天的PM2.5日均监测数据中,随机抽出三天,求恰有一天空气质量达到一级的概率.(2)从这15天的数据中任取三天数据,记ξ表示抽到PM2.5监测数据超标的天数,求ξ的分布列及数学期望.(3)以这15天的PM2.5日均值来估计一年的空气质量情况,则一年(按360天计算)中平均有多少天的空气质量达到一级或二级.解:(1)记“从15天的PM2.5日均监测数据中,随机抽出三天,恰有一天空气质量达到一级”为事件A ,P (A )=C 15C 210C 315=4591.(2)依据条件,ξ服从超几何分布:ξ的可能值为0,1,2,3, 其分布列为:P (ξ=k )=C k 5C 3-k10C 315(k =0,1,2,3).则E (X )=0×2491+1×4591+2×2091+3×291=1,(3)依题意可知,一年中每天空气质量达到一级或二级的概率为P =1015=23, 一年中空气质量达到一级或二级的天数为η, 则η~B ⎝⎛⎭⎫360,23, 所以E (η)=360×23=240,所以一年中平均有240天的空气质量达到一级或二级.22.(本小题满分12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生样本数据?。
2018年秋高中数学 第三章 统计案例 阶段复习课 第3课 统计案例学案 新人教A版选修2-3
第三课 统计案例[核心速填] (建议用时4分钟)1.分析判断两个变量相关关系常用的方法(1)散点图法:把样本数据表示的点在直角坐标系中标出,得到散点图,由散点图的形状分析. (2)相关指数法:利用相关指数R 2进行检验,在确认具有相关关系后,再求线性回归方程. 2.求线性回归方程的步骤(1)画散点图:从直观上观察两个变量是否线性相关. (2)计算:利用公式求回归方程的系数的值.b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.(3)写出方程:依据y ^=a ^+b ^x ,写出回归直线方程. 3.两种特殊可线性化回归模型的转化(1)将幂型函数y =ax m(a 为正的常数,x ,y 取正值)化为线性函数.如果将y =ax m两边同取以10为底的对数,则有lg y =m lg x +lg a .令u =lg y ,v =lg x ,lg a =b ,代入上式,得u =mv +b ,其中m ,b 是常数.这是u ,v 的线性函数.如果以u 为纵坐标,v 为横坐标,则u =mv +b 的图象就是一直线.(2)将指数型函数y =ca x(a >0且a ≠1,c >0且为常数)化为线性函数.将y =ca x两边同取以10为底的对数,有lg y =x lg a +lg c ,令lg y =u ,lg a =k ,lg c =b ,得u =kx +b ,其中,k 和b 是常数,与幂型函数不同的是x 依然保持原来的,只是用y 的对数lg y 代替了y .4.在实际问题中常用的三个数值(1)当K 2>6.635时,表示有99%的把握认为“事件A 与B 有关系”. (2)当K 2>3.841时,表示有95%的把握认为“事件A 与B 有关系”. (3)当K 2≤3.841时,认为事件A 与B 是无关的.[体系构建][题型探究]可以画出散点图或利用相关系数r ,判断两个变量是否具有线性相关关系,若具有线性相关关系,可得出线性回归直线方程.利用公式求回归直线方程时应注意以下几点:(1)求b ^时,利用公式b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x -y-ni =1x 2i -n x-2,先求出x =1n (x 1+x 2+x 3+…+x n ),y =1n (y 1+y 2+y 3+…+y n ).再由a ^=y -b ^ x 求a ^的值,并写出回归直线方程.(2)回归直线一定经过样本点的中心(x -,y -).(3)回归直线方程中的截距a ^和斜率b ^都是通过样本估计得来的,存在误差,这种误差可能导致预报结果的偏差.(4)回归直线方程y ^=a ^+b ^x 中的b ^表示x 每增加1个单位时预报变量y 的平均变化量,而a ^表示预报变量y 不随x 的变化而变化的部分.以下是某地收集到的新房屋的销售价格y 和房屋的面积x 的数据:(2)若线性相关,求线性回归方程;(3)根据(2)的结果估计当房屋面积为150 m 2时的销售价格.。
高中数学复习课(一)统计案例教学案新人教A版选修1-2(2021学年)
2017-2018学年高中数学复习课(一) 统计案例教学案新人教A版选修1-2 编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2017-2018学年高中数学复习课(一) 统计案例教学案新人教A版选修1-2)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2017-2018学年高中数学复习课(一) 统计案例教学案新人教A版选修1-2的全部内容。
复习课(一) 统计案例回归分析(1)变量间的相关关系是高考解答题命题的一个,主要考查变量间相关关系的判断,求解回归方程并进行预报估计,题型多为解答题,有时也有小题出现.(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题.错误!1.一个重要方程对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n),其线性回归直线方程=错误!x+错误!.为y,^其中错误!=错误!,错误!=错误!-错误!错误!.2.重要参数相关指数R2是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.3.两种重要图形(1)散点图:散点图是进行线性回归分析的主要手段,其作用如下:一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;二是判断样本中是否存在异常.(2)残差图:残差图可以用来判断模型的拟合效果,其作用如下:一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.二是确认样本点在采集中是否有人为的错误.[典例] (全国卷Ⅲ)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:错误!i=9.32,错误!i y i=40.17, 错误!=0.55,错误!≈2.646.参考公式:相关系数r=错误!,回归方程错误!=错误!+错误!t中斜率和截距的最小二乘估计公式分别为:错误!=错误!,错误! =错误!-错误!错误!.[解] (1)由折线图中数据和附注中参考数据得错误!=4,错误!(ti-错误!)2=28, 错误!=0.55,错误!(t i-错误!)(yi-错误!)=错误!i y i-错误!错误!i=40.17-4×9.32=2.89,r≈错误!≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(2)由错误!=错误!≈1.331及(1)得错误!=错误!=错误!≈0.103,错误!=错误!-错误!错误!≈1.331-0.103×4≈0.92.所以y关于t的回归方程为错误!=0.92+0.10t.将2016年对应的t=9代入回归方程得y\s\up6(^)=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.[类题通法]回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并且用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R2来检查模型的拟合效果,从而得到最佳模型.错误!1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )A.r2<r1<0B.0<r2<r1C.r2〈0<r1 D.r2=r1解析:选C 画散点图,由散点图可知X与Y是正相关,则相关系数r1〉0,U与V是负相关,相关系数r2<0,故选C.2.寒假中, 某同学为组织一次爱心捐款, 在网上给网友发了张帖子, 并号召网友转发,下表是发帖后一段时间收到帖子的人数统计:天数x1234567人数y711212466115325(1)作出散点图,并猜测x与y之间的关系.(2)建立x与y的关系, 预报回归模型.(3)如果此人打算在帖子传播10天时进行募捐活动, 根据上述回归模型, 估计可去多少人.解:(1)画出散点图如图所示.从散点图可以看出x与y不具有线性相关关系,同时可发现样本点分布在某一个函数曲线y=kemx的周围, 其中k, m是参数.(2)对y=ke mx两边取对数,把指数关系变成线性关系.令z=ln y,则变换后的样本点分布在直线z=bx+a(a=ln k, b=m)的周围, 这样就可以利用线性回归模型来建立x与y之间的非线性回归方程了, 数据可以转化为:天数x 1234567人数的对数z1.9462.3983.0453.1784.1904.7455.784求得回归直线方程为错误!=0.620x+1.133,所以错误!=e0.620x+1.133.(3)当x=10, 此时\o(y,^)=e0.620×10+1.133≈1530(人).所以估计可去1 530人.独立性检验(1)近几年高考中对独立性检验的考查频率有所降低,题目多以解答题形式出现,一般为容易题,多与概率、统计等内容综合命题.(2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系"这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过概率P(K2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k>6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系” 这一结论成立的可信程度约为99%.错误!在实际问题中常用的几个数值(1)K2≥6.635表示认为“X与Y有关系"犯错误的概率不超过0.01.(2)K2≥3.841表示认为“X与Y有关系”犯错误的概率不超过0.05.(3)K2≥2.706表示认为“X与Y有关系"犯错误的概率不超过0.1.[典例] 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食为肉类为主.)(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯.(2)根据以上数据完成如表所示的2×2列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?[解] (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如表所示:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(3)随机变量K2的观测值k=30×8-128212×18×20×10=错误!=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.[类题通法]独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2统计量法:通过公式K2=错误!先计算观测值k,再与临界值表作比较,最后得出结论.错误!1.下表是某地区的一种传染病与饮用水的调查表:得病不得病总计干净水52466518不干净水94218312总计146684830(1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由.(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水有关.解:(1)把表中的数据代入公式得K2的观测值k=830×52×218-466×942146×684×518×312≈54.21.∵54.21>6.635,所以在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水不干净有关.(2)依题意得2×2列联表:得病不得病总计干净水55055不干净水92231总计14 72 86此时,K 2的观测值k=错误!≈5.785. 因为5.785>5.024,所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关. 2.2016年第三十一届奥运会在巴西首都里约热内卢举行,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了60人,结果如下:是否愿意提供志愿者服务性别愿意 不愿意 男生 20 10 女生1020(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人, 其中男生抽取多少人?(2)在(1)中抽取的6人中任选2人, 求恰有一名女生的概率.(3)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关?下面的临界值表供参考:P (K 2≥k 0)0.15 0.100.050.025 0.010 0.005 0.001 k 0 2.0722.7063.8415.0246.6357.87910.828独立性检验统计量K2=\f (n ad -b c2,a +b c +d a+c b +d),其中n=a+b +c +d .解:(1)由题意,男生抽取6×2020+10=4(人),女生抽取6×错误!=2(人).(2)在(1)中抽取的6人中任选2人,恰有一名女生的概率P =错误!=错误!.(3)K2=错误!≈6.667,由于6.667〉6.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关.1.在两个学习基础相当的班级实行某种教学措施的实验,测试结果见下表,则实验效果与教学措施( )优、良、中差总计实验班48250对比班381250总计8614100A.有关ﻩB.无关C.关系不明确D.以上都不正确解析:选 A 随机变量K2的观测值k=\f(100×48×12-38×22,50×50×86×14)≈8.306>6.635,则有99%的把握认为“实验效果与教学措施有关”.2.下列说法中正确的有:( )①若r〉0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.A.①② B.②③C.①③ﻩ D.①②③解析:选C 若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确.r<0,表示两个变量负相关,x增大时,y相应减小,故②错误.|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.3.有下列数据( )x123y35.9912.01下列四个函数中,模拟效果最好的为( )A.y=3×2x-1 B.y=log2xC.y=3x D.y=x2解析:选A 分别把x=1,2,3,代入求值,求最接近y的值.即为模拟效果最好,故选A.4.若两个变量的残差平方和是325,错误!(y i -错误!)2=923,则随机误差对预报变量的贡献率约为()A.64.8%B.60%C.35.2% D.40%解析:选C 由题意可知随机误差对预报变量的贡献率约为错误!≈0.352.5.已知x与y之间的几组数据如下表:x 123456y021334假设根据上表数据所得线性回归直线方程为错误!=错误!x+错误!,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( )A.错误!>b′,错误!>a′ B.错误!>b′,错误!〈a′C.错误!< b′,错误!〉a′ D.错误!<b′,错误!<a′解析:选C过(1,0)和(2,2)的直线方程为y=2x-2,画出六点的散点图,回归直线的大概位置如图所示,显然错误!<b′,错误!〉a′.故选C.6.收集一只棉铃虫的产卵数y与温度x的几组数据后发现两个变量有相关关系,并按不同的曲线来拟合y与x之间的回归方程,并算出了对应相关指数R2如下表:拟合曲线直线指数曲线抛物线二次曲线y与x回归方程错误!=19.8x-463.7错误!=e0.27x-3.84错误!=0.367x2-202错误!=错误!相关指数R20.7460.9960.9020.002A.错误!=19.8x-463.7 B.错误!=e0.27x-3.84C.错误!=0.367x2-202D.错误!=错误!解析:选B 用相关指数R2来刻画回归效果,R2的值越大,说明模型的拟合效果越好.7.某学校对课程《人与自然》的选修情况进行了统计,得到如下数据:选未选总计男40545450女230220450总计635265900那么,认为选修《人与自然》与性别有关的把握是________.解析:K2=\f(n ad-bc2,a+bc+d a+c b+d)=163.794>10.828,即有99.9%的把握认为选修《人与自然》与性别有关.答案:99.9%8.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程错误!=0.67x+54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据模糊看不清,请你推断出该数据的值为________.解析:由表知错误!=30,设模糊不清的数据为m,则错误!=错误!(62+m+75+81+89)=错误!,因为错误!=0.67错误!+54.9,即错误!=0.67×30+54.9,解得m=68.答案:689.变量U与V相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U与V的线性回归分析,R2表示解释变量对于预报变量变化的贡献率,则R2=______.解析:在线性回归中,相关指数R2等于相关系数,由x1=1,x2=2,x3=3,x4=4得:x=2.5,y1=1.4,y2=2.2,y3=3,y4=3.8得:错误!=2.6,所以相关系数r=错误!=错误!=错误!=错误!=1.故R 2=1. 答案:110.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗?解:根据题意,计算随机变量的观测值:K2=错误!≈6.233〉5.024,因此有97.5%的把握认为“文科学生总成绩不好与数学成绩不好有关系".11.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是1225,请完成上面的2×2列联表.(2)在(1)的条件下,试运用独立性检验的思想方法分析:在犯错误概率不超过0.1%的情况下判断学生的学习积极性与对待班级工作的态度是否有关?并说明理由.k06.6357.87910.828解:(1)如果随机抽查这个班的一名学生,抽到积极参加班级工作的学生的概率是错误!,所以积极参加班级工作的学生有24人,由此可以算出学习积极性一般且积极参加班级工作的人数为6,不太主动参加班级工作的人数为26,学习积极性高但不太主动参加班级工作的人数为7,学习积极性高的人数为25,学习积极性一般的人数为25,得到:积极参加班级工作不太主动参加班级工作总计学习积极性高18725学习积极性一般61925总计242650(2)K2=50×18×19-6×7225×25×24×26≈11.538,因为11.538>10.828,所以在犯错误的概率不超过0.001的前提下可以认为学习积极性与对待班级工作的态度有关系.12.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷",已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女1055总计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷",已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=错误!.P(K2≥k0)0.050.01k 03.8416.635解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:非体育迷体育迷总计男301545女451055总计7525100将2×2列联表中的数据代入公式计算,得K2=错误!=\f(100×30×10-45×152,75×25×45×55)=错误!≈3.030.因为3.030〈3.841,所以没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.其中a i表示男性,i=1,2,3.b j表示女性,j=1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性"这一事件,则A={(a,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},1事件A由7个基本事件组成,因而P(A)=错误!.以上就是本文的全部内容,可以编辑修改。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三课 统计案例[核心速填] (建议用时4分钟)1.分析判断两个变量相关关系常用的方法(1)散点图法:把样本数据表示的点在直角坐标系中标出,得到散点图,由散点图的形状分析.(2)相关指数法:利用相关指数R 2进行检验,在确认具有相关关系后,再求线性回归方程.2.求线性回归方程的步骤(1)画散点图:从直观上观察两个变量是否线性相关. (2)计算:利用公式求回归方程的系数的值.b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.(3)写出方程:依据y ^=a ^+b ^x ,写出回归直线方程. 3.两种特殊可线性化回归模型的转化(1)将幂型函数y =ax m(a 为正的常数,x ,y 取正值)化为线性函数.如果将y =ax m两边同取以10为底的对数,则有lg y =m lg x +lg a .令u =lg y ,v =lg x ,lg a =b ,代入上式,得u =mv +b ,其中m ,b 是常数.这是u ,v 的线性函数.如果以u 为纵坐标,v 为横坐标,则u =mv +b 的图象就是一直线.(2)将指数型函数y =ca x(a >0且a ≠1,c >0且为常数)化为线性函数.将y =ca x两边同取以10为底的对数,有lg y =x lg a +lg c ,令lg y =u ,lg a =k ,lg c =b ,得u =kx +b ,其中,k 和b 是常数,与幂型函数不同的是x 依然保持原来的,只是用y 的对数lg y 代替了y .4.在实际问题中常用的三个数值(1)当K 2>6.635时,表示有99%的把握认为“事件A 与B 有关系”. (2)当K 2>3.841时,表示有95%的把握认为“事件A 与B 有关系”. (3)当K 2≤3.841时,认为事件A 与B 是无关的.[体系构建][题型探究]一组观测值,可以画出散点图或利用相关系数r ,判断两个变量是否具有线性相关关系,若具有线性相关关系,可得出线性回归直线方程.利用公式求回归直线方程时应注意以下几点:(1)求b ^时,利用公式b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x -y-i =1x 2i -n x -2,先求出x =1n (x 1+x 2+x 3+…+x n ),y =1n (y 1+y 2+y 3+…+y n ).再由a ^=y -b ^ x 求a ^的值,并写出回归直线方程.(2)回归直线一定经过样本点的中心(x -,y -).(3)回归直线方程中的截距a ^和斜率b ^都是通过样本估计得来的,存在误差,这种误差可能导致预报结果的偏差.(4)回归直线方程y ^=a ^+b ^x 中的b ^表示x 每增加1个单位时预报变量y 的平均变化量,而a ^表示预报变量y 不随x 的变化而变化的部分.以下是某地收集到的新房屋的销售价格y 和房屋的面积x 的数据:(2)若线性相关,求线性回归方程;(3)根据(2)的结果估计当房屋面积为150 m 2时的销售价格.【导学号:95032252】[解] (1)数据对应的散点图如图所示.(2)由散点图知y 与x 具有线性相关关系.由表中数据知x -=15∑i =15x i =109,y -=15∑i =15y i =23.2,∑i =15x 2i =60 975,∑i =15x i y i =12 952.设所求回归直线方程为y ^=b ^x +a ^,则b ^=5i =1x i y i -5x -y -∑i =15x 2i -5x -2≈0.196 2,a ^=y --b ^x -≈1.814 2,故所求回归直线方程为y ^=0.196 2x +1.814 2.(3)根据(2),当x =150时,销售价格的估计值为y ^=0.1962×150+1.814 2=31.244 2(万元).1.已知某连锁经营公司的5个零售店某月的销售额和利润额资料如下表:(2)根据如下的参考公式与参考数据,求利润额y 与销售额x 之间的线性回归方程; (3)若该公司还有一个零售店某月销售额为10千万元,试估计它的利润额是多少.(参考公式:b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.其中,∑i =15x i y i =112,∑i =15x 2i =200)[解] (1)散点图.(2)由已知数据计算得n =5,x -=305=6,y -=175=3.4,b ^=112-5×6×3.4200-5×6×6=0.5,a ^=3.4-0.5×6=0.4.则线性回归方程为y ^=0.5x +0.4.(3)将x =10代入线性回归方程中得到y ^=0.5×10+0.4=5.4(千万元). 即估计该零售店的利润额约为5.4千万元.决实际问题的效果进行评价.一方面可以对比残差或残差平方和的大小,同时观察残差图,进行残差分析;另一方面也可以研究数据的R 2(相关系数r ).对模型拟合效果的分析能够帮助我们利用最优化的模型来解决实际问题.在研究弹簧伸长长度y (cm)与拉力x (N)的关系时,对不同拉力的6根弹簧进行测量,测得如下表中的数据:若依据散点图及最小二乘法求出的回归直线方程为y =0.18x +6.34,求R 2,并结合残差说明拟合效果.【导学号:95032253】[解] 列表求值如下:x -=17.5,y -≈9.49,∑i =16x i y i =1 076.2,∑i =16x 2i =2 275,∑i =16(y i -y ^i )2=0.017 4,∑i =16(y i-y -)2=14.678 4.∴R 2=1-0.017 414.678 4≈0.998 81,回归模型拟合效果较好.由表中数据可以看出残差比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高.2.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得b =6.5, (1)求y 与x 的线性回归方程;(2)现有第二个线性模型:y ^=7x +17,且R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由. [解] (1)依题意设y 与x 的线性回归方程为y ^=6.5x +a ^.x -=2+4+5+6+85=5,y -=30+40+60+50+705=50,∴y ^=6.5x +a ^经过(x -,y -), ∴50=6.5×5+a ^,∴a ^=17.5,∴y 与x 的线性回归方程为y ^=6.5x +17.5.(2)由(1)的线性模型得y i -y ^i 与y i -y -的关系如下表:所以∑i =15(y i -y ^i )2=(-0.5)2+(-3.5)2+(-10)2+(-6.5)2+0.52=155.∑i =15(y i -y -)2=(-20)2+(-10)2+102+02+202=1 000.所以R 21=1-∑i =15y i -y ^i2∑i =15y i -y-2=1-1551 000=0.845.由于R 21=0.845,R 2=0.82知R 21>R 2, 所以(1)的线性模型拟合效果比较好.是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.(1)根据以上数据列出2×2列联表;(2)判断40岁以上的人患胃病与生活规律是否有关.【导学号:95032254】[思路探究] (1)解决本题关键是首先弄清问题中的两个分类变量及其取值分别是什么,其次掌握2×2列联表的结构特征.(2)利用2×2列联表计算K 2的观测值,再结合临界值表来分析相关性的大小. [解] (1)由已知可列2×2列联表如下:k =-280×460×220×320≈9.638.因为9.638>7.879,因此,我们在犯错误的概率不超过0.005的前提下认为40岁以上的人患胃病和生活规律有关.3.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行问卷调查得到了如下的列联表:(1)请将上面的列联表补充完整(不用写计算过程);(2)能否有99%的把握认为喜爱打篮球与性别有关?说明你的理由.(参考公式:K2=n ad-bc2a +b c+d a+c b+d,其中n=a+b+c+d)[解](1)依题意可知喜爱打篮球的学生的人数为50×0.6=30.列联表补充如下:(2)因为k=25×25×30×20≈8.333>6.635,所以,有99%的把握认为喜爱打篮球与性别有关.。