高中数学第三章统计案例章末小结知识整合与阶段检测教学案北师大版选修2_334.doc
最新北师大版高中数学高中数学选修2-3第三章《统计案例》检测(包含答案解析)(2)
一、选择题1.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( ) 表1表2表3表4A .成绩B .视力C .智商D .阅读量2.以下四个结论,正确的是( )①质检员从匀速传递的产品生产流水线上,每间隔15分钟抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②在回归直线方程0.1.3ˆ1y x =+中,当变量ˆx 每增加一个单位时,变量ˆy增加0.13个单位;③在频率分布直方图中,所有小矩形的面积之和是1;④对于两个分类变量X 与Y ,求出其统计量2K 的观测值k ,观测值k 越大,我们认为“X 与Y 有关系”的把握程度就越大. A .②④B .②③C .①③D .③④3.下列关于回归分析与独立性检验的说法正确的是() A .回归分析和独立性检验没有什么区别;B .回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系;C .独立性检验可以100%确定两个变量之间是否具有某种关系.D .回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验;4.下列命题中正确命题的个数是(1)对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越大;(2)若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变; (3)在残差图,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高; (4)设随机变量ξ服从正态分布()0,1N ; 若()1P p ξ>=,则()1102P p ξ-<<=-( ) A .4B .3C .2D .15.对四对变量Y 和x 进行线性相关性检验,已知n 是观测值组数,r 是相关系数,且已知: ①n=7,r=0.953 3;②n=15,r=0.301 2;③n=17,r=0.499 1;④n=3,r=0.995 0,则变量Y 和x 具有线性相关关系的是( ) A .①和② B .①和③ C .②和④D .③和④6.某中学共有5000人,其中男生3500人,女生1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:附:22()=()()()()n ad bc K a c b d a d b c -++++,其中n a b c d =+++.20()P K k ≥0.100.050.01 0.0050k 2.7063.8416.6357.879已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,我们( )A.没有理由认为“该校学生每周平均体育锻炼时间与性别有关”B.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D.有99.5%的把握认为“该校学生每周平均体育锻炼时间与性别有关”7.某中学采取分层抽样的方法从高二学生中按照性别抽出20名学生,其选报文科、理科的情况如下表所示,参考公式和数据:22()()()()()n ad bcKa cb d a bc d-=++++,其中n a b c d=+++.则以下判断正确的是A.至少有97.5%的把握认为学生选报文理科与性别有关B.至多有97.5%的把握认为学生选报文理科与性别有关C.至少有95%的把握认为学生选报文理科与性别有关D.至多有95%的把握认为学生选报文理科与性别有关8.为了考查两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合9.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程35y x=-,变量x增加一个单位时,y平均增加5个单位;③线性回归直线y bx a =+必过(),x y ; ④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079.则其两个变量间有关系的可能性是90%. 其中错误的个数是( ) A .1 B .2 C .3D .410.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠 不冷漠 总计 多看电视 68 42 110 少看电视 20 38 58 总计8880168则认为多看电视与人冷漠有关系的把握大约为( ) 附:K 2=. P (K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828A .99%B .97.5%C .95%D .90%11.某家具厂的原材料费支出x 与销售量y (单位:万元)之间有如下数据,根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为ˆ8ˆy x b =+,则^b为( ) x 2 4 5 6 8 y2535605575A .5B .15C .10D .2012.如表为某公司员工工作年限x (年)与平均月薪y (千元)对照表.已知y 关于x 的线性回归方程为0.70.35y x =+,则下列结论错误的是( ) x 3 4 5 6 y2.5t44.5A.回归直线一定过点(4.5,3.5)B.工作年限与平均月薪呈正相关C.t的取值是3.5 D.工作年限每增加1年,工资平均提高700元二、填空题13.已知方程是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.14.某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温.由表中数据得线性方程=+x中=﹣2,据此预测当气温为5℃时,用电量的度数约为_____.15.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考查某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:附表:参照附表,在犯错误的概率不超过______(填百分比)的前提下,认为“小动物是否被感染与有没有服用疫苗有关”.16.某市电信宽带私人用户月收费标准如下表:假定每月初可以和电信部门约定上网方案.方案类别基本费用超时费用甲包月制70元乙有限包月制(限60小时)50元0.05元/分钟(无上限)丙有限包月制(限30小时)30元0.05元/分钟(无上限)若某用户每月上网时间为66小时,应选择__________方案最合算.17.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温. 气温(℃)14 12 86用电量(度) 22 26 34 38由表中数据得线性方程x b a yˆˆˆ+=中2ˆ-=b ,据此预测当气温为5℃时,用电量的度数约为 .18.某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,可以有_____%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.(注:独立性检验临界值表参考第9题,K 2=2()()()()()n ad bc a b c d a c b d -++++.) 19.某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2的列联表,根据列联表的数据,可以有_______%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.超重 不超重 合计 偏高 4 1 5 不偏高 3 12 15 合计71320独立性检验临界值表()20P K k ≥0.025 0.010 0.005 0.001 0k 5.0246.6357.87910.828独立性检验随机变量2K 值的计算公式:22()()()()()n ad bc K a b c d a c b d -=++++20.给出下列结论:(1)在回归分析中,可用相关指数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好;(2)某工产加工的某种钢管,内径与规定的内径尺寸之差是离散型随机变量; (3)随机变量的方差和标准差都反映了随机变量的取值偏离于均值的平均程度,它们越小,则随机变量偏离于均值的平均程度越小;(4)若关于x 的不等式2x x a a -+-≥在R 上恒成立,则a 的最大值是1;(5)甲、乙两人向同一目标同时射击一次,事件A :“甲、乙中至少一人击中目标”与事件B :“甲,乙都没有击中目标”是相互独立事件.其中结论正确的是 .(把所有正确结论的序号填上)三、解答题21.在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区1000名患者的相关信息,得到如下表格:(1)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述1000名患者中抽取200人,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有95%的把握认为潜伏期与患者年龄有关;(2)以这1000名患者的潜伏期超过6天的频率,代替该地区1名患者潜伏期超过6天发生的概率,每名患者的潜伏期是否超过6天相互独立.为了深入研究,该研究团队随机调查了20名患者,设潜伏期超过6天的人数为X ,则X 的期望是多少? 附:()()()()()22n ad bc K a b c d a c b d -=++++其中n a b c d =+++. 22.中央电视台“国家品牌计划”栏目组为了做好新能源汽车的品牌推介,利用网络平台对年龄(单位:岁)在[20,60]内的人群进行了调查,并从参与调查者中随机选出600人,把这600人分为对新能源汽车比较关注和不太关注两类,并制成如下表格:(1)填写列联表,并根据列联表判断能否在犯错误的概率不超过0.01的前提下认为性别与对新能源汽车关注度有关;这600人中选出6人进行访谈,最后从这6人中随机选出3人参与电视直播节目,记3人中女性的人数为X ,求X 的分布列与期望. 附:0)k22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 23.某私营业主为确定下一年度投入某种产品的宣传费,需了解月宣传费x (单位:百元)对月销售量y (单位:t )和月利润z (单位:百元)的影响,对8个月的宣传费i x 和销售量i y (i =1,2,...,8)数据作了初步处理,得到如图的散点图及一些统计量的值.x y w()821ii x x =-∑()821ii w w =-∑()()81iii x x y y =--∑ ()()81iii w w yy =--∑5.4 563 2.2 63.88 3.7 645.188 151.7(1)根据散点图判断出y =c +x y 关于月宣传费x 的回归方程类型,求y 关于x 的回归方程;(表中i i w x =(2)已知这种产品的每月利润z 与x 、y 的关系为2z y x =-,根据(1)的结果,当月宣传费用x =16时,求月利润的预报值.参考公式:1122211()()()()n ni iiii i nniii i x y nx y x x y y b xn x x x ====-⋅--==--∑∑∑∑, ˆˆa y bx=- 24.为迎接2022年北京冬季奥运会,普及冬奥知识,某校开展了“冰雪答题王”冬奥知识竞赛活动.现从参加冬奥知识竞赛活动的学生中随机抽取了100名学生,将他们的比赛成绩(满分为100分)分为6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]得到如图所示的频率分布直方图.(Ⅰ)求a 的值;(Ⅱ)记A 表示事件“从参加冬奥知识竞赛活动的学生中随机抽取一名学生,该学生的比赛成绩不低于80分”,估计A 的概率;(Ⅲ)在抽取的100名学生中,规定:比赛成绩不低于80分为“优秀”,比赛成绩低于80分为“非优秀”.请在答题卡上将22⨯列联表补充完整,并判断是否有99.9%的把握认为“比赛成绩是否优秀与性别有关”?参考公式及数据:22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++.()20P K k ≥ 0.100.05 0.025 0.010 0.005 0.001 0k 2.7063.8415.0246.6357.87910.82825.为了了解某班学生喜欢数学是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表,已知在全部50人中随机抽取1人抽到喜欢数学的学生的概率为35.喜欢数学 不喜欢数学 合计男生5女生 10合计50(1)能否在犯错误的概率不超过0.005的前提下认为喜欢数学与性别有关?说明你的理由;()20P K k ≥ 0.150.100.050.025 0.010 0.005 0.001 0k 2.702 2.7063.8415.0246.6357.87910.828(2)现从女生中抽取2人进一步调查,设其中喜欢数学的女生人数为ξ,求ξ的分布列与期望.临界表供参考:(参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++)26.某企业组织应聘该企业的100名应届毕业生参加专业能力测试(满分100分),这100名毕业生的成绩的频率分布直方图如图所示.(Ⅰ)该企业拟以成绩的中位数作为分数线来确定进入面试阶段的毕业生名单,根据频率分布直方图求进入该企业面试的分数线;(Ⅱ)若被测试的毕业生中有40名女生,进入面试的有15名女生,35名男生,填写下面列联表,并根据列联表判断是否有95%的把握认为成绩与性别有关.成绩<分数线成绩≥分数线总计男生女生总计附:()()()()()22n ad bcKa b c d a c b d-=++++ ()2P K k0.0500.0100.001 k 3.841 6.63510.828【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】计算得到22322214χχχχ>>>,得到答案. 【详解】计算得到:222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯; 222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯ ; 222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯ ; 222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯;故22322214χχχχ>>>. 故选:D . 【点睛】本题考查了独立性检验,意在考查学生的计算能力和应用能力.2.D解析:D 【分析】利用系统抽样和分层抽样的知识判断①的正确性;利用回归直线方程的知识判断②的正确性;利用频率分布直方图的知识判断③的正确性;利用独立性检验的知识判断④的正确性. 【详解】①,是系统抽样,不是分层抽样,所以①错误. ②,y 增加0.1,所以②错误. ③,在频率分布直方图中,所有小矩形的面积之和是1,所以③正确. ④,对于两个分类变量X 与Y ,求出其统计量2K 的观测值k ,观测值k 越大,我们认为“X 与Y 有关系”的把握程度就越大,所以④正确. 综上所述,正确的序号为③④. 故选:D 【点睛】本小题主要考查抽样方法、回归直线方程、频率分布直方图和独立性检验等知识,属于基础题.3.D解析:D【分析】根据题意可知,利用回归分析和独立性检验的定义,排除错误选项,即可求解出答案. 【详解】回归分析是指将具有相关关系的两个变量之间的数量关系进行测定,通过建立数学表达式进行统计估计和预测的统计研究方法.独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.根据以上定义,可知A 、B 、C 均错误,故答案选D . 【点睛】本题主要考查了回归分析与独立性检验的定义的区别.4.B解析:B 【解析】 【分析】根据独立性检验的定义可判断(1);根据方差的性质可判断(2);根据残差的性质可判断(3);根据正态分布的对称性可判断(4). 【详解】(1)对分类变量X 与Y 的随机变量2K 的观测值K 来说,K 越大,判断“X 与Y 有关系”的把握越大,故(1)错误;(2)若将一组样本数据中的每个数据都加上同一个常数后,数据的离散程度不变,则样本的方差不变,故(2)正确;(3)根据残差的定义可知,在残差图,残差点分布的带状区域的宽度越狭窄,预测值与实际值越接近,其模型拟合的精度越高,(3)正确;(4)设随机变量ξ服从正态分布()0,1N ,若()1P p ζ>=,则()1P p ζ<-=,则()1112P p ζ-<<=-,则()1102P p ζ-<<=-,故(4)正确, 故正确的命题的个数为3个,故选B. 【点睛】本题主要通过对多个命题真假的判断,主要综合考查独立性检验的定义、方差的性质、残差的性质以及正态分布的对称性,属于中档题. 这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.5.B解析:B 【解析】分析:先查相关系数检验的临界值表,再判断变量Y 和x 具有线性相关关系的选项. 详解: 查相关系数检验的临界值表 ①r 0.05=0.754,r >r 0.05;②r0.05=0.514,r<r0.05;③r0.05=0.482,r>r0.05;④r0.05=0.997,r0.05>r.∴y和x具有线性相关关系的是①③.故答案为B.点睛:本题主要考查相关系数,意在考查学生对这些知识的掌握水平.6.B解析:B【解析】分析:根据题设收集的数据,得到男生学生的人数,进而得出22⨯的列联表,利用计算公式,求解2K的值,即可作出判断.详解:由题意得,从5000人中,其中男生3500人,女生1500人,抽取一个容量为300人的样本,其中男女各抽取的人数为35003002105000⨯=人,1500300905000⨯=人,又由频率分布直方图可知,每周体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周体育锻炼时间超过4小时的人数为3000.75225⨯=人,又在每周体育锻炼时间超过4小时的人数中,女生有60人,所以男生有22560165-=人,可得如下的22⨯的列联表:结合列联表可算得22300(456016530)4.762 3.8412109075225K⨯⨯-⨯=≈>⨯⨯⨯,所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”,故选B.点睛:本题主要考查了独立性检验的基础知识的应用,其中根据题设条件得到男女生的人数,得出22⨯的列联表,利用公式准确计算是解答的关键,着重考查了分析问题和解答问题的能力.7.C解析:C【解析】由题易得22⨯列联表如下:则2K 的观测值为()22023510 4.432 3.841128713k ⨯⨯-⨯=≈>⨯⨯⨯,所以至少有95%的把握认为学生选报文理科与性别有关,故选:C .【解题必备】(1)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握认为两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体.即独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释. (3)独立性检验的具体做法:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α, 然后查下表确定临界值0k ; ②利用公式()()()()()22n ad bc K a c b d a b c d -=++++,计算随机变量2K 的观测值k ;③如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.说明:通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.8.A解析:A 【解析】回归直线方程过样本中心点,过A 选项正确.9.C解析:C 【解析】对于①,方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变,故正确;对于②,一个回归方程ˆ35yx =-,变量x 增加一个单位时,y 平均减小5个单位,故不正确;对于③,线性回归直线ˆˆˆy bx a =+必过样本中心点(),x y ,故正确;对于④,曲线上的点与该点的坐标之间具有一一对应关系,故不正确;对于⑤,有一个2×2列联表中,由计算得213.079K =,则其两个变量间有关系的可能性是99.9%,故不正确. 故选C.10.A解析:A 【解析】由公式可计算得K 2≈11.377>6.635.故选A.点睛:(1)独立性检验的关键是正确列出2×2列联表,并计算出K 2的值.(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断.11.C解析:C 【详解】由题意可得:2456855x ++++==,2535605575505y ++++==,回归方程过样本中心点,则:5285,1ˆˆ0bb =⨯+∴=. 本题选择C 选项.12.C解析:C 【解析】由已知中的数据可得:3456 4.54x +++== , 2.54 4.51144t t y ++++==,∵数据中心点(),x y 一定在回归直线上,∴110.7 4.50.354t+=⨯+解得3t =,故C 错误;故11 3.54t+=, 回归直线一定过点(4.53.5,),ABD 正确;故选C . 二、填空题13.【解析】将x =160代入得所以残差考点:线性回归方程残差 解析:【解析】 将x =160代入,得,所以残差考点:线性回归方程,残差.14.40【解析】试题分析:根据所给的表格做出本组数据的样本中心点根据样本中心点在线性回归直线上利用待定系数法做出a的值现在方程是一个确定的方程根据所给的x的值代入线性回归方程预报要销售的件数解:由表格得解析:40【解析】试题分析:根据所给的表格做出本组数据的样本中心点,根据样本中心点在线性回归直线上,利用待定系数法做出a的值,现在方程是一个确定的方程,根据所给的x的值,代入线性回归方程,预报要销售的件数.解:由表格得=(14+12+8+6)÷4=10,=(22+26+34+38)÷4=30即样本中心点的坐标为:(10,40),又∵样本中心点(10,40)在回归方程上且b=﹣2∴30=10×(﹣2)+a,解得:a=50,∴当x=5时,y=﹣2×(5)+50=40.故答案为40.考点:回归分析的初步应用.15.%【解析】试题分析:所以在犯错误不超过%的前提下认为小动物是否被感染与有没有服用疫苗有关考点:1卡方统计量2统计;【易错点晴】本题主要考查的是统计中的卡方统计量属于容易题解题时一定要注意计算问题很多解析:%【解析】试题分析:,所以在犯错误不超过%的前提下,认为“小动物是否被感染与有没有服用疫苗有关” .考点:1.卡方统计量,2.统计;【易错点晴】本题主要考查的是统计中的卡方统计量,属于容易题.解题时一定要注意计算问题,很多同学列式正确计算错误,从而不能正确得到结果.另外,学生容易把答案写为%,所以一定要注意本题中的问题是什么,否则很容易出现错误.16.乙【解析】试题分析:选用方案甲时为70元当选用议案乙时用户消费为元;当用方案丙时用户消费为元所以用方案乙最合算考点:实际应用问题比较大小解析:乙【解析】+⨯⨯=试题分析:选用方案甲时为70元,当选用议案乙时,用户消费为506600.0568+⨯⨯=元,所以用方案乙最合算.元;当用方案丙时,用户消费为3036600.05138考点:实际应用问题,比较大小.17.【解析】试题分析:由回归方程过样本平均数点则:由代入可得:由当气温为5℃时用电量的度数约为:40考点:回归方程的性质及应用解析:【解析】试题分析:由回归方程过样本平均数点(,)x y ,则:10,30x y ==,由2ˆ-=b代入x b a yˆˆˆ+=可得: ˆ50a=,由ˆ502y x =-当气温为5℃时,用电量的度数约为:40 考点:回归方程的性质及应用.18.5【分析】根据列联表运用公式求出k 值根据计算出的临界值同临界值表进行比较得到假设不合理的程度【详解】设该学校15至16周岁的男生的身高和体重情况为:偏高超重的记为a 偏高不超重记为b 不偏高超重记为c 不解析:5 【分析】根据列联表运用公式2()()()()()n ad bc k a b c d a c b d -=++++求出k 值,根据计算出的临界值,同临界值表进行比较,得到假设不合理的程度. 【详解】设该学校15至16周岁的男生的身高和体重情况为:偏高超重的记为a,偏高不超重记为b,不偏高超重记为c,不偏高不超重记为D, 则41a b ==,,312c d ==, 所以22()20(41213) 5.934()()()()(41)(312)(43)(112)n ad bc k a b c d a c b d -⨯-⨯==≈++++++++因为5.934 5.024>所以可以有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系. 故答案为97.5. 【点睛】本题考查了独立性检验的应用,我们可以利用临界值的大小来决定是否拒绝原来的统计假设.19.5【分析】计算并与临界值表中数据比较即可得出答案【详解】故有的把握认为该学校至周岁的男生的身高和体重之间有关系故答案为:975【点睛】本题主要考查了独立性检验的实际应用属于中档题解析:5 【分析】计算2K ,并与临界值表中数据比较,即可得出答案. 【详解】2220(41213) 5.934 5.024713515K ⨯-⨯=≈>⨯⨯⨯故有97.5%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.故答案为:97.5 【点睛】本题主要考查了独立性检验的实际应用,属于中档题.20.(1)(3)(4)【分析】根据相关指数离散型随机变量随机变量的方差和标准差绝对值不等式和相互独立事件相关的知识对五个结论逐一分析由此得出正确结论的序号【详解】对于(1)R2越大模型的拟合效果越好结论解析:(1),(3),(4) 【分析】根据相关指数、离散型随机变量、随机变量的方差和标准差、绝对值不等式和相互独立事件相关的知识,对五个结论逐一分析,由此得出正确结论的序号. 【详解】对于(1),R 2越大,模型的拟合效果越好,结论正确.对于(2),内径与规定的内径尺寸之差是连续型随机变量,结论错误.对于(3),根据随机变量的方差和标准差的知识可判断出结论正确.对于(4),根据绝对值不等式有22x x a a a -+-≥-≥,所以2a a -≤-或2a a -≥,前者解得1a ≤,后者无解,故a 的最大值为1,结论正确.对于(5),事件A :“甲、乙中至少一人击中目标”与事件B :“甲,乙都没有击中目标”是对立事件,不是相互独立事件,结论错误.综上所述,正确结论为(1),(3),(4). 【点睛】本小题主要考查关指数、离散型随机变量、随机变量的方差和标准差、绝对值不等式和相互独立事件相关的知识,考查分析与解决问题的能力,属于基础题.三、解答题21.(1)表格见解析,没有95%的把握认为潜伏期与年龄有关;(2)8. 【分析】(1)从已知数据知潜伏期有(0,6]的有600人,超过6天的有400人,由分层抽样按比例可得潜伏期不超过6天的抽样人数及超过6天的抽样人数,由此可填写列联表,计算2K 后可得结论;(2)由题可知,该地区每1名患者潜伏期超过6天发生的概率为400210005=,设调查的20名患者中潜伏期超过6天的人数为X ,则X 服从二项分布:220,5X B ⎛⎫ ⎪⎝⎭,由二项分布的期望公式可直接得期望. 【详解】(1)根据题意,补充完整的列联表如下:。
高中数学 第三章 统计案例整合学案 北师大版选修2-3-北师大版高二选修2-3数学学案
高中数学 第三章 统计案例整合学案 北师大版选修2-3知识建构综合应用专题一确定回归直线方程的策略准确确定回归直线方程,有利于进一步加强数学应用意识,培养运用所学知识解决实际问题的能力,正确地求出回归直线方程是本节的重点,现介绍求回归直线方程的三种方法. 一、利用回归直线过定点确定回归直线方程回归直线方程y=a+bx 经过样本的中心(x,y)点,(x,y)称为样本点的中心,回归直线一定过此点.x -1 -2 -3 -4 -5 5 4 3 2 1 y-0.9-2-3.1-3.9-5.154.12.92.10.9A.y=0.5x-1B.y=xC.y=2x+0.3D.y=x+1 答案:B二、利用公式求a,b ,确定回归直线方程 利用公式求回归直线方程时应注意以下几点:①求b 时利用公式b=2111)())((∑∑==---ni ini i x xy y x x,先求出x =n 1(x 1+x 2+x 3+…+x n ),y =n1(y 1+y 2+ y 3+…+y n ).再由a=y -b x 求a 的值,并写出回归直线方程.②线性回归方程中的截距a 和斜率b 都是通过样本估计而来,存在着误差,这种误差可能导致预报结果的偏差.③回归直线方程y=a+bx 中的b 表示x 每增加1个单位时y 的变化量,而a 表示y 不随x 的变化而变化的量.④可以利用回归直线方程y=a+bx 预报在x 取某一个值时y 的估计值. 学科学生 A B C D E 数学成绩(x )8876736663(2)求化学成绩y 对数学成绩x 的回归直线方程. 解:(1)散点图略. (2) x =51×(88+76+73+66+63)=73.2,y =51×(78+65+71+64+61)=67.8. 所以b=251151)())((∑∑==---i i i ix xy y x x≈0.625.a=y -b x =67.8-0.625×73.2=22.05.所以y 对x 的回归直线方程为y=0.625x+22.05.三、先判定相关性,再求回归直线方程利用样本相关系数r 来判断两个变量之间是否有线性相关关系时,可以依据若|r|>0.75,我们认为有很强的线性相关关系,可以求回归直线方程,并可用求得的回归直线方程来预报变量的取值;若|r|<0.75,则认为两个变量之间的线性相关关系并不强,这时求回归直线方程没有太大的实际价值.(1)y 与x 是否具有相关关系;(2)如果y 与x 具有线性相关关系,求回归直线方程. 解:(1)由已知表格中的数据,求得x =71,y =72.3,r=2101121011)()())((∑∑∑===----i i n i ii i y y x xy y x x≈0.78.由于0.78>0.75,所以y 与x 之间具有很强的线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为: y=a+bx,则有b=∑∑==---1012101)())((i ii i ix xy y x x=1.22,a=y -b x =72.3-1.22×71=-14.32.所以y关于x的回归直线方程为y=1.22x-14.32.专题二可线性化的回归分析一、曲线线性化的意义曲线的线性化是曲线拟合的重要手段之一,对于某些非线性的资料可以通过简单的变量替换使之线性化,这样就可以按最小二乘法原理求出变换后变量的线性回归方程,在实际工作中常利用该线性回归方程绘制资料的标准工作曲线,同时根据需要可将此线性回归方程还原成曲线回归方程,实现对曲线的拟合.二、常用的非线性函数(一)指数函数y=ae bx (1)对(1)式的两边取对数,得lny=lna+bx当b>0时,y随着x的增大而增大;当b<0时,y随着x的增大而减小.当以lny和x绘制的散点图呈直线趋势时,可考虑采用指数函数来描述y与x间的非线性关系,lna和b分别为截距与斜率.更一般的指数函数是y=ae bx+k,式中的k为一常量,往往未知,应用时可试用不同的值. (二)对数函数y=a+blnx(x>0)当b>0时,y随着x的增大而增大,先快后慢;当b<0时,y随着x的增大而减小,先快后慢,当以y和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中a和b分别为截距与斜率.更一般的对数函数是y=a+bln(x+k),式中的k为一常量,往往未知.(三)幂函数y=ax b(a>0,x>0)(2)当b>0时,y随着x的增大而增大;b<0时,y随着x的增大而减小.对(2)式的两边取对数,得lny=lna+blnx,当以lny和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中lna和b分别为截距与斜率.更一般的幂函数是y=ax b+k,式中的k为一常量,往往未知.以上三种模型是我们在日常生活中常遇到的曲线模型,掌握这三种模型,有利于我们研究更多的曲线拟合与回归分析的问题.三、利用线性回归拟合曲线的一般步骤(一)绘制散点图一般根据资料性质结合专业知识便可确定资料的曲线类型,不能确定时,可在方格坐标纸上绘制散点图,根据散点的分布,选择接近的、合适的曲线类型.(二)进行变量替换y′=f(y),x′=g(x)使变换后的两个变量呈线性相关关系.(三)按最小二乘法原理求线性回归方程及进行方差分析.(四)将线性化方程转换为关于原始变量x,y的回归方程.【例1】经过调查得到8个厂家同种类型的产品年新增加投资额和年利润额的数据资料,如表(1)所示.表(1) 八个厂家年新增投资额与年利润额数据资料x的增大Y也有明显的增加的趋势,因此两者之间存在着相关关系,但是这种相关关系与其用一条直线来描述倒不如用曲线描述更加合适,因此Y 与x 之间更加倾向于被认为是一种非线性关系.回归方程也需要用一些非线性函数来刻画,比如图(2) 年新增加投资额与年利润额数据的散点图图3 经过对数变换后的散点图Y=β0·e β1·x; ①或者Y=β0+β1·x 2②等等.图(3)给出的是变量lnY 与变量x 的散点图,从中可以看出这些点基本上是围绕一条直线波动,说明变量lnY 与x 之间近似是一种线性关系,从而也印证了回归方程取①形式的合理性.同时,图(3)也提示我们一种求解回归方程①的思路,即通过求解变量lnY 对x 的线性回归方程即可得到相应的①式所表示的Y 和x 的回归方程,即在图(3)中的回归直线同图(2)中的曲线(Ⅱ)是一致的.具体来说,首先对样本数据(x i ,Y i ),i=1,2,…,n 作对数变换 Z i =lnY i ,i=1,2,…,n ; ③ 然后利用最小二乘法求出变量Z 对x 的回归方程Z=a 0+a 1·x; ④即图(3)中的直线方程,则相应的形如①式的Y 对x 的回归方程是 Y=e z =e a0·e a1x; ⑤即β0=e a0,β1=a 1.利用表(1)中给出的数据,可以得到lnY 对x 的线性回归方程是 Z=1.314+0.100x由此可得Y 对x 的回归方程是Y=3.720 5·e 0.100x; ⑥如果采用形如②式的抛物线型回归方程,容易看出,令ω=x 2,②式就是表示了变量Y 对ω的线性回归方程:Y=β0+β1·ω; ⑦所以,对样本数据做变换ωi =x i 2(i=1,2,…,n ),利用(ωi ,Y i )(i=1,2,…,n )求解出⑦中的系数估计值β0、β1代入②式即得到Y 对x 的回归方程. 对表(1)中的数据计算结果为Y=4.413+0.057x 2; ⑧ 专题三独立性检验的基本方法判断结论成立的可能性的一般步骤:(1)假设两个分类变量X 和Y 没有关系; (2)给定一个显著水平,查表给出临界值;(3)计算χ2=;))()()(()(2d b d c b a c a bc ad n ++++-(4)若χ2大于临界值,则认为x 与y 有关系,否则没有充分的理由说明这个结论不成立随机抽取189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,根据上述数据能得出什么结论?分析:首先由已知条件确定a ,b ,c ,d ,n 的数值,再利用公式求出χ2的观测值,最后与临界值比较再下结论. 解:由题目中表的数据可知:a=54,b=40,c=32,d=63,a+b=94,c+d=95,a+c=86,b+d=103,n=189.代入公式得χ2=103869594)32406354(1892⨯⨯⨯⨯-+⨯≈10.759.因为10.759>6.635,所以有99%的把握认为员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革态度和工作积极性是有关的.【例2】在一次恶劣气候的飞行航程中调查男女乘客晕机的情况如下表所示,根据此资料您χ2=57323455)8312624(892⨯⨯⨯⨯-⨯⨯≈3.689.因为3.689>2.706,所以有90%的把握认为此次飞行中晕机与否跟男女性别有关. 几点注意:(1)在列联表中注意各项的对应及有关值的确定,避免混乱. (2)若要判断X 与Y 有关时,先假设X 与Y 无关.(3)把计算出的χ2的值与相关的临界值作比较,确定出“X 与Y 有关系”的把握.科海观潮 相关与相关系数一、什么是相关事物总是相互联系的,它们之间的关系多种多样,分析起来,大概有以下几种情况:(1)一种是因果关系,即一种现象是另一种现象的因,而另一种现象则是果.例如学习的努力程度是学习成绩好坏的因(至少是部分的因);在一定刺激强度范围内,刺激强度经常是反应强度的因等.(2)第二种是共变关系,即表面看来有联系的两种事物都与第三种现象有关,这时两种事物之间的关系,便是共变关系.例如春天出生的婴儿与春天栽种的小树,就其高度而言,表面上看来都在增长,好像有关,其实,这二者都是受时间因素影响在发生变化,在它们本身之间并没有直接的关系.(3)第三种是相关关系,即两类现象在发展变化的方向与大小方面存在一定的关系,但不能确定这两类现象之间哪个是因,哪个是果;也有理由认为这两者并不同时受第三因素的影响,即不存在共变关系.具有相关关系的两种现象之间,关系是复杂的,甚至可能包含有暂时尚未认识的因果关系及其共变关系在内.例如,同一组学生的语文成绩与数学成绩的关系,即属于相关关系.统计学中所讲的相关是指具有相关关系的不同现象之间的关系程度.相关的情况有以下三种:一是两列变量变动方向相同,即一列变量变动时,另一列变量亦同时发生或大或小与前一列变量同方向的变动,这称为正相关.如身高与体重的关系,一般讲身长越长体重就越重.第二种相关情况是负相关,这时两列变量中若有一列变量变动时,另一列变量呈或大或小,但与前一列变量指向相反的变动.例如初学打字时练习次数越多,出现错误的量就越少等.第三处相关情况是零相关,即两列变量之间无关系.这种情况下,一列变量变动时,另一列变量作无规律的变动.如学习成绩优劣与身高之间的关系,就属零相关,即无相关关系,二者都是独立的随机变量.二、相关系数相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标,作为样本间相互关系程度的统计特征数,常用r表示,作为总体参数,一般用ρ表示,并且是指线性相关而言.相关系数的取值介于-1.00至+1.00之间,常用小数形式表示.它只是一个比率,不代表相关的百分数,更不是相关量的相等单位的度量.相关系数的正负号,表示相关方向,正值表示正相关,负值表示负相关.相关系数取值的大小表示相关的程度.相关系数为0时,称零相关即毫无相关,为1.00时,表示完全正相关,相关系数为-1.00时,为完全负相关.这二者都是完全相关.如果相关系数的绝对值在1.00与0之间不同时,则表示关系程度不同.接近1.00端一般为相关程度密切,接近0端一般为关系不够密切.(注意:若是非线性相关关系,而且直线相关计算r值可能很小,但不能说两变量关系不密切)关于这一点如何判定,尚需考虑计算相关系数时样本数目的多少.如果样本数目较少,受取样偶然因素的影响较大,很有可能本来无关的两类事物,却计算出较大的相关系数来.例如欲研究身高与学习有无关系,如果只选3、5个人,很可能遇到身材愈高学习愈好这一类偶然现象,这时虽然计算出的相关系数可能接近 1.00,但实际上这两类现象之间并无关系.究竟如何综合考虑样本数目大小,相关系数取值大小而判定相关是否密切这一问题,一般要经过统计检验后方能确定.相关系数不是等距的度量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,如只能说相关系数r=0.50的两列数值比相关系数r=0.25的两列数值之间的关系程度更密切,而绝不能说前二者的密切程度是后二者密切程度的两倍.也不能说相关系数从0.25到0.50与从0.50到0.75所提高的程度一样多.存在相关关系,即相关系数取值较大的两类事物之间,不一定存在因果关系,这一点要从事物的本质方面进行分析,绝不可简单化.计算相关系数一般要求成对的数据,即若干个体中每个个体要有两种不同的观测值.例如每个学生(智力相同者)的算术和语文成绩;每个人的视反应和听反应时;每个学生的智力分数与学习成绩等等.任意两个个体之间的观测值不能求相关.计算相关的成对数据的数目,一般以30以上为宜.。
高中数学第3章统计案例章末复习课学案北师大版选修23
高中数学第3章统计案例章末复习课学案北师大版选修23回归分析【例1】下表是一位母亲给儿子作的成长记录:年龄/周岁3456789 身高/cm90.897.6104.2110.9115.6122.0128.5 年龄/周岁10111213141516 身高/cm134.2140.8147.6154.2160.9167.5173.0(2)如果年龄(3周岁~16周岁之间)相差5岁,其身高有多大差异?(3)如果身高相差20 cm,其年龄相差多少?[解](1)设年龄为x,身高为y,则x=114(3+4+…+15+16)=9.5,y =114(90.8+97.6+…+167.5+173.0)≈131.985 7,∑14i =1x 2i =1 491,∑14i =1y 2i =252 958.2,∑14i =1x i y i =18 990.6,14x y ≈17 554.1, ∴∑14i =1x 2i -14(x )2=227.5,∑14i =1y 2i -14(y )2≈9 075.05, ∑14i =1x i y i -14x y =1 436.5,∴r =∑14i =1x i y i -14x y∑14i =1x 2i -14(x )2∑14i =1y 2i -14(y )2=1 436.5227.5×9 075.05≈0.999 7.因此,年龄和身高之间具有较强的线性相关关系.(2)由(1)得b =∑14i =1x i y i -14x y∑14i =1x 2i -14(x )2=1 436.5227.5≈6.314, a =y -b x =131.985 7-6.314×9.5≈72,∴x 与y 的线性回归方程为y =6.314x +72.因此,如果年龄相差5岁,那么身高相差6.314×5=31.57(cm). (3)如果身高相差20 cm ,年龄相差206.314≈3.168≈3(岁).解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.(3)实际应用.依据求得的回归方程解决实际问题.1.某运动员训练次数与运动成绩之间的数据关系如下: 次数x 30 33 35 37 39 44 46 50 成绩y3034373942464851(2)求出回归直线方程;(3)计算相关系数并进行相关性检验;(4)试预测该运动员训练47次及55次的成绩.[解](1)作出该运动员训练次数x与成绩y之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:次数x i成绩y i x2i y2i x i y i 30309009009003334 1 089 1 156 1 1223537 1 225 1 369 1 2953739 1 369 1 521 1 4433942 1 521 1 764 1 6384446 1 936 2 116 2 0244648 2 116 2 304 2 2085051 2 500 2 601 2 550 由上表可求得x=39.25,y=40.875,∑i=18x2i=12 656,∑i=18y2i=13 731,∑i=18x i y i=13 180,∴b=∑i=18x i y i-8x y∑i=18x2i-8x2≈1.041 5,a=y-b x=-0.003 88,∴回归直线方程为y=1.041 5x-0.003 88.(3)计算相关系数r=0.992 7,因此运动员的成绩和训练次数两个变量有较强的相关关系.(4)由上述分析可知,我们可用回归直线方程y=1.041 5x-0.003 88作为该运动员成绩的预报值.将x=47和x=55分别代入该方程可得y≈49和y≈57.故预测该运动员训练47次和55次的成绩分别为49和57.独立性检验黄烟中,经过药物处理的黄烟有25株发生青花病,60株没有发生青花病;未经过药物处理的有185株发生青花病,200株没有发生青花病.试推断经过药物处理跟发生青花病是否有关系.[解] 由已知得到下表:药物处理 未经过药物处理总计 青花病 25 185 210 无青花病 60 200 260 总计85385470根据2×2列联表中的数据,可以求得χ2=470×(25×200-185×60)2210×260×85×385≈9.788.因为χ2>6.6.35,所以我们有99%的把握认为经过药物处理跟发生青花病是有关系的.独立性检验问题的基本步骤 (1)找相关数据,作列联表. (2)求统计量χ2.(3)判断可能性,注意与临界值做比较,得出事件有关的可信度.2.某学校高三年级有学生1 000名,经调查研究,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B 类同学).现用分层抽样方法(按A 类、B 类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 cm 作为达标的标准,对抽取的100名学生,得到以下列联表:体育锻炼与身高达标2×2列联表身高达标 身高不达标总计 积极参加体育锻炼 40不积极参加体育锻炼15总计100(2)请问体育锻炼与身高达标是否有关系(χ2值精确到0.01)?参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[解] (1)χ2=100×(40×15-35×10)275×25×50×50≈1.33<2.706,所以没有充分的理由说明体育锻炼与身高达标有关系.。
高中数学 第三章 统计案例章末复习课学案 北师大版选修23
第三章统计案例学习目标 1.能通过相关系数判断两变量间的线性相关性.2.掌握建立线性回归模型的步骤.3.理解条件概率的定义及计算方法.4.能利用相互独立事件同时发生的概率公式解决一些简单的实际问题.5.掌握利用独立性检验解决一些实际问题.知识点一线性回归分析1.线性回归方程在线性回归方程y=a+bx中,b=____________=____________,a=____________.其中x =____________,y=____________.2.相关系数(1)相关系数r的计算公式r=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2.(2)相关系数r的取值范围是________,|r|值越大,变量之间的线性相关程度越高.(3)当r>0时,b________0,称两个变量正相关;当r<0时,b________0,称两个变量负相关;当r=0时,称两个变量线性不相关.知识点二独立性检验1.2×2列联表设A、B为两个变量,每一变量都可以取两个值,得到表格其中,a表示变量A取 ________,且变量B取 ________时的数据,b表示变量A取 ______,且变量B取________时的数据;c表示变量A取 __________,且变量B取 ________时的数据;d表示变量A取________,且变量B取________时的数据.上表在统计中称为2×2列联表.2.统计量χ2=____________________.3.独立性检验当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当χ2>2.706时,有________的把握判定变量A,B有关联;当χ2>3.841时,有________的把握判定变量A,B有关联;当χ2>6.635时,有________的把握判定变量A,B有关联.类型一线性回归分析例1 某城市理论预测2010年到2014年人口总数与年份的关系如表所示:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出y关于x的线性回归方程y=bx+a;(3)据此估计2018年该城市人口总数.反思与感悟解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.(3)实际应用.依据求得的回归方程解决实际问题.跟踪训练1 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:且知x与y具有线性相关关系,求出y关于x的线性回归方程.类型二 独立性检验思想与应用例2 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.(1)请将上面的2×2列联表补充完整;(不用写计算过程)(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由.反思与感悟 独立性检验问题的求解策略 χ2统计量法:通过公式 χ2=n ad -bc 2a+bc +d a +cb +d先计算统计量,再用以下结果对变量的独立性进行判断.(1)当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的.(2)当χ2>2.706时,有90%的把握判定变量A,B有关联.(3)当χ2>3.841时,有95%的把握判定变量A,B有关联.(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;(2)根据以上数据完成如下2×2列联表;(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?1.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y与父亲的身高x的线性回归方程y=bx+a中,b( )A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)内2.已知线性回归方程中斜率的估计值为1.23,回归方程过点(4,5),则线性回归方程为( ) A.y=1.23x+0.08 B.y=0.08x+1.23C.y=1.23x+4 D.y=1.23x+53.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到χ2≈9.643,则以下说法正确的是( )A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有1%的把握认为课外阅读量大与作文成绩优秀有关C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99%的把握认为课外阅读量大与作文成绩优秀有关4.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:根据以上数据可得出( )A.种子是否经过处理与是否生病有关B.种子是否经过处理与是否生病无关C.种子是否经过处理决定是否生病D.有90%的把握认为种子经过处理与生病有关5.对于线性回归方程y=bx+a,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x=________时,y的估计值是38.1.建立回归模型的基本步骤(1)确定研究对象,明确变量.(2)画出散点图,观察它们之间的关系.(3)由经验确定回归方程的类型.(4)按照一定的规则估计回归方程中的参数.2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.答案精析知识梳理 知识点一1.∑ni =1x i -xy i -y∑n i =1x i -x 2∑ni =1x i y i -n x y∑n i =1x 2i -n x2y -b x 1n ∑ni =1x i 1n ∑ni =1y i2.(2)[-1,1] (3)> < 知识点二1.a +b c +d a +c b +d a +b +c +d A 1 B 1 A 1 B 2 A 2 B 1 A 2 B 2 2.n ad -bc 2a+bc +d a +cb +d3.90% 95% 99% 题型探究例1 解 (1)散点图如图.(2)因为x =0+1+2+3+45=2,y =5+7+8+11+195=10,∑5i =1x i y i =0×5+1×7+2×8+3×11+4×19=132,∑5i =1x 2i =02+12+22+32+42=30, 所以b =132-5×2×1030-5×22=3.2, a =y -b x =3.6.所以线性回归方程为y =3.2x +3.6. (3)令x =8,则y =3.2×8+3.6=29.2, 故估计2018年该城市人口总数为292万人.跟踪训练1 解 x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15y 2i =122+102+72+52+32=327, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b =∑i =15x i y i -5x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,所以a =7.4+1.15×18=28.1,所以y 对x 的线性回归方程为y =-1.15x +28.1. 例2 解 (1)列联表补充如下:(2)由χ2=-228×20×32×16≈4.286.因为4.286>3.841,所以能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关. 跟踪训练2 解 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如下:(3)χ2=-212×18×20×10=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.当堂训练1.C 2.A 3.D 4.B5.y=x+14 24。
(常考题)北师大版高中数学高中数学选修2-3第三章《统计案例》检测(答案解析)
一、选择题1.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e2.下列命题中正确的个数( )①“0x ∀>,2sin x x >”的否定是“00x ∃≤,002sin x x ≤”;②用相关系数r 可以刻画回归的拟合效果,2r 值越小说明模型的拟合效果越好;③命题“若0a b >>,则330a b >>”的逆命题为真命题;④若()22130mx m x m -+++≥的解集为R ,则m 1≥.A .0B .1C .2D .33.为检测某药品服用后的多长时间开始有药物反应,现随机抽取服用了该药品的1000人,其服用后开始有药物反应的时间(分钟)与人数的数据绘成的频率分布直方图如图所示.若将直方图中分组区间的中点值设为解释变量x (分钟),这个区间上的人数为y (人),易见两变量x ,y 线性相关,那么一定在其线性回归直线上的点为( )A .()1.5,0.10B .()2.5,0.25C .()2.5,250D .()3,3004.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问400名不同的大学生是否爱好某项运动,利用22⨯列联表,计算可得2K 的观测值7.556k ≈,附表:20()P K k ≥0.15 0.100.050.025 0.010 0.005 0.001 0k 2.0722.7063.8415.0246.6357.87910.828参照附表,得到的正确结论是A .有99%以上的把握认为“爱好该项运动与性别无关”B .有99%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别无关” 5.下列命题是假命题...的是( ) A .某企业有职工150人,其中高级职称15人,中级职称45人,一般职员90人,若用分层抽样的方法抽出一个容量为30的样本,则一般职员应抽出18人; B .用独立性检验(列联表法)来考察两个分类变量是否有关系时,算出的随机变量的值越大,说明“与有关系”成立的可能性越大;C .已知向量,,则是的必要条件; D .若,则点的轨迹为抛物线.6.某科研机构为了研究中年人秃发与患心脏病是否有关,随机调查了一些中年人的情况,具体数据如表,根据表中数据则可判定秃发与患心脏病有关,那么这种判定出错的可能性为( ) 患心脏病情况秃发情况 患心脏病 无心脏病 秃发 20 300 不秃发5450A .0.1B .0.05C .0.01D .0.997.两个分类变量X 和Y ,值域分别为{x 1,x 2}和{y 1,y 2},其样本频数分别是a =10,b =21,c +d =35,若X 与Y 有关系的可信程度为90%,则c =( ) A .4 B .5 C .6 D .78.经过对K 2的统计量的研究,得到了若干个观测值,当K 2≈6.706时,我们认为两分类变量A 、B ( )A .有67.06%的把握认为A 与B 有关系 B .有99%的把握认为A 与B 有关系C .有0.010的把握认为A 与B 有关系D .没有充分理由说明A 与B 有关系9.某家具厂的原材料费支出x 与销售量y (单位:万元)之间有如下数据,根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为ˆ8ˆy x b =+,则^b为( ) x 2 4 5 6 8 y2535605575A .5B .15C .10D .2010.下列说法:①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大.②以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则,c k 的值分别是4e 和0.3.③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y a bx =+中,2,1,3b x y ===,则1a =.④如果两个变量x 与y 之间不存在着线性关系,那么根据它们的一组数据()(,1,2,,)i i x y i n =不能写出一个线性方程正确的个数是( )A .1B .2C .3D .411.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,统计数据如下表附:经计算2 4.514K ≈,现判断数学成绩与物理成绩有关系,则判断出错的概率不会超过 A .0.5%B .1%C .2%D .5%12.已知回归方程0.8585.7y x ∧=-,则该方程在样本()165,57 处的残差为( ) A .111.55B .54.5C .3.45D .2.45二、填空题13.给出下列结论:①在回归分析中,可用相关指数2R的值判断模型的拟合效果,2R越大,模型的拟合效果越好;②某工厂加工的某种钢管,内径与规定的内径尺寸之差是离散型随机变量;③随机变量的方差和标准差都反映了随机变量的取值偏离均值的平均程度,它们越小,则随机变量偏离均值的平均程度越小;④甲、乙两人向同一目标同时射击一次,事件A:“甲、乙中至少一人击中目标”与事件B:“甲、乙都没有击中目标”是相互独立事件.其中结论正确的是______.14.利用独立性检验考察两个分类变量X与Y是否有关系时,若K2的观测值k=6.132,则有__________的把握认为“X与Y有关系”.15.登山族为了了解某山高y(km)与气温x(℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:气温x(℃)181310-1山高y(km)24343864由表中数据,得到线性回归方程ˆy=-2x+ˆa(ˆa∈R),由此估计出山高为72(km)处的气温为_____℃.16.新闻媒体为了了解观众对央视某节目的喜爱与性别是否有关,随机调查了观看该节目的观众110名,得到如下的2×2列联表:试根据样本估计总体的思想,估计约有________的把握认为“喜爱该节目与否和性别有关”.参考附表:k 0 3.841 6.635 10.828(参考公式:K 2=()()()()()2n ad bc a b c d a c b d -++++,其中n=a+b+c+d)17.给出下列5种说法:①标准差越小,样本数据的波动也越小; ②回归分析研究的是两个相关事件的独立性;③在回归分析中,预报变量是由解释变量和随机误差共同确定的; ④相关指数是用来刻画回归效果的,的值越大,说明回归模型的拟合效果越好.⑤对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越小.其中说法正确的是________(请将正确说法的序号写在横线上).18.为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:理科 文科 总计 男 13 10 23 女 7 20 27 总计203050已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.19.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是_____________. ①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.20.下列说法中,正确的有_______.①回归直线ˆˆˆy bx a =+恒过点(),x y ,且至少过一个样本点;②根据22⨯列列联表中的数据计算得出2 6.635K ≥,而()26.6350.01P K ≥≈,则有99%的把握认为两个分类变量有关系;③2k 是用来判断两个分类变量是否相关的随机变量,当2k 的值很小时可以推断两个变量不相关;三、解答题21.有治疗某种疾病的A B 、两种药物,为了分析药物的康复效果进行了如下随机抽样调查:AB 、两种药物各有100位病人服用,他们服用药物后的康复时间(单位:天数)及人数记录如下: 服用A 药物:(1)若康复时间低于15天(不含15天),记该种药物对某病人为“速效药物”.当17a >时,请完成下列22⨯列联表,并判断是否有99%的把握认为病人服用药物A 比服用药物B 更速效?A 药物的7人为Ⅰ组,服用B 药物的7人为Ⅱ组.现从Ⅰ、Ⅱ两组中随机各选一人,分别记为甲、乙.①a 为何值时,Ⅰ、Ⅱ两组人康复时间的方差相等(不用说明理由); ②在①成立且12a >的条件下,求甲的康复时间比乙的康复时间长的概率. 参考数据:参考公式:2()()()()()n ad bc K a b c b a c b d -=++++,其中n =a +b +c +d.22.“直播带货”是指通过一些互联网平台,使用直播技术进行商品线上展示、咨询答疑、导购销售的新型服务方式.某高校学生会调查了该校100名学生2020年在直播平台购物的情况,这100名学生中有男生60名,女生40名.男生中在直播平台购物的人数占男生总数的23,女生中在直播平台购物的人数占女生总数的78. (1)填写22⨯列联表,并判断能否有99%的把握认为校学生的性别与2020年在直播平台购物有关?2020年在直播平台购物的概率,从全校所有学生中随机抽取4人,记这4人中2020年在直播平台购物的人数与未在直播平台购物的人数之差为X ,求X 的分布列与期望.附:n a b c d =+++,22()()()()()n ad bc K a b c d a c b d -=++++. 23.为考察某种药物预防禽流感的效果,进行动物家禽试验,调查了100个样本,统计结果为:服用药的共有60个样本,服用药但患病的仍有20个样本,没有服用药且未患病的有20个样本.(1)根据所给样本数据画出22⨯列联表;(2)请问能有多大把握认为药物有效?附公式:()()()()()22=n ad bc K a b c d a c b d -++++.24.新高考,取消文理科,实行“33+”,成绩由语文、数学、外语统一高考 成绩和自主选考的3门普通高中学业水平考试等级性考试科目成绩构成.为了解各年龄层对新高考的了解情况,随机调查50人(把年龄在[)15,45称为中青年,年龄在[)45,75称为中老年),并把调查结果制成下表:(1)分别估计中青年和中老年对新高考了解的概率;(2)请根据上表完成下面22⨯列联表,是否有95%的把握判断对新高考的了解与年龄(中青年、中老年)有关?附:()()()()()22n ad bc K a b c d a c b d -=++++.25.为了研究家用轿车在高速公路上的车速情况,交通部门对100名家用轿车驾驶员进行调查,得到其在高速公路上行驶时的平均车速情况为:在55名男性驾驶员中,平均车速超过100km/h 的有40人;在45名女性驾驶员中,平均车速不超过100km/h 的有25人. (1)完成下面的列联表,并判断是否有99.5%的把握认为平均车速超过100km/h 的人与性别有关.100km/h人数100km/h人数男性驾驶员人数女性驾驶员人数合计(2)以上述数据样本来估计总体,现从高速公路上行驶的大量家用轿车中随机抽取3辆,记这3辆车中驾驶员为男性且车速超过100km/h的车辆数为X,若每次抽取的结果是相互独立的,求X的分布列和数学期望.参考公式与数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++26.2016年欧洲杯将于2016年6月10日到7月10日在法国举行.为了使得赛会有序进行,欧足联在全球范围内选聘了30名志愿者(其中男性16名,女性14名).调查发现,男性中有10人会英语,女性中有6人会英语.(1)根据以上数据完成以下2×2列联表:并回答能否在犯错的概率不超过0.10的前提下认为性别与会英语有关?参考公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++参考数据:(2)会英语的6名女性志愿者中曾有4人在法国工作过,若从会英语的6名女性志愿者中随机抽取2人做导游,则抽出的2人都在法国工作过的概率是多少?【参考答案】***试卷处理标记,请不要删除一、选择题 1.B 解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y e e e +==⨯,故3c e =.故选:B. 【点睛】本题考查非线性回归问题的转化,是基础题.2.C解析:C 【分析】写出全称命题的否定判断①;由相关指数的大小与拟合效果的关系判断②;由不等式的性质判断③;由22(1)30mx m x m -+++的解集为R 求得m 的范围判断④. 【详解】解:对于①,“0x ∀>,2sin x x >”的否定是“00x ∃>,002sin x x ”,故①错误;对于②,用相关指数r 可以刻画回归的拟合效果,2r 值越大说明模型的拟合效果越好,故②错误;对于③,命题“若0a b >>0>>”的逆命题为“0>,则0a b >>”,是真命题,故③正确;对于④,当0m =时,22(1)30mx m x m -+++化为230x -+,解得32x,不合题意; 当0m ≠时,要使22(1)30mx m x m -+++的解集为R ,则24(1)4(3)0m m m m >⎧⎨+-+⎩,解得1m .∴若22(1)30mx m x m -+++的解集为R ,则1m .故④为真命题. ∴正确命题的个数是2个.故选:C . 【点睛】本题考查命题的真假判断与应用,考查命题的真假判断与命题的否定,训练了一元二次不等式的解法,属于中档题.3.C【分析】写出四个区间中点的横纵坐标,从而可求出 2.5x =,250y =,进而可选出正确答案. 【详解】解:由频率分布直方图可知, 第一个区间中点坐标,111.0,0.101000100x y ==⨯=, 第二个区间中点坐标,222.0,0.211000210x y ==⨯=, 第三个区间中点坐标,333.0,0.301000300x y ==⨯=, 第四个区间中点坐标,444.0,0.391000390x y ==⨯=, 则()12341 2.54x x x x x =+++=,()123412504y y y y y =+++=, 则一定在其线性回归直线上的点为(),x y ()2.5,250=. 故选:C. 【点睛】本题考查了频率分布直方图,考查了线性回归直线方程的性质.本题的关键是利用线性回归直线方程的性质,即点(),x y 一定在方程上.4.B解析:B 【分析】根据2K 的观测值7.556k ≈,对照表中数据,即可得到相应的结论. 【详解】根据2K 的观测值7.556k ≈,对照表中数据得出有0.01的几率说明这两个变量之间的关系是不可信的,即有10.0199%-=的把握说明两个变量之间有关系,故选B . 【点睛】本题主要考查独立性检验的应用,独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式计算2K 的观测值k ;(3)查表比较k 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误)5.D解析:D 【分析】根据分层抽样的概念易得,解出方程即可判断为真;用独立性检验(列联表法)的判定方法即可得出B 为真;根据充分条件和必要条件的定义以及向量的数量积的应用,进行判断即可得到C 为真;可将原式化为,表示动点到定点和到动直线距离相等的点的轨迹,但是定点在定直线上,故可判断D.设一般职员应抽出人,根据分层抽样的概念易得,解得,即一般职员应抽出18人,故A 为真; 用独立性检验(列联表法)来考察两个分类变量是否有关系时,算出的随机变量的值越大,说明“与有关系”成立的可能性越大,可知B 为真;若,则,即不成立,若,则,即成立,故是的必要条件,即C 为真;方程即:,化简得,即表示动点到定点的距离和到直线的距离相等的点的集合,且在直线上,故其不满足抛物线的定义,即D 为假,故选D.【点睛】本题主要考查了分层抽样的概念,独立性检验在实际中的应用,充分条件、必要条件的判定,抛物线的定义等,属于中档题.6.C解析:C 【分析】首先列出22⨯联表,通过计算出2K 的值,然后作统计推断,得出正确的结论. 【详解】列出22⨯联表如下图所示:患心脏病情况 秃发情况 患心脏病 无心脏病 小计 秃发 20 300 320 不秃发 5 450 455 小计25750775()277520450530015.96825750455320K ⨯⨯-⨯=≈⨯⨯⨯ 6.635>,故判断错误的概率不超过0.01,故选C .【点睛】本小题主要考查补全22⨯联表,考查2K 的计算以及独立性检验的概念,属于基础题. 独立性检验的步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式22n ad bc K a b c d a c b d -=++++()()()()(),计算2K 的观测值;(3)比较2K 与临界值的大小关系作统计推断. 7.B解析:B 【解析】 【分析】根据22⨯列联表,以及独立检验随机变量的临界值参考表,计算2K 对应的值,验证24,5,6,7,c K =是否恰好满足即可【详解】列22⨯列联表可知:()22661030521 3.024 2.70615513135K ⨯⨯-⨯=≈>⨯⨯⨯,所以5c =时,X 与Y 有关系的可信程度为90%,而其余的值4,6,7c c c ===皆不满足,故选B . 【点睛】独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(3) 查表比较2K 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.)8.B解析:B 【分析】根据所给的观测值,同临界值表中的临界值进行比较,根据P (K 2>3.841)=0.05,得到我们有1-0.05=95%的把握认为A 与B 有关系. 【详解】 依据下表:2 6.635K > ,2 6.6350.01P K =(>)∴我们在错误的概率不超过0.01的前提下有99%的把握认为A 与B 有关系, 故选B . 【点睛】本题考查独立性检验的应用,本题解题的关键是正确理解临界值对应的概率的意义,本题不用运算只要理解概率的意义即可.9.C解析:C 【详解】由题意可得:2456855x ++++==,2535605575505y ++++==,回归方程过样本中心点,则:5285,1ˆˆ0bb =⨯+∴=. 本题选择C 选项.10.C解析:C 【解析】①分类变量A 与B 的随机变量2K 越大,说明“A 与B 有关系”的可信度越大,正确; ②∵kx y ce =,∴两边取对数,可得lny ln =(kx ce )kx lnc lnce lnc kx =+=+, 令z lny =,可得z lnc kx =+, ∵0.34z x =+, ∴40.3lnc k ==, ∴4c e =.即②正确;③根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y =a +bx 中,2,1,3b x y ===,则a =1,正确。
新北师大版高中数学高中数学选修2-3第三章《统计案例》检测(有答案解析)(1)
一、选择题1.下列命题中正确的个数( )①“0x ∀>,2sin x x >”的否定是“00x ∃≤,002sin x x ≤”;②用相关系数r 可以刻画回归的拟合效果,2r 值越小说明模型的拟合效果越好;③命题“若0a b >>,则330a b >>”的逆命题为真命题;④若()22130mx m x m -+++≥的解集为R ,则m 1≥.A .0B .1C .2D .32.某商场为了了解不同厂家生产的散装面包的月销售量y (千克)与售价x (元/千克)之间的关系,随机统计了某几个月的月销售量与当月各散装面包的售价,相关数据如下表: 售价x (元/千克) 18 20 22 26 28 30月销售量y (千克)180 168 166 160 150 136由表中数据算出线性回归方程为 3.1ˆˆyx a =-+,则样本在()18180,处的残差为( ) A .0B .1.4C .2D .2.13.设导弹发射的事故率为0.01,若发射10次,其出事故的次数为ξ,则 下列结论正确的是 ( ) A .0.1E ξ=B .•01D ξ=C .10()0.01?0.99k k P k ξ-==D .1010()0.99?0.01kkkP k C ξ-==4.某中学共有5000人,其中男生3500人,女生1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:附:22()=()()()()n ad bcKa cb d a d b c-++++,其中n a b c d=+++.已知在样本数据中,有60位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理,我们()A.没有理由认为“该校学生每周平均体育锻炼时间与性别有关”B.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D.有99.5%的把握认为“该校学生每周平均体育锻炼时间与性别有关”5.某中学采取分层抽样的方法从高二学生中按照性别抽出20名学生,其选报文科、理科的情况如下表所示,参考公式和数据:22()()()()()n ad bcKa cb d a bc d-=++++,其中n a b c d=+++.则以下判断正确的是A.至少有97.5%的把握认为学生选报文理科与性别有关B.至多有97.5%的把握认为学生选报文理科与性别有关C.至少有95%的把握认为学生选报文理科与性别有关D.至多有95%的把握认为学生选报文理科与性别有关6.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程35y x =-,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归直线y bx a =+必过(),x y ; ④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079.则其两个变量间有关系的可能性是90%. 其中错误的个数是( ) A .1 B .2 C .3D .47.为考察数学成绩与物理成绩的关系,在高二随机抽取了300名学生,得到下面的列联表:现判断数学成绩与物理成绩有关系,则犯错误的概率不超过 ( ) A .0.005B .0.01C .0.02D .0.058.对于独立性检验,下列说法正确的是( ) A .K 2>3.841时,有95%的把握说事件A 与B 无关 B .K 2>6.635时,有99%的把握说事件A 与B 有关 C .K 2≤3.841时,有95%的把握说事件A 与B 有关 D .K 2>6.635时,有99%的把握说事件A 与B 无关9.若在区间[-5,5]内任取一个实数a ,则使直线x +y +a =0与圆(x -1)2+(y +2)2=2有公共点的概率为( )A B .25C .35D 10.如表为某公司员工工作年限x (年)与平均月薪y (千元)对照表.已知y 关于x 的线性回归方程为0.70.35y x =+,则下列结论错误的是( )A .回归直线一定过点(4.5,3.5)B .工作年限与平均月薪呈正相关C .t 的取值是3.5D .工作年限每增加1年,工资平均提高700元11.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列表:由上表中数据计算得2K =()21051030204555503075⨯⨯-⨯⨯⨯⨯≈6.109,请根据下表,估计有多大把握认为“文化程度与月收入有关系”( )A .1%B .99%C .2.5%D .97.5%12.已知回归方程0.8585.7y x ∧=-,则该方程在样本()165,57 处的残差为( ) A .111.55B .54.5C .3.45D .2.45二、填空题13.某中学为了调研学生的数学成绩和物理成绩是否有关系,随机抽取了189名学生进行调查,调查结果如下:在数学成绩较好的94名学生中,有54名学生的物理成绩较好,有40名学生的物理成绩较差;在成绩较差的95名学生中,有32名学生的物理成绩较好,有63名学生的物理成绩较差.根据以上的调查结果,利用独立性检验的方法可知,约有________的把握认为“学生的数学成绩和物理成绩有关系”.14.新闻媒体为了了解观众对央视某节目的喜爱与性别是否有关,随机调查了观看该节目的观众110名,得到如下的2×2列联表:女 男 总计 喜爱 40 20 60 不喜爱 20 30 50 总计6050110试根据样本估计总体的思想,估计约有________的把握认为“喜爱该节目与否和性别有关”. 参考附表: P (K 2≥k 0) 0.050 0.010 0.001 k 03.8416.63510.828(参考公式:K 2=()()()()()2n ad bc a b c d a c b d -++++,其中n=a+b+c+d)15.已知方程是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm ,的单位是kg ,那么针对某个体(160,53)的残差是________.16.已知方程ˆ0.8582.71yx =-是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,ˆy的单位是kg ,那么针对某个体(160,53)的残差是______________. 17.某汽车销售公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:百辆)的影响,对近8年的年宣传费i x 和年销售量i y (1,2,...,8)i =数据作了初步处理,得到年销售量y 与年宣传费具有近似关系:ˆyb x a =以及一些统计量的值如下:81i i x ==∑372.8,81i i y ==∑450.4,8i i x ==∑54.4,8i i y ==∑76.2 .已经求得近似关系中的系数68b =,请你根据相关回归分析方法预测当年宣传费100x =(千元)时,年销售量y =__________(百辆). 18.下列4个命题:①为了了解800名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔为40;②四边形ABCD 为长方形,2AB =,1BC =,O 为AB 中点,在长方形ABCD 内随机取一点P ,取得的P 点到O 的距离大于1的概率为12π-; ③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 2y x =的图象; ④已知回归直线的斜率的估计值为1.23,样本点的中心为()4,5,则回归直线方程为1.230.08y x =+.其中正确的命题有__________.(填上所有正确命题的编号) 19.下列命题中,正确的命题有__________.①回归直线ˆˆˆy bx a =+恒过样本点的中心(),x y ,且至少过一个样本点;②将一组数据的每个数据都加一个相同的常数后,方差不变;③用相关指数2R 来刻面回归效果;表示预报变量对解释变量变化的贡献率,越接近于1,说明模型的拟合效果越好;④若分类变量X 和Y 的随机变量2K 的观测值K 越大,则“X 与Y 相关”的可信程度越小;⑤.对于自变量x 和因变量y ,当x 取值一定时,y 的取值具有一定的随机性,x ,y 间的这种非确定关系叫做函数关系;⑥.残差图中残差点比较均匀的地落在水平的带状区域中,说明选用的模型比较合适; ⑦.两个模型中残差平方和越小的模型拟合的效果越好. 20.下列说法正确的个数有_________(1)已知变量x 和y 满足关系23y x =-+,则x 与y 正相关;(2)线性回归直线必过点(),x y ;(3)对于分类变量A 与B 的随机变量2k ,2k 越大说明“A 与B 有关系”的可信度越大 (4)在刻画回归模型的拟合效果时,残差平方和越小,相关指数2R 的值越大,说明拟合的效果越好.三、解答题21.网购是当前人们购物的新方式,某公司为了改进营销方式,随机调查了100名市民,统计了不同年龄的人群网购的人数如下表:(1)若把年龄在2060,的人称为“网购迷”,否则称为“非网购迷”,请完成下面的22⨯列联表,并判断能否在犯错误的概率不超过1%的前提下,认为网购与性别有关?附:()()()()()2n ad bc K a b c d a c b d -=++++.两人年龄都小于20岁的概率.22.某大型现代化农场在种植某种大棚有机无公害的蔬菜时,为创造更大价值,提高亩产量,积极开展技术创新活动.该农场采用了延长光照时间的方案,该农场选取了20间大棚(每间一亩)进行试点,得到各间大棚产量数据绘制成散点图.光照时长为x (单位:小时),大棚蔬菜产量为y (单位:千斤每亩),记ln w x =.(1)根据散点图判断,y a bx =+与ln y c d x =+⋅,哪一个适宜作为大棚蔬菜产量y 关于光照时长x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(结果保留小数点后两位)(3)根据实际种植情况,发现上述回归方程在光照时长位于6~14小时内拟合程度良好,利用(2)中所求方程估计当光照时长为2e 小时(自然对数的底 2.71828e ≈),大棚蔬菜亩产约为多少. 参数数据:201i i x =∑201i i y =∑201i i w =∑2021ii x=∑2021ii y=∑2021ii w=∑201i ii x y =∑201i ii w y =∑290 102.4 52 4870 540.28 1371578.2 272.1参考公式:β关于α的线性回归方程m n βα=⋅+中,1221i ii nii n m n αβαβαα==-⋅=-∑∑,n m βα=-⋅23.“直播带货”是指通过一些互联网平台,使用直播技术进行商品线上展示、咨询答疑、导购销售的新型服务方式.某高校学生会调查了该校100名学生2020年在直播平台购物的情况,这100名学生中有男生60名,女生40名.男生中在直播平台购物的人数占男生总数的23,女生中在直播平台购物的人数占女生总数的78. (1)填写22⨯列联表,并判断能否有99%的把握认为校学生的性别与2020年在直播平台购物有关?男生 女生 合计2020年在直播平台购物 2020年未在直播平台购物 合计(2)若把这100名学生2020年在直播平台购物的频率作为该校每个学生2020年在直播平台购物的概率,从全校所有学生中随机抽取4人,记这4人中2020年在直播平台购物的人数与未在直播平台购物的人数之差为X ,求X 的分布列与期望.附:n a b c d =+++,2()()()()()n ad bc K a b c d a c b d -=++++. 24.随着新高考改革的不断深入,高中学生生涯规划越来越受到社会的关注,下表为某高中为了调查学生成绩与选修生涯规划课程的关系,随机抽取50名学生的统计数据.(1)求a ,b ,c .(2)根据22⨯列联表,运用独立性检验的思想方法分析:能否有99%的把握认为“学生的成绩是否优秀与选修生涯规划课有关”.(3)如果从全校选修生涯规划课的学生中随机地抽取3名学生,求恰好抽到2名成绩不够优秀的学生的概率(将频率当作概率计算). 参考附表:参考公式()()()()()22n ad bc K a b a c b d c d -=++++,其中n a b c d =+++.25.十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的政策要求,带领广大农村地区人民群众脱贫奔小康,经过不懈的努力奋斗拼搏,新农村建设取得了巨大进步,农民年收入也逐年增加.为了实现2020年脱贫的工作计划,该地扶贫办随机收集了以下50位农民的统计数据,以此研究脱贫攻坚的效果是否与农民的受教育的发展状况有关:(1)根据列联表运用独立性检验的思想方法分析:能否有99%的把握认为“脱贫攻坚的效果与农民的受教育的发展状况有关”,并说明理由;(2)如果从全部受过教育的农民中随机地抽取3名,求抽到脱贫攻坚效果不明显的人数X 的分布列和数学期望(将频率当作概率计算).参考附表:参考公式:()()()()()22n ad bcKa b a c b d c d+=++++,其中n a b c d=+++.26.为了了解某班学生喜欢数学是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表,已知在全部50人中随机抽取1人抽到喜欢数学的学生的概率为3 5 .(1)能否在犯错误的概率不超过0.005的前提下认为喜欢数学与性别有关?说明你的理由;(2)现从女生中抽取2人进一步调查,设其中喜欢数学的女生人数为ξ,求ξ的分布列与期望.临界表供参考:(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【参考答案】***试卷处理标记,请不要删除一、选择题 1.C 解析:C 【分析】写出全称命题的否定判断①;由相关指数的大小与拟合效果的关系判断②;由不等式的性质判断③;由22(1)30mx m x m -+++的解集为R 求得m 的范围判断④. 【详解】解:对于①,“0x ∀>,2sin x x >”的否定是“00x ∃>,002sin x x ”,故①错误;对于②,用相关指数r 可以刻画回归的拟合效果,2r 值越大说明模型的拟合效果越好,故②错误;对于③,命题“若0a b >>0>>”的逆命题为“0>,则0a b >>”,是真命题,故③正确;对于④,当0m =时,22(1)30mx m x m -+++化为230x -+,解得32x,不合题意; 当0m ≠时,要使22(1)30mx m x m -+++的解集为R ,则24(1)4(3)0m m m m >⎧⎨+-+⎩,解得1m .∴若22(1)30mx m x m -+++的解集为R ,则1m .故④为真命题. ∴正确命题的个数是2个.故选:C . 【点睛】本题考查命题的真假判断与应用,考查命题的真假判断与命题的否定,训练了一元二次不等式的解法,属于中档题.2.B解析:B 【分析】根据表中的数据求出(),x y ,利用回归直线方程经过样本中心点(),x y 求出ˆa,把18x =代入回归直线方程求出ˆy,利用残差的定义ˆy y -即可求解. 【详解】由表格得(),x y 为()24,160 ,又回归直线方程 3.1ˆˆyx a =-+经过样本中心点(),x y , 所以160 3.124ˆa=-⨯+,解得ˆ234.4a =, 所以回归直线方程为 3.123.4ˆ4yx =-+, 把18x = 代入回归直线方程可得,ˆ178.6y=, 故样本在()18180, 处的残差为180178.6 1.4-=. 故选:B 【点睛】本题考查回归直线方程经过样本中心点和利用回归直线方程求某点处的残差;考查运算求解能力;熟练掌握回归直线方程经过样本中心点和残差的定义是求解本题的关键;属于中档题.3.A解析:A 【解析】 【分析】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,实验的结果只有发生和不发生两种结果,故本题符合独立重复试验,由独立重复试验的期望公式得到结果. 【详解】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,故本题符合独立重复试验,即ξ~(10,0.01)B . ∴100.010.1E ξ=⨯= 故选A . 【点睛】解决离散型随机变量分布列和期望问题时,主要依据概率的有关概念和运算,同时还要注意题目中离散型随机变量服从什么分布,若服从特殊的分布则运算要简单的多.4.B解析:B 【解析】分析:根据题设收集的数据,得到男生学生的人数,进而得出22⨯的列联表,利用计算公式,求解2K 的值,即可作出判断.详解:由题意得,从5000人中,其中男生3500人,女生1500人,抽取一个容量为300人的样本,其中男女各抽取的人数为35003002105000⨯=人,1500300905000⨯=人, 又由频率分布直方图可知,每周体育锻炼时间超过4小时的人数的频率为0.75,所以在300人中每周体育锻炼时间超过4小时的人数为3000.75225⨯=人,又在每周体育锻炼时间超过4小时的人数中,女生有60人,所以男生有22560165-=人,可得如下的22⨯的列联表:结合列联表可算得22300(456016530)4.762 3.8412109075225K⨯⨯-⨯=≈>⨯⨯⨯,所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”,故选B.点睛:本题主要考查了独立性检验的基础知识的应用,其中根据题设条件得到男女生的人数,得出22⨯的列联表,利用公式准确计算是解答的关键,着重考查了分析问题和解答问题的能力.5.C解析:C【解析】由题易得22⨯列联表如下:则2K的观测值为()220235104.432 3.841128713k⨯⨯-⨯=≈>⨯⨯⨯,所以至少有95%的把握认为学生选报文理科与性别有关,故选:C.【解题必备】(1)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握认为两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体.即独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验的具体做法:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α, 然后查下表确定临界值0k ; ②利用公式()()()()()22n ad bc K a c b d a b c d -=++++,计算随机变量2K 的观测值k ;③如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.说明:通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.6.C解析:C 【解析】对于①,方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变,故正确;对于②,一个回归方程ˆ35yx =-,变量x 增加一个单位时,y 平均减小5个单位,故不正确;对于③,线性回归直线ˆˆˆy bx a =+必过样本中心点(),x y ,故正确;对于④,曲线上的点与该点的坐标之间具有一一对应关系,故不正确;对于⑤,有一个2×2列联表中,由计算得213.079K =,则其两个变量间有关系的可能性是99.9%,故不正确. 故选C.7.D解析:D 【解析】因为K 2的观测值k=2300(371433585)12217872228⨯-⨯⨯⨯⨯≈4.514>3.841, 所以在犯错误的概率不超过0.05的前提下认为数学成绩与物理成绩有关系. 选D.8.B解析:B【解析】由独立性检验的知识知:K 2>3.841时,有95%的把握认为“变量X 与Y 有关系”;K 2>6.635时,有99%的把握认为“变量X 与Y 有关系”.故选项B 正确.9.B解析:B 【解析】∵直线0x y a ++=与圆()()22122x y -+=+有公共点,∴≤13a -≤≤,∴在区间[55]-,内任取一个实数a ,使直线0x y a ++=与圆()()22122x y -+=+有公共点的概率为312555+=+,故选B. 点睛:本题主要考查了几何概型的概率,以及直线与圆相交的性质,解题的关键弄清概率类型,同时考查了计算能力,属于基础题;利用圆心到直线的距离小于等于半径可得到直线与圆有公共点,可求出满足条件的a ,最后根据几何概型的概率公式可求出所求.10.C解析:C 【解析】由已知中的数据可得:3456 4.54x +++== , 2.54 4.51144t ty ++++==,∵数据中心点(),x y 一定在回归直线上,∴110.7 4.50.354t+=⨯+解得3t =,故C 错误;故11 3.54t+=, 回归直线一定过点(4.53.5,),ABD 正确;故选C . 11.D解析:D 【解析】 试题由题根据二列联表得出;2K =()21051030204555503075⨯⨯-⨯⨯⨯⨯≈6.109,对应参考值得 2 5.024K >,则有10.0250.975-=,即有97.5%的把握认为文化程度与月收入有关系。
第三章统计案例小结与复习 教案高中数学选修2-3 北师大版
第三章统计案例小结与复习一、教学目标:会利用散点图和线性回归方程,分析变量间的相关关系;掌握独立性检验的步骤与方法。
二、教学重难点:会利用散点图和线性回归方程,分析变量间的相关关系;掌握独立性检验的步骤与方法。
三、教学方法:探析归纳,讲练结合 四、教学过程(一)、知识归纳与梳理 1、线性回归:(1)相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。
注:与函数关系不同,相关关系是一种非确定性关系。
(2)回归分析:对具有相关关系的两个变量进行统计分析的方法。
(3)散点图:表示具有相关关系的两个变量的一组数据的图形。
(4)回归直线方程:a bx y +=,其中⎪⎪⎩⎪⎪⎨⎧-=--=∑∑==x b y a x n x y x n y x b n i i ni i i 2121, ∑==n i i x n x 11。
相应的直线叫回归直线,对两个变量所进行的上述统计叫做回归分析。
(5)相关系数:)()(21221211y n y x n x yx n yx r ni i n i i ni ii ---=∑∑∑====相关系数的性质:(1)|r|≤1。
(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小。
2、独立性检验①22⨯列联表:列出的两个分类变量X 和Y ,它们的取值分别为12{,}x x 和12{,}y y 的样本频数表称为22⨯列联表1构造随机变量2χ()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++)得到2χ常与以下几个临界值加以比较:如果 2 2.706χ>,就有0090的把握因为两分类变量X 和Y 是有关系; 如果 2 3.841χ> 就有0095的把握因为两分类变量X 和Y 是有关系; 如果 2 6.635χ> 就有0099的把握因为两分类变量X 和Y 是有关系; 如果22.706χ≤,就认为没有充分的证据说明变量X 和Y 是有关系. (二)、典例探析例1、一个工厂在某年里每月产品的总成本y (万元)与该月产量x (万件)之间由如下一组数据:归直线方程. 解: 1)画出散点图:x2)r=∑∑∑===---1211212222121)12)(12(12i i i i i ii y y x x yx yx=18.534.1754.243120.997891-⨯⨯=在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r 0 05=0.576<0.997891, 这说明每月产品的总成本y (万元)与该月产量x (万件)之间存在线性相关关系.3)设回归直线方程a bx y+=ˆ, 利用⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=∑∑==xb y a x x y x y x b i i i i i 121221211212,计算a ,b ,得b≈1.215, a=x b y -≈0.974,∴回归直线方程为:974.0215.1ˆ+=x y例2、在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
高中数学 第三章 统计案例教案 北师大版选修23
第三章统计案例§1回归分析1.1 回归分析(教师用书独具)●三维目标1.知识与技能(1)了解回归分析的基本思想,会对两个变量进行回归分析.(2)明确建立回归模型的基本步骤,并对具体问题进行回归分析.(3)会解决实际问题.2.过程与方法(1)通过实际问题去理解回归分析的必要性,明确回归分析的基本思想.(2)从散点图中的点的分布上,发现直接求回归直线方程存在明显不足,从中引导学生去发现解决问题的新思路——进行回归分析.3.情感、态度与价值观(1)培养学生用整体的观点和互相联系的观点,来分析问题.(2)进一步加强数学的应用意识,培养学生学好数学、用好数学的信心.(3)加强与现实生活中的联系,以科学的态度评价两个变量的相关关系.●重点难点重点:掌握回归分析的步骤、相关系数、建立回归模型的步骤;体会有些非线性模型通过变换,可以转化为线性回归模型;在解决实际问题的过程中寻找更好的建型方法.难点:求线性回归方程的系数a,b;相关系数;选择不同的模型建模.回归分析主要是研究两个变量间的关系,是在必修三的基础上学习,教材的1.1回归分析是复习必修三的内容,为了使建立回归方程有意义,提出了相关系数,这与回归直线中b的系数有关联,教师可通过实例,让学生了解相关系数的大小与线性相关的关系;在现实中又有一种非线性的相关性,如何解决引导学生转化为线性关系,主要通过数形结合思想、函数思想,使问题化归为线性关系,教学中可通过提醒、猜想、练习等方法,使学生掌握本节的重点内容.(教师用书独具)●教学建议建议本节课用3课时讲解完成.教学中通过组织学生自己动手操作计算、观察、分析、交流、讨论、归纳让他们在探究学习中经历知识形成的全过程,从而形成“自主探究、合作交流”的数学学习方法.教师在课堂上可以用计算机软件进行参数的估计、相关系数的计数,让学生掌握利用计算器进行线性回归方程的求解和评价.●教学流程第1课时以实际问题作为课题引入.⇒回顾建立回归直线方程的基本步骤.⇒通过实例巩固、体验线性回归直线方程的求法及应用.⇒第2课时提出新问题,如何用其他方法刻画变量之间的线性相关.⇒师生共同探究,得出相关系的概念及相关系数的大小与线性相关之间的关系.⇒通过例题,巩固验证相关系数刻画变量之间的线性相关的特点.⇒第3课时引导学生探究如果不是线性回归模型,如何估计参数,能否利用线性回归模型.⇒对数据进行分析变换后,对新数据建立线性模型.⇒转化为原来变量模型,得出结论,总结建模思想,补充拓展.⇒课堂小结并完成当堂双基达标,巩固本节所学知识.课标解读 1.通过实例掌握回归分析的基本思想方法.2.利用最小二乘法会求线性回归直线方程,并能用线性回归直线方程进行预报.变量之间的相关关系【问题导思】1.正方形的面积S 与其边长a 是什么关系?圆的周长l 与半径r 是什么关系? 【提示】 ∵S =a 2,l =2πr , ∴它们都是确定的函数关系.2.父亲的身高与儿子的身高之间有何关系?耕种深度与水稻产量之间有何关系? 【提示】 非确定关系.1.变量之间有一定的联系,但不能完全用函数来表达.如人的体重y 与身高x .一般来说,身高越高,体重越重,但不能用一个函数来严格地表示身高与体重之间的关系.相关关系是非确定性关系,因变量的取值具有一定的随机性.2.在考虑两个变量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常把这种图叫作变量之间的散点图.线性回归方程【问题导思】1.确定线性回归方程,只需得出哪两个量?【提示】 确定线性回归直线方程,只需确定a ,b 两个量即可.2.在线性回归方程y =a +bx 中,当一次项系数b 为正数时,说明两个变量有何相关关系?在散点图上如何反映? 【提示】 说明两个变量正相关,在散点图上自左向右看这些点呈上升趋势.假设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),设线性回归方程为y =a +bx ,要使这n 个点与直线y =a +bx 的“距离”平方之和最小,即使得Q (a ,b )=(y 1-a -bx 1)2+(y 2-a -bx 2)2+…+(y n -a -bx n )2达到最小,a ,b 需满足b =∑nb =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x .由数据求线性回归方程已知x ,y 之间一组数据:x 0 1 2 3 y1357(1)分别计算:x 、y 、x 1y 1+…+x 4y 4,x 21+x 22+…+x 24; (2)求出线性回归方程y =bx +a .【思路探究】 可利用表格的数直接计算,然后把这些结果代入线性回归方程系数公式,分别求得a ,b ,再求出线性回归方程. 【自主解答】 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+…+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+…+x 24=02+12+22+32=14;(2)b =x 1y 1+x 2y 2+x 3y 3+x 4y 4-4x yx 21+x 22+x 23+x 24-4x 2=34-4×1.5×414-4×1.52=2;a =y -b x =4-2×1.5=1.故y =2x +1.答:(1)所求的值分别为:1.5,4,34,14; (2)所求的线性回归方程是:y =2x +1.求线性回归方程的步骤:(1)列表求出x ,y ,∑ni =1x 2i ,∑ni =1x i y i ;(2)利用公式b =∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x ,求出b ,a ;(3)写出线性回归方程.观察两相关量得如下数据:x -1 -2 -3 -4 -5 5 3 4 2 1 y-9-7-5-3-115379求两变量间的回归方程. 【解】 列表i 12345678910 x i-1-2-3-4-55342 1 y i-9-7-5-3-115379 x2i1491625259164 1 x i y i9141512551512149由此可得x=0,y=0,∑10i=1x2i=110,∑10i=1x i y i=110,b=∑10i=1x i y i-10x y∑10 i=1x2i-10x2=110-10×0110-10×0=1,a=y-b x=0,∴所求回归方程为y=x.求实际问题的回归方程某企业想通过做广告来提高自己的知名度,经预测可知本企业产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:x 24568y 3040605070(1)判断y与x是否具有线性相关关系;(2)求回归直线方程.【思路探究】先画出散点图,即可判断y与x是否具有相关关系,如果y与x具有相关关系可将有关数据代入公式求得回归直线方程.【自主解答】(1)散点图如图所示:根据散点图可知,所给的数据点都在一条直线的附近,所以y与x具有线性相关关系.(2)列出下表,并且科学地的进行有关计算.i 1234 5x i24568y i3040605070x i y i60160300300560x=5,y=50,∑5 i=1x2i=145,∑5i=1y2i=135 000,∑5i=1x i y i=1 380于是可得,b=∑5i=1x i y i-5x y∑5 i=1x2i-5x2=1 380-5×5×50145-5×52=6.5,a=y-b x=50-6.5×5=17.5,于是所求的回归直线方程是y=6.5x+17.5.对一级数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a、b的计算公式,算出a、b.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误.某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:汞含量x 2 4 6 8 10 消光系数y64138205285360(1)作散点图;(2)如果y 与x 之间具有线性相关关系,求线性回归方程. 【解】 (1)散点图如图.(2)由散点图可知,y 与x 呈相关关系,设线性回归方程为:y =bx +a .经计算:得x =6,y =210.4,∑5i =1x 2i =220,∑5i =1x i y i =7 790.∴b =7 790-5×6×210.4220-5×62=36.95, a =210.4-36.95×6=-11.3.∴线性回归方程为y =36.95x -11.3.利用回归直线方程进行统计某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x (x 取整数)元与日销售量y 台之间有如下关系:x 35 40 45 50 y 56 41 28 11(1)画出散点图,并判断y 与x 是否具有线性相关关系; (2)求日销售量y 对销售单价x 的线性回归方程;(3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.【思路探究】 两个变量呈现近似的线性关系,可通过公式计算出其线性回归方程,并根据方程求出其预测值.【自主解答】 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.(2)∵x =14×(35+40+45+50)=42.5,y =14×(56+41+28+11)=34,∑4i=1x i y i=35×56+40×41+45×28+50×11=5 410,∑4i=1x2i=352+402+452+502=7 350,∴b=∑4i=1x i y i-4x·y∑4 i=1x2i-4x2=5 410-4×42.5×347 350-4×42.52=-370125=-2.96.∴a=y-b x=34-(-2.96)×42.5=159.8.∴y=-2.96x+159.8.(3)依题意有P=(-2.96x+159.8)(x-30)=-2.96x2+248.6x-4 794,∴当x=248.62×2.96≈42时,P有最大值,约为426,即预测销售单价为42元时,能获得最大日销售利润.1.b=-2.96是斜率的估计值,说明单价每增加一个单位,日销售量就减少2.96. 2.借助于回归方程对实际问题的估计值是个近似值,不是一个准确值.假设关于某设备的使用年限x 和所支出的维修费y (万元)有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0若由资料可知y 对x 呈线性相关关系. (1)求线性回归方程;(2)估计使用年限为10年时,维修费用是多少万元? 【解】 (1)列表如下:ix iy ix 2ix i y i1 2 2.2 4 4.4 2 3 3.8 9 11.4 3 4 5.5 16 22.0 4 5 6.5 25 32.5 5 6 7.0 36 42.0 ∑202590112.3由此可得:x =4,y =5.进而可以求得b =∑5i =1x i y i -5x y∑5i =1x 2i -5x2=1.23,a =y -b x =0.08.∴线性回归方程为y =0.08+1.23x .(2)当x =10时,y =0.08+1.23×10=12.38(万元),即估计使用10年时维修费用是12.38万元.数形结合思想在回归分析中的应用(12分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨标准煤)与相应的生产能耗y(吨标准煤)的几组对照数据.x 345 6y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【思路点拨】(1)可直接由表格提供的点,列出散点图;(2)可利用线性回归方程中a,b公式直接求解;(3)直接用方程来估计所求值.【规范解答】(1)图形如图所示.3分(2)x =3+4+5+64=4.5;y =2.5+3+4+4.54=3.5;∑4i =1x i y i =3×2.5+4×3+5×4+6×4.5=66.5.∑4i =1x 2i =32+42+52+62=86. 6分∴b =∑4i =1x i y i -4x ·y ∑4i =1x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7, 8分 a =y -b x =3.5-0.7×4.5=0.35. 9分∴y =0.7x +0.35. 10分 (3)现在生产100吨甲产品用煤y =0.7×100+0.35=70.35,∴降低90-70.35=19.65吨标准煤. 12分线性回归方程的应用(1)描述两变量间的依存关系;(2)利用回归方程可进行预测;(3)利用回归方程还可以进行统计控制.1.作回归分析要有实际意义.2.回归分析前,最好先做出散点图.3.应用回归分析预测时,最好先作出散点图.1.下列说法正确的是( )A.任何两个变量都具有相关关系B.球的体积与该球的半径具有相关关系C.农作物的产量与施化肥量之间是一种确定性的关系D.某商品的生产量与该商品的销售价格之间是一种非确定性的关系【解析】两个变量之间的关系有两种,即函数关系与相关关系,故A错误.B中球的体积与该球的半径是函数关系.C中农作物的产量与施化肥量之间不是严格的函数关系,但是具有相关关系,因而是非确定性的关系.D中商品的生产量还和市场需求有关,故商品的生产量与该商品的销售价格之间是非确定性的关系.故选D.【答案】 D2.一位母亲记录了儿子3岁~9岁的身高(数据略),由此建立的身高y(单位:cm)与年龄x(单位:岁)的回归模型为y=7.19x+73.93.用这个模型预测这个孩子10岁时的身高,则下列叙述正确的是( )A.身高一定是145.83 cmB.身高在145.83 cm以上C.身高在145.83 cm以下D.身高在145.83 cm左右【解析】x=10时,y=7.19×10+73.93=145.83,但这是预测值而不是精确值,所以只能选D.【答案】 D3.在一次实验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的线性回归方程为________.【解析】通过检验A,B,C,D四点共线,都在直线y=x+1上.【答案】y=x+14.已知一个回归直线方程为y=1.5x+45,x∈{1,7,5,13,19},求y.【解】由已知可知:x=1+7+5+13+195=9.又∵回归直线过点(x,y),∴y =1.5x +45,即y =1.5×9+45=58.5.一、选择题1.对具有线性相关关系的两个变量建立的线性回归方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .只能大于0 C .可能等于0D .只能小于0【解析】 b 可能大于0,也可能小于0,但当b =0时,x ,y 不具有线性相关关系. 【答案】 A2.下列两个变量间的关系不是函数关系的是( ) A .正方体的棱长与体积 B .角的弧度数与它的正弦值C .单产为常数时,土地面积与粮食总产量D .日照时间与水稻亩产量【解析】 ∵A 、B 、C 都可以得出一个函数关系式,而D 不能写出确定的函数关系式,它只是一个不确定关系. 【答案】 D3.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y =bx +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.36万元 B .65.5万元 C .67.7万元D .72.0万元【解析】 x =4+2+3+54=3.5,y =49+26+39+544=42,∴a=y-b x=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6时,y=9.4×6+9.1=65.5,故选B.【答案】 B4.由一组样本数据(x1,y1),(x2,y2),…,(x n,y n)得到回归直线方程y=bx+a,那么下列说法中不正确的是( ) A.直线y=bx+a必经过点(x,y)B.直线y=bx+a至少经过点(x1,y1)(x2,y2),…,(x n,b n)中的一个点C.直线y=bx+a的斜率为∑ni=1x i y i-n x·y∑ni=1x2i-n x2D.直线y=bx+a的纵截距为y-b x【解析】回归直线可以不经过任何一个点.其中A:由a=y-b x代入回归直线方程y=bx+y-a x,即y=b(x-x)+y过点(x,y).∴B错误.【答案】 B5.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法正确的是( )A.l1与l2一定有公共点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合【解析】由于回归直线y=bx+a恒过(x,y)点,又两人对变量x的观测数据的平均值为s,对变量y的观测数据的平均值为t,所以l1和l2恒过点(s,t).【答案】 A二、填空题6.从某大学随机选取8名女大学生,其身高x(cm)和体重y(kg)的线性回归方程为y=0.849x-85.712,则身高172 cm的女大学生,由线性回归方程可以预测其体重约为________.【解析】将x=172代入线性回归方程y=0.849x-85.712,有y=0.849×172-85.712=60.316(kg).【答案】60.316 kg7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进行线性回归分析,结果如下:x=72,y=71,∑6i=1x2i=79,∑6i=1x i y i=1 481.b =1 481-6×72×7179-6×722≈-1.818 2,a =71-(-1.818 2)×72≈77.36,则销量每增加1 000箱,单位成本下降________元.【解析】 由上表可得,y =-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元. 【答案】 1.818 28.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y =0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 【答案】 0.254 三、解答题9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5 工作年限x /年 3 5 6 7 9 推销金额y /万元23345(1)求年推销金额y 关于工作年限x 的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 【解】 (1)设所求的线性回归方程为y =bx +a ,则b =∑i =15x i -xy i -y∑i =15x i -x2=1020=0.5, a =y -b x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y =0.5x +0.4. (2)当x =11时,y =0.5x +0.4=0.5×11+0.4 =5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.10.一种机器可以按各种不同速度运转,其生产物件中有一些含有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x 表示转速(单位:转/秒),用y 表示每小时生产的有缺点物件个数.现观测得到(x ,y )的4组值为(8,5),(12,8),(14,9),(16,11).(1)假设y 与x 之间存在线性相关关系,求y 与x 之间的线性回归方程.(2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒?(精确到1) 【解】 (1)设回归方程为y =a +bx ,则x =8+12+14+164=12.5,y =5+8+9+114=8.25, ∑4i =1x 2i =660,∑4i =1x i y i =438,b =∑4i =1x i y i -4x y∑4i =1x 2i -4x2=438-4×12.5×8.25660-4×12.52≈0.73, a =y -b x =8.25-0.73×12.5=-0.875,所以所求回归方程为y =-0.875+0.73x .(2)由y ≤10,即-0.875+0.73x ≤10,得x ≤10.8750.73≈15,即机器速度不得超过15转/秒.11.高二(3)班学生每周用于数学学习的时间x (单位:小时)与数学成绩y (单位:分)之间有如下数据:x 24 15 23 19 16 11 20 16 17 13 y92799789644783687159若某同学每周用于数学学习的时间为18小时,试预测该同学的数学成绩.【解】 显然学习时间与学习成绩间具有相关关系,可以列出下表,并用科学计算器进行计算.i 1 2 3 4 5 6 7 8 9 10 x i 24 15 23 19 16 11 20 16 17 13 y i 927997896447 83687159 x i y i2 208 1 185 2 231 1 691 1 024 5171 660 1 088 1 207767∑10i =1x 2i=3 182,∑10i =1x i y i=13 578于是可得b =∑10i =1x i y i -10x y∑10i =1x 2i -10x2=545.4154.4≈3.53,a=y-b x=74.9-3.53×17.4≈13.5.因此可求得回归直线方程为y=3.53x+13.5.当x=18时,y=3.53×18+13.5≈77.故该同学预计可得77分左右.(教师用书独具)在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表所示:价格x 1.4 1.6 1.82 2.2需求量y 121075 3(1)画出散点图;(2)求出y对x的回归直线方程;(3)如价格定为1.9万元,预测需求量大约是多少.(精确到0.01 t)【思路探究】先根据所给数据画出散点图,判断y与x是否具有线性相关关系,在此基础上利用回归方程系数的有关公式,求出相应的系数,然后结合函数知识预测需求量.【自主解答】(1)散点图如图所示.(2)采用列表的方法计算a与回归系数b.序号x i y i x2i x i y i1 1.412 1.9616.82 1.610 2.56163 1.87 3.2412.64 25 4 105 2.2 3 4.84 6.6Σ9 37 16.6 62x=15×9=1.8,y=15×37=7.4,b=62-5×1.8×7.416.6-5×1.82=-11.5,a=7.4+11.5×1.8=28.1.所以y对x的回归直线方程为y=a+bx=28.1-11.5x.(3)当x=1.9时,y=28.1-11.5×1.9=6.25,所以价格定为1.9万元时,需求量大约是6.25 t.解答本类题目的关键首先应先通过散点图来分析两变量间的关系是否相关,然后再利用求回归方程的公式求解回归方程,在此基础上,借助回归方程对实际问题进行预测.已知10只狗的血球体积x(单位:mm3)及红血球数y(单位:百万)的测量值如下:x 45424648423558403950y 6.53 6.309.257.50 6.99 5.909.49 6.20 6.557.72(1)画出散点图;(2)求出y对x的回归线性方程;(3)若血球体积为49 mm3,预测红血球数大约是多少?【解】(1)散点图如图(2)设线性回归方程为y =bx +a ,由表中数据代入公式,得b =∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.16,a =y -b x ≈0.12.所以所求线性回归方程为y =0.16x +0.12. (3)把x =49代入线性回归方程得:y =0.16×49+0.12≈7.96(百万),计算结果表明,当血球体积为49 mm 3时,红血球数大约为7.96百万.拓展阅读GDDS 和SDDS随着世界经济一体化的加快,各国间的交流与合作越来越频繁,为加强国际组织对各国经济运行状况的监督,国际社会在各领域纷纷建立了国际通行标准,其中国际货币基金组织(简称IMF)制定的数据公布通用系统(简称GDDS)和数据公布特殊标准(简称SDDS).GDDS 的主要内容和要求:在统计范围内,它将国民经济活动划分为5大经济部门,对每一部门各选定一组能够反映其活动实绩和政策以及可以帮助理解经济发展和结构变化的最为重要的数据.系统提出了五大部门综合框架和相关的数据类别和指标编制、公布的目标.选定的数据类别和指标中规定为主要部分.SDDS 将国民经济活动划分为4大经济部门.选定的数据类别分为:必须的、受鼓励的和“视相关程度”三类.必须的数据类别包括:综合统计框架、跟踪性数据、与部门有关的其他数据.IMF 为什么制定GDDS 和SDDS 呢?进入20世纪90年代以来,世界一些地区金融危机频繁爆发.1994年墨西哥的金融危机、1997年东南亚金融危机都导致国际金融市场剧烈动荡.两次金融危机给IMF 一个深刻的教训,也对其职能提出了挑战,在总结经验教训的基础上,IMF 认为,在新的国际经济、金融形势下,必须制定统一的数据发布标准,使各成员国按照统一程序提供全面、准确的经济金融信息,从而可以有效及时地对各国的经济进行正确的分析预测,从宏观上来作出调控,减少金融危机的发生和影响.1.2 相关系数课标解读 1.了解两个随机变量间的线性相关系数r ,并能利用公式求出相关系数r ;了解正相关、负相关、不相关的概念. 2.能利用相关系数r 判断两个随机变量间线性相关程度的大小,从而判断回归直线拟合的效果.相关系数【问题导思】1.有什么办法判断两个变量是否具有线性相关关系?【提示】 作出散点图,看这些点是否在某一直线的附近,计算线性相关系数. 2.线性相关系数与最小误差有何关系? 【提示】 Q (误差)=l yy (1-r 2).3.相关系数r 的绝对值的大小对相关性有何影响?【提示】 |r |越大,变量之间的相关程度越高;|r |越小,变量间线性相关程度越低;当r =0时,两个变量线性不相关.4.r 的正负对相关性的影响. 【提示】 r >0,b =l xyl xx>0两变量正相关; r <0,b =l xyl xx<0,两变量负相关.1.判断两个变量之间的线性相关关系的方法有: (1)计算线性相关系数r . (2)画散点图.2.假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r 的计算公式为r =l xyl xx l yy=∑ni=1x i-x y i-y∑ni=1x i-x2i=1ny i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2相关系数及其应用维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能就越好,而甲醛浓度是影响“缩醛化度”的重要因素,在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批试验,获得如下表数据.甲醛浓度18202224262830(克/升)缩醛化度26.8628.3528.7528.8729.7530.0030.36(克分子%)求相关系数r.【思路探究】可直接利用相关系数r的公式直接计算.【自主解答】列表如下:i x i y i x2i x i y i y2i11826.86324483.48721.459 622028.35400567803.722 532228.75484632.5826.562 542428.87576692.88833.476 952629.75676773.5885.062 562830.0078484090073030.36900910.80921.729 6∑168202.94 4 144 4 900.16 5 892.013 6 x=24,y=28.99,r=∑7i=1x i y i-7x y∑7i=1x2i-7x2∑7i=1y2i-7y2=4 900.16-7×24×28.994 144-7×242×5 892.013 6-7×28.992≈0.94.当相关系数|r|越接近1时,两个变量的线性相关程度越高,当相关系数|r|越接近0时,两个变量的线性相关程度越低.下列是小麦产量与施化肥量的一组观测数据:施化肥量15202530354045小麦产量320330360410460470480 判断施化肥量与水稻产量是否有相关关系.【解】i x i y i x2i y2i x i y i115320225102 400 4 800220330400108 900 6 600325360625129 6009 000430410900168 10012 300535460 1 225211 60016 100640470 1 600220 90018 800745480 2 025230 40021 600∑210 2 8307 000 1 171 90089 200∴r=∑i=17x i y i-7x y∑i=17x2i-7x2∑i=17y2i-7y2=4 300700×27 771.43≈0.975.由于r=0.975>0,因此施化肥量和水稻产量近似成线性正相关关系.线性回归分析的综合应用“阿曼德匹萨”是一个制作和外卖意大利匹萨的餐饮连锁店,其主要客户群是在校大学生,为研究各店铺的销售额与店铺附近地区大学生人数的关系,随机抽取十个分店的样本,得到数据如下:店铺编号 区内大学生数(万人)季度销售额(万元)1 0.2 5.8 2 0.6 10.53 0.8 8.84 0.8 11.85 1.2 11.76 1.6 13.7 7 2 15.78 2 16.9 9 2.2 14.9 10 2.620.2(1)试对区内大学生人数与店铺的销售额的关系进行相关性检验;(2)试根据这些数据建立回归模型,然后再进一步根据回归方程预测一个区内大学生人数1万人店铺的季度销售额; (3)若店铺的季度销售额低于10万元则亏损,试求建店区内大学生人数至少约多少人?【思路探究】 先根据表中的数据作相关检验,然后判断是否具有相关关系,再根据所给的数据解出线性回归方程,最后进行预测. 【自主解答】 (1)根据数据我们对区内大学生人数x 与店铺季度销售额y 作相关检验.根据数据可知:x =110(0.2+0.6+…+2.6)=1.4;y =110(5.8+10.5+…+20.2)=13,∑10i =1x 2i -10x 2=5.68,∑10i =1x i y i -10x y =28.4,∑10i =1y 2i -10y 2=157.3,因此r =28.45.68×157.3≈0.95;|r |接近1,因此有把握认为区内大学生人数x 与店铺季度销售额y 具有线性相关关系,求y 对x 的回归直线方程有意义.(2)回归系数b =28.45.68=5,a =13-5×1.4=6.因此回归直线方程是y=bx+a=5x+6.当x=1时,y=5×1+6=11,即区内大学生人数1万元店铺的季度销售额约11万元.(3)由回归直线方程是y=5x+6.令y≥10,解得x≥0.8,所以当建店区内大学生人数至少8 000人时才适合建店.进行相关性检验主要有两种常用方法,一是作散点图,观察所给的数据点是否在一条直线的附近,作散点图的优点是既直观又方便,是解决相关性检验问题比较常用的方法;缺点是作图总是存在误差,有时很难判断这些点是不是分布在一条直线的附近.二是利用样本相关系数对其进行相关性检验,优点是判断准确,缺点是计算繁琐,但可以借助计算器进行处理.在我国某地的一个县城,近期发现了好几个癌症村.政府部门十分震惊,马上组成调查组调查病因,经调查发现致癌的罪魁祸首是水源中的金属砷,它们来自附近的几家化工厂,化工厂排出的废水中含有金属砷,废水污染了水源,人食用了这种水就会致癌.下面就是调查组对几个癌症村水源中的砷超标的倍数和患癌症的人数统计的数据:砷超标的倍数x 34 5.5 4.2 5.86 3.5患癌症人数y 15202824354434(1)画出表中数据的散点图; (2)求y 对x 的回归方程;(3)若一个村的水源中砷超标的倍数为7,试估计这个村的患癌症的人数. 【解】 (1)散点图如图所示:(2)观察散点图,可知x 、y 成线性相关关系. 计算得x =327,y =2007,根据求b 公式代入数据计算得b ≈6.065,a =2007-6.065×327≈0.846. 所以患癌症人数y 对水源中砷超标的倍数x 的回归直线方程为y =6.065x +0.846.(3)根据上面求得的回归直线方程,当水源中砷超标的倍数为7时,y =6.065×7+0.846=43.301. 即该村患癌症的人数约为43人.对误差的大小与变量相关关系的理解有误对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不正确的是( )A.由样本数据得到的回归方程y=bx+a必过样本点的中心(x,y)B.在回归分析中,误差Q越小,变量之间的线性相关程度越高C.相关系数r越小,说明变量之间的线性相关程度越小D.在散点图中,若n个点在一条直线上,说明变量之间的相关性强【错解】 B【错因分析】对误差Q与变量间的相关关系理解错误.【防范措施】正确理解回归方程、相关系数r、误差Q、散点图等概念是解决概念题的基础.【正解】∵误差Q越小,|r|越大,变量之间的线性相关程度越高,而相关系数r的范围为-1≤r≤1,∴C错误.【答案】 C1.相关系数是用来刻画两个变量相关关系的强与弱的.2.相关系数的计算公式r=∑ni=1x i-x y i-y∑ni=1x i-x2∑ni=1y i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y21.在对变量y和x进行线性相关检验时,已知n是观测值组数,r是相关系数,且已知:①n=7,r=0.953 3;②n=15,r=0.301 2;③n=17,r=0.499 1;④n=3,r=0.9950.则变量y和x具有较高线性相关程度的是( )A.①和②B.①和④C.②和④D.③和④【解析】相关系数r的绝对值越大,变量x,y的线性相关程度越高,故选B.【答案】 B2.对相关系数r,下列说法正确的是( )A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.|r|越大,相关程度越小,|r|越小,相关程度越大D.|r|≤1且|r|越接近于1,相关程度越大,|r|越接近0,相关程度越小【解析】由两个变量相关系数公式。
2020学年高中数学第三章统计案例章末检测北师大版选修2-3(2021-2022学年)
章末检测(三)统计案例时间:120分钟满分:150分第Ⅰ卷(选择题,共60分)一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的)1.下列两个变量之间的关系不是函数关系的是( )A.角度和它的余弦值B.正方形的边长和面积C.正n边形的边数和内角和D.人的年龄和身高解析:函数关系就是一种变量之间的确定性的关系.A、B、C三项都是函数关系,甚至可以写出它们的函数表达式,分别为f(θ)=cos θ,g(a)=a2,h(n)=nπ-2π。
D项不是函数关系,对于年龄确定的人群,仍可以有不同的身高.答案:D2.对两个变量进行独立性检验的主要作用是()A.判断模型的拟合效果B.对两个变量进行相关分析C.给出两个变量有关系的可靠程度D.估计预报变量的平均值解析:独立性检验的目的就是明确两个变量有关系的可靠程度.答案:C3.设有一个线性回归方程为y=2-1.5x,则变量x每增加一个单位时()A.y平均增加1.5个单位B.y平均增加2个单位C.y平均减少1。
5个单位D.y平均减少2个单位解析:y1-y2=2-1.5(x+1)-2+1.5x=-1.5。
答案:C4.若线性回归方程中的回归系数b=0,则相关系数为( ) A .r=1B.r =-1C .r =0 ﻩ D.无法确定解析:当b =0时,即错误!=0⇒错误!i y i -n 错误! 错误!=0, ∴r =错误!未定义书签。
=0. 答案:C5.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( ) A.y =-10x +200 ﻩ B.y =10x +200 C.y =-10x-200D.y =10x -200 解析:由于销售量y 与销售价格x 成负相关,故排除B 、D .又当x =10时,A 中y =100,而C 中y=-300,C不符合题意,故选A.答案:A6.利用独立性检验来考察两个变量A 和B是否有关系时,通过查阅下表来确定断言“A 与B有关系”的可信程度.如果χ2〉5。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章统计案例知识整合与阶段检测[ 对应学生用书P42]一、回归分析1.线性回归分析对于一组具有线性相关关系的数据( x1,y1) , ( x2,y2) ,, ( x n,y n) ,其线性回归直线方程为y= a+bx,n nx i- xy i- y x i y i- n x · yi = 1 i =1其中 b==,n nx i- x 2 2 2x i- n xi = 1 i = 1a= y - b x .2.相关系数nx i- x y i- yi = 1r =n nx i- x 2·y i- y2i = 1 i =1nx i y i- n x · yi = 1=,n n2 2 2- n y 2x i- n x ·y ii =1 i = 1| r | 值越大,相关性越高,| r | 值越接近0,线性相关程度越低.二、独立性检验独立性检验的一般步骤(1)列出 2×2列联表;(2) 代入公式计算2n ad- bc 2χ =a+c a+ b b+d c+d ;(3)根据χ2的值的大小作出判断.对应阶段质量检测三见 8开试卷( 时间 90 分钟,满分120 分 )一、选择题 ( 本大题共10 小题,每小题 5 分,共50 分.在每小题给出的四个选项中,只有一项是符合题目要求的)1. ( 全国新课标 ) 在一组样本数据 ( x1,y1) , ( x2,y2) ,, ( x n,y n)( n≥2,x1,x2,,x 不全相等 ) 的散点图中,若所有样本点( x,y )( i=1,2 ,,n) 都在直线y=2x+ 1 上,则n i i 1这组样本数据的样本相关系数为( )A.- 1 B. 01C. 2 D. 1解析:因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为 1.答案: D2.已知x与y之间的一组数据:x 0 1 2 3y 1 3 5 7则 y 与 x 的线性回归方程y= a+ bx 必过点( )A. (2,2) B. (1.5,0)C. (1,2) D. (1.5,4)解析:线性回归方程y=a+ bx 必过点--( x,y ) .答案: D3.下列现象的相关程度最高的是( )A.某商店的职工人数与商品销售额之间的相关系数为0.87 B.流通费用率与商业利润之间的相关系数为-0.94C.商品销售额与商业利润之间的相关系数为0.51D.商品销售额与流通费用率之间的相关系数为-0.81解析: | r | 越接近 1,相关程度越高. 答案: B4.已知某车间加工零件的个数x 与所花费时间 y (h) 之间的线性回归方程为 y =0.01 x+0.5 ,则加工 600 个零件大约需要 ()A . 6.5 hB . 5.5 hC . 3.5 hD . 0.5 h解析:当 x = 600, y =600×0.01 + 0.5 = 6.5(h) . 答案: A5.设两个变量 x 和 y 之间具有线性相关关系, 它们的相关系数是 r ,y 关于 x 的回归直 线的斜率是 b ,纵轴上的截距是 a ,那么必有 ()A . b 与 r 的符号相同B . a 与 r 的符号相同C . b 与 r 的符号相反D . a 与 r 的符号相反解析:因为 >0 时,两变量正相关,此时, r>0; <0 时,两变量负相关,此时 r <0.bb答案: A6.以下关于线性回归的判断,正确的个数是()①若散点图中的所有点都在一条直线附近,则这条直线的方程为回归方程②散点图中的绝大多数点都线性相关,个别特殊点不影响线性回归,如图中的 , , C 点A B③已知线性回归方程为 y =- 0.81 +0.50 x ,则 x = 25 时, y 的估计值为 11.69 ④线性回归方程的意义是它反映了样本整体的变化趋势 A . 0 B . 1 C . 2D . 3解析:由最小二乘法得到的方程才是线性回归方程,故①错,将 x = 25 代入 y =- 0.81+ 0.50 x ,得 y = 11.69 ,故③正确,②④也正确.答案: D7.某考察团对全国 10 大城市的职工人均工资水平 x ( 千元 ) 与居民人均消费水平 y ( 千元 )进行统计调查, y 与 x 具有相关关系, 回归方程为 y = 0.66 x + 1.562. 若某城市居民人均消费 水平为 7.675 千元,估计该城市人均消费额占人均工资收入的百分比为()A . 83%B . 72%C . 67%D . 66%7.675 - 1.562解析:当 y = 7.675 时, x =≈9.262 ,0.667.6759.262 ×100%≈83%.故选A.答案: A8.两个相关变量满足如下关系:x 10 1520 25 30y1 0031 0051 0101 0111 014则两变量的回归方程为 ( )A . y =0.56 x + 997.4B . y = 0.63 x - 231.2C . y =0.56 x + 501.4D . y = 60.4 x + 400.7解析:回归直线经过样本中心点 (20,1 008.6),经检验只有选项 A 符合题意.故选 A.答案: A9.若线性回归方程中的回归系数 b = 0 时,则相关系数为 ()A . r =1B . r =- 1C . r =0D .无法确定n - -x i y i -n x yi =1n- -解析:当 b = 0 时,= 0,即= 0,nx i y i - n x y- 2i = 12x i - n xi =1n- -x i y i - n x yi =1∴ r ==0.n-n- 2222x i - n xy i - n yi = 1i = 1答案: C10.某工厂为预测某种产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关8888关系,现取了 8 组观察值.计算知x i = 52, y i = 228, x 2x i y i =1 849 ,则 yi = 478,i = 1i =1i = 1i =1对 x 的线性回归方程是 ()A . y =11.47 + 2.62 xB . y =- 11.47 + 2.62 xC . y =2.62 + 11.47 xD . y = 11.47 - 2.62 x解析:由已知条件得--x =6.5 , y =28.5.8 --x i y i- n x yi = 1 --由 b=, a= y - b x ,8 -2- n 2x i xi = 1计算得 b≈2.62, a≈11.47,所以 y=11.47+2.62 x.答案: A二、填空题 ( 本大题共 4 小题,每小题 5 分,共 20 分,请把正确的答案填在题中的横线上)11.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50 名学生,得到如下 2×2列联表:理科文科男13 10女7 20- 2根据表中数据,得到χ2=≈4.844. 则有 ________的把握,则23×27×20×30认为选修文科与性别有关系.解析:∵χ2= 4.844>3.841 ,∴至少有 95%的把握认为是否选修文科与性别有关.答案: 95%12.已知变量x,y具有线性相关关系,测得( x,y) 的一组数据如下:(0,1) , (1,2) ,(2,4) , (3,5) ,其回归方程为y=1.4 x+a,则 a 的值是________.解析:0+ 1+ 2+ 3 1+ 2+ 4+ 5x == 1.5 ,y =4= 3 ,∴这组数据的样本中心点是4(1.5,3) ,把样本中心点代入回归直线方程y = 1.4x+,∴ 3=1.4 ×1.5 +,∴= 0.9.a a a答案: 0.913.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=3e2x+1 的图像附近,则可通过转换得到的线性回归方程为________________ .解析:由 y=3e2x+1,得ln y=ln(3e2x+1),即ln y= ln 3 + 2x+ 1.令 u=ln y, v= x,则线性回归方程为u=1+ln 3+2v.答案: y=1+ln 3+2x14.有甲、乙两个班级进行同一门课程的考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表.班级与成绩列联表优秀不优秀总计甲班10 35 45乙班7 38 45总计17 73 90由上表提供的数据可知,学生的成绩与班级之间________.( 填“有关系”或“没有关系”)解析:由公式,得-2χ 2=≈0.653.17×73×45×45因为 0.653<2.706.所以我们没有理由说成绩与班级有关系.答案:没有关系三、解答题 ( 本大题共 4 小题,共 50 分.解答时应写出必要的文字说明、证明过程或演算步骤 )15. ( 本小题满分12 分) 在国家未实施西部开发战略前,一新闻单位在应届大学毕业生中随机抽取 1 000 人问卷,只有 80 人志愿加入西部建设.而国家实施西部开发战略后,随机抽取 1 200 名应届大学毕业生问卷,有 400 人志愿加入国家西部建设.根据以上数据建立一个2×2的列联表.解: 2×2的列联表如下:志愿者非志愿者总计开发战略公布前80 920 1 000开发战略公布后400 800 1 200总计480 1 720 n=2 20016. ( 本小题满分12 分) 某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了 12 月 1 日至 12 月 5 日的每天昼夜温差与实验室每天100 颗种子中的发芽数,得到如下资料:日期12 月 1 日12 月 2 日12 月 3 日12 月 4 日12 月 5 日温差 x(℃)10 11 13 12 8发芽数 y(颗) 23 25 30 26 16该农科所确定的研究方案:先从这 5 组数据中选取 3 组数据求线性回归方程,剩下的 2 组数据用于回归方程检验.(1) 若选取12 月 1 日和 12 月 5 日这两日的数据进行检验,请根据12 月 2 日至 12 月 4 日的数据,求出y 关于 x 的线性回归方程 y= bx+a;(2) 若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 颗,则认为得到的线性回归方程是可靠的,试问 (1) 中所得到的线性回归方程是否可靠?若可靠,请预测温差为 14℃时的发芽数.3 3解:(1) 由数据,求得x= 12,y= 27. 故x i y i=977,3 x · y =972, 2x i=434,3 xi = 1 i = 12= 432,由公式,求得=5 ,=y -b x=- 3.b 2 a5所以 y 关于 x 的线性回归方程为y=2x-3.5(2)当 x=10时, y=×10-3=22,|22-23|<2;25当x=8时, y=2×8-3=17,|17-16|<2.所以得到的线性回归方程是可靠的.5当x=14时,有 y=2x-3=35-3=32,所以预测温差为 14 ℃时的发芽数约为 32 颗.17. ( 本小题满分12 分) 某些行为在运动员的比赛之间往往被赋予很强的神秘色彩,如有种说法认为,在进入某乒乓球场比赛前先迈入左脚的球员就会赢得比赛的胜利.某记者为此追踪了某著名乒乓球运动员在该球场中的308 场比赛,获得数据如下表:胜负情况胜负总计先迈脚情况先迈入左脚178 27 205先迈入右脚84 19 103总计26246 308 据此资料,你能得出什么结论?解:根据公式可得,2 n ad- bc 2χ =c+ d a+ c b+ da+ b- 2=≈1.502.205×103×262×46因为 1.502<2.706 ,所以我们认为先迈入左脚与否跟比赛的胜负是无关的.18.( 本小题满分14 分 ) 在某次试验中,有两个试验数据x, y,统计的结果如下面的表格1.x 1 2 3 4 5y 2 3 4 4 5表格 1(1)在给出的坐标系中画出数据 ( x,y) 的散点图.(2)补全表格 2,然后根据表格 2 的内容和公式序号x y x2 xy1 12 1 22 234 63 34 9 124 4 4 16 165 5 5 25 25∑表格 2nx i y i- n x yi=1b=,a=y-b x.n22x i-n xi=1①求出 y 对 x 的回归直线方程y= a+ bx 中回归系数a,b;②估计当 x 为10时 y 的值是多少.解: (1) 数据 ( x,y) 的散点图如图所示:(2)表格如下:序号x y x2 xy1 12 1 22 234 63 34 9 124 4 4 16 165 5 5 25 25∑15 18 55 61 计算得 x =3, y = 3.6 ,5x i y i-5 x yi =1 61-5×3×3.6b=5=55-5×32=0.7,2x2x i-5i=1a= y - b x =3.6-0.7×3=1.5,所以 y= a+ bx=1.5+0.7 x,当x 为10时, y=8.5.。