数学选修2-3第三章统计案例教案
人教版高中选修(B版)2-3第三章统计教学设计
人教版高中选修(B版)2-3第三章统计教学设计一、教学目标通过本章的学习,使学生掌握以下知识和能力:1.了解统计学的基本概念和分类;2.掌握在统计过程中使用数据分析工具的基本方法;3.能够运用概率和统计方法进行数据分析和预测;4.培养数据分析和解决问题的能力。
二、教学内容2.1 统计学的基本概念和分类1.统计学的定义和历史;2.统计学的分类及其应用。
2.2 数据的描述和搜集1.数据的分类和表示方法;2.数据的搜集方法和调查方法。
2.3 数据的整理和分析1.数据的整理方法;2.数据的统计分析方法。
2.4 概率论和数理统计1.基本概念和公式;2.常用概率分布和统计分布;3.统计假设检验和置信区间估计。
1.理论讲解:通过讲解教材和示例分析,让学生了解统计学的基本概念和分类、数据的描述和搜集、数据的整理和分析、概率论和数理统计等知识点。
2.数据分析实践:通过实际案例或人工构造数据,让学生运用概率和统计方法进行数据分析和预测,培养数据分析和解决问题的能力。
3.讨论互动:通过小组讨论等形式,让学生学会相互交流,思考和解决问题的能力。
四、教学步骤和重点难点4.1 教学步骤1.通过讲解教材和示例分析,介绍统计学的基本概念和分类、数据的描述和搜集、数据的整理和分析、概率论和数理统计等知识点。
2.分组进行数据分析实践,让学生运用概率和统计方法进行数据分析和预测,培养数据分析和解决问题的能力。
3.进行小组讨论,让学生相互交流,思考和解决问题的能力。
4.2 重点难点1.统计学的基本概念和分类,让学生对统计学有清晰的认识;2.概率分布和统计分布,让学生掌握常用的概率分布和统计分布。
五、教学评估1.课堂测验:考察学生对统计学的基本概念和分类、数据的描述和搜集、数据的整理和分析、概率论和数理统计等知识点的掌握程度。
2.数据分析实践作业:让学生通过实际案例或人工构造数据,运用概率和统计方法进行数据分析和预测,培养数据分析和解决问题的能力。
人教版高中选修2-3第三章统计案例教学设计
人教版高中选修2-3第三章统计案例教学设计一、教学背景本教学设计面向人教版高中数学选修2-3第三章《统计》的教学内容,本章节主要讲解相关的统计知识,包括频率分布、分组、频率分布直方图、累计频率分布、等分点、统计标准差等等。
本教学设计针对高中学生特点,通过设计案例,激发学生的学习兴趣,增强学生的统计知识复习和巩固的效果,提高学生的学习兴趣和学习效果,通过实际案例让学生更好地理解理论知识,拓宽学生的思维维度,提高他们的综合应用能力。
二、教学目标1.了解和掌握统计的相关概念和方法2.掌握构造频数分布表、频数分布图、累计频数分布表、累计频数分布图的方法3.熟练应用统计方法解决实际问题4.培养数据分析和解决问题的能力三、教学内容1.频数分布•频数分布表•频数分布图2.累计频数分布•累计频数分布表•累计频数分布图3.等分点及等分位数4.统计标准差本教学设计采用讲授、案例分析和问答等教学方法相结合。
教师通过针对教学目标讲解知识点,设计相关案例进行分析,让学生参与案例分析过程中,深入了解教学重点。
教师根据学生的学习情况提问,引导学生思考,提高学生的思维能力和综合应用能力。
五、课程安排第一节课:频数分布1.讲解概念,构造表格2.讲解构造频数分布图方法3.讲解统计数据分析第二节课:累计频数分布1.讲解累计频数分布概念2.构造累计频数分布表3.构造累计频数分布图4.讲解累计数据分析第三节课:等分点及等分位数1.讲解概念2.讲解求解方法3.应用案例分析第四节课: 统计标准差1.讲解概念2.讲解求解方法3.应用案例分析通过本教学设计的教学实践,学生们以案例为基础,通过讲述来了解和掌握统计的相关概念和方法、熟练应用统计方法解决实际问题、培养数据分析和解决问题的能力。
教学效果良好,学生积极参与,学习效果明显。
值得注意的是,案例的选择要与学生相关,注重实用性,让学生通过教学理论知识的学习能够得到运用和提升。
在教学过程中,要注重学生的积极性,充分发挥案例分析的效果,让学生通过实例了解和理解知识点,提高学习效率和兴趣。
人教版高中数学选修2-3第三章统计案例3.2独立性检验的基本思想及其初步应用教案(2)
回归分析与独立性检验教材分析(一)地位与作用:本节课是一节高三文科复习课,复习内容为新课标人教版高中数学课本选修1-2第一章《统计案例》p1-19页的内容,是在《必修3》概率统计的基础上,通过研究一些典型案例进一步介绍回归分析、独立性检验的基本思想、方法及初步应用。
(二)学情分析:1、学生已经初步掌握概率统计的相关知识;2、学生已经具备了一定的抽象思维能力和演绎推理能力;3、学生整体基础比较薄弱,但求学意识浓厚,高考压力大。
目标分析通过对典型案例的探究,了解回归与独立性检验的基本思想、方法及其初步应用。
(一)教学目标:1、了解回归的基本思想、方法及其简单应用。
2、了解独立性检验(只要求列联表)的基本思想、方法及其简单应用。
(二)重点难点:重点是了解回归分析的方法步骤,独立性检验的基本思想及实施步骤;难点是独立性检验的基本思想及K2的含义。
(三)情感态度与价值观:教材案例典型,方案设计、数据的处理与分析、结论的形成主要通过学生的自主研究来完成,强化了学生的相互协作、合作交流的能力。
知识体系构建本节内容重在线性相关和列联表,最终体现在应用。
教法分析、学法分析(一)教法分析:基于本节课的内容特点和高三学生的年龄特征,在本节课中我采用启发式教学法和合作探究法,突出学生的主体地位,培养学生的自主意识和合作意识。
1、从学生熟悉的实际问题引入课堂,创设情境,引导学生温故知新。
尤其注重以典型案例引领学生探索、发现、掌握方法。
2、教师介绍高考要求和最新动态,学生相互补充复习要点,以起到明确目标、互动交流的作用。
3、合理安排例题讲解与习题巩固,以达到精讲多练、以练为主的目的。
4、合理采用多媒体手段,扩容增效,强化教学效果。
(二)学法分析:学习过程始终贯穿自主学习,通过分组协作,分工配合,协同完成学习。
教学过程分析一、考纲解读1、会作两个变量的散点图,判断两变量之间是否具有相关关系;2、了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;3、了解常见的统计方法,并能应用这些方法解决一些常见问题:①了解独立性检验(只要求列联表)的基本思想、方法及其简单应用;②了解回归的基本思想、方法及其简单应用.③了解假设检验的基本思想、方法及其简单应用.二、高考预测近几年全国高考个别省市对本部分内容考查有加强趋势,大部分地区以容易题为主。
【教学设计】《 数学人教A版高中选修2-3第三章 统计案例--3
《独立性检验的基本思想及其初步应用》本节课是人教A 版(选修)2—3第三章第二单元第二课时的内容.在本课之前,学生已经学习过事件的相互独立性、正态分布及回归分析的基本思想及初步应用。
本节课利用独立性检验进一步分析两个分类变量之间是否有关系,是高中数学知识中体现统计思想的重要课节。
在本节课的教学中,要把重点放在独立性检验的统计学原理上,理解独立性检验的基本思想,明确独立性检验的基本步骤。
在独立性检验中,通过典型案例的研究,介绍了独立性检验的基本思想、方法和初步应用。
独立性检验的基本思想和反证法类似,它们都是假设结论不成立,反证法是在假设结论不成立基础上推出矛盾从而证得结论成立,而独立性检验是在假设结论不成立基础上推出有利于结论成立的小概率事件发生,于是认为结论在很大程度上是成立的。
因为小概率事件在一次试验中通常是不会发生的,所以有利于结论成立的小概率事件的发生为否定假设提供了有力的证据。
学习独立性检验的目的是“通过典型案例介绍独立性检验的基本思想、方法及其初步应用,使学生认识统计方法在决策中的作用”。
这是因为,随着现代信息技术飞速发展,信息传播速度快,人们每天都会接触到影响我们生活的统计方面信息,所以具备一些统计知识已经成为现代人应具备的一种数学素养。
【知识与能力目标】通过生活中新闻案例的探究,理解独立性检验的基本思想,明确独立性检验的基本步骤,会对两个分类变量进行独立性检验,并能利用独立性检验的基本思想来解决实际问题。
【过程与方法目标】通过探究“玩电脑游戏与注意力集中是否有关系”引出独立性检验的问题,借助样本数据的列联表分析独立性检验的实施步骤。
利用上节课所学已经由数据直观判断出玩电脑游戏与注意力集中可能有关系。
这一直觉来自于观测数据,即样本。
问题是这种来自于样本的印象能够在多大程度上代表总体。
这节课就是为了解决这个问题,在学生亲身体验感受的基础上,提高学生的数据分析能力。
【情感态度价值观目标】通过本节课的学习,加强数学与现实生活的联系。
数学人教A版选修2-3教学设计:第3章统计案例 Word版含解析
教学设计本章复习本章知识脉络基础知识聚焦1.回归分析是对具有相关关系的两个变量进行统计分析的一种方法,而联系这两个变量之间的关系的方程称为回归方程,下列叙述正确的是()A.回归方程一定是直线方程B.回归方程一定不是直线方程C.回归方程是变量之间关系的严格刻画D.回归方程是变量之间关系的一种近似刻画2.在两个变量Y与X的回归模型中,选择了4个不同的模型,它们的相关指数R2如下,其中拟合效果最好的是()A.R2=0.98B.R2=0.80C.R2=0.50D.R2=0.25 3.下列关于K2的说法正确的是()A.K2在任何相互独立的问题中都可以用来检验有关还是无关B.K2的观测值越大,事件相关的可能性就越大C.K2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适合D.当K2的观测值大于某一数值(比如10.828)时,我们就说两个分类变量X与Y一定相关4.当我们建立多个模型拟合某一数据时,为了比较各个模型的拟合效果,我们可通过计算下列哪些量来确定()①残差平方和;②回归平方和;③相关指数R 2;④相关系数rA .①B .①②C .①②③D .③④ 5.线性回归方程y ^=b ^x +a ^必经过( )A .(0,0)B .(x ,0)C .(0,y )D .(x ,y ) 学生活动:先用3~5分钟的时间完成上面5个小题,然后再交流答案,相互讨论,并根据题目设计的知识,回顾本章的主要内容.活动结果:1.D 2.A 3.B 4.C 5.D 基础知识回顾:1.回归方程模型及相关检验(1)回归方程中a ^=y ^-b ^x ,b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,其中(x ,y )称为样本点的中心.(2)r 具有如下性质:||r ≤1,并且||r 越接近1,线性相关程度越强,||r 越接近0,线性相关程度越弱.(3)为了衡量预报的精确度,我们要进行残差分析,通常σ2越小,预报精度越高. 2.2×2列联表的独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,这类变量称为分类变量. (2)列联表:两个分类变量的频数表称为列联表.有两个分类变量的样本频数列联表称为2×2列联表.(3)独立性检验独立性检验一般采用列联表的形式,每个因素可以分为两个类别.当列联表是2×2列联表的形式时,独立性检验的随机变量K 2的计算公式如下:K 2=n(ac -bd)2(a +b)(c +d)(a +c)(b +d).这里的字母如下表在给定的出错概率上限下,我们可以通过K 2的观测值与已知数据的大小关系,来判断分类变量的关系.设计目的:把某一节复习课要复习的基础知识(概念、公式、法则、公理、定理、方法、思想、技能、技巧等)整理成一组问题的形式,通过解答问题,达到引发学生再现某些基础知识,进而牢记某些基础知识的目的,即这里的主要目的是再现本节课所要复习的知识、技能、方法与思想.典型示例类型一:线性回归模型及回归分析例1下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =b ^x +a ^; (3)已知该厂技术改造前100吨甲产品能耗为90吨标准煤;试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?思路分析:结合统计知识,正确作图和计算. 解:(1)散点图如图所示:(2)由系数公式可知,x =4.5,y =3.5,b ^ =66.5-4×4.5×3.586-4×4.52=66.5-635=0.7. a ^ =3.5-0.7×92=0.35,所以线性回归方程为y =0.7x +0.35;(3)x =100时,y =0.7x +0.35=70.35,所以预测生产100吨甲产品的生产能耗比技术改造前降低19.65吨标准煤.点评:回归分析是对具有相关关系的两个变量进行统计分析的常用方法.采用回归分析基本思想,解决实际问题的基本步骤如下:①明确对象;②画散点图;③选择模型,即通过观察分析散点图确定回归方程的类型,如果观察到数据呈线性关系,则选用线性回归方程y ^=b ^x +a ^;④估算方程,即按一定的规则估计回归方程的参数,如最小二乘法原理;⑤线性相关程度的判定,即通过样本相关系数的大小作出判断:|r|≤1;|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关程度越弱.变式练习:一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验.测得的数据如下:(1)y 与x 是否具有线性相关关系?(2)如果y 与x 具有线性相关关系,求回归直线方程;(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少? 解:(1)列出下表x =55,y =91.7,∑i =110x 2i =38 500,∑i =110y 2i =87 777,∑i =110x i y i =55 950,因此 r =∑i =110x i y i -10x y(∑i =110x 2i -10x 2)(∑i =110y 2i -10y 2)=55 950-10×55×91.7(38 500-10×552)×(87 777-10×91.72)≈0.999 8, 由于r =0.999 8>0.75,因此x 与y 之间有很强的线性相关关系,因而可求回归直线方程.(2)设所求的回归直线方程为y ^ =b ^ x +a ^,则有b ^=∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.668,a ^=y -b ^x ≈54.96,因此,所求线性回归方程为y ^=0.668x +54.96.(3)这个回归直线方程的意义是当x 每增大1时,y 的值约增加0.668,而54.96是y 不随x 增加而变化的部分,因此,当x =200时,y 的估计值为y ^=0.668×200+54.96=188.56≈189,因此,加工200个零件所用的工时约为189分.类型二:非线性回归模型及回归分析 例2在试验中得到变量y 与x 的数据如下:由经验知,y 与1x 之间具有线性相关关系,试求y 与x 之间的回归曲线方程;当x 0=0.038时,预测y 0的值.分析:通过换元转化为线性回归问题.解:令u =1x,由题目所给数据可得下表所示的数据:计算得b ^=0.29,a ^=34.24,∴y ^=34.24+0.29u.故所求回归曲线方程为y ^=34.24+0.29x ,当x 0=0.038时,y ^ =34.24+0.290.038≈41.87.点评:非线性回归问题有时并不给出经验公式,此时我们可以由已知的数据画出散点图,并把散点图与已经学习过的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,挑选出跟这些散点拟合得最好的函数,然后再采用变量的变换,把问题转化为线性回归问题,使问题得以解决.变式练习:某地大气中氰化物浓度测定结果如下:(1)试建立氰化物浓度与距离之间的回归方程. (2)求相关指数.(3)作出残差图,并求残差平方和.解:(1)选取污染源距离为自变量x ,氰化物浓度为因变量y ,作散点图.从表中所给的数据可以看出,氰化物浓度与距离有负的相关关系,用非线性回归方程来拟合,建立y 关于x 的指数回归方程:y ^=0.929 3e-0.009 4x.(2)相关指数R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y)2≈0.991 5.(3)残差平方和∑ni =1 (y i -y ^i )2=0.011 8. 类型三:独立性检验思想例3某些行为在运动员的比赛之间往往被赋予很强的神秘色彩,如有一种说法认为,在进入某乒乓球场比赛前先迈入左脚的运动员就会赢得比赛的胜利.某记者为此追踪了某著名乒乓球运动员在该球场中的308场比赛,获得数据如下表:据此资料,在出错概率不超过0.1的前提下,是否可以认为先迈进左脚与否跟比赛的胜负有关?思路分析:根据列联表,求出K 2的观测值,再进行判断. 解:由K 2=n(ad -bc)2(a +b)(a +c)(b +d)(c +d),得K 2的观测值k =308×(178×19-84×27)2205×103×262×46≈1.502.因为1.502<2.706,所以在出错概率不超过0.1的前提下,我们没有充分理由认为先迈进左脚与否跟比赛的胜负有关.点评:在日常生活中,经常会面临一些需要推断的问题.在对这些问题作出推断时,我们不能仅凭主观臆断得出结论,需要通过试验来收集数据,并依据独立性检验的原理作出合理的推断,这就是独立性检验的基本思想.依据这一基本思想,我们可以考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.其基本步骤是:①考察需抽样调查的背景问题,确定所涉及的变量是否为两个分类变量;②根据样本数据制作2×2列联表;③计算统计量K 2的观测值,并查表分析.变式练习:某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,在出错概率不超过0.01的前提下,根据上述数据能得出什么结论?解:根据列联表中的数据,得到K 2的观测值k =189×(54×63-40×32)294×95×86×103=10.76.因为10.76>6.635,所以在出错概率不超过0.001的前提下,可以得出:员工工作积极性与积极支持企业改革有关.设计目的:通过这组题目的解答,使学生在进一步加深对所复习基础知识、方法、思想的理解基础上,能力方面有所提高.目的是训练、培养学生灵活运用和综合运用知识解决问题的能力.这组题目一般先由学生稍作思考,再由教师精讲.达标检测1.下列两个变量之间的关系中,哪个是函数关系( )A .学生的性别与他的数学成绩B .人的工作环境与健康状况C .女儿的身高与父亲的身高D .正三角形的边长与面积 答案:D2.下列说法中正确的是( )①独立性检验的基本思想是带有概率性质的反证法;②独立性检验就是选取一个假设H 0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H 0的推断;③独立性检验一定能给出明确的结论.A .①②B .①③C .②③D .①②③ 答案:A3.已知两个变量的样本点的中心是(5,50),则两个变量间的回归直线方程可能为( ) A.y ^=7.5x +17.5 B.y ^=6.5x +17.5 C.y ^=7.5x +18.5 D.y ^=6.5x +18.5 答案:B (样本点的中心的坐标为(5,50),代入验证即可)4.在性别与吃零食这两个分类变量的判断中,下列说法正确的是______________.①若K2的观测值为k=6.635,我们认为吃零食与性别有关系的出错概率不超过0.01,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知吃零食与性别有关系的出错概率不超过0.01时,我们说某人吃零食,那么此人是女性的可能性为0.1%;③若从统计量中求出K2的观测值为k=6.635,则有1%的可能性使得出的判断出现错误.答案:③课堂小结1.本章的重要题型:(1)回归分析思想的应用;(2)独立性检验思想的应用.2.本章涉及的主要数学思想与方法:数形结合思想、化归思想等.补充练习【基础练习】1.下列结论正确的是()①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④2.对两个变量的相关系数r,下列说法中错误的是()A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.r>0时,两个变量正相关D.|r|≤13.由“假设H0:评委的性别与参评年轻选手的性别没有关系”,而得到K2的观测值k≈7.056,则判断H0成立的出错概率不超过(设参评的男、女选手入围或被淘汰的人数均超过5人)()A.1% B.0.01% C.0.1% D.0.5%4.回归分析中,相关指数R2的值越大,说明残差平方和()A.越小B.越大C.可能大也可能小D.以上都不对5.为了考察两个变量x和y之间的线性相关性,甲乙两位同学各自独立地进行100次和150次试验,并且利用线性回归方程,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合6.某医院,利用独立性检验方法判断“长期服用安眠药与患抑郁症”是否有关,如图所示为“长期服用安眠药与患抑郁症”列联表,则认为“长期服用安眠药与患抑郁症有关”的判断出错概率最小不超过()A.10% B.5% C.2.5% D.0.1%【拓展练习】7.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.05的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?8.为了研究某种细菌随时间x的变化,繁殖的个数y,收集数据如下:(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;(2)描述解释变量与预报变量之间的关系;(3)计算残差平方和、相关指数R2.补充练习答案1.C 2.B 3.A 4.A5.A解析:回归直线一定过样本点的中心(x,y),而两次测量的样本点的中心都是(s,t),所以l1和l2一定交于点(s,t).6.D 解析:根据给出的列联表,求出K 2的观测值,再与临界值比较. 7.解析:依题意,计算随机变量K 2的观测值: k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.8.解析:(1)略.(2)由散点图看出样本点分布在一条指数函数y =c 1ec 2x 的附近,于是令Z =lny ,则由计算器算得Z ^=0.69x +1.112,则有y ^=e 0.69x +1.112.(3)∑i =16e 2i =∑i =16 (y i -y ^ i )2=3.1643,∑i =16 (y i -y )2=∑i =1ny 2i -6y 2≈24 642.8,R 2=1-3.164 324 642.8≈0.999 9.即解释变量天数对预报变量繁殖细菌的个数解释了99.99%.设计说明本节课的设计思路是:题组教学法.就是针对本节复习课的教学目标,精心设计几组题目(一般为四组,其中,前三组课前和课上用,最后一组课后用),将有关数学基础知识、基本技能、基本方法与数学思想溶于其中,换言之,即以分组题目为设计教学,在具体教学时,以题组中的题目开路(先出现题目,再出现其他),然后引导学生对题目进行分析、讨论、研究和解答.老师借题生话,借题发挥,画龙点睛,把有关的基础知识和解题方法总结出来,把解题的关键显露出来,把解题规律共同探讨出来,把易错点暴露出来,并共同找出错因,且纠正过来.使学生在积极主动的探索研究中,在解答题目的过程中巩固所学的知识,发现规律性的东西,并使学生智力与能力得到训练与提高.(设计者:杨雪峰)。
数学选修2-3第三章统计案例教案
数学选修2-3第三章统计案例教案第三章 统计案例§3.1 独立性检验(1)1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?为了研究这个问题,(1)引导学生将上述数据用下表来表示:一.建构数学 1.独立性检验:(1)假设0H :患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下表:如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论.(2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()-=∑观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ2()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++)由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“26.635χ≥”发生的概率约为0.01,即2( 6.635)0.01P χ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”.象以上这种用2χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A 和类B (如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:推断“Ⅰ和Ⅱ有关系”的步骤为:第一步,提出假设0H :两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量; 第三步,查对课本中临界值表,作出判断. 3.独立性检验与反证法:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立. 四.数学运用 1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?分析:在使用该种血清的人中,有48.4%500=的人患过感冒;在没有使用该种血清的人中,有28456.8%500=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得221000(258284242216)7.075474526500500χ⨯⨯-⨯=≈⨯⨯⨯∵当0H 成立时,26.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?分析:在口服的病人中,有5859%98≈的人有效;在注射的病人中,有6467%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得22193(58314064) 1.3896 2.072122719895χ⨯⨯-⨯=≈<⨯⨯⨯当0H 成立时,21.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论. 说明:如果观测值22.706χ≤,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“0H 成立”,即Ⅰ与Ⅱ没有关系.§3.1 独立性检验(2)二.数学运用 1.练习题:1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
数学:第三章《统计案例》教案(1)(新人教A版选修2-3)
第三章 统计案例3.1回归分析的根本思想及其初步应用(共计4课时 ) 授课类型:新授课一、教学内容与教学对象分析学生将在必修课程学习统计的根底上 ,通过对典型案例的讨论 ,了解和使用一些常用的统计方法 ,进一步体会运用统计方法解决实际问题的根本思想 ,认识统计方法在决策中的作用 .二、学习目标1、知识与技能通过本节的学习 ,了解回归分析的根本思想 ,会对两个变量进行回归分析 ,明确建立回归模型的根本步骤 ,并对具体问题进行回归分析 ,解决实际应用问题 .2、过程与方法本节的学习 ,应该让学生通过实际问题去理解回归分析的必要性 ,明确回归分析的根本思想 ,从散点图中点的分布上我们发现直接求回归直线方程存在明显的缺乏 ,从中引导学生去发现解决问题的新思路 -进行回归分析 ,进而介绍残差分析的方法和利用R 的平方来表示解释变量对于预|报变量变化的奉献率 ,从中选择较为合理的回归方程 ,最|后是建立回归模型根本步骤 .3、情感、态度与价值观通过本节课的学习 ,首|先让显示了解回归分析的必要性和回归分析的根本思想 ,明确回归分析的根本方法和根本步骤 ,培养我们利用整体的观点和互相联系的观点 ,来分析问题 ,进一步加强数学的应用意识 ,培养学生学好数学、用好数学的信心 .加强与现实生活的联系 ,以科学的态度评价两个变量的相关系 .教学中适当地增加学生合作与交流的时机 ,多从实际生活中找出例子 ,使学生在学习的同时 .体会与他人合作的重要性 ,理解处理问题的方法与结论的联系 ,形成实事求是的严谨的治学态度和锲而不舍的求学精神 .培养学生运用所学知识 ,解决实际问题的能力 . 三、教学重点、难点教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型 ,了解在解决实际问题的过程中寻找更好的模型的方法 .教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点 ,选择不同的模型建模 ,并通过比拟相关指数对不同的模型进行比拟 . 四、教学策略:教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结 . 教学手段:多媒体辅助教学 五、教学过程:(一 )、复习引入:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法 . (二 )、新课:探究:对于一组具有线性相关关系的数据:(11,x y ) , (22,x y ) ,… , (,n n x y ) ,我们知道其回归方程的截距和斜率的最|小二乘估计公式分别为: a y bx =- (1 )121()()()niii nii x x y y b x x ==--=-∑∑ (2 )其中1111,n ni i i i x x y y n n ====∑∑ , (,x y )成为样本点的中|心.注:回归直线过样本中|心. 你能推导出这两个计算公式吗 ?从我们已经学过的知识知道 ,截距a 和斜率b 分别是使 21(,)()niii Q y bx a αβ==--∑取到最|小值时,αβ的值. 由于 21(,)[()()]niii Q y x y x y x αββββα==---+--∑221{[()]2[()][()][()]}ni i i i i y x y x y x y x y x y x βββββαβα==---+---⨯--+--∑2211[()]2[()]()[()]nni i i i i i y x y x y x y x y x n y x βββββαβα===---+---⨯--+--∑∑注意到1[()]()niii y x y x y x βββα=-----∑1()[()]ni i i y x y x y x βαββ==-----∑11()[()]n ni i i i y x y x n y x βαββ===-----∑∑()[()]0y x ny n x n y x βαββ=-----=.221(,)[()]()ni i i Q y x y x n y x αββββα==---+--∑2222111()2()()()()nn nii i i i i i x x x x y y y y n y x βββα====----+-+--∑∑∑2222211221111()()[()()]()()[]()()()nniii i nni i i i nni i iii i x x y y x x y y n y x x x y y x x x x βαβ======----=--+----+---∑∑∑∑∑∑ 在上式中 ,后两项和,αβ无关 ,而前两项为非负数 ,因此要使Q 取得最|小值 ,当且仅当前两项的值均为0 ,即有1221niii nii x y nx yy x xnx βαβ==⋅-⋅==--∑∑,.这正是我们所要推导的公式.下面我们从另一个角度来推导的公式. 人教A 版选修2 -2P37习题组第4题:用测量工具测量某物体的长度 ,由于工具的精度以及测量技术的原因 ,测得n 个数据12,,,n a a a .证明:用这个数据的平均值11ni i x a n ==∑表示这个物体的长度 ,能使这n 个数据的方差211()()ni i f x x a n ==-∑最|小.思考:这个结果说明了什么 ?通过这个问题 ,你能说明最|小二乘法的根本原理吗 ?证明:由于211()()n i i f x x a n ==-∑ ,所以'12()()ni i f x x a n ==-∑ ,令'()0f x =, 得11ni i x a n ==∑ .可以得到 , 11ni i x a n ==∑是函数()f x 的极小值点 ,也是最|小值点.这个结果说明 ,用n 个数据的平均值11ni i a n =∑表示这个物体的长度是合理的 ,这就是最|小二乘法的根本原理.由最|小二乘法的根本原理即得定理 设x R ∈,12nx x x x n+++=,那么2222222121211[()()()][()()()]n n x x x x x x x x x x x x s n n-+-++-≥-+-++-= (*) 当且仅当12nx x x x x n+++==时取等号.(*)式说明, 12nx x x x n+++=是任何一个实数x 与12,,,n x x x 的差的平方的平均数中最|小的数.从而说明了方差具有最|小性,也即定义标准差的合理性.下面借助(*)式求2222211)()()(a bx y a bx y a bx y Q n n --++--+--= 的最|小值.1122()()()n n y bx y bx y bx n-+-++-1212n n y y y x x x b y b x n n++++++=-⋅=-⋅,由(*)式知,2221122[()][()][()]n n Q a y bx a y bx a y bx =--+--++--2221122[()()][()()][()()]n n y b x y bx y b x y bx y b x y bx ≥-⋅--+-⋅--++-⋅--2221122[()()][()()][()()]n n x x b y y x x b y y x x b y y =---+---++---222111()2()()()nnni i i i i i i x x b x x y y b y y ====----+-∑∑∑222211221111()()[()()]()[]()()()nniii i nni i i i nni i iii i x x y y x x y y x x b y y x x x x ======----=--+----∑∑∑∑∑∑222211221111()()[()()]()[]()()()nn iii i nni i i i nni i iii i x x y y x x y y x x b y y x x x x ======----=--+----∑∑∑∑∑∑221211[()()]()()ni i ni i ni ii x x y y y y x x ===--≥---∑∑∑22211121()()[()()]()nnniii i i i i nii x x y y x x y y x x ====-----=-∑∑∑∑当且仅当a y b x =-⋅,且1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑时, Q 到达最|小值22211121()()[()()]()n nniii i i i i n ii x x y y x x y y x x ====------∑∑∑∑.由此得到,⎪⎪⎩⎪⎪⎨⎧-=-⋅-⋅=---=∑∑∑∑====.,x b y a xn xyx n y xx x y y x x b ni ini i in i i ni i i 2121121)())((其中b 是回归直线的斜率,a 是截距.借助||||||||||||a b a b a b -≤+≤+和配方法,我们给出了人教A 版必修3的第二章统计第三节变量间的相关关系中回归直线方程y bx a =+的一个合理的解释 1、回归分析的根本步骤:(1) 画出两个变量的散点图. (2) 求回归直线方程.(3) 用回归直线方程进行预|报.下面我们通过案例 ,进一步学习回归分析的根本思想及其应用 2、举例:例1. 从某大学中随机选取 8 名女大学生 ,其身高和体重数据如表编号 123 4 5 6 7 8 身高/cm 165 165 157 170 175 165155 170 体重/kg48 57505464614359求根据女大学生的身高预|报体重的回归方程 ,并预|报一名身高为 172 cm 的女大学生的体重.解:由于问题中要求根据身高预|报体重 ,因此选取身高为自变量 x ,体重为因变量 y . 作散点图(图3 . 1 一 1)从图3. 1一1 中可以看出 ,样本点呈条状分布 ,身高和体重有比拟好的线性相关关系 ,因此可以用线性回归方程来近似刻画它们之间的关系根据探究中的公式 (1 )和 (2 ) ,可以得到ˆˆ0.849,85.712ba ==-. 于是得到回归方程084985.712y x =-.因此 ,对于身高172 cm 的女大学生 ,由回归方程可以预|报其体重为084917285.71260.316y =⨯-= ( kg ) .ˆ0.849b=是斜率的估计值 ,说明身高 x 每增加1个单位时 ,体重y 就增加0.849 位 ,这说明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱 ?在必修 3 中 ,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法本相关系数的具体计算公式为()()12211()()niii n niii i x x y y r x x y y ===--=--∑∑∑当r>0时 ,说明两个变量正相关;当r<0时 ,说明两个变量负相关.r 的绝|对值越接近1 ,说明两个变量的线性相关性越强;r 的绝|对值接近于0时 ,说明两个变量之间几乎不存在线性相关关系.通常 ,当r 的绝|对值大于0. 75 时认为两个变量有很强的线性相关关系在本例中 ,可以计算出r =0. 798.这说明体重与身高有很强的线性相关关系 ,从而也说明我们建立的回归模型是有意义的显然 ,身高172cm 的女大学生的体重不一定是60. 316 kg ,但一般可以认为她的体重接近于60 . 316 kg .图3 . 1 一 2 中的样本点和回归直线的相互位置说明了这一点由于所有的样本点不共线 ,而只是散布在某一条直线的附近 ,所以身高和体重的关系可用下面的线性回归模型来表示:y bx a e =++, ( 3 )这里 a 和 b 为模型的未知参数 ,e 是 y 与y bx a =+之间的误差.通常e 为随机变量 ,称为随机误差 ,它的均值 E (e ) =0 ,方差D (e ) =2()D e σ=>0 .这样线性回归模型的完整表达式为:2,()0,().y bx a e E e D e σ=++⎧⎨==⎩ (4) 在线性回归模型 (4 )中 ,随机误差e 的方差护越小 ,通过回归直线y bx a =+ (5)预|报真实值y 的精度越高.随机误差是引起预|报值y 与真实值 y 之间的误差的原因之一 ,大小取决于随机误差的方差.另一方面 ,由于公式 (1 )和 (2 )中a 和b 为截距和斜率的估计值 ,它们与真实值a 和b 之间也存在误差 ,这种误差是引起预|报值y 与真实值y 之间误差的另一个原因.思考:产生随机误差项e 的原因是什么?一个人的体重值除了受身高的影响外 ,还受许多其他因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.事实上 ,我们无法知道身高和体重之间确实切关系是什么 ,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差 e 的原因.因为随机误差是随机变量 ,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征 ,方差是反映随机变量集中于均值程度的数字特征 ,而随机误差的均值为0 ,因此可以用方差2σ来衡量随机误差的大小. 为了衡量预|报的精度 ,需要估计护的值.一个自然的想法是通过样本方差来估计总体方差.如何得到随机变量e 的样本呢 ?由于模型 (3 )或 (4 )中的e 隐含在预|报变量 y 中 ,我们无法精确地把它从 y 中别离出来 ,因此也就无法得到随机变量e 的样本.解决问题的途径是通过样本的估计值来估计2σ.根据截距和斜率的估计公式 (1 )和 (2 ) , 可以建立回归方程y bx a =+,因此y 是 (5 )中y 的估计量.由于随机误差e y y =- ,所以e y y =-是e 的估计量.对于样本点 (11,x y ) , (22,x y ) ,… , (,n n x y ) 而言 ,相应于它们的随机误差为,1,2,,i i i i i e y y y bx a i n =-=--=,其估计值为,1,2,,i i i i i e y y y bx a i n =-=--=,i e 称为相应于点(,)i i x y 的残差 (residual ).类比样本方差估计总体方差的思想 ,可以用22111(,)(2)22n ii e Q a b n n n σ===>--∑ 作为2σ的估计量 , 其中a 和b 由公式 (1) (2 )给出 ,Q (a ,b )称为残差平方和 (residual sum of squares ).可以用2σ衡量回归方程的预|报精度.通常 ,2σ越小 ,预|报精度越高.在研究两个变量间的关系时 ,首|先要根据散点图来粗略判断它们是否线性相关 ,是否可以用线性回归模型来拟合数据然后 ,可以通过残差12,,,n e e e来判断模型拟合的效果 ,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.表3一 2 列出了女大学生身高和体重的原始数据以及相应的残差数据 .编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 6143 59 残差e我们可以利用图形来分析残差特性作图时纵坐标为残差 ,横坐标可以选为样本编号 ,或身高数据 ,或体重的估计值等 ,这样作出的图形称为残差图.图 3 . 1 一 3 是以样本编号为横坐标的残差图 .从图3 . 1 一 3 中可以看出 ,第 1 个样本点和第 6 个样本点的残差比拟大 ,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误 ,就予以纠正 ,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误 ,那么需要寻找其他的原因.另外 ,残差点比拟均匀地落在水平的带状区域中 ,说明选用的模型比拟适宜.这样的带状区域的宽度越窄 ,说明模型拟合精度越高 ,回归方程的预|报精度越高.另外 ,我们还可以用相关指数2R 来刻画回归的效果 ,其计算公式是:22121()1()niii nii y y R y y ==-=--∑∑显然 ,2R 取值越大 ,意味着残差平方和越小 ,也就是说模型的拟合效果越好.在线性回归模型中 ,2R 表示解释变量对于预|报变量变化的奉献率. 2R 越接近于1 ,表示回归的效果越好 (因为2R 越接近于1 ,表示解释变量和预|报变量的线性相关性越强 ).如果对某组数据可能采取几种不同的回归方程进行回归分析 ,也可以通过比拟几个2R ,选择2R 大的模型作为这组数据的模型 .在例 1 中 ,2R =0. 64 ,说明 "女大学生的身高解释了64 %的体重变化〞 ,或者说 "女大学生的体重差异有 64 %是由身高引起的〞 用身高预|报体重时 ,需要注意以下问题:1.回归方程只适用于我们所研究的样本的总体.例如 ,不能用女大学生的身高和体重之间的回归方程 ,描述女运发动的身高和体重之间的关系.同样 ,不能用生长在南方多雨地区的树木的高与直径之间的回归方程 ,描述北方干旱地区的树木的高与直径之间的关系 .2.我们所建立的回归方程一般都有时间性.例如 ,不能用 20 世纪 80 年代的身高体重数据所建立的回归方程 ,描述现在的身高和体重之间的关系 .3.样本取值的范围会影响回归方程的适用范围.例如 ,我们的回归方程是由女大学生身高和体重数据建立的 ,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当 (即在回归方程中 ,解释变量 x 的样本的取值范围为[155cm,170cm 〕 ,而用这个方程计算 x-70cm 时的y 值 ,显然不适宜 .)4.不能期望回归方程得到的预|报值就是预|报变量的精确值.事实上 ,它是预|报变量的可能取值的平均值.一般地 ,建立回归模型的根本步骤为:(1 )确定研究对象 ,明确哪个变量是解释变量 ,哪个变量是预|报变量; (2 )画出确定好的解释变量和预|报变量的散点图 ,观察它们之间的关系 (如是否存在线性关系等 )(3 )由经验确定回归方程的类型 (如我们观察到数据呈线性关系 ,那么选用线性回归方程 y =bx +a )(4 )按一定规那么估计回归方程中的参数 (如最|小二乘法 );(5 )得出结果后分析残差图是否有异常 (个别数据对应残差过大 ,或残差呈现不随机的规律性等等 ) ,假设存在异常 ,那么检查数据是否有误 ,或模型是否适宜等 例2.现收集了一只红铃虫的产卵数y 和温度x 之间的7组观测数据列于下表:温度x oC 21 23 25 27 29 3235产卵数y /个 7 11 21 24 66 115 325(1)试建立与之间的回归方程;并预测温度为28oC 时产卵数目 . (2)你所建立的模型中温度在多大程度上解释了产卵数的变化 ? 探究:方案1 (学生实施 ):(1 )选择变量 ,画散点图 .(2 )通过计算器求得线性回归方程:y=x -(3 )进行回归分析和预测: R 2 =r 2≈2预测当气温为28 时 ,产卵数为92个 .这个线性回归模型中温度解释了74.64%产卵数的变化 .困惑:随着自变量的增加 ,因变量也随之增加 ,气温为28 时 ,估计产卵数应该低于66个 ,但是从推算的结果来看92个比66个却多了26个 ,是什么原因造成的呢 ?方案2:(1)找到变量t =x 2 ,将y =bx 2+a 转化成y =bt +a ; (2)利用计算器计算出y 和t 的线性回归方程:y =t (3)转换回y 和x 的模型:(4)y =x 2(5 )计算相关指数R 2≈这个回归模型中温度解释了80.2%产卵数的变化 . 预测:当气温为28 时 ,产卵数为85个 .困惑:比66还多19个 ,是否还有更适合的模型呢 ? 方案3: (1)作变换z =lgy ,将xc c y 2101 转化成z =c 2x +lgc 1 (线性模型 ) . (2)利用计算器计算出z 和x 的线性回归方程:(3)转换回y 和x 的模型:672.1118.010-=x y(4)计算相关指数R 2≈这个回归模型中温度解释了98.5%产卵数的变化 .预测:当气温为28 时 ,产卵数为4 2个 .解:根据收集的数据作散点图 (图3. 1一4 ) .在散点图中 ,样本点并没有分布在某个带状区域内 ,因此两个变量不呈线性相关关系 ,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识 ,可以发现样本点分布在某一条指数函数曲线21c xy c e =的周围 ,其中1c 和2c 是待定参数.现在 ,问题变为如何估计待定参数1c 和2c .我们可以通过对数变换把指数关系变为线性关系.令ln z y = ,那么变换后样本点应该分布在直线11(ln ,ln )z bx a a c b c =+==的周围.这样 ,就可以利用线性回归模型来建立 y 和 x 之间的非线性回归方程了.由表3一3 的数据可以得到变换后的样本数据表 3一4 ,图3.1一5 给出了表 3 一 4 中数据的散点图.从图3.1一5 中可以看出 ,变换后的样本点分布在一条直线的附近 ,因此可以用线性回归方程来拟合.x 21 23 25 27 29 32 35 z由表 3 一 4 中的数据得到线性回归方程0.272 3.849z x =-.因此红铃虫的产卵数对温度的非线性回归方程为(1)0.272 3.849x ye -=. ( 6 )另一方面 ,可以认为图3. 1一4 中样本点集中在某二次曲线234y c x c =+的附近 ,其中3c 和4c 为待定参数.因此可以对温度变量做变换 ,即令2t x = ,然后建立y 与t 之间的线性回归方程 ,从而得到y 与x 之间的非线性回归方程.表3一5 是红铃虫的产卵数和对应的温度的平方 ,图3 . 1一6 是相应的散点图.t 441 529 625 729 841 1024 1225 x 711212466115325从图3.1一6 中可以看出 ,y 与t 的散点图并不分布在一条直线的周围 ,因此不宜用线性回归方程来拟合它 ,即不宜用二次曲线234y c x c =+来拟合 y 和 x 之间的关系.这个结论还可以通过残差分析得到 ,下面介绍具体方法.为比拟两个不同模型的残差 ,需要建立两个相应的回归方程.前面我们已经建立了y 关于x 的指数回归方程 ,下面建立y 关于x 的二次回归方程.用线性回归模型拟合表 3 一 5 中的数据 ,得到 y 关于 t 的线性回归方程(2)0.367202.543yt =-,即 y 关于 x 的二次回归方程为(2)20.367202.543yx =- . ( 7 )可以通过残差来比拟两个回归方程 ( 6 )和 ( 7 )的拟合效果.用 x i 表示表3一3 中第 1 行第 i 列的数据 ,那么回归方程 ( 6 )和 ( 7 )的残差计算公式分别为 (1)(1)0.272 3.849,1,2,,7x ii ii e y y y e i -=-=-=;(2)(2)20.367202.543,1,2,,7ii ii e y y y x i =-=-+=.表3一6 给出了原始数据及相应的两个回归方程的残差.从表中的数据可以看出模型 ( 6 )的残差的绝|对值显然比模型 ( 7 )的残差的绝|对值小 ,因此模型 ( 6 )的拟合效果比模型在一般情况下 ,比拟两个模型的残差比拟困难.原因是在某些样本点上一个模型的残差的绝|对值比另一个模型的小 ,而另一些样本点的情况那么相反.这时可以通过比拟两个模型的残差平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.由表 3 一 6 容易算出模型 ( 6 )和 ( 7 )的残差平方和分别为(1)(2)1550.538,15448.431QQ==.因此模型 (6 )的拟合效果远远优于模型 (7 ).类似地 ,还可以用尸来比拟两个模型的拟合效果 ,R 2越大 ,拟合的效果越好.由表 3 一6 容易算出模型 (6 )和 (7 )的R 2分别约为 0 . 98 和 0 . 80 ,因此模型 ( 6 )的效果好于模型 (7) 的效果.对于给定的样本点 (11,x y ) , (22,x y ) ,… , (,n n x y ) ,两个含有未知参数的模型(1)(,)y f x a =和(2)(,)yg x b =,其中 a 和 b 都是未知参数.可以按如下的步骤来比拟它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(,)y f x a =与(2)(,)y g x b =, ,其中a 和b分别是参数a 和b 的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)21()ni i i Qy y ==-∑与(2)(2)21()ni ii Qy y ==-∑; ( s )假设(1)(2)Q Q< ,那么(1)(,)yf x a =的效果比(2)(,)yg x b =的好;反之 ,(1)(,)yf x a =的效果不如(2)(,)y g x b =的好.例2: (提示后做练习、作业 )研究某灌溉渠道水的流速y 与水深x 之间的关系 ,测得一组数据如下:水深xm 流速ym/s(1 )求y 对x 的回归直线方程;(2 )预测水深为1 .95m 时水的流速是多少 ?解:依题意 ,把温度作为解释变量x ,产卵个数y 作为预|报变量 , 作散点图 ,由观察知两个变量不呈线性相关关系 .但样本点分布在某一条指数函数 y =c 1e c2 x周围.令 z =lny , a =lnc 1 , b =c 2 那么 z =bx +a因此红铃虫的产卵数对温度的非线性回归方程为Y =e.843.3、从上节课的例1提出的问题引入线性回归模型: Y =bx +a +e 解释变量x预|报变量y随机误差 e4、 (1 ) 相关指数: 相关系数 r (公式) , r>0 正相关. R<0 负相关R 绝|对值接近于1相关性强接 r 绝|对值 近于0 相关性几乎无()()()()()()()()()()2221212ˆˆˆ5ˆ17i ni i n i y yy yy y ---=--∑∑∑∑ni 1i i i ni 12总偏差平方和 : y3残差 e=y -y 4残差平方和 y 回归平方和 = 总偏差平方和 - 残差平方和6回归效果的相关指数R 残差分析通过残差判断模型拟合效果判断原始数据是否存在可疑数据5、回忆建立模型的根本步骤 ① 例2 问题背景分析 画散点图 . ② 观察散点图 ,分析解释变量与预|报变量更可能是什么函数关系 . ③ 学生讨论后建立自己的模型 ④ 引导学生探究如果不是线性回归模型如何估计参数 .能否利用回归模型 通过探究体会有些不是线性的模型通过变换可以转化为线性模型 ⑤ 对数据进行变换后 ,对数据 (新 )建立线性模型 ⑥ 转化为原来的变量模型 ,并通过计算相关指数比拟几个不同模型的拟合效果 ⑦ 总结建模的思想 .鼓励学生大胆创新 . ⑧ 布置课后作业: 习题1.1 1、6、复习与稳固:练习1:某班5名学生的数学和化学成绩如下表所示 ,对x 与y 进行回归分析 ,并预|报某学生数学成绩为75分时 ,他的化学成绩 .A B C D E 数学x 88 76 73 66 63 化学y 78 65 71 64 61解略 .练习2:某医院用光电比色计检验尿汞时 ,得尿汞含量 (mg/l) 与消光系数的结果如下:(1 )求回归方程 . (2 )求相关指数R 2.解:略 .(三 ) 课堂小结 1.知识梳理:2规律小结: (1 )回归直线方程; (2 )样本相关系数; (3 )样本残差分析; (4 )样本指数;(5 )建立回归模型的根本步骤 .(四 ) 作业:(五 ) 课后反思:本节内容对回归分析的探讨过程很精彩 ,学生讨论很热烈 ,激发了学生的学习热情 .但对残差分析学生只能欣赏它的过程 ,计算量太大 ,思维的跳跃性太强 !3.2 独立性检验的根本思想及其初步应用(共计3课时 )授课类型:新授课一、教学内容与教学对象分析通过典型案例 ,学习以下一些常用的统计方法 ,并能初步应用这些方法解决一些实际问题 .①通过对典型案例 (如 "患肺癌与吸烟有关吗〞等 )的探究 .了解独立性检验 (只要求2×2列联表 )的根本思想、方法及初步应用 .②通过对典型案例 (如 "人的体重与身高的关系〞等 )的探究 ,了解回归的根本思想、方法及其初步应用 .二. 学习目标1、知识与技能通过本节知识的学习 ,了解独立性检验的根本思想和初步应用 ,能对两个分类变量是否有关做出明确的判断 .明确对两个分类变量的独立性检验的根本思想具体步骤 ,会对具体问题作出独立性检验 .2、过程与方法在本节知识的学习中 ,应使学生从具体问题中认识进行独立性检验的作用及必要性 ,树立学好本节知识的信心 ,在此根底上学习三维柱形图和二维柱形图 ,并认识它们的根本作用和存在的缺乏 ,从而为学习下面作好铺垫 ,进而介绍K的平方的计算公式和K的平方的观测值R 的求法 ,以及它们的实际意义 .从中得出判断 "X与Y有关系〞的一般步骤及利用独立性检验来考察两个分类变量是否有关系 ,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小 .最|后介绍了独立性检验思想的综合运用 .3、情感、态度与价值观通过本节知识的学习 ,首|先让学生了解对两个分类博变量进行独立性检验的必要性和作用 ,并引导学生注意比拟与观测值之间的联系与区别 ,从而引导学生去探索新知识 ,培养学生全面的观点和辨证地分析问题 ,不为假想所迷惑 ,寻求问题的内在联系 ,培养学生学习数学、应用数学的良好的数学品质 .加强与现实生活相联系 ,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系 ,学习用图形、数据来正确描述两个变量的关系 .明确数学在现实生活中的重要作用和实际价值 .教学中 ,应多给学生提供自主学习、独立探究、合作交流的时机 .养成严谨的学习态度及实事求是的分析问题、解决问题的科学世|界观 ,并会用所学到的知识来解决实际问题 .三.教学重点、难点教学重点:理解独立性检验的根本思想;独立性检验的步骤 .教学难点;1、理解独立性检验的根本思想;2、了解随机变量K2的含义;3、独立性检验的步骤 .四、教学策略教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结 .教学手段:多媒体辅助教学五、教学过程:对于性别变量 ,其取值为男和女两种.这种变量的不同 "值〞表示个体所属的不同类别 ,像这类变量称为分类变量.在现实生活中 ,分类变量是大量存在的 ,例如是否吸烟 ,宗教信仰 ,国籍 ,等等.在日常生活中 ,我们常常关心两个分类变量之间是否有关系.例如 ,吸烟与患肺癌是否有关系 ?性别对于是否喜欢数学课程有影响 ?等等.为调查吸烟是否对肺癌有影响 ,某肿瘤研究所随机地调查了9965人 ,得到如下结果 (单位:人 )表那么吸烟是否对患肺癌有影响吗 ?像表3一7 这样列出的两个分类变量的频数表 ,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中 ,有0.54 %患有肺癌;在吸烟者中 ,有2.28%患有肺癌.因此 ,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.与表格相比 ,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2 一1 是列联表的三维柱形图 ,从中能清晰地看出各个频数的相对大小.。
人教版高中选修2-3第三章统计案例课程设计 (2)
人教版高中选修2-3第三章统计案例课程设计一、课程目标通过本课程的学习,让学生了解统计学基础并能够灵活应用于实际生活中的问题解决。
同时,让学生了解统计学的应用范畴及其与其他学科的关联,培养学生数据分析和推理能力。
二、教学内容本课程主要包括以下内容:1. 常用统计方法通过介绍常用的统计方法,如均值、方差、标准差、中位数、众数等,让学生掌握基本的统计学知识。
2. 统计图形的绘制通过介绍统计图形的分类、绘制方法及其含义,让学生掌握利用图形进行数据分析和推理的能力。
主要包括:直方图、折线图、饼图、箱线图等。
3. 实际应用结合实际生活中的案例,如消费水平、人口增长、心理测量等,让学生学会利用统计学方法进行数据分析和推理,并能够处理实际问题。
三、教学方法本课程采用“理论讲解+案例分析”的教学方法。
1. 理论讲解首先,通过理论讲解,让学生了解统计学基础,掌握统计学的基本概念和内容,为后续案例分析打下坚实的基础。
2. 案例分析然后,通过实际生活中的案例,让学生学会灵活运用统计学方法进行数据分析和推理,并教授统计图形的绘制方法,提高学生的数据分析能力。
3. 课堂互动在教学过程中,鼓励学生积极参与课堂讨论和互动,提高学生的主动学习能力。
四、教学步骤1. 第一堂课:理论部分1.1 统计学基础概念及分类1.2 统计描述方法:中心位置度量、离散程度度量和位置及离散程度的综合度量1.3 统计学规律及其应用前景2. 第二堂课:案例分析2.1 案例一:消费水平2.2 案例二:人口增长3. 第三堂课:统计图形的绘制与应用3.1 直方图3.2 折线图3.3 饼图4. 第四堂课:案例分析4.1 案例三:心理测量4.2 案例四:销售分析五、教学评估本课程主要采用案例分析的方式进行学习并考核,教师将提供各种真实案例,让学生通过分析和解决这些实际问题,提高学生的学习能力、解决问题的能力和应用知识的能力。
六、教学资源本课程主要依赖人教版高中选修2-3第三章相关教材进行教学,并提供各种真实案例供学生分析和解决问题。
人教版高中数学选修2-3第三章统计案例3.2独立性检验的基本思想及其初步应用教案(3)
课型:新授课编写时时间:年月日执行时间:年月日
教学目标:
通过对典型案例的探究,进一步巩固独立性检验的基本思想、方法,并能运用χ2统计量进行独立性检验.
批注
教学重点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点.
教学难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点.
教学后记:
解:提出假设 :两种中草药的治疗效果没有差异,即病人使用这两种药物中的何种药物对疗效没有明显差异.
由列联表中的数据,求得
当 成立时, 的概率约为 ,而这里
所以我们有 的把握认为:两种药物的疗效有差异.
例3.下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?
教学用具:多媒体
教学方法:重视基本思想的领会及方法应用
教学过程:
一.学生活动
练习:
(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据?.
(2)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
非统计专业
统计专业
男
13
10
女
7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到
(1)根据以上数据建立一个2× 2列联表;
(2)判断性别与休闲方式是否有关系。
解:(1)2× 2的列联表:
休闲方式
性别
看电视
运动
总计
女
43
27
70
男
21
33
54
第三章统计案例小结与复习 教案高中数学选修2-3 北师大版
第三章统计案例小结与复习一、教学目标:会利用散点图和线性回归方程,分析变量间的相关关系;掌握独立性检验的步骤与方法。
二、教学重难点:会利用散点图和线性回归方程,分析变量间的相关关系;掌握独立性检验的步骤与方法。
三、教学方法:探析归纳,讲练结合 四、教学过程(一)、知识归纳与梳理 1、线性回归:(1)相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。
注:与函数关系不同,相关关系是一种非确定性关系。
(2)回归分析:对具有相关关系的两个变量进行统计分析的方法。
(3)散点图:表示具有相关关系的两个变量的一组数据的图形。
(4)回归直线方程:a bx y +=,其中⎪⎪⎩⎪⎪⎨⎧-=--=∑∑==x b y a x n x y x n y x b n i i ni i i 2121, ∑==n i i x n x 11。
相应的直线叫回归直线,对两个变量所进行的上述统计叫做回归分析。
(5)相关系数:)()(21221211y n y x n x yx n yx r ni i n i i ni ii ---=∑∑∑====相关系数的性质:(1)|r|≤1。
(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小。
2、独立性检验①22⨯列联表:列出的两个分类变量X 和Y ,它们的取值分别为12{,}x x 和12{,}y y 的样本频数表称为22⨯列联表1构造随机变量2χ()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++)得到2χ常与以下几个临界值加以比较:如果 2 2.706χ>,就有0090的把握因为两分类变量X 和Y 是有关系; 如果 2 3.841χ> 就有0095的把握因为两分类变量X 和Y 是有关系; 如果 2 6.635χ> 就有0099的把握因为两分类变量X 和Y 是有关系; 如果22.706χ≤,就认为没有充分的证据说明变量X 和Y 是有关系. (二)、典例探析例1、一个工厂在某年里每月产品的总成本y (万元)与该月产量x (万件)之间由如下一组数据:归直线方程. 解: 1)画出散点图:x2)r=∑∑∑===---1211212222121)12)(12(12i i i i i ii y y x x yx yx=18.534.1754.243120.997891-⨯⨯=在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r 0 05=0.576<0.997891, 这说明每月产品的总成本y (万元)与该月产量x (万件)之间存在线性相关关系.3)设回归直线方程a bx y+=ˆ, 利用⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=∑∑==xb y a x x y x y x b i i i i i 121221211212,计算a ,b ,得b≈1.215, a=x b y -≈0.974,∴回归直线方程为:974.0215.1ˆ+=x y例2、在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
高中数学 第三章 统计案例教案 北师大版选修23
第三章统计案例§1回归分析1.1 回归分析(教师用书独具)●三维目标1.知识与技能(1)了解回归分析的基本思想,会对两个变量进行回归分析.(2)明确建立回归模型的基本步骤,并对具体问题进行回归分析.(3)会解决实际问题.2.过程与方法(1)通过实际问题去理解回归分析的必要性,明确回归分析的基本思想.(2)从散点图中的点的分布上,发现直接求回归直线方程存在明显不足,从中引导学生去发现解决问题的新思路——进行回归分析.3.情感、态度与价值观(1)培养学生用整体的观点和互相联系的观点,来分析问题.(2)进一步加强数学的应用意识,培养学生学好数学、用好数学的信心.(3)加强与现实生活中的联系,以科学的态度评价两个变量的相关关系.●重点难点重点:掌握回归分析的步骤、相关系数、建立回归模型的步骤;体会有些非线性模型通过变换,可以转化为线性回归模型;在解决实际问题的过程中寻找更好的建型方法.难点:求线性回归方程的系数a,b;相关系数;选择不同的模型建模.回归分析主要是研究两个变量间的关系,是在必修三的基础上学习,教材的1.1回归分析是复习必修三的内容,为了使建立回归方程有意义,提出了相关系数,这与回归直线中b的系数有关联,教师可通过实例,让学生了解相关系数的大小与线性相关的关系;在现实中又有一种非线性的相关性,如何解决引导学生转化为线性关系,主要通过数形结合思想、函数思想,使问题化归为线性关系,教学中可通过提醒、猜想、练习等方法,使学生掌握本节的重点内容.(教师用书独具)●教学建议建议本节课用3课时讲解完成.教学中通过组织学生自己动手操作计算、观察、分析、交流、讨论、归纳让他们在探究学习中经历知识形成的全过程,从而形成“自主探究、合作交流”的数学学习方法.教师在课堂上可以用计算机软件进行参数的估计、相关系数的计数,让学生掌握利用计算器进行线性回归方程的求解和评价.●教学流程第1课时以实际问题作为课题引入.⇒回顾建立回归直线方程的基本步骤.⇒通过实例巩固、体验线性回归直线方程的求法及应用.⇒第2课时提出新问题,如何用其他方法刻画变量之间的线性相关.⇒师生共同探究,得出相关系的概念及相关系数的大小与线性相关之间的关系.⇒通过例题,巩固验证相关系数刻画变量之间的线性相关的特点.⇒第3课时引导学生探究如果不是线性回归模型,如何估计参数,能否利用线性回归模型.⇒对数据进行分析变换后,对新数据建立线性模型.⇒转化为原来变量模型,得出结论,总结建模思想,补充拓展.⇒课堂小结并完成当堂双基达标,巩固本节所学知识.课标解读 1.通过实例掌握回归分析的基本思想方法.2.利用最小二乘法会求线性回归直线方程,并能用线性回归直线方程进行预报.变量之间的相关关系【问题导思】1.正方形的面积S 与其边长a 是什么关系?圆的周长l 与半径r 是什么关系? 【提示】 ∵S =a 2,l =2πr , ∴它们都是确定的函数关系.2.父亲的身高与儿子的身高之间有何关系?耕种深度与水稻产量之间有何关系? 【提示】 非确定关系.1.变量之间有一定的联系,但不能完全用函数来表达.如人的体重y 与身高x .一般来说,身高越高,体重越重,但不能用一个函数来严格地表示身高与体重之间的关系.相关关系是非确定性关系,因变量的取值具有一定的随机性.2.在考虑两个变量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常把这种图叫作变量之间的散点图.线性回归方程【问题导思】1.确定线性回归方程,只需得出哪两个量?【提示】 确定线性回归直线方程,只需确定a ,b 两个量即可.2.在线性回归方程y =a +bx 中,当一次项系数b 为正数时,说明两个变量有何相关关系?在散点图上如何反映? 【提示】 说明两个变量正相关,在散点图上自左向右看这些点呈上升趋势.假设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),设线性回归方程为y =a +bx ,要使这n 个点与直线y =a +bx 的“距离”平方之和最小,即使得Q (a ,b )=(y 1-a -bx 1)2+(y 2-a -bx 2)2+…+(y n -a -bx n )2达到最小,a ,b 需满足b =∑nb =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x .由数据求线性回归方程已知x ,y 之间一组数据:x 0 1 2 3 y1357(1)分别计算:x 、y 、x 1y 1+…+x 4y 4,x 21+x 22+…+x 24; (2)求出线性回归方程y =bx +a .【思路探究】 可利用表格的数直接计算,然后把这些结果代入线性回归方程系数公式,分别求得a ,b ,再求出线性回归方程. 【自主解答】 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+…+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+…+x 24=02+12+22+32=14;(2)b =x 1y 1+x 2y 2+x 3y 3+x 4y 4-4x yx 21+x 22+x 23+x 24-4x 2=34-4×1.5×414-4×1.52=2;a =y -b x =4-2×1.5=1.故y =2x +1.答:(1)所求的值分别为:1.5,4,34,14; (2)所求的线性回归方程是:y =2x +1.求线性回归方程的步骤:(1)列表求出x ,y ,∑ni =1x 2i ,∑ni =1x i y i ;(2)利用公式b =∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x ,求出b ,a ;(3)写出线性回归方程.观察两相关量得如下数据:x -1 -2 -3 -4 -5 5 3 4 2 1 y-9-7-5-3-115379求两变量间的回归方程. 【解】 列表i 12345678910 x i-1-2-3-4-55342 1 y i-9-7-5-3-115379 x2i1491625259164 1 x i y i9141512551512149由此可得x=0,y=0,∑10i=1x2i=110,∑10i=1x i y i=110,b=∑10i=1x i y i-10x y∑10 i=1x2i-10x2=110-10×0110-10×0=1,a=y-b x=0,∴所求回归方程为y=x.求实际问题的回归方程某企业想通过做广告来提高自己的知名度,经预测可知本企业产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:x 24568y 3040605070(1)判断y与x是否具有线性相关关系;(2)求回归直线方程.【思路探究】先画出散点图,即可判断y与x是否具有相关关系,如果y与x具有相关关系可将有关数据代入公式求得回归直线方程.【自主解答】(1)散点图如图所示:根据散点图可知,所给的数据点都在一条直线的附近,所以y与x具有线性相关关系.(2)列出下表,并且科学地的进行有关计算.i 1234 5x i24568y i3040605070x i y i60160300300560x=5,y=50,∑5 i=1x2i=145,∑5i=1y2i=135 000,∑5i=1x i y i=1 380于是可得,b=∑5i=1x i y i-5x y∑5 i=1x2i-5x2=1 380-5×5×50145-5×52=6.5,a=y-b x=50-6.5×5=17.5,于是所求的回归直线方程是y=6.5x+17.5.对一级数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a、b的计算公式,算出a、b.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误.某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:汞含量x 2 4 6 8 10 消光系数y64138205285360(1)作散点图;(2)如果y 与x 之间具有线性相关关系,求线性回归方程. 【解】 (1)散点图如图.(2)由散点图可知,y 与x 呈相关关系,设线性回归方程为:y =bx +a .经计算:得x =6,y =210.4,∑5i =1x 2i =220,∑5i =1x i y i =7 790.∴b =7 790-5×6×210.4220-5×62=36.95, a =210.4-36.95×6=-11.3.∴线性回归方程为y =36.95x -11.3.利用回归直线方程进行统计某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x (x 取整数)元与日销售量y 台之间有如下关系:x 35 40 45 50 y 56 41 28 11(1)画出散点图,并判断y 与x 是否具有线性相关关系; (2)求日销售量y 对销售单价x 的线性回归方程;(3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.【思路探究】 两个变量呈现近似的线性关系,可通过公式计算出其线性回归方程,并根据方程求出其预测值.【自主解答】 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.(2)∵x =14×(35+40+45+50)=42.5,y =14×(56+41+28+11)=34,∑4i=1x i y i=35×56+40×41+45×28+50×11=5 410,∑4i=1x2i=352+402+452+502=7 350,∴b=∑4i=1x i y i-4x·y∑4 i=1x2i-4x2=5 410-4×42.5×347 350-4×42.52=-370125=-2.96.∴a=y-b x=34-(-2.96)×42.5=159.8.∴y=-2.96x+159.8.(3)依题意有P=(-2.96x+159.8)(x-30)=-2.96x2+248.6x-4 794,∴当x=248.62×2.96≈42时,P有最大值,约为426,即预测销售单价为42元时,能获得最大日销售利润.1.b=-2.96是斜率的估计值,说明单价每增加一个单位,日销售量就减少2.96. 2.借助于回归方程对实际问题的估计值是个近似值,不是一个准确值.假设关于某设备的使用年限x 和所支出的维修费y (万元)有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0若由资料可知y 对x 呈线性相关关系. (1)求线性回归方程;(2)估计使用年限为10年时,维修费用是多少万元? 【解】 (1)列表如下:ix iy ix 2ix i y i1 2 2.2 4 4.4 2 3 3.8 9 11.4 3 4 5.5 16 22.0 4 5 6.5 25 32.5 5 6 7.0 36 42.0 ∑202590112.3由此可得:x =4,y =5.进而可以求得b =∑5i =1x i y i -5x y∑5i =1x 2i -5x2=1.23,a =y -b x =0.08.∴线性回归方程为y =0.08+1.23x .(2)当x =10时,y =0.08+1.23×10=12.38(万元),即估计使用10年时维修费用是12.38万元.数形结合思想在回归分析中的应用(12分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨标准煤)与相应的生产能耗y(吨标准煤)的几组对照数据.x 345 6y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【思路点拨】(1)可直接由表格提供的点,列出散点图;(2)可利用线性回归方程中a,b公式直接求解;(3)直接用方程来估计所求值.【规范解答】(1)图形如图所示.3分(2)x =3+4+5+64=4.5;y =2.5+3+4+4.54=3.5;∑4i =1x i y i =3×2.5+4×3+5×4+6×4.5=66.5.∑4i =1x 2i =32+42+52+62=86. 6分∴b =∑4i =1x i y i -4x ·y ∑4i =1x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7, 8分 a =y -b x =3.5-0.7×4.5=0.35. 9分∴y =0.7x +0.35. 10分 (3)现在生产100吨甲产品用煤y =0.7×100+0.35=70.35,∴降低90-70.35=19.65吨标准煤. 12分线性回归方程的应用(1)描述两变量间的依存关系;(2)利用回归方程可进行预测;(3)利用回归方程还可以进行统计控制.1.作回归分析要有实际意义.2.回归分析前,最好先做出散点图.3.应用回归分析预测时,最好先作出散点图.1.下列说法正确的是( )A.任何两个变量都具有相关关系B.球的体积与该球的半径具有相关关系C.农作物的产量与施化肥量之间是一种确定性的关系D.某商品的生产量与该商品的销售价格之间是一种非确定性的关系【解析】两个变量之间的关系有两种,即函数关系与相关关系,故A错误.B中球的体积与该球的半径是函数关系.C中农作物的产量与施化肥量之间不是严格的函数关系,但是具有相关关系,因而是非确定性的关系.D中商品的生产量还和市场需求有关,故商品的生产量与该商品的销售价格之间是非确定性的关系.故选D.【答案】 D2.一位母亲记录了儿子3岁~9岁的身高(数据略),由此建立的身高y(单位:cm)与年龄x(单位:岁)的回归模型为y=7.19x+73.93.用这个模型预测这个孩子10岁时的身高,则下列叙述正确的是( )A.身高一定是145.83 cmB.身高在145.83 cm以上C.身高在145.83 cm以下D.身高在145.83 cm左右【解析】x=10时,y=7.19×10+73.93=145.83,但这是预测值而不是精确值,所以只能选D.【答案】 D3.在一次实验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的线性回归方程为________.【解析】通过检验A,B,C,D四点共线,都在直线y=x+1上.【答案】y=x+14.已知一个回归直线方程为y=1.5x+45,x∈{1,7,5,13,19},求y.【解】由已知可知:x=1+7+5+13+195=9.又∵回归直线过点(x,y),∴y =1.5x +45,即y =1.5×9+45=58.5.一、选择题1.对具有线性相关关系的两个变量建立的线性回归方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .只能大于0 C .可能等于0D .只能小于0【解析】 b 可能大于0,也可能小于0,但当b =0时,x ,y 不具有线性相关关系. 【答案】 A2.下列两个变量间的关系不是函数关系的是( ) A .正方体的棱长与体积 B .角的弧度数与它的正弦值C .单产为常数时,土地面积与粮食总产量D .日照时间与水稻亩产量【解析】 ∵A 、B 、C 都可以得出一个函数关系式,而D 不能写出确定的函数关系式,它只是一个不确定关系. 【答案】 D3.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y =bx +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.36万元 B .65.5万元 C .67.7万元D .72.0万元【解析】 x =4+2+3+54=3.5,y =49+26+39+544=42,∴a=y-b x=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6时,y=9.4×6+9.1=65.5,故选B.【答案】 B4.由一组样本数据(x1,y1),(x2,y2),…,(x n,y n)得到回归直线方程y=bx+a,那么下列说法中不正确的是( ) A.直线y=bx+a必经过点(x,y)B.直线y=bx+a至少经过点(x1,y1)(x2,y2),…,(x n,b n)中的一个点C.直线y=bx+a的斜率为∑ni=1x i y i-n x·y∑ni=1x2i-n x2D.直线y=bx+a的纵截距为y-b x【解析】回归直线可以不经过任何一个点.其中A:由a=y-b x代入回归直线方程y=bx+y-a x,即y=b(x-x)+y过点(x,y).∴B错误.【答案】 B5.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法正确的是( )A.l1与l2一定有公共点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合【解析】由于回归直线y=bx+a恒过(x,y)点,又两人对变量x的观测数据的平均值为s,对变量y的观测数据的平均值为t,所以l1和l2恒过点(s,t).【答案】 A二、填空题6.从某大学随机选取8名女大学生,其身高x(cm)和体重y(kg)的线性回归方程为y=0.849x-85.712,则身高172 cm的女大学生,由线性回归方程可以预测其体重约为________.【解析】将x=172代入线性回归方程y=0.849x-85.712,有y=0.849×172-85.712=60.316(kg).【答案】60.316 kg7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进行线性回归分析,结果如下:x=72,y=71,∑6i=1x2i=79,∑6i=1x i y i=1 481.b =1 481-6×72×7179-6×722≈-1.818 2,a =71-(-1.818 2)×72≈77.36,则销量每增加1 000箱,单位成本下降________元.【解析】 由上表可得,y =-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元. 【答案】 1.818 28.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y =0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 【答案】 0.254 三、解答题9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5 工作年限x /年 3 5 6 7 9 推销金额y /万元23345(1)求年推销金额y 关于工作年限x 的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 【解】 (1)设所求的线性回归方程为y =bx +a ,则b =∑i =15x i -xy i -y∑i =15x i -x2=1020=0.5, a =y -b x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y =0.5x +0.4. (2)当x =11时,y =0.5x +0.4=0.5×11+0.4 =5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.10.一种机器可以按各种不同速度运转,其生产物件中有一些含有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x 表示转速(单位:转/秒),用y 表示每小时生产的有缺点物件个数.现观测得到(x ,y )的4组值为(8,5),(12,8),(14,9),(16,11).(1)假设y 与x 之间存在线性相关关系,求y 与x 之间的线性回归方程.(2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒?(精确到1) 【解】 (1)设回归方程为y =a +bx ,则x =8+12+14+164=12.5,y =5+8+9+114=8.25, ∑4i =1x 2i =660,∑4i =1x i y i =438,b =∑4i =1x i y i -4x y∑4i =1x 2i -4x2=438-4×12.5×8.25660-4×12.52≈0.73, a =y -b x =8.25-0.73×12.5=-0.875,所以所求回归方程为y =-0.875+0.73x .(2)由y ≤10,即-0.875+0.73x ≤10,得x ≤10.8750.73≈15,即机器速度不得超过15转/秒.11.高二(3)班学生每周用于数学学习的时间x (单位:小时)与数学成绩y (单位:分)之间有如下数据:x 24 15 23 19 16 11 20 16 17 13 y92799789644783687159若某同学每周用于数学学习的时间为18小时,试预测该同学的数学成绩.【解】 显然学习时间与学习成绩间具有相关关系,可以列出下表,并用科学计算器进行计算.i 1 2 3 4 5 6 7 8 9 10 x i 24 15 23 19 16 11 20 16 17 13 y i 927997896447 83687159 x i y i2 208 1 185 2 231 1 691 1 024 5171 660 1 088 1 207767∑10i =1x 2i=3 182,∑10i =1x i y i=13 578于是可得b =∑10i =1x i y i -10x y∑10i =1x 2i -10x2=545.4154.4≈3.53,a=y-b x=74.9-3.53×17.4≈13.5.因此可求得回归直线方程为y=3.53x+13.5.当x=18时,y=3.53×18+13.5≈77.故该同学预计可得77分左右.(教师用书独具)在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表所示:价格x 1.4 1.6 1.82 2.2需求量y 121075 3(1)画出散点图;(2)求出y对x的回归直线方程;(3)如价格定为1.9万元,预测需求量大约是多少.(精确到0.01 t)【思路探究】先根据所给数据画出散点图,判断y与x是否具有线性相关关系,在此基础上利用回归方程系数的有关公式,求出相应的系数,然后结合函数知识预测需求量.【自主解答】(1)散点图如图所示.(2)采用列表的方法计算a与回归系数b.序号x i y i x2i x i y i1 1.412 1.9616.82 1.610 2.56163 1.87 3.2412.64 25 4 105 2.2 3 4.84 6.6Σ9 37 16.6 62x=15×9=1.8,y=15×37=7.4,b=62-5×1.8×7.416.6-5×1.82=-11.5,a=7.4+11.5×1.8=28.1.所以y对x的回归直线方程为y=a+bx=28.1-11.5x.(3)当x=1.9时,y=28.1-11.5×1.9=6.25,所以价格定为1.9万元时,需求量大约是6.25 t.解答本类题目的关键首先应先通过散点图来分析两变量间的关系是否相关,然后再利用求回归方程的公式求解回归方程,在此基础上,借助回归方程对实际问题进行预测.已知10只狗的血球体积x(单位:mm3)及红血球数y(单位:百万)的测量值如下:x 45424648423558403950y 6.53 6.309.257.50 6.99 5.909.49 6.20 6.557.72(1)画出散点图;(2)求出y对x的回归线性方程;(3)若血球体积为49 mm3,预测红血球数大约是多少?【解】(1)散点图如图(2)设线性回归方程为y =bx +a ,由表中数据代入公式,得b =∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.16,a =y -b x ≈0.12.所以所求线性回归方程为y =0.16x +0.12. (3)把x =49代入线性回归方程得:y =0.16×49+0.12≈7.96(百万),计算结果表明,当血球体积为49 mm 3时,红血球数大约为7.96百万.拓展阅读GDDS 和SDDS随着世界经济一体化的加快,各国间的交流与合作越来越频繁,为加强国际组织对各国经济运行状况的监督,国际社会在各领域纷纷建立了国际通行标准,其中国际货币基金组织(简称IMF)制定的数据公布通用系统(简称GDDS)和数据公布特殊标准(简称SDDS).GDDS 的主要内容和要求:在统计范围内,它将国民经济活动划分为5大经济部门,对每一部门各选定一组能够反映其活动实绩和政策以及可以帮助理解经济发展和结构变化的最为重要的数据.系统提出了五大部门综合框架和相关的数据类别和指标编制、公布的目标.选定的数据类别和指标中规定为主要部分.SDDS 将国民经济活动划分为4大经济部门.选定的数据类别分为:必须的、受鼓励的和“视相关程度”三类.必须的数据类别包括:综合统计框架、跟踪性数据、与部门有关的其他数据.IMF 为什么制定GDDS 和SDDS 呢?进入20世纪90年代以来,世界一些地区金融危机频繁爆发.1994年墨西哥的金融危机、1997年东南亚金融危机都导致国际金融市场剧烈动荡.两次金融危机给IMF 一个深刻的教训,也对其职能提出了挑战,在总结经验教训的基础上,IMF 认为,在新的国际经济、金融形势下,必须制定统一的数据发布标准,使各成员国按照统一程序提供全面、准确的经济金融信息,从而可以有效及时地对各国的经济进行正确的分析预测,从宏观上来作出调控,减少金融危机的发生和影响.1.2 相关系数课标解读 1.了解两个随机变量间的线性相关系数r ,并能利用公式求出相关系数r ;了解正相关、负相关、不相关的概念. 2.能利用相关系数r 判断两个随机变量间线性相关程度的大小,从而判断回归直线拟合的效果.相关系数【问题导思】1.有什么办法判断两个变量是否具有线性相关关系?【提示】 作出散点图,看这些点是否在某一直线的附近,计算线性相关系数. 2.线性相关系数与最小误差有何关系? 【提示】 Q (误差)=l yy (1-r 2).3.相关系数r 的绝对值的大小对相关性有何影响?【提示】 |r |越大,变量之间的相关程度越高;|r |越小,变量间线性相关程度越低;当r =0时,两个变量线性不相关.4.r 的正负对相关性的影响. 【提示】 r >0,b =l xyl xx>0两变量正相关; r <0,b =l xyl xx<0,两变量负相关.1.判断两个变量之间的线性相关关系的方法有: (1)计算线性相关系数r . (2)画散点图.2.假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r 的计算公式为r =l xyl xx l yy=∑ni=1x i-x y i-y∑ni=1x i-x2i=1ny i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2相关系数及其应用维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能就越好,而甲醛浓度是影响“缩醛化度”的重要因素,在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批试验,获得如下表数据.甲醛浓度18202224262830(克/升)缩醛化度26.8628.3528.7528.8729.7530.0030.36(克分子%)求相关系数r.【思路探究】可直接利用相关系数r的公式直接计算.【自主解答】列表如下:i x i y i x2i x i y i y2i11826.86324483.48721.459 622028.35400567803.722 532228.75484632.5826.562 542428.87576692.88833.476 952629.75676773.5885.062 562830.0078484090073030.36900910.80921.729 6∑168202.94 4 144 4 900.16 5 892.013 6 x=24,y=28.99,r=∑7i=1x i y i-7x y∑7i=1x2i-7x2∑7i=1y2i-7y2=4 900.16-7×24×28.994 144-7×242×5 892.013 6-7×28.992≈0.94.当相关系数|r|越接近1时,两个变量的线性相关程度越高,当相关系数|r|越接近0时,两个变量的线性相关程度越低.下列是小麦产量与施化肥量的一组观测数据:施化肥量15202530354045小麦产量320330360410460470480 判断施化肥量与水稻产量是否有相关关系.【解】i x i y i x2i y2i x i y i115320225102 400 4 800220330400108 900 6 600325360625129 6009 000430410900168 10012 300535460 1 225211 60016 100640470 1 600220 90018 800745480 2 025230 40021 600∑210 2 8307 000 1 171 90089 200∴r=∑i=17x i y i-7x y∑i=17x2i-7x2∑i=17y2i-7y2=4 300700×27 771.43≈0.975.由于r=0.975>0,因此施化肥量和水稻产量近似成线性正相关关系.线性回归分析的综合应用“阿曼德匹萨”是一个制作和外卖意大利匹萨的餐饮连锁店,其主要客户群是在校大学生,为研究各店铺的销售额与店铺附近地区大学生人数的关系,随机抽取十个分店的样本,得到数据如下:店铺编号 区内大学生数(万人)季度销售额(万元)1 0.2 5.8 2 0.6 10.53 0.8 8.84 0.8 11.85 1.2 11.76 1.6 13.7 7 2 15.78 2 16.9 9 2.2 14.9 10 2.620.2(1)试对区内大学生人数与店铺的销售额的关系进行相关性检验;(2)试根据这些数据建立回归模型,然后再进一步根据回归方程预测一个区内大学生人数1万人店铺的季度销售额; (3)若店铺的季度销售额低于10万元则亏损,试求建店区内大学生人数至少约多少人?【思路探究】 先根据表中的数据作相关检验,然后判断是否具有相关关系,再根据所给的数据解出线性回归方程,最后进行预测. 【自主解答】 (1)根据数据我们对区内大学生人数x 与店铺季度销售额y 作相关检验.根据数据可知:x =110(0.2+0.6+…+2.6)=1.4;y =110(5.8+10.5+…+20.2)=13,∑10i =1x 2i -10x 2=5.68,∑10i =1x i y i -10x y =28.4,∑10i =1y 2i -10y 2=157.3,因此r =28.45.68×157.3≈0.95;|r |接近1,因此有把握认为区内大学生人数x 与店铺季度销售额y 具有线性相关关系,求y 对x 的回归直线方程有意义.(2)回归系数b =28.45.68=5,a =13-5×1.4=6.因此回归直线方程是y=bx+a=5x+6.当x=1时,y=5×1+6=11,即区内大学生人数1万元店铺的季度销售额约11万元.(3)由回归直线方程是y=5x+6.令y≥10,解得x≥0.8,所以当建店区内大学生人数至少8 000人时才适合建店.进行相关性检验主要有两种常用方法,一是作散点图,观察所给的数据点是否在一条直线的附近,作散点图的优点是既直观又方便,是解决相关性检验问题比较常用的方法;缺点是作图总是存在误差,有时很难判断这些点是不是分布在一条直线的附近.二是利用样本相关系数对其进行相关性检验,优点是判断准确,缺点是计算繁琐,但可以借助计算器进行处理.在我国某地的一个县城,近期发现了好几个癌症村.政府部门十分震惊,马上组成调查组调查病因,经调查发现致癌的罪魁祸首是水源中的金属砷,它们来自附近的几家化工厂,化工厂排出的废水中含有金属砷,废水污染了水源,人食用了这种水就会致癌.下面就是调查组对几个癌症村水源中的砷超标的倍数和患癌症的人数统计的数据:砷超标的倍数x 34 5.5 4.2 5.86 3.5患癌症人数y 15202824354434(1)画出表中数据的散点图; (2)求y 对x 的回归方程;(3)若一个村的水源中砷超标的倍数为7,试估计这个村的患癌症的人数. 【解】 (1)散点图如图所示:(2)观察散点图,可知x 、y 成线性相关关系. 计算得x =327,y =2007,根据求b 公式代入数据计算得b ≈6.065,a =2007-6.065×327≈0.846. 所以患癌症人数y 对水源中砷超标的倍数x 的回归直线方程为y =6.065x +0.846.(3)根据上面求得的回归直线方程,当水源中砷超标的倍数为7时,y =6.065×7+0.846=43.301. 即该村患癌症的人数约为43人.对误差的大小与变量相关关系的理解有误对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不正确的是( )A.由样本数据得到的回归方程y=bx+a必过样本点的中心(x,y)B.在回归分析中,误差Q越小,变量之间的线性相关程度越高C.相关系数r越小,说明变量之间的线性相关程度越小D.在散点图中,若n个点在一条直线上,说明变量之间的相关性强【错解】 B【错因分析】对误差Q与变量间的相关关系理解错误.【防范措施】正确理解回归方程、相关系数r、误差Q、散点图等概念是解决概念题的基础.【正解】∵误差Q越小,|r|越大,变量之间的线性相关程度越高,而相关系数r的范围为-1≤r≤1,∴C错误.【答案】 C1.相关系数是用来刻画两个变量相关关系的强与弱的.2.相关系数的计算公式r=∑ni=1x i-x y i-y∑ni=1x i-x2∑ni=1y i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y21.在对变量y和x进行线性相关检验时,已知n是观测值组数,r是相关系数,且已知:①n=7,r=0.953 3;②n=15,r=0.301 2;③n=17,r=0.499 1;④n=3,r=0.9950.则变量y和x具有较高线性相关程度的是( )A.①和②B.①和④C.②和④D.③和④【解析】相关系数r的绝对值越大,变量x,y的线性相关程度越高,故选B.【答案】 B2.对相关系数r,下列说法正确的是( )A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.|r|越大,相关程度越小,|r|越小,相关程度越大D.|r|≤1且|r|越接近于1,相关程度越大,|r|越接近0,相关程度越小【解析】由两个变量相关系数公式。
人教版高中数学选修2-3第三章统计案例3.1回归分析的基本思想及其初步应用教案6
§3.1 独立性检验(1)教学目标(1)通过对典型案例的探究,了解独立性检验(只要求22⨯列联表)的基本思想、方法及初步应用;(2)经历由实际问题建立数学模型的过程,体会其基本方法.教学重点、难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点.教学过程一.问题情境5月31日是世界无烟日。
有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。
这些疾病与吸烟有关的结论是怎样得出的呢?我们看一下问题:1.某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?二.学生活动为了研究这个问题,(1)引导学生将上述数据用下表来表示:患病未患病合计吸烟37 183 220不吸烟21 274 295合计58 457 515(2)估计吸烟者与不吸烟者患病的可能性差异:在吸烟的人中,有3716.82%220≈的人患病,在不吸烟的人中,有217.12%295≈的人患病.问题:由上述结论能否得出患病与吸烟有关?把握有多大?三.建构数学1.独立性检验:(1)假设0H :患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下表:患病未患病合计吸烟 ab b a +不吸烟 cd d c + 合计c a +d b +d c b a +++(近似的判断方法:设n a b c d =+++,如果0H 成立,则在吸烟的人中患病的比例与不吸烟的人中患病的比例应差不多,由此可得a ca b c d≈++,即()()0a c d c a b a d b c +≈+⇒-≈,因此,||ad bc -越小,患病与吸烟之间的关系越弱,否则,关系越强.)设n a b c d =+++,在假设0H 成立的条件下,可以通过求 “吸烟且患病”、“吸烟但未患病”、“不吸烟但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用,,,,a b c d n 表示出来.例如:“吸烟且患病”的估计人数为()a b a cn P AB n n n ++⨯≈⨯⨯; “吸烟但未患病” 的估计人数为()a b b dn P AB n n n ++⨯≈⨯⨯; “不吸烟但患病”的估计人数为()c d a cn P AB n n n ++⨯≈⨯⨯; “不吸烟且未患病”的估计人数为()c d b dn P AB n n n++⨯≈⨯⨯. 如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论. (2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()-=∑观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ222a b a c a b b d a n b n n n n n a b a c a b b d n n n n n n ++++⎛⎫⎛⎫-⨯⨯-⨯⨯ ⎪ ⎪⎝⎭⎝⎭=+++++⨯⨯⨯⨯22c d a c c d b d c n d n n n n n c d a c c d b d n n n n n n++++⎛⎫⎛⎫-⨯⨯-⨯⨯ ⎪ ⎪⎝⎭⎝⎭++++++⨯⨯⨯⨯()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++) 由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“2 6.635χ≥”发生的概率约为0.01,即2( 6.635)0.01P χ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”.象以上这种用2χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验. 说明:(1)估计吸烟者与不吸烟者患病的可能性差异是用频率估计概率,利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,观测数据,,,a b c d 取值越大,效果越好.在实际应用中,当,,,a b c d 均不小于5,近似的效果才可接受.(2)这里所说的“呼吸道疾病与吸烟有关系”是一种统计关系,这种关系是指“抽烟的人患呼吸道疾病的可能性(风险)更大”,而不是说“抽烟的人一定患呼吸道疾病”. (3)在假设0H 下统计量χ2应该很小,如果由观测数据计算得到χ2的观测值很大,则在一定程度上说明假设不合理(即统计量χ2越大,“两个分类变量有关系”的可能性就越大).2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A和类B(如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:Ⅱ类1类2合计Ⅰ类Aa b ba+类B c d dc+合计ca+db+dcba+++推断“Ⅰ和Ⅱ有关系”的步骤为:第一步,提出假设H:两个分类变量Ⅰ和Ⅱ没有关系;第二步,根据2×2列联表和公式计算χ2统计量;第三步,查对课本中临界值表,作出判断.3.独立性检验与反证法:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立.四.数学运用1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?未感冒感冒合计使用血清258 242 500未使用血清216 284 500合计474 526 1000分析:在使用该种血清的人中,有24248.4%500=的人患过感冒;在没有使用该种血清的人中,有28456.8%500=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得221000(258284242216)7.075474526500500χ⨯⨯-⨯=≈⨯⨯⨯∵当0H 成立时,2 6.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效 无效 合计 口服 58 40 98 注射 64 31 95 合计12271193分析:在口服的病人中,有5859%98≈的人有效;在注射的病人中,有6467%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明. 解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得22193(58314064) 1.3896 2.072122719895χ⨯⨯-⨯=≈<⨯⨯⨯当0H 成立时,2 1.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论.说明:如果观测值22.706χ≤,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“0H 成立”,即Ⅰ与Ⅱ没有关系. 2.练习:课本第91页 练习第1、2、3题. 五.回顾小结:1.独立性检验的思想方法及一般步骤;2.独立性检验与反证法的关系.六.课外作业:课本第93页习题3.1 第1、2、3题.。
人教版高中数学选修2-3第三章统计案例3.1回归分析的基本思想及其初步应用教案2
课型:新授课编写时时间:年月日执行时间:年月日
教学目标:
(1)通过实例了解相关系数的概念和性质,感受相关性检验的作用;
(2)能对相关系数进行显著性检验,并解决简单的回归分析问题;
(3)进一步了解回归的基本思想、方法及初步应用.
批注
教学重点:相关系数的性质及其显著性检验的基本思想、操作步骤.
教学难点:相关系数的性质及其显著性检验的基本思想、操作步骤.
教学用具:多媒体
教学方法:进一步了解回归的基本思想、方法及初步应用.
教学过程:
一.问题情境
1.情境:下面是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程可以用作预测和估计吗?
2.问题:思考、讨论:求得的线性回归方程是否有实际意义.
这就是上节课提到的问题①,即模型的合理性问题.为了回答这个问题,我们需要对变量 与 的线性相关性进行检验(简称相关性检验).
三.建构数学
1.相关系数的计算公式:
对于 , 随机取到的 对数据 ,样本相关系数 的计算公式为
.
2.相关系数 的性质:
(1) ;
(2) 越接近与1, , 的线性相关程度越强;
(3) 越接近与0, , 的线性相关程度越弱.
二.学生活动
对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义.左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?
六.课外作业:习题3.2第 题.
2018年高中数学第3章统计案例章末小结与测评教学案选修2-3
第3章统计案例一、独立性检验1.独立性检验的思想及方法独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个对象没有关系”成立,在该假设下构造的随机变量χ2应该很小,如果由观测数据计算得到的χ2的观测值很大,则在一定程度上说明假设不合理.根据随机变量X的含义,可以通过概率来评价假设不合理程度.2.独立性检验的一般步骤(1)提出假设H0;(2)根据样本数据列2×2列联表,计算χ2=错误!;(3)比较χ2与临界值的大小并作出判断.二、回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.建立回归模型的基本步骤:(1)确定两个变量;(2)画出散点图;(3)进行相关系数检验;(4)确定线性回归方程类型,求出回归方程.建立回归模型的基本步骤,不仅适用于线性回归模型,也适用于非线性回归模型的建立.(考试时间:120分钟试卷总分:160分)一、填空题(本大题共14小题,每小题5分,共70分)1.下列有关线性回归的说法①变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到具有相关关系的两个变量的一组数据的图形叫做散点图;③线性回归直线得到具有代表意义的线性回归方程;④任何一组观测值都能得到具有代表意义的线性回归方程.其中错误的是________.解析:任何一组观测值并不都能得到具有代表意义的线性回归方程.答案:④2.下表是x与y之间的一组数据,则y关于x的线性回归直线必过点________.x0123y1357解析:∵x=错误!=y错误!= 1.5,4),而回归直线必过样本点的中心,故必过(1.5,4).答案:(1.5,4)3.对两个变量y和x进行线性相关性检验,已知n是观察值组数,r是相关系数,且已知:①n=7,r=0.953 3;②n=15,r=0。
高中数学选修2-3优质学案2:第三章 统计案例
第三章统计案例1.最小二乘法对于一组数据(x i ,y i ),i =1,2,…,n ,如果它们线性相关,则线性回归方程为y ^=b ^x +a ^,其中b ^=2.2×2列联表 2×2列联表如表所示:其中n =a +b +c +d 为样本容量. 3.K 2检验 常用随机变量K 2=n (ad -b c )2(a +b )(c +d )(a +c )(b +d )来检验两个变量是否有关系.1.回归分析的两个关注点(1)回归分析是建立在两个具有相关性的变量之间的一种模拟分析,因此先判断其是否具有相关性.(2)并非只有线性相关关系,还可能存在非线性相关关系. 2.独立性检验的两个注意点(1)通过独立性检验得到的结论未必正确,它只是对一种可靠性的预测. (2)2×2列联表中,当数据a ,b ,c ,d 都不小于5时,才可以用K 2检验.主题1 回归分析某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:且知x与y具有线性相关关系,求出y关于x的回归直线方程,并说明拟合效果的好坏.主题2独立性检验某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数大于等于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯;(2)根据以上数据完成如表所示的2×2列联表.(3)能否在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”?在考查黄烟是否经过药物处理与发生青花病的关系时,得到如下数据:在试验的470株黄烟中,经过药物处理的黄烟有25株发生青花病,60株没有发生青花病;未经过药物处理的有185株发生青花病,200株没有发生青花病.试推断经过药物处理跟发生青花病是否有关系.[A 基础达标]1.对两个变量y 和x 进行回归分析,得到一组样本数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则下列说法中不正确的是( )A .由样本数据得到的回归方程y ^=b ^x +a ^必过样本点的中心(x ,y ) B .残差平方和越小的模型,拟合的效果越好C .用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好D .若变量y 和x 之间的相关系数r =-0.936 2,则变量y 与x 之间具有线性相关关系 2.下列说法中正确的有:( ) ①若r >0,则x 增大时,y 也相应增大; ②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上. A .①② B .②③ C .①③D .①②③3.若两个变量的残差平方和是325, i =1n(y i -y ―)2=923,则随机误差对预报变量的贡献率约为( ) A .64.8% B .60% C .35.2%D .40%4.有下列数据下列四个函数中,模拟效果最好的为( ) A .y =3×2x -1 B .y =log 2x C .y =3xD .y =x 25.通过随机询问100名性别不同的小学生是否爱吃零食,得到如下的列联表:由K 2=n (ad -b c )(a +b )(c +d )(a +c )(b +d ),计算得K 2=100(10×30-20×40)250×50×30×70≈4.762.参照附表,得到的正确结论为( )A .在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”B .在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别无关”C .有97.5%以上的把握认为“是否爱吃零食与性别有关”D .有97.5%以上的把握认为“是否爱吃零食与性别无关”6.某种活性细胞的存活率y (%)与存放温度x (℃)之间有如下几组样本数据:经测算,上述样本数据具有线性相关关系,且回归直线的斜率为-3.2.则当存放温度为6 ℃时,该种细胞的存活率的预报值为________%. 6时,y ^=-3.2×6+53.2=34.7.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y =3e 2x +1的图象附近,则可通过转换得到的线性回归方程为________.8.为了调查患慢性气管炎是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:根据列联表数据,求得K 2=________(保留3位有效数字),根据下表,在犯错误的概率不超过________的前提下认为患慢性气管炎与吸烟有关. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).9.某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B 类同学),现用分层抽样方法(按A 类、B 类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 c m 作为达标的标准,对抽取的100名学生,得到以下列联表:(1)完成上表;(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系(K 2的观测值精确到0.001)?10.某城市理论预测2011年到2015年人口总数与年份的关系如表所示:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)据此估计2018年该城市人口总数.[B 能力提升]11.(2018·河南洛阳3月模拟)某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶图,其中一个数字被污损.(1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数的概率;(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下对照表:根据表中数据,试求线性回归方程y ^=b ^x +a ^,并预测年龄为60岁的观众周均学习成语知识的时间.12.(选做题)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如下茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X的分布列及数学期望.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d,——★ 参 考 答 案 ★——主题1 回归分析解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.c ^=y ―-d ^w ―=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程. (3)回归分析.画残差图或计算R 2,进行残差分析. (4)实际应用.依据求得的回归方程解决问题.解:x ―=15×(14+16+18+20+22)=18,y ―=15×(12+10+7+5+3)=7.4,所以a ^=7.4+1.15×18=28.1,所以y 对x 的回归直线方程为y ^=-1.15x +28.1. 列出残差表为主题2 独立性检验解:(1)30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主.(2)2×2列联表如表所示:(3)随机变量K 2的观测值k =30×(4×2-8×16)212×18×20×10=10>6.635,所以在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K 2统计量法:通过公式 K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )先计算观测值k ,再与临界值表作比较,最后得出结论.解:由已知,得2×2列联表如下:提出假设H 0:经过药物处理跟发生青花病无关系. 根据列联表中的数据,可以求得随机变量K 2的观测值为 k =470×(25×200-185×60)2210×260×85×385≈9.788.因为当H 0成立时,K 2≥7.879的概率约为0.005,而此时K 2的观测值k ≈9.788>7.879, 所以在犯错误的概率不超过0.005的前提下认为经过药物处理跟发生青花病是有关系的.[A 基础达标]1.C[[解析]]R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C. 2.C[[解析]]若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确,r <0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确. 3.C[[解析]]由题意可知随机误差对预报变量的贡献率约为325923≈0.352. 4.A[[解析]]分别把x =1,2,3,代入求值,求最接近y 的值,即为模拟效果最好,故选A. 5.A[[解析]]因为K 2≈4.762>3.841,P (K 2>3.841)=0.05.所以在犯错误的概率不超过5%的前提下,认为“是否爱吃零食与性别有关”,故选A. 6.34[[解析]]设回归直线方程为y ^=-3.2x +a ^,因为x ―=1,y ―=50,则a ^=y ―+3.2x ―=53.2.当x =6时,y ^=-3.2×6+53.2=34. 7.u =1+ln 3+2x (其中u =ln y ) [[解析]]由y =3e 2x +1, 得ln y =ln (3e 2x +1), 即ln y =ln 3+2x +1,令u =ln y ,v =x ,则线性回归方程为u =1+ln 3+2v . 8.22.2 0.001 [[解析]]K 2的观测值k =100×(20×55-20×5)240×60×25×75≈22.2>10.828.所以在犯错误的概率不超过0.001的前提下认为患慢性气管炎与吸烟有关. 9.解:(1)填写列联表如下:(2)由列联表中的数据,得K 2的观测值为 k =100×(40×15-35×10)275×25×50×50≈1.333<3.841.所以不能在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系. 10.解:(1)散点图如图:(2)因为x ―=0+1+2+3+45=2,y ―=5+7+8+11+195=10,a ^=y -b ^x =3.6;所以线性回归方程为y ^=3.2x +3.6. (3)令x =7,则y ^=3.2×7+3.6=26.即估计2018年该城市人口总数为26十万.[B 能力提升]11.解:(1)设被污损的数字为a ,则a 有10种情况. 由88+89+90+91+92>83+83+87+90+a +99,得a <8,所以有8种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数, 所求概率为810=45.a ^=y -b ^x =3.5-7100×35=2120.所以y ^=7100x +2120.当x =60时,y ^=5.25.即预测年龄为60岁的观众周均学习成语知识的时间为5.25小时. 12.解:(1)由茎叶图可得2×2列联表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=40×(16×8-4×12)220×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4, P (X =0)=(1-45)2(1-35)2=4625,P (X =1)=C 1245(1-45)(1-35)2+(1-45)2C 1235(1-35)=44625, P (X =2)=⎝⎛⎭⎫452⎝⎛⎭⎫1-352+C 1245⎝⎛⎭⎫1-45C 1235·⎝⎛⎭⎫1-35+⎝⎛⎭⎫1-452⎝⎛⎭⎫352=169625, P (X =3)=C 1245⎝⎛⎭⎫1-45⎝⎛⎭⎫352+⎝⎛⎭⎫452C 1235·⎝⎛⎭⎫1-35=264625, P (X =4)=⎝⎛⎭⎫452⎝⎛⎭⎫352=144625,所以X 的分布列为所以E (X )=0×4625+1×44625+2×169625+3×264625+4×144625=2.8,即此项血液指标为正常的人数X 的数学期望为2.8.。
人教版高中选修2-3第三章统计案例课程设计
人教版高中选修2-3第三章统计案例课程设计课程目标本课程旨在帮助学生通过现实统计案例的学习,加深对统计学知识的理解,并学会运用统计方法进行数据分析和推断。
具体课程目标包括:1.了解统计学的基本概念和方法,包括描述性统计和推论统计;2.掌握常见的统计方法和工具,如样本调查、假设检验等;3.学会运用统计方法进行数据分析和推断,并能通过数据可视化工具呈现分析结果;4.能够阅读与理解统计报告、统计学术论文等。
课程内容Part 1 统计学基础概念和方法本部分主要介绍统计学的基本概念和方法,包括数据类型、数据的中心趋势和离散程度等内容。
1.1 数据类型•定义:介绍数据的种类,包括定量数据和定性数据。
•实战练习:举例区分不同类型的数据。
1.2 中心趋势和离散程度•定义:介绍数据的中心趋势和离散程度的计算方法,如均值、中位数、众数、方差、标准差等。
•实战练习:利用给定数据计算中心趋势和离散程度,并对结果进行分析。
Part 2 统计方法和工具本部分主要介绍统计方法和工具,包括样本调查、假设检验等内容。
2.1 样本调查•定义:介绍样本调查的基本概念和实现方法,如随机抽样、分层抽样等。
•实战练习:通过样本调查,进行数据收集和分析,并进行推断。
2.2 假设检验•定义:介绍假设检验的基本概念和实现方法,如单样本t检验、双样本t检验、卡方检验等。
•实战练习:通过假设检验讨论问题,并进行数据分析和推断。
Part 3 统计案例分析本部分主要包括一些实际应用统计学的案例,包括医疗保健、环境污染等内容。
3.1 医疗保健案例•定义:介绍医疗保健案例的背景和数据收集方法。
•实战练习:通过医疗保健案例,进行数据分析和推断,讨论如何优化医疗保健服务。
3.2 环境污染案例•定义:介绍环境污染案例的背景和数据收集方法。
•实战练习:通过环境污染案例,进行数据分析和推断,讨论如何加强环保管理。
课程作业本课程作业旨在让学生将所学的统计知识运用到实际问题中,并通过数据分析和可视化工具呈现结果。
高中数学选修2《统计案例》教案
第三章统计案例实习作业(人教A版高中课标教材数学选修2-3)一、教学内容解析1.内容本节课是《普通高中课程标准实验教科书数学》人教A版选修2-3第三章《统计案例》中的《实习作业》,主要内容是:先由学生在课余时间收集数据,经过自己的数据处理后写出实习报告,课堂上交流解决实际问题的具体操作.2.内容解析本节内容是学生学习了必修3中第二章统计、选修2-3中第三章统计案例之后,对本章中学习的两个统计方法:线性回归分析、独立性检验的延续——实际应用.内容可分为两个环节:对知识的验收、内化、巩固;对知识的理解、实践和延拓.本节主要任务是学生对知识的巩固以及结合自己的思考进一步将知识应用于实际. 重点在于让学生积极思考研究、动手实践、自主探索、合作交流,是新课程下学生自主学习、自主探究的学习方式的良好素材.本节课蕴含了丰富的统计学思想,利用统计知识培养了学生三个方面的数学学科的核心素养:数学运算、数据分析、数学建模、逻辑推理、数学抽象.在对知识深入挖掘的基础上,本节内容的设计中含有多个德育教育点:亲身经历实际问题解决过程中的各个环节,多种形式互动确定主题、小组合作探究共同研讨解决问题的办法、走出校园寻找答案、搜集数据的不同方法的设计、搜集样本的不同方法、相关资源的多渠道收集、各种软件的动手操作应用和开发、对自我研究成果得出结论并反思及延拓,使学生感受探索的乐趣、享受成功的体验、体会数学的理性和严谨、激发学生学习数学的积极性、初步体会数学建模、培养学生勇于探索的精神、渗透辩证唯物主义的方法论和认识论、养成实事求是的科学态度和锲而不舍的钻研精神、形成学习数学知识的积极态度.基于以上分析,本节课的教学重点是:统计学的基本思想;通过具体案例,引导学生参与数据分析的全过程,掌握回归分析、独立性检验的基本步骤;统计案例在实际生活中的应用.二、教学目标设置1.目标(1)掌握必修3中的抽样方法并能灵活应用,掌握统计案例中的两种统计方法并能联系实际.(2)让学生感知数学知识与实际生活的普遍联系;培养学生统计学思想方法,提高学生的学习能力;培养学生学会运用统计学的知识解决数学问题的能力;培养学生合作探究和自主解决数学问题的能力;锻炼学生运用数量关系去刻画客观世界,进而去解决生活实际问题初步建模的能力.(3)培养学生辩证唯物主义观点;培养学生不怕困难、勇于探索的优良作风;增强学生合作能力,提高数据分析的能力,给学生以成功的体验;形成学习数学知识的积极态度.2.目标解析(1)新课标中对经历知识的发生过程提出了较高的要求,强调使用“经历”、“感受”、“探索”等体现目标要求的行为动词,学生要体验数学的发现与创造的过程.本节课是学生经历“学数学、做数学、用数学”的一次机会.因此通过实际问题的探究,亲身经历分析和解决问题的过程,以及亲身经历收集数据、分析数据、解答问题的探究过程,在此过程中学会利用数学知识思考问题的方法,初步了解数学建模中如何建立统计模型,体会统计学的方法,明确统计学就是为制定决策提供依据为目的,培养学生良好的学习态度和习惯.(2)数学思想的教学一般要经过渗透孕育期、领悟形成期、应用发展期、巩固深化期四个阶段.在整个教学过程中,让学生感受统计思想,明确不管是“回归分析”还是“独立性检验”,得到的结论都可能犯错误,这就是统计思维与确定性思维差异的反映,这一认识得到再一次的巩固深化.(3)通过统计问题的确定和解答,让学生体会统计学的研究过程,培养学生不怕困难、勇于探索的优良作风;通过用不同途径搜集数据、不同方法确定样本、不同的数学工具分析数据、寻找不同的资源进行数据和成果的论证及延伸,扩充学生的视野及看问题的角度,增强学生自主解决问题的能力,提升学生数学思维的情趣,培养学生良好的思维品质,提高学生的动手操作能力,促进学生数字化时代下搜集信息的能力,做到润物细无声、水到渠成地提高学生逻辑思维能力.三、学生学情分析1.学生程度学生为高二年级的学生,所授课的班级中考数学平均分居于全市平均水平,学生已具备一定的合作能力、自主探究能力,学生的表达能力和动手操作能力比较强.2.知识层面学生在高一已经学习过抽样方法:简单随机抽样、系统抽样、分层抽样,高二已经学习了统计案例的两个统计方法:回归分析、独立性检验.3.能力层面(1)具有一定的统计学思想的基础;(2)初步接触数学建模,对于实际问题的应用有浓郁的兴趣,但具体应用很少,接触到的解决实际问题更少,学生这方面的经验还很欠缺.根据以上三个层面的分析,在学生已有的认知基础的条件下,学生可以自主探究实际问题,但很难寻找适合的生活实际问题.这时需要教师引导:观察生活实际、网络搜索、讨论等形式来确定问题.此时教师还需要适时点拨统计学就是为了制定决策提供依据,故下结论时应该使用的是统计学语言,并且强调在研究过程中随时记录新的想法.本节课教学难点:理解统计学的基本思想;能够解决成对数据统计相关性的简单实际问题.能够结合具体实例,掌握运用一元线性回归分析、独立性检验的方法和步骤;解决生活中统计案例的简单实际问题.根据本节课的特点,在教学中借助多媒体手段充分展示学生小组的研究过程,进而利于学生成果分享.四、教学策略分析在本节课的学习过程中,有意识地引导学生会用数学眼光观察世界,会用数学思维思考世界,会用数学语言表达世界.启发探索式教学法以及自主学习、小组合作,以“问题”为核心,以“观察”为手段,以“探究”为途径,以“发现”为目的.运用iPad、网络、图形计算器、focusky、Excel、多媒体和相关软件及时反馈,微视频、画图软件辅助教学,改善学习方式、创新思维,有效提升学生自主学习能力:1.为了更直观、形象地突出重点,突破难点,借助信息技术工具,通过微视频及现场演示,变抽象为直观,为学生的数学探究与数学思维提供支持.2.在整节课的教学中采用师生互动、生生互动、小组合作学习的方式,这样可以有利于发挥各层次学生的作用,同时调动学生学习的积极性.3.本节课的教学设计遵循了“发现——发展”的教学模式,教师始终坚持启发式教学原则,设计一系列问题串,以引导学生的数学思维活动.教师在整个教学过程中,不再完全是课堂的主导者,而是分别扮演了“教学实践活动的辅导者”、“解决问题所需资源的提供者”以及“自主探究过程中的组织者”等多种角色.五、教学过程设计1.温习旧知,Mindo展示引言教师利用幻灯片展示本节课的学习目标,说明并强调统计思想在实际生活中应用的重要性.师生活动:经过这一阶段的学习,每位学生都设计了属于自己的思维导图,展示学生完善的思维导图.指出本章研究的统计案例是初中以及必修模块内容的升华.设计意图:基于学生所学知识,为新知学习做了知识和方法的铺垫,并为后面的实际应用打好基础,清晰体现知识的脉络和结构.反馈学生作业的完成情况,通过Mindo思维导图的展示,全体学生共同复习了本模块主要内容,为下一环节理清思路.2. 视频开场,引入课题师生活动:播放《统计的乐趣》截取的视频.设计意图:引发学生学习统计知识的兴趣,引出课题的同时对统计学在生活中的重要性达成共识.3. 实际应用,汇报分享师生活动:课上展示课前已完成的小组实习报告,并对自己组的结论进行汇报和总结.课前布置的实习作业如下:请同学们根据老师给出的问题串,以小组为单位通过对事物的观察、查阅资料、讨论等形式寻找自己组感兴趣的统计话题,制定研究策略并完成.课上,全体学生带着两个任务共同聆听汇报:1.统计学研究问题的步骤?2.对其他组进行评价建议以及新想法.第一组–我校高二年级学生身高与体重关系的调查通过系统抽样的方法确定样本,利用Excel中的统计功能绘制散点图发现数据之间具有线性相关关系,利用最小二乘法现场对数据进行拟合,根据结论进行预估并分析误差原因.通过网络查找标准体重比照并说明体重普遍偏小的原因,结合人体BMI值继续进行拓展研究.第二组–高二学生数学成绩排名与总成绩排名之间关系的调查通过抽签法确定样本,利用图形计算器现场运算,绘制散点图和回归直线方程直观判断.不仅研究数学成绩排名与总成绩排名的关系,后期将知识应用于其他学科做为拓展,为高效学习寻找方向.第三组–性别与是否喜欢文理、是否喜欢球类运动、是否爱好音乐之间关系的调查本小组从性别这个分类变量出发,研究了三个问题.分别通过不同的渠道搜集数据:微信、问卷调查、网页链接,对数据进行统计后,绘制2×2列联表.通过绘制等高条形图观察出两组变量间有一定的相关关系,应用独立性检验的公式进行计算,查表后得出自己组相应的结论,并且对自己组在搜集数据的过程中以及问题中研究变量的选择上都有自己的新想法.第四组–有无喝碳酸饮料的习惯与有无骨折病史关系的调查结合丰富的生活实际,从学生所熟悉的身边现象出发,研究事物的本质.学生从化学、数学、医学三个不同的领域:广告中的化学实验、数学中的统计计算、医学中的科学原理对自己组的问题进行了多方位的阐述.其中在利用数学中的统计原理进行研究的过程中,走出校园进行街头访问,小组合作搜集到大量数据后绘制2×2列联表,通过观察等高条形图推断出两组变量间存在一定的相关关系,最后利用独立性检验公式计算查表得出相应的结论.不仅如此,在采访并搜集数据的同时以及在得出结论的过程中对自己组所研究的问题有了新的想法:有无骨折病史或许与年龄、性别等变量相关.设计意图:亲身经历实际问题的提出、分析和解决等环节:充分体现从具体到抽象,从实际到理论.通过观察、查阅资料、讨论等形式确定主题;小组合作学生参与度高,共同探究研讨解决问题的办法;搜集数据的不同方法的设计:网络、链接、问卷、调查、采访;确定样本的不同方法的使用:抽签法、系统抽样法、分层抽样法;走出校园寻找答案;相关资源的多渠道收集;动手现场操作软件;各种软件的应用和开发:图形计算器、Excel、iPad软件各种信息技术的使用;对自我研究成果得出结论并反思及延拓;课上精彩的呈现与展示交流.在活动中使学生感受数学的魅力,体会小组合作中的团队精神,小组互评的共同提升.让学生从数学角度看日常生活中的问题,体验数学与生活的密切联系. 将实际问题转化为数学问题,引导学生初步理解数学建模的含义,将问题归结为统计学问题. 让学生充分应用所学的统计学的知识以及强化统计学为制定决策提供依据的根本目的.使学生感受探索的乐趣,享受成功的体验,体会数学的理性和严谨,激发学生学习数学的积极性,初步体会数学建模,培养学生勇于探索的精神,渗透辩证唯物主义的方法论和认识论,养成实事求是的科学态度和锲而不舍的钻研精神,形成学习数学知识的积极态度.4. mindo梳理,总结反思师生活动:在教师的引导下,师生共同回忆本章节的内容和本节课的数学活动,学生对照思维导图,落实本节内容.设计意图:归纳小结有助于学生学习、记忆和应用.巩固新知,将知识形成网络,提高学习效率.知识的总结提炼,体现知识螺旋式上升的规律,进而突破本节的重点,攻克难点进一步深化对知识的理解.5. 讨论交流,提炼升华师生活动:学生对自己感兴趣的小组进行评价并给出拓展建议,谈一谈本次活动中的切身感受,每个小组汲取经验继续完善.师生共同提炼出本节课应用的主要知识及解决实际问题的主要步骤.(1)知识与技能:统计学中抽样方法、线性回归分析、独立性检验、统计学研究的步骤.(2)数学思想方法:统计学的思想以及运动变化观点的综合运用.(3)数学学科核心素养:数学建模、数学运算、数据分析、逻辑推理、数学抽象.设计意图:通过鼓励式教育,包括生生互助、师生互助,提高了学习效率,小组间互评,给出好的建议并让学生对自我学习的效果进行检验,并由此增强学生课堂落实效果,增强学习的热情.6. 拓展链接,素养提升(1)完善实习作业,完成目标检测.(2)研究性学习:继续寻找生活中与统计知识内容相关的应用.(3)思考与拓展:自主研修二元线性回归模型、二维随机变量及其联合分布、聚类分析、正交设计等.设计意图:注重学思结合,提倡启发式、探究式、参与式教学,激发学生的好奇心,促进每个学生主动地、生动活泼地发展.让学生走出校园,感受生活中的数学,小组互助学习共同体验成功是对这一理念的理解和尝试.研究性课题的布置旨在培养学生善于观察、勤于思考的习惯. 通过设计开放性问题,可以调动学生学习的积极性,思考与拓展内容的布置可以巩固知识、发现和弥补教学中的不足,对学有余力的同学留出自由发展的空间的同时,开阔了视野,构建了学生学习的空间.六、课堂教学目标检测1. 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响.对近8年的年宣传费i x 和年销售量(1,2,,8)i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)2. 为考察某种药物预防禽流感的效果,进行动物家禽试验,通过调查100个样本得出相应数据,统计结果为:服用药的共有60例,服用药物但患病的仍存在20例,没有服用药且未患病的有20例.(1)根据所给样本数据完成下面2×2列联表;(2)请问能有多大把握认为药物有效?关于“统计案例--实习作业”一课的点评通过观看老师所做的统计案例—实习作业这节课,我有以下几点感悟。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 统计案例§3.1 独立性检验(1)1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?为了研究这个问题,(1)引导学生将上述数据用下表来表示:一.建构数学 1.独立性检验:(1)假设0H :患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下表:如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论. (2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()-=∑观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ2()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++)由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“26.635χ≥”发生的概率约为0.01,即2( 6.635)0.01P χ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”.象以上这种用2χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A 和类B (如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:推断“Ⅰ和Ⅱ有关系”的步骤为:第一步,提出假设0H :两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量; 第三步,查对课本中临界值表,作出判断. 3.独立性检验与反证法:反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验(假设检验)原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立. 四.数学运用 1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒的作用?分析:在使用该种血清的人中,有48.4%500=的人患过感冒;在没有使用该种血清的人中,有28456.8%500=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得221000(258284242216)7.075474526500500χ⨯⨯-⨯=≈⨯⨯⨯∵当0H 成立时,26.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?分析:在口服的病人中,有59%98≈的人有效;在注射的病人中,有67%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得22193(58314064) 1.3896 2.072122719895χ⨯⨯-⨯=≈<⨯⨯⨯当0H 成立时,21.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论. 说明:如果观测值22.706χ≤,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“0H 成立”,即Ⅰ与Ⅱ没有关系.§3.1 独立性检验(2)二.数学运用 1.练习题:1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。
(1)根据以上数据建立一个2× 2列联表; (2)判断性别与休闲方式是否有关系。
例2.气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?例3.下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?§3.2 回归分析(1)一.建构数学1.线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型.说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差;②忽略了某些因素的影响; ③存在观测误差. (2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理;②在模型合理的情况下,如何估计a ,b ? 2.探求线性回归系数的最佳估计值: 设有n对观测数据(,)i i x y (1,2,3,,)i n =L ,根据线性回归模型,对于每一个ix ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21nii ε=∑越小越好.所以,只要求出使21(,)()ni i i Q y x αββα==--∑取得最小值时的α,β值作为a ,b 的估计值,记为$a,b $. 注:这里的iε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求$a,b $? 线性回归方程的方法:最小二乘法.利用最小二乘法可以得到$a,b $的计算公式为 $1122211()()()()nni i i ii i n ni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$$,其中11nii x x n ==∑,11ni i y y n ==∑由此得到的直线$$y a bx =+$就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中$a ,b $分别为a ,b 的估计值,$a 称为回归截距,b $称为回归系数,$y 称为回归值.3. 线性回归方程$$y abx =+$中$a ,b $的意义是:以$a 为基数,x 每增加1个单位,y 相应地平均增加b$个单位; 4. 化归思想(转化思想)(了解)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)b y ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bx y ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+.(4)b xy ae=,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.二.数学运用 1.例题:例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.年份 1949 1954 1959 1964 1969 1974 1979 1984 1989 1994 1999 人口数/百万542 603 672 705 807 909 975 1035 1107 1177 1246解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y 表示,得到下面的数据表:x5 10 15 20 25 30 35 40 45 50 y542 603 672 705 807 909 975 1035 1107 1177 1246作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.根据公式(1)可得$14.453,527.591.ba ⎧≈⎪⎨≈⎪⎩$ 这里的$,a b$分别为,a b 的估 计值,因此线性回归方程 为$527.59114.453y x =+ 由于2004年对应的55x =,代入线性回归方程$527.59114.453y x =+可得$1322.506y =(百万),即2004年的人口总数估计为13.23亿.§3.2 回归分析(2)1.相关系数的计算公式:对于x ,y 随机取到的n 对数据(,)i i x y (1,2,3,,)i n =L ,样本相关系数r 的计算公式为()()nniii ix x y y x y nx yr ---==∑∑.2.相关系数r 的性质: (1)||1r ≤;(2)||r 越接近与1,x ,y 的线性相关程度越强; (3)||r 越接近与0,x ,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 3. 作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系.说明:1.对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.2.这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.3.这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.4.对于上节课的例1,可按下面的过程进行检验: (1)作统计假设0H :x 与y 不具有线性相关关系;(2)由检验水平0.05与29n -=在附录2中查得0.050.602r =;(3)根据公式()2得相关系数0.998r =;(4)因为0.9980.602r =>,即0.05r r >,所以有95﹪的把握认为x 与y 之间具有线性相关关系,线性回归方程为$527.59114.453y x =+是有意义的.。