[推荐学习]高中数学第三章统计案例1回归分析教案教案北师大版选修2_3
高中数学第3章统计案例3.1回归分析课件北师大版选修2-3
设 y=kx,令 t=1x,则 y=kt.由 y 与 x 的数据表可得 y 与 t 的数据表:
t
4
2 1 0.5 0.25
y 16 12 5
2
1
作出 y 与 t 的散点图如图所示.
1.下列结论正确的是( ) ①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归
分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对
2.利用相关系数 r 来检验线性相关显著性水平时,通常与 0.75 作比较,若 r>0.75,则线性相关较为显著,否则为不显著.
求线性回归方程 (2016·九江高二检测)某服装商场为了了解毛衣的月销售量 y(件)与月
平均气温 x(℃)之间的关系,随机统计了某 4 个月的月销售量与当月平均气温,
其数据如下表:
阶
阶
析
1.1 回归分析
学
阶 段 二
1.2 相关系数
业 分
层
1.3 可线性化的回归分析
测 评
1.了解回归分析的思想和方法.(重点) 2.掌握相关系数的计算和判断线性相关的方法.(重点) 3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)
[基础·初探]
教材整理 1 回归分析
下列数据 x,y 符合哪一种函数模型( )
x 1 2 3 4 5 6 7 8 9 10
y 2 2.69 3 3.38 3.6 3.8 4 4.08 4.2 4.3
A.y=2+13x
B.y=2ex
C.y=2e1x
D.y=2+ln x
【解析】 分别将 x 的值代入解析式判断知满足 y=2+ln x.
【答案】 D
n
xiyi-n x y
江西省九江市高中数学 第三章 统计案例 1 回归分析教案教案 北师大版选修23
1 回归分析一、教学目标:(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法;(3)能求出简单实际问题的线性回归方程。
二、教学重点,难点:线性回归模型的建立和线性回归系数的最佳估计值的探求方法。
三、教学方法:讨论交流,探析归纳四、教学过程(一)、问题情境1、情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计当x=9时的位置y的值.时刻x/s 2345678位置观测值y/cm 5.547.5210.0211.7315.6916.1216.9821.06根据《数学3(必修)》中的有关内容,解决这个问题的方法是:先作散点图,如下图所示:从散点图中可以看出,样本点呈直线趋势,时间x与位置观测值y之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,1221()ni iiniix y nx ybx n xa y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑可以得到线性回归方为$ 3.5361 2.1214y x=+,所以当9x=时,由线性回归方程可以估计其位置值为$22.6287y=2、问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗? (二)、学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x 与y 之间的关系,y 的值不能由x 完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差。
(三)、新课探析1、线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差;②忽略了某些因素的影响;③存在观测误差.(2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理(这个问题在下一节课解决); ②在模型合理的情况下,如何估计a ,b ? 2、探求线性回归系数的最佳估计值:对于问题②,设有n 对观测数据(,)i i x y (1,2,3,,)i n =L ,根据线性回归模型,对于每一个i x ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21ni i ε=∑越小越好.所以,只要求出使21(,)()niii Q y x αββα==--∑取得最小值时的α,β值作为a ,b 的估计值,记为$a,b $. 注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求$a ,b$? 回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求a ,b 的方法:最小二乘法.利用最小二乘法可以得到$a,b $的计算公式为 $1122211()()()()nni i i ii i n ni i i i x x y y x y nx yb x x x n x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$$,其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线$$y a bx =+$就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中$a ,b $分别为a ,b 的估计值,$a 称为回归截距,b $称为回归系数,$y 称为回归值. 在前面质点运动的线性回归方程$ 3.5361 2.1214y x =+中,$ 3.5361a=, 2.1214b =$. 3、线性回归方程$$y a bx =+$中$a ,b $的意义是:以$a 为基数,x 每增加1个单位,y 相应地平均增加b$个单位。
高中数学 第三章 统计案例整合学案 北师大版选修2-3-北师大版高二选修2-3数学学案
高中数学 第三章 统计案例整合学案 北师大版选修2-3知识建构综合应用专题一确定回归直线方程的策略准确确定回归直线方程,有利于进一步加强数学应用意识,培养运用所学知识解决实际问题的能力,正确地求出回归直线方程是本节的重点,现介绍求回归直线方程的三种方法. 一、利用回归直线过定点确定回归直线方程回归直线方程y=a+bx 经过样本的中心(x,y)点,(x,y)称为样本点的中心,回归直线一定过此点.x -1 -2 -3 -4 -5 5 4 3 2 1 y-0.9-2-3.1-3.9-5.154.12.92.10.9A.y=0.5x-1B.y=xC.y=2x+0.3D.y=x+1 答案:B二、利用公式求a,b ,确定回归直线方程 利用公式求回归直线方程时应注意以下几点:①求b 时利用公式b=2111)())((∑∑==---ni ini i x xy y x x,先求出x =n 1(x 1+x 2+x 3+…+x n ),y =n1(y 1+y 2+ y 3+…+y n ).再由a=y -b x 求a 的值,并写出回归直线方程.②线性回归方程中的截距a 和斜率b 都是通过样本估计而来,存在着误差,这种误差可能导致预报结果的偏差.③回归直线方程y=a+bx 中的b 表示x 每增加1个单位时y 的变化量,而a 表示y 不随x 的变化而变化的量.④可以利用回归直线方程y=a+bx 预报在x 取某一个值时y 的估计值. 学科学生 A B C D E 数学成绩(x )8876736663(2)求化学成绩y 对数学成绩x 的回归直线方程. 解:(1)散点图略. (2) x =51×(88+76+73+66+63)=73.2,y =51×(78+65+71+64+61)=67.8. 所以b=251151)())((∑∑==---i i i ix xy y x x≈0.625.a=y -b x =67.8-0.625×73.2=22.05.所以y 对x 的回归直线方程为y=0.625x+22.05.三、先判定相关性,再求回归直线方程利用样本相关系数r 来判断两个变量之间是否有线性相关关系时,可以依据若|r|>0.75,我们认为有很强的线性相关关系,可以求回归直线方程,并可用求得的回归直线方程来预报变量的取值;若|r|<0.75,则认为两个变量之间的线性相关关系并不强,这时求回归直线方程没有太大的实际价值.(1)y 与x 是否具有相关关系;(2)如果y 与x 具有线性相关关系,求回归直线方程. 解:(1)由已知表格中的数据,求得x =71,y =72.3,r=2101121011)()())((∑∑∑===----i i n i ii i y y x xy y x x≈0.78.由于0.78>0.75,所以y 与x 之间具有很强的线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为: y=a+bx,则有b=∑∑==---1012101)())((i ii i ix xy y x x=1.22,a=y -b x =72.3-1.22×71=-14.32.所以y关于x的回归直线方程为y=1.22x-14.32.专题二可线性化的回归分析一、曲线线性化的意义曲线的线性化是曲线拟合的重要手段之一,对于某些非线性的资料可以通过简单的变量替换使之线性化,这样就可以按最小二乘法原理求出变换后变量的线性回归方程,在实际工作中常利用该线性回归方程绘制资料的标准工作曲线,同时根据需要可将此线性回归方程还原成曲线回归方程,实现对曲线的拟合.二、常用的非线性函数(一)指数函数y=ae bx (1)对(1)式的两边取对数,得lny=lna+bx当b>0时,y随着x的增大而增大;当b<0时,y随着x的增大而减小.当以lny和x绘制的散点图呈直线趋势时,可考虑采用指数函数来描述y与x间的非线性关系,lna和b分别为截距与斜率.更一般的指数函数是y=ae bx+k,式中的k为一常量,往往未知,应用时可试用不同的值. (二)对数函数y=a+blnx(x>0)当b>0时,y随着x的增大而增大,先快后慢;当b<0时,y随着x的增大而减小,先快后慢,当以y和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中a和b分别为截距与斜率.更一般的对数函数是y=a+bln(x+k),式中的k为一常量,往往未知.(三)幂函数y=ax b(a>0,x>0)(2)当b>0时,y随着x的增大而增大;b<0时,y随着x的增大而减小.对(2)式的两边取对数,得lny=lna+blnx,当以lny和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中lna和b分别为截距与斜率.更一般的幂函数是y=ax b+k,式中的k为一常量,往往未知.以上三种模型是我们在日常生活中常遇到的曲线模型,掌握这三种模型,有利于我们研究更多的曲线拟合与回归分析的问题.三、利用线性回归拟合曲线的一般步骤(一)绘制散点图一般根据资料性质结合专业知识便可确定资料的曲线类型,不能确定时,可在方格坐标纸上绘制散点图,根据散点的分布,选择接近的、合适的曲线类型.(二)进行变量替换y′=f(y),x′=g(x)使变换后的两个变量呈线性相关关系.(三)按最小二乘法原理求线性回归方程及进行方差分析.(四)将线性化方程转换为关于原始变量x,y的回归方程.【例1】经过调查得到8个厂家同种类型的产品年新增加投资额和年利润额的数据资料,如表(1)所示.表(1) 八个厂家年新增投资额与年利润额数据资料x的增大Y也有明显的增加的趋势,因此两者之间存在着相关关系,但是这种相关关系与其用一条直线来描述倒不如用曲线描述更加合适,因此Y 与x 之间更加倾向于被认为是一种非线性关系.回归方程也需要用一些非线性函数来刻画,比如图(2) 年新增加投资额与年利润额数据的散点图图3 经过对数变换后的散点图Y=β0·e β1·x; ①或者Y=β0+β1·x 2②等等.图(3)给出的是变量lnY 与变量x 的散点图,从中可以看出这些点基本上是围绕一条直线波动,说明变量lnY 与x 之间近似是一种线性关系,从而也印证了回归方程取①形式的合理性.同时,图(3)也提示我们一种求解回归方程①的思路,即通过求解变量lnY 对x 的线性回归方程即可得到相应的①式所表示的Y 和x 的回归方程,即在图(3)中的回归直线同图(2)中的曲线(Ⅱ)是一致的.具体来说,首先对样本数据(x i ,Y i ),i=1,2,…,n 作对数变换 Z i =lnY i ,i=1,2,…,n ; ③ 然后利用最小二乘法求出变量Z 对x 的回归方程Z=a 0+a 1·x; ④即图(3)中的直线方程,则相应的形如①式的Y 对x 的回归方程是 Y=e z =e a0·e a1x; ⑤即β0=e a0,β1=a 1.利用表(1)中给出的数据,可以得到lnY 对x 的线性回归方程是 Z=1.314+0.100x由此可得Y 对x 的回归方程是Y=3.720 5·e 0.100x; ⑥如果采用形如②式的抛物线型回归方程,容易看出,令ω=x 2,②式就是表示了变量Y 对ω的线性回归方程:Y=β0+β1·ω; ⑦所以,对样本数据做变换ωi =x i 2(i=1,2,…,n ),利用(ωi ,Y i )(i=1,2,…,n )求解出⑦中的系数估计值β0、β1代入②式即得到Y 对x 的回归方程. 对表(1)中的数据计算结果为Y=4.413+0.057x 2; ⑧ 专题三独立性检验的基本方法判断结论成立的可能性的一般步骤:(1)假设两个分类变量X 和Y 没有关系; (2)给定一个显著水平,查表给出临界值;(3)计算χ2=;))()()(()(2d b d c b a c a bc ad n ++++-(4)若χ2大于临界值,则认为x 与y 有关系,否则没有充分的理由说明这个结论不成立随机抽取189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,根据上述数据能得出什么结论?分析:首先由已知条件确定a ,b ,c ,d ,n 的数值,再利用公式求出χ2的观测值,最后与临界值比较再下结论. 解:由题目中表的数据可知:a=54,b=40,c=32,d=63,a+b=94,c+d=95,a+c=86,b+d=103,n=189.代入公式得χ2=103869594)32406354(1892⨯⨯⨯⨯-+⨯≈10.759.因为10.759>6.635,所以有99%的把握认为员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革态度和工作积极性是有关的.【例2】在一次恶劣气候的飞行航程中调查男女乘客晕机的情况如下表所示,根据此资料您χ2=57323455)8312624(892⨯⨯⨯⨯-⨯⨯≈3.689.因为3.689>2.706,所以有90%的把握认为此次飞行中晕机与否跟男女性别有关. 几点注意:(1)在列联表中注意各项的对应及有关值的确定,避免混乱. (2)若要判断X 与Y 有关时,先假设X 与Y 无关.(3)把计算出的χ2的值与相关的临界值作比较,确定出“X 与Y 有关系”的把握.科海观潮 相关与相关系数一、什么是相关事物总是相互联系的,它们之间的关系多种多样,分析起来,大概有以下几种情况:(1)一种是因果关系,即一种现象是另一种现象的因,而另一种现象则是果.例如学习的努力程度是学习成绩好坏的因(至少是部分的因);在一定刺激强度范围内,刺激强度经常是反应强度的因等.(2)第二种是共变关系,即表面看来有联系的两种事物都与第三种现象有关,这时两种事物之间的关系,便是共变关系.例如春天出生的婴儿与春天栽种的小树,就其高度而言,表面上看来都在增长,好像有关,其实,这二者都是受时间因素影响在发生变化,在它们本身之间并没有直接的关系.(3)第三种是相关关系,即两类现象在发展变化的方向与大小方面存在一定的关系,但不能确定这两类现象之间哪个是因,哪个是果;也有理由认为这两者并不同时受第三因素的影响,即不存在共变关系.具有相关关系的两种现象之间,关系是复杂的,甚至可能包含有暂时尚未认识的因果关系及其共变关系在内.例如,同一组学生的语文成绩与数学成绩的关系,即属于相关关系.统计学中所讲的相关是指具有相关关系的不同现象之间的关系程度.相关的情况有以下三种:一是两列变量变动方向相同,即一列变量变动时,另一列变量亦同时发生或大或小与前一列变量同方向的变动,这称为正相关.如身高与体重的关系,一般讲身长越长体重就越重.第二种相关情况是负相关,这时两列变量中若有一列变量变动时,另一列变量呈或大或小,但与前一列变量指向相反的变动.例如初学打字时练习次数越多,出现错误的量就越少等.第三处相关情况是零相关,即两列变量之间无关系.这种情况下,一列变量变动时,另一列变量作无规律的变动.如学习成绩优劣与身高之间的关系,就属零相关,即无相关关系,二者都是独立的随机变量.二、相关系数相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标,作为样本间相互关系程度的统计特征数,常用r表示,作为总体参数,一般用ρ表示,并且是指线性相关而言.相关系数的取值介于-1.00至+1.00之间,常用小数形式表示.它只是一个比率,不代表相关的百分数,更不是相关量的相等单位的度量.相关系数的正负号,表示相关方向,正值表示正相关,负值表示负相关.相关系数取值的大小表示相关的程度.相关系数为0时,称零相关即毫无相关,为1.00时,表示完全正相关,相关系数为-1.00时,为完全负相关.这二者都是完全相关.如果相关系数的绝对值在1.00与0之间不同时,则表示关系程度不同.接近1.00端一般为相关程度密切,接近0端一般为关系不够密切.(注意:若是非线性相关关系,而且直线相关计算r值可能很小,但不能说两变量关系不密切)关于这一点如何判定,尚需考虑计算相关系数时样本数目的多少.如果样本数目较少,受取样偶然因素的影响较大,很有可能本来无关的两类事物,却计算出较大的相关系数来.例如欲研究身高与学习有无关系,如果只选3、5个人,很可能遇到身材愈高学习愈好这一类偶然现象,这时虽然计算出的相关系数可能接近 1.00,但实际上这两类现象之间并无关系.究竟如何综合考虑样本数目大小,相关系数取值大小而判定相关是否密切这一问题,一般要经过统计检验后方能确定.相关系数不是等距的度量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,如只能说相关系数r=0.50的两列数值比相关系数r=0.25的两列数值之间的关系程度更密切,而绝不能说前二者的密切程度是后二者密切程度的两倍.也不能说相关系数从0.25到0.50与从0.50到0.75所提高的程度一样多.存在相关关系,即相关系数取值较大的两类事物之间,不一定存在因果关系,这一点要从事物的本质方面进行分析,绝不可简单化.计算相关系数一般要求成对的数据,即若干个体中每个个体要有两种不同的观测值.例如每个学生(智力相同者)的算术和语文成绩;每个人的视反应和听反应时;每个学生的智力分数与学习成绩等等.任意两个个体之间的观测值不能求相关.计算相关的成对数据的数目,一般以30以上为宜.。
高中数学 第三章 统计案例整合学案 北师大版选修2-3(2021年最新整理)
高中数学第三章统计案例整合学案北师大版选修2-3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(高中数学第三章统计案例整合学案北师大版选修2-3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为高中数学第三章统计案例整合学案北师大版选修2-3的全部内容。
高中数学第三章统计案例整合学案北师大版选修2—3知识建构综合应用专题一确定回归直线方程的策略准确确定回归直线方程,有利于进一步加强数学应用意识,培养运用所学知识解决实际问题的能力,正确地求出回归直线方程是本节的重点,现介绍求回归直线方程的三种方法.一、利用回归直线过定点确定回归直线方程回归直线方程y=a+bx经过样本的中心(x,y)点,(x,y)称为样本点的中心,回归直线一定过此点.【例1】观察两个相关变量的如下数据:x—1-2-3—4—554321y-0.9-2—3。
1—3。
9-5。
15 4.12。
9 2.10.9则两个变量间的回归直线为( )A。
y=0。
5x—1 B。
y=x C。
y=2x+0.3 D。
y=x+1答案:B二、利用公式求a,b,确定回归直线方程利用公式求回归直线方程时应注意以下几点:①求b 时利用公式b=2111)())((∑∑==---ni ini i x xy y x x,先求出x =n 1(x 1+x 2+x 3+…+x n ),y =n1(y 1+y 2+y 3+…+y n )。
再由a=y —b x 求a 的值,并写出回归直线方程。
②线性回归方程中的截距a 和斜率b 都是通过样本估计而来,存在着误差,这种误差可能导致预报结果的偏差.③回归直线方程y=a+bx 中的b 表示x 每增加1个单位时y 的变化量,而a 表示y 不随x 的变化而变化的量。
高中数学 第三章 第三课时 可线性化的回归分析教案 北师大版选修2-3
江西省九江市实验中学高中数学 第三章 第三课时 可线性化的回归分析教案 北师大版选修2-3一、教学目标:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。
二、教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
三、教学方法:讨论交流,探析归纳四、教学过程:(一)、复习引入:1、给出例题:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的回归方程. /y 个 (学生描述步骤,教师演示)2、讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系.(二)、新课探究:1. 探究非线性回归方程的确定:① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =2C 1e x C 的周围(其中12,c c 是待定的参数),故可用指数函数模型来拟合这两个变量.③ 在上式两边取对数,得21ln ln y c x c =+,再令ln z y =,则21ln z c x c =+,而z 与x 间的关系如下:方程来拟合.④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为0.272 3.843z x =-,因此红铃虫的产卵数对温度的非线性回归方程为0.272 3.843x y e -=.⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.2. 小结:(1)、用回归方程探究非线性回归问题的方法、步骤.(2)、化归思想(转化思想)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式.(1)b y a x =+,令'y y =,1'x x =,则有''y a bx =+. (2)b y ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+.(3)bx y ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+.(4)bx y ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.(三)、巩固练习:为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(2)试求出预报变量对解释变量的回归方程。
第三章统计案例小结与复习 教案高中数学选修2-3 北师大版
第三章统计案例小结与复习一、教学目标:会利用散点图和线性回归方程,分析变量间的相关关系;掌握独立性检验的步骤与方法。
二、教学重难点:会利用散点图和线性回归方程,分析变量间的相关关系;掌握独立性检验的步骤与方法。
三、教学方法:探析归纳,讲练结合 四、教学过程(一)、知识归纳与梳理 1、线性回归:(1)相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。
注:与函数关系不同,相关关系是一种非确定性关系。
(2)回归分析:对具有相关关系的两个变量进行统计分析的方法。
(3)散点图:表示具有相关关系的两个变量的一组数据的图形。
(4)回归直线方程:a bx y +=,其中⎪⎪⎩⎪⎪⎨⎧-=--=∑∑==x b y a x n x y x n y x b n i i ni i i 2121, ∑==n i i x n x 11。
相应的直线叫回归直线,对两个变量所进行的上述统计叫做回归分析。
(5)相关系数:)()(21221211y n y x n x yx n yx r ni i n i i ni ii ---=∑∑∑====相关系数的性质:(1)|r|≤1。
(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小。
2、独立性检验①22⨯列联表:列出的两个分类变量X 和Y ,它们的取值分别为12{,}x x 和12{,}y y 的样本频数表称为22⨯列联表1构造随机变量2χ()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++)得到2χ常与以下几个临界值加以比较:如果 2 2.706χ>,就有0090的把握因为两分类变量X 和Y 是有关系; 如果 2 3.841χ> 就有0095的把握因为两分类变量X 和Y 是有关系; 如果 2 6.635χ> 就有0099的把握因为两分类变量X 和Y 是有关系; 如果22.706χ≤,就认为没有充分的证据说明变量X 和Y 是有关系. (二)、典例探析例1、一个工厂在某年里每月产品的总成本y (万元)与该月产量x (万件)之间由如下一组数据:归直线方程. 解: 1)画出散点图:x2)r=∑∑∑===---1211212222121)12)(12(12i i i i i ii y y x x yx yx=18.534.1754.243120.997891-⨯⨯=在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r 0 05=0.576<0.997891, 这说明每月产品的总成本y (万元)与该月产量x (万件)之间存在线性相关关系.3)设回归直线方程a bx y+=ˆ, 利用⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=∑∑==xb y a x x y x y x b i i i i i 121221211212,计算a ,b ,得b≈1.215, a=x b y -≈0.974,∴回归直线方程为:974.0215.1ˆ+=x y例2、在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
高中数学 第三章 统计案例 1 回归分析学案 北师大版选修2-3(2021年最新整理)
高中数学第三章统计案例1 回归分析学案北师大版选修2-3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(高中数学第三章统计案例1 回归分析学案北师大版选修2-3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为高中数学第三章统计案例1 回归分析学案北师大版选修2-3的全部内容。
§1 回归分析函数.并根据拟合程度调整函数关系。
1.回归分析(1)函数关系是一种确定性的关系,而相关关系是一种非确定性关系.回归分析是对具有相关关系的两个变量进行统计分析的常用方法.(2)线性回归直线方程y =a +bx 中,b =错误!=错误!,a =错误!-b 错误!。
预习交流1线性回归直线方程y =a +bx 与一次函数y =a +kx 有何区别?提示:一次函数y =a +kx 是y 与x 的确定关系,给x 一个值,y 有唯一确定的值与之对应,而线性回归直线方程是y 与x 的相关关系的近似反映,两个数据x ,y 组成的点(x ,y )可能适合线性回归直线方程,也可能不适合.2.相关系数假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r 的计算公式为:r =错误!=错误!。
变量之间相关系数r 的取值范围为[-1,1],|r |值越大,误差Q 越小,变量之间的线性相关程度越高,|r |值越接近于0,Q 越大,变量之间的线性相关程度越低.当r >0时,b >0,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r <0时,b <0,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当r =0时,称两个变量线性不相关.预习交流2如何由样本的相关系数r =错误!判定两变量的相关性?提示:当r >0时,表明两个变量正相关,当r <0时,表示两个变量负相关,r 的绝对值越接近于1,表明两个变量线性相关性越强;r 的绝对值越接近于0,表明两变量之间几乎不存在线性相关关系,通常当|r |>0.75时,认为两个变量有很强的线性相关关系.3.可线性化的回归分析通过变换先将非线性函数转化成线性函数,利用最小二乘法得到线性回归方程,再通过相应变换得到非线性回归方程.预习交流3如何将函数y =a e bx转化为线性函数?提示:先对y =a e bx 两边取对数得ln y =ln a +bx 。
高中数学 第三章 统计案例教案 北师大版选修23
第三章统计案例§1回归分析1.1 回归分析(教师用书独具)●三维目标1.知识与技能(1)了解回归分析的基本思想,会对两个变量进行回归分析.(2)明确建立回归模型的基本步骤,并对具体问题进行回归分析.(3)会解决实际问题.2.过程与方法(1)通过实际问题去理解回归分析的必要性,明确回归分析的基本思想.(2)从散点图中的点的分布上,发现直接求回归直线方程存在明显不足,从中引导学生去发现解决问题的新思路——进行回归分析.3.情感、态度与价值观(1)培养学生用整体的观点和互相联系的观点,来分析问题.(2)进一步加强数学的应用意识,培养学生学好数学、用好数学的信心.(3)加强与现实生活中的联系,以科学的态度评价两个变量的相关关系.●重点难点重点:掌握回归分析的步骤、相关系数、建立回归模型的步骤;体会有些非线性模型通过变换,可以转化为线性回归模型;在解决实际问题的过程中寻找更好的建型方法.难点:求线性回归方程的系数a,b;相关系数;选择不同的模型建模.回归分析主要是研究两个变量间的关系,是在必修三的基础上学习,教材的1.1回归分析是复习必修三的内容,为了使建立回归方程有意义,提出了相关系数,这与回归直线中b的系数有关联,教师可通过实例,让学生了解相关系数的大小与线性相关的关系;在现实中又有一种非线性的相关性,如何解决引导学生转化为线性关系,主要通过数形结合思想、函数思想,使问题化归为线性关系,教学中可通过提醒、猜想、练习等方法,使学生掌握本节的重点内容.(教师用书独具)●教学建议建议本节课用3课时讲解完成.教学中通过组织学生自己动手操作计算、观察、分析、交流、讨论、归纳让他们在探究学习中经历知识形成的全过程,从而形成“自主探究、合作交流”的数学学习方法.教师在课堂上可以用计算机软件进行参数的估计、相关系数的计数,让学生掌握利用计算器进行线性回归方程的求解和评价.●教学流程第1课时以实际问题作为课题引入.⇒回顾建立回归直线方程的基本步骤.⇒通过实例巩固、体验线性回归直线方程的求法及应用.⇒第2课时提出新问题,如何用其他方法刻画变量之间的线性相关.⇒师生共同探究,得出相关系的概念及相关系数的大小与线性相关之间的关系.⇒通过例题,巩固验证相关系数刻画变量之间的线性相关的特点.⇒第3课时引导学生探究如果不是线性回归模型,如何估计参数,能否利用线性回归模型.⇒对数据进行分析变换后,对新数据建立线性模型.⇒转化为原来变量模型,得出结论,总结建模思想,补充拓展.⇒课堂小结并完成当堂双基达标,巩固本节所学知识.课标解读 1.通过实例掌握回归分析的基本思想方法.2.利用最小二乘法会求线性回归直线方程,并能用线性回归直线方程进行预报.变量之间的相关关系【问题导思】1.正方形的面积S 与其边长a 是什么关系?圆的周长l 与半径r 是什么关系? 【提示】 ∵S =a 2,l =2πr , ∴它们都是确定的函数关系.2.父亲的身高与儿子的身高之间有何关系?耕种深度与水稻产量之间有何关系? 【提示】 非确定关系.1.变量之间有一定的联系,但不能完全用函数来表达.如人的体重y 与身高x .一般来说,身高越高,体重越重,但不能用一个函数来严格地表示身高与体重之间的关系.相关关系是非确定性关系,因变量的取值具有一定的随机性.2.在考虑两个变量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常把这种图叫作变量之间的散点图.线性回归方程【问题导思】1.确定线性回归方程,只需得出哪两个量?【提示】 确定线性回归直线方程,只需确定a ,b 两个量即可.2.在线性回归方程y =a +bx 中,当一次项系数b 为正数时,说明两个变量有何相关关系?在散点图上如何反映? 【提示】 说明两个变量正相关,在散点图上自左向右看这些点呈上升趋势.假设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),设线性回归方程为y =a +bx ,要使这n 个点与直线y =a +bx 的“距离”平方之和最小,即使得Q (a ,b )=(y 1-a -bx 1)2+(y 2-a -bx 2)2+…+(y n -a -bx n )2达到最小,a ,b 需满足b =∑nb =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x .由数据求线性回归方程已知x ,y 之间一组数据:x 0 1 2 3 y1357(1)分别计算:x 、y 、x 1y 1+…+x 4y 4,x 21+x 22+…+x 24; (2)求出线性回归方程y =bx +a .【思路探究】 可利用表格的数直接计算,然后把这些结果代入线性回归方程系数公式,分别求得a ,b ,再求出线性回归方程. 【自主解答】 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+…+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+…+x 24=02+12+22+32=14;(2)b =x 1y 1+x 2y 2+x 3y 3+x 4y 4-4x yx 21+x 22+x 23+x 24-4x 2=34-4×1.5×414-4×1.52=2;a =y -b x =4-2×1.5=1.故y =2x +1.答:(1)所求的值分别为:1.5,4,34,14; (2)所求的线性回归方程是:y =2x +1.求线性回归方程的步骤:(1)列表求出x ,y ,∑ni =1x 2i ,∑ni =1x i y i ;(2)利用公式b =∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x ,求出b ,a ;(3)写出线性回归方程.观察两相关量得如下数据:x -1 -2 -3 -4 -5 5 3 4 2 1 y-9-7-5-3-115379求两变量间的回归方程. 【解】 列表i 12345678910 x i-1-2-3-4-55342 1 y i-9-7-5-3-115379 x2i1491625259164 1 x i y i9141512551512149由此可得x=0,y=0,∑10i=1x2i=110,∑10i=1x i y i=110,b=∑10i=1x i y i-10x y∑10 i=1x2i-10x2=110-10×0110-10×0=1,a=y-b x=0,∴所求回归方程为y=x.求实际问题的回归方程某企业想通过做广告来提高自己的知名度,经预测可知本企业产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:x 24568y 3040605070(1)判断y与x是否具有线性相关关系;(2)求回归直线方程.【思路探究】先画出散点图,即可判断y与x是否具有相关关系,如果y与x具有相关关系可将有关数据代入公式求得回归直线方程.【自主解答】(1)散点图如图所示:根据散点图可知,所给的数据点都在一条直线的附近,所以y与x具有线性相关关系.(2)列出下表,并且科学地的进行有关计算.i 1234 5x i24568y i3040605070x i y i60160300300560x=5,y=50,∑5 i=1x2i=145,∑5i=1y2i=135 000,∑5i=1x i y i=1 380于是可得,b=∑5i=1x i y i-5x y∑5 i=1x2i-5x2=1 380-5×5×50145-5×52=6.5,a=y-b x=50-6.5×5=17.5,于是所求的回归直线方程是y=6.5x+17.5.对一级数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a、b的计算公式,算出a、b.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误.某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:汞含量x 2 4 6 8 10 消光系数y64138205285360(1)作散点图;(2)如果y 与x 之间具有线性相关关系,求线性回归方程. 【解】 (1)散点图如图.(2)由散点图可知,y 与x 呈相关关系,设线性回归方程为:y =bx +a .经计算:得x =6,y =210.4,∑5i =1x 2i =220,∑5i =1x i y i =7 790.∴b =7 790-5×6×210.4220-5×62=36.95, a =210.4-36.95×6=-11.3.∴线性回归方程为y =36.95x -11.3.利用回归直线方程进行统计某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x (x 取整数)元与日销售量y 台之间有如下关系:x 35 40 45 50 y 56 41 28 11(1)画出散点图,并判断y 与x 是否具有线性相关关系; (2)求日销售量y 对销售单价x 的线性回归方程;(3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.【思路探究】 两个变量呈现近似的线性关系,可通过公式计算出其线性回归方程,并根据方程求出其预测值.【自主解答】 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.(2)∵x =14×(35+40+45+50)=42.5,y =14×(56+41+28+11)=34,∑4i=1x i y i=35×56+40×41+45×28+50×11=5 410,∑4i=1x2i=352+402+452+502=7 350,∴b=∑4i=1x i y i-4x·y∑4 i=1x2i-4x2=5 410-4×42.5×347 350-4×42.52=-370125=-2.96.∴a=y-b x=34-(-2.96)×42.5=159.8.∴y=-2.96x+159.8.(3)依题意有P=(-2.96x+159.8)(x-30)=-2.96x2+248.6x-4 794,∴当x=248.62×2.96≈42时,P有最大值,约为426,即预测销售单价为42元时,能获得最大日销售利润.1.b=-2.96是斜率的估计值,说明单价每增加一个单位,日销售量就减少2.96. 2.借助于回归方程对实际问题的估计值是个近似值,不是一个准确值.假设关于某设备的使用年限x 和所支出的维修费y (万元)有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0若由资料可知y 对x 呈线性相关关系. (1)求线性回归方程;(2)估计使用年限为10年时,维修费用是多少万元? 【解】 (1)列表如下:ix iy ix 2ix i y i1 2 2.2 4 4.4 2 3 3.8 9 11.4 3 4 5.5 16 22.0 4 5 6.5 25 32.5 5 6 7.0 36 42.0 ∑202590112.3由此可得:x =4,y =5.进而可以求得b =∑5i =1x i y i -5x y∑5i =1x 2i -5x2=1.23,a =y -b x =0.08.∴线性回归方程为y =0.08+1.23x .(2)当x =10时,y =0.08+1.23×10=12.38(万元),即估计使用10年时维修费用是12.38万元.数形结合思想在回归分析中的应用(12分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨标准煤)与相应的生产能耗y(吨标准煤)的几组对照数据.x 345 6y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【思路点拨】(1)可直接由表格提供的点,列出散点图;(2)可利用线性回归方程中a,b公式直接求解;(3)直接用方程来估计所求值.【规范解答】(1)图形如图所示.3分(2)x =3+4+5+64=4.5;y =2.5+3+4+4.54=3.5;∑4i =1x i y i =3×2.5+4×3+5×4+6×4.5=66.5.∑4i =1x 2i =32+42+52+62=86. 6分∴b =∑4i =1x i y i -4x ·y ∑4i =1x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7, 8分 a =y -b x =3.5-0.7×4.5=0.35. 9分∴y =0.7x +0.35. 10分 (3)现在生产100吨甲产品用煤y =0.7×100+0.35=70.35,∴降低90-70.35=19.65吨标准煤. 12分线性回归方程的应用(1)描述两变量间的依存关系;(2)利用回归方程可进行预测;(3)利用回归方程还可以进行统计控制.1.作回归分析要有实际意义.2.回归分析前,最好先做出散点图.3.应用回归分析预测时,最好先作出散点图.1.下列说法正确的是( )A.任何两个变量都具有相关关系B.球的体积与该球的半径具有相关关系C.农作物的产量与施化肥量之间是一种确定性的关系D.某商品的生产量与该商品的销售价格之间是一种非确定性的关系【解析】两个变量之间的关系有两种,即函数关系与相关关系,故A错误.B中球的体积与该球的半径是函数关系.C中农作物的产量与施化肥量之间不是严格的函数关系,但是具有相关关系,因而是非确定性的关系.D中商品的生产量还和市场需求有关,故商品的生产量与该商品的销售价格之间是非确定性的关系.故选D.【答案】 D2.一位母亲记录了儿子3岁~9岁的身高(数据略),由此建立的身高y(单位:cm)与年龄x(单位:岁)的回归模型为y=7.19x+73.93.用这个模型预测这个孩子10岁时的身高,则下列叙述正确的是( )A.身高一定是145.83 cmB.身高在145.83 cm以上C.身高在145.83 cm以下D.身高在145.83 cm左右【解析】x=10时,y=7.19×10+73.93=145.83,但这是预测值而不是精确值,所以只能选D.【答案】 D3.在一次实验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的线性回归方程为________.【解析】通过检验A,B,C,D四点共线,都在直线y=x+1上.【答案】y=x+14.已知一个回归直线方程为y=1.5x+45,x∈{1,7,5,13,19},求y.【解】由已知可知:x=1+7+5+13+195=9.又∵回归直线过点(x,y),∴y =1.5x +45,即y =1.5×9+45=58.5.一、选择题1.对具有线性相关关系的两个变量建立的线性回归方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .只能大于0 C .可能等于0D .只能小于0【解析】 b 可能大于0,也可能小于0,但当b =0时,x ,y 不具有线性相关关系. 【答案】 A2.下列两个变量间的关系不是函数关系的是( ) A .正方体的棱长与体积 B .角的弧度数与它的正弦值C .单产为常数时,土地面积与粮食总产量D .日照时间与水稻亩产量【解析】 ∵A 、B 、C 都可以得出一个函数关系式,而D 不能写出确定的函数关系式,它只是一个不确定关系. 【答案】 D3.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y =bx +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.36万元 B .65.5万元 C .67.7万元D .72.0万元【解析】 x =4+2+3+54=3.5,y =49+26+39+544=42,∴a=y-b x=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6时,y=9.4×6+9.1=65.5,故选B.【答案】 B4.由一组样本数据(x1,y1),(x2,y2),…,(x n,y n)得到回归直线方程y=bx+a,那么下列说法中不正确的是( ) A.直线y=bx+a必经过点(x,y)B.直线y=bx+a至少经过点(x1,y1)(x2,y2),…,(x n,b n)中的一个点C.直线y=bx+a的斜率为∑ni=1x i y i-n x·y∑ni=1x2i-n x2D.直线y=bx+a的纵截距为y-b x【解析】回归直线可以不经过任何一个点.其中A:由a=y-b x代入回归直线方程y=bx+y-a x,即y=b(x-x)+y过点(x,y).∴B错误.【答案】 B5.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法正确的是( )A.l1与l2一定有公共点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合【解析】由于回归直线y=bx+a恒过(x,y)点,又两人对变量x的观测数据的平均值为s,对变量y的观测数据的平均值为t,所以l1和l2恒过点(s,t).【答案】 A二、填空题6.从某大学随机选取8名女大学生,其身高x(cm)和体重y(kg)的线性回归方程为y=0.849x-85.712,则身高172 cm的女大学生,由线性回归方程可以预测其体重约为________.【解析】将x=172代入线性回归方程y=0.849x-85.712,有y=0.849×172-85.712=60.316(kg).【答案】60.316 kg7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进行线性回归分析,结果如下:x=72,y=71,∑6i=1x2i=79,∑6i=1x i y i=1 481.b =1 481-6×72×7179-6×722≈-1.818 2,a =71-(-1.818 2)×72≈77.36,则销量每增加1 000箱,单位成本下降________元.【解析】 由上表可得,y =-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元. 【答案】 1.818 28.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y =0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 【答案】 0.254 三、解答题9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5 工作年限x /年 3 5 6 7 9 推销金额y /万元23345(1)求年推销金额y 关于工作年限x 的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 【解】 (1)设所求的线性回归方程为y =bx +a ,则b =∑i =15x i -xy i -y∑i =15x i -x2=1020=0.5, a =y -b x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y =0.5x +0.4. (2)当x =11时,y =0.5x +0.4=0.5×11+0.4 =5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.10.一种机器可以按各种不同速度运转,其生产物件中有一些含有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x 表示转速(单位:转/秒),用y 表示每小时生产的有缺点物件个数.现观测得到(x ,y )的4组值为(8,5),(12,8),(14,9),(16,11).(1)假设y 与x 之间存在线性相关关系,求y 与x 之间的线性回归方程.(2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒?(精确到1) 【解】 (1)设回归方程为y =a +bx ,则x =8+12+14+164=12.5,y =5+8+9+114=8.25, ∑4i =1x 2i =660,∑4i =1x i y i =438,b =∑4i =1x i y i -4x y∑4i =1x 2i -4x2=438-4×12.5×8.25660-4×12.52≈0.73, a =y -b x =8.25-0.73×12.5=-0.875,所以所求回归方程为y =-0.875+0.73x .(2)由y ≤10,即-0.875+0.73x ≤10,得x ≤10.8750.73≈15,即机器速度不得超过15转/秒.11.高二(3)班学生每周用于数学学习的时间x (单位:小时)与数学成绩y (单位:分)之间有如下数据:x 24 15 23 19 16 11 20 16 17 13 y92799789644783687159若某同学每周用于数学学习的时间为18小时,试预测该同学的数学成绩.【解】 显然学习时间与学习成绩间具有相关关系,可以列出下表,并用科学计算器进行计算.i 1 2 3 4 5 6 7 8 9 10 x i 24 15 23 19 16 11 20 16 17 13 y i 927997896447 83687159 x i y i2 208 1 185 2 231 1 691 1 024 5171 660 1 088 1 207767∑10i =1x 2i=3 182,∑10i =1x i y i=13 578于是可得b =∑10i =1x i y i -10x y∑10i =1x 2i -10x2=545.4154.4≈3.53,a=y-b x=74.9-3.53×17.4≈13.5.因此可求得回归直线方程为y=3.53x+13.5.当x=18时,y=3.53×18+13.5≈77.故该同学预计可得77分左右.(教师用书独具)在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表所示:价格x 1.4 1.6 1.82 2.2需求量y 121075 3(1)画出散点图;(2)求出y对x的回归直线方程;(3)如价格定为1.9万元,预测需求量大约是多少.(精确到0.01 t)【思路探究】先根据所给数据画出散点图,判断y与x是否具有线性相关关系,在此基础上利用回归方程系数的有关公式,求出相应的系数,然后结合函数知识预测需求量.【自主解答】(1)散点图如图所示.(2)采用列表的方法计算a与回归系数b.序号x i y i x2i x i y i1 1.412 1.9616.82 1.610 2.56163 1.87 3.2412.64 25 4 105 2.2 3 4.84 6.6Σ9 37 16.6 62x=15×9=1.8,y=15×37=7.4,b=62-5×1.8×7.416.6-5×1.82=-11.5,a=7.4+11.5×1.8=28.1.所以y对x的回归直线方程为y=a+bx=28.1-11.5x.(3)当x=1.9时,y=28.1-11.5×1.9=6.25,所以价格定为1.9万元时,需求量大约是6.25 t.解答本类题目的关键首先应先通过散点图来分析两变量间的关系是否相关,然后再利用求回归方程的公式求解回归方程,在此基础上,借助回归方程对实际问题进行预测.已知10只狗的血球体积x(单位:mm3)及红血球数y(单位:百万)的测量值如下:x 45424648423558403950y 6.53 6.309.257.50 6.99 5.909.49 6.20 6.557.72(1)画出散点图;(2)求出y对x的回归线性方程;(3)若血球体积为49 mm3,预测红血球数大约是多少?【解】(1)散点图如图(2)设线性回归方程为y =bx +a ,由表中数据代入公式,得b =∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.16,a =y -b x ≈0.12.所以所求线性回归方程为y =0.16x +0.12. (3)把x =49代入线性回归方程得:y =0.16×49+0.12≈7.96(百万),计算结果表明,当血球体积为49 mm 3时,红血球数大约为7.96百万.拓展阅读GDDS 和SDDS随着世界经济一体化的加快,各国间的交流与合作越来越频繁,为加强国际组织对各国经济运行状况的监督,国际社会在各领域纷纷建立了国际通行标准,其中国际货币基金组织(简称IMF)制定的数据公布通用系统(简称GDDS)和数据公布特殊标准(简称SDDS).GDDS 的主要内容和要求:在统计范围内,它将国民经济活动划分为5大经济部门,对每一部门各选定一组能够反映其活动实绩和政策以及可以帮助理解经济发展和结构变化的最为重要的数据.系统提出了五大部门综合框架和相关的数据类别和指标编制、公布的目标.选定的数据类别和指标中规定为主要部分.SDDS 将国民经济活动划分为4大经济部门.选定的数据类别分为:必须的、受鼓励的和“视相关程度”三类.必须的数据类别包括:综合统计框架、跟踪性数据、与部门有关的其他数据.IMF 为什么制定GDDS 和SDDS 呢?进入20世纪90年代以来,世界一些地区金融危机频繁爆发.1994年墨西哥的金融危机、1997年东南亚金融危机都导致国际金融市场剧烈动荡.两次金融危机给IMF 一个深刻的教训,也对其职能提出了挑战,在总结经验教训的基础上,IMF 认为,在新的国际经济、金融形势下,必须制定统一的数据发布标准,使各成员国按照统一程序提供全面、准确的经济金融信息,从而可以有效及时地对各国的经济进行正确的分析预测,从宏观上来作出调控,减少金融危机的发生和影响.1.2 相关系数课标解读 1.了解两个随机变量间的线性相关系数r ,并能利用公式求出相关系数r ;了解正相关、负相关、不相关的概念. 2.能利用相关系数r 判断两个随机变量间线性相关程度的大小,从而判断回归直线拟合的效果.相关系数【问题导思】1.有什么办法判断两个变量是否具有线性相关关系?【提示】 作出散点图,看这些点是否在某一直线的附近,计算线性相关系数. 2.线性相关系数与最小误差有何关系? 【提示】 Q (误差)=l yy (1-r 2).3.相关系数r 的绝对值的大小对相关性有何影响?【提示】 |r |越大,变量之间的相关程度越高;|r |越小,变量间线性相关程度越低;当r =0时,两个变量线性不相关.4.r 的正负对相关性的影响. 【提示】 r >0,b =l xyl xx>0两变量正相关; r <0,b =l xyl xx<0,两变量负相关.1.判断两个变量之间的线性相关关系的方法有: (1)计算线性相关系数r . (2)画散点图.2.假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r 的计算公式为r =l xyl xx l yy=∑ni=1x i-x y i-y∑ni=1x i-x2i=1ny i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2相关系数及其应用维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能就越好,而甲醛浓度是影响“缩醛化度”的重要因素,在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批试验,获得如下表数据.甲醛浓度18202224262830(克/升)缩醛化度26.8628.3528.7528.8729.7530.0030.36(克分子%)求相关系数r.【思路探究】可直接利用相关系数r的公式直接计算.【自主解答】列表如下:i x i y i x2i x i y i y2i11826.86324483.48721.459 622028.35400567803.722 532228.75484632.5826.562 542428.87576692.88833.476 952629.75676773.5885.062 562830.0078484090073030.36900910.80921.729 6∑168202.94 4 144 4 900.16 5 892.013 6 x=24,y=28.99,r=∑7i=1x i y i-7x y∑7i=1x2i-7x2∑7i=1y2i-7y2=4 900.16-7×24×28.994 144-7×242×5 892.013 6-7×28.992≈0.94.当相关系数|r|越接近1时,两个变量的线性相关程度越高,当相关系数|r|越接近0时,两个变量的线性相关程度越低.下列是小麦产量与施化肥量的一组观测数据:施化肥量15202530354045小麦产量320330360410460470480 判断施化肥量与水稻产量是否有相关关系.【解】i x i y i x2i y2i x i y i115320225102 400 4 800220330400108 900 6 600325360625129 6009 000430410900168 10012 300535460 1 225211 60016 100640470 1 600220 90018 800745480 2 025230 40021 600∑210 2 8307 000 1 171 90089 200∴r=∑i=17x i y i-7x y∑i=17x2i-7x2∑i=17y2i-7y2=4 300700×27 771.43≈0.975.由于r=0.975>0,因此施化肥量和水稻产量近似成线性正相关关系.线性回归分析的综合应用“阿曼德匹萨”是一个制作和外卖意大利匹萨的餐饮连锁店,其主要客户群是在校大学生,为研究各店铺的销售额与店铺附近地区大学生人数的关系,随机抽取十个分店的样本,得到数据如下:店铺编号 区内大学生数(万人)季度销售额(万元)1 0.2 5.8 2 0.6 10.53 0.8 8.84 0.8 11.85 1.2 11.76 1.6 13.7 7 2 15.78 2 16.9 9 2.2 14.9 10 2.620.2(1)试对区内大学生人数与店铺的销售额的关系进行相关性检验;(2)试根据这些数据建立回归模型,然后再进一步根据回归方程预测一个区内大学生人数1万人店铺的季度销售额; (3)若店铺的季度销售额低于10万元则亏损,试求建店区内大学生人数至少约多少人?【思路探究】 先根据表中的数据作相关检验,然后判断是否具有相关关系,再根据所给的数据解出线性回归方程,最后进行预测. 【自主解答】 (1)根据数据我们对区内大学生人数x 与店铺季度销售额y 作相关检验.根据数据可知:x =110(0.2+0.6+…+2.6)=1.4;y =110(5.8+10.5+…+20.2)=13,∑10i =1x 2i -10x 2=5.68,∑10i =1x i y i -10x y =28.4,∑10i =1y 2i -10y 2=157.3,因此r =28.45.68×157.3≈0.95;|r |接近1,因此有把握认为区内大学生人数x 与店铺季度销售额y 具有线性相关关系,求y 对x 的回归直线方程有意义.(2)回归系数b =28.45.68=5,a =13-5×1.4=6.因此回归直线方程是y=bx+a=5x+6.当x=1时,y=5×1+6=11,即区内大学生人数1万元店铺的季度销售额约11万元.(3)由回归直线方程是y=5x+6.令y≥10,解得x≥0.8,所以当建店区内大学生人数至少8 000人时才适合建店.进行相关性检验主要有两种常用方法,一是作散点图,观察所给的数据点是否在一条直线的附近,作散点图的优点是既直观又方便,是解决相关性检验问题比较常用的方法;缺点是作图总是存在误差,有时很难判断这些点是不是分布在一条直线的附近.二是利用样本相关系数对其进行相关性检验,优点是判断准确,缺点是计算繁琐,但可以借助计算器进行处理.在我国某地的一个县城,近期发现了好几个癌症村.政府部门十分震惊,马上组成调查组调查病因,经调查发现致癌的罪魁祸首是水源中的金属砷,它们来自附近的几家化工厂,化工厂排出的废水中含有金属砷,废水污染了水源,人食用了这种水就会致癌.下面就是调查组对几个癌症村水源中的砷超标的倍数和患癌症的人数统计的数据:砷超标的倍数x 34 5.5 4.2 5.86 3.5患癌症人数y 15202824354434(1)画出表中数据的散点图; (2)求y 对x 的回归方程;(3)若一个村的水源中砷超标的倍数为7,试估计这个村的患癌症的人数. 【解】 (1)散点图如图所示:(2)观察散点图,可知x 、y 成线性相关关系. 计算得x =327,y =2007,根据求b 公式代入数据计算得b ≈6.065,a =2007-6.065×327≈0.846. 所以患癌症人数y 对水源中砷超标的倍数x 的回归直线方程为y =6.065x +0.846.(3)根据上面求得的回归直线方程,当水源中砷超标的倍数为7时,y =6.065×7+0.846=43.301. 即该村患癌症的人数约为43人.对误差的大小与变量相关关系的理解有误对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不正确的是( )A.由样本数据得到的回归方程y=bx+a必过样本点的中心(x,y)B.在回归分析中,误差Q越小,变量之间的线性相关程度越高C.相关系数r越小,说明变量之间的线性相关程度越小D.在散点图中,若n个点在一条直线上,说明变量之间的相关性强【错解】 B【错因分析】对误差Q与变量间的相关关系理解错误.【防范措施】正确理解回归方程、相关系数r、误差Q、散点图等概念是解决概念题的基础.【正解】∵误差Q越小,|r|越大,变量之间的线性相关程度越高,而相关系数r的范围为-1≤r≤1,∴C错误.【答案】 C1.相关系数是用来刻画两个变量相关关系的强与弱的.2.相关系数的计算公式r=∑ni=1x i-x y i-y∑ni=1x i-x2∑ni=1y i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y21.在对变量y和x进行线性相关检验时,已知n是观测值组数,r是相关系数,且已知:①n=7,r=0.953 3;②n=15,r=0.301 2;③n=17,r=0.499 1;④n=3,r=0.9950.则变量y和x具有较高线性相关程度的是( )A.①和②B.①和④C.②和④D.③和④【解析】相关系数r的绝对值越大,变量x,y的线性相关程度越高,故选B.【答案】 B2.对相关系数r,下列说法正确的是( )A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.|r|越大,相关程度越小,|r|越小,相关程度越大D.|r|≤1且|r|越接近于1,相关程度越大,|r|越接近0,相关程度越小【解析】由两个变量相关系数公式。
高中数学第3章统计案例1回归分析课件北师大版选修2_3
[解] (1)散点图如图.
(2) x =15×(88+76+73+66+63)=73.2,
y =15×(78+65+71+64+61)=67.8.
5
∑xiyi=88×78+76×65+73×71+66×64+63×61=25 054.
i=1 5
∑x2i =882+762+732+662+632=27 174.
思考:在回归分析中,通过线性回归方程求出的函数值一定是实 数值吗?为什么?
[提示] 不一定是实数值,例如,人的体重与身高存在一定的线 性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食 情况,是否喜欢运动等.
2.相关系数
(1)相关系数 r 的计算
假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),
可线性化的回归分析
[探究问题] 1.如何解答非线性回归问题? [提示] 非线性回归问题有时并不给出经验公式.这时我们可以 画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、 对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数, 然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到 解决.其一般步骤为:
2.已知 x 和 y 之间的一组数据,则下列四个函数中,模拟效果 最好的为哪一个?
x
1
2
3
y
3
5.99
12.01
①y=3×2x-1; ②y=log2x; ③y=4x; ④y=x2.
[提示] 观察散点图中样本点的分布规律可判断样本点分布在 曲线 y=3×2x-1 附近,所以模拟效果最好的为①.
【例 3】 某地区不同身高的未成年男性的体重平均值如下表:
第三章 统计案例
§1 回归分析 1.1 回归分析 1.2 相关系数 1.3 可线性化的回归分析
【配套K12】高中数学第三章统计案例1回归分析可线性化的回归分析教案北师大版选修2_3
1 回归分析一、教学目标:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。
二、教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
三、教学方法:讨论交流,探析归纳 四、教学过程: (一)、复习引入:1、给出例题:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的回归方程.(学生描述步骤,教师演示)2、讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. (二)、新课探究:1. 探究非线性回归方程的确定:① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =2C 1e x C 的周围(其中12,c c 是待定的参数),故可用指数函数模型来拟合这两个变量.③ 在上式两边取对数,得21ln ln y c x c =+,再令ln z y =,则21ln z c x c =+,而z 与x 间的关系如下:观察z 与x 方程来拟合.④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为0.272 3.843z x =-,因此红铃虫的产卵数对温度的非线性回归方程为0.272 3.843x y e -=.⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题. 2. 小结:(1)、用回归方程探究非线性回归问题的方法、步骤.(2)、化归思想(转化思想)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)by ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bxy ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+.(4)b x y ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+. (三)、巩固练习:为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1(2)试求出预报变量对解释变量的回归方程。
「精品」高中数学第3章统计案例1回归分析课件北师大版选修2_3201703030190-精品资料
解析: 经计算,去掉D(3,10)这一组数据后,其他4组数 据对应的点都集中在某一条直线附近,即两变量的线性相关性 最强,此时相关指数最大.
答案: D(3,10)
4.现随机抽取了我校 10 名学生在入学考试中的数学成绩 (x)与入学后的第一次考试中的数学成绩(y),数据如下表: 学生号 1 2 3 4 5 6 7 8 9 10
(2)求物理成绩y对数学成绩x的线性回归方程.
[思路导引] 利用相关系数r判断x与y是否相关,若相关再 利用线性回归模型求解.
[边听边记] (1) x = 15×(88+76+73+66+63)=73.2, y = 15×(78+65+71+64+61)=67.8.
5
xiyi=88×78+76×65+73×71+66×64+63×61
n
=
i=1xiyi-n x y
x -n x y -n n
2
i=1 i
2 n 2 i=1 i
y
.2
(2)线性相关系数r与相关关系的强弱: ①当__r_>__0_____时,两个变量正相关; ②当__r_<__0_____时,两个变量负相关; ③当___r_=__0____时,称两个变量线性不相关; ④r的取值在__[_-__1_,_1_] __ 之间,_|_r_| ____ 值越大,变量之 间的线性相关程度越高; ⑤r的绝对值越接近于___0____,表示两个变量之间的线性 相关程度越低.
n
n
b=llxxyx=i=1
xi- x yi-
n i=1
xi- x 2
y
=i=1i=xn1iyxi_b_x___.
怎样确定回归的模型 1.确定研究对象,明确要考虑哪两个变量之间的相关关 系. 2.画出确定好的两个变量的散点图,观察它们之间的关 系(如是否存在线性关系等). 3.由经验确定回归方程的类型(如观察到数据呈线性关 系,则选用线性回归方程=bx+a). 4.按一定规则估计回归方程中的参数(如最小二乘法).得 出回归方程.
推荐高中数学第三章统计案例1回归分析教学案北师大版选修2_3
1 回归分析知识整合与阶段检测[对应学生用书P37]一、离散型随机变量的分布列1.定义设离散型随机变量X 的取值为a 1,a 2,…随机变量X 取a i 的概率为p i (i =1,2,…),记作: P (x =a i )=P i (i =1,2,…),①或把上式列成下表2.求随机变量的分布列的步骤①明确随机变量X 的取值;②准确求出X 取每一个值时的概率;③列成表格的形式.[说明] 已知随机变量的分布列,则它在某范围内取值的概率等于它取这个范围内各个值时的概率之和.3.离散型随机变量分布列的性质(1)p i >0,i =1,2,...; (2)p 1+p 2+...+p i + (1)[说明] 分布列的两个性质是求解有关参数问题的依据.二、条件概率与独立事件1.A 发生时B 发生的条件概率为P (B |A )=P AB P A. 2.对于两个事件A ,B ,如果P (AB )=P (A )P (B ),则称A ,B 相互独立.若A 与B 相互独立,则A 与B ,A 与B ,A 与B 也相互独立.3.求条件概率的常用方法(1)定义:即P (B |A )=P AB P A. (2)借助古典概型公式P (B |A )=n AB n A . 4.概率问题常常与排列组合相结合,求事件概率的关键是将事件分解成若干个子事件,然后利用概率加法(互斥事件求和)、乘法(独立事件同时发生)、除法(条件概率)来求解.三、离散型随机变量的均值与方差1.定义:一般地,设一个离散型随机变量X 所有可能取的值是a 1,a 2,…,a n ,这些值对应的概率是p 1,p 2,…,P n ,则EX =a 1p 1+a 2p 2+…+a n p n 叫作这个离散型随机变量X 的均值或数学期望(简称期望).E (X -EX )2是(X -EX )2的期望,并称之为随机变量X 的方差,记为DX .2.意义:均值反映了离散型随机变量取值的平均取值水平,而方差反映了随机变量取值偏离于均值的平均程度.方差越小,则随机变量偏离于均值的平均程度越小.四、超几何分布及二项分布1.超几何分布一般地,设有N 件产品,其中有M (M ≤N )件次品,从中任取n (n ≤N )件产品,用X 表示取出n 件产品中次品的件数.那么P (X =k )=C k M C n -k N -M C n N (k ∈N ),X 服从参数为N ,M ,n 的超几何分布.其均值EX =n M N. 2.二项分布在n 次相互独立的试验中,每次试验“成功”的概率均为p ,“失败”的概率均为1-p .用X 表示这n 次试验中成功的次数则P (X =k )=C k n p k (1-p )n -k (k =0,1,2,…n ).称为X 服从参数为n ,P 的二项分布.其均值为EX =np ,方差为DX =np (1-p ).五、正态分布1.正态分布的密度函数为f (x )=1σ2πexp ⎩⎨⎧⎭⎬⎫-x -μ22σ2,-∞<x <+∞,其中exp{g (x )}=e g (x ). 2.正态分布密度函数满足以下性质:(1)函数图像关于直线x =μ对称.(2)σ(σ>0)的大小决定函数图像的“胖”“瘦”.(3)P (μ-σ<X <μ+σ)=0.683;P (μ-2σ<X <μ+2σ)=0.954;P (μ-3σ<X <μ+3σ)=0.997.⎣⎢⎡⎦⎥⎤对应阶段质量检测二 见8开试卷 (时间90分钟,满分120分)一、选择题(本大题共10小题,每小题5分,满分50分.在每小题给出的四个选项中,只有一项是正确的)1.下列表格可以作为X 的分布列的是( )A.。
高中数学:3.1回归分析(一)教案(北师大选修2-3)
3.1 回归剖析教课目的(1)经过实例引入线性回归模型,感觉产生随机偏差的原由;(2)经过对回归模型的合理性等问题的研究,浸透线性回归剖析的思想和方法;(3)能求出简单实质问题的线性回归方程.教课要点,难点线性回归模型的成立和线性回归系数的最正确预计值的探究方法.教课过程一.问题情境1.情境:对一作直线运动的质点的运动过程观察了8次,获得以下表所示的数据,试预计当x=9时的地点 y 的值.时辰 x /s1*******地点观察值 y /cm 5.547.5210.0211.7315.6916.1216.9821.06依据《数学 3 (必修)》中的有关内容,解决这个问题的方法是:先作散点图,以下列图所示:从散点图中能够看出,样本点呈直线趋向,时间 x 与地点观察值y 之间有着较好的线性关系.所以能够用线性回归方程来刻画它们之间的关系.依据线性回归的系数公式,nx i y i nx yb i1n2n(x)2x ii1a y bx能够获得线性回归方为$y 3.5361 2.1214x ,所以当 x9 时,由线性回归方程能够估计其地点值为2.问题:在时辰$y 22.6287x 9 时,质点的运动地点必定是22.6287cm吗?二.学生活动思虑,议论:这些点其实不都在同一条直线上,上述直线其实不可以精准地反应x 与y之间的关系,y 的值不可以由x 完整确立,它们之间是统计有关关系,y 的实质值与预计值之间存在着偏差.三.建构数学1.线性回归模型的定义:我们将用于预计y 值的线性函数a bx 作为确立性函数;y 的实质值与预计值之间的偏差记为,称之为随机偏差;将 y a bx称为线性回归模型.说明:( 1)产生随机偏差的主要原由有:①所用确实定性函数不适合惹起的偏差; ②忽视了某些要素的影响; ③存在观察偏差.( 2)关于线性回归模型,我们应当考虑下边两个问题:①模型能否合理(这个问题在下一节课解决);②在模型合理的状况下,怎样预计a ,b ?2.探究线性回归系数的最正确预计值:关于问题②,设有n 对观察数据 ( x i , y i ) (i1,2,3, L , n) ,依据线性回归模型,关于每一个 x i ,对应的随机偏差项iy i(a bx i ) ,我们希望总偏差越小越好,即要使n2越小越好. 所以,只需求出使 Q(n)2获得最小值时的i, )( y ix i,i 1i 1值作为 a , b 的预计值,记为 $ $.a , b注:这里的i 就是拟合直线上的点x i ,abx i 到点 P i x i , y i 的距离.用什么方法求 $ $a ,b ?回想《数学 3(必修)》“ 2.4 线性回归方程” P71“热茶问题”中求 a , b 的方法:最小二乘法.利用最小二乘法能够获得$ $的计算公式为a , b$ bnn(x i x)( y i y)x i y i nx yi 1i 1nnn( x)2,( x i x)2x i2i 1i1$$ a ybx此中 x1 n1nn ix i , yy i1n i 1由此获得的直线 $ $ $n 对数据的回归直线, 此直线方程即为线性回归y a bx 就称为这 $ $ 分别为 a , b 的预计值, $ $称为回归系数, $ 方程.此中 a , b a 称为回归截距, b y 称为回归值.在前方质点运动的线性回归方程$ $ $2.1214 .y 3.53612.1214x 中, a3.5361 , b 3. 线性回归方程 $ $ $ $ $ $y a bx 中 a , b 的意义是:以 a 为基数, x 每增添 1 个单位, y 相应地$均匀增添 b 个单位;4.化归思想(转变思想)在实质问题中,有时两个变量之间的关系其实不是线性关系,这就需要我们依据专业知识或散点图,对某些特别的非线性关系,选择适合的变量代换,把非线性方程转变为线性回归方程,进而确立未知参数.下边列举出一些常有的曲线方程,并给出相应的化为线性回归方程的换元公式.( 1)y a by ,x '1,则有 y ' a bx ' .,令 y 'xx( 2)y ax b,令 y 'ln y ,x 'ln x , a 'ln a ,则有y ' a 'bx ' .( 3)y ae bx,令 y 'ln y ,x 'x , a 'ln a ,则有y ' a 'bx ' .b1( 4)y ae x,令 y 'ln y , x ', a 'ln a ,则有y ' a 'bx ' .x( 5)y a b ln x ,令 y ' y ,x'ln x ,则有y' a bx '.四.数学运用1.例题:例 1 .下表给出了我国从1949年至1999年人口数据资料,试依据表中数据预计我国2004年的人口数.年份人口数 / 百万1949 1954 1959 1964 1969 1974 1979 1984 1989 1994 1999 542 603 672 705 807 909 975 1035 1107 1177 1246解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y 表示,获得下边的数据表:x05101520253035404550y5426036727058079099751035110711771246作出 11个点x, y组成的散点图,由图可知,这些点在一条直线邻近,能够用线性回归模型的关系.依据公式( 1)可得y a bx来表示它们之间$14.453,b$527.591.a$ $这里的 a, b 分别为a, b的估计值,所以线性回归方程$为y 527.591 14.453x由于 2004 年对应的 x55,代入线性回归方程$527.591 14.453x 可得y$1322.506(百万),即 2004 年的人口总数预计为13.23 亿 .y例 2.某地域对当地的公司进行了一次抽样检查,下表是此次抽查中所获得的各公司的人均资本 x (万元)与人均产出y(万元)的数据:人均资本34 5.5 6.578910.511.514x /万元人均产出 4.12 4.678.6811.0113.0414.4317.5025.4626.6645.20 y/ 万元( 1)设y与x之间拥有近似关系y ax b( a, b 为常数),试依据表中数据预计 a 和b的值;( 2)预计公司人均资本为16万元时的人均产出(精准到0.01).剖析:依据 x ,y所拥有的关系可知,此问题不是线性回归问题,不可以直接用线性回归方程办理.但由对数运算的性质可知,只需对y ax b的两边取对数,就能将其转变为线性关系.解( 1)在y ax b的两边取常用对数,可得lg y lg a b lg x ,设 lg y z , lg a A ,lg x X ,则z A bX .有关数据计算如图 327 所示.A B C D E F G H I J K1人均资本34 5.5 6.578910.511.514 x /万元2人均产出4.12 4.678.6811.0113.0414.4317.525.4626.6645.2 y /万元3X lg x0.477120.602060.740360.812910.84510.903090.95424 1.02119 1.0607 1.14613 4z lg y0.61490.669320.93852 1.04179 1.11528 1.15927 1.24304 1.40586 1.42586 1.65514μ0.2155,模仿问题情境可得 A , b 的预计值μ $分别为A$0.2155可得A , b$由 lg a1.5677,b$0.6088 ,即a ,b的预计值分别为0.6088和1.5677.a(2)由( 1)知页)$0.6088x1.56773 2 8(见书籍P102 y.样本数据及回归曲线的图形如图当x 16时,$1.56770.60881647.0116万元时,人(万元),故当公司人均资本为均产值约为 47.01万元.2.练习:P104练习第1题.五.回首小结:1. 线性回归模型y a bx 与确立性函数 ya bx 对比,它表示 y 与 x 之间是统计相关关系(非确立性关系) 此中的随机偏差 供给了选择模型的准则以及在模型合理的状况下探究最正确预计值$ $ 的工具; a , b 2. 线性回归方程 $$ $ $ $$ ya bx 中 a ,b 的意义是:以 a 为基数, x 每增添 1 个单位, y 相应地$均匀增添 b 个单位;3.求线性回归方程的基本步骤.六.课外作业: P 106 第 2 题.回归剖析 (2)教课目的( 1)经过实例认识有关系数的观点和性质,感觉有关性查验的作用; ( 2)能对有关系数进行明显性查验,并解决简单的回归剖析问题; ( 3)进一步认识回归的基本思想、方法及初步应用.教课要点,难点有关系数的性质及其明显性查验的基本思想、操作步骤.教课过程一.问题情境1.情境:下边是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程能够用作展望和预计吗?10 10 8 8664系4 2 2 051015510152.问题:思虑、议论:求得的线性回归方程能否有实质意义. 二.学生活动对随意给定的样本数据,由计算公式都能够求出相应的线性回归方程,但求得的线性回归方程未必有实质意义.左图中的散点显然不在一条直线邻近,不可以进行线性拟合,求得的线性回归方程是没有实质意义的;右图中的散点基本上在一条直线邻近,我们能够大略地预计两个变量间有线性有关关系,但它们线性有关的程度怎样,怎样较为精准地刻画线性有关关系呢?这就是上节课提到的问题①,即模型的合理性问题.为了回答这个问题,我们需要对变量 x 与 y 的线性有关性进行查验(简称有关性查验) .三.建构数学1.有关系数的计算公式:关于 x ,y随机取到的 n 对数据 (x i , y i) (i1,2,3, L , n) ,样真有关系数r 的计算公式为n n( x i x)( y i y)x i y i nx yr i 1i1. 2n n n n( x i x) 2( y i y) 2(x i2n( x)2 )(y i2n( y)2 )i 1i 1i1i 12.有关系数r 的性质:(1)| r | 1;(2)| r |越靠近与 1,x,y的线性有关程度越强;(3)| r |越靠近与 0,x,y的线性有关程度越弱.可见,一条回归直线有多大的展望功能,和变量间的有关系数亲密有关.3.对有关系数r 进行明显性查验的步骤:有关系数 r 的绝对值与1靠近到什么程度才表示利用线性回归模型比较合理呢?这需要对有关系数 r 进行明显性查验.对此,在统计上有明确的查验方法,基本步骤是:( 1)提出统计假定H 0:变量 x ,y不拥有线性有关关系;( 2)假如以95%的掌握作出推测,那么能够依据1 0.950.05与n 2( n 是样本容量)在附录 2 (教材P111)中查出一个r 的临界值 r0.05(此中10.950.05 称为查验水平);( 3)计算样真有关系数r ;( 4)作出统计推测:若| r |r0.05,则否认 H 0,表示有95%的掌握以为变量y与 x 之间拥有线性有关关系;若| r |r0.05,则没有原由拒绝H 0,即就当前数据而言,没有充足理由以为变量y 与x之间拥有线性有关关系.说明: 1.对有关系数r进行明显性查验,一般取查验水平0.05,即靠谱程度为 95% .2.这里的r指的是线性有关系数,r 的绝对值很小,不过说明线性有关程度低,不必定不有关,可能是非线性有关的某种关系.3.这里的r是对抽样数据而言的.有时即便| r |1,二者也不必定是线性有关的.故在统计剖析时,不可以就数据论数据,要联合实质状况进行合理解说.4.关于上节课的例1,可按下边的过程进行查验:(1)作统计假定H 0: x 与y不拥有线性有关关系;(2)由查验水平0.05与 n 2 9 在附录 2 中查得r0.050.602 ;(3)依据公式 2 得有关系数 r0.998 ;(4 )由于 r0.998 0.602,即 rr0.05 ,所以有 95 ﹪的掌握以为 x 与 y 之间拥有线 性有关关系 ,线性回归方程为 $y 527.591 14.453x 是存心义的.四.数学运用1.例题:例 1.下表是随机抽取的8 对母女的身高数据 ,试依据这些数据商讨y 与 x 之间的关系.母亲自高 x / cm 154 157 158 159 160 161 162 163女儿身高 y / cm155156159162161164165166解:所给数据的散点图以下图:由图能够看出,这些点在一条直线邻近,由于 x154 157 L163 8 159.25, y155 156 L 166 8 161,82 8( x)2 15421632 8 159.252x i L59.5 ,i 1 8y i 2 8( y)21552 L 1662 8 1612 116 ,i 1 8x i y i 8x y 154155 L163 166 8 159.25 161 80 ,i 1所以 r800.963 ,59.5116由查验水平 0.05及n2 6 ,在附录 2 中查得 r 0.05 0.707 ,由于 0.963 0.707,所以可以以为 x 与 y 之间拥有较强的线性有关关系.线性回归模型y a bx 中 a, b 的预计值 a$, b $分别为8x i y i 8x y$$bi 11.345,53.191,82a ybx2xx i8i 1故 y 对 x 的线性回归方程为y 53.191 1.345x .例 2.要剖析学生高中入学的数学成绩对高一年级数学学习的影响, 在高一年级学生中随机抽取 10名学生,剖析他们入学的数学成绩和高一年级期末数学考试成绩以下表:学生编号12 3 4 5 6 7 8 9 10 入学成绩 x63 67 45 88 81 71 52 99 58 76高一期末成绩 y 65 78 52 82 92 89 73 98 56 75( 1)计算入学成绩 x 与高一期末成绩 y 的有关系数;( 2)假如 x 与 y 之间拥有线性有关关系,求线性回归方程;( 3)若某学生入学数学成绩为 80 分,试预计他高一期末数学考试成绩.解: (1) 由于 x1 63 67 L76 1 6578L 7576 ,1070 , y1010102Lxy(x ix)( y iy) 1894 , L xx( x ix)2474 ,i1i 110y) 2Lyy( y i2056 .i110( x i x)( y i y)Lxy所以求得有关系数为ri 10.840 .10x) 210y) 2L xxLyy( x i( y ii 1i 1结果说明这两组数据的有关程度是比较高的; 小结解决这种问题的解题步骤:( 1)作出散点图,直观判断散点能否在一条直线邻近;( 2)求有关系数 r ;( 3)由查验水平易 n 2 的值在附录中查出临界值,判断y 与 x 能否拥有较强的线性有关关系;$ $,写出线性回归方程.( 4)计算 a , b2.练习: P 104 练习第 1题.五.回首小结:1.有关系数的计算公式与回归系数$计算公式的比较;b2.有关系数的性质;3.商讨有关关系的基本步骤.六.课外作业:P106习题3.2第1题.。
高中数学 第三章 统计案例 1.1 回归分析导学案 北师大版选修23
1.1 回归分析自主整理假设样本点为(x1,y1),(x2,y2),…,(x n,y n),设线性回归方程为y=a+bx,使这n个点与直线y=a+bx的_____________最小,即使得Q(a,b)=_____________达到最小.利用最小二乘法的思想求得.当b=_____________,a=_____________时,Q(a,b)取最小值.高手笔记1.对具有相关关系的两个变量进行统计分析的方法叫回归分析.回归分析是寻找相关关系中非确定性关系的某种确定性.2.如果散点图中点的分布从整体上看大致在一条直线附近,我们称这两个变量之间具有线性相关关系,这条直线叫回归直线,从整体上看各点与此直线的距离平方之和最小,即最贴近已知的数据点,最能代表变量x与y之间的关系.名师解惑1.相关关系与函数关系有哪些相同点和不同点?剖析:相同点:两者均指两个变量的关系.不同点:(1)函数关系是一种确定的关系,相关关系是一种非确定的关系;(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.如何理解相关关系的不确定性?剖析:教材中利用始祖鸟的5个标本求出股骨长度x与肱骨长度y的回归直线方程为y=-3.660+1.197x,那么将第6个标本中股骨长度x=50代入回归直线方程,可以预测第6个标本中的肱骨长度的估计值约为56 cm.是不是当股骨长度x=50时,肱骨长度y一定为56呢?不一定.但如果有大量化石供研究时,股骨长度为50 cm的始祖鸟的肱骨的平均值应为56 cm.讲练互动【例】关于人体的脂肪含量(百分比)和年龄关系的研究中,研究人员获得了一组数据:(2)给出37岁人的脂肪含量的预测值.分析:两个变量呈现近似的线性关系,可通过公式计算出其线性回归方程,并根据方程求出其预测值.由表可得,14,14==y x b=2)14673(1434181147.38114673142.19403⨯-⨯⨯-≈0.5765, a=y -b x ≈-0.447 8.∴线性回归方程为y=0.576 5x-0.447 8. 当x=37时,y≈20.882 7.∴37岁人的脂肪含量的预测值为20.882 7.绿色通道:对于样本点较多时,可列表分项计算. 变式训练某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内随求x 、y 之间的线性回归方程. 解:x 、y 成线性相关关系. 列表:∴x =10=77.7, 101657=y =165.7, b=27.7710709037.1657.7710132938⨯-⨯⨯-≈0.398, a=y -b x =165.7-0.398×77.7=134.8. ∴线性回归方程为y=134.8+0.398x.。
高中数学(北师大版)选修2-3教案:第3章 拓展资料:生活中的回归分析问题
生活中的回归分析问题回归分析在实际生活中有广泛的应用,解决该类问题的关键是准确的运算. 例1某农场对单位面积化肥用x (kg )和水稻相应产量y (kg )的关系作了统计,得到数据如下:x 1520 25 30 30 40 45y 330 345 365 405 445 450 455如果x 与y 之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为32kg 时,水稻的产量大约是多少?(精确到0.01kg ) 解析:用列表的方法计算a 与回归系数b .序号 x y2xxy1 15 330 225 49502 20 345 400 69003 25 365 625 91254 30 405 900121505 35 445 1225 155756 40 450 1600 18000 745 455 2025 204751(152045)307x =⨯+++=L ,1(330345455)399.37y =⨯+++≈L , 222540020257000ix=+++=∑L ,495069002047587175i i x y =+++=∑L ,$287175730399.3 4.7467000730b -⨯⨯=≈-⨯,$399.3 4.74630256.92a =-⨯=. y 对x 的回归直线方程为$$$256.92 4.746y a bx x =+=+. 当32x =时,$256.92 4.74632408.79y =+⨯≈. 故所求回归直线方程为$256.92 4.746y x =+. 当单位面积化肥用量为32kg 时,水稻的产量大约为408.79kg .例2弹簧长度y (cm )随所挂物体的重量x (g )不同而变化的情况如下:x 510 15 20 25 30y 7.25 8.12 8.95 9.90 10.96 11.80(1)画出散点图;(2)求y 对x 的回归直线方程;(3)预测所挂物体重量为27g 时的弹簧长度(精确到0.01cm ). 解析:(1)散点图如下图所示:(2)采用列表的方法计算a 与回归系数b .序号 xy2xxy1 5 7.25 25 36.252 10 8.12 100 81.23 15 8.95 225 134.254 20 9.90 400 1985 25 10.96 625 274 63011.809003541(501030)17.56x =⨯+++=L ,1(7.258.1211.80)9.506y =⨯+++≈, 2251009002275ix=+++=∑L ,36.2581.23541077.7i i x y =+++=∑L ,$21077.7617.59.500.1832275617.5b -⨯⨯=≈-⨯,$9.500.18317.5 6.30a =-⨯≈. y 对x 的回归直线方程为$$$ 6.300.183y a bx x =+=+; (3)当质量为27g 时,有$ 6.300.1832711.24y =+⨯≈(cm ).故当挂物体质量为27g 时,弹簧的长度大约为11.24cm .例3关于某设备的使用年限x 和所支出的维修费用y (万元),有如 下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0如由资料可知y 对x 呈线形相关关系. 试求: (1)线形回归方程;(2)估计使用年限为10年时,维修费用是多少? 解:(1)55.75.65.58.32.2,4565432=++++==++++=y x∑∑====515123.112,90i i i i i y x x ,()23.145905453.112552251251=⨯-⨯⨯-=--=∑∑==∧xx yx yx b i i i ii , 于是08.0423.15=⨯-=-=∧∧x b y a .所以线形回归方程为:.08.023.1+=+=∧x a bx y (2)当10=x 时,)(38.1208.01023.1万元=+⨯=∧y 即估计使用10年是维修费用是12.38万元。
高中数学(北师大版)选修2-3教案:第3章 答疑解惑:回归分析
回归分析答疑解惑一.回归含义探究“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。
如根据遗传学的观点,子辈的身高受父辈影响,以X记父辈身高,Y记子辈身高。
虽然子辈身高一般受父辈影响,但同样身高的父亲,其子身高并不一致,因此,X和Y之间存在一种相关关系。
一般而言,父辈身高者,其子辈身高也高.依此推论祖祖辈辈遗传下来,身高必然向两极分化,而事实上并非如此,显然有一种力量将身高拉向中心,即子辈的身高有向中心回归的特点,“回归”一词即源于此。
不过,现代回归分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也发挥着重要作用。
二.如何认识相关关系研究两个变量间的相关关系是学习本节的目的。
对于相关关系我们可以从下三个方面加以认识:(1)相关关系与函数关系不同。
函数关系中的两个变量间是一种确定性关系。
例如正方形面积S与边长x之间的关系2xS 就是函数关系。
即对于边长x的每一个确定的值,都有面积S的惟一确定的值与之对应。
相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。
例如人的身高与年龄;商品的销售额与广告费等等都是相关关系.(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。
例如有人发现,对于在校儿童,身高与阅读技能有很强的相关关系。
然而学会新词并不能使儿童马上长高,而是涉及到第三个因素——年龄,当儿童长大一些,他们的阅读能力会提高而且由于长大身高也会高些。
(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。
例如正方形面积S与其边长x间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性。
而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计。
相关关系在现实生活中大量存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 回归分析
一、教学目标:(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法;(3)能求出简单实际问题的线性回归方程。
二、教学重点,难点:线性回归模型的建立和线性回归系数的最佳估计值的探求方法。
三、教学方法:讨论交流,探析归纳 四、教学过程 (一)、问题情境
1、情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计
当x=9时的位置y 的值.
根据《数学3(必修)》中的有关内容,解决这个问题的方法是: 先作散点图,如下图所示:
从散点图中可以看出,样本点呈直线趋势,时间x 与位置观测值y 之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,
1
221()n
i i i n
i
i x y nx y b x n x a y bx
==⎧
-⎪
⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ 可以得到线性回归方为 3.5361 2.1214y x =+,所以当9x =时,由线性回归方程可以估计其位置值为22.6287y =
2、问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗? (二)、学生活动
思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x 与y 之间的关系,
y 的值不能由x 完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误
差。
(三)、新课探析
1、线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差;②忽略了某些因素的影响;③存在观测误差.
(2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理(这个问题在下一节课解决); ②在模型合理的情况下,如何估计a ,b ? 2、探求线性回归系数的最佳估计值:
对于问题②,设有n 对观测数据(,)i i x y (1,2,3,
,)i n =,根据线性回归模型,对于每一个
i x ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21
n
i i ε=∑越小越
好.所以,只要求出使2
1
(,)()
n
i
i
i Q y x αββα==
--∑取得最小值时的α,β值作为a ,b 的
估计值,记为a ,b .
注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求a ,
b ?
回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求a ,b 的方法:最小二乘法.利用最小二乘法可以得到a ,b 的计算公式为
1
1
22211
()()()()n
n
i i i i
i i n n
i i i i x x y y x y nx y
b x x x n x a y bx
====⎧
---⎪
⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑,其中11n i i x x n ==∑,1
1n
i i y y n ==∑
由此得到的直线y a bx =+就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中a ,b 分别为a ,b 的估计值,a 称为回归截距,b 称为回归系数,y 称为回归值. 在前面质点运动的线性回归方程 3.5361 2.1214y x =+中, 3.5361a =, 2.1214b =. 3、线性回归方程y a bx =+中a ,b 的意义是:以a 为基数,x 每增加1个单位,y 相应地平均增加b 个单位。
(四)、数学运用 1、例题:
例1、下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.
解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y
表示,得到下面的数据表:
作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系. 根据公式(1)可得
14.453,
527.591.
b a ⎧≈⎪⎨
≈⎪⎩ 这里的,a b 分别为,a b 的估
计值,因此线性回归方程为527.59114.453y x =+。
由于2004年对应的55x =,代入线性回归方程527.59114.453y x =+可得1322.506y =(百万),即2004年的人口总数估计为13.23亿。
例2、 从某大学中随机选取8 名女大学生,其身高和体重数据如表
求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量 x ,体重为因变量 y . 作散点图
从图中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系.
根据探究中的公式(1)和(2 ) ,可以得到ˆˆ0.849,85.712b
a ==-. 于是得到回归方程 084985.712y x =-.因此,对于身高172 cm 的女大学生,由回归方程可以预报其体重为
084917285.71260.316y =⨯-= ( kg ) . ˆ0.849b
=是斜率的估计值,说明身高 x 每增加1个单位时,体重y 就增加0.849 位,这表明体重与身高具有正的线性相关关系。
2、练习:课本P76页练习题
(五)、课堂小结:1、线性回归模型y a bx ε=++与确定性函数y a bx =+相比,它表示
y 与x 之间是统计相关关系(非确定性关系)其中的随机误差ε提供了选择模型的准则以及
在模型合理的情况下探求最佳估计值a ,b 的工具;2、线性回归方程y a bx =+中a ,b 的意义是:以a 为基数,x 每增加1个单位,y 相应地平均增加b 个单位;3、求线性回归方程的基本步骤。
(六)作业:课本P85页习题3-1中第1题。