高中数学第1章统计案例1.2回归分析互动课堂学案苏教版选修13
2019高中数学 第1章 统计案例 1.2 回归分析(一)学案 苏教版选修1-2
§1.2 回归分析(一)课时目标1.掌握建立线性回归模型的步骤.2.了解回归分析的基本思想和初步应用.1.对于n 对观测数据(x i ,y i )(i =1,2,3,…,n ),直线方程__________________称为这n 对数据的线性回归方程.其中________称为回归截距,______称为回归系数,________称为回归值.2.a ^,b ^的计算公式⎩⎨⎧b ^=∑ni =1x i y i -n x y ∑ni =1x 2i-n x 2a ^ =y -b ^x3.相关系数r 的性质 (1)|r |≤1;(2)|r |越接近于1,x ,y 的线性相关程度越强; (3)|r |越接近于0,x ,y 的线性相关程度越弱.一、填空题1.下列关系中正确的是________(填序号). ①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.2.回归直线y ^=a ^+b ^x 恒经过定点________.3.为了解决初中二年级平面几何入门难的问题,某校在初中一年级代数教学中加强概念和推理教学,并设有对照班,下表是初中二年级平面几何期中测试成绩统计表的一部分,其χ2≈________(保留小数点后两位).4.从某学校随机选取8名女大学生,其身高x (cm)和体重y (kg)的线性回归方程为y ^=0.849x -85.712,则身高172 cm 的女大学生,由线性回归方程可以估计其体重为________ kg.5.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,且y 关于x 的回归直线的斜率是b ^,那么b ^与r 的符号________(填写“相同”或“相反”).6.某小卖部为了了解冰糕销售量y (箱)与气温x (℃)之间的关系,随机统计了某4天卖出的冰糕的箱数与当天气温,并制作了对照表(如下表所示),且由表中数据算得线性回归方程y ^=b ^x +a ^中的b ^=2,则预测当气温为25℃时,冰糕销量为________箱.7y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月羽绒服的销售量的件数约为______________________.8.已知线性回归方程为y ^=0.50x -0.81,则x =25时,y 的估计值为________.二、解答题9.某企业上半年产品产量与单位成本资料如下:(1)(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元?10.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)求年推销金额(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.能力提升11.下表提供了某厂节能降耗技术改造后,生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.________.12.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:(1)(2)求线性回归方程,并在散点图中加上回归直线;(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.1.(1)求线性回归方程的步骤为①作出散点图;②利用公式计算回归系数b ^ 及a ^的值;③写出线性回归方程. (2)一般地,我们可以利用线性回归方程进行预测,这里所得到的值是预测值,但不是精确值.2.计算相关系数r 可以判断变量x ,y 的线性相关程度.§1.2 回归分析(一)答案知识梳理1.y ^=a ^+b ^x a ^b ^y ^作业设计1.①②④ 2.(x ,y ) 3.16.23 4.60.316解析 当x =172时,y ^=0.849×172-85.712 =60.316. 5.相同解析 可以分析b ^、r 的计算公式. 6.70解析 由线性回归方程必过点(x ,y ),且b ^=2,得a ^=20,所以当x =25时,y ^=70. 7.46解析 ∵样本点的中心为(10,38),∴38=-2×10+a ^,∴a ^=58,∴当x =6时,y ^=-2×6+58=46. 8.11.69解析 y 的估计值就是当x =25时的函数值, 即0.50×25-0.81=11.69.9.解 (1)n =6,∑6i =1x i =21,∑6i =1y i =426,x =3.5, y =71,∑6i =1x 2i =79,∑6i =1x i y i =1 481,b ^=∑6i =1x i y i -6x y∑6i =1x 2i -6x2=1 481-6×3.5×7179-6×3.52≈-1.82. a ^=y -b ^x =71+1.82×3.5=77.37.线性回归方程为y ^=a ^+b ^x =77.37-1.82x .(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有:产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入线性回归方程:y ^=77.37-1.82×6=66.45(元).当产量为6 000件时,单位成本为66.45元.10.解 (1)设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑5i =1x i -xy i -y∑5i =1x i -x2=1020=0.5, a ^=y -b ^x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4.(2)当x =11时,y ^=0.5×11+0.4=5.9(万元). 所以可以估计第6名推销员的年推销金额为5.9万元.11.y ^=0.7x +0.35解析 对照数据,计算得:∑4i =1x 2i =86, x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5. 已知∑4i =1x i y i =66.5, 所以b ^=∑4i =1x i y i -4x y ∑4i =1x 2i -x2=66.5-4×4.5×3.586-4×4.52=0.7. a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35. 12.解 (1)散点图如图所示:(2)x =15∑5i =1x i =109,∑5i =1 (x i -x )2=1 570, y =23.2,∑5i =1(x i -x )(y i -y )=308. 设所求线性回归方程为y ^=b ^x +a ^, 则b ^ =3081 570≈0.196 2,a ^=y -b ^x =23.2-109×3081 570≈1.816 6. 故所求线性回归方程为y ^=0.196 2x +1.816 6. (3)据(2),当x =150 m 2时,销售价格的估计值为 y ^=0.196 2×150+1.816 6=31.246 6(万元).。
高中数学选修1-2学生学案教师版
第一章 统计案例(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系,即自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系.(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报.2.线性回归模型(1)线性回归模型y =bx +a +e ,其中a 和 b 是模型的未知参数,e 称为随机误差.自变量x 称为解释变量,因变量y 称为预报变量.(2)在回归方程y ^=b ^x +a ^中, b ^=__________________ ,a ^=y -b ^x .其中x =_______,y =__________i, (x ,y )称为样本点的中心.线性回归方程中系数b ^的含义 (1)b ^是回归直线的斜率的估计值,表示x 每增加一个单位,y 的平均增加单位数,而不是增加单位数.(2)当b ^>0时,变量y 与x 具有正的线性相关关系;当b ^<01(1)残差:样本点(x n ,y n )的随机误差e i =y i -bx i -a ,其估计值为e ^i=y i -y ^i =y i -b ^x i -a ^,e ^i 称为相应于点(x i ,y i )的残差(residual).(以上i =1,2,…,n )(2)残差图:作图时,纵坐标为残差,横坐标可以选为样本编号,或x i数据,或y i 数据,这样作出的图形称为残差图.(3)残差分析:残差分析即通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果,其步骤为:计算残差——画残差图——在残差图中分析残差特性.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.2.相关指数我们可以用相关指数R 2来刻画回归的效果,其计算公式是:R 2=__________________________.R 2越大,残差平方和_________越小,即模型的拟合效果越好;R 2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R 2的取值范围为[0,1],R 2表示解释变量对于预报变量变化的贡献率,1-R 2表示随机误差对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好.残差分析的注意点在残差图中,可疑数据的特征表现为:(1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,如果采集数据有错误,那么需要纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,那么需要寻找其他原因.(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.[例1] 某种产品的广告费支出x (单位:百万元)与销售额y ((1)试根据数据预报广告费支出1 000万元的销售额; (2)若广告费支出1 000万元的实际销售额为8 500万元,求误差.解:(1)从画出的散点图(图略)可看出,这些点在一条直线附近,可以建立销售额y 对广告费支出x 的线性回归方程.由题中数据计算可得x -=5,y -=50,由公式计算得b ^=,a ^=,所以y 对x 的线性回归方程为y ^=+.因此,对于广告费支出为1 000万元(即10百万元),由线性回归方程可以预报销售额为y ^=×10+=(百万元).(2)8 500万元即85百万元,实际数据与预报值的误差为85-=(百万元).求线性回归方程的步骤(1)列表表示x i ,y i ,x i y i ;(2)计算x - y -,(3)代入公式计算a ^,b ^的值; (4)写出回归直线方程.[例2] 某车间为了规定工时定额,需要确定加工零件所花费(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗[解] (1)根据表中数据画出散点图,如图所示.由图可看出,这些点在一条直线附近,可以用线性回归模型来拟合数据.计算得加工时间对零件数的线性回归方程为y ^=+.(2)以零件数为横坐标,残差为纵坐标画出残差图如图所示.由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好.但需注意,由残差图可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.[类题通法]残差分析应注意的问题利用残差分析研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差e ^1,e ^2,…,e ^n 来判断原始数据中是否存在可疑数据,用R 2来刻画模型拟合的效果.[活学活用]已知某种商品的价格x (元)与需求量y (件)之间的关系有x 14 16 18 20 22 y 12 10 7 5 3求y 关于x 的回归直线方程,并说明回归模型拟合效果的好坏.解:x =15(14+16+18+20+22)=18,y =15(12+10+7+5+3)=,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=620-5×18×1 660-5×182=-, a ^=+×18=,^y i -y ^i0 - - y i -y- - -所以∑i =15(y i -y ^i )2=,∑i =15(y i -y -)2=,R 2=1-∑i =15y i -y ^i2∑i =15y i -y-2≈,所以回归模型的拟合效果很好.[例3] 在一次抽样调查中测得样本的5个样本点,数值如下表:x 1 2 4 y 16 12 5 2 1试建立y [解] 作出变量y 与x 之间的散点图如图所示.由图可知变量y 与x 近似地呈反比例函数关系.设y =k x ,令t =1x,则y =kt .由y 与x 的数据表可得y 与t t 4 2 1 y16 12 5 2 1作出y 与t 的散点图如图所示.由图可知y 与t 呈近似的线性相关关系.又t =,y =,∑i =15t i y i =,∑i =15t 2i = 5,b ^=∑i =15t i y i -5t y∑i =15t 2i -5t 2=错误!≈ 4,a ^=y -b ^t =- 4×≈,∴y ^= 4t +.所以y 与x 的回归方程是y ^=错误!+. [类题通法]非线性回归分析的步骤非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[活学活用]某电容器充电后,电压达到100 V ,然后开始放电,由经验知道,此后电压U 随时间t 变化的规律用公式U =A e bt(b <t /s 0 1 2 3 4 5 6 7 8 9 10 U /V 100 75 55 40 30 20 15 10 10 5 5试求:电压U 对时间t 的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解:对U =A e bt两边取对数得ln U =ln A +bt ,令y =ln U ,x 0 1 2 3 4 5 6 7 8 9 10 y根据表中数据画出散点图,如图所示,从图中可以看出,y 与x 具有较好的线性相关关系,由表中数据求得x =5,y≈,由公式计算得b ^≈-,a ^=y -b ^x -=,所以y 对x 的线性回归方程为y ^=-+.所以ln U ^=-+,即U ^=e -+=e -·,因此电压U 对时间t的回归方程为U ^=e -·.[典例] 下列现象的线性相关程度最高的是( )A .某商店的职工人数与商品销售额之间的相关系数为B .流通费用率与商业利润率之间的相关系数为-C .商品销售额与商业利润率之间的相关系数为D .商品销售额与流通费用率之间的相关系数为[解析] |r |越接近于1,相关程度越高. [答案] B [易错防范]1.本题易错误地认为r 越接近于1,相关程度越高,从而误选A.2.变量之间线性相关系数r 具有如下性质:(1)r 2≤1,故变量之间线性相关系数r 的取值范围为[-1,1].(2)|r |越大,变量之间的线性相关程度越高;|r |越接近0,变量之间的线性相关程度越低.(3)当r >0时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r <0时,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当r =0时,称两个变量线性不相关.[成功破障]变量X 与Y 相对应的一组数据为(10,1),,2),,3),,4),(13,5);变量U 与V 相对应的一组数据为(10,5),,4),,3),,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 对于变量X 与Y 而言,Y 随X 的增大而增大,故变量Y 与X 正相关,即r 1>0;对于变量U 与V 而言,V 随U 的增大而减小,故变量V 与U 负相关,即r 2<0.故r 2<0<r 1.[随堂即时演练]1.(湖北高考)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=-;②y 与x 负相关且y ^=-+;③y 与x 正相关且y ^=+;④y 与x 正相关且y ^=--.其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④解析:选D ①中y 与x 负相关而斜率为正,不正确;④中y 与x 正相关而斜率为负,不正确.2.关于回归分析,下列说法错误的是( )A .在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B .线性相关系数可以是正的也可以是负的C .在回归分析中,如果r 2=1或r =±1,说明x 与y 之间完全线性相关D .样本相关系数r ∈(-1,1)解析:选D 样本的相关系数应满足-1≤r ≤1.3.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析:由相关指数R 2的意义可知,R 2≈表明气温解释了85%,而随机误差贡献了剩余的15%.答案:85% 15% 4.若施肥量x (kg)与小麦产量y (kg)之间的回归直线方程为y ^=250+4x ,当施肥量为50 kg 时,预计小麦产量为________.解析:把x =50代入y ^=250+4x ,可求得y ^=450. 答案:450 kg5.某工厂为了对新研究的一种产品进行合理定价,将该单价x (元) 8 9 销量y (件) 90 84 83 80 75 68 (1)求回归直线方程y ^=b ^x +a ^,其中b ^=-20,a ^=y --b ^x -; (2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元(利润=销售收入-成本)解:(1)x -=16(8+++++9)=,y -=16(90+84+83+80+75+68)=80,从而a ^=y -+20x -=80+20×=250,故y ^=-20x +250.(2)由题意知,工厂获得利润z =(x -4)y =-20x 2+330x-1 000=-20⎝⎛⎭⎪⎫x -3342+,所以当x =334=时,z max =(元).即当该产品的单价定为元时,工厂获得最大利润.1.2独立性检验的基本思想及其初步应用独立性检验的有关概念[导入新知]1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.2×2列联表假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(也称2×2列联表)为:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a +b +c +d3.等高条形图将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.4.K 2统计量为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K 2=n ad -bc 2a +bc +d a +c b +d,其中n =a +b +c +d 为样本容量.5.独立性检验利用随机变量K 2来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量独立性检验.[化解疑难]反证法原理与独立性检验原理的比较反证法原理——在假设H 0下,如果推出一个矛盾,就证明了H 0不成立.独立性检验原理——在假设H 0下,如果出现一个与H 0相矛盾的小概率事件,就推断H 0不成立,且该推断犯错误的概率不超过小概率.独立性检验的步骤独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查下表确定临界值k 0. P (K 2≥k 0)k 0P(K2≥k0)k0(2)利用公式K2=n ad-bc2a+b c+d a+c b+d,计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.[化解疑难]详析独立性检验(1)通过列联表或观察等高条形图判断两个分类变量之间有关系,属于直观判断,不足之处是不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验可以弥补这个不足.(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体.列联表和等高条形图的应用[例1] 某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.[解] 作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.[类题通法]细解等高条形图(1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色.(2)等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显⎝⎛⎭⎪⎫即aa+b和cc+d相差很大,就判断两个分类变量之间有关系.[活学活用]为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟678522 1 200总计915605 1 520利用等高条形图判断父母吸烟对子女吸烟是否有影响解:等高条形图如下:由图形观察可以看出子女吸烟者中父母吸烟的比例要比子女不吸烟者中父母吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.独立性检验的原理[例2] 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:患心脏病未患心脏病总计每晚都打鼾30224254不打鼾24 1 355 1 379总计54 1 579 1 633根据列联表的独立性检验,能否在犯错误的概率不超过的前提下认为每晚都打鼾与患心脏病有关系[解] 由列联表中的数据,得K2的观测值为k=1 633×30×1 355-224×242254×1 379×54×1 579≈>.因此,在犯错误的概率不超过的前提下,认为每晚都打鼾与患心脏病有关系.[类题通法]解决独立性检验问题的思路解决一般的独立性检验问题,首先由题目所给的2×2列联表确定a,b,c,d,n的值,然后代入随机变量K2的计算公式求出观测值k,将k与临界值k0进行对比,确定有多大的把握认为“两个分类变量有关系”.[活学活用]某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.能否在犯错误的概率不超过的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系合格品次品总计甲在生产现场9828990甲不在生产现场49317510总计 1 47525 1 500由列联表中的数据,得K2的观测值为k=1 500×982×17-8×4932990×510×1 475×25≈>.因此,在犯错误的概率不超过的前提下,认为质量监督员甲在不在生产现场与产品质量好坏有关系.1.独立性检验与统计的综合应用[典例] (12分)某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人).现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表.生产能力分组[110,120)[120,130)[130,140)[140,150)人数8x32表2:B类工人生产能力的频数分布表生产能力分组[110,120)[120,130)[130,140)[140,150)人数6y2718(1)确定x,y的值;(2)完成下面2×2列联表,并回答能否在犯错误的概率不超过的前提下认为工人的生产能力与工人的类别有关系生产能力分组工人类别[110,130)[130,150)总计A类工人B类工人总计附:K2=n ad-bc2a+b c+d a+c b+d,P(K2≥k0)k0[解题流程](2)根据所给的数据可以完成列联表,如下表所示:生产能力分组工人类别[110,130)[130,150)总计A类工人20525B类工人304575总计50501006分由列联表中的数据,得K2的观测值为[活学活用]电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.根据已知条件完成下面的2×2列联表,并据此资料你是非体育迷体育迷总计男女总计P(K2≥k0)k0解:由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,“非体育迷”有75名,又已知100名观众中女性有55名,女“体育迷”有10名,所以男性有45名,如下表:非体育迷体育迷总计男301545女451055总计7525100由2×2列联表中的数据,得K2的观测值为k=100×30×10-15×45245×55×75×25≈.因为<,所以没有充分的证据表明“体育迷”与性别有关.[随堂即时演练]1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )解析:选D 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D.2.下面是一个2×2列联表:y1y2总计x1a2173x222527总计b46则表中a,b处的值分别为( )A.94,96 B.52,50C.52,54 D.54,52解析:选C 由⎩⎪⎨⎪⎧a+21=73,a+2=b,得⎩⎪⎨⎪⎧a=52,b=54.3.独立性检验所采用的思路是:要研究A,B两类型变量彼此相关,首先假设这两类变量彼此________.在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设________.答案:无关不成立4.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K2的观测值k>,则在犯错误的概率不超过的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知,在犯错误的概率不超过的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知,在犯错误的概率不超过的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.答案:③5.在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.能否在犯错误的概率不超过的前提下推断:在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机晕机不晕机总计男乘客243155女乘客82634总计325789由公式可得K2的观测值k=n ad-bc2a+b c+d a+c b+d=8924×26-31×8255×34×32×57≈>.故在犯错误的概率不超过的前提下,认为“在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机”.第二章推理与证明2.合情推理归纳推理如图(甲)是第七届国际数学教育大会(简称ICME-7)的会徽图案,会徽的主体图案是由如图(乙)的一连串直角三角形演化而成的,其中OA1=A1A2=A2A3=…=A7A8=1,如果把图(乙)中的直角三角形依此规律继续作下去,记OA1,OA2,…,OA n 的长度构成数列{a n},问题1:试计算a1,a2,a3,a4的值.提示:由图知:a1=OA1=1,a2=OA2=OA21+A1A22=12+12=2,a3=OA3=OA22+A2A23=22+12=3,a4=OA4=OA23+A3A24=32+12=4=2.问题2:由问题1中的结果,你能猜想出数列{a n}的通项公式a n吗提示:能猜想出a n=n(n∈N*).问题3:直角三角形、等腰三角形、等边三角形的内角和都是180°,你能猜想出什么结论提示:所有三角形的内角和都是180°.问题4:以上两个推理有什么共同特点提示:都是由个别事实推出一般结论.[导入新知]1.归纳推理的定义由某类事物的部分对象具有某些特征,推出该类事物的全部对象都具有这些特征的推理,或者由个别事实概括出一般结论的推理,称为归纳推理.2.归纳推理的特征归纳推理是由部分到整体、由个别到一般的推理.[化解疑难]归纳推理的特点(1)由归纳推理得到的结论具有猜测的性质,结论是否正确,还需经过逻辑证明和实践检验,因此,归纳推理不能作为数学证明的工具;(2)一般地,如果归纳的个别对象越多,越具有代表性,类比推理[提出问题]问题1:在三角形中,任意两边之和大于第三边,那么,在四面体中,各个面的面积之间有什么关系提示:四面体中任意三个面的面积之和大于第四个面的面积.问题2:三角形的面积等于底边与高乘积的12,那么在四面体中,如何表示四面体的体积提示:四面体的体积等于底面积与高乘积的13.问题3:以上两个推理有什么共同特点提示:根据三角形的特征,推出四面体的特征.问题4:以上两个推理是归纳推理吗提示:不是.归纳推理是从特殊到一般的推理,而以上两个推理是从特殊到特殊的推理.[导入新知]1.类比推理的定义由两类对象具有某些类似特征和其中一类对象的某些已知特征,推出另一类对象也具有这些特征的推理,称为类比推理.2.类比推理的特征类比推理是由特殊到特殊的推理.[化解疑难]对类比推理的定义的理解(1)类比推理是两类对象特征之间的推理.(2)对象的各个性质之间并不是孤立存在的,而是相互联系和相互制约的,如果两个对象有些性质相似或相同,那么它们另一些性质也可能相似或相同.(3)在数学中,我们可以由已经解决的问题和已经获得的知识出发,通过类比提出新问题和获得新发现.数、式中的归纳推理[例1] 已知数列{a n}的前n项和为S n,a1=-3,且S n+1S n+2=a n(n≥2),计算S1,S2,S3,S4,并猜想S n的表达式.[解] 当n=1时,S1=a1=-23;当n=2时,1S2=-2-S1=-43,所以S2=-34;当n=3时,1S3=-2-S2=-54,所以S3=-45;当n=4时,1S4=-2-S3=-65,所以S4=-56.猜想:S n=-n+1n+2,n∈N*.[类题通法]归纳推理的一般步骤归纳推理的思维过程大致是:实验、观察→概括、推广→猜测一般性结论.该过程包括两个步骤:(1)通过观察个别对象发现某些相同性质;(2)从已知的相同性质中推出一个明确表述的一般性命题(猜想).[活学活用]将全体正整数排成一个三角形数阵:12 34 5 67 8 9 10…按照以上排列的规律,求第n行(n≥3)从左向右数第3个数.解:前(n-1)行共有正整数[1+2+…+(n-1)]个,即n2-n2个,因此第n行第3个数是全体正整数中第⎝⎛⎭⎪⎫n2-n2+3个,即为n2-n+62.[拼成若干个图案,则第六个图案中有菱形纹的正六边形的个数是( )A.26 B.31C.32 D.36(2)把1,3,6,10,15,21,…这些数叫做三角形数,这是因为个数等于这些数目的点可以分别排成一个正三角形(如图),试求第七个三角形数是________.[解析] (1)选 B 法一:有菱形纹的正六边形个数如下表:由表可以看出有菱形纹的正六边形的个数依次组成一个以6为首项,以5为公差的等差数列,所以第六个图案中有菱形纹的正六边形的个数是6+5×(6-1)=31.法二:由图案的排列规律可知,除第一块无纹正六边形需6个有纹正六边形围绕(图案1)外,每增加一块无纹正六边形,只需增加5块菱形纹正六边形(每两块相邻的无纹正六边形之间有一块“公共”的菱形纹正六边形),故第六个图案中有菱形纹的正六边形的个数为:6+5×(6-1)=31.故选B.(2)第七个三角形数为1+2+3+4+5+6+7=28.[答案] (1)B (2)28[类题通法]解决图形中归纳推理的方法解决与图形有关的归纳推理问题常从以下两个方面着手:(1)从图形的数量规律入手,找到数值变化与数量的关系.(2)从图形的结构变化规律入手,找到图形的结构每发生一次变化后,与上一次比较,数值发生了怎样的变化.[活学活用]如图,第n个图形是由正n+2边形“扩展”而来(n=1,2,3,…),则第n个图形中的顶点个数为( )A.(n+1)(n+2) B.(n+2)(n +3)C.n2D.n解析:选B 第一个图形共有12=3×4个顶点,第二个图形共有20=4×5个顶点,第三个图形共有30=5×6个顶点,第四个图形共有42=6×7个顶点,故第n个图形共有(n+2)(n+3)[例n n4,S8-S4,S12-S8,S16-S12成等差数列,类比以上结论有:设等比数列{b n}的前n项积为T n,则T4,________,________,T16T12成等比数列.[解析] 由于等差数列与等比数列具有类比性,且等差数列与和差有关,等比数列与积商有关,因此当等差数列依次每4项之和仍成等差数列时,类比等比数列为依次每4项的积的商成等比数列.下面证明该结论的正确性:设等比数列{b n}的公比为q,首项为b1,则T4=b41q6,T8=b81q1+2+…+7=b81q28,T12=b121q1+2+…+11=b121q66,T16=b161q1+2+…+15=b161q120,∴T8T4=b41q22,T12T8=b41q38,T16T12=b41q54,即⎝⎛⎭⎪⎫T8T42=T12T8·T4,⎝⎛⎭⎪⎫T12T82=T8T4·T16T12,故T4,T8T4,T12T8,T16T12成等比数列.[答案]T8T4T12T8[类题通法]类比推理的一般步骤类比推理的思维过程大致是:观察、比较→联想、类推→猜测新的结论.该过程包括两个步骤:(1)找出两类对象之间的相似性或一致性;(2)用一类对象的性质去猜测另一类对象的性质,得出一个明确的命题(猜想).[活学活用]已知椭圆具有以下性质:已知M,N是椭圆C上关于原点对称的两个点,点P是椭圆上任意一点,若直线PM,PN的斜率都存在,并记为k PM,k PN,那么k PM与k PN之积是与点P的位置无关的定值.试对双曲线x2a2-y2b2=1(a>0,b>0)写出类似的性质,并加以证明.解:类似的性质为:已知M,N是双曲线x2a2-y2b2=1(a>0,b>0)上关于原点对称的两个点,点P是双曲线上任意一点,若直线PM,PN的斜率都存在,并记为k PM,k PN,那么k PM与k PN之积是与点P的位置无关的定值.证明如下:设点M,P的坐标为(m,n),(x,y),则N点的坐标为(-m,-n).∵点M(m,n)在已知双曲线x2a2-y2b2=1上,∴m2a2-n2b2=1,得n2=b2a2m2-b2,同理y2=b2a2x2-b2.∴y2-n2=b2a2(x2-m2).则k PM·k PN=y-nx-m·y+nx+m=y2-n2x2-m2=b2a2·x2-m2x2-m2=b2a2(定值).∴k PM与k PN之积是与点P的位置无关的定值.1.从平面到空间的类比[典例] 三角形与四面体有下列相似性质:(1)三角形是平面内由直线段围成的最简单的封闭图形;四面体是空间中由三角形围成的最简单的封闭图形.(2)三角形可以看作是由一条线段所在直线外一点与这条线段的两个端点的连线所围成的图形;四面体可以看作是由三角形所在平面外一点与这个三角形三个顶点的连线所围成的图形.通过类比推理,根据三角形的性质推测空间四面体的性。
高中数学第1章统计案例1.2回归分析学案苏教版选修1_2102014
1.2 回归分析1.线性回归模型(1)线性回归模型y =a +bx +ε,其中a +bx 是确定性函数,ε称为随机误差. (2)随机误差产生的原因主要有以下几种: ①所用的确定性函数不恰当引起误差; ②忽略了某种因素的影响; ③存在观测误差.(3)在线性回归方程y ^=a ^+b ^x 中b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -(其中x -=1n ∑i =1n x i ,y -=1n ∑i =1ny i ).其中,a ^,b ^分别为a ,b 的估计值,a ^称为回归截距,b ^称为回归系数,y ^称为回归值. 2.相关系数(1)计算两个随机变量间线性相关系数的公式∑i =1nx i -x-2∑i =1ny i -y-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2∑i =1ny 2i -n y -2(2)r 具有如下性质:①|r|≤1;②|r|越接近于1,x,y的线性相关程度越强;③|r|越接近于0,x,y的线性相关程度越弱.3.对相关系数进行显著性检验的基本步骤(1)提出统计假设H0:变量x,y不具有线性相关关系;(2)如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n-2在教材附录1中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平);(3)计算样本相关系数r;(4)作出统计推断:若|r|>r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.我们把相关关系(不确定性关系)转化为函数关系(确定性关系),当两个具有相关关系的变量近似地满足一次函数关系时,我们所求出的函数关系式y^=a^+b^x就是回归直线方程.求回归直线方程的一般方法是借助于工作软件求出回归直线方程,也可以利用计算器计算出b^,再由a^=y--b^x-求出a^,写出回归直线方程y^=b^x+a^.计算时应注意:(1)求b^时,利用公式b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x-2,先求出x-=1n(x1+x2+…+x n),y-=1n(y1+y2+…+y n),∑i=1nx i y i=x1y1+x2y2+…+x n y n,∑i=1nx2i=x21+x22+…+x2n.再由a^=y--b^x-求出a^的值,并写出回归直线方程.(2)线性回归方程中的截距a^和斜率b^都是通过样本估计而来的,存在着误差,这种误差可能导致估计结果的偏差.(3)回归直线方程y^=a^+b^x中的b^表示x增加1个单位时,y^的变化量为b^,而a^表示y^不随x的变化而变化的部分.(4)可以利用回归直线方程y^=a^+b^x求在x取某一个值时y的估计值.[例1] 假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计资料:若由数据可知,y 对x 呈线性相关关系. (1)求线性回归方程;(2)估计使用年限为10年时,维修费用是多少?[思路点拨] 由于题目条件已经指明y 对x 呈线性相关关系,所以可直接利用公式求a ^与b ^,然后求出线性回归方程,最后把10代入,估计维修费用.[精解详析] (1)列表如下:经计算得:x -=4,y -=5,∑i =15x 2i =90,∑i =15x i y i =112.3,于是b ^=∑i =15x i y i -5x -y-∑i =15x 2i -5x -2=1.23,a ^=y --b ^·x -=0.08,所以线性回归方程为y ^=b ^x +a ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元),即若估计使用年限为10年时,维修费用为12.38万元.[一点通] 若题目中没有指明y 对x 呈线性相关关系,而只给出资料,则需根据散点图或利用线性相关系数先确定变量是否线性相关,再求线性回归方程.1.(辽宁高考)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.答案:0.2542.(湖北高考改编)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是________.解析:由回归直线方程y ^=b ^x +a ^,知当b ^>0时,x 与y 正相关,当b ^<0时,x 与y 负相关,所以①④一定错误.答案:①④3.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时的销售额为________万元.解析:∵x -=4+2+3+54=72,y -=49+26+39+544=42.又y ^=b ^x +a ^必过(x -,y -), ∴42=72×9.4+a ^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元). 答案:65.54.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y --b x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -bx =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.[例2] 10名同学在高一和高二的数学成绩如下表:其中x 为高一数学成绩,y 为高二数学成绩. (1)y 与x 是否具有相关关系?(2)如果y 与x 具有线性相关关系,求回归直线方程.[思路点拨] 可先计算线性相关系数r 的值,然后与r 0.05比较,进而对x 与y 的相关性做出判断.[精解详析] (1)由已知表格中的数据,求得x -=71,y -=72.3,r =∑i =110x i -x-y i -y-∑i =110x i -x-2∑i =110y i -y-2≈0.78.由检验水平0.05及n -2=8,在课本附录1中查得r 0.05=0.632,因为0.78>0.632, 所以y 与x 之间具有很强的线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为y ^=a ^+b ^x ,则有b ^=∑i =110x i -x-y i -y-∑i =110x i -x-2≈1.22,a ^=y --b ^x -=72.3-1.22×71=-14.32.所以y 关于x 的回归直线方程为y ^=1.22x -14.32.[一点通] 判断x 与y 是否具有线性相关关系,还可以先作出散点图,从点的分布特征来判定是否线性相关.有些同学不对问题进行必要的相关性检验,直接求x 与y 的回归直线方程,它就没有任何实际价值,也就不能准确反映变量x 与y 间的变化规律.另外,要注意计算的正确性.5.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则r 1与r 2的关系为________.解析:对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.答案:r 2<0<r 16.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析:样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.答案:17.为了了解某地母亲身高x 与女儿身高y 的相关关系,现随机测得10对母女的身高,所得数据如下表所示:母亲身高x /cm 159 160 160 163 159 154 159 158 159 157 女儿身高y /cm 158159160161161155162157162156试对x 与y 进行线性回归分析,并预测当母亲身高为161 cm 时,女儿的身高为多少? 解:作线性相关性检验. x -=110×(159+160+…+157)=158.8, y -=110×(158+159+…+156)=159.1,∑i =110x 2i -10(x -)2=(1592+1602+…+1572)-10×158.82=47.6, ∑i =110x i y i -10x -y -=(159×158+160×159+…+157×156)-10×158.8×159.1=37.2,∑i =110y 2i -10(y -)2=(1582+1592+…+1562)-10×159.12=56.9, 因此r =∑i =110x i y i -10x -y-[∑i =110x 2i -10x-2][∑i =110y 2i -10y-2]=37.247.6×56.9≈0.71.由检验水平0.05及n -2=8,在课本附录1中查得r 0.05=0.632,因为0.71>0.632,所以可以认为x 与y 有较强的相关关系,因而求回归直线方程有必要.又b ^=∑i =110x i y i -10x -y -∑i =110x 2i -10x -2=37.247.6≈0.78, a ^=159.1-0.78×158.8≈35.2,由此得回归直线方程为y ^=35.2+0.78x ,回归系数b ^=0.78反映出当母亲身高每增加1 cm 时女儿身高平均增加0.78 cm ,a ^=35.2可以理解为女儿身高中不受母亲身高影响的部分,当母亲身高为161 cm 时女儿身高为y ^=0.78×161+35.2=160.78≈161(cm),这就是说当母亲身高为161 cm 时,女儿身高大致也为161 cm.1.求线性回归方程的方法 确定线性回归方程的基本步骤为:(1)先求b ^;(2)再求a ^;(3)写出方程y ^=b ^x +a ^. 2.分析两个变量的相关关系常用的方法(1)散点图法.该法主要是用来直观地分析两变量间是否存在相关关系.(2)相关系数法.该法主要是从量上分析两个变量间相互联系的密切程度,|r |越接近于1,相关程度越强,|r |越接近于0,相关程度越弱.一、填空题1.设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点得到的线性回归直线(如图),以下结论正确的序号是________.①直线l 过点(x ,y );②x 和y 的相关系数为直线l 的斜率; ③x 和y 的相关系数在0到1之间;④当n 为偶数时,分布在l 两侧的样本点的个数一定相同.解析:因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近于1,两个变量的线性相关程度越强,所以②③错误;④中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以④错误;根据回归直线方程一定经过样本中心点可知①正确.答案:①2.(湖北高考改编)根据如下样本数据x 3 4 5 6 7 8 y4.02.5-0.50.5-2.0-3.0得到的回归方程为y ^=bx +a ,则下列说法正确的是________.(填序号) ①a >0,b >0 ②a >0,b <0 ③a <0,b >0 ④a <0,b <0 解析:由表中数据画出散点图,如图,由散点图可知b <0,a >0,故②正确. 答案:②3.设有一个回归方程为y ^=2-2.5x ,则变量x 每增加一个单位时,y ________. 解析:由回归系数的意义可知当变量x 增加一个单位时,y ^的平均改变量为b ^,由题目回归方程y ^=2-2.5x ,可得当变量x 增加一个单位时,y ^平均减少2.5个单位.答案:平均减少2.5个单位4.某数学老师的身高是176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.解析:设父亲身高为x cm ,儿子身高为y cm ,则x =173,y =176,b ^=0×(-6)+(-3)×0+3×602+9+9=1,a ^=y -b ^x -=176-1×173=3,∴y ^=x +3,当x =182时,y ^=185.答案:1855.为了对学业水平测试成绩进行分析,在得分60分以上的全体同学中随机抽取8位.他们的物理、化学成绩如下:若用变量x ,y 分别记作物理成绩和化学成绩,则x ,y 之间的线性相关系数r 为________. (参考数据:x -≈85,y -=81,∑i =18(x i -x -)2≈457,∑i =18(y i -y -)2≈550,∑i =18(x i -x -)(y i-y -)≈501,457≈21.4,550≈23.5)解析:r =∑i =18(x i -x -)(y i -y -)∑i =18(x i -x -)2∑i =18(y i -y -)2≈501457×550≈50121.4×23.5≈0.996.答案:0.996 二、解答题6.某企业上半年产品产量与单位成本资料如下:且已知产量x 与单位成本y 具有线性相关关系. (1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解:(1)n =6,x -=3.5,y -=71,=1 481-6×3.5×7179-6×3.52≈-1.82, a ^=y --b ^x -=71+1.82×3.5=77.37,则线性回归方程为y ^=b ^x +a ^=-1.82x +77.37.(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件, 即x =6时,代入线性回归方程, 得y ^=77.37-1.82×6=66.45(元).即当产量为6 000件时,单位成本大约为66.45元.7.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转速度的变化而变化,下表为抽样试验的结果:(1)利用散点图或相关系数r 的大小判断变量y 对x 是否线性相关?为什么? (2)如果y 对x 有线性相关关系,求线性回归方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?(最后结果精确到0.001,参考数据:656.26≈25.617,16×11+14×9+12×8+8×5=438,162+142+122+82=660,112+92+82+52=291)解:(1)∵x -=12.5,y -=8.25,∑i =14(x i -x -)(y i -y -)=25.5,∑i =14x i -x-2∑i =14y i -y-2=656.25≈25.617,∴r 0.05≈0.995,由检验水平0.05及n -2=2,在附录1中查得r 0.05=0.950,因为0.995>0.950,∴y 与x 有线性相关关系.(2)∵∑i =14(x i -x -)2=35,∴b ^≈0.729,a ^=y --b ^x -≈-0.863.∴线性回归方程为y ^=0.729x -0.863. (3)0.729x -0.863≤10,解得x ≤14.901. 故机器运转速度应在14转/秒之内.8.(重庆高考)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 解:(1)依题意得:b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2=184-10×8×2720-10×82=0.3,a ^=y --b ^x -=2-0.3×8=-0.4,故所求回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b ^=0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元).。
高中数学 第1章 统计案例 1.2 回归分析(二)学案 苏教版选修1-2
亲爱的同学:这份试卷将再次记录你的自信、沉着、智慧和收获,我们一直投给你信任的目光……学 习 资 料 专 题§1.2 回归分析(二)课时目标 1.会对变量x 与y 进行相关性检验.2.进一步理解回归分析的基本思想.1.根据给定的样本数据,求得的线性回归方程未必有实际意义. 2.对相关系数r 进行显著性检验的基本步骤如下: (1)提出统计假设H 0:变量x ,y ________________;(2)如果以95%的把握作出推断,可以根据1-0.95=0.05与n -2在附录1中查出一个r 的__________(其中1-0.95=0.05称为____________);(3)计算__________________;(4)作出统计推断:若__________,则否定H 0,表明有________的把握认为x 与y 之间具有__________________;若________,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为x 与y 之间有__________________.一、填空题1.下列说法正确的是________.(填序号) ①y =2x 2+1中的x 、y 是具有相关关系的两个变量 ②正四面体的体积与其棱长具有相关关系③电脑的销售量与电脑的价格之间是一种确定性的关系④传染病医院感染甲型H1N1流感的医务人员数与医院收治的甲型流感人数是具有相关关系的两个变量2.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,线性回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均工资收入的百分比约为________.3.对具有线性相关关系的变量x 、y 有观测数据(x i ,y i ) (i =1,2,…,10),它们之间的线性回归方程是y ^=3x +20,若∑10i =1x i =18,则∑10i =1y i =________. 4.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得线性回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元是销售额为________万元.5.若回归直线的斜率的估计值是 1.23,样本的中心点为(4,5),则线性回归方程为________________.6.某种产品的广告费支出x 与销售额y 之间有下表关系,现在知道其中一个数据弄错了,则最可能错的数据是__________________________________.7.(单位:亿吨标准煤)的几个统计数据:的回归模型是下列的四种模型中的哪一种________.(填序号)①y ^=a ^x +b ^(a ≠0); ②y =ax 2+bx +c (a ≠0); ③y =a x (a >0且a ≠1); ④y =log a x (a >0且a ≠1).8.下列说法中正确的是________(填序号).①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法.二、解答题9.假设学生在初一和初二数学成绩是线性相关的.若10个学生初一(x )和初二(y )的数学分数如下:10.在某化学实验中,测得如下表所示的6对数据,其中x (单位:min)表示化学反应进行的时间,y (单位:mg)表示未转化物质的质量.(1)设y 与0.001); (2)估计化学反应进行到10 min 时未转化物质的质量(精确到0.1).能力提升11.假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下表的统计资料:若由资料知y (1)试求线性回归方程y ^=b ^x +a ^的回归系数b ^与常数项a ^; (2)估计使用年限为10年时,维修费用是多少?12.测得10对某国父子身高(单位:英寸)如下:(2)如果y 与x 之间具有线性相关关系,求线性回归方程; (3)如果父亲的身高为73英寸,估计儿子的身高.1.线性回归方程可得到变量y ^的估计值.2.通过显著性检验可以推断x 、y 之间是否具有线性相关关系.§1.2 回归分析(二)答案知识梳理2.(1)不具有线性相关关系 (2)临界值r 0.05检验水平 (3)样本相关系数r (4)|r |>r 0.05 95% 线性相关关系 |r |≤r 0.05 线性相关关系作业设计 1.④解析 感染的医务人员数不仅受医院收治的病人数的影响,还受防护措施等其他因素的影响.2.83%解析 当y ^=7.675时,x ≈9.262,∴估计该城市人均消费额占人均收入百分比约7.675÷9.262≈83%. 3.254解析 由∑10i =1x i =18,得x =1.8. 因为点(x ,y )在直线y ^=3x +20上,则y =25.4.所以∑10i =1y i =25.4×10=254. 4.65.5万元解析 由题意可知x =3.5,y =42,则42=9.4×3.5+a ^,a ^=9.1,y ^=9.4×6+9.1 =65.5.5.y ^=1.23x +0.08解析 回归直线y ^=a ^+b ^x 经过样本的中心点(4,5),又b ^=1.23,所以a ^=y -b ^x =5-1.23×4=0.08,所以线性回归方程为y ^=1.23x +0.08. 6.(6,50) 7.① 8.④⑤解析 回归分析就是研究两个事件的相关性;回归模型是需要通过散点图模拟的;回归模型有线性和非线性之分.9.解 因为x =71,∑i =110x 2i =50 520,y =72.3,∑i =110x i y i =51 467,所以,b ^=51 467-10×71×72.350 520-10×712≈1.218 2. a ^=72.3-1.218 2×71=-14.192 2,线性回归方程是:y ^=1.218 2x -14.192 2. 10.解 (1)在y =cd x两边取自然对数, 令ln y =z ,ln c =a ,ln d =b ,则z =a +bx . 由已知数据,得由公式得a ≈3.905 5,b ≈-0.221 9,则线性回归方程为z =3.905 5-0.221 9x .而lnc =3.905 5,lnd =-0.221 9,故c ≈49.681,d ≈0.801,所以c 、d 的估计值分别为49.681,0.801.(2)当x =10时,由(1)所得公式可得y ≈5.4(mg). 11.解 (1)由已知条件制成下表:于是 b ^=112.390-5×42=10=1.23, a ^=y -b ^x =5-1.23×4=0.08.(2)由(1)知线性回归方程是y ^=1.23x +0.08, 当x =10时,y =1.23×10+0.08=12.38(万元). 即估计使用10年时维修费用是12.38万元. 12.解 (1)x =66.8,y =67.01,∑10 i =1x 2i =44 794,∑10 i =1y 2i =44 941.93,x y =4 476.27,x 2=4 462.24,y 2=4 490.34,∑10i =1x i y i =44 842.4.所以r =∑10i =1x i y i -10x y⎝⎛⎭⎫∑10 i =1x 2i -10x 2⎝⎛⎭⎫∑10 i =1y 2i -10y 2=44 842.4-10×4 476.27--=79.76 611.748≈79.781.31≈0.9 801. 又查表得r 0.05=0.632.因为r >r 0.05,所以y 与x 之间具有线性相关关系.(2)设回归方程为y ^=b ^x +a ^.由b ^=∑10i =1x i y i -10x y ∑10 i =1x 2i -10x2=44 842.4-44 762.744 794-44 622.4=79.7171.6≈0.4645, a ^=y -b ^x =67.01-0.464 5×66.8≈35.98.故所求的线性回归方程为y ^=0.464 5x +35.98.(3)当x =73时,y ^=0.464 5×73+35.98≈69.9,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.。
2018_2019学年高中数学第一章统计案例1.2回归分析学案苏教版选修1_2
1.2 回归分析学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解非线性回归分析.知识点一 线性回归模型思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:请问如何表示年推销金额y 与工作年限x 之间的相关关系?y 关于x 的线性回归方程是什么? 答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示两变量之间的相关关系.设所求的线性回归方程为y ^=b ^x +a ^,则b ^=i =15(x i -x )(y i -y )i =15(x i -x )2=1020=0.5, a ^=y -b ^x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4.梳理 线性回归模型 (1)随机误差具有线性相关关系的两个变量的取值x ,y ,y 的值不能由x 完全确定,可将x ,y 之间的关系表示为y =a +bx +ε,其中a +bx 是确定性函数,ε称为随机误差. (2)随机误差产生的主要原因①所用的确定性函数不恰当引起的误差. ②忽略了某些因素的影响. ③存在观测误差.(3)线性回归模型中a ,b 值的求法y =a +bx +ε称为线性回归模型.a ,b 的估计值为a ^,b ^,则⎩⎪⎨⎪⎧b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n (x )2,a ^=y -b ^x .(4)回归直线和线性回归方程直线y ^=a ^+b ^x 称为回归直线,此直线方程即为线性回归方程,a ^称为回归截距,b ^称为回归系数,y ^称为回归值. 知识点二 样本相关系数r具有相关关系的两个变量的线性回归方程为y ^=b ^x +a ^.思考1 变量y ^与真实值y 一样吗? 答案 不一定.思考2 变量y ^与真实值y 之间误差大了好还是小了好? 答案 越小越好.梳理 样本相关系数r 及其性质(1)r =∑i =1nx i y i -n x y(∑i =1nx 2i -n (x )2)(∑i =1ny 2i -n (y )2).(2)r 具有以下性质: ①|r |≤1.②|r |越接近于1,x ,y 的线性相关程度越强. ③|r |越接近于0,x ,y 的线性相关程度越弱.知识点三 对相关系数r 进行显著性检验的基本步骤 1.提出统计假设H 0:变量x ,y 不具有线性相关关系.2.如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n -2在教材附录1中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平). 3.计算样本相关系数r .4.作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.1.求线性回归方程前可以不进行相关性检验.( × )2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ ) 3.利用线性回归方程求出的值是准确值.( ×)类型一 求线性回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.⎝ ⎛⎭⎪⎪⎫相关公式:b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n (x )2,a ^=y -b ^x 考点 线性回归方程 题点 求线性回归方程 解 (1)如图:(2)∑i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4,∑i =14x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程可知,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.反思与感悟 (1)求线性回归方程的基本步骤①列出散点图,从直观上分析数据间是否存在线性相关关系.②计算:x ,y ,∑i =1nx 2i ,∑i =1nx i y i .③代入公式求出y ^=b ^x +a ^中参数b ^,a ^的值. ④写出线性回归方程并对实际问题作出估计.(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义. 跟踪训练1 某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,试预测他的物理成绩.考点 线性回归方程 题点 求线性回归方程 解 (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25054.∑i =15x 2i =882+762+732+662+632=27174. 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=25054-5×73.2×67.827174-5×73.22≈0.625. a ^=y -b ^x ≈67.8-0.625×73.2=22.05.所以y 对x 的线性回归方程是y ^=0.625x +22.05.(3)当x =96时,y ^=0.625×96+22.05≈82,即可以预测他的物理成绩约是82. 类型二 线性回归分析例2 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x )与入学后第一次考试的数学成绩(y )如下表:请问:这10名学生的两次数学成绩是否具有线性关系? 考点 题点解 x =110(120+108+…+99+108)=107.8, y =110(84+64+…+57+71)=68.∑i =110x 2i =1202+1082+…+992+1082=116584. ∑i =110y 2i =842+642+…+572+712=47384. ∑i =110x i y i =120×84+108×64+…+99×57+108×71=73796.所以相关系数为r =73796-10×107.8×68(116584-10×107.82)(47384-10×682)≈0.751. 由检验水平0.05及n -2=8, 在附录1中查得r 0.05=0.632. 因为0.751>0.632,由此可看出这10名学生的两次数学成绩具有较强的线性相关关系. 反思与感悟 相关关系的两种判定方法 (1)利用散点图判定(2)利用相关系数判定计算r ―→结合r 的值与相关性检验临界值表中的值进行比较判断跟踪训练2 一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转的速度而变化,下表为抽样试验的结果:对变量y 与x 进行线性相关性检验. 考点 题点解 由题中数据可得x =12.5,y =8.25,∑i =14x i y i =438,4x y =412.5,∑i =14x 2i =660,∑i =14y 2i =291, 所以r =∑i =14x i y i -4x y(∑i =14x 2i -4(x )2)(∑i =14y 2i -4(y )2)=438-412.5(660-625)×(291-272.25)=25.5656.25≈0.995. 由检验水平0.05及n -2=2,在教材附录1中查得r 0.05=0.950,因为r >r 0.05,所以y 与x 具有线性相关关系. 类型三 非线性回归分析 例3 下表为收集到的一组数据:(1)作出x 与y 的散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系;(3)利用所得模型,估计当x =40时y 的值. 考点 非线性回归分析 题点 非线性回归分析解 (1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y =c 1e c 2x 的周围,其中c 1,c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a ,a =ln c 1,b =c 2的周围,这样就可以利用线性回归模型来建立y 与x 之间的非线性回归方程,数据可以转化为x =17(21+23+…+32+35)=27.429,z =17(1.946+2.398+…+4.745+5.784)=3.612,∑i =17x i z i =733.741,∑i =17x 2i =5414. 求得线性回归方程为z ^=0.273x -3.876,∴y ^=e0.273x -3.876.(3)当x =40时,y ^=e 0.273x -3.876≈1146.反思与感悟 非线性回归问题的处理方法 (1)指数型函数y =e bx +a①函数y =ebx +a的图象②处理方法:两边取对数,得ln y =lnebx +a,即ln y =bx +a .令z =ln y ,把原始数据(x ,y )转化为(x ,z ),再根据线性回归模型的方法求出a ,b . (2)对数型函数y =b ln x +a ①函数y =b ln x +a 的图象:②处理方法:设x ′=ln x ,原方程可化为y =bx ′+a , 再根据线性回归模型的方法求出a ,b . (3)y =bx 2+a 型处理方法:设x ′=x 2,原方程可化为y =bx ′+a ,再根据线性回归模型的方法求出a ,b . 跟踪训练3已知某种食品每千克的生产成本y (元)与生产该食品的重量x (千克)有关,经生产统计得到以下数据:通过以上数据,判断该食品的生产成本y (元)与生产的重量x (千克)的倒数1x之间是否具有线性相关关系.若有,求出y 关于1x的回归方程,并估计一下生产该食品500千克时每千克的生产成本约是多少.(精确到0.01) 考点 非线性回归分析 题点 非线性回归分析解 设u =1x,通过已知数据得到y 与u 的相应数据为根据上述数据可求得相关系数r =∑i =110u i ·y i -10u ·y(∑i =110u 2i -10·(u )2)(∑i =110y 2i -10·(y )2)≈0.9998,于是有很大的把握认为y 与1x具有线性相关关系.而b ^=∑i =110u i ·y i -10u ·y∑i =110u 2i -10(u )2≈8.973,a ^=y -b ^·u ≈1.126,于是y 与1x 的回归方程为y ^=8.973x+1.126.当x =500时,y ^=8.973500+1.126≈1.14.所以估计生产该食品500千克时每千克的生产成本约是1.14元.1.设有一个线性回归方程y ^=2-1.5x ,当变量x 增加1个单位时,y 平均________个单位. 考点 线性回归分析 题点 线性回归方程的应用 答案 减少1.5解析 由回归方程中两个变量之间的关系可以得到.2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是________.(填序号)考点 回归分析题点 建立回归模型的基本步骤 答案 ①③解析 由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型. 3.某厂节能降耗技术改造后,在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据如表:根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,则上表中的t =________.考点 线性回归分析 题点 线性回归方程的应用 答案 34.下表是x 和y 之间的一组数据,则y 关于x 的回归直线必过点________.考点 线性回归方程 题点 样本点中心的应用答案 (2.5,4)解析 回归直线必过样本点中心(x ,y ),即(2.5,4). 5.已知x ,y 之间的一组数据如下表:(1)分别计算:x ,y ,x 1y 1+x 2y 2+x 3y 3+x 4y 4,x 21+x 22+x 23+x 24; (2)已知变量x 与y 线性相关,求出回归方程. 考点 线性回归方程 题点 求线性回归方程解 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+x 2y 2+x 3y 3+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+x 23+x 24=02+12+22+32=14.(2)b ^=34-4×1.5×414-4×1.52=2,a ^=y -b ^x =4-2×1.5=1,故y ^=2x +1.回归分析的步骤(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量.(2)画出确定好的因变量关于自变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y ^=b ^x +a ^). (4)按一定规则估计回归方程中的参数.一、填空题1.根据如下样本数据:得到的回归方程为y ^=b ^x +a ^,则a ^,b ^与0的大小关系是________. 考点 线性回归分析 题点 线性回归方程的应用答案 a ^>0,b ^<0 解析 作出散点图如下:观察图象可知,回归直线y ^=b ^x +a ^的斜率b ^<0,当x =0时,y ^=a ^>0.故a ^>0,b ^<0.2.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:若x ,y 线性相关,线性回归方程为y ^=0.7x +a ^,估计该制药厂6月份生产甲胶囊产量约为________万盒. 考点 线性回归方程 题点 样本点中心的应用 答案 8.1解析 回归直线一定过样本点中心.由已知数据,可得x =3,y =6,代入回归方程,可得a ^=y -0.7x =3.9,即回归方程为y ^=0.7x +3.9.把x =6代入,可得y ^=8.1,所以6月份的产量约为8.1万盒.3.某化工厂为预测某产品的回收率y ,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1849,则y 与x 的线性回归方程是________________. 考点 线性回归方程题点 求线性回归方程答案 y ^=2.62x +11.47解析 由题中数据得x =6.5,y =28.5,∴b ^=∑i =18x i y i -8x·y∑i =18x 2i -8(x )2=1849-8×6.5×28.5478-8×6.52=367140≈2.62, a ^=y -b ^x ≈28.5-2.62×6.5=11.47,∴y 与x 的线性回归方程是y ^=2.62x +11.47. 4.已知x ,y 的取值如下表:从所得的散点图分析,y 与x 线性相关,且y ^=0.95x +a ^,则a ^=________. 考点 题点 答案 2.6解析 ∵x =2,y =4.5.又回归直线恒过定点(x ,y ),代入得a ^=2.6.5.从某大学随机选取8名女大学生,其身高x (cm)和体重y (kg)的线性回归方程为y ^=0.849x -85.712,则身高172cm 的女大学生,由线性回归方程可以估计其体重为________kg. 考点 题点 答案 60.316解析 y ^=0.849×172-85.712=60.316. 6.有下列关系:①曲线上的点与该点的坐标之间的关系; ②苹果的产量与气候之间的关系;③森林中的同一种树木,其断面直径与高度之间的关系; ④学生与其学号之间的关系.其中有相关关系的是________.(填序号) 考点 题点 答案 ②③解析 由相关关系定义分析.7.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得线性回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型估计广告费用为6万元时的销售额为____________万元. 考点 题点 答案 65.5解析 样本点中心是(3.5,42),则a ^=y -b ^x =42-9.4×3.5=9.1,所以线性回归方程是y ^=9.4x +9.1,把x =6代入,得y ^=65.5.8.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________. 考点 线性相关系数题点 线性相关系数的概念及计算 答案 1解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上且直线斜率大于零时,相关系数为1.9.对于回归分析,有下列叙述:①在回归分析中,变量间的关系若是非确定性关系,则因变量不能由自变量唯一确定; ②线性相关系数可以是正的或是负的;③回归分析中,如果r 2=1或r =±1,说明x 与y 之间完全线性相关; ④样本相关系数r ∈(-∞,+∞). 其说法正确的序号是________.考点 题点 答案 ①②③解析 由回归模型及其性质易知①②③是正确的.相关系数的取值范围应为|r |≤1,所以④是错误的.10.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =ebx +a的周围.令z =ln y ,求得线性回归方程为z ^=0.25x -2.58,则该模型的回归方程为________. 考点 非线性回归分析 题点 非线性回归分析 答案 y =e0.25x -2.58解析 因为z ^=0.25x -2.58,z =ln y ,所以y ^=e0.25x -2.58.11.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据(个数)的对比结果如下:则从表中数据分析,________回归方程更好.(即与实际数据更贴近) 考点 两个模型拟合效果的比较 题点 两个模型拟合效果的比较 答案 甲解析 可以根据表中数据分析,两个回归方程对数据预测的正确率进行判断,甲回归方程的数据准确率为3240=45,而乙回归方程的数据准确率为4060=23.显然甲的准确率高些,因此甲回归方程好些. 二、解答题12.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2,a ^=y -b ^x ) 考点 线性回归方程 题点 求线性回归方程 解 (1)散点图如图.(2)由表中数据得∑i =14x i y i =52.5,x =3.5,y =3.5,∑i =14x 2i =54,所以b ^=∑i =14x i y i -4x y∑i =14x 2i -4(x )2=0.7,所以a ^=y -b ^x =1.05.所以y ^=0.7x +1.05. 回归直线如第(1)问图所示.(3)将x =10代入线性回归方程,得y ^=0.7×10+1.05=8.05,所以预测加工10个零件需要8.05小时.13.为了研究某种细菌随时间x 的变化繁殖个数y 的变化情况,收集数据如下:(1)(2)求y 与x 之间的回归方程. 考点 非线性回归分析 题点 非线性回归分析 解 (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数曲线y =c 1e c 2x 的周围,于是令z =ln y ,则所以z ^=0.69x +1.115,则有y ^=e 0.69x +1.115.三、探究与拓展14.已知x ,y 的取值如下表:从散点图分析y 与x 具有线性相关关系,且回归方程为y ^=1.02x +a ^,则a ^=________. 考点 题点 答案 0.92解析 由题意得x =4,y =5,又(x ,y )在直线y ^=1.02x +a ^上,所以a ^=5-4×1.02=0.92.15.在一段时间内,分5次测得某种商品的价格x (万元)和需求量y (t)之间的一组数据为已知∑i =15x i y i =62,∑i =15x 2i =16.6.(1)画出散点图;(2)求出y 对x 的线性回归方程;(3)如果价格定为1.9万元,预测需求量大约是多少?(精确到0.01t) 考点 题点解 (1)散点图如图所示:(2)因为x =15×9=1.8,y =15×37=7.4,∑i =15x i y i =62,∑i =15x 2i =16.6, 所以b ^=∑i =15x i y i -5x y∑i =15x 2i -5(x )2=62-5×1.8×7.416.6-5×1.82=-11.5,a ^=y -b ^x =7.4+11.5×1.8=28.1,故y 对x 的线性回归方程为y ^=-11.5x +28.1.(3)y ^=28.1-11.5×1.9=6.25(t).故价格定为1.9万元,预测需求量大约为6.25 t.。
高中数学选修1-2教案:1.1回归分析的基本思想及其初步应用(共4课时)
第一章统计案例1。
1回归分析的基本思想及其初步应用(一)教学目标:(1).知识与技能:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用(2)。
过程与方法:了解回归分析的基本思想、方法及初步应用(3).情感,态度与价值观:充分利用图形的直观性,简捷巧妙的解题教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析。
教学难点:解释残差变量的含义,了解偏差平方和分解的思想.教学方法:讲解法,引导法教学过程:一、复习准备:1。
提问:“名师出高徒"这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2。
复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报。
二、讲授新课:1。
教学例题:①例1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编12345678号身高/cm165 165 157 170 175 165 155 170 体重/kg48 57 50 54 64 61 43 59 求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm 的女大学生的体重. (分析思路→教师演示→学生整理)第一步:作散点图 第二步:求回归方程 第三步:代值计算② 提问:身高为172cm 的女大学生的体重一定是60.316kg 吗? 不一定,但一般可以认为她的体重在60。
316kg 左右.③ 解释线性回归模型与一次函数的不同 事实上,观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y bx a =+来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系)。
在数据表中身高为165cm 的3名女大学生的体重分别为48kg 、57kg 和61kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165cm 的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e (即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型y bx a e =++,其中残差变量e 中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等010203040506070150155160165170175180身高/cm体重/k g于0时,线性回归模型就变成一次函数模型。
苏教版选修(1-2)1.2《回归分析》word学案
1.2回归分析BCA案主备人:史玉亮审核人:吴秉政使用时间:2012.2.6 学习目标:1.通过对典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。
2.结合具体的实际问题,了解非线性回归问题的解决思路。
3.通过回归分析的学习,提高对现代计算技术与统计方法的应用意识。
B案一、基础整合1.召与回归系数b?的计算方法b?= _______________________ ,a?= ________________________ 。
2.样本相关系数(1)对于变量x与y随机抽取到的n对数据(x1,y1),(x2,y2),……,(x n,y n),检验统计量是样本相关系数r= ______________________________________________(2)_____________________________________________________________ r具有以下性质:r w 1,并且r越接近1,线性相关程度___________________________________ ;r越接近0,线性相关程度_______________________ 。
(3)检验的步骤如下:①作统计假设:x与y不具有_____________________ 关系。
②根据 __________ 与______________ 在附表中查出r的一个临界值r0.05。
③根据 ____________________ 计算公式算出r的值。
④作统计推断。
如果r| > “a,表明有____________ 的把握认为x与y之间具有线性相关关系;如果|r w r o.05,我们没有理由拒绝__________ 。
这时寻找回归直线方程是毫无意义的。
二、预习检测1.下列两变量具有相关关系的是( )A.正方体的体积与棱长B.匀速行驶的车辆的行驶距离与时间C.人的身高与体重D.人的身高与视力2.下列两变量是线性相关的是( )A.如果变量X与Y之间存在着线性相关关系,则我们根据试验数据得到的点(X i, yj(i =1,2,3,...,n)将散布在某一条直线附近B.如果两个变量X与Y之间不存在线性关系,那么根据试验数据不能写出一个线性方程C.设x、y是具有线性相关关系的两个变量,且回归直线方程是(•召,则b?叫回归系数D.为使求出的回归直线方程有意义,可用统计假设检验的方法判断变量X与Y之间是否存在线性相关关系4.在一次试验中,测得(x, y)的四组值分别是A(1,2), B(2,3),C(3,4), D(4,5),则y 与x之间的回归直线方程为()A. y?=x1B. ?=x 2C. ? = 2x1D. y? = x-1C案合作探究1.回归直线方程的适用范围是什么?2.建立回归直线方程的一般步骤是什么?3.由回归直线方程得到的变量的值是真实值吗?例某工厂月份某种产品的产量与成本的统计数据见下表。
回归分析--江苏教育版
20
●
15
●●
●
●
10
●
●
5
●
0246
8 10
25
20
●
15
●●
●
●
10
●
●
5
●
02
y a bx
46
8 10
n
( xi x)( yi y )
b i 1 n
(xi x)2
i 1
a y b x
回归系数可 化简为:
n
xi yi n x y
b
i 1 n
x
2 i
n(x)2
பைடு நூலகம்
嘛,专业水准一般般啦!等会咱们也弄几个玩玩!”蘑菇王子:“抓紧弄哦!别误了大事!”知知爵士:“嗯嗯,小菜一碟啦!只要换几个咒语单词马上高定……”这时,
女总裁腾霓玛娅婆婆超然破旧的钢灰色路灯造型的美辫有些收缩转化起来……水绿色白菜似的脖子露出深黄色的点点余气……极似气桶造型的肩膀露出暗灰色的飘飘余冷! 接着摇动结实的鼻子一
相关系数r:
n
xi yi nx y
r
i 1
n
n
( xi2 n(x)2 )( yi2 n( y)2 )
i 1
i 1
相关系数r的性质:
(1) r 1 ;
(2) r 越接近于1,x,y的线性相关
程度越强;
(3) r 越接近于0,x,y的线性相关
程度越弱;
例1:随机抽取8对母女的身高数据,试根 据这些数据探讨y与x之间的关系。
摇,立刻化作跳动的云丝,不一会儿这些云丝就飘忽着飘向罕见异绳的上空,很快在四金砂地之上变成了轮廓分明的凸凹飘动的摇钱树……这时,蜂蜜状的物体,也快速变
高中数学 第1章 统计案例 1.2 回归分析学案 苏教版选修12
1.2 回归分析1.会作出两个有关联变量的散点图,并利用散点图认识变量间的相关关系.2.了解线性回归模型,能根据给出的线性回归方程系数公式建立线性回归方程重点、难点3.了解回归分析的基本思想、方法及简单应用.[基础·初探]教材整理1 线性回归模型 阅读教材P 13~P 14,完成下列问题1.线性回归模型的概念:将y =a +bx +ε称为线性回归模型,其中a +bx 是确定性函数,ε称为随机误差.2.线性回归方程:直线y ^=a ^+b ^x 称为线性回归方程,其中a ^称为回归截距,b ^称为回归系数,y ^称为回归值,其中⎩⎪⎨⎪⎧b ^=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x-2,a ^=y --b ^x -.其中x -=1n ∑n i =1x i ,y -=1n ∑ni =1y i.设某大学生的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中正确的是________(填序号).【导学号:97220003】(1)y 与x 具有正的线性相关关系 (2)回归直线过样本点的中心(x ,y )(3)若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg(4)若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg【解析】 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,(1)正确;由回归方程系数的意义可知回归直线过样本点的中心(x ,y ),(2)正确;∵回归方程y ^=0.85x -85.71,∴该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ,(3)正确;用回归方程对总体进行估计不能得到肯定结论,故(4)不正确.【答案】 (1)(2)(3) 教材整理2 相关关系阅读教材P 16~P 17“例2”以上部分完成下列问题 1.相关系数是精确刻画线性相关关系的量.2.相关系数r =∑ni =1x i -x-y i -y-∑ni =1x i -x-2∑ni =1y i -y-2=∑ni =1x i y i -n x - y-⎝⎛⎭⎪⎫∑ni =1x 2i -n x -2⎝⎛⎭⎪⎫∑ni =1y 2i -n y -2.3.相关系数r 具有的性质: (1)|r |≤1;(2)|r |越接近于1,x ,y 的线性相关程度越强; (3)|r |越接近于0,x ,y 的线性相关程度越弱. 4.相关性检验的步骤:(1)提出统计假设H 0:变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据1-0.95=0.05与n -2在附录1中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平).(3)计算样本相关系数r ;(4)作统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.判断正误:(1)求回归直线方程前必须进行相关性检验.( ) (2)两个变量的相关系数越大,它们的相关程度越强.( ) (3)若相关系数r =0,则两变量x ,y 之间没有关系.( )【答案】 (1)√ (2)× (3)√[质疑·手记]预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:疑问1: 解惑: 疑问2: 解惑: 疑问3: 解惑:[小组合作型](1)①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示; ③通过回归方程y ^=b ^x +a ^,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题是__________(填序号).(2)如果某地的财政收入x 与支出y 满足线性回归方程y ^=b ^x +a ^+e (单位:亿元),其中b ^=0.8,a ^=2,|e |≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿.【自主解答】 (1)①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y ^=b ^x +a ^的作用,故也正确.④在求回归方程之前必须进行相关性检验,以体现两变量的关系,故不正确.(2)由题意可得:y ^=0.8x +2+e ,当x =10时,y ^=0.8×10+2+e =10+e ,又|e |≤0.5,∴9.5≤y ^≤10.5.故今年支出预计不会超过10.5亿. 【答案】 (1)①②③ (2)10.51.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.2.由线性回归方程给出的是一个预报值而非精确值.3.随机误差的主要来源(1)线性回归模型与真实情况引起的误差;(2)省略了一些因素的影响产生的误差;(3)观测与计算产生的误差.4.残差分析是回归分析的一种方法.[再练一题]1.下列有关线性回归的说法,不正确的是________(填序号).①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;③线性回归方程最能代表观测值x,y之间的关系;④任何一组观测值都能得到具有代表意义的回归直线方程.【解析】只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程.【答案】④某班5(2)求物理成绩y对数学成绩x的回归直线方程;(3)一名学生的数学成绩是96,试预测他的物理成绩.【精彩点拨】先画散点图,分析物理与数学成绩是否有线性相关关系,若相关,再利用线性回归模型求解.【自主解答】(1)散点图如图所示.(2)由散点图可知y 与x 之间具有线性相关关系. 因为x -=15×(88+76+73+66+63)=73.2,y -=15×(78+65+71+64+61)=67.8, ∑5i =1x i y i =88×78+76×65+73×71+66×64+63×61=25 054,∑5i =1x 2i =882+762+732+662+632=27 174.所以b ^=∑5i =1x i y i -5 x - y-∑5i =1x 2i -x-2=25 054-5×73.2×67.827 174-5×73.22≈0.625, a ^=y --b ^x -≈67.8-0.625×73.2=22.05.所以y 对x 的回归直线方程是y ^=0.625x +22.05.(3)当x =96时,y ^=0.625×96+22.05≈82,即可以预测他的物理成绩是82.1.求线性回归方程的基本步骤:2.需特别注意的是,只有在散点图大致呈直线时,求出的线性回归方程才有实际意义,否则求出的回归方程毫无意义.[再练一题]2.某商场经营一批进价是30元/台的小商品,在市场调查中发现,此商品的销售单价x (x 取整数)元与日销售量y 台之间有如下关系:(1)y 与x .(方程的回归系数保留一位有效数字)(2)设经营此商品的日销售利润为P 元,根据(1)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.【解】 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.设回归直线为y ^=b ^x +a ^,由题知x -=42.5,y -=34, 则求得b ^=∑4i =1x i y i -4x - y-∑4i =1x 2i -x-2=-370125≈-3.a ^=y --b ^x -=34-(-3)×42.5=161.5. ∴y ^=-3x +161.5.(2)依题意有P =(-3x +161.5)(x -30)=-3x 2+251.5x -4 845=-3⎝ ⎛⎭⎪⎫x -251.562+251.5212-4845.∴当x =251.56≈42时,P 有最大值,约为426.即预测销售单价为42元时,能获得最大日销售利润.[探究共研型]探究1 【提示】 直观分析数据是否存在线性相关关系.探究2 下表显示出变量y 随变量x 变化的一组数据,由此判断表示y 与x 之间的关系最可能的是________.(填序号)【解析】 画出散点图(图略),可以得到这些样本点在一条直线附近,故最可能是线性函数模型.【答案】 ①10名同学在高一和高二的数学成绩如下表:(1)y 与x 是否具有相关关系?(2)如果y 与x 具有线性相关关系,求回归直线方程.【精彩点拨】 可先计算线性相关系数r 的值,然后与r 0.05比较,进而对x 与y 的相关性做出判断.【自主解答】 (1)由已知表格中的数据,求得x =71,y =72.3,r =∑i =110x i -xy i -y∑i =110x i -x2∑i =110 y i -y2≈0.78.由检验水平0.05及n -2=8,在课本附录1中查得r 0.05=0.632,因为0.78>0.632, 所以y 与x 之间具有很强的线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为y ^=a ^+b ^x ,则有b ^=∑i =110x i -xy i -y∑i =110x i -x2≈1.22,a ^=y --b ^x -=72.3-1.22×71=-14.32.所以y 关于x 的回归直线方程为y ^=1.22x -14.32.1.线性回归分析必须进行相关性检验;若忽略,则所求回归方程没有实际意义.2.|r |越接近于1,两变量相关性越强,|r |越接近于0,两变量相关性越弱.[再练一题]3.关于两个变量x 和y 的7组数据如下表所示:【解】 x -=17×(21+23+25+27+29+32+35)≈27.4,y -=17×(7+11+21+24+66+115+325)≈81.3, ∑7i =1x 2i =212+232+252+272+292+322+352=5 414,∑7i =1x i y i =21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542,∑7i =1y 2i =72+112+212+242+662+1152+3252=124 393,∴r =∑7i =1x i y i -7 x - y-∑7i =1x 2i -x-2∑7i =1y 2i -y-2=18 542-7×27.4×81.3-7×27.42-7×81.32≈0.837 5. ∵0.837 5>0.755,∴x 与y 之间具有线性相关关系.[构建·体系]1.在下列各量之间,存在相关关系的是:①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系.【答案】 ②③④ 2.根据如下样本数据得到的回归方程为y =bx +a ,则下列说法正确的是__________.(填序号) ①a >0,b >0 ②a >0,b <0 ③a <0,b >0④a <0,b <0【解析】 由表中数据画出散点图,如图,由散点图可知b <0,a >0,故②正确. 【答案】 ②3.设有一个回归方程为y ^=2-2.5x ,则变量x 每增加一个单位时,y =__________.【导学号:97220004】【解析】 由回归系数的意义可知当变量x 增加一个单位时,y ^的平均改变量为b ^,由题目回归方程y ^=2-2.5x ,可得当变量x 增加一个单位时,y ^平均减少2.5个单位. 【答案】 平均减少2.5个单位4.对具有线性相关关系的变量x 和y ,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.【解析】 由题意知x =2,y =3,b ^=6.5,所以a ^=y -b ^x =3-6.5×2=-10,即回归直线的方程为y ^=-10+6.5x .【答案】 y ^=-10+6.5x5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【解】 (1)x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,∵b ^=-20,a ^=y -b ^x , ∴a ^=80+20×8.5=250, ∴回归直线方程为y ^=-20x +250.(2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20⎝ ⎛⎭⎪⎫x -3342+361.25,∴该产品的单价应定为334元时,工厂获得的利润最大.我还有这些不足:(1) (2) 我的课下提升方案:(1) (2)。
高中数学 第1章 统计案例 1.2 回归分析课堂导学案 苏
1.2 回归分析课堂导学 三点剖析 各个击破一、求线性回归方程水深x (m) 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 流速y (m/s) 1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21(1)求对的回归直线方程;(2)预测水深为1.95 m 时水的流速是多少? 解:(1)散点图如下图所示.列表计算aˆ与回归系数b ˆ. 序号 x iy ix i 2y i 2x i y i1 1.40 1.70 1.96 2.890 2.3802 1.50 1.79 2.25 3.2041 2.6853 1.60 1.88 2.56 3.5344 3.008 4 1.70 1.95 2.89 3.8025 3.315 5 1.80 2.03 3.24 4.1209 3.6546 1.90 2.10 3.61 4.4100 3.9907 2.00 2.16 4.00 4.6656 4.3208 2.10 2.21 4.41 4.8841 4.641 ∑14.0015.8224.9231.511627.993于是75.1148x =⨯=,9775.182.158y =⨯=, ∑x i 2=24.92,∑y i 2=31.511 6,∑x i y i =27.993,∴275.1892.249775.175.18993.27ˆ⨯-⨯⨯-=b≈0.733, x ˆ-y ˆb a==1.977 5-0.733×1.75=0.694 8, ∴y 对x 的回归直线方程为x ˆˆˆb a y+==0.694 8+0.733x . (2)在本题中回归系数bˆ=0.733的意思是:在此灌溉渠道中,水深每增加0.1 m 水的流速平均增加0.733 m/s, a ˆ=0.694 8,可以解释为水的流速中不受水深影响的部分,把x =1.95代入得到yˆ=0.694 8+0.733×1.95≈2.12 m/s,计算结果表明:当水深为1.95 m可以预报渠水的流速约为2.12 m/s.类题演练 1年龄x23 27 39 41 45 49 50脂肪y9.5 17.6 21.2 25.9 27.5 26.3 28.2年龄x53 54 56 57 58 60 61脂肪y29.6 30.2 31.4 30.8 33.5 35.2 34.6(1)作散点图;(2)求y与x之间的回归线方程;(3)给出37岁人的脂肪含量的预测值.解:(1)略(2)设方程为yˆ=b x+a,则由计算器算得a=-0.448,b=0.577,所以yˆ=0.577x-0.448.(3)当x=37时,yˆ=0.577×37-0.448=20.90.变式提升编号 1 2 3 4 5 6 7 8身高/cm 165 165 157 170 175 165 155 170体重/kg 48 57 50 54 64 61 43 59172 c m的女大学生的体重.解:作散点图,由于问题是根据身高预报体重,因此要求身高与体重的回归直线方程,取身高为自变量x,体重为因变量y,作散点图如右图所示.∑∑====niiniiynyxnx111,1∑∑==---=niiniiixxyyxxb121)())((ˆ≈0.849,x b yaˆˆ==-85.712.∴回归直线方程为yˆ=0.849x-85.712.所以对于身高172cm女大学生,由回归方程可以预报体重为yˆ=0.849×172-85.712=60.316(kg).∴预测身高为172cm的女大学生的体重约为60.316kg.二、非线性回归问题【例2】某地区不同身高的未成年男性的体重平均值如下表:身高x/cm 60 70 80 90 100 110体重y/kg 6.13 7.90 9.99 12.15 15.02 17.5身高x/cm 120 130 140 150 160 170体重y/kg 20.92 26.86 31.11 38.85 47.25 55.05(1)试建立y与x之间的回归方程;(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高为175 c m体重为82 kg的在校男生体重是否正常?解:根据上表中数据画出散点图如下图(1)由图看出,样本点分布在某条指数函数曲线y=c1e c2x的周围,于是令z=ln y.x 60 70 80 90 100 110z 1.81 2.07 2.30 2.50 2.71 2.86x 120 130 140 150 160 170z 3.04 3.29 3.44 3.66 3.86 4.01作出散点图如下图所示由表中数据可得z与x之间的回归直线方程:zˆ=0.693+0.020x,则有yˆ=e0.693+0.020x.(2)当x=175时,预测平均体重yˆ=e0.693+0.020×175≈66.22,由于66.22×1.2≈79.47<82,所以这个男生偏胖.类题演练2电容器充电后,电压达到100 V,然后开始放电.由经验知道,此后电压U随时间t变化的规律用公u=Ae b t(b <0)表示.现测得时间t(s)时的电压U (V )如下所示:t: 0 1 2 3 4 5 6 7 8 9 10 U:100 75 55 40 30 20 15 10 10 5 5 试求电压U 对时间t 的回归方程.(提示:对公两边取自然对数,把问题化为线性回归分析问题). 解析:根据提示公式,两边取对数得 lnu=ln A +b t令y =lnu,a=ln A ,则y =a+b t .由前两组数据得a=ln100,b=ln 43. ∴y =ln100+ln43·t . 根据上述公式样本点可转换为t 0 1 2 3 4 5 6 7 8 9 10 y 4.6 4.3 4.0 3.9 3.4 2.9 2.7 2.3 2.3 1.6 1.6其散点图为由散点图可知y 与t 线性相关,可用a tb yˆˆˆ+=表示, 利用科学计算器,可得b ˆ=-0.3,a ˆ=4.6, ∴yˆ=-0.3t +4.6, 即ln uˆ=-0.3t +4.6, ∴uˆ=100e -0.3t . 三、回归分析【例3】某农场对单位面积化肥用量x (kg)和水稻相应产量y (kg )的关系作了统计,得到数据如下:x :15 20 25 30 35 40 45 y :330 345 365 405 445 450 455如果x 与y 之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为32 kg 时水稻的产量大约是多少(精确到0.01 kg ).解:用列表的方法计算a 与回归系数b . 序号 x y x 2 xy1 15 330 225 49502 20 345 400 6900 32536562591254 30 405 900 12150 5 35 445 1225 155756 40 450 1600 180007 45 455 2025 20475 ∑2102795700087175302107x =⨯=, 279571y ⨯=≈399.3,23077000399.3307-87175bˆ⨯-⨯⨯=≈4.746, a ˆ=399.3-4.746×30=256.92, y 对x 的回归直线方程为:x b ˆa ˆyˆ+==256.92+4.746x ,当x =32时,y ˆ=256.92+4.746×32≈408.79 答:回归直线方程为yˆ=256.92+4.747x ,当单位面积化肥用量为32 kg 时,水稻的产量大约为408.79 kg. 类题演练 3为了了解某地母亲身高X 与女儿身高Y 的相关关系,现随机抽取了10对母女测得相应母亲身高x cm 159 160 160 163 159 女儿身高y cm 158 159 160 161 161 母亲身高x cm 154 159 158 159 157 女儿身高y cm155162157162156(2)对X 与Y 进行回归分析;(3)预测母亲身高为170 c m 时女儿的身高为多少? 解:(1)做出散点图如下图(2)作回归分析:从画出的散点图中我们可以看出,X 与Y 具有线性关系,设回归方程为y ˆ=b x +a ,可求得b=0.78,a=35.2,因此回归直线方程为yˆ=0.78x +35.2. (3)预测x =170时,y =0.78×170+35.2≈168 cm.。
2019最新高中数学 第1章 统计案例 1.2 回归分析(二)学案 苏教版选修1-2
§1.2 回归分析(二)课时目标 1.会对变量x 与y 进行相关性检验.2.进一步理解回归分析的基本思想.1.根据给定的样本数据,求得的线性回归方程未必有实际意义. 2.对相关系数r 进行显著性检验的基本步骤如下: (1)提出统计假设H 0:变量x ,y ________________;(2)如果以95%的把握作出推断,可以根据1-0.95=0.05与n -2在附录1中查出一个r 的__________(其中1-0.95=0.05称为____________);(3)计算__________________;(4)作出统计推断:若__________,则否定H 0,表明有________的把握认为x 与y 之间具有__________________;若________,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为x 与y 之间有__________________.一、填空题1.下列说法正确的是________.(填序号) ①y =2x 2+1中的x 、y 是具有相关关系的两个变量 ②正四面体的体积与其棱长具有相关关系③电脑的销售量与电脑的价格之间是一种确定性的关系④传染病医院感染甲型H1N1流感的医务人员数与医院收治的甲型流感人数是具有相关关系的两个变量2.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,线性回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均工资收入的百分比约为________.3.对具有线性相关关系的变量x 、y 有观测数据(x i ,y i ) (i =1,2,…,10),它们之间的线性回归方程是y ^=3x +20,若∑10i =1x i =18,则∑10i =1y i =________. 4.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得线性回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元是销售额为________万元.5.若回归直线的斜率的估计值是 1.23,样本的中心点为(4,5),则线性回归方程为________________.6.某种产品的广告费支出x 与销售额y 之间有下表关系,现在知道其中一个数据弄错了,则最可能错的数据是__________________________________.7.(单位:亿吨标准煤)的几个统计数据:的回归模型是下列的四种模型中的哪一种________.(填序号)①y ^=a ^x +b ^(a ≠0); ②y =ax 2+bx +c (a ≠0); ③y =a x (a >0且a ≠1); ④y =log a x (a >0且a ≠1).8.下列说法中正确的是________(填序号).①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法.二、解答题9.假设学生在初一和初二数学成绩是线性相关的.若10个学生初一(x )和初二(y )的数学分数如下:10.在某化学实验中,测得如下表所示的6对数据,其中x (单位:min)表示化学反应进行的时间,y (单位:mg)表示未转化物质的质量.(1)设y 与0.001); (2)估计化学反应进行到10 min 时未转化物质的质量(精确到0.1).能力提升11.假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下表的统计资料:若由资料知y (1)试求线性回归方程y ^=b ^x +a ^的回归系数b ^与常数项a ^; (2)估计使用年限为10年时,维修费用是多少?12.测得10对某国父子身高(单位:英寸)如下:(2)如果y 与x 之间具有线性相关关系,求线性回归方程; (3)如果父亲的身高为73英寸,估计儿子的身高.1.线性回归方程可得到变量y ^的估计值.2.通过显著性检验可以推断x 、y 之间是否具有线性相关关系.§1.2 回归分析(二)答案知识梳理2.(1)不具有线性相关关系 (2)临界值r 0.05检验水平 (3)样本相关系数r (4)|r |>r 0.05 95% 线性相关关系 |r |≤r 0.05 线性相关关系作业设计 1.④解析 感染的医务人员数不仅受医院收治的病人数的影响,还受防护措施等其他因素的影响.2.83%解析 当y ^=7.675时,x ≈9.262,∴估计该城市人均消费额占人均收入百分比约7.675÷9.262≈83%. 3.254解析 由∑10i =1x i =18,得x =1.8. 因为点(x ,y )在直线y ^=3x +20上,则y =25.4.所以∑10i =1y i =25.4×10=254. 4.65.5万元解析 由题意可知x =3.5,y =42,则42=9.4×3.5+a ^,a ^=9.1,y ^=9.4×6+9.1 =65.5.5.y ^=1.23x +0.08解析 回归直线y ^=a ^+b ^x 经过样本的中心点(4,5),又b ^=1.23,所以a ^=y -b ^x =5-1.23×4=0.08,所以线性回归方程为y ^=1.23x +0.08. 6.(6,50) 7.① 8.④⑤解析 回归分析就是研究两个事件的相关性;回归模型是需要通过散点图模拟的;回归模型有线性和非线性之分.9.解 因为x =71,∑i =110x 2i =50 520,y =72.3,∑i =110x i y i =51 467,所以,b ^=51 467-10×71×72.350 520-10×712≈1.218 2. a ^=72.3-1.218 2×71=-14.192 2,线性回归方程是:y ^=1.218 2x -14.192 2. 10.解 (1)在y =cd x两边取自然对数, 令ln y =z ,ln c =a ,ln d =b ,则z =a +bx .由已知数据,得由公式得a ≈3.905 5,b ≈-0.221 9,则线性回归方程为z =3.905 5-0.221 9x .而lnc =3.905 5,lnd =-0.221 9,故c ≈49.681,d ≈0.801,所以c 、d 的估计值分别为49.681,0.801.(2)当x =10时,由(1)所得公式可得y ≈5.4(mg). 11.解 (1)由已知条件制成下表:于是 b ^=112.390-5×42=10=1.23, a ^=y -b ^x =5-1.23×4=0.08.(2)由(1)知线性回归方程是y ^=1.23x +0.08, 当x =10时,y =1.23×10+0.08=12.38(万元). 即估计使用10年时维修费用是12.38万元. 12.解 (1)x =66.8,y =67.01,∑10 i =1x 2i =44 794,∑10 i =1y 2i =44 941.93,x y =4 476.27,x 2=4 462.24,y 2=4 490.34,∑10i =1x i y i =44 842.4.所以r =∑10i =1x i y i -10x y⎝⎛⎭⎫∑10 i =1x 2i -10x 2⎝⎛⎭⎫∑10 i =1y 2i -10y 2=44 842.4-10×4 476.27--=79.76 611.748≈79.781.31≈0.9 801.又查表得r 0.05=0.632.因为r >r 0.05,所以y 与x 之间具有线性相关关系.(2)设回归方程为y ^=b ^x +a ^.由b ^=∑10 i =1x i y i -10x y ∑10 i =1x 2i -10x2=44 842.4-44 762.744 794-44 622.4=79.7171.6≈0.4645, a ^=y -b ^x =67.01-0.464 5×66.8≈35.98.故所求的线性回归方程为y ^=0.464 5x +35.98.(3)当x =73时,y ^=0.464 5×73+35.98≈69.9,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.。
2019最新高中数学 第1章 统计案例 1.2 回归分析(二)学案 苏教版选修1-2
§1.2 回归分析(二)课时目标 1.会对变量x 与y 进行相关性检验.2.进一步理解回归分析的基本思想.1.根据给定的样本数据,求得的线性回归方程未必有实际意义. 2.对相关系数r 进行显著性检验的基本步骤如下: (1)提出统计假设H 0:变量x ,y ________________;(2)如果以95%的把握作出推断,可以根据1-0.95=0.05与n -2在附录1中查出一个r 的__________(其中1-0.95=0.05称为____________);(3)计算__________________;(4)作出统计推断:若__________,则否定H 0,表明有________的把握认为x 与y 之间具有__________________;若________,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为x 与y 之间有__________________.一、填空题1.下列说法正确的是________.(填序号) ①y =2x 2+1中的x 、y 是具有相关关系的两个变量 ②正四面体的体积与其棱长具有相关关系③电脑的销售量与电脑的价格之间是一种确定性的关系④传染病医院感染甲型H1N1流感的医务人员数与医院收治的甲型流感人数是具有相关关系的两个变量2.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,线性回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均工资收入的百分比约为________.3.对具有线性相关关系的变量x 、y 有观测数据(x i ,y i ) (i =1,2,…,10),它们之间的线性回归方程是y ^=3x +20,若∑10i =1x i =18,则∑10i =1y i =________. 4.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得线性回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元是销售额为________万元.5.若回归直线的斜率的估计值是 1.23,样本的中心点为(4,5),则线性回归方程为________________.6.某种产品的广告费支出x 与销售额y 之间有下表关系,现在知道其中一个数据弄错了,则最可能错的数据是__________________________________.7.(单位:亿吨标准煤)的几个统计数据:的回归模型是下列的四种模型中的哪一种________.(填序号)①y ^=a ^x +b ^(a ≠0); ②y =ax 2+bx +c (a ≠0); ③y =a x (a >0且a ≠1); ④y =log a x (a >0且a ≠1).8.下列说法中正确的是________(填序号).①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法.二、解答题9.假设学生在初一和初二数学成绩是线性相关的.若10个学生初一(x )和初二(y )的数学分数如下:10.在某化学实验中,测得如下表所示的6对数据,其中x (单位:min)表示化学反应进行的时间,y (单位:mg)表示未转化物质的质量.(1)设y 与0.001); (2)估计化学反应进行到10 min 时未转化物质的质量(精确到0.1).能力提升11.假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下表的统计资料:若由资料知y (1)试求线性回归方程y ^=b ^x +a ^的回归系数b ^与常数项a ^; (2)估计使用年限为10年时,维修费用是多少?12.测得10对某国父子身高(单位:英寸)如下:(2)如果y 与x 之间具有线性相关关系,求线性回归方程; (3)如果父亲的身高为73英寸,估计儿子的身高.1.线性回归方程可得到变量y ^的估计值.2.通过显著性检验可以推断x 、y 之间是否具有线性相关关系.§1.2 回归分析(二)答案知识梳理2.(1)不具有线性相关关系 (2)临界值r 0.05检验水平 (3)样本相关系数r (4)|r |>r 0.05 95% 线性相关关系 |r |≤r 0.05 线性相关关系作业设计 1.④解析 感染的医务人员数不仅受医院收治的病人数的影响,还受防护措施等其他因素的影响.2.83%解析 当y ^=7.675时,x ≈9.262,∴估计该城市人均消费额占人均收入百分比约7.675÷9.262≈83%. 3.254解析 由∑10i =1x i =18,得x =1.8. 因为点(x ,y )在直线y ^=3x +20上,则y =25.4.所以∑10i =1y i =25.4×10=254. 4.65.5万元解析 由题意可知x =3.5,y =42,则42=9.4×3.5+a ^,a ^=9.1,y ^=9.4×6+9.1 =65.5.5.y ^=1.23x +0.08解析 回归直线y ^=a ^+b ^x 经过样本的中心点(4,5),又b ^=1.23,所以a ^=y -b ^x =5-1.23×4=0.08,所以线性回归方程为y ^=1.23x +0.08. 6.(6,50) 7.① 8.④⑤解析 回归分析就是研究两个事件的相关性;回归模型是需要通过散点图模拟的;回归模型有线性和非线性之分.9.解 因为x =71,∑i =110x 2i =50 520,y =72.3,∑i =110x i y i =51 467,所以,b ^=51 467-10×71×72.350 520-10×712≈1.218 2. a ^=72.3-1.218 2×71=-14.192 2,线性回归方程是:y ^=1.218 2x -14.192 2. 10.解 (1)在y =cd x两边取自然对数, 令ln y =z ,ln c =a ,ln d =b ,则z =a +bx .由已知数据,得由公式得a ≈3.905 5,b ≈-0.221 9,则线性回归方程为z =3.905 5-0.221 9x .而lnc =3.905 5,lnd =-0.221 9,故c ≈49.681,d ≈0.801,所以c 、d 的估计值分别为49.681,0.801.(2)当x =10时,由(1)所得公式可得y ≈5.4(mg). 11.解 (1)由已知条件制成下表:于是 b ^=112.390-5×42=10=1.23, a ^=y -b ^x =5-1.23×4=0.08.(2)由(1)知线性回归方程是y ^=1.23x +0.08, 当x =10时,y =1.23×10+0.08=12.38(万元). 即估计使用10年时维修费用是12.38万元. 12.解 (1)x =66.8,y =67.01,∑10 i =1x 2i =44 794,∑10 i =1y 2i =44 941.93,x y =4 476.27,x 2=4 462.24,y 2=4 490.34,∑10i =1x i y i =44 842.4.所以r =∑10i =1x i y i -10x y⎝⎛⎭⎫∑10 i =1x 2i -10x 2⎝⎛⎭⎫∑10 i =1y 2i -10y 2=44 842.4-10×4 476.27--=79.76 611.748≈79.781.31≈0.9 801.又查表得r 0.05=0.632.因为r >r 0.05,所以y 与x 之间具有线性相关关系.(2)设回归方程为y ^=b ^x +a ^.由b ^=∑10 i =1x i y i -10x y ∑10 i =1x 2i -10x2=44 842.4-44 762.744 794-44 622.4=79.7171.6≈0.4645, a ^=y -b ^x =67.01-0.464 5×66.8≈35.98.故所求的线性回归方程为y ^=0.464 5x +35.98.(3)当x =73时,y ^=0.464 5×73+35.98≈69.9,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.。
[推荐学习]高中数学第1章统计案例1.2回归分析互动课堂学案
1.2 回归分析互动课堂疏导引导1.回归分析的基本思想回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本思想是通过散点图直观地了解两个变量的关系,然后通过最小二乘法建立回归模型,最后通过分析相关指数、随机误差等评价模型的好坏.疑难疏引理解两个变量之间的线性关系要注意下面的几个问题: (1)相关关系是非随机变量与随机变量之间的关系,而函数关系是两个非随机变量间的关系;(2)函数关系是一种因果关系,而相关关系不一定有因果关系,也可能是伴随关系.(3)现实生活中存在大量的相关关系,相关关系是进行回归分析的基础. 2.非线性回归问题两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型.如y=xc ec 21,我们可以通过对数变换把指数关系变为线性关系.令z=lny ,则变换后样本点应该分布在直线z=bx+a(a=lnc 1,b=c 2)的周围.(如例2) 3.如何评判回归模型的好坏可以通过比较两个模型的残差平方和的大小来判断拟合效果,残差平方和越小的模型,拟合的效果越好.类似地,还可以用相关指数R 2来比较两个模型的拟合效果,R 2越大,模型的拟合效果越好.例如例2中,可以认为样本点集中在某二次曲线y=bx 2+a 附近,可令t=x 2.t=x 2 3 600 4 900 6 400 8 100 10 0020 12 100 y 6.13 7.90 9.99 12.15 15.02 17.50 y 20.92 26.86 31.11 38.85 47.25 55.05由上表数据可得y 与t 的线性回归方程:yˆ=1.899×10-3t-3.322, 即yˆ=1.899×10-3x 2-3.322. ② 下面分析一下这两种函数模型,哪一种拟合效果较好?分别求出两种模型的残差平方和和相关指数,通过比较残差平方和或相关指数来判定,模型①的残差平方和与相关指数在例2中已求,下面求模型②的残差平方和与相关指数.x 60 70 80 90 100 110 y 6.13 7.90 9.99 12.15 15.02 1.50y ˆ 3.51 5.98 8.83 12.06 15.67 19.66 x 120 130 140 150 160 170 y20.92 26.86 31.11 38.85 47.25 55.05 y ˆ 24.02 28.77 33.90 39.41 45.29 51.56 eˆ -3.1-1.91-2.79-0.561.963.49则此函数模型的残差平方和∑=ni ie12ˆ=54.37,总偏差平方和:∑=ni 1(y y i -)2=∑=ni 122y n y i -=2 831.5,相关指数R 2=5.283137.541-=0.981.对于两种函数模型①和②残差平方和分别为33.71和54.37, 因此模型①的拟合效果要优于模型②.另外,也可比较相关指数R 2,模型①和②的R 2分别为0.988和0.981,因此模型①的拟合效果好于模型②案例 测得10对某国父子身高(单位:英寸)如下: 父高x 60 62 64 65 66 67 68 70 72 74 儿高y63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70 (1)对变量y 与x 进行相关性检验.(2)如果y 与x 之间具有性性相关关系,求回归直线方程. (3)如果父亲的身高为73英尺,估计儿子的身高.【探究】由于x 、y 的不确定关系,先进行相关关系的检验,再求回归方程. 解:(1)x =66.8,y =67.01.∑=1012i ix=44 794.r=)4.4490344941)(4.4462244794(27.4476102.44842)10()10(101012210122101--⨯-=----∑∑∑===i ii ii iiy y x xyx yx=748.66117.79≈0.980 1.又查表得r 0.05=0.632.因为r >0.05,所以y 与x 之间具有线性相关关系.(2)设回归直线方程为a x b yˆˆˆ+=. 由210121011010ˆxx yx yx bi i i ii --=∑∑===6.1717.79622.4 44-794 44762.7 44-842.4 44=≈0.464 5.x b y aˆˆˆ-==67.01-0.464 5×66.8≈35.98. 故所求的回归直线方程为:yˆ=0.464 5x+35.98. (3)当x=73时,yˆ=0.464 5×73+35.98=69.9. 所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.求回归直线方程,一般先要考查y 与x 是否具有线性相关关系,若具有这样的关系,则它的回归曲线为直线.规律总结 ①作为非确定性关系的相关关系包括两种情况:其一,两个变量中,一个变量为可控制变量,另一个变量为随机变量;其二,两个变量均为随机变量,主要研究第一种情况. ②一元线性回归分析是回归分析中最简单,也是最基本的一种类型,它类似于代数方程理论中的一元一次方程.③求回归直线方程和相关系数通常是用计算器完成的,列出相应的表格可便于求出回归直线方程中的系数和相关系数.④对两个变量的线性相关性进行检验,有几种彼此等价的方法,相关系数检验法只是其中的一种.⑤相关检验的步骤为: (1)在《相关系数检验的临界值表》中查出与显著性水平0.05与自由度n-2(n 为观测值组数)相应的相关系数临界值r 0.05.(2)根据公式:r=))((1222121∑∑∑===---ni i ni i ni iiy n y x n x yx n yx计算r 的值. (3)检验所得结果.如果|r |≤r 0.05,接受统计假设, 如果|r |>r 0.05,拒绝统计假设. 活学巧用例1 关于人体的脂肪含量(百分比)和年龄关系的研究中,研究人员获得了一组数据: 年龄x 23 27 39 41 45 49 50 年龄x 53 54 56 57 58 60 61 脂肪y 29.6 30.2 31.4 30.833.535.234.6(1)作散点图;(2)求y 与x 之间的回归线方程;(3)求相关指数R 2,并说明其含义; (4)给出37岁人的脂肪含量的预测值. 解:(1)图略.(2)设方程为a x b yˆˆˆ+=,则由计算器算得a ˆ=-0.448,b ˆ=0.577,所以yˆ=0.577x-0.448. (3)残差平方和∑=ni 12ˆie=∑=ni 1(a x b y ii ˆˆ--)2=∑=n i i y 12-∑=-ni i b y a 1ˆˆ∑=ni 1x i y i =37.14.总偏差平方和:∑=-ni iy y12)(=∑=-ni i y n y 122=645.23.R 2=23.64514.37=0.942.R 2为0.942,表明年龄解释了94.2%的脂肪含量变化.(4)当x=37时,yˆ=0.577×37-0.448=20.90. 点评:我们不能说37岁人的脂肪含量一定是20.90%,因为这只是预测值.脂肪含量除受年龄影响外还受其他因素,即残差变量的影响,事实上,20.90%是对年龄为37岁人群中的大部分人的体内脂肪含量所作出的估计.统计既有随机性,又有规律性. 例2 某地区不同身高的未成年男性的体重平均值如下表: 身高x/cm 60 70 80 90 100 110 体重y/kg 6.13 7.90 9.99 12.15 15.02 17.50 体重y/kg20.92 26.86 31.11 38.85 47.25 55.05 (1)试建立y 与x 之间的回归方程.(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高为175 cm 体重为82 kg 的在校男生体重是否正常?(3)求残差平方和与R 2.解:根据上表中数据画出散点图如图. (1)由图看出,样本点分布在某条指数函数曲线y=xc ec21的周围,于是令z=lny.x 60 70 80 90 100 110 120 130 140 150 160 170 z 1.81 2.07 2.30 2.50 2.71 2.86 3.04 3.29 3.44 3.66 3.86 4.01 作出散点图如图.由表中数据可得z 与x 之间的回归直线方程:zˆ=0.693+0.020x,则有y ˆ=e 0.693+0.020x . ①(2)当x=175时,预测平均体重yˆ=e 0.693+0.020×175≈66.22,由于66.22×1.2≈79.47<82,所以这个男生偏胖. (3)x 60 70 8090 100 110 y 6.13 7.909.99 12.15 15.02 17.50 y ˆ 6.64 8.11 9.90 12.10 14.78 18.05 X 120 130 140 150 160 170 Y20.92 26.86 31.11 38.85 47.25 55.05 y ˆ 22.04 26.92 32.88 40.17 49.06 59.91 eˆ -1.12-0.06-1.77-1.32-1.81-4.86残差平方和:∑=ni ie12ˆ≈33.71,总偏差平方和:∑=-n i i y y 12)(=∑=ni 122y n y i -=2 831.5,相关指数:R 2=∑∑==--ni ini iy ye1212)(ˆ1=0.988.例3 假设关于某设备的使用年限x 和所支出的维修费用y(万元)有如下统计资料:x 2 3 4 5 6 y 2.2 3.8 5.5 6.5 7.0 若由资料知,y 为x 呈线性相关关系,试求: (1)回归直线方程;(2)估计使用年限为10年时,维修费用约是多少? 分析:知道x 与y 呈线性相关关系. 解:由题意知:i 1 2 3 4 5 x i 2 3 4 5 6 y i 2.2 3.8 5.5 6.5 7.0 x i y i 4.4 11.4 22.0 32.5 42.0x =4,y =5∑=512i ix=90,∑=51i ii yx =112.3∴=225125145905453.11255⨯-⨯⨯-=--∑∑==xx yx yx i i i ii=1.23 ∴x b y aˆˆ-==5-1.23×4=0.08. ∴回归方程为:yˆ=1.23x+0.08. (2)当x=10时,yˆ=1.23×10+0.08=12.38(万元),即估计使用10年时维修费约为12.38万元.点评:若两个变量不具备线性相关关系或者关系不明显,即使求出回归方程也无意义,而且其估计和预测的量是不可信的.。
回归分析--江苏教育版
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.2 回归分析互动课堂疏导引导1.回归分析的基本思想回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本思想是通过散点图直观地了解两个变量的关系,然后通过最小二乘法建立回归模型,最后通过分析相关指数、随机误差等评价模型的好坏.疑难疏引理解两个变量之间的线性关系要注意下面的几个问题: (1)相关关系是非随机变量与随机变量之间的关系,而函数关系是两个非随机变量间的关系;(2)函数关系是一种因果关系,而相关关系不一定有因果关系,也可能是伴随关系.(3)现实生活中存在大量的相关关系,相关关系是进行回归分析的基础. 2.非线性回归问题两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型.如y=xc ec 21,我们可以通过对数变换把指数关系变为线性关系.令z=lny ,则变换后样本点应该分布在直线z=bx+a(a=lnc 1,b=c 2)的周围.(如例2) 3.如何评判回归模型的好坏可以通过比较两个模型的残差平方和的大小来判断拟合效果,残差平方和越小的模型,拟合的效果越好.类似地,还可以用相关指数R 2来比较两个模型的拟合效果,R 2越大,模型的拟合效果越好.例如例2中,可以认为样本点集中在某二次曲线y=bx 2+a 附近,可令t=x 2.t=x 2 3 600 4 900 6 400 8 100 10 0020 12 100 y 6.13 7.90 9.99 12.15 15.02 17.50 y 20.92 26.86 31.11 38.85 47.25 55.05由上表数据可得y 与t 的线性回归方程:yˆ=1.899×10-3t-3.322, 即yˆ=1.899×10-3x 2-3.322. ② 下面分析一下这两种函数模型,哪一种拟合效果较好?分别求出两种模型的残差平方和和相关指数,通过比较残差平方和或相关指数来判定,模型①的残差平方和与相关指数在例2中已求,下面求模型②的残差平方和与相关指数.x 60 70 80 90 100 110 y 6.13 7.90 9.99 12.15 15.02 1.50y ˆ 3.51 5.98 8.83 12.06 15.67 19.66 x 120 130 140 150 160 170 y20.92 26.86 31.11 38.85 47.25 55.05 y ˆ 24.02 28.77 33.90 39.41 45.29 51.56 eˆ -3.1-1.91-2.79-0.561.963.49则此函数模型的残差平方和∑=ni ie12ˆ=54.37,总偏差平方和:∑=ni 1(y y i -)2=∑=ni 122y n y i -=2 831.5,相关指数R 2=5.283137.541-=0.981.对于两种函数模型①和②残差平方和分别为33.71和54.37, 因此模型①的拟合效果要优于模型②.另外,也可比较相关指数R 2,模型①和②的R 2分别为0.988和0.981,因此模型①的拟合效果好于模型②案例 测得10对某国父子身高(单位:英寸)如下: 父高x 60 62 64 65 66 67 68 70 72 74 儿高y63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70 (1)对变量y 与x 进行相关性检验.(2)如果y 与x 之间具有性性相关关系,求回归直线方程. (3)如果父亲的身高为73英尺,估计儿子的身高.【探究】由于x 、y 的不确定关系,先进行相关关系的检验,再求回归方程. 解:(1)x =66.8,y =67.01.∑=1012i ix=44 794.r=)4.4490344941)(4.4462244794(27.4476102.44842)10()10(101012210122101--⨯-=----∑∑∑===i ii ii iiy y x xyx yx=748.66117.79≈0.980 1.又查表得r 0.05=0.632.因为r >0.05,所以y 与x 之间具有线性相关关系.(2)设回归直线方程为a x b yˆˆˆ+=. 由210121011010ˆxx yx yx bi i i ii --=∑∑===6.1717.79622.4 44-794 44762.7 44-842.4 44=≈0.464 5.x b y aˆˆˆ-==67.01-0.464 5×66.8≈35.98. 故所求的回归直线方程为:yˆ=0.464 5x+35.98. (3)当x=73时,yˆ=0.464 5×73+35.98=69.9. 所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.求回归直线方程,一般先要考查y 与x 是否具有线性相关关系,若具有这样的关系,则它的回归曲线为直线.规律总结 ①作为非确定性关系的相关关系包括两种情况:其一,两个变量中,一个变量为可控制变量,另一个变量为随机变量;其二,两个变量均为随机变量,主要研究第一种情况. ②一元线性回归分析是回归分析中最简单,也是最基本的一种类型,它类似于代数方程理论中的一元一次方程.③求回归直线方程和相关系数通常是用计算器完成的,列出相应的表格可便于求出回归直线方程中的系数和相关系数.④对两个变量的线性相关性进行检验,有几种彼此等价的方法,相关系数检验法只是其中的一种.⑤相关检验的步骤为: (1)在《相关系数检验的临界值表》中查出与显著性水平0.05与自由度n-2(n 为观测值组数)相应的相关系数临界值r 0.05.(2)根据公式:r=))((1222121∑∑∑===---ni i ni i ni iiy n y x n x yx n yx计算r 的值. (3)检验所得结果.如果|r |≤r 0.05,接受统计假设, 如果|r |>r 0.05,拒绝统计假设. 活学巧用例1 关于人体的脂肪含量(百分比)和年龄关系的研究中,研究人员获得了一组数据: 年龄x 23 27 39 41 45 49 50 年龄x 53 54 56 57 58 60 61 脂肪y 29.6 30.2 31.4 30.833.535.234.6(1)作散点图;(2)求y 与x 之间的回归线方程;(3)求相关指数R 2,并说明其含义; (4)给出37岁人的脂肪含量的预测值. 解:(1)图略.(2)设方程为a x b yˆˆˆ+=,则由计算器算得a ˆ=-0.448,b ˆ=0.577,所以yˆ=0.577x-0.448. (3)残差平方和∑=ni 12ˆie=∑=ni 1(a x b y ii ˆˆ--)2=∑=n i i y 12-∑=-ni i b y a 1ˆˆ∑=ni 1x i y i =37.14.总偏差平方和:∑=-ni iy y12)(=∑=-ni i y n y 122=645.23.R 2=23.64514.37=0.942.R 2为0.942,表明年龄解释了94.2%的脂肪含量变化.(4)当x=37时,yˆ=0.577×37-0.448=20.90. 点评:我们不能说37岁人的脂肪含量一定是20.90%,因为这只是预测值.脂肪含量除受年龄影响外还受其他因素,即残差变量的影响,事实上,20.90%是对年龄为37岁人群中的大部分人的体内脂肪含量所作出的估计.统计既有随机性,又有规律性. 例2 某地区不同身高的未成年男性的体重平均值如下表: 身高x/cm 60 70 80 90 100 110 体重y/kg 6.13 7.90 9.99 12.15 15.02 17.50 体重y/kg20.92 26.86 31.11 38.85 47.25 55.05 (1)试建立y 与x 之间的回归方程.(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高为175 cm 体重为82 kg 的在校男生体重是否正常?(3)求残差平方和与R 2.解:根据上表中数据画出散点图如图. (1)由图看出,样本点分布在某条指数函数曲线y=xc ec21的周围,于是令z=lny.x 60 70 80 90 100 110 120 130 140 150 160 170 z 1.81 2.07 2.30 2.50 2.71 2.86 3.04 3.29 3.44 3.66 3.86 4.01 作出散点图如图.由表中数据可得z 与x 之间的回归直线方程:zˆ=0.693+0.020x,则有y ˆ=e 0.693+0.020x . ①(2)当x=175时,预测平均体重yˆ=e 0.693+0.020×175≈66.22,由于66.22×1.2≈79.47<82,所以这个男生偏胖. (3)x 60 70 8090 100 110 y 6.13 7.909.99 12.15 15.02 17.50 y ˆ 6.64 8.11 9.90 12.10 14.78 18.05 X 120 130 140 150 160 170 Y20.92 26.86 31.11 38.85 47.25 55.05 y ˆ 22.04 26.92 32.88 40.17 49.06 59.91 eˆ -1.12-0.06-1.77-1.32-1.81-4.86残差平方和:∑=ni ie12ˆ≈33.71,总偏差平方和:∑=-n i i y y 12)(=∑=ni 122y n y i -=2 831.5,相关指数:R 2=∑∑==--ni ini i y ye 1212)(ˆ1=0.988.例3 假设关于某设备的使用年限x 和所支出的维修费用y(万元)有如下统计资料:x 2 3 4 5 6 y 2.2 3.8 5.5 6.5 7.0 若由资料知,y 为x 呈线性相关关系,试求: (1)回归直线方程;(2)估计使用年限为10年时,维修费用约是多少? 分析:知道x 与y 呈线性相关关系. 解:由题意知:i 1 2 3 4 5 x i 2 3 4 5 6 y i 2.2 3.8 5.5 6.5 7.0 x i y i 4.4 11.4 22.0 32.5 42.0x =4,y =5∑=512i ix=90,∑=51i ii yx =112.3∴=225125145905453.11255⨯-⨯⨯-=--∑∑==xx yx yx i i i ii=1.23 ∴x b y aˆˆ-==5-1.23×4=0.08. ∴回归方程为:yˆ=1.23x+0.08. (2)当x=10时,yˆ=1.23×10+0.08=12.38(万元),即估计使用10年时维修费约为12.38万元.点评:若两个变量不具备线性相关关系或者关系不明显,即使求出回归方程也无意义,而且其估计和预测的量是不可信的.。