2017-2018版高中数学 第一章 统计案例 1.2 回归分析(二)学案 新人教B版选修1-2

合集下载

2017-2018学年高中数学第一章统计案例1.2独立检验的基本思想及其初步应用教学案新人教A版选修1_2

2017-2018学年高中数学第一章统计案例1.2独立检验的基本思想及其初步应用教学案新人教A版选修1_2

1.2 独立检验的基本思想及其初步应用[核心必知]1.预习教材,问题导入根据以下提纲,预习教材P10~P15的内容,回答下列问题.阅读教材P10“探究”的内容,思考:(1)是否吸烟、是否患肺癌是什么变量?提示:分类变量.(2)吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗?提示:不是.(3)如何研究吸烟是否对患肺癌有影响?提示:独立性检验.2.归纳总结,核心必记(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(3)等高条形图①图形与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.②通过直接计算或观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.(4)独立性检验K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d(1)有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?提示:观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.(2)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗?提示:不一定.所有的推断只代表一种可能性,不代表具体情况.(3)下面是2×2列联表.y1则表中a,b提示:a=46-13=33,b=33+a=33+33=66.[课前反思](1)分类变量的定义是什么?(2)列联表的定义是什么?2×2列联表中的各个数据有什么意义?(3)什么是等高条形图,有什么作用?(4)独立性检验的内容是什么?讲一讲1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用aa +b 与cc +d判断二者是否有关系.[尝试解答] 2×2列联表如下:aa +b =4364=0.671 875.c c +d =2760=0.45. 显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa +b 与c c +d ⎝ ⎛⎭⎪⎫ba +b 与dc +d 的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.练一练1.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:则当m取下面何值时,X与YA.8 B.9 C.14 D.19解析:选C 由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.讲一讲2.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.[尝试解答] 作列联表如下:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.利用等高条形图判断两个分类变量是否相关的步骤:练一练2.在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解:根据题目给出的数据作出如下的列联表:我们认为患色盲与性别是有关系的.3.研究人员选取170名青年男女大学生为样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;110名男生在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.(链接教材P13-例1)附:[尝试解答]根据2×2k=-2110×60×44×126≈5.622>5.024.所以在犯错误的概率不超过0.025的前提下,认为“性别与态度有关系”.根据题意列出2×2列联表,计算K2的观测值,如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.练一练3.在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞机航程中,男乘客是否比女乘客更容易晕机?附:解:根据题意,列出由公式可得K2的观测值k=n ad-bc2a +b c+d a+c b+d=-255×34×32×57≈3.689>2.706,故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中男乘客比女乘客更容易晕机”.——————————————[课堂归纳·感悟提升]——————————1.本节课的重点是用2×2列联表、等高条形图分析两个分类变量间的关系以及独立性检验.2.本节课要重点掌握的规律方法(1)用2×2列联表分析两分类变量间的关系,见讲1;(2)用等高条形图分析两分类变量间的关系,见讲2;(3)独立性检验,见讲3.3.解决一般的独立性检验问题的步骤:(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;(2)利用K2=n ad-bc2a +b c+d a+c b+d求出K2的观测值k;(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.其中第(2)步易算错K2的值,是本节课的易错点.课下能力提升(二)[学业水平达标练]题组1 用2×2列联表分析两分类变量间的关系1.分类变量X和Y的列联表如下:dA.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强解析:选C |ad -bc |越小,说明X 与Y 关系越弱,|ad -bc |越大,说明X 与Y 关系越强.2.假设有两个变量X 与Y ,它们的取值分别为x 1,x 2和y 1,y 2,其列联表为:( ) A .a =50,b =40,c =30,d =20 B .a =50,b =30,c =40,d =20 C .a =20,b =30,c =40,d =50 D .a =20,b =30,c =50,d =40解析:选D 当(ad -bc )2的值越大,随机变量K 2=n ad -bc 2a+bc +d a +cb +d的值越大,可知X 与Y 有关系的可能性就越大.显然选项D 中,(ad -bc )2的值最大.3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案:是题组2 用等高条形图分析两分类变量间的关系4.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )A.性别与喜欢理科无关B.女生中喜欢理科的百分比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%解析:选C 从图中可以分析,男生喜欢理科的可能性比女生大一些.5.观察下列各图,其中两个分类变量x,y之间关系最强的是( )解析:选D 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.6.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:解:等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.题组3 独立性检验7.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A.平均数与方差 B.回归分析C.独立性检验 D.概率解析:选C 判断两个分类变量是否有关的最有效方法是进行独立性检验.8.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.9.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.答案:③10.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.附:k=n ad-bc2a +b c+d a+c b+d=-250×50×44×56≈16.234.因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.[能力提升综合练]1.利用独立性检验对两个分类变量是否有关系进行研究时,若有99.5%的把握认为事件A和B有关系,则具体计算出的数据应该是( )A.k≥6.635 B.k<6.635C.k≥7.879 D.k<7.879解析:选C 有99.5%的把握认为事件A和B有关系,即犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k≥7.879.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=a +b c+d a+c b+d算得,观测值k=-260×50×60×50≈7.8.附表:A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”解析:选A 由k≈7.8及P(K2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.3.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表3A.成绩 B.视力C.智商 D.阅读量解析:选D 因为K21=-2 16×36×32×20=52×8216×36×32×20,K22=-216×36×32×20=52×112216×36×32×20,k23=-216×36×32×20=52×96216×36×32×20,K24=-216×36×32×20=52×408216×36×32×20,则有K24>K22>K23>K21,所以阅读量与性别有关联的可能性最大.4.下列关于K2的说法中,正确的有________.①K2的值越大,两个分类变量的相关性越大;②K2的计算公式是K2=n ad-bca +b c+d a+c b+d;③若求出K2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断.解析:对于①,K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错;对于②,(ad-bc)应为(ad-bc)2,故②错;③④对.答案:③④5.某班主任对全班50名学生作了一次调查,所得数据如表:错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.解析:查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635,本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.答案:不能6.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为15.(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:解:(1)设患肝病中常饮酒的人有x人,30=15,x=6.由已知数据可求得K2=10×20×8×22≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.故抽出一男一女的概率是P=8 15 .7.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.表1 甲流水线样本频数分布表(505,510](1)根据上表数据作出甲流水线样本频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.解:(1)甲流水线样本频率分布直方图如下:(2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36, 故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9,据此可估计从甲流水线任取1件产品, 该产品恰好是合格品的概率为0.75. 从乙流水线任取1件产品, 该产品恰好是合格品的概率为0.9. (3)2×2列联表如下:因为K2的观测值k=n ad-bc2a +b c+d a+c b+d=-266×14×40×40≈3.117>2.706,所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.。

高中数学 第一章 统计案例 1.1.2 回归分析的基本思想及其初步应用导学案 新人教A版选修1-2

高中数学 第一章 统计案例 1.1.2 回归分析的基本思想及其初步应用导学案 新人教A版选修1-2

河北省承德市高中数学第一章统计案例1.1.2 回归分析的基本思想及其初步应用导学案新人教A版选修1-2编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(河北省承德市高中数学第一章统计案例1.1.2 回归分析的基本思想及其初步应用导学案新人教A版选修1-2)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为河北省承德市高中数学第一章统计案例1.1.2 回归分析的基本思想及其初步应用导学案新人教A版选修1-2的全部内容。

1.1.2 回归分析的基本思想及其初步应用学习目标:1.复习巩固回归分析2.复习巩固独立性检验1.教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法—-相关指数和残差分析2.教学难点:解释残差变量的含义,回归直线系数的计算求解.方法:自主学习合作探究师生互动一、选择题1.对变量x、y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u、v有观测数据(u i,v i)(i=1,2,…,10),得散点图②。

由这两个散点图可以判断()A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关2.已知x和y之间的一组数据x0123y1357则y与x的线性回归方程错误!=错误!x+错误!必过点()A.(2,2) B.(32,0) C.(1,2) D.(错误!,4)3.某商品销售量y(件)与销售价格x(元/件)负相关,则课堂随笔:其回归方程可能是( )A.错误!=-10x+200 B.错误!=10x+200C.错误!=-10x-200 D.错误!=10x-200 4.已知某车间加工零件的个数x与所花费时间y(h)之间的线性回归方程为错误!=0。

2017_2018学年高中数学第一章统计案例1.1回归分析的基本思想及其初步应用学案含解析新人教A版

2017_2018学年高中数学第一章统计案例1.1回归分析的基本思想及其初步应用学案含解析新人教A版

1.1 回归分析的基本思想及其初步应用线性回归模型[提出问题]问题 1:由《数学必修 3》的知识可知,相关关系中自变量和因变量的关系是确定的吗? 提示:不是.问题 2:利用线性回归方程求出的函数值一定是真实值吗? 提示:不一定. [导入新知] 1.回归分析(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系,即自变量取值一定时, 因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系.(2)由《数学必修 3》的知识可知,回归分析是对具有线性相关关系的两个变量进行统计 分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用 回归直线方程进行预报.2.线性回归模型(1)线性回归模型 y =bx +a +e ,其中 a 和b 是模型的未知参数,e 称为随机误差.自变量x 称为解释变量,因变量 y 称为预报变量.^ ^ ^(2)在回归方程 y = bx + a 中,^b----nn∑i=1x i - x y i - y∑i =1x i y i -n x y==,--nn∑i=1x i - x2∑i =1x 2i -n x 2^ a - ^-= y - b x .nn- 1 - 1 - -∑∑其中 x =x i , y = y i, (x , y )称为样本点的中心. n ni =1i =1[化解疑难]对线性回归方程的理解^ ^ ^ - - - -(1)回归直线方程 y = bx + a 一定经过点(x , y ).我们把(x , y )称为样本点的中心, 因此,回归直线必过样本点的中心.^ ^ ^ ^ ^(2)线性回归方程 y = bx + a 中的截距 a 和斜率 b 都是通过估计而得来的,存在着误差,这种误差可能导致预测结果的偏差.1^ ^(3)当b>0时,变量y与x具有正的线性相关关系;当b<0时,变量y与x具有负的线性相关关系.线性回归分析[提出问题]问题1:利用什么方法判断所建立的线性模型的拟合效果?提示:利用残差.问题2:由散点图知,残差有正、负,如何更好地判断拟合效果?n^∑提示:利用残差平方和,即(y i-y i)2越小,R2越大,拟合效果越好.i=1[导入新知]1.残差分析(1)残差^ ^ ^ ^ ^ 样本点(x n,y n)的随机误差e i=y i-bx i-a,其估计值为e i=y i-y i=y i-b x i-a,e i称为相应于点(x i,y i)的残差(residual).(以上i=1,2,…,n)(2)残差图作图时,纵坐标为残差,横坐标可以选为样本编号,或x i数据,或y i数据,这样作出的图形称为残差图.(3)残差分析残差分析即通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果,其步骤为:计算残差——画残差图——在残差图中分析残差特性.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.2.相关指数我们可以用相关指数R2来刻画回归的效果,其计算公式是:^i2n∑i=1y i-yR2=1-.-n∑i=1y i-y2n n^∑∑R2越大,残差平方和(y i-y i)2越小,即模型的拟合效果越好;R2越小,残差平方和i=1 i=1 ^(y i-y i)2越大,即模型的拟合效果越差.在线性回归模型中,R2的取值范围为[0,1],R2表示解释变量对于预报变量变化的贡献率,1-R2表示随机误差对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好.2[化解疑难]残差分析的注意点在残差图中,可疑数据的特征表现为:(1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误.如果采集数据有错误,那么需要纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,那么需要寻找其他原因.(2)残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.线性回归分析[例1]某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x 6 8 10 12y 2 3 5 6(1)请画出上表数据的散点图(要求:点要描粗);^ ^ ^(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;(3)试根据求出的线性回归方程,预测记忆力为14的同学的判断力.[解](1)散点图如图所示:-6+8+10+12 -2+3+5+6(2)x==9,y==4,4 44-∑(x i-)2=9+1+1+9=20,xi=14--∑(x i-x)(y i-y)=(-3)×(-2)+(-1)×(-1)+1×1+3×2=14,i=13^ b--4∑i=1x i-xy i-y14===0.7,-204∑i=1x i-x2^ a-^-=y-b x=4-0.7×9=-2.3,^故线性回归方程为y=0.7x-2.3.(3)由(2)中线性回归方程知,当x=14时,^y =0.7×14-2.3=7.5,预测记忆力为14的同学的判断力约为7.5.[类题通法]求线性回归方程的步骤(1)列表表示x i,y i;n n-----∑∑(2)计算x,,(x i-)(y i-),(x i-)2;y x y xi=1 i=1^ ^(3)代入公式计算a,b的值;(4)写出回归直线方程.[活学活用]某公司利润y(单位:千万元)与销售总额x(单位:千万元)之间有如下对应数据:x 10 15 17 20 25 28 32y 1 1.3 1.8 2 2.6 2.7 3.3(1)画出散点图;(2)求回归直线方程;(3)估计销售总额为24千万元时的利润.解:(1)散点图如图:(2)列下表,并利用科学计算器进行有关计算.i 1 2 3 4 5 6 7x i 10 15 17 20 25 28 32y i 1 1.3 1.8 2 2.6 2.7 3.34x=21,y=2.17 7∑∑x2i=3 447,x i y i=346.3i=1 i=1^ 346.3-7 × 21 × 2.1于是b=≈0.104.3 447-7 × 212^a =2.1-0.104×21=-0.084,^因此回归直线方程为y=0.104x-0.084.(3)当x=24时,y=0.104×24-0.084=2.412(千万元).残差分析[例2]某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:编号 1 2 3 4 5 6 7 8 9 10 零件数x/个10 20 30 40 50 60 70 80 90 100 加工时间y/分62 68 75 81 89 95 102 108 115 122(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?[解](1)根据表中数据画出散点图,如图所示.由图可看出,这些点在一条直线附近,可以用线性回归模型来拟合数据.计算得加工时间^对零件数的线性回归方程为y=0.668x+54.93.残差数据如下表:编号 1 2 3 4 5^残差e 0.39 -0.29 0.03 -0.65 0.67编号 6 7 8 9 105^残差e -0.01 0.31 -0.37 -0.05 0.27(2)以零件数为横坐标,残差为纵坐标画出残差图如图所示.由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好.但需注意,由残差图可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.[类题通法]残差分析应注意的问题利用残差分析研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,^ ^是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差e1,e2,…,^e n来判断原始数据中是否存在可疑数据,用R2来刻画模型拟合的效果.[活学活用]已知某种商品的价格x(元)与需求量y(件)之间的关系有如下几组数据:x 14 16 18 20 22y 12 10 7 5 3求y关于x的回归直线方程,并说明回归模型拟合效果的好坏.- 1解:x=×(14+16+18+20+22)=18,5- 1y=×(12+10+7+5+3)=7.4,55∑x2i=142+162+182+202+222=1 660,i=15∑x i y i=14×12+16×10+18×7+20×5+22×3=620,i=1--5∑i=1x i y i-5xy^所以b=-5∑i=1x2i-5x26620-5 × 18 × 7.4==-1.15,1 660-5 × 182^a =7.4+1.15×18=28.1,所以所求回归直线方程是^y =-1.15x+28.1.列出残差表:0 0.3 -0.4 -0.1 0.2^y i-y i-4.6 2.6 -0.4 -2.4 -4.4y i-y5^∑所以(y i-i)2=0.3,yi=15-∑(y i-)2=53.2,yi=1^i25∑i=1y i-yR2=1-≈0.994,-5∑i=1y i-y2所以回归模型的拟合效果很好.非线性回归分析[例3]在一次抽样调查中测得样本的5个样本点,数值如下表:x 0.25 0.5 1 2 4y 16 12 5 2 1试建立y与x之间的回归方程.[解]作出变量y与x之间的散点图如图所示.由图可知变量y与x近似地呈反比例函数关系.k 1设y=,令t=,则y=kt.x x7由 y 与 x 的数据表可得 y 与 t 的数据表:t 4 2 1 0.5 0.25 y1612521作出 y 与 t 的散点图如图所示.由图可知 y 与 t 近似地呈线性相关关系.55- -∑∑又 t =1.55, =7.2,i y i =94.25,t 2i =21.312 5, yti =1i =1^b=--5∑i =1t i y i -5t y-5∑i =1t 2i -5t 294.25-5 × 1.55 × 7.2= ≈4.134 4, 21.312 5-5 × 1.552^ a - ^-= y - b t =7.2-4.134 4×1.55≈0.8, ^∴ y =4.134 4t +0.8.^ 4.134 4所以 y 与 x 之间的回归方程是 y = +0.8.x[类题通法]非线性回归分析的步骤非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学 过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好 的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步 骤为:8[活学活用]为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下时间x/天 1 2 3 4 5 6繁殖个数y 6 12 25 49 95 190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求y与x之间的回归方程.解:(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y1=c1e c2x(c1>0)的周围,则ln y=ln c1+c2x,于是令z=ln y,则x 1 2 3 4 5 6z 1.79 2.48 3.22 3.89 4.55 5.25画出相应的散点图(图略),可知变换后的样本点分布在一条直线附近,因此可用线性回归^ ^方程来拟合,由表中数据得到线性回归方程为z=0.69x+1.115,则有y=e0.69x+1.115.1.错误理解残差的概念而致误[典例]某种产品的广告费支出x(单元:万元)与销售额y(单位:万元)之间有下表关系:x 2 4 5 6 8y 30 40 60 50 70^y与x的线性回归方程为y=6.5x+17.5,当广告费支出5万元时,随机误差的效应(残差)为()A.10B.209C.30 D.40^ ^ [解析]因为y与x的线性回归方程为y=6.5x+17.5,当x=5时,y=50,当广告费支出5万元时,由表格得y=60,故随机误差的效应(残差)为60-50=10.[答案] A[易错防范]^ ^ ^ ^ ^1.对残差e i不理解,误认为e i=y i-y i=b x i-a-y i,i=1,2,…,n.2.残差平方和越小,说明模型的拟合效果就越好.[成功破障]^已知方程y=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的^单位是cm,y的单位是kg,那么针对某个体(160,53)的残差是________.^ ^解析:把x=160代入y=0.85x-82.71,得y=0.85×160-82.71=53.29,所以残差^ e^=y-y=53-53.29=-0.29.答案:-0.29[随堂即时演练]1.(湖北高考)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:^①y与x负相关且y=2.347x-6.423;^②y与x负相关且y=-3.476x+5.648;^③y与x正相关且y=5.437x+8.493;^④y与x正相关且y=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④解析:选D①中y与x负相关而斜率为正,不正确;④中y与x正相关而斜率为负,不正确.2.关于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定10B.线性相关系数可以是正的也可以是负的C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)解析:选D样本的相关系数应满足-1≤r≤1.3.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析:由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案:85%15%4.某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数计数的结果如下:尿汞含量x 2 4 6 8 10消光系数y 64 138 205 285 360若y与x具有线性相关关系,则回归直线方程是______________________________.5--∑解析:由已知表格中的数据,利用科学计算器进行计算得x=6,y=210.4,x2i=i=1 220,5∑x i y i=7 790,i=1--5∑i=1x i y i-5x y^所以b==36.95,-5∑i=1x2i-5x2^ a-^-=y-b x=-11.3.^所以回归直线方程为y=-11.3+36.95x.^答案:y=-11.3+36.95x5.某工厂为了对新研究的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x/元8 8.2 8.4 8.6 8.8 9销量y/件90 84 83 80 75 68^ ^ ^ ^ ^ -^-(1)求回归直线方程y=bx+a,其中b=-20,a=y-b x;11(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)- 1解:(1)x=×(8+8.2+8.4+8.6+8.8+9)=8.5,6- 1y=×(90+84+83+80+75+68)=80,6^ --从而a=y+20x=80+20×8.5=250,^故y=-20x+250.(2)由题意知,工厂获得利润z=(x-4)y=-20x2+330x-1 00033(x-4)2+361.25,=-2033所以当x==8.25时,4z max=361.25(元).即当该产品的单价定为8.25元时,工厂获得最大利润.[课时达标检测]一、选择题--1.(重庆高考)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能为()^ ^A.y=0.4x+2.3B.y=2x-2.4^ ^C.y=-2x+9.5D.y=-0.3x+4.4解析:选A依题意知,相应的回归直线的斜率应为正,排除C、D.且直线必过点(3,3.5),代入A、B得A正确.2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:甲乙丙丁R2 0.98 0.78 0.50 0.85建立的回归模型拟合效果最好的同学是()A.甲B.乙C.丙D.丁解析:选A相关指数R2越大,表示回归模型拟合效果越好.123.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样^本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71.则下列结论中不正确的是()A.y与x具有正的线性相关关系--B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:选D回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,A正确;--由回归方程系数的意义可知回归直线过样本点的中心(x,y),B正确;^ ^依据回归方程中b的含义可知,x每变化1个单位,y相应变化约0.85个单位,C正确;用回归方程对总体进行估计不能得到肯定结论,故D不正确.4.甲、乙、丙、丁4位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方n^∑和(y i-i)2,如下表:yi=1甲乙丙丁散点图残差平方和115 106 124 103哪位同学的试验结果体现拟合A,B两变量关系的模型拟合精度高?()A.甲B.乙C.丙D.丁解析:选D从题中的散点图上来看,丁同学的散点图中的点更加近似在一条直线附近;从残差平方和来看,丁同学的最小,说明拟合精度最高.5.(福建高考)已知x与y之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4^ ^ ^假设根据上表数据所得线性回归直线方程为y=bx+a,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是()^ ^ ^ ^A.b>b′,a>a′B.b>b′,a<a′13^ ^ ^ ^C.b<b′,a>a′D.b<b′,a<a′解析:选C由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,b′=2,a′=-2. 而利用线性回归方程的公式与已知表格中的数据,-6∑i=1x i y i-6x^可求得b=-6∑i=1x2i-6x2 -y7 1358-6 ××2 6 5==,7 7 91-6 ×(2 )2^ a-^-13 5 7 1 =y-b x=-×=-,6 7 2 3^ ^所以b<b′,a>a′.二、填空题6.在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)1 的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据2的样本相关系数为_________.解析:根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.答案:17.某咖啡厅为了了解热饮的销售量y(个)与气温x(℃)之间的关系,随机统计了某4天的销售量与气温,并制作了对照表:气温(℃)18 13 10 -1销售量(个) 24 34 38 64^由表中数据,得线性回归方程y=-2x+a.当气温为-4 ℃时,预测销售量约为________.1 1解析:∵x=(18+13+10-1)=10,y=(24+34+38+64)=40,∴40=-2×10+a,∴a4 4=60,当x=-4时,y=-2×(-4)+60=68.答案:688.关于x与y有如下数据:x 2 4 5 6 8y 30 40 60 50 7014^ ^为了对 x ,y 两个变量进行统计分析,现有以下两种线性模型:甲: y =6.5x +17.5, 乙:y =7x +17,则____________(填“甲”或“乙”)模型拟合的效果更好.解析:设甲模型的相关指数为 R 21,^5∑i=1y i - y i2155则 R 21=1-=1- =0.845;-1 0005∑i=1y i - y 2设乙模型的相关指数为 R 2, 180 则 R 2=1- =0.82. 1 000 因为 0.845>0.82,即 R 21>R 2, 所以甲模型拟合效果更好. 答案:甲 三、解答题9.(新课标全国卷Ⅱ)某地区 2007年至 2013年农村居民家庭人均纯收入 y (单位:千元) 的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013 年份代号 t 1 2 3 4 5 6 7 人均纯收入 y2.93.33.64.44.85.25.9(1)求 y 关于 t 的线性回归方程;(2)利用(1)中的回归方程,分析 2007年至 2013年该地区农村居民家庭人均纯收入的变化 情况,并预测该地区 2015年农村居民家庭人均纯收入.--n∑i=1t i - ty i - y^附:回归直线的斜率和截距的最小二乘估计公式分别为 b =,-n∑i=1t i - t 2^ a - ^- = y - b t .解:(1)由所给数据计算得- 1t = ×(1+2+3+4+5+6+7)=4,7- 1y = ×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,77-∑(t i - t )2=9+4+1+0+1+4+9=28,i =1 7- -∑(t i-t)(y i-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+i=1151×0.5+2×0.9+3×1.6=14,^b--7∑i=1t i-ty i-y14===0.5,-287∑i=1t i-t 2^a-^-=y-b t=4.3-0.5×4=2.3,^所求回归方程为y=0.5t+2.3.^(2)由(1)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.^将2015年的年份代号t=9代入(1)中的回归方程,得y=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.10.(全国丙卷)下图是我国2008 年至2014 年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.7 7 7∑∑∑参考数据:y i=9.32,i y i=40.17, y i-y2=0.55,7≈2.646.ti=1 i=1 i=1n∑i=1t i-t y i-y^ ^ ^ 参考公式:相关系数r=,回归方程y=a+b t中斜率和n n∑i=1t i-t2∑i=1y i-y2n^ ∑i=1t i-t y i-y^ ^截距的最小二乘估计公式分别为b=,a=y-b t.n∑i=1t i-t2解:(1)由折线图中的数据和附注中的参考数据得7 7∑∑t=4,(t i-t)2=28, =0.55,y i-y2i=1 i=1167 7 7∑∑∑(t i -t )(y i -y )=t i y i -ty i =40.17-4×9.32=2.89,i =1i =1i =12.89∴r ≈ ≈0.99. 0.55 × 2 × 2.646因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当大,从而可以用线 性回归模型拟合 y 与 t 的关系.9.32 (2)由y = ≈1.331及(1)得77^ ∑i=1t i -ty i -y2.89 b == ≈0.103. 728∑i=1t i -t 2^ a ^=y - b t ≈1.331-0.103×4≈0.92. ^所以 y 关于 t 的回归方程为 y =0.92+0.10t .^将 2016年对应的 t =9代入回归方程得 y =0.92+0.10×9=1.82. 所以预测 2016年我国生活垃圾无害化处理量约为 1.82亿吨.17。

2017_18版高中数学第一章统计案例1.2回归分析一学案

2017_18版高中数学第一章统计案例1.2回归分析一学案

1.2 回归分析(一)明目标、知重点 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.1.回归直线方程在回归直线方程y ^=a ^+b ^x 中,b ^=∑ni =1x i -xy i -y∑n i =1x i -x 2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a ^=y-b ^x .其中x =1n ∑ni =1x i ,y =1n∑n i =1y i . (x ,y )称为样本点的中心,回归直线过样本点的中心. 2.相关系数(1)对于变量x 与y 随机抽到的n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),检测统计量是样本相关系数r =∑n i =1 x i -xy i -y∑n i =1x i -x2∑n i =1y i -y2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2∑ni =1y 2i -n y2.(2)相关系数r 的取值范围是[-1,1],|r |值越大,变量之间的线性相关程度越高;|r |值越接近0,变量之间的线性相关程度越低.当|r |>r 0.05时,表明有95%的把握认为两个变量之间有线性相关关系.[情境导学]“名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关? 探究点一 回归直线方程思考1 两个变量之间的关系分几类? 答 分两类:①函数关系,②相关关系.函数关系是一种确定性关系,而相关关系是一种非确定性关系. 上面所提的“名师”与“高徒”之间的关系就是相关关系.思考2 什么叫回归分析?答 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. 思考3 对具有线性相关关系的两个变量进行回归分析有哪几个步骤? 答 基本步骤为画散点图,求回归直线方程,用回归直线方程进行预报. 例1 若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg4857505464614359. 解 (1)画散点图选取身高为自变量x ,体重为因变量y ,画出散点图,展示两个变量之间的关系,并判断二者是否具有线性关系.由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线y =bx +a 来近似刻画它们之间的关系.(2)建立回归方程由计算器可得b ^=0.849,a ^=-85.712.于是得到回归直线方程为y ^=0.849x -85.712. (3)预报和决策当x =172时,y ^=0.849×172-85.712=60.316(kg). 即一名身高为172 cm 的女大学生的体重预报值为60.316 kg. 反思与感悟 在使用回归直线方程进行预报时要注意: (1)回归直线方程只适用于我们所研究的样本的总体; (2)我们所建立的回归直线方程一般都有时间性; (3)样本取值的范围会影响回归直线方程的适用范围;(4)不能期望回归直线方程得到的预报值就是预报变量的精确值.跟踪训练1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:x 6 8 10 12 y2356(1)请画出上表数据的散点图((2)请根据上表提供的数据,用最小二乘法求出y 关于x 的回归直线方程y ^=b ^x +a ^; (3)试根据求出的回归直线方程,预测记忆力为9的同学的判断力. 解 (1)如图:(2)∑ni =1x i y i =6×2+8×3+10×5+12×6=158, x =6+8+10+124=9,y =2+3+5+64=4, ∑ni =1x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中回归直线方程,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.探究点二 相关性检验思考1 给出n 对数据,按照公式求出的回归直线方程,是否一定能反映这组成对数据的变化规律?答 如果数据散点图中的点都大致分布在这条直线附近,这条直线就能反映这组成对数据的变化规律,否则求出的方程没有实际意义. 思考2 怎样定量确定两个变量的相关关系?答 可以通过计算相关系数r 来确定,若|r |>r 0.05,可以有95%的把握认为两个变量具有线性相关关系;若|r |≤r 0.05,则没有理由认为两个变量具有线性相关关系,此时寻找回归直线方程毫无意义.例2 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y 来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x (g/L)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据:甲醛浓度(g/L) 18 20 22 24 26 28 30 缩醛化度(克分子%) 26.8628.3528.7528.8729.7530.0030.36(1)画散点图; (2)求回归直线方程;(3)求相关系数r ,并进行相关性检验. 解 (1)散点图如下图:(2)可以看出,两变量之间有近似的线性相关关系,下面用列表的方法计算a ^,b ^.ix iy ix i 2x i y i1 18 26.86 324 483.482 20 28.35 400 5673 22 28.75 484 632.5 4 24 28.87 576 692.88 5 26 29.75 676 773.5 6 28 30.00 784 8407 30 30.36 900 910.80 ∑168202.944 1444 900.16x =1687=24,y =202.947, b ^ =∑7i =1x i y i -7x y ∑7i =1x i 2-7x 2=4 900.16-7×24×202.9474 144-7×242≈0.264 3, a ^=y -b ^x =202.947-0.264 3×24≈22.648, ∴回归直线方程为y ^=22.648+0.264 3x .(3)∑7i =1y i 2≈5 892,r =∑7i =1x i y i -7x y∑7i =1x i 2-7x2∑7i =1y i 2-7y2=4 900.16-7×24×202.9474 144-7×242×[5 892-7×⎝ ⎛⎭⎪⎫202.9472]≈0.96.∵r =0.96>r 0.05=0.754.∴有95%的把握认为“甲醛浓度与缩醛化度有关系”,求得的回归直线方程有意义. 反思与感悟 根据已知数据求得回归直线方程后,可以利用相关系数和临界值r 0.05比较,进行相关性检验.跟踪训练2 为了研究3月下旬的平均气温(x )与4月20日前棉花害虫化蛹高峰日(y )的关系,某地区观察了2007年至2012年的情况,得到了下面的数据:年份2007 2008 2009 2010 2011 2012 x (℃) 24.4 29.6 32.9 28.7 30.3 28.9 y (日)19611018(1)对变量x 、y 进行相关性检验;(2)据气象预测,该地区在2013年3月下旬平均气温为27℃,试估计2013年4月化蛹高峰日为哪天.解 由已知条件可得下表:i 1 2 3 4 5 6 x i 24.4 29.6 32.9 28.7 30.3 28.9 y i19611018x ≈29.13,y =7.5,∑i =16x i 2=5 130.92,∑i =16y i 2=563,∑i =16x i y i =1 222.6(1)r =∑i =16x i y i -6x y∑i =16x i 2-6x2∑i =16y i 2-6y2≈-0.934 1.查表知:r 0.05=0.811.由|r |>r 0.05,可知变量y 和x 存在线性相关关系.(2)b ^=1 222.6-6×29.13×7.55 130.92-6×29.132≈-2.23, a ^=y -b ^x ≈72.46.所以回归直线方程为y ^=-2.23x +72.46.当x =27时,y ^=-2.23×27+72.46≈12.据此,可估计该地区2013年4月12日为化蛹高峰日.1.下列各组变量之间具有线性相关关系的是( ) A.出租车费与行驶的里程 B.学习成绩与学生身高 C.身高与体重 D.铁的体积与质量 答案 C2.对变量y 和x 进行相关性检验,已知n 为数据的对数,r 是相关系数,且已知①n =3,r =0.995 0;②n =7,r =0.953 3;③n =15,r =0.301 2;④n =17,r =0.499 1.则变量y 和x 具有线性相关关系的是( )A.①和②B.①和③C.②和④D.③和④答案 C解析 ①n =3时,r 0.05=0.997,所以|r |<r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.②n =7时,r 0.05=0.754,所以|r |>r 0.05,表明有95%的把握认为x 与y 之间具有线性相关关系.③n =15时,r 0.05=0.514,所以|r |<r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.④n =17时,r 0.05=0.482,所以|r |>r 0.05,表明有95%的把握认为x 与y 之间具有线性相关关系.所以②和④满足题意.3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( )A.y ^=-10x +200B.y ^=10x +200C.y ^=-10x -200D.y ^=10x -200 答案 A解析 由于销售量y 与销售价格x 成负相关,故排除B 、D.又当x =10时,A 中y =100,而C 中y =-300,C 不符合题意,故选A.4.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 万元. 答案 0.2540.254x+1+0.321-(0.254x+0.321)=0.254.解析由题意知[][呈重点、现规律]1.对具有相关关系的两个变量进行统计分析,可从散点图观察大致呈条状分布,可以求回归直线方程并进行预报.2.通过求相关系数并和临界值r0.05比较可以判断两个变量是否有线性相关关系,求得的回归直线方程是否有意义.。

2017-2018学年高中数学 第一章 统计案例 1.1 回归分析 1.1.1 回归分析 1.1.2 相关系数课件 北师大版选修1-2

2017-2018学年高中数学 第一章 统计案例 1.1 回归分析 1.1.1 回归分析 1.1.2 相关系数课件 北师大版选修1-2

年龄 x/岁 4
5
6
7
8
9
10
身高 y/cm 100 106 112 116 121 124 130
求y对x的线性回归方程. 思路分析:根据求回归系数的公式求a,b,再写出回归直线方程.
探究一
探究二
探究三
思维辨析
解:制表
i
123456
xi
456789
yi 100 106 112 116 121 124
探究一
探究二
探究三
思维辨析
������ = 1 15515=101,������ = 15115.7≈10.11,
15
15
15
5, ∑ xiyi=16 076.8.
������=1
i=1
������=1
故蔬菜产量与施用氮肥量的相关系数
所以当每单位面积施氮肥 150 kg 时,每单位面积蔬菜年平均产
量为 0.646 3+0.093 7×150≈14.701(t).
探究一
探究二
探究三
思维辨析
反思感悟线性回归分析的简要步骤 1.随机抽取样本,确定样本数据. 2.判断两变量是否具有线性相关关系,可画出散点图用散点图判 断;也可计算相关系数r,用相关系数作出判断. 3.若两变量线性相关,用最小二乘法求出回归直线方程. 4.分析模型的拟合效果,看有无特殊点,不合适时,分析错因,加以 纠正. 5.依据回归方程作出预报.
() (4)因为由任何一组观测值都可以求得一个线性回归方程,所以没有 必要进行相关性检验. ( ) (5)回归分析是具有相关关系的两个变量进行统计分析的一种方法.
()
答案:(1)√ (2)√ (3)√ (4)× (5)√

2018年高中数学第1章统计案例1.2回归分析学案选修1-2

2018年高中数学第1章统计案例1.2回归分析学案选修1-2

1。

2 回归分析1.线性回归模型(1)线性回归模型y=a+bx+ε,其中a+bx是确定性函数,ε称为随机误差.(2)随机误差产生的原因主要有以下几种:①所用的确定性函数不恰当引起误差;②忽略了某种因素的影响;③存在观测误差.(3)在线性回归方程错误!=错误!+错误!x中错误!=错误!=错误!,错误!=错误!-错误!错误!(其中错误!=错误!错误!i,错误!=错误!错误!i).其中,错误!,错误!分别为a,b的估计值,错误!称为回归截距,错误!称为回归系数,错误!称为回归值.2.相关系数(1)计算两个随机变量间线性相关系数的公式错误!错误!=错误!(2)r具有如下性质:①|r|≤1;②|r|越接近于1,x,y的线性相关程度越强;③|r|越接近于0,x,y的线性相关程度越弱.3.对相关系数进行显著性检验的基本步骤(1)提出统计假设H0:变量x,y不具有线性相关关系;(2)如果以95%的把握作出判断,那么可以根据1-0。

95=0.05与n-2在教材附录1中查出一个r的临界值r0。

05(其中1-0。

95=0。

05称为检验水平);(3)计算样本相关系数r;(4)作出统计推断:若|r|>r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0。

05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x 之间有线性相关关系.我们把相关关系(不确定性关系)转化为函数关系(确定性关系),当两个具有相关关系的变量近似地满足一次函数关系时,我们所求出的函数关系式错误!=错误!+错误!x就是回归直线方程.求回归直线方程的一般方法是借助于工作软件求出回归直线方程,也可以利用计算器计算出错误!,再由错误!=错误!-错误!错误!求出错误!,写出回归直线方程错误!=错误!x+错误!。

计算时应注意:(1)求错误!时,利用公式错误!=错误!,先求出错误!=错误!(x1+x2+…+x n),错误!=错误!(y1+y2+…+y n),错误!i y i=x1y1+x2y2+…+x n y n,错误!错误!=x错误!+x错误!+…+x错误!。

2017_2018学年高中数学第一章统计案例1.2回归分析课件新人教B版选修1_2

2017_2018学年高中数学第一章统计案例1.2回归分析课件新人教B版选修1_2

r=
∑( ������ ������ - ������ ) ( ������ ������ - ������ )
2 ∑( ������ ������ - ������ ) ∑( ������ ������ - ������ )2
=
∑������ ������ ������ ������ -������������ ������
答案:A
【做一做1-2】 设有一个回归直线方程为 y = 3-5x,则当变量x增 加1个单位时( ) A.y平均增加3个单位 B.y平均减少5个单位 C.y平均增加5个单位 D.y平均减少3个单位 解析:因为-5是斜率的估计值,说明x每增加1个单位时,y平均减少 5个单位. 答案:B

2.样本相关系数
������ =
������

2 2 ������ ������ -������������
, 其统计学的意义是:x 每增加(或减
^ ^

少 )一个单位 ,y 平均改变 b 个单位. a = ������ − b ������ , 它的意义是y 不受 x 变化影响的部分 . (2)回归直线方程的求法及步骤 :借助计算器进行运算求出系数
= 0 .56, a = ������ − b ������ = 997 .4.
^ ^ ^


解析: b = ������=1 5
∑ ������ ������ ������ ������ -5������ ������
������ =1
5

2 2 ������ ������ -5������
故 y 对 x 的回归直线方程为 y = 0.56x+997.4.
^ ������ 2 计算 ∑ ������������, ∑ ������������ , ∑ ������������ , ∑ ������������������������ ; ②计算 ������ ������ =1 ������ =1 ������ =1 ������ =1 ^ ^

高中数学第1章统计案例1-2回归分析互动课堂学案

高中数学第1章统计案例1-2回归分析互动课堂学案

高中数学第1章统计案例1-2回归分析互动课堂学案互动课堂疏导引导1.回归分析的基本思想回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本思想是通过散点图直观地了解两个变量的关系,然后通过最小二乘法建立回归模型,最后通过分析相关指数、随机误差等评价模型的好坏.疑难疏引理解两个变量之间的线性关系要注意下面的几个问题:(1)相关关系是非随机变量与随机变量之间的关系,而函数关系是两个非随机变量间的关系;(2)函数关系是一种因果关系,而相关关系不一定有因果关系,也可能是伴随关系.(3)现实生活中存在大量的相关关系,相关关系是进行回归分析的基础.2.非线性回归问题两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型.如y=,我们可以通过对数变换把指数关系变为线性关系.令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围.(如例2)x c ec213.如何评判回归模型的好坏可以通过比较两个模型的残差平方和的大小来判断拟合效果,残差平方和越小的模型,拟合的效果越好.类似地,还可以用相关指数R2来比较两个模型的拟合效果,R2越大,模型的拟合效果越好.例如例2中,可以认为样本点集中在某二次曲线y=bx2+a附近,可令t=x2.t=x2 3 600 4 900 6 400 8 100 10 0020 12 100y 20.92 26.86 31.11 38.85 47.25 55.05由上表数据可得y与t的线性回归方程:yˆ=1.899×10-3t-3.322,即=1.899×10-3x2-3.322. ②yˆ下面分析一下这两种函数模型,哪一种拟合效果较好?分别求出两种模型的残差平方和和相关指数,通过比较残差平方和或相关指数来判定,模型①的残差平方和与相关指数在例2中已求,下面求模型②的残差平方和与相关指数.x 6070 80 90 100 110 y 6.13 7.90 9.99 12.15 15.02 1.50 yˆ 3.51 5.98 8.83 12.06 15.67 19.66 e2.62 1.92 1.16 0.09 -0.65 -2.16 y 20.92 26.86 31.11 38.85 47.25 55.05 yˆ 24.02 28.77 33.90 39.41 45.29 51.56 eˆ -3.1-1.91-2.79-0.561.963.49则此函数模型的残差平方和∑=ni ie 12ˆ=54.37,总偏差平方和:()2==2 831.5,∑=ni 1y y i-∑=ni 122y n y i - 相关指数R2==0.981.5.283137.541-对于两种函数模型①和②残差平方和分别为33.71和54.37,因此模型①的拟合效果要优于模型②.另外,也可比较相关指数R2,模型①和②的R2分别为0.988和0.981,因此模型①的拟合效果好于模型②案例 测得10对某国父子身高(单位:英寸)如下:父高x 60 62 64 65 66 67 68 70 72 74 儿高y63.665.26665.566.967.167.468.370.170(1)对变量y 与x 进行相关性检验.(2)如果y 与x 之间具有性性相关关系,求回归直线方程. (3)如果父亲的身高为73英尺,估计儿子的身高.【探究】由于x 、y 的不确定关系,先进行相关关系的检验,再求回归方程.解:(1)=66.8,=67.01.x y∑=1012i ix=44 794.r=)4.4490344941)(4.4462244794(27.4476102.44842)10()10(101012210122101--⨯-=----∑∑∑===i ii i i i i y y x x y x y x=≈0.980 1.748.66117.79又查表得r0.05=0.632.因为r >0.05,所以y 与x 之间具有线性相关关系.(2)设回归直线方程为.ax b y ˆˆˆ+= 由210121011010ˆxxyx y x bi ii ii --=∑∑===≈0.464 5.6.1717.79622.4 44-794 44762.7 44-842.4 44=xb y a ˆˆˆ-==67.01-0.464 5×66.8≈35.98. 故所求的回归直线方程为:=0.464 5x+35.98.yˆ (3)当x=73时,=0.464 5×73+35.98=69.9.yˆ 所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.求回归直线方程,一般先要考查y 与x 是否具有线性相关关系,若具有这样的关系,则它的回归曲线为直线.规律总结 ①作为非确定性关系的相关关系包括两种情况:其一,两个变量中,一个变量为可控制变量,另一个变量为随机变量;其二,两个变量均为随机变量,主要研究第一种情况.②一元线性回归分析是回归分析中最简单,也是最基本的一种类型,它类似于代数方程理论中的一元一次方程.③求回归直线方程和相关系数通常是用计算器完成的,列出相应的表格可便于求出回归直线方程中的系数和相关系数.④对两个变量的线性相关性进行检验,有几种彼此等价的方法,相关系数检验法只是其中的一种. ⑤相关检验的步骤为:(1)在《相关系数检验的临界值表》中查出与显著性水平0.05与自由度n-2(n 为观测值组数)相应的相关系数临界值r0.05.(2)根据公式:r=))((1222121∑∑∑===---ni i ni i ni i i y n y x n x y x n y x计算r 的值.(3)检验所得结果.如果|r |≤r0.05,接受统计假设,如果|r |>r0.05,拒绝统计假设. 活学巧用例 1 关于人体的脂肪含量(百分比)和年龄关系的研究中,研究人员获得了一组数据:年龄x 23 27 39 41 45 49 50 脂肪y29.630.231.430.833.535.234.6(1)作散点图;(2)求y 与x 之间的回归线方程; (3)求相关指数R2,并说明其含义; (4)给出37岁人的脂肪含量的预测值. 解:(1)图略.(2)设方程为,则由计算器算得=-0.448,=0.577,ax b y ˆˆˆ+=a ˆb ˆ 所以=0.577x-0.448.yˆ (3)残差平方和=()2=-xiyi=37.14.∑=ni 12ˆie∑=ni 1a xb y i i ˆˆ--∑=n i i y 12∑=-n i i b y a 1ˆˆ∑=ni 1总偏差平方和:==645.23.∑=-ni i y y 12)(∑=-ni i y n y 122R2==0.942.23.64514.37R2为0.942,表明年龄解释了94.2%的脂肪含量变化.(4)当x=37时,=0.577×37-0.448=20.90.yˆ 点评:我们不能说37岁人的脂肪含量一定是20.90%,因为这只是预测值.脂肪含量除受年龄影响外还受其他因素,即残差变量的影响,事实上,20.90%是对年龄为37岁人群中的大部分人的体内脂肪含量所作出的估计.统计既有随机性,又有规律性.例2 某地区不同身高的未成年男性的体重平均值如下表:身高x/cm 60 70 80 90 100 110 体重y/kg 6.13 7.90 9.99 12.15 15.02 17.50 身高x/cm 120 130 140 150 160 170 体重y/kg20.9226.8631.1138.8547.2555.05(1)试建立y 与x 之间的回归方程.(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高为175 cm 体重为82 kg 的在校男生体重是否正常?(3)求残差平方和与R2.解:根据上表中数据画出散点图如图. (1)由图看出,样本点分布在某条指数函数曲线y=的周围,于是令z=lny.xc e c 21x 60 70 80 90 100 110 120 130 140 150 160 170 z 1.81 2.07 2.30 2.50 2.71 2.86 3.04 3.29 3.44 3.66 3.86 4.01作出散点图如图.由表中数据可得z 与x 之间的回归直线方程:zˆ=0.693+0.020x,则有=e0.693+0.020x. ①y ˆ (2)当x=175时,预测平均体重=e0.693+0.020×175≈66.22,yˆ 由于66.22×1.2≈79.47<82, 所以这个男生偏胖. (3)x 6070 8090 100 110 y 6.13 7.90 9.99 12.15 15.02 17.50 yˆ 6.64 8.11 9.90 12.10 14.78 18.05 e-0.51 -0.21 0.09 0.05 0.24 -0.55 Y 20.92 26.86 31.11 38.85 47.25 55.05 yˆ 22.04 26.92 32.88 40.17 49.06 59.91 eˆ -1.12-0.06-1.77 -1.32 -1.81 -4.86残差平方和:≈33.71,∑=n i i e12ˆ 总偏差平方和:==2 831.5,∑=-ni i y y 12)(∑=ni 122y n y i -相关指数:R2==0.988.∑∑==--ni ini iy ye1212)(ˆ1例3 假设关于某设备的使用年限x 和所支出的维修费用y(万元)有如下统计资料:x 2 3 4 5 6 y2.23.85.56.57.0若由资料知,y 为x 呈线性相关关系,试求: (1)回归直线方程;(2)估计使用年限为10年时,维修费用约是多少? 分析:知道x 与y 呈线性相关关系.解:由题意知:i 1 2 3 4 5 x i 2 3 4 5 6 y i 2.2 3.8 5.5 6.5 7.0 x i y i4.411.422.0 32.5 42.0x =4,y =5∑=512i ix=90,∑=51i ii y x =112.3∴==1.23225125145905453.11255⨯-⨯⨯-=--∑∑==x x y x y x i i i i i ∴=5-1.23×4=0.08.xb y a ˆˆ-= ∴回归方程为:=1.23x+0.08.yˆ (2)当x=10时,=1.23×10+0.08=12.38(万元),即估计使用10年时维修费约为12.38万元.yˆ 点评:若两个变量不具备线性相关关系或者关系不明显,即使求出回归方程也无意义,而且其估计和预测的量是不可信的.。

教育最新K122018高中数学 第1章 统计案例 1.2 回归分析(二)学案 苏教版选修1-2

教育最新K122018高中数学 第1章 统计案例 1.2 回归分析(二)学案 苏教版选修1-2

§1.2 回归分析(二)课时目标 1.会对变量x 与y 进行相关性检验.2.进一步理解回归分析的基本思想.1.根据给定的样本数据,求得的线性回归方程未必有实际意义. 2.对相关系数r 进行显著性检验的基本步骤如下: (1)提出统计假设H 0:变量x ,y ________________;(2)如果以95%的把握作出推断,可以根据1-0.95=0.05与n -2在附录1中查出一个r 的__________(其中1-0.95=0.05称为____________);(3)计算__________________;(4)作出统计推断:若__________,则否定H 0,表明有________的把握认为x 与y 之间具有__________________;若________,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为x 与y 之间有__________________.一、填空题1.下列说法正确的是________.(填序号) ①y =2x 2+1中的x 、y 是具有相关关系的两个变量 ②正四面体的体积与其棱长具有相关关系③电脑的销售量与电脑的价格之间是一种确定性的关系④传染病医院感染甲型H1N1流感的医务人员数与医院收治的甲型流感人数是具有相关关系的两个变量2.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,线性回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均工资收入的百分比约为________.3.对具有线性相关关系的变量x 、y 有观测数据(x i ,y i ) (i =1,2,…,10),它们之间的线性回归方程是y ^=3x +20,若∑10i =1x i =18,则∑10i =1y i =________. 4.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得线性回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元是销售额为________万元.5.若回归直线的斜率的估计值是 1.23,样本的中心点为(4,5),则线性回归方程为________________.6.某种产品的广告费支出x 与销售额y 之间有下表关系,现在知道其中一个数据弄错了,则最可能错的数据是__________________________________.7.(单位:亿吨标准煤)的几个统计数据:的回归模型是下列的四种模型中的哪一种________.(填序号)①y ^=a ^x +b ^(a ≠0); ②y =ax 2+bx +c (a ≠0); ③y =a x (a >0且a ≠1); ④y =log a x (a >0且a ≠1).8.下列说法中正确的是________(填序号).①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法.二、解答题9.假设学生在初一和初二数学成绩是线性相关的.若10个学生初一(x )和初二(y )的数学分数如下:10.在某化学实验中,测得如下表所示的6对数据,其中x (单位:min)表示化学反应进行的时间,y (单位:mg)表示未转化物质的质量.(1)设y 与0.001); (2)估计化学反应进行到10 min 时未转化物质的质量(精确到0.1).能力提升11.假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下表的统计资料:若由资料知y (1)试求线性回归方程y ^=b ^x +a ^的回归系数b ^与常数项a ^; (2)估计使用年限为10年时,维修费用是多少?12.测得10对某国父子身高(单位:英寸)如下:(2)如果y 与x 之间具有线性相关关系,求线性回归方程; (3)如果父亲的身高为73英寸,估计儿子的身高.1.线性回归方程可得到变量y ^的估计值.2.通过显著性检验可以推断x 、y 之间是否具有线性相关关系.§1.2 回归分析(二)答案知识梳理2.(1)不具有线性相关关系 (2)临界值r 0.05检验水平 (3)样本相关系数r (4)|r |>r 0.05 95% 线性相关关系 |r |≤r 0.05 线性相关关系作业设计 1.④解析 感染的医务人员数不仅受医院收治的病人数的影响,还受防护措施等其他因素的影响.2.83%解析 当y ^=7.675时,x ≈9.262,∴估计该城市人均消费额占人均收入百分比约7.675÷9.262≈83%. 3.254解析 由∑10i =1x i =18,得x =1.8. 因为点(x ,y )在直线y ^=3x +20上,则y =25.4.所以∑10i =1y i =25.4×10=254. 4.65.5万元解析 由题意可知x =3.5,y =42,则42=9.4×3.5+a ^,a ^=9.1,y ^=9.4×6+9.1 =65.5.5.y ^=1.23x +0.08解析 回归直线y ^=a ^+b ^x 经过样本的中心点(4,5),又b ^=1.23,所以a ^=y -b ^x =5-1.23×4=0.08,所以线性回归方程为y ^=1.23x +0.08. 6.(6,50) 7.① 8.④⑤解析 回归分析就是研究两个事件的相关性;回归模型是需要通过散点图模拟的;回归模型有线性和非线性之分.9.解 因为x =71,∑i =110x 2i =50 520,y =72.3,∑i =110x i y i =51 467,所以,b ^=51 467-10×71×72.350 520-10×712≈1.218 2. a ^=72.3-1.218 2×71=-14.192 2,线性回归方程是:y ^=1.218 2x -14.192 2. 10.解 (1)在y =cd x两边取自然对数, 令ln y =z ,ln c =a ,ln d =b ,则z =a +bx .由已知数据,得由公式得a ≈3.905 5,b ≈-0.221 9,则线性回归方程为z =3.905 5-0.221 9x .而lnc =3.905 5,lnd =-0.221 9,故c ≈49.681,d ≈0.801,所以c 、d 的估计值分别为49.681,0.801.(2)当x =10时,由(1)所得公式可得y ≈5.4(mg). 11.解 (1)由已知条件制成下表:于是 b ^=112.390-5×42=10=1.23, a ^=y -b ^x =5-1.23×4=0.08.(2)由(1)知线性回归方程是y ^=1.23x +0.08, 当x =10时,y =1.23×10+0.08=12.38(万元). 即估计使用10年时维修费用是12.38万元. 12.解 (1)x =66.8,y =67.01,∑10 i =1x 2i =44 794,∑10 i =1y 2i =44 941.93,x y =4 476.27,x 2=4 462.24,y 2=4 490.34,∑10i =1x i y i =44 842.4.所以r =∑10i =1x i y i -10x y⎝⎛⎭⎫∑10 i =1x 2i -10x 2⎝⎛⎭⎫∑10 i =1y 2i -10y 2=44 842.4-10×4 476.27--=79.76 611.748≈79.781.31≈0.9 801.又查表得r 0.05=0.632.因为r >r 0.05,所以y 与x 之间具有线性相关关系.(2)设回归方程为y ^=b ^x +a ^.由b ^=∑10 i =1x i y i -10x y ∑10 i =1x 2i -10x2=44 842.4-44 762.744 794-44 622.4=79.7171.6≈0.4645, a ^=y -b ^x =67.01-0.464 5×66.8≈35.98.故所求的线性回归方程为y ^=0.464 5x +35.98.(3)当x =73时,y ^=0.464 5×73+35.98≈69.9,所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.。

高中数学 第1章《统计案例》1.1.1回归分析(2)导学案(无答案)北师大版选修1-2(1)

高中数学 第1章《统计案例》1.1.1回归分析(2)导学案(无答案)北师大版选修1-2(1)

陕西省榆林育才中学高中数学第1章《统计案例》1.1.1回归分析(2)导学案(无答案)北师大版选修1-2学习目标1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用;2. 了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.3. 会用相关指数,残差图评价回归效果.学习过程一、课前准备复习1:用相关系数r可衡量两个变量之间关系.r>0, 相关,r<0 相关;r越接近于1,两个变量的线性相关关系,它们的散点图越接近;r>,两个变量有关系.复习2:评价回归效果的三个统计量:总偏差平方和;残差平方和;回归平方和.二、新课导学※学习探究探究任务:如何评价回归效果?新知:1、评价回归效果的三个统计量(1)总偏差平方和:(2)残差平方和:(3)回归平方和:2、相关指数:2R表示对的贡献,公式为:2R=2R的值越大,说明残差平方和,说明模型拟合效果 .3、残差分析:通过来判断拟合效果.通常借助图实现.残差图:横坐标表示,纵坐标表示 .残差点比较均匀地落在的区的区域中,说明选用的模型,带状区域的宽度越 ,说明拟合精度越 ,回归方程的预报精度越 .※ 典型例题例1关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070为了对x 、y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好?※ 动手试试练1. 某班5名学生的数学和物理成绩如下表:学生 学科 A B C D E 数学成绩(x ) 88 76 75 64 62 物理成绩(y )7865706260(导学案第1页例1)(4)求学生A,B,C,D,E 的物理成绩的实际成绩和回归直线方程预报成绩的差2i i e y y =-.并作出残差图评价拟合效果.学习评价※ 自我评价 你完成本节导学案的情况为( ). A. 很好 B. 较好 C. 一般 D. 较差※ 当堂检测(时量:5分钟 满分:10分)计分:1. 两个变量 y 与x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 2R 如下 ,其中拟合效果最好的模型是( ).A. 模型 1 的相关指数2R 为 0.98B. 模型 2 的相关指数2R 为 0.80C. 模型 3 的相关指数2R 为 0.50D. 模型 4 的相关指数2R 为 0.252. 在回归分析中,残差图中纵坐标为( ). A. 残差 B. 样本编号 C. x D. n e3. 通过12,,,n e e e 来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).A.回归分析B.独立性检验分析C.残差分析D. 散点图分析 4.2R 越接近1,回归的效果 .5. 在研究身高与体重的关系时,求得相关指数2R = ,可以叙述为“身高解释了69%的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .课后作业练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据x 3 4 5 6y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y=+;关于x的线性回归方程y bx a(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?⨯+⨯+⨯+⨯=)(参考数值3 2.543546 4.566.5(4)求相关指数评价模型.。

2017_2018学年高中数学第一章统计案例1_1回归分析的大体思想及其初步应用教学案新人教A版选修

2017_2018学年高中数学第一章统计案例1_1回归分析的大体思想及其初步应用教学案新人教A版选修
即广告费用支出为10百万元时,销售额大约为82.5百万元.
(1)求线性回归方程前必需判定两个变量是不是线性相关,若是两个变量本身不具有相关关系,或它们之间的相关关系不显著,那么即便求出回归方程也是毫无心义的.
(2)写出回归直线方程 = x+ ,并用回归直线方程进行预测说明:当x取x0时,由线性回归方程可得 0的值,从而可进行相应的判定.
(3)x=9 6,那么 =0.625×96+22.05≈82,
即能够预测他的物理成绩是82.
[试探] 如何用残差图、残差平方和、相关指数R2分析拟合成效?
名师指津:残差图的带状区域的宽度越窄,模型拟合精度越高;残差平方和越小,模型拟合成效越好;R2越接近于1,模型拟合成效越好.
讲一讲
2.假定小麦大体苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
(4) (yi- )2=50.18,
故R2=1- ≈0.832.
因此说明变量小麦大体苗数对总效应约奉献了83.2%,残差变量奉献了约1-83.2%=16.8%.
(1)利用残差分析研究两个变量间的关系时,第一要依照散点图来判定它们是不是线性相关,是不是能够用线性回归模型来拟合数据,然后通过残差 1, 2,…, n来判定模型拟合的成效.
(2)假设残差点比较均匀地散布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精准度越高.
练一练
2.某运动员训练次数与运动成绩之间的数据关系如下:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;

2017_2018学年高中数学第一章统计案例本章整合课件新人教A版选修1_2

2017_2018学年高中数学第一章统计案例本章整合课件新人教A版选修1_2
晕机 男乘客 女乘客 总计 24 8 32 不晕机 总计 31 26 57 55 34 89
根据列联表得K2的观测值
k=
89× (24×26-31×8)2 ≈3.689. 55×34×32×57
^
^
故所求回归方程为������ = 0.3x-0.4.
(2)由于变量 y 的值随 x 的值增加而增加( ������ = 0.3>0), 故 x 与 y 之间是正相关. (3)将 x=7 代入回归方程,可以预测该家庭的月储蓄为������ = 0.3×7-0.4=1.7(千元).
^
^
^
应用 2
一个车间为了规定工时定额,需要确定加工零件所花费的时间,为 此进行了10次试验,测得的数据如下:
^ ^
^
^ ^
^ ^
∑ ������������ ������������ -������������ ������
������=1 2 ∑ ������2 ������ -������������
������
, ������ = ������ − ������ ������, 其中������, ������为样本平均值.
提示:(1)依据样本点数据的散点图,可建立两个变量之间的回归 模型;(2)画出残差图,依据残差点是否均匀地落在水平带状区域中 进行判断. 解:(1)根据表中数据作出散点图,如图所示.
编号 残差e 编号 残差e
^ ^
1 0.36 6 -0.04
2 -0.32 7 0.28
3 0 8 -0.4
4 -0.68 9 -0.08
第一章 统计案例
本 章 整 合
专题一 回归分析 1.对所抽取的样本数据进行分析,分析两个变量之间的关系—— 线性关系或非线性关系,并由一个变量的变化去推测另一个变量的 变化,这就是对样本进行回归分析.回归分析的过程就是建立回归 模型的过程.有时,回归模型可能会有多种选择(如作线性回归模型), 这时,可通过残差分析或利用R2来检查模型的拟合效果,从而得到 最佳模型.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.2 回归分析(二)
明目标、知重点 1.进一步体会回归分析的基本思想.2.通过非线性回归分析,判断几种不同模型的拟合程度
.
1.常见的非线性回归模型有
幂函数曲线y =ax b ,指数曲线y =a e bx
.
倒指数曲线e b
x a ,对数曲线y =a +b ln x .
2.非线性函数可以通过变换转化成线性函数,得到线性回归方程,再通过相应变换得到非线性回归方程
.
探究点一 非线性回归模型
思考1 有些变量间的关系并不是线性相关,怎样确定回归模型?
答 首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用回归方程来建立两个变量之间的关系,这时可以根据已有的函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型. 思考2 如果两个变量呈现非线性相关关系,怎样求出回归方程?
答 可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.
例1 某地区不同身高的未成年男性的体重平均值如下表:
试建立y 与x 解 根据上表中数据画出散点图如图所示.
由图看出,样本点分布在某条指数函数曲线y =21c x
c e
的周围,于是令z =ln y .
由表中数据可得z 与x 之间的线性回归方程:
z ^
=0.663+0.020x ,则有y ^
=e 0.663+0.020x .
反思与感悟 根据已有的函数知识,可以发现样本分布在某一条指数型函数曲线y =21c x
c e 的
周围,其中c 1和c 2是待定参数;可以通过对x 进行对数变换,转化为线性相关关系. 跟踪训练1 在彩色显影中,由经验知:形成染料光学密度y 与析出银的光学密度x 由公式y =b
x
Ae (b <0)表示.现测得试验数据如下:
试求y 对x 的回归方程.
解 由题给的公式y =b x
Ae ,两边取自然对数,便得ln y =ln A +b x
,与线性回归方程相对照,只要取u =1
x
,v =ln y ,a =ln A .就有v =a +bu .
题给数据经变量置换u =1
x
,v =ln y 变成如下表所示的数据:
可得ln y =0.548-x

即y ^
=e
0.548-
0.146
x
=e
0.548
·e

0.146x
≈1.73e

0.146x

这就是y 对x 的回归方程. 探究点二 非线性回归分析
思考 对于两个变量间的相关关系,是否只有唯一一种回归模型来拟合它们间的相关关系? 答 不一定.我们可以根据已知数据的散点图,把它与幂函数、指数函数、对数函数、二次函数图象进行比较,挑选一种拟合比较好的函数,作为回归模型.
例2 对两个变量x ,y 取得4组数据(1,1),(2,1.2),(3,1.3),(4,1.37),甲、乙、丙三人分别求得数学模型如下: 甲 y =0.1x +1,
乙 y =-0.05x 2
+0.35x +0.7,
丙 y =-0.8·(0.5)x
+1.4,试判断三人谁的数学模型更接近于客观实际. 解 甲模型,当x =1时,y =1.1; 当x =2时,y =1.2;
当x =3时,y =1.3;当x =4时,y =1.4. 乙模型,当x =1时,y =1;当x =2时,y =1.2; 当x =3时,y =1.3;当x =4时,y =1.3. 丙模型,当x =1时,y =1;当x =2时,y =1.2; 当x =3时,y =1.3;当x =4时,y =1.35. 观察4组数据并对照知, 丙的数学模型更接近于客观实际.
跟踪训练2 根据统计资料,我国能源生产自1986年以来发展很快.下面是我国能源生产总量(单位:亿吨标准煤)的几个统计数据:
根据有关专家预测,到
归模型是下列四种模型中的哪一种 .(填序号)
①y=ax+b(a≠0);②y=ax2+bx+c(a≠0);③y=a x(a>0且a≠1);④y=log a x(a>0且a≠1).答案①
1.散点图在回归分析中的作用是( )
A.查找个体个数
B.比较个体数据大小关系
C.探究个体分类
D.粗略判断变量是否相关
答案 D
2.变量x与y之间的回归方程表示( )
A.x与y之间的函数关系
B.x与y之间的不确定性关系
C.x与y之间的真实关系形式
D.x与y之间的真实关系达到最大限度的吻合
答案 D
3.变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为( )
A.1
B.-0.5
C.0
D.0.5
答案 C
4.某矿山采煤的单位成本Y与采煤量x有关,其数据如下:
则Y的相关系数为 .
答案-0.559 3
[呈重点、现规律]
1.对于可确定具有非线性相关关系的两个变量,可以通过对变量进行变换,转化为线性回归
问题去解决.
2.可以通过计算相关系数r 判断模型拟合的好坏程度.
由于2004对应的x =55,代入回归直线方程可得y ^
=1 322.506(百万),即2004年的人口总数估计为13.23亿.
下面对其进行线性相关性检验:
(1)作统计假设H 0∶x 与y 不具有线性相关; (2)由0.01与n -2=9的附表中查得r 0.01=0.735; (3)根据公式得相关系数r =0.998; (4)因为|r |=0.998>0.735,即|r |>r 0.01,
所以有99%的把握认为x 与y 之间具有线性相关关系,回归直线方程为y ^
=527.591+14.453x ,用这个方程去估计我国2004年的人口数是有意义的.
本文档仅供文库使用。

百度文库是百度发布的供网友在线分享文档的平台。

百度文库的文档由百度用户上传,需要经过百度的审核才能发布,百度自身不编辑或修改用户上传的文档内容。

网友可以在线阅读和下载这些文档。

百度文库的文档包括教学资料、考试题库、专业资料、公文写作、法律文件等多个领域的资料。

百度用户上传文档可以得到一定的积分,下载有标价的文档则需要消耗积分。

当前平台支持主流的doc(.docx)、.ppt(.pptx)、.xls(.xlsx)、.pot、.pps、.vsd、.rtf、.wps、.et、.dps、.pdf、.txt文件格式。

相关文档
最新文档