高中数学第一章统计案例1.1回归分析残差分析的相关概念辨析及应用素材北师大版选修(1)
2020北师大版高中数学选修1-2:第一章 回归分析相关系数
第一章统计案例§1回归分析1.1回归分析1.2相关系数课时过关·能力提升1.下列说法中,错误的是()A.如果变量x与y之间存在着线性相关关系,那么我们根据试验数据得到的点(x i,y i)(i=1,2,…,n)将散布在某一条直线的附近B.如果两个变量x与y之间不存在线性相关关系,那么根据它们的一组数据(x i,y i)(i=1,2,…,n)不能写出一个线性回归方程C.线性相关系数可以是正的,也可以是负的D.为使求出的线性回归方程有意义,可先用相关系数r来判断变量y与x之间线性相关程度的大小答案:B2.若线性回归方程为y=a+bx(b<0),则x与y之间的相关系数()A.r=0B.r=1C.0<r<1D.-1<r<0答案:D3.已知x,y之间的一组数据:1则y与x的线性回归直线y=a+bx必过点()A.(2,2)B.(1.5,0)C.(1,2)D.(1.5,4)解析:回归直线必经过点由于故选D.答案:D4.一位母亲记录了儿子3~9岁生日那天的身高,由此建立的身高与年龄的线性回归方程为y=7.19x+73.93,用这个模型预测这个孩子10岁生日那天的身高,下列叙述正确的是()A.身高一定是145.83 cmB.身高在145.83 cm以上C.身高在145.83 cm以下D.身高在145.83 cm左右答案:D5.已知x与y之间的一组数据如下表:x123456假设根据上表数据所得线性回归方程为y=a+bx,若某同学根据上表中的前两对数据(1,0)和(2,2)求得的直线方程为y=a'+b'x,则以下结论正确的是()A.a>a',b>b'B.a<a',b>b'C.a>a',b<b'D.a<a',b<b'解析:先分别求出方程y=a+bx和y=a'+b'x,再比较a与a',b与b'的大小.2答案:C6.在下面各图中,散点图与相关系数r不符合的是()答案:B7.下表是某厂1~4月份用水量(单位:百吨)的一组数据:已知用水量y与月份x之间有较强的线性相关关系,则其线性回归方程是.解析:由已知,得-进而可以求得b-所以所求线性回归方程是y=5.25-0.7x.答案:y=5.25-0.7x8.某单位为了了解用电量y(单位:kW·h)与气温x(单位:℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表如下:3由表中数据得线性回归方程y=a+bx中,b≈-2,预测当天气温为-4 ℃时,用电量约为kW·h.解析:线性回归方程y=a+bx中,b≈-2则a≈40+2×10=60,即y=60-2x,所以当气温为-4 ℃时,用电量约为68 kW·h.答案:689.春节期间,某销售公司每天销售某种取暖商品的销售额y(单位:万元)与当天的平均气温x(单位:℃)有关.现收集了春节期间这个销售公司4天的x与y的数据列于下表:根据以上数据,求得y对x的线性回归方程y=bx+a的系数b=则解析:由题意可得∴a-答案:10.研究某品牌学习机的广告投入x(单位:万元)和销售额y(单位:万元)的关系时,得到以下数据:4利用散点图和相关系数r判断广告投入x和销售额y之间的相关性.解:利用题中给出的数据,作散点图如图所示.从散点图中可以发现:样本点大致分布在一条直线附近,因此我们认为广告投入x和销售额y之间具有线性相关关系.但是这种判断的准确度我们无法给出.利用题中数据可知:380500.则线性相关系数-≈0.919 2.r--此时,我们认为广告投入x和销售额y之间具有较强的线性相关关系.11.某小卖部为了解雪糕销售量与气温之间的关系,随机统计并制作了卖出雪糕数与当天气温的对照表如下:求出y对x的线性回归方程,并预测当天气温为37 ℃时卖出雪糕的数量.分析:这是一个常见的实际问题,要想有效地进行预测,需要先由公式写出线性回归方程,再依据方程进行预测.5解:由表中数据可得:466884进而可以求得b----≈2.78,a≈37.25-2.78×28=-40.59,即线性回归方程为y=-40.59+2.78x.当x=37时,y=-40.59+2.78×37=62.27≈62.故可预测气温为37 ℃时卖出雪糕的数量为62.12.★为了对2018年某中学的中考成绩进行分析,在60分及以上的全体同学中随机抽出8位,他们的数学成绩(已折算为百分制)从低到高排列是60,65,70,75,80,85,90,95;物理成绩从低到高排列是72,77,80,84,88,90,93,95;化学成绩从低到高排列是67,72,76,80,84,87,90,92.若这8位同学的数学、物理、化学成绩事实上对应如下表:(1)用变量y与x,z与x的相关系数说明物理成绩与数学成绩、化学成绩与数学成绩的相关程度;(2)求y与x,z与x的线性回归方程(系数精确到0.01).6参考数据≈32.404≈21.375≈23.452.分析:利用样本相关系数公式求出r,再利用r的值分析两个变量之间相关程度的大小.解:(1)变量y与x的相关系数为--≈0.993,变量z与x的相关系数为r----≈0.994,r'--可以看出物理成绩与数学成绩、化学成绩与数学成绩之间都有较强的线性相关关系,且为正相关.(2)设y与x,z与x的线性回归方程分别是y=a+bx,z=a'+b'x,根据所给的数据,计算出:--≈0.65,b-a--≈0.72,b'-a'所以y与x,z与x的线性回归方程分别为y=34.5+0.65x,z=25.2+0.72x.7。
2018-2019学年高中数学 第一章 统计案例 1.1 回归分析学案 北师大版选修1-2
1.1 回归分析学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.掌握建立线性回归模型的步骤.知识点 线性回归方程 思考 (1)什么叫回归分析?(2)回归分析中,利用线性回归方程求出的函数值一定是真实值吗? 答案 (1)回归分析是对具有相关关系的两个变量进行统计分析的一种方法.(2)不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食、是否喜欢运动等.梳理 (1)平均值的符号表示假设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),在统计上,用x 表示一组数据x 1,x 2,…,x n 的平均值,即x =x 1+x 2+…+x n n =1n ∑i =1nx i ;用y 表示一组数据y 1,y 2,…,y n 的平均值,即y =y 1+y 2+…+y n n =1n ∑i =1ny i .(2)参数a ,b 的求法b =l xy l xx=i =1n (x i -x )(y i -y )i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a =y -b x .(3)样本点的中心(x ,y ),回归直线过样本点的中心.1.现实生活中的两个变量要么是函数关系,要么是相关关系.( ×)2.散点图能准确判定两个变量是否具有线性相关关系.( ×)3.回归直线不一定过样本中的点,但一定过样本点的中心.( √)类型一概念的理解和判断例1 有下列说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程y=bx+a可以估计观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是( )A.1B.2C.3D.4考点回归分析题点回归分析的概念和意义答案 C解析①反映的正是最小二乘法思想,正确;②反映的是画散点图的作用,正确;③反映的是回归方程y=bx+a的作用,正确;④不正确,在求回归方程之前必须进行相关性检验,以体现两变量的关系.跟踪训练1 下列变量关系是相关关系的是( )①学生的学习时间与学习成绩之间的关系;②某家庭的收入与支出之间的关系;③学生的身高与视力之间的关系;④球的体积与半径之间的关系.A.①②B.①③C.②③D.②④考点回归分析题点回归分析的概念和意义答案 A解析对①,学习时间影响学生的学习成绩,但是学生学习的刻苦程度、学生的学习方法、教师的授课水平等其他因素也影响学生的成绩,因此学生的学习时间与学习成绩之间具有相关关系;对②,家庭收入影响支出,但支出除受收入影响外,还受其他因素影响,故它们是相关关系;对③,身高与视力之间互不影响,没有任何关系;对④,球的体积由半径决定,是一种确定性关系,故它们是函数关系.类型二回归分析命题角度1 求线性回归方程例2 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x 681012y 235 6(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.⎝⎛⎭⎪⎪⎫相关公式:b=∑i=1nx i y i-n x y∑i=1nx2i-n x2,a=y-b x考点线性回归方程题点求线性回归方程解(1)如图:(2)∑i=14x i y i=6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4,∑i =14x 2i =62+82+102+122=344, b =158-4×9×4344-4×92=1420=0.7, a =y -b x =4-0.7×9=-2.3,故线性回归方程为y =0.7x -2.3.(3)由(2)中线性回归方程可知,当x =9时,y =0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.反思与感悟 (1)求线性回归方程的基本步骤①列出散点图,从直观上分析数据间是否存在线性相关关系.②计算:x ,y ,∑i =1nx 2i ,∑i =1ny 2i ,∑i =1nx i y i .③代入公式求出y =bx +a 中参数b ,a 的值. ④写出线性回归方程并对实际问题作出估计.(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.跟踪训练2 已知某地区4~10岁女孩各自的平均身高数据如下:求y 对x 的线性回归方程.(保留两位小数) 考点 线性回归方程 题点 求线性回归方程 解 制表x =7,y =8097,∑i =17x 2i =371,∑i =17x i y i =5798b =∑i =17x i y i -7x y∑i =17x 2i -7x 2=5798-7×7×8097371-7×72≈4.82, a =y -b x =8097-4.82×7≈81.83. 所以线性回归方程为y =81.83+4.82x . 命题角度2 线性回归分析与回归模型构建例3 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x (x 取整数)(元)与日销售量y (台)之间有如下关系:x 35 40 45 50 y56412811(1)画出散点图,并判断y 与x 是否具有线性相关关系; (2)求日销售量y 对销售单价x 的线性回归方程;(3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润. 考点 线性回归分析 题点 回归直线方程的应用解 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.(2)因为x =14×(35+40+45+50)=42.5,y =14×(56+41+28+11)=34.∑i =14x i y i =35×56+40×41+45×28+50×11=5410.∑i =14x 2i =352+402+452+502=7350. 所以b =∑i =14x i y i -4x y∑i =14x 2i -4x 2=5410-4×42.5×347350-4×42.52=-370125≈-3. a =y -b x =34-(-3)×42.5=161.5.所以线性回归方程为y =161.5-3x .(3)依题意,有P =(161.5-3x )(x -30)=-3x 2+251.5x -4845=-3⎝⎛⎭⎪⎫x -251.562+251.5212-4845.所以当x =251.56≈42时,P 有最大值,约为426元.即预测当销售单价为42元时,能获得最大日销售利润.反思与感悟 解答线性回归题目的关键是首先通过散点图来分析两变量间的关系是否线性相关,然后再利用求线性回归方程的公式求解线性回归方程,在此基础上,借助线性回归方程对实际问题进行分析.跟踪训练3 一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:(1)作出散点图;(2)如果y 与x 线性相关,求出线性回归方程;(3)若在实际生产中,允许每小时的产品中有缺损的零件最多为10个,那么,机器的运转速度应控制在什么范围? 考点 线性回归分析 题点 回归直线方程的应用解 (1)根据表中的数据画出散点图如图.(2)设线性回归方程为:y =bx +a ,并列表如下:i 12 3 4 x i 16 14 12 8 y i 11 9 8 5 x i y i1761269640x =12.5,y =8.25,∑i =14x 2i =660,∑i =14x i y i =438,所以b =438-4×12.5×8.25660-4×12.52≈0.73,a =8.25-0.73×12.5=-0.875, 所以y =0.73x -0.875.(3)令0.73x -0.875≤10,解得x <14.9≈15, 故机器的运转速度应控制在15转/秒内.1.某商品销售量y (件)与销售价格x (元/件)负相关,则其线性回归方程可能是( ) A .y =-10x +200 B .y =10x +200 C .y =-10x -200 D .y =10x -200考点 线性回归分析 题点 线性回归方程的应用 答案 A解析 因为y 与x 负相关,所以排除B ,D , 又因为C 项中x >0时,y <0不合题意,所以C 错.2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是( )A .①②B.①③C.②③D.③④ 考点 回归分析题点 回归分析的概念和意义 答案 B解析 由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型. 3.下表是x 和y 之间的一组数据,则y 关于x 的回归直线必过点( )x 1 2 3 4 y1357A.(2,3) B .(1.5,4) C .(2.5,4) D .(2.5,5)考点 线性回归方程 题点 样本点中心的应用 答案 C解析 回归直线必过样本点中心(x ,y ),即(2.5,4).4.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量x (单位:千箱)与单位成本y (单位:元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x 2i =79,∑i =16x i y i =1481,则销量每增加1000箱,单位成本下降________元. 考点 线性回归分析 题点 线性回归方程的应用 答案 1.8182解析 由题意知,b =1481-6×72×7179-6×⎝ ⎛⎭⎪⎫722≈-1.8182,a =71-(-1.8182)×72≈77.36,∴y 关与x 的线性回归方程为y =-1.8182x +77.36,即销量每增加1千箱,单位成本下降1.8182元. 5.已知x ,y 之间的一组数据如下表:x 0 1 2 3 y1357(1)分别计算:x ,y ,x 1y 1+x 2y 2+x 3y 3+x 4y 4,x 21+x 22+x 23+x 24; (2)已知变量x 与y 线性相关,求出线性回归方程. 考点 线性回归方程 题点 求线性回归方程解 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+x 2y 2+x 3y 3+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+x 23+x 24=02+12+22+32=14.(2)b =34-4×1.5×414-4×1.52=2,a =y -b x =4-2×1.5=1,故线性回归方程为y =2x +1.回归分析的步骤(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量.(2)画出确定好的因变量关于自变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y =bx +a ). (4)按一定规则估计回归方程中的参数.一、选择题1.对变量x,y由观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v由观测数据(u i,v i)(i=1,2,…,10),得散点图(2),由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关考点回归分析题点回归分析的概念和意义答案 C解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.2.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )A.年龄为37岁的人体内脂肪含量为20.90%B.年龄为37岁的人体内脂肪含量约为21.01%C.年龄为37岁的人群中的大部分人的体内脂肪含量约为20.90%D.年龄为37岁的人群中的大部分人的体内脂肪含量约为31.5%考点线性回归分析题点线性回归方程的应用答案 C解析当x=37时,y=0.577×37-0.448=20.901≈20.90,由此估计,年龄为37岁的人群中的大部分人的体内脂肪含量约为20.90%.3.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关,下列结论中正确的是( )A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关C.x与y正相关,x与z负相关D.x与y负相关,x与z正相关考点回归分析题点回归分析的概念和意义答案 A解析由正相关和负相关的定义知A正确.4.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:若x,y线性相关,线性回归方程为y=0.7x+a,估计该制药厂6月份生产甲胶囊产量约为( )A.8.0万盒B.8.1万盒C.8.9万盒D.8.6万盒考点线性回归分析题点线性回归方程的应用答案 B解析回归直线一定过样本点中心.由已知数据可得x=3,y=6,代入回归方程,可得a =y-0.7x=3.9,即线性回归方程为y=0.7x+3.9.把x=6代入,可近似得y=8.1,故选B.5.工人月工资y(单位:元)关于劳动生产率x(单位:千元)的回归方程为y=650+80x,下列说法中正确的个数是( )①劳动生产率为1000元时,工资约为730元;②劳动生产率提高1000元,则工资提高80元;③劳动生产率提高1000元,则工资提高730元;④当月工资为810元时,劳动生产率约为2000元.A.1B.2C.3D.4考点 线性回归分析 题点 线性回归方程的应用 答案 C解析 代入方程计算可判断①②④正确.6.某化工厂为预测某产品的回收率y ,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1849,则y 与x 的线性回归方程是( ) A .y =11.47+2.62x B .y =-11.47+2.62x C .y =2.62+11.47x D .y =11.47-2.62x考点 线性回归方程 题点 求线性回归方程 答案 A解析 由题中数据,得x =6.5,y =28.5,∴b =∑i =18x i y i -8x y∑i =18x 2i -8x 2=1849-8×6.5×28.5478-8×6.52=367140≈2.62, a =y -b x ≈28.5-2.62×6.5=11.47,∴y 对x 的线性回归方程是y =2.62x +11.47,故选A.7.为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线l 1和l 2,两人计算知x 相同,y 也相同,下列正确的是( ) A .l 1与l 2一定重合 B .l 1与l 2一定平行C .l 1与l 2相交于点(x ,y )D .无法判断l 1和l 2是否相交 考点 回归直线方程 题点 样本点中心的应用答案 C解析 因为两个人在试验中发现对变量x 的观测数据的平均值都是x ,对变量y 的观测数据的平均值都是y ,所以两组数据的样本点中心都是(x ,y ),因为回归直线经过样本点的中心,所以l 1和l 2都过(x ,y ). 二、填空题8.某校小卖部为了了解奶茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的奶茶杯数与当天的气温,得到下表中的数据,并根据该样本数据用最小二乘法建立了线性回归方程y =-2x +60,则样本数据中污损的数据y 0应为________.考点 线性回归分析 题点 线性回归方程的应用 答案 64解析 由表中数据易知x =10,代入y =-2x +60中, 得y =40.由y 0+34+38+244=40,得y 0=64.9.调查某移动公司的三名推销员,其工作年限与年推销金额的数据如下表所示.由表中数据算出线性回归方程y =bx +a 中的b =726.若该公司第四名推销员的工作年限为6年,则估计他的年推销金额约为________万元. 考点 线性回归分析 题点 线性回归方程的应用 答案 3解析 x =6,y =3,由回归直线经过样本点中心可知,该推销员年推销金额约为3万元.10.某人对一地区人均工资x (千元)与该地区人均消费y (千元)进行统计调查,发现y 与x 有相关关系,并得到线性回归方程y =0.66x +1.562.若该地区的人均消费水平为7.675千元,则估计该地区的人均消费额占人均工资收入的百分比约为________.(精确到0.1%) 考点 线性回归分析 题点 线性回归方程的应用 答案 82.9%解析 当y =7.675时,x ≈9.262,所以该地区的人均消费额占人均工资收入的百分比约为7.6759.262×100%≈82.9%.11.某数学老师身高为176cm ,他爷爷、父亲和儿子的身高分别是173cm,170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm. 考点 线性回归分析 题点 线性回归方程的应用 答案 183.5解析 记从爷爷起向下各代依次为1,2,3,4,5,用变量x 表示,其中5代表孙子.各代人的身高为变量y ,则有计算知x =2.5,y =175.25.由回归系数公式得b =3.3,a =y -b x =175.25-3.3×2.5=167,∴线性回归方程为y =3.3x +167,当x =5时,y =3.3×5+167=183.5,故预测其孙子的身高为183.5cm. 三、解答题12.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:b =∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a =y -b x .考点 线性回归方程 题点 线性回归方程的应用解 (1)由题意,n =10,∑i =110x i =80,∑i =110y i =20,∴x =8010=8,y =2010=2.又∑i =110x 2i -10x 2=720-10×82=80,∑i =110x i y i -10x y =184-10×8×2=24,由此得b =∑i =110x i y i -10x y∑i =110x 2i -10x 2=2480=0.3,a =y -b x =2-0.3×8=-0.4, 故所求线性回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄约为y =0.3×7-0.4=1.7(千元). 13.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(1)求y 关于t 的回归方程y =bt +a ;(2)用所求回归方程预测该地区2019年(t =10)的人民币储蓄存款.附:回归方程y =bt +a 中,b =∑i =1nt i y i -n t y∑i =1nt 2i -n t 2,a =y -b t .考点 线性回归方程 题点 求线性回归方程 解 (1)列表计算如下:此时n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又l tt =∑i =1nt 2i -n t 2=55-5×32=10,l ty =∑i =1nt i y i -n t y =120-5×3×7.2=12,从而b =l ty l tt =1210=1.2,a =y -b t =7.2-1.2×3=3.6, 故所求回归方程为y =1.2t +3.6.(2)将t =10代入回归方程,可预测该地区2019年的人民币储蓄存款为y =1.2×10+3.6=15.6(千亿元). 四、探究与拓展14.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y =bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 解 (1)x =8+8.2+8.4+8.6+8.8+96=8.5,y =16(90+84+83+80+75+68)=80.∵b =-20,a =y -b x , ∴a =80+20×8.5=250, ∴线性回归方程为y =-20x +250. (2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20⎝⎛⎭⎪⎫x -3342+361.25,∴该产品的单价应定为334元,才使工厂获得的利润最大.。
高中数学 第一章 统计案例 例析回归分析思想素材 北师大版选修1-2(1)
例析回归分析思想1、相关性检验相关性检验是统计中的假设检验,根据公式计算r 的值。
当|r|越接近于1,相关程度越强;当|r|越接近于0,相关程度越弱,具体步骤: (1)假设x 与y 不具有线性相关关系。
(2)根据小频率0.05查表得出r 的一个临界值05.0r 。
(3)根据公式计算出样本相关系数r 的值。
(4)统计推断,若|r|>05.0r ,具有线性相关关系;若|r|≤05.0r ,不具有线性相关关系。
2、线性回归分析一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程。
回归分析的一般步骤为: (1)从一组数据出发,求出两个变量的相关系数r ,确定二者之间是否具有线性相关关系。
(2)如果具有线性相关关系,求出回归方程∧∧∧+=a x b y ,其中∧a 是常数项,∧b 是回归系数。
(3)根据回归方程,由一个变量的值,预测或控制另一个变量的值。
下面通过例题加以分析:例1、在10年期间,一城市居民的年收入与某种商品的销售额之间的关系有如下数据:(1)画出散点图;(2)如果散点图中的各点大致分布在一条直线的附近,求y 与x 之间的回归直线方程。
解:(1)散点图如图所示:(2))10)(10(102101221012101y y x x yx yx r i ii i i i i --⋅-=∑∑∑====)1.391015857)(97.371067.14663(1.3997.37109.1520222⨯-⨯-⨯⨯-952.0≈。
查得632.005.0=r ,因r >05.0r ,说明该城市居民的年收入与该商品的销售额之间存在着显著的线性相关关系。
447.1461.24663.35697.371067.146631.3997.37109.152021010221012101≈=⨯-⨯⨯-=-⋅-=∑∑==∧xx yx yx b i i i ii , x b y a ∧∧∧-==39.1-1.447×37.97≈-15.843,因此所求的回归直线方程是∧∧∧+=a x b y =1.447x -15.843。
高中数学第一章统计案例1.1回归分析学案含解析北师大版选修1
学习资料§1 回归分析授课提示:对应学生用书第1页[自主梳理]一、线性回归方程y =a +bx 的求法 1.平均值的符号表示 假设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),在统计上,用错误!表示一组数据x 1,x 2,…,x n 的平均值,即错误!=________=________;用错误!表示一组数据y 1,y 2,…,y n 的平均值,即错误!=________=________。
2.参数a 、b 的求法 b =l xyl xx=______________=______________,a =______________。
二、相关系数1.相关系数r 的计算假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,,y n ),则变量间线性相关系数r =错误!=______________=______________。
2.相关系数r 的性质(1)r 的取值范围为________;(2)|r |值越大,误差Q 越小,变量之间的线性相关程度越________; (3)|r |值越接近0,Q 越大,变量之间的线性相关程度越________. 3.相关性的分类(1)当________时,两个变量正相关; (2)当________时,两个变量负相关; (3)当________时,两个变量线性不相关. 曲线方程 曲线图形 变换公式变换后的线性函数y =ax bc =ln a v =ln x u =ln y ______y =a e bxc =ln a u =ln y______y =a e 错误!c =ln a v =错误! u =ln y y =a + ______b ln xv =ln x u =y______1.下列变量是相关关系的是( ) A .人的身高与视力B .圆心角的大小与其所对的圆弧长C.直线上某点的横坐标与纵坐标D.人的年龄与身高2.已知回归方程y=1.5x-15,则下面正确的是()A。
高中数学 第一章 统计案例教案 北师大版选修12
第一章统计案例§1回归分析1.1 回归分析1.2 相关系数1.3 可线性化的回归分析(教师用书独具)●三维目标1.知识与技能(1)通过对典型案例的探究,了解回归的基本思想、方法及初步应用.(2)了解相关系数r的含义,会根据两个随机变量的线性相关系数判断它们之间的线性相关程度.(3)能将非线性回归问题转化为线性回归问题来解决.2.过程与方法在分析和探讨变量之间的线性关系的过程中,体会统计推理由直观到严谨的过程,进一步了解统计推理的基本方法和基本思想,发展统计思维能力.3.情感、态度与价值观通过对两个随机变量进行回归分析,并根据回归方程对数据进行预测,认识和体会统计推理及其方法在解决实际问题中的作用,感受数学与生活的密切联系.●重点难点重点:(1)回归分析的基本思想和方法.(2)判断两个随机变量是否线性相关.难点:(1)对两个随机变量是否线性相关进行判断.(2)求线性回归方程.本节的教学,要通过具体问题的解决,引导学生复习回顾利用最小二乘法求变量之间的线性回归方程的方法,以及如何根据线性回归方程,对数据进行估计.教学中,要通过引导学生探究,明确在求线性回归方程时,要对变量是否线性相关作出判断的必要性以及判断方法.判断方法有两种:散点图法—定性判断,相关系数法—定量判断.(教师用书独具)●教学建议1.通过学生熟悉的实际问题引入课题,为学习创设情境,拉近数学与现实的距离,激发学生的求知欲,调动学生主动参与的积极性.2.在教学中,要引导学生探究两个变量相关性的判断方法,感悟两个变量相关性判断的必要性.3.在鼓励学生主体参与的同时,不可忽视教师的主导作用,具体体现在设问、讲评和规范等方面,要教会学生清晰的思维、准确地计算,要引导学生感悟定性判断与定量判断之间的辩证关系.●教学流程情境引入⇒如何判断线性相关⇒如何判断线性相关的程度⇒线性回归方程的应用⇒可线性化的回归分析⇒归纳总结,深化认识1.自变量取值一定时,若因变量的取值也随之确定,则这两个变量之间的关系称为什么关系?若因变量的取值具有随机性呢?【提示】函数关系,相关关系.2.类比用函数图像研究函数,具有相关关系的两个变量可用什么研究?【提示】散点图.1.回归分析设变量y对x的线性回归方程为y=a+bx,由最小二乘法知系数的计算公式为:b =l xy l xx=∑i =1n x i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a =y -b x .2.相关系数 (1)相关系数r 的计算假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r =l xyl xx l yy=∑i =1nx i -xy i -y∑i =1nx i -x2∑i =1ny i -y2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2∑i =1ny 2i -n y2.(2)相关系数r 与线性相关程度的关系 ①r 的取值范围为[-1,1];②|r |值越大,误差Q 越小,变量之间的线性相关程度越高; ③|r |值越接近0,误差Q 越大,变量之间的线性相关程度越低. (3)相关性的分类①当r >0时,两个变量正相关; ②当r <0时,两个变量负相关;③当r=0时,两个变量线性不相关.一根弹簧的长度y(单位:厘米)在不同拉力x(单位:牛顿)的作用下的数据如下表:(1)求出该弹簧长度y 对拉力x 的线性回归方程; (2)预测拉力为18牛顿时的弹簧长度是多少?【思路探究】 根据样本点数据画出散点图.利用散点图直观分析弹簧长度y 与拉力x 具有线性相关关系,利用线性回归方程中参数的计算公式可得线性回归方程.【自主解答】 (1)作出散点图如图所示:由散点图可看出,两个变量呈现出近似的线性关系,可以建立弹簧长度y 对拉力x 的线性回归方程.将已知数据列成下表:由此可得x =6=17.50,y =6≈9.49,进而可求得b =1 076.20-6×17.50×9.492 275-6×17.502≈0.18, a =9.49-0.18×17.50=6.34.于是,y 对x 的线性回归方程为y =6.34+0.18x .(2)由线性回归方程可知当拉力为18牛顿时,弹簧长度的估计值为6.34+0.18×18=9.58(厘米).1.回归分析是定义在具有相关关系的两个变量基础上的,因此,在作回归分析时,要先判断这两个变量是否相关,利用散点图可直观地判断两个变量是否相关.2.利用回归直线,我们可以进行预测.若回归直线方程y=a+bx,则x=x0处的估计值为y0=a+bx0.3.线性回归方程中的截距a和斜率b都是通过样本估计而得到的,存在着误差,这种误差可能导致预报结果的偏差,所以由线性回归方程给出的是一个预报值而非精确值.......................4.回归直线必过样本点的中心点.假定单位面积小麦基本苗数x 与成熟期有效穗y 是线性相关的,今测得5组数据如下:求【解】 设线性回归方程为y =a +bx . 则x =30.36,y =43.5,x 2=921.729 6,x y =1 320.66,∑i =15x i y i =6 746.76,∑i =15x 2i =5 101.56.所以b =∑i =15x i y i -5x y∑i =15x 2i -5x 2≈0.291,a =y -b x ≈34.67,∴所求的线性回归方程为y =34.67+0.291x .当x =56.7时,y =34.67+0.291×56.7=51.170. 估计成熟期有效穗为51.170.下表为某地近几年机动车辆数与交通事故数的统计资料,请判断交通事故数与机动车辆数是否有线性相关关系.机动车辆数x/千台95110112120129135150180 交通事故数y/千件6.27.57.78.58.79.810.213.0断交通事故数y与机动车辆数x是否线性相关.【自主解答】将数据列成下表:i x i y i x2i y2i x i y i195 6.29 02538.44589.021107.512 10056.25825.031127.712 54459.29862.441208.514 40072.25 1 020.051298.716 64175.69 1 122.361359.818 22596.04 1 323.0715010.222 500104.04 1 530.0818013.032 400169.00 2 340.0∑ 1 03171.6137 835671.009 611.7 由此可得x=128.875,y=8.95.进而求得r=9 611.7-8×128.875×8.95137 835-8×128.8752×671.00-8×8.952≈0.992 7.因为r>0.75,所以可以得出交通事故数y和机动车辆数x有较强的线性相关程度.1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多.需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.2.利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若r>0.75,则线性相关较为显著,否则为不显著.现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x)与入学后第一次考试的数学成绩(y)如下:【解】 x =110×(120+108+…+99+108)=107.8, y =110(84+64+…+57+71)=68,∑i =110x 2i =1202+1082+…+992+1082=116 584, ∑i =110y 2i =842+642+…+572+712=47 384, ∑i =110x i y i =120×84+108×64+…+99×57+108×71=73 796. 所以相关系数为r =73 796-10×107.8×68116 584-10×107.8247 384-10×682≈0.750 6.由此可看出这10名学生的两次数学成绩具有较强的线性相关关系.可线性化的回归分析某地区的女性在不同年龄段的身高平均值x (单位:cm)和体重平均值y (单位:kg)的数据如下表:(2)若体重超过相同身高的女性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高175 cm、体重82 kg的女性的体重是否正常?【思路探究】由样本点画出散点图,找出拟合函数曲线,转化为线性回归模型解题.注意最后要将中间变量值用x代换.【自主解答】(1)根据上表中的数据画出散点图如图所示:由图可看出,样本点分布在某条类似指数函数曲线y=e c1+c2x的周围,其中c1和c2是待定的系数,令z=ln y,变换后的样本数据表如下:设z与x之间的线性回归模型为z=a+bx,则由表中数据得b≈0.020,a=z-b x≈0.625,所以z与x之间的线性回归方程为z=0.625+0.020x,所以y=e0.625+0.020x.(2)当x=175 cm时,预测平均体重y=e0.625+0.020×175≈61.87(kg),由于61.87×1.2=74.24<82,所以这位女性偏胖.非线性回归方程的求解步骤:若函数模型为y =x 2+bx +c ,则作变换t =________才能转化为y 对t 的线性回归方程. 【解析】 y =(x +b2)2+4c -b 24,令t =(x +b 2)2,则y =t +4c -b 24.【答案】 (x +b2)2求解不严谨致误某工厂在2012年的各月中,某产品的月总成本y (万元)与月产量x (吨)之间有如下数据:点后两位).【错解】 b =∑ni =1x i y i -n x y∑ni =1x 2i -n x2=0.92,a =y -b x =0.60.∴线性回归方程为y =0.92x+0.60.当x=6时,y=0.92×6+0.60=6.12(万元),即该产品1月份的总成本的估计值为6.12万元.【错因分析】未判断y与x是否线性相关就求线性回归方程,思维不严谨致误.【防范措施】在求线性回归方程之前,应先判断变量之间是否线性相关,再求回归方程,否则建立的线性回归方程没有意义.【正解】(1)散点图见下图,从图中可以看到,各点大致在一条直线附近,说明x与y有较强的线性相关关系.(2)b=∑ni=1x i y i-n x y∑ni=1x2i-n x2=0.92,a=y-b x=0.60,∴线性回归方程为y=0.92x+0.60.当x=6时,y=0.92×6+0.60=6.12(万元),即该产品1月份的总成本的估计值为6.12万元.1.解决线性回归问题的思路首先通过散点图分析两变量间是否线性相关,然后利用公式求回归方程,在此基础上,借助回归方程对实际问题进行分析.2.对于非线性回归问题,可以画出已知数据的散点图,经过比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变量置换,把问题化为线性回归分析问题.1.下列两变量中具有相关关系的是( )A.正方体的体积与边长B.人的身高与体重C .匀速行驶车辆的行驶距离与时间D .球的半径与体积【解析】 选项A 中正方体的体积为边长的立方,有固定的函数关系;选项C 中匀速行驶车辆的行驶距离与时间成正比,也是函数关系;选项D 中球的体积是43π与半径的立方相乘,有固定函数关系.只有选项B 中人的身高与体重具有相关关系.【答案】 B2.某产品的广告费用x 与销售额y 的统计数据如下表:售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元【解析】 x =4+2+3+54=3.5,y =49+26+39+544=42,∴a =y -b x =42-9.4×3.5=9.1,∴回归方程为y =9.4x +9.1,∴当x =6时,y =9.4×6+9.1=65.5,故选B. 【答案】 B3.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y =0.254x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】 由题意知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元.【答案】 0.2544.两个变量满足如下关系:【解】 由表可得:∑5i =1x 2i =1375,∑5i =1y 2i =59 051,∑5i =1x i y i =8 285,x =15,y =108.6.∴r =∑5i =1x i y i -5x y∑5i =1x 2i -5x2∑5i =1y 2i -5y2=8 285-5×15×108.61 375-5×1525 9051-5×108.62≈0.982 6.因此可说两个变量的线性相关程度很强.一、选择题1.下列两个变量具有相关关系的是( ) A .正方体的体积与边长B .匀速行驶的车辆的行驶距离与行驶时间C .人的身高与体重D .人的身高与视力【解析】 A 、B 是函数关系,D 无相关关系.相关关系是一种不确定的关系. 【答案】 C2.随机抽样中测得四个样本点为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( )A .y =x +1B .y =x +2C .y =2x +1D .y =x -1【解析】 x =1+2+3+44=52,y =2+3+4+54=72.因为回归直线一定过点(x,y),所以A项符合要求.【答案】 A3.设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图1-1-1),以下结论正确的是( )图1-1-1A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同【解析】由样本的中心(x,y)落在回归直线上可知A正确;x和y的相关系数表示为x与y之间的线性相关程度,不表示直线l的斜率,故B错;x和y的相关系数应在-1到1之间,故C错;分布在回归直线两侧的样本点的个数并不绝对平均,无论样本点个数是奇数还是偶数,故D错.【答案】 A4.为了考查两个变量x和y之间的线性相关性,甲、乙两名同学各自独立地做了10次试验和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都为t,那么下列说法中正确的是( )A.直线l1和l2都过点(s,t)B.直线l1和l2相交,但交点不一定是(s,t)C.直线l1和l2必平行D.直线l1和l2必重合【解析】线性回归方程y=bx+a恒过点(x,y),故直线l1和l2都过点(s,t).【答案】 A5.若已知∑(x i-x)2是∑(y i-y)2的两倍,∑(x i-x)(y i-y)是∑(y i-y)2的1.2倍,则相关系数r的值是( )A.21.2B.1.22C.0.92 D.0.65【解析】由题意知r=∑i=1nx i-x y i-y∑i=1nx i-x2∑i=1ny i-y2=1.2∑i=1ny i-y22∑i=1ny i-y2·∑i=1ny i-y2=1.22.【答案】 B二、填空题6.已知变量y对x的线性回归方程为y=-0.81+0.50x,则当x=25时,y的估计值为________.【解析】当x=25时,y的估计值为-0.81+0.50×25=11.69.【答案】11.697.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温(℃)181310-1用电量(度)24343864℃时,用电量约为________.【解析】∵x=18+13+10-14=10,y=24+34+38+644=40,y=-2x+a过(10,40),∴a=40+2×10=60,∴y=-2x+60. 当x=-4时,y=-2×(-4)+60=68.【答案】68度8.若回归直线方程中的回归系数b=0,则相关系数r=________.【解析】对比线性相关系数和线性回归方程系数b的求解公式:r=∑ni=1x i y i-n x y∑n i=1x2i-n x2∑ni=1y2i-n y2和b=∑ni=1x i y i-n x y∑ni=1x2i-n x2,可以发现其分子相同,故b=0,可推得r=0.【答案】0三、解答题9.某连锁经营公司所属的5个零售店某月的销售额和利润情况如下表:商店名称 A B C D E销售额x/千万元35679利润y/百万元2334 5用最小二乘法计算利润y对销售额x的线性回归方程.(判断相关性利用两种方法)【解】判断相关性先利用散点图大体观察是否具有相关性,散点图如下:通过散点图可知,两个变量具有相关性,下面通过计算再次明确是否具有相关性(根据上表数据,可以算出:x=6,y=3.4),其他数据见下表:x i y i x2i y2i x i y i进而可求得r =200-5×6263-5×3.42≈0.98,相关系数非常接近1,因此两个变量具有显著的线性相关性,b =112-5×6×3.4200-5×62=0.5,a =3.4-0.5×6=0.4,故所求线性回归方程为y =0.5x +0.4.10.某小卖部为了解雪糕销售量与气温之间的关系,随机统计并制作了卖出雪糕数与当天气温的对照表:【解】 由表中数据可得:∑i =18x 2i =6 466,∑i =18x i y i =8 884,x =28,y =37.25,进而可以求得b =∑i =18x i y i -8x y∑i =18x 2i -8x 2=8 884-8×28×37.256 466-8×282≈2.78, a =y -b x ≈37.25-2.78×28=-40.59.∴线性回归方程为y =-40.59+2.78x . 把x =37代入,得y ≈62,∴预测气温为37 ℃时,卖出雪糕的数量约为62根.11.某种图书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:y 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15检测每册书的成本费y 与印刷册数的倒数1x之间是否具有线性相关关系,如有,求出y对x 的回归方程.【解】 首先作变量转换u =1x,题目所给数据变成如下表所示的数据:i 1 2 3 4 5 6 7 8 9 10 u i 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y i10.155.524.082.852.111.621.411.301.211.15可以求得,r =∑10i =1 u i -uy i -y∑10i =1u i -u 2∑10i =1y i -y2≈0.999 8.因此,变量y 与u 之间具有较强的线性相关关系.经计算得b ≈8.973,a ≈1.125,最后回代u =1x可得,y =1.125+8.973x.(教师用书独具)某商店经营一批进价为每件4元的商品,在市场调查时发现,此商品的销售单价x(元)与日销售量y(件)之间有如下关系:x 5678y 1087 3经计算得:x与y具有线性相关关系,且∑4i=1 (x i-x)(y i-y)=-11,∑4i=1(x i-x)2=5,为使日利润最大,则销售单价应定为多少元?【思路探究】本题具有综合性,首先求得线性回归方程,再利用函数思想求得关于利润的关系式,转化为二次函数知识求解.【自主解答】由b=∑ni=1x i-x y i-y∑n i=1x i-x2=-115=-2.2,结合数表可得x=6.5,y=7.由y=b x+a,得a=y-b x=7-(-2.2)×6.5=21.3,则销售单价为x时的利润w=(x-4)(-2.2x+21.3)=-2.2x2+30.1x-85.2,当x=30.12×2.2≈6.8时,日利润最大.∴销售单价应定为6.8元.1.在求回归方程时,一般先要考查y 与x 是否具有线性相关关系,考查的方法有两种:一种是画出散点图,另一种是作相关性检验,即求相关系数.2.求解两个变量的相关系数及它们的线性回归方程的计算量较大,需要细心、谨慎地计算.如果会使用含统计的科学计算器,能简单得到∑ni =1x i ,∑ni =1y i ,∑ni =1x 2i ,∑ni =1y 2i ,∑ni =1x i y i 这些量,也就无需制表这一步,直接算出结果即可.另外,利用计算机有关应用程序也可以对这些数据进行处理.3.本题把线性回归、一次函数、二次函数巧妙地结合在一起,知识交汇是高考命题的主要思路,所以这类题目应该引起关注.某高中地处县城,学校规定家到学校路程在5里以内的学生可以走读,因交通便利,所以走读生人数很多,该校先后5次对走读生的情况进行统计,下表是根据5次调查得到的下午开始上课时间与平均每天午休的走读生人数的统计数据表:(1)如果把下午开始上课时间2:00作为横坐标原点,上课时间每推迟10分钟,横坐标x增加1,以平均每天午休人数为纵坐标,画出散点图;(2)求平均每天午休人数y与上课时间x之间的线性回归方程y=bx+a;(3)预测当下午上课时间推迟到2:50时,走读生中大约有多少人午休?【解】(1)由题意得(2)x=2,y=500,b=130,a=y-b·x=240,∴所求线性回归方程为y=130x+240.(3)下午上课时间推迟到2:50,x=5,∴y=130×5+240=890.此时午休的走读生约有890人.线性回归的来历回归分析最早是19世纪末期高尔顿所引入.高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究智力进化问题,统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的.1855年,他发表了一篇“遗传的身高向平均数方向的回归”文章,分析儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将子女与父母身高的这种现象拟合出一种线形关系.但是有趣的是,通过观察他注意到,尽管这是一种拟合较好的线性关系,但仍然存在例外现象:身材较矮的父母所生子女比其父母要高,身材较高的父母所生子女的身高将回降到人的平均身高.换句话说,当父母身高走向极端(或者非常高,或者非常矮),子女的身高不会像父母身高那样极端化,其身高要比父母们的身高更接近平均身高.高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”.关于父辈身高与子代身高的具体关系,高尔顿和他的学生K·Pearson观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年子女的身高作为因变量,结果发现两者近乎一条直线,其回归直线方程为y=33.73+0.516x,这种趋势及回归方程表明父母身高每增加一个单位时,其成年子女的身高平均增加0.516个单位.这样当然极端值就会向中心靠拢.§2独立性检验2.1 条件概率与独立事件(教师用书独具)●三维目标1.知识与技能(1)了解条件概率的概念,能利用条件概率分析和解决简单的实际问题.(2)能从条件概率的角度理解两个事件相互独立的含义,能求两个相互独立事件同时发生的概率.2.过程与方法在利用事件的独立性对生活中的随机现象进行辨析的过程中,进一步培养学生的随机观念,掌握利用概率的知识,分析解决实际问题的方法.3.情感、态度与价值观通过利用概率知识解决简单的实际问题,进一步体会和感受数学知识在生活中的应用,培养随机意识.●重点难点重点:两个事件相互独立的概念及相应概率的计算.难点:对条件概率的概念的理解及相应计算.本节中条件概率的引入,目的是为了讲解事件的独立性.因此,在教学中,要引导学生探究如何从条件概率的角度来理解事件间的独立性.对于条件概率,可通过一些简单的问题,让学生理解其意义与求法.(教师用书独具)●教学建议1.由于条件概率的引入目的是为了讲解事件的独立性,在教学中,没有必要对条件概率的内容展开介绍.2.在教学中,要注意公式的类比与变形,由P(A|B)=P A ∩BP B类比可得到P(B|A)=P A∩BP A,变形可得到P(A∩B)=P(A|B)·P(B).3.如果事件A,B相互独立,则事件A与B,A与B,A与B也相互独立,课堂上可以以事件A与B相互独立为例,给出证明过程,深化学生对事件独立性的认识.●教学流程情境引入⇒实例探究⇒抽象概括:条件概率的定义及计算公式⇒实例探究⇒抽象概括:两事件独立的定义及其同时发生的概率的计算方法⇒应用实例及变式训练⇒归纳提升条件概率一个家庭有两个孩子,假设男女出生率一样.(1)这个家庭一男一女的概率是多少?(2)预先知道这个家庭中至少有一个女孩,这个家庭一男一女的概率是多少?【提示】 (1)12,(2)23.(1)概念:已知事件B 发生的条件下,A 发生的概率称为B 发生时A 发生的条件概率,记为P (A |B ).(2)公式:当P (B )>0时,P (A |B )=P ABP B.相互独立事件在一次数学测试中,甲考满分,对乙考满分有影响吗? 【提示】 没有影响.(1)定义:对两个事件A ,B ,如果P (AB )=P (A )P (B ),则称A ,B 相互独立. (2)性质:如果A ,B 相互独立,则A 与B ,A 与B ,A 与B 也相互独立.(3)如果A 1,A 2,…,A n 相互独立,则有P (A 1A 2…A n )=P (A 1)P (A 2)…P (A n ).条件概率问题在100件产品中有95件合格品,5件不合格品,现从中不放回地取两次,每次任取一件,试求:(1)第一次取到不合格品的概率;(2)在第一次取到不合格品后,第二次再次取到不合格品的概率.【思路探究】 求解的关键是判断概率的类型.第一问是古典概型问题;第二问是条件概率问题.【自主解答】 设“第一次取到不合格品”为事件A ,“第二次取到不合格品”为事件B .(1)P (A )=5100=0.05.(2)法一 第一次取走1件不合格品后,还剩下99件产品,其中有4件不合格品.于是第二次再次取到不合格品的概率为499,这是一个条件概率,表示为P (B |A )=499.法二 根据条件概率的定义计算,需要先求出事件AB 的概率.P (AB )=5100×499, ∴有P (B |A )=P ABP A =5100×4995100=499.1.注意抽取方式是“不放回”地抽取.2.解答此类问题的关键是搞清在什么条件下,求什么事件发生的概率. 3.第二问的解法一是利用缩小样本空间的观点计算的,其公式为P (B |A )=n ABn A,此法常应用于古典概型中的条件概率求法.在例1题设的条件下,试求在第一次取到合格品后,第二次取到不合格品的概率. 【解】 法一 第一次取走1件合格品后,还剩下99件产品,其中有5件不合格品,于是第二次取到不合格品的概率为599.法二 ∵P (A B )=95100×599,∴P (B |A )=PA B PA=95100×59995100=599.独立事件的判定对于下列给出的两个事件:①甲、乙两同学同时解一道数学题,事件A 表示“甲同学做对”,事件B 表示“乙同学做对”;②在某次抽奖活动中,记事件A 表示“甲抽到的两张奖券中,一张中一等奖,另一张未中奖”,事件B 表示“甲抽到的两张奖券均中二等奖”;③一个布袋里有3个白球和2个红球,记事件A ,B 分别表示“从中任意取一个是白球”与“取出的球不放回,再从中任取一球是红球”;④在有奖储蓄中,记甲在不同奖组M 和N 中所开设的两个户头分别中一等奖为事件A 和B .其中事件A 和事件B 相互独立的是( ) A .①② B .①④ C .③④ D .仅有①【思路探究】 判断事件A 与事件B 是否相互独立,就是要看事件A 的发生对事件B 的发生是否有影响.【自主解答】判断两个事件是不是相互独立有以下两种方法:(1)由定义,若P(AB)=P(A)P(B),则事件A与B相互独立.(2)由事件本身的性质直接判断,也就是判断一个事件的发生对另一个事件有没有影响.下列事件A,B是独立事件的是( )A.一枚硬币掷两次,A=“第一次为正面”,B=“第二次为反面”B.袋中有4个小球,其中2个白球,2个黑球,不放回地摸两次,A=“第一次摸到白球”,B=“第二次摸到白球”C.掷一枚骰子,A=“出现点数为奇数”,B=“出现点数为偶数”D.A=“人能活到30岁”,B=“人能活到60岁”【解析】由独立事件的意义可定性地判断B,C,D中,其中一个事件的发生对另一个事件有一定的影响.故选A.【答案】 A甲、乙两名篮球运动员分别进行一次投篮,如果两人投中的概率都是0.6.求:(1)两人都投中的概率;(2)其中恰有一人投中的概率;(3)至少有一人投中的概率.【思路探究】本题的着眼点是①事件性质的判断;②概率公式的选择;③“正难则反”的转化.【自主解答】设A为“甲投篮一次,投中”,B为“乙投篮一次,投中”.(1)易知AB为“两人各投篮一次,都投中”,由题意知,事件A与B相互独立,∴P(AB)=P(A)P(B)=0.6×0.6=0.36.(2)事件“两人各投篮一次,恰好有一人投中”包括两种情况:一种是甲投中,乙未投中(事件A B发生),另一种是甲未投中,乙投中(事件A B发生).根据题意,这两种情况在各投篮一次时不可能同时发生,即事件A B与A B互斥,并且A与B,A与B各自相互独立,因而所求概率为P(A B)+P(A B)=P(A)P(B)+P(A)P(B)=0.6×(1-0.6)+(1-0.6)×0.6=0.48.(3)事件“两人各投篮一次,至少有一人投中”的对立事件“两人各投篮一次,均未投中”的概率是P(A B)=P(A)P(B)=(1-0.6)×(1-0.6)=0.16.因此,至少有一人投中的概率为1-P(A B)=1-0.16=0.84.1.求解某些事件的概率时,应首先确定事件间的关系,即两事件是互斥事件,还是相互独立事件.再选择相应的概率公式进行概率计算.2.求解含有“恰有”“至少”“至多”等词语的概率问题,通常转化为求其对立事件的概率,即利用P(A)=1-P(A)求解.有n位同学参加某项选拔测试,每位同学能通过测试的概率都是p(0<p<1),假设每位同学能否通过测试是相互独立的,则至少有一位同学能通过测试的概率为( ) A.(1-p)n B.1-p nC.p n D.1-(1-p)n【解析】至少有一位同学通过测试的对立事件为无人通过测试,其概率为(1-p)n.应用对立事件的概率求解知,至少有一位同学通过测试的概率为1-(1-p)n.【答案】 D事件理解不清致误袋中有6个黄色、4个白色的乒乓球,作不放回抽样,每次任取一球,取2次,则在发现其中之一是黄色的时,另一个也是黄色的概率为________.【错解】P=610×59=49.【答案】4 9【错因分析】将该事件错误地认为是在第一次取出黄色的乒乓球的条件下,第二次取出的也是黄色的乒乓球.【防范措施】在求概率时,首先要弄清楚随机试验是什么?属于什么概型?其次要判断清楚事件的性质.“其中之一是黄色的”包含三个事件:①第一个是黄色的,第二个是白色的;②两个都是黄色的;③第一个是白色的,第二个是黄色的.。
高中数学第一章统计案例1回归分析教案含解析北师大版选修1_2
1回归分析回归分析1.线性回归方程设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),线性回归方程为y =a +bx . 则l xx =∑i =1n(x i -x -)2=∑i =1nx 2i -n x 2,l xy =∑i =1n (x i -x -)(y i -y -)=∑i =1nx i y i -n x - y -,l yy =∑i =1n (y i -y -)2=∑i =1ny 2i -n y -2,b =l xy l xx=∑i =1nx i -x-y i -y-∑i =1nx i -x-2=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2,a =y --b x -.2.相关系数计算r =l xyl xx l yy=∑i =1nx i -xy i -y∑i =1nx i -x2∑i =1ny i -y2=∑i=1nx iy i -n x y∑i=1nx2i-n x2∑i=1ny2i-n y2性质范围r∈[-1,1]线性相关程度(1)|r|越大,线性相关程度越高;(2)|r|越接近于0,线性相关程度越低;(3)当r>0时,两个变量正相关;(4)当r<0时,两个变量负相关;(5)当r=0时,两个变量线性不相关1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.2.回归直线y=a+bx过点(x,y),其中x=1n∑i=1nx i,y=1n∑i=1ny i.3.相关系数的绝对值越接近于1,相关性越强;相关系数越接近于0,相关性越弱.线性回归方程[例1] )有如下的统计资料:使用年限x/年2345 6维修费用y/万元 2.2 3.8 5.5 6.57.0若y对x(1)请画出上表数据的散点图;(2)请根据最小二乘法求出线性回归方程;(3)预测使用年限为10年时,维修费用是多少.[思路点拨] 先利用散点图分析设备使用年限与所支出的维修费用是否线性相关,若相关再利用线性回归模型求解.[精解详析] (1)作出散点图如图所示.(2)由表知,x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+75=5,∑i =15x i y i =2×2.2+3×3.8+4×5.5+5×6.5+6×7=112.3,∑i =15x 2i =22+32+42+52+62=90, 所以b =∑i =15x i y i -n x y∑i =15x 2i -n x 2=112.3-5×4×590-5×42=1.23, a =y -b x =5-1.23×4=0.08.所以线性回归方程为y =1.23x +0.08.(3)根据(2)中的线性回归方程,可预测使用年限为10年时,维修费用约为y =1.23×10+0.08=12.38万元.[一点通] 求回归直线方程的基本步骤:1.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y=0.4x+2.3 B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+4.4解析:选A 依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5)代入A,B得A正确.2.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的线性回归方程:y=0.254x+0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:以x+1代x,得y=0.254(x+1)+0.321,与y=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.答案:0.2543.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据x 681012y 235 6(1)(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.解:(1)散点图如图:(2)∑i=1nx i y i=6×2+8×3+10×5+12×6=158,x=6+8+10+124=9,y=2+3+5+64=4,∑i=1nx2i=62+82+102+122=344.b=158-4×9×4344-4×92=1420=0.7,a=y-b^x=4-0.7×9=-2.3,故线性回归方程为y=0.7x-2.3.(3)由(2)中线性回归方程知,当x=9时,y=0.7×9-2.3=4,故预测记忆力为9的同学的判断力约为4.相关系数[例2] 关于两个变量x和y的7组数据如下表所示:x 21232527293235y 711212466115325试判断x与y之间是否有线性相关关系.[思路点拨] 首先求出r的值,再判断相关关系.[精解详析] x-=17×(21+23+25+27+29+32+35)≈27.4,y-=17×(7+11+21+24+66+115+325)≈81.3,∑i=17x2i=212+232+252+272+292+322+352=5 414,∑i=17x i y i=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542,∑i=17y2i=72+112+212+242+662+1152+3252=124 393,∴r=∑i=17x i y i-7x-y-∑i=17x2i-7x-2∑i=17y2i-7y-2=18 542-7×27.4×81.35 414-7×27.42×124 393-7×81.32≈0.837 5.由于r≈0.837 5与1比较接近,∴x与y具有线性相关关系.[一点通] 回归分析是定义在具有相关关系的两个变量的基础上的,对于相关关系不明确的两个变量,可先作散点图,由图粗略地分析它们是否具有相关关系,在此基础上,求其回归方程,并作回归分析.4.对四对变量y和x进行线性相关检验,已知n是观测值组数,r是相关系数,且已知:①n =7,r =0.953 3;②n =15,r =0.301 2; ③n =17,r =0.499 1;④n =3,r =0.995 0. 则变量y 和x 线性相关程度最高的两组是( ) A .①和② B .①和④ C .②和④D .③和④解析:选B 相关系数r 的绝对值越大,变量x ,y 的线性相关程度越高,故选B. 5.对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3解析:选A 观察散点图可知r 1>0,r 3>0,r 2<0,r 4<0,根据散点的分散程度反映出的相关性的强弱,可知r 2<r 4<0<r 3<r 1.6.在研究硝酸钠的可溶性程度时,在不同的温度(单位:℃)下观测它在水中的溶解度,得观测结果如下:温度x 0 10 20 50 70 溶解度y66.776.085.0112.3128.0解:∑5i =1x i =150,∑5i =1y i =468,∑5i =1x 2i =7 900,∑5i =1y 2i =46 445.18, x =30,y =93.6,∑5i =1x i y i =17 035, r =∑5i =1x i y i -5x y∑5i =1x 2i -5x 2∑5i =1y 2i -5y2=17 035-5×30×93.67 900-5×302×46 445.18-5×93.62≈0.999 6.可线性化的回归分析问题[例3] 为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下:时间x/天12345 6繁殖个数y 612254995190(1)作出这些数据的散点图;(2)求y与x之间的回归方程.[思路点拨] 作出数据的散点图,选择合适的函数模型转化为线性模型.[精解详析] (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y=c1e c2x图像的周围,于是令z=ln y,则x 12345 6z 1.79 2.48 3.22 3.89 4.55 5.25则有y=e0.69x+1.112.[一点通] 可线性化的回归方程的求解步骤:7.下列数据x,y符合哪一种函数模型( )x 12345678910y 2 2.693 3.38 3.6 3.84 4.08 4.2 4.3x B.y=2e xA.y=2+3。
2017-2018学年高中数学 第一章 统计案例 1.1 回归分析 1.1.1 回归分析 1.1.2 相关系数课件 北师大版选修1-2
年龄 x/岁 4
5
6
7
8
9
10
身高 y/cm 100 106 112 116 121 124 130
求y对x的线性回归方程. 思路分析:根据求回归系数的公式求a,b,再写出回归直线方程.
探究一
探究二
探究三
思维辨析
解:制表
i
123456
xi
456789
yi 100 106 112 116 121 124
探究一
探究二
探究三
思维辨析
������ = 1 15515=101,������ = 15115.7≈10.11,
15
15
15
5, ∑ xiyi=16 076.8.
������=1
i=1
������=1
故蔬菜产量与施用氮肥量的相关系数
所以当每单位面积施氮肥 150 kg 时,每单位面积蔬菜年平均产
量为 0.646 3+0.093 7×150≈14.701(t).
探究一
探究二
探究三
思维辨析
反思感悟线性回归分析的简要步骤 1.随机抽取样本,确定样本数据. 2.判断两变量是否具有线性相关关系,可画出散点图用散点图判 断;也可计算相关系数r,用相关系数作出判断. 3.若两变量线性相关,用最小二乘法求出回归直线方程. 4.分析模型的拟合效果,看有无特殊点,不合适时,分析错因,加以 纠正. 5.依据回归方程作出预报.
() (4)因为由任何一组观测值都可以求得一个线性回归方程,所以没有 必要进行相关性检验. ( ) (5)回归分析是具有相关关系的两个变量进行统计分析的一种方法.
()
答案:(1)√ (2)√ (3)√ (4)× (5)√
北师大版选修1-2 第一章 1.1 回归分析 课件(48张)
第一章 统计案例
散点图在回归分析过程中的作用是( ) A.统计个体个数 B.比较个体数据的大小 C.研究个体分类 D.粗略判断变量是否线性相关 答案:D
栏目 导引
第一章 统计案例
关于变量 y 与 x 之间的线性回归方程叙述正确的是( ) A.表示 y 与 x 之间的一种确定性关系 B.表示 y 与 x 之间的相关关系 C.表示 y 与 x 之间的最真实的关系 D.表示 y 与 x 之间真实关系的一种效果最好的拟合 解析:选 D.线性回归方程最大可能地反映 y 与 x 之间的真实关 系.
栏目 导引
第一章 统计案例
A.变量 x 与 y 正相关,u 与 v 正相关 B.变量 x 与 y 正相关,u 与 v 负相关 C.变量 x 与 y 负相关,u 与 v 正相关 D.变量 x 与 y 负相关,u 与 v 负相关
栏目 导引
第一章 统计案例
(2)如图所示有 5 组数据,去掉________后,剩下的 4 组数据的 线性相关性更强.
栏目 导引
2.线性回归方程的求法
第一章 统计案例
(1)作散点图进而判断两个变量是否具有线性相关关系.
(2)求线性回归方程中的未知系数 a,b.
(3)写出线性回归方程 y=bx+a,并利用线性回归方程进行说
明.
注意:对于某一个 xi,由线性回归方程 y=bx+a 可以确定一 个 yi,但由于测量本身存在误差,或者受其他因素的影响,或 者线性回归方程本身存在误差,或者受某一些随机因素的影
响,使得 yi 与测得的实际数据之间很可能存在误差,一般情况 下并不相等.
栏目 导引
第一章 统计案例
散点图及其应用 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度 y 与 腐蚀时间 x 的一组数据如下表所示:
高中数学 第一章 统计案例 变量间的相关关系、回归分析及独立性检验知识精讲素材 北师大版选修1-2(
变量间的相关关系、回归分析及独立性检验【知识精讲】1.会作两个相关变量的数据的散点图,会利用散点图认识变量的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 3.掌握独立检验(只要求2×2列联表)的基本思想、方法简单应用. 4. 掌握假设检验和聚类分析的基本思想、方法简单应用. 【基础梳理】1.相关关系的量:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.2.回归分析:对具有相关关系的两个变量进行统计分析的方法叫做回归分析. 3.散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.4.正相关与负相关概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.6.相关系数:r =∑∑∑===---ni ini ini iiy n yx n xyx n yx 1221221叫做变量y 与x 之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度.7.相关系数的性质:|r|≤1,且|r|越接近1,相关程度越大;且|r|越接近0,相关程度越小.8.独立性检验:一般地,假设有两个分类变量X 和Y ,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:2×2列联表若要推断的论述为H1:X 与Y 有关系,可以按如下步骤判断结论H1成立的可能性: (1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.①在三维柱形图中,主对角线上两个柱形高度的乘积ad 与副对角线上的两个柱形高度的乘积bc 相差越大,H1成立的可能性就越大.②在二维条形图中,可以估计满足条件X =x1的个体中具有Y =y1的个体所占的比例ba a+ ,也可以估计满足条件X =x2的个体中具有Y =y2的个体所占的比例.“两个比例的值相差越大,H1成立的可能性就越大.”(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:①根据实际问题需要的可信程度确定临界值k0;②利用公式K 2=d)c)(b d)(a b)(c (a bc)-ad n 2++++( ,由观测数据计算得到随机变量K 2的观测值k ;③如果k >k0,就以(1-P(K2≥k0))×100%的把握认为“X 与Y 有关系”;否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据. 【要点解读】要点七 相关关系的判断【例7】山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x 对产量y 影响的试验,得到如下表所示的一组数据(单位:kg).(1)画出散点图;(2)判断是否具有相关关系.【命题立意】考查相关关系的分析方法.【标准解析】用施化肥量x 作为横轴,产量y 为纵轴可作出散点图,由散点图即可分析是否具有线性相关关系.【误区警示】正确选择坐标描点,并准确观察散点的实际分布判断两变量的正相关和负相关是常用方法.【答案】(1)散点图如右图所示,(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.【变式训练】(2009·宁夏、海南)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u、v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关【标准解析】由图(1)可知,各点整体呈递减趋势,x与y负相关,由图(2)可知,各点整体呈递增趋势,u与v正相关.【技巧点拨】注意正负相关的判断标准.【答案】C要点八线性回归分析【例8】一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y与x进行相关性检验;(2)如果y与x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?【命题立意】考查线性回归分析方法。
高中数学第一章统计案例1.1回归分析残差分析的相关概念辨析及应用素材北师大版选修
残差分析的相关概念辨析及应用在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差^^2^1,,,n e e e 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.残差分析一般有两种方法:(1)作残差图;(2)利用相关指数R 2来刻画回归效果..,,2,1,^^^^n i a x b y y y e i i i i i =--=-= ^i e 称为相应于点(x i ,y i )的残差.类比样本方差估计总体方差的思想,可以用)2)(,(2121^^1^2^2>-=-=∑=n b a Q n e n n i i σ 作为σ2的估计量,其中^a 和^b 由公式x b y a ^^-=, ∑∑==---=ni ini i ix xy y x xb 121^)())((给出,Q(^a ,^b )称为残差平方和.可以用^2σ衡量回归方程的预报精度.通常,^2σ越小,预报精度越高.例1.设变量x,y 具有线性相关关系,试验采集了5组数据,下列几个点对应数据的采集可能有错误的是( )A 点A B.点B C.点C D.点E思路与技巧 由散点图判断出,点A,B,C,D,F 呈线性分布,E 点远离这个区域,说明点E 数据有问题. 解答D评析 可以用Excel 画散点图,样本的散点图可以形象的展示两个变量的关系,画散点图的目的是用来确定回归模型的形式,若散点图呈条状分布,则x 与y 有较好的线性相关关系,散点图除了条状分布,还有其他形状的分布.例2.为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6根弹簧进行测量,得如下数据:(1)画出散点图.(2)如果散点图中的各点大致分布在一条直线的附近,求y 与x 之间的回归直线方程. (3)求出残差,进行残差分析.思路与技巧 可以用Excel 画散点图,由散点图发现x 与y 是否呈线性分布,由此判断x 与y 之间是否有较好的线性相关关系,若有,求出线性回归方程,再画出残差图,进行残差分析.解答 (1)由Excel表格画散点图如图(2)设yˆ=bx+a是线性回归直线方程,以重量为横坐标,以残差为纵坐标画残差图如图由残差图看出,这些样本点的残差对应点均匀地落在水平带状区域内,宽度越窄,说明模型拟合精度越高,回归方程预报精度越高.评析回归模型中,残差变量不能被直接观测到,必须通过模型拟合后计算得到.画残差散点图的目的就是直观观测残差图,发现观测数据中可能出现的错误及所用模型是否恰当,若样本点残差较大,需确认这个点在采集过程中是否存在错误,若有,需重新采集数据,重新利用数据拟合.若采集数据没有错误,就另找原因.若残差点比较均匀地落在水平带状区域内,说明选用模型较合适,带状区域宽度越窄,模型拟合精度越高,回归方程预报精度越高.同学们学习残差时应明确以下几点:(1)误差e受许多条件的影响,也受所选用的线性模型的影响,因此线性模型往往只是一种近似的模型.(2)作残差图有时不够精确,也难于认定拟合程度的好坏,因而多数情况下,选用计算相关指数R2来说明拟合效果.(3)可以对某组数据采用几种不同的回归方程进行分析,也可以比较几个R2的值,选择R2大的模型作为这组数据的回归模型.(4)回归方程只适用于我们所研究的样本的总体;建立的回归方程一般都有时间性;样本取值的范围会影响回归方程的适用范围,一般不能超过这个范围,否则没有实用价值;不能期望回归方程得到的预报值就是预报变量的精确值,它是预报变量的可能取值的平均值。
高中数学第一章统计案例1.1回归分析1.1.2相关系数知识导航素材北师大版(1)
1.1.2 相关系数自主整理判断两个变量之间的线性相关关系的方法有(1)_________________;(2)_________________. 高手笔记1.假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r 的计算公式为:r=yyxx xy l l l =∑∑∑===----ni in i ini iiy y x x y y x x 12121)()())((=∑∑∑===---ni ini iini iy n y x n x yx n yx 1221221)()(.2.r∈[-1,1],(1)|r|值越大,误差Q 越小,变量之间的线性相关程度越高.(2)|r|值越接近0,Q 越大,变量之间的线性相关程度越低. (3)当r >0时,l xy >0,b=xxxy l l >0,两个变量正相关;当r <0时,l xy <0,b=xxxy l l <0,两个变量负相关;当r=0时,两个变量线性不相关. 3.线性相关系数的计算:线性相关系数是用来衡量两个变量之间线性相关关系强弱的一个量.计算时一般是在求线性回归方程的基础上,一并计算出,只是在列表时需列出y i 和y i 2栏目,通常当r 大于0.75时,认为两个变量有很强的线性相关关系,从而表明建立回归模型是必要的,可用求出来的线性回归方程来预报其他量. 名师解惑为什么要计算线性相关系数?剖析:我们前一节讲了用“最小二乘法”求两变量之间的线性回归方程,而求出的线性回归方程中y 与样本中y i 存在着误差,我们用误差的平方和Q(a,b)达到最小值时的a 、b 的取值来确定线性回归方程为y=a+bx.那么拟合得好不好不一定,要想拟合得好必须使误差的平方和Q(a,b)尽可能地小,而当b=∑∑==--ni i ni iix n x yx n yx 1221)(,a=y -b x 时,Q(a,b)=∑=-ni ix x1)(=1(x i -x)2[b ∑∑==----ni ii ni ix xy y x x121)()()(]2+∑=-ni iy y1)(+n [y -(a+bx)]2∑=-ni ix x12)(·[∑∑==---ni ini iix x y yx x 121)())((]2,∴Q(a,b)最小=∑=-ni i y y 12)({1∑∑∑===-----ni ni ii ni i y yx xy y x x 111221)()()]()([}=∑=-ni iy y 12)((1-r 2). ∵Q≥0,由此可看出1-r 2≥0,即r∈[-1,1]且当|r|值越大,1-r 2越接近于0,Q(a,b)就越小,两变量之间的线性相关程度就越高,此时拟合得就越好.如果某组数据可能采取几种不同的回归方程进行分析,则可以通过比较r 的值来作出选择,即选择r 2较大的模型来作为这组数据的模型,那么,要建立一个回归模型其基本步骤大致可分为①确定研究的对象,明确哪个变量随着哪个变量变化,即弄清谁是预测变量. ②作出样本数据的散点图,观察它们之间的关系(是否存在线性关系).③由经验确定回归方程的类型(如果散点图呈现线性关系,则选用线性回归方程y=a+bx). ④列表并计算a 、b 及r 的值.⑤根据r 的取值,判断回归方程是否拟合得好,若拟合的不好,可另选回归模型重新计算. ⑥得到较为合适的回归模型后,可用来预测所需要的量.这里要注意,由回归方程得到的预报值并不一定就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值. 讲练互动【例1】维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y 来衡量,这个指标越高,耐水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x(g/L)去(1)画散点图; (2)求回归方程; (3)求相关系数r.解析:将有关数据代入公式计算. 解:(1)x =7168=24,y =794.202,b=27127177x x y x yx i ii ii --∑∑===22474144794.20224416.4900⨯-⨯⨯-=0.264 3, a=y -b x =794.202=22.649, ∴回归方程为y=22.649+0.264 3x, (3)∑=712i i y =5 892,r=∑∑∑===---71221712271)(7)(77i i ii iiy y x xyx yx=22)794.202(758922474144794.20224716.4900⨯-⨯⨯-⨯⨯-=0.96.由此可知,回归方程很好地拟合甲醛浓度与缩醛化度之间的线性关系.绿色通道由散点图可看出两变量符合线性关系,由公式计算求出回归方程和相关系数. 变式训练(1)画出数据的散点图;(2)求线性回归方程及相关系数r,并作出评价. 解:(1)x =5=109,y =5=23.2, b=25122511095609752.23109512952)(55⨯-⨯⨯-=--∑∑==i ii ii x xyx yx =1570308=0.196, a=y -b x =23.2-0.196×109=1.836, ∴回归方程为y=1.836+0.196x,r=∑∑∑===---5122512251)(5)(55i ii ii iiy yx xyx yx =222.2358.27561095609752.23109512952⨯-⨯⨯-⨯⨯-=6.651570308⨯=0.96,拟合程度较高.【例2】为了了解某地母亲身高x 与女儿身高y 的相关关系,现随机测得10对母女的身高,(1)试对x 与y 进行一元线性回归分析,并预测当母亲身高为161 cm 时,女儿的身高为多少? (2)求相关系数r,并分析模型的拟合效果. 解析:由题意知先求回归方程,再预测.(1)x =10,y =159.1,b=21012218.159102522221.1598.158********)(1010⨯-⨯⨯-=--∑∑==i ii iix xyx yx =6.472.37≈0.78. a=y -b x =159.1-0.78×158.8=35,∴回归方程为y=35+0.78x.当x=161 cm 时,y=160.58 cm,女儿身高为160.58 cm,(2)r=∑∑∑===---1012221012101)(10)(1010i ii ii iiy yx xyx yx=221591102531858.158102522221.1598.158********⨯-⨯⨯-⨯⨯-=9.566.472.37⨯≈0.715,说明用回归方程拟合的较好. 绿色通道了解相关性检验的必要性.如果不作相关性检验,我们仍然可以求出x 与y 的回归直线方程.但这时的回归直线方程已经没有任何实际价值了,它也就不能反映变量x 与y 之间的变化规律.只有在x 与y 之间具有相关关系时,求回归直线方程才有实际意义,也才可以用于预测取值的情况. 变式训练(1)写出y 关于x 的线性回归方程; (2)预测x=25时y 的取值; (3)求线性相关系数r.x =8,y =49.7,b=22101218108507.498105298)(1010⨯-⨯⨯-=--∑∑==x xyx yx i ii ii=2101322≈6.3,a=y -b x =49.7-6.3×8=-0.7, ∴线性回归方程为y=-0.7+6.3x,(2)当x=25时,y=156.8,(3)r=2101221012101)(10)(1010y y x x yx yx i i i i i ii---∑∑∑====227.4910331498108507.498105298⨯-⨯⨯-⨯⨯-=0.992 5,x 与y 之间有很强的线性关系.。
高中数学 第一章 统计案例 1.1 回归分析 利用最小二乘法求回归直线素材 北师大版选修1-2
利用最小二乘法求回归直线研究具有相关关系的两个变量,就是寻找具有相关关系的两个变量中非确定性关系的某种确定性,该分析过程称为回归分析,其思想是把相关关系(即不确定性关系)转化为确定性的函数关系.根据不同的标准可画出不同的直线来近似表示这种线性关系.比如,可以连接最左侧点和最右侧点得到一条直线;也可以让画出的直线上方的点和下方的点数目相等,……这些办法,能保证各点与此直线在整体上是最接近的吗?它们虽然都有一定的道理,但总让人感到可靠性不强.当两个具有相关关系的变量近似满足一次函数关系时,所进行的回归分析叫做线性回归分析,所求函数关系^y =bx+a 就是线性回归方程^y =bx+a 是回归方程中的斜率,a 是截距,且回归直线:观察散点图的特征,发现各点大致分布在一条直线的附近,就称这两个变量之间具有线性相关的关系,这条直线叫做回归直线.回归直线是与数据点最贴近的直线,也就是使离差的平方和Q=21)(∑=--n i i i a bx y最小的直线,即求出的回归直线使样本数据中的点到它的距离的平方和最小,由于平方又叫二乘方,所以这种使“偏差平方和最小”的方法叫做最小二乘法.实际上,求回归直线方程的关键是如何用数学的方法来刻画“从整体上看各点与此直线的距离最小”.即最贴近已知的数据点,最能代表变量x 与y 之间的关系. 本文通过几个具体例子谈谈如何根据最小二乘法的思想,借助计算器或计算机求回归直线的方程。
1.利用最小二乘法思想求回归直线的方程例1.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得数据如下:(1)y 与x 之间是否具有线性相关关系?(2)如果y 与x 具有线性相关关系,求回归直线方程.分析: 求回归直线方程和相关系数,通常是用计算器来完成的.在有的较专门的计算器中,可通过直接按键得出线性回归方程的系数和相关系数.解:(1)列出下表,并用科学计算器进行计算:查表得出相应于0.05和n-2的相关系数临界值r 0.05=0.632.由r>r 0.05知,y与x具有线性相关关系.(2)设所求回归直线方程为=bx+a .分别代入计算公式得,b≈0.668,a=54.96,即所求回归直线方程为=0.668x+54.96.点评:一般情况下,在具体问题里先进行相关性检验,通过检验确认两个变量具有线性相关关系后,再求其线性回归方程,否则,所求得的线性回归方程是无意义的.实际上,先求相关系数,再求线性回归方程并没有增加太多的计算量,因为在完成上述表格的基础上,两种结果都很容易用计算器求出.2. 注意区分y关于x的线性回归方程与x关于y的线性回归方程例2.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下:(1)y与x是否具有线性相关关系?(2)如果y与x具有线性相关关系,求①y关于x的回归直线方程;②x关于y的回归直线方程.分析:如果散点图中的各点大致分布在一条直线的附近,那么说明两变量具有线性相关关系.解:(1)画出散点图,如上图.由图可知y 与x 有线性相关关系.(2)列表、计算:①设所求的回归直线方程为yˆ=bx+a, 则由上表可得即所求的回归直线方程为:yˆ=0.668x+54.96. ②设所求回归直线方程为,ˆdy c x+=即所求回归直线方程为.09.82495.1ˆ-=y x点评:y 关于x 的线性回归方程bx a x+=ˆ与x 关于y 的线性回归方程dy c x +=ˆ一般情况下不相同,要注意区分,并熟练掌握.3. 解决实际应用问题例3.下面是我国居民生活污水排放量的一组数据:试估计1996年我国居民生活污水排放量,并预测2020年生活污水排放量(单位:108t).解析要估计或预测,可考虑先求回归直线方程,将年份与污水排放量的相关关系表达出来,可先剔除1996年,样本容量为7.解答设1995年为第1年,…,2002年为第8年,列表,用科学计算器进行有关计算:∴回归方程为y=11.45x+147.2..当x=2时,y=170.1,当x=14时,y=307.5.∴1996年污水排放量估计为170.1×108 t,2020年污水排放量估计为307.5×108 t.点评:灵活选取数据可以简化运算,故只要求分析两变量相关关系,用其解决实际问题时,可选取哈当的变量进行分析.由上面的例题分析可以看出: “最小二乘法”是求回归直线方程的最常用的方法之一,在以后的学习中同学们要逐步体会.。
高中数学第一章统计案例1.1回归分析1.1.3可线性化的回归分析知识导航素材北师大版
1.1.3 可线性化的回归分析自主整理1.在具体问题中,我们首先应该作出原始数据(x,y)的_____________,从_____________中看出数据的大致规律,再根据这个规律选择适当的函数进行拟合.2.对于非线性回归模型一般可转化为_____________,从而得到相应的回归方程. 高手笔记1.几种常见模型(1)幂函数曲线y=ax b其散点图在形如下列曲线附近.设μ=lny,v=lnx,c=lna,则转化为线性关系:μ=c+bv.(2)指数曲线y=ae bx其散点图在形如下列曲线附近设μ=lny,c=lna,则转化为线性关系:μ=c+bx. (3)倒指数函数y=xb ae 其散点图在如下曲线附近.设μ=lny,c=lna,v=x1,则转化为线性关系:μ=c+bv. (4)对数函数模型y=a+blnx 其散点图在如下曲线附近.设v=lnx,则转化为线性关系:y=a+bv.2.常见几种模型在使用时要注意散点图的形状符合哪一种类型曲线的形状,有时不太容易辨别,可采用多种模型拟合,并转变为线性回归关系.利用线性相关系数来判断检验用哪一种拟合效果较好,就用谁.3.常见的几种函数模型的解析式在转变为线性相关关系时,要根据函数式的特点,灵活地换元转变为线性函数关系.名师解惑实际问题中非线性相关的函数模型应怎样选取?剖析:(1)要先作散点图;(2)选取所有符合的可能类型;(3)将非线性关系转变为线性关系后,可再作线性相关的散点图来进一步辨别,也可通过计算线性相关系数作比较.讲练互动【例1】某地今年上半年患某种传染病人数y与月份x之间满足函数关系,模型为y=ae bx,确解析:函数模型为指数函数,可转化为线性相关关系,从而求出.解:设μ=lny,c=lna,则μ=c+bx,∑=61iix=21,∑=61iiμ=25.359 5,∑=612iix=91,∑=612iiμ=107.334,∑=61iiixμ=90.341 3,x=3.5,μ=4.226 58,∴b=∑∑==--612261)(66iiiiixxxxμμ=25.369122658.45.363413.90⨯-⨯⨯-=5.1758412.1≈0.09,c=μ-b x=4.226 58-0.09×3.5=3.911 58,∴μ=3.911 58+0.09x.∴y=e3.911 58·e0.09x.绿色通道若函数模型为指数型,可两边取对数转化为线性函数关系,求出回归方程.变式训练1.某工厂今年第一季度生产某种产品的数量分别是1万件、1.2万件、1.3万件、1.37万件,为了估测以后每个月的产量可用函数y=ae bx来模拟该产品的月产量y 与月份x 的关系,求模拟函数.∑=41i ix=1x i =10,∑=41i iμ=0.759 5,∑=412i ix=30,∑=412i iμ=0.201 2,∑=411i ix μ=2.411,x =2.5,μ=0.189 9,b=∑∑==--4122414)(44i i i iix x x x μμ=25.24301899.05.24411.2⨯-⨯⨯-=552125.0=0.102 45,c=μ-b x =0.189 9-0.102 45×2.5=-0.066,∴μ=-0.066+0.102 45x,y=e -0.066·e 0.102 45x.(1)画出散点图.(2)能否建立恰当的函数模型使它能比较近似地反映这个地区未成年男性体重y(kg)与身高x(cm)的函数关系?试写出这个函数模型的解析式.(3)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为瘦,那么这个地区一名身高为175 cm,体重为78 kg 的在校男生的体重是否正常?解析:作出散点图,观察函数曲线得到函数模型,再转为线性函数解答. 解:(1)作散点图.(2)从散点图可看出函数模型为y=ae bx型,∑=121i ix =1 380,∑=121i iμ=35.542 4,∑=1212i ix=173 000,∑=121i iix μ=4 369.249,x=115,μ=2.961 9,b=∑∑==-⨯⨯-12122121)(1212i ii i ix xx x μμ=2115121730009619.211512249.4369⨯-⨯⨯-=14300873.281=0.019 7, c=μ-bx=2.961 9-0.019 7×115=0.696 4,∴μ=0.696 4+0.019 7x,y=e 0.696 4·e0.019 7x. (3)当x=175时,μ=4.143 9, ∴y=e μ=e4.143 9=63.048,048.6378=1.237>1.2,此男子偏胖.绿色通道根据给出的数据,画出散点图,选择散点图所符合的函数模型,再转为线性关系解答. 变式训练(1)作出y 关于x 的散点图; (2)写出y 关于x 的模拟函数.解析:作出散点图,观察变化趋势,找出拟合函数关系,并求解. 解:(1)作散点图.(2)由散点图知x 、y 之间满足函数关系为y=ae bx, ∑=61i ix=21,∑=61i iμ=21.188 3,∑=612i ix=91,∑=61i ii x μ=86.237, x =3.5,=3.531 4,b=26122615.36915314.35.36237.8666⨯-⨯⨯-=--∑∑==i i i iixx x x μμ=5.170776.12=0.69, c=μ-b x =3.531 4-0.69×3.5=1.115 9,∴μ=1.115 9+0.69x.∴y=e1.115 9·e0.69x.。
高中数学第一章统计案例1.11.2回归解析总结计划、相关系数练习北师大版选修12
回归剖析有关系数明目标、知要点 1.会成立线性回归模型剖析两个变量间的有关关系 .2.能经过有关系数判断两个变量间的线性有关程度 .3.掌握成立线性回归模型的步骤.1.线性回归方程nn∑ i =1在线性回归方程= + bx中,=yab1n1nbx .此中x =∑x i ,y =∑y i .n i =1n i =1x i -xy i -y∑x i y i -nxyi =1,a =y -n=n∑x i -x22 2∑x i -nxi =1i =1(x ,y )称为样本点的中心,线性回归直线过样本点的中心.2.有关系数有关系数r 的计算公式n∑x i y i -nxyr =i =1.nn2 -nx22 -ny2∑x∑yiii =1 i =1(2) 有关系数r 的取值范围是[-1,1],|r |值越大,变量之间的线性有关程度越高; |r |值越靠近0,变量之间的线性有关程度越低.当r >0时,b >0,称两个变量正有关;当r <0时,b <0,称两个变量负有关;当r =0时,b =0,称两个变量线性不有关.[情境导学]“名师出高徒〞这句谚语的意思是什么?出名气的老师就必定能教出厉害的学生吗?这两者之间能否有关?研究点一 线性回归方程思虑1 两个变量之间的关系分几类?答 分两类:①函数关系,②有关关系.函数关系是一种确立性关系,而有关关系是一种非确立性关系.1上边所提的“名师〞与“高徒〞之间的关系就是有关关系.思虑2什么叫回归剖析?答回归剖析是对拥有有关关系的两个变量进行统计剖析的一种常用方法.思虑3对拥有线性有关关系的两个变量进行回归剖析有哪几个步骤?答根本步骤为画散点图,求线性回归方程,用线性回归方程进行展望.例1假定从某大学中随机选用8名女大学生,其身高和体重数据以下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求依据女大学生的身高展望体重的回归方程,并展望一名身高为172cm的女大学生的体重.解(1)画散点图选用身高为变量x,体重为变量y,画出散点图,展现两个变量之间的关系,并判断两者是否拥有线性关系.由散点图能够发现,样本点呈条状散布,身高和体重有比较好的线性有关关系,所以能够用回归直线y=bx+a来近似刻画它们之间的关系.成立回归方程由计算器可得b=,a=-85.712.于是获取回归方程为y=x-85.712.展望和决议当x=172时,y=×172-=60.316(kg).即展望一名身高为172cm的女大学生的体重约为kg.(1)反省与感悟在使用回归方程进行展望时要注意:(2)回归方程只合用于我们所研究的样本的整体;(3)我们所成立的回归方程一般都有时间性;(4)样本取值的范围会影响回归方程的合用范围;(5)不可以希望回归方程获取的展望值就是展望变量的精准值.2追踪训练1某班5名学生的数学和物理成绩如表:学生A B C D E学科数学成绩(x)8876736663物理成绩(y)7865716461画出散点图;求物理成绩y对数学成绩x的线性回归方程;一名学生的数学成绩是96,试展望他的物理成绩.解(1)散点图如图.1(2)x=5×(88+76+73+66+63)=73.2.1=5×(78+65+71+64+61)=67.8.5∑x i y i=88×78+76×65+73×71+66×64+63×61=125054.52 2∑x i=88+76+73+66+63=27174.222=125∑x i y i-5x·yi=1∴b=5≈0.625.2 2∑x i-5x=1a=y-bx=-×=22.05.∴y对x的线性回归方程是 y=x+22.05.(3)当x=96时,y=×96+≈82.所以,能够展望他的物理成绩是82.研究点二有关系数思虑1给出n对数据,依据公式求出的线性回归方程,能否必定能反应这n对数据的变化规律?答假如数据散点图中的点都大概散布在一条直线邻近,这条直线就能反应这n对数据的变化规律,否那么求出的方程没有实质意义.3思虑2如何经过有关系数刻画变量之间的线性有关关系?答 |r |值越靠近 1,变量之间的线性有关程度越高; |r |值越靠近 0,变量之间的线性有关程度越低;当 r =0时,两个变量线性不有关.例2 下边的数据是从年纪在 40岁到60岁的男子中随机抽出的 6个样本,分别测定了心脏的功能水平 y (总分值100),以及每日花在看电视上的均匀时间 x (小时).看电视的均匀时间 x 心脏功能水平 y 52 53 69 57 89 65(1)求心脏功能水平 y 与每日花在看电视上的均匀时间 x 之间的样真有关系数 r ; (2)求心脏功能水平 y 与每日花在看电视上的均匀时间 x 的线性回归方程,并议论方程能否存心义;估计均匀每日看电视3小时的男子的心脏功能水平.1解n =6,x =6+++4.6)≈7,1 =(52+53++65)≈7,662 x 2≈2 +222x i -6++)-6×7=1 8, 62y 2≈(52 2222y i -6 +53 ++65)-6×7=17, 6 x i y i -6x y ≈×52+×53++×65)-6××7≈-=1- 2.- 心脏功能水平y 与每日花在看电视上的均匀时间x 之间的有关系数:- 2r ≈≈-5.8×7 -2(2)b ≈8≈-0,a =y -bx ≈5,心脏功能水平 y 与每日花在看电视上的均匀时间 x 的线性回归方程为 y =5-0x .由(1)知y 与x 之间有较强的线性关系,这个方程是存心义的.将x =3代入线性回归方程y =5-0x ,可得y ≈,即均匀每日看电视3小时,心脏功能水平约为 68.7.4反省与感悟求解两个变量的有关系数及它们的线性回归方程的计算量较大,需要仔细、谨nnnnn慎地计算.假如会使用含统计的科学计算器,能简单获取x i ,y i ,22x i y i 这x i ,y i ,i =1i =1i =1i =1i =1些量,也就无需制表这一步,直接算出结果就行了.此外,利用计算机中有关应用程序也能够对这些数据进行办理.追踪训练2维尼纶纤维的耐热水性能的利害能够用指标“缩醛化度〞y 来权衡,这个指标越高,耐水性能也越好,而甲醛浓度是影响缩醛化度的重要要素,在生产中常用甲醛浓度x (g/L)去控制这一指标,为此一定找出它们之间的关系,现安排一批实验,获取以下数据.甲醛浓度x (g/L) 18 20 22 24 26 28 30缩醛化度y (克分子%)(1) 画散点图;(2) 求线性回归方程;(3) 求有关系数r .解(1)列表:ix iy i2x i y ix i1 183242 20400 5673 224844 24 5765 26 6766 28784 8407 30900∑1684144457168∑x i y i-7x yi=1x=7=24,y=7,b=72x2∑x i-7i=14-7×24×7==3,4144-7×242-3×24≈,a=y-bx=7∴线性回归方程为y=+3x.77∑x i y i-7x y 2i=1(3)∑y i≈5892,r=77i=1222x2y∑x i-7∑y i-7i=1i=14-7×24×7==0.96.4144-7×242×5892-7×27由此能够看出甲醛浓度与缩醛化度两个变量之间有较强的线性有关关系.1.以下变量之间:①人的身高与年纪;②产品的本钱与生产数目;③商品的销售额与广告费;④家庭的支出与收入.此中不是函数关系的有()A.1个B.2个C.3个D.4个答案D2.线性回归方程为y=bx+a,此中a=3且样本点中心为(1,2),那么线性回归方程为()A.y=x+3B.y=-2x+3C.=-+3D.=-3y x y x答案C分析∵=bx +3过(1,2),可计算得=-1.y b3.一个线性回归方程为y=x+45,x i∈{1,7,5,13,19},那么y=________.答案4.一唱片企业欲知打歌花费x(十万元)与唱片销售量y(千张)之间的关系,从其所刊行的唱1010101010片中随机抽取了10张,得以下的资料:22,xx i=28,x i=,y i=75,y i=i=1i=1i=1i=1i=16i y i=237,那么y与x的有关系数r的绝对值为________.答案nx i y i-nx yi=1分析由公式r=得|r|=0.3.n n222-ny 2x i-nx y ii=1i=1[呈要点、现规律]1.对拥有有关关系的两个变量进行统计剖析,可从散点图察看大概呈条状散布,能够求线性回归方程并进行预告.2.经过计算有关系数能够判断两个变量的线性有关程度.一、根基过关1.在以下各量之间,存在有关关系的是()①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③某户家庭用电量与电价之间的关系.A.②③B.①③C.①D.②答案D2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)拥有线性有关关系,依据一组样本数据(x i,y i)(i=1,2,,n),用最小二乘法成立的线性回归方程为y=x-,那么以下结论中不正确的选项是()A.y与x拥有正的线性有关关系B.回归直线过样本点的中心(x,y)C.假定该大学某女生身高增添1cm,那么其体重约增添kgD.假定该大学某女生身高为170cm,那么可判定其体重必为kg答案D分析由线性回归方程为y=x-知y随x的增大而增大,所以y与x拥有正的线性有关关系;由最小二乘法成立回归方程的过程知y=bx+a=bx+y-b x(a=y-bx),所以回归直线过样本点的中心(x,y);利用回归方程能够估计整体,所以D不正7确.某产品的广告花费x与销售额y的统计数据以下表:广告花费x(万元)4235销售额y(万元)49263954依据上表可得回归方程y=bx+a中的b为,据此模型展望广告花费为6万元时销售额为()A.万元B.万元C.万元D.万元答案B4+2+3+5749+26+39+54分析∵x=4=2,y=4=42,又y=bx+a必过(x,y),742=2×+a,∴a=9.1.∴线性回归方程为y=x+9.1.∴当x=6(万元)时,y=×6+=65.5(万元).4.对一组察看值(x i,y i)作出散点图后确立拥有线性有关关系,假定对于y=bx+a,求得=,x =,y=,那么线性回归方程为()bA.y=x+B.y=x+C.y=x+D.y=x+答案A5.对于回归剖析,以下说法错误的选项是()A.在回归剖析中,变量间的关系假定是非确立关系,那么因变量不可以由自变量独一确立B.线性有关系数能够是正的,也能够是负的C.回归剖析中,假如r2=1,说明x与y之间完整有关D.样真有关系数r∈(-1,1)答案D分析有关系数r的范围是[-1,1].6.对拥有线性有关关系的变量x和y,由测得的一组数据已求得回归直线的斜率为,且恒过(2,3)点,那么这条线性回归方程为________.答案y=-10+x8分析由题意知x=2,y=3,b=,所以a=y-b x=3-×2=-10,即线性回归方程为y=-10+x.7.某个服饰店经营某种服饰,在某周内纯赢利y(元)与该周每日销售这类服饰件数x之间的一组数据以下表:x3456789y66697381899091求样本点的中心;画出散点图;求纯赢利y与每日销售件数x之间的回归方程.解(1)x=6,y≈,样本点的中心为(6,79.86).散点图以下:77(3)由于x i y i=3487,2x i=280,i=1i=17x i y i-7x y=1所以b=72-x 2x ii=13487-7×6×=2≈4.75.280-7×6a=y-bx≈,所以y=x+51.36.二、能力提高x与y之间的几组数据以下表:x123456y021334假定依据上表数据所得线性回归方程y=bx+a,假定某同学依据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,那么以下结论正确的选项是()A.b>b′,a>a′B.b>b′,a<a′9C.b<b′,a>a′D.b<b′,a<a′答案C分析b′=2,a′=-2,6x i-x y i-yi=1由公式b=求得.62x i-x=1513 5 71b=7,a=y-bx=6-7×2=-3,b<b′,a>a′.选C.9.下表是x和y之间的一组数据,那么y对于x的回归方程必过()x1234y1357A.点(2,3)B.点(1.5,4)C.点(2.5,4)D.点(2.5,5)答案C分析回归方程必过样本点的中心(x,y),即(2.5,4).10.假定线性回归方程中的回归系数=0,那么有关系数r=________. b答案0nx i-x y i-y=1分析b=,nx i-x2i=1nx i-x y i-yi=1r=n n,x i-x2·y i-y2i=1i=1假定b=0,那么r=0.11.某车间为了规定工时定额,需确立加工部件所花销的时间,为此做了4次试验,获取的数据以下:部件的个数x/个234510加工的时间y/小时34假定加工时间y与部件个数x之间有较好的有关关系.求加工时间与部件个数的回归方程;试展望加工10个部件需要的时间.774解(1)由表中数据得2x=,y=,∑x i=54,22i=14∑x i y i=,=1进而得b=,a=y-bx=,所以,所求的线性回归方程为y=x+1.05.将x=10代入回归方程,得y=×10+=8.05(小时),即加工10个部件的展望时间为小时.12.某工厂为了对新研发的一种产品进行合理订价,将该产品按预先制定的价钱进行试销,获取以下数据:单价x(元)89销量y(件)908483807568求线性回归方程y=bx+a,此中b=-20,a=y-bx;(2)估计在此后的销售中,销量与单价仍旧听从(1)中的关系,且该产品的本钱是4元/件,为使工厂获取最大收益,该产品的单价应定为多少元?(收益=销售收入-本钱)解(1)x=8+++++9,=61=6(90+84+83+80+75+68)=80.∵b=-20,a=y-bx,a=80+20×=250,∴线性回归方程y=-20x+250.设工厂获取的收益为L元,那么L=x(-20x+250)-4(-20x+250)332=-20(x-4)+,33∴该产品的单价应定为元,工厂获取的收益最大.4三、研究与拓展13.某运发动训练次数与运动成绩之间的数据关系以下:11次数x 30 33 35 37 39 44 46 50 成绩y3034373942464851作出散点图;求出线性回归方程;计算有关系数并进行有关性查验;(4)试展望该运发动训练 47次及55次的成绩.解(1)作出该运发动训练次数x 与成绩y 之间的散点图,如以以下图所示,由散点图可知,它们之间拥有线性有关关系.列表计算:次数x i 成绩y i 2 2x i y ix iy i30 30 900 900 90033 34 1089 1156 112235 37 1225 1369 129537 39 1369 1521 144339 42 1521 1764 163844 46 1936 2116 202446 48 2116 2304 220850512500260125508由上表可求得2x =,y =,∑x i =12656,i =1882,∑x i y i =13180,∑y i =13731i =1i =18∑x i y i -8xyi =1≈5,∴b =822∑ x i -8x=1a =y -bx =-88,∴线性回归方程为 y =5x -88.12计算有关系数r=7,所以运发动的成绩和训练次数两个变量有较强的有关关系.(4)由上述剖析可知,我们可用线性回归方程y=5x-88作为该运发动成绩的展望值.将x=47和x=55分别代入该方程可得y=49和y=57.故展望该运发动训练47次和55次的成绩分别为49和57.13。
高中数学 第一章 统计案例章末归纳总结课件 北师大版选修12
独立性检验(jiǎnyàn)
下表是某地区的一种传染病与饮用水的调查表:
得病 不得病 总计
干净水
52
466
518
不干净水
94
218
312
总计
146
684
830
第三十五页,共50页。
(1)这种传染病是否与饮用水的卫生程度有关,请说明理 由;
(2)若饮用干净水得病的有5人,不得病的有50人,饮用不 干净水得病的有9人,不得病的有22人.按此样本数据分析这种 疾病是否与饮用水有关,并比较两种样本在反映总体(zǒngtǐ)时 的差异.
第九页,共50页。
(4)按一定规则估计回归方程中的参数. (5)得出结果后,依据模型分析观测数据是否有异常,模型 是否合适等.有异常时重新(chóngxīn)观测,选取模型计算. (6)依据回归方程作出预报. 5.非线性回归模型通过变量代换转化为线性回归模型.
第十页,共50页。
二、独立性检验 独立性检验的一般(yībān)步骤: (1)根据样本数据制成2×2列联表. (2)根据公式计算χ2的值. (3)比较χ2与临界值的大小关系作统计推断.
分组 [39.95,39.97) [39.97,39.99) [39.99,40.01) [40.01,40.03]
合计
频数 10 20 50 20 100
频率
第二十三页,共50页。
(1)请在上表中补充完成频率分布(fēnbù)表(结果保留两位小 数),并在上图中画出频率分布(fēnbù)直方图;
第二十四页,共50页。
(2)若以上述频率作为概率,已知标准乒乓球的直径为40.00 mm,试求这批乒乓球的直径误差不超过0.03 mm的概率;
高中数学 第一章 统计案例 例谈回归分析的应用素材 北师大版选修1-2
例谈回归分析的应用在解许多实际应用问题时,运用回归分析的基本思想,通过构建回归模型去刻画解释变量与预报变量的关系,并利用模型,对解释变量的某个值去预测相应预报变量的某个值,从而使问题得到解决.建立回归模型解实际问题的步骤是:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型,即拟合直线或拟合曲线;(4)按一定规则估计回归方程中的参数,从而求出拟合直线或拟合曲线的函数关系式;(5)利用函数关系式,根据条件对所给问题进行预测和控制,以便为决策提供依据.下面举例说明.例1 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x 元与日销售量y 台之间有如下关系:(1)y 与x 是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程;(2)设经营此商品的日销售利润为P 元,根据(1)写出P 关于x 的函数关系式并预测当销售单价x 为多少元时,才能获得最大日销售利润.解析:(1)散点图如右图所示,并从图中可以看出,这些点大致分布在一条直线附近,因此两个变量线性相关.设回归直线为ˆybx a =+,则由公式求 得3b -≈,161.5a =.∴ˆ3161.5yx =-+; (2)依题意有2(3161.5)(30)3251.54845P x x x x =-+-=-+-,∴当251.5426x =≈时,P 有最大值约为426. 即预测销售单价为42元时,才能获得最大日销售利润.点评:本题主要考查构建线性回归模型在解决实际问题中的应用.例2 某国从1790年至1950年人口数据资料:试利用上述资料预测该国1980年的人口数(假设该国政治、社会、经济环境稳定,且人口数相对于时间是连续的).分析:以x 轴代表年度,y 轴代表人口数,建立直角坐标系,画出散点图(略),并观察散点图可以发现,从1890年以后散点近似分布在一条直线上;而从散点图的整体趋势来看,也可以认为散点近似分布在一条抛物线上,故可采用线性回归模型拟合,或采用二次函数模型拟合.解法一:由散点图可以看出,1890年以后散点大致分布在一条直线上,设线性回归直线方程为ˆybx a =+,由公式求得 1.4852747.025b a -≈,≈, 即ˆ 1.48582747.025yx =-. ∴当1980x =时,6194.85910y =⨯,即1980年该国人口预测为194.859百万人.解法二:从散点的整体趋势看,散点近似分布在一条以直线1790x =为对称轴,以点(1790,3.929)为顶点的抛物线上,再任意选一点(1890,62.948)确定抛物线方程为20.0059(1790) 3.929y x =-+.∴当1980x =时,6216.91910y =⨯,即该国人口预测为216.919百万人.点评:本题主要考查重视对信息、图表的分析,提取,加工和处理能力.两种解法,由于考虑问题和观察角度不同,所得到结论和答案也不相同,线性回归模型是在依据部分已知数据的基础上作出的,因此精确度比较差;而二次函数模型是根据全部已知数据的分布趋势拟合的,因而有较高的精确度.当然,同学们可以进一步利用回归分析的方法,通过利用相关指数2R 来比较两个模型的拟合效果.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
残差分析的相关概念辨析及应用
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,可以通过残差^
^
2^
1,,,n e e e 来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.残差分析一般有两种
方法:(1)作残差图;(2)利用相关指数R 2
来刻画回归效果.
.,,2,1,^^^^n i a x b y y y e i i i i i =--=-= ^
i e 称为相应于点(x i ,y i )的残差.类比样本
方差估计总体方差的思想,可以用)2)(,(2
1
21^^1^2^2
>-=-=∑=n b a Q n e n n i i σ 作为σ2的估计量,其中^a 和^b 由公式x b y a ^^-=, ∑∑==---=
n
i i
n
i i i
x x
y y x x
b 1
2
1
^
)()
)((给出,Q(^a ,^
b )称为残差
平方和.可以用^2
σ衡量回归方程的预报精度.通常,^2
σ越小,预报精度越高.
例1.设变量x,y 具有线性相关关系,试验采集了5组数据,下列几个点对应数据的采集可能有错误的是
( )
A 点A B.点
B C.点
C D.点E
思路与技巧 由散点图判断出,点A,B,C,D,F 呈线性分布,E 点远离这个区域,说明点E 数据有问题. 解答D
评析 可以用Excel 画散点图,样本的散点图可以形象的展示两个变量的关系,画散点图的目的是用来确定回归模型的形式,若散点图呈条状分布,则x 与y 有较好的线性相关关系,散点图除了条状分布,还有其他形状的分布.
例2.为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6根弹簧进行测量,得如下数据:
(1)画出散点图.
(2)如果散点图中的各点大致分布在一条直线的附近,求y 与x 之间的回归直线方程. (3)求出残差,进行残差分析.
思路与技巧 可以用Excel 画散点图,由散点图发现x 与y 是否呈线性分布,由此判断x 与y 之间是否有较好的线性相关关系,若有,求出线性回归方程,再画出残差图,进行残
差分析.
解答 (1)由Excel表格画散点图如图
(2)设yˆ=bx+a是线性回归直线方程,
以重量为横坐标,以残差为纵坐标画残差图如图
由残差图看出,这些样本点的残差对应点均匀地落在水平带状区域内,宽度越窄,说明模型拟合精度越高,回归方程预报精度越高.
评析回归模型中,残差变量不能被直接观测到,必须通过模型拟合后计算得到.画残差散点图的目的就是直观观测残差图,发现观测数据中可能出现的错误及所用模型是否恰当,若样本点残差较大,需确认这个点在采集过程中是否存在错误,若有,需重新采集数据,重新利用数据拟合.若采集数据没有错误,就另找原因.若残差点比较均匀地落在水平带状区域内,说明选用模型较合适,带状区域宽度越窄,模型拟合精度越高,回归方程预报精度越高.
同学们学习残差时应明确以下几点:(1)误差e受许多条件的影响,也受所选用的线性模型的影响,因此线性模型往往只是一种近似的模型.(2)作残差图有时不够精确,也难
于认定拟合程度的好坏,因而多数情况下,选用计算相关指数R2来说明拟合效果.(3)可以对某组数据采用几种不同的回归方程进行分析,也可以比较几个R2的值,选择R2大的模型作为这组数据的回归模型.(4)回归方程只适用于我们所研究的样本的总体;建立的回归方程一般都有时间性;样本取值的范围会影响回归方程的适用范围,一般不能超过这个范围,否则没有实用价值;不能期望回归方程得到的预报值就是预报变量的精确值,它是预报变量的可能取值的平均值。
练习:
为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6根弹簧进行测量,数据如下表:
(1)画出散点图.
(2)如果散点图中的各点大致分布在一条直线的附近,求y与x之间的回归直线方程.
(3)对x.y两个变量进行相关性检验.
(4)残差平方和是多少?
解:(1)如下图所示.
从散点图看,这是一个属于线性回归模型的问题.
由于r与1非常接近,说明y与x之间存在线性相关关系.
=0.013179,即残差平方和是0.013179.。