变量间的相关关系讲义
小学教育科学研究,讲义 第二章
第二章小学教育科学研究课题的选择与设计第一节问题的发现与课题的确定一、课题的来源与类型(一)课题来源1.纵向来源的课题纵向来源的课题,一般称为“纵向课题”,是指由国家、省(区)筝上级科研主管部门发布(或招标)、个人或集体申报、有部门及专家审在批准的项目。
这些课题大多由一些基金组织资助,项目执行过程中,要由有关管理部门和基金组织实施监督和检查,项目结题时也要由这些部门组织专家鉴定。
纵向课题在内容上大多与社会热点问题有关,偏重于解决较为重大的实践问题和一些应用性较强的重大理论问题。
2.横向来源的课题通常也称委托课题,是指由一些企事业单位或非直接的上级部门委托实施研究的项目,横向课题也十分重视项目研究的应用性,资助额度一般要比纵向课题大。
3.研究者自选课题这类来源的课题虽说主要是个人行为,却是非常重要的研究资源,许多有价值的选题及成果出于其中。
绝大多数的硕士论文和博士论文都属于自选课题;许多中小学教师在看似平凡的长期实践中悟出深刻道理或闪现灵感火花因而自觉地展开教育教学研究,也用于自选课题。
这类课题可能涉及很专很深的理论前沿问题,也可能针对很现实很具体的实际操作问题。
(二)课题的类型1.理论性课题和应用性课题根据所研究问题的性质及研究的目的,可把研究课题分为理论性课题和应用性课题两大类。
理论性课题又被称为基础性研究课题。
主要包括那些以研究教育现象及过程的基本规律,揭示青少年身心发展以及影响因素间的本质联系,探索新的领域等为基本任务的课题。
理论性课题是不可能都在同一层面上展开的,根据课题对理论不同程度,上的突破与发展,可以把课题分为三级。
凡是那些对构成教育科学理论体系具有全局性影响的核心概念、基本范畴和基本原理等作突破性研究的课题都属于一级课题。
教育理论研究的一级课题是难度较高的研究课题。
这类课题具有开创性,又涉及全局。
它要求研究者有较强的批判思维能力、较高的专业理论修养和较宽的知识面。
凡是对教育科学某一领域中已形成的概念、原则作进一步探讨(或使它更完善,或使它更具体细致)的课题均可列入二级课题。
2015届高考数学总复习 基础知识名师讲义 第九章 第五节 变量间的相关关系、统计案例 理
第五节 变量间的相关关系、统计案例知识梳理 1.散点图.(1)将变量所对应的点描出来,就组成了变量之间的一个图, 这种图为变量之间的________.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势可用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.答案:1.(1)散点图2.相关关系.(1)从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为____________;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为____________.(2)线性相关:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做____________.(3)若两个变量x 和y 的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是______________的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.答案:2.(1)正相关 (2)回归直线 (3)非线性相关3.回归直线.(1)最小二乘法:如果有n 个点:(x 1,y 1),(x 2,y 2),…,(x n ,y n )可以用下面的表达式来刻画这些点与回归直线的接近程度: [y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a+bx n )]2,使得上式达到最小值的y ^=b ^x +a ^就是我们要求的直线,这种方法称为最小二乘法.(2)在回归直线方程y ^=b ^x +a ^中,b ^=∑i =1nx i -xy i -y∑i =1nx i -x2=∑i =1nx i y i -n x·y∑i =1nx 2i -n x2,a^1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解下列两种常用的统计方法,并能应用这些方法解决一些实际问题. (1)独立检验:了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;(2)回归分析:了解回归分析的基本思想、方法及其简单应用.=________,其中x =x 1+x 2+…+x n n ,y =y 1+y 2+…+y n n.b ^叫做回归直线方程的斜率,a^是直线在y 轴上的截距.答案:3.y -b ^x4.相关系数.r=∑i =1nx i -xy i -y∑i =1nx i -x2y i -y2,用它来衡量两个变量间的线性相关关系.(1)当r >0时,表明两个变量________; (2)当r <0时,表明两个变量________;(3)r 的绝对值越接近1,表明两个变量的线性相关性______;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.当|r |∈[0.3,0.75)时,相关性一般.当|r |∈[0,0.25]时,相关性较弱.答案:4.(1)正相关 (2)负相关 (3)越强5.残差分析.(1)线性回归模型:y =bx +a +e 中,a ,b 称为模型的未知参数;e 称为随机误差.(2)残差平方和:对于样本点(x i ,y i )(i =1,2,…,n ),Q =∑i =1n(y i -y )称为残差平方和,Q 值越小,说明线性回归模型的拟合效果越好.(3)相关指数:用相关指数R 2来刻画回归的效果,公式是R2= . R 2的值越大,说明残差平方和越小,也就是说模型拟合效果______.答案:5.越好6.独立性检验.(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量. (2)列出两个分类变量的频数表,称为列联表.(3)利用随机变量K 2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的________.2×2列联表独立性检验公式K 2=__________________.答案:6.(3)独立性检验n (ad -bc )2(a +b )(c +d )(a +c )(b +d )基础自测1.下列命题:①任何两个变量都具有相关关系;②圆的周长与该圆的半径具有相关关系;③某商品的需求与该商品的价格是一种非确定性关系;④根据散点图求得的回归直线方程可能是没有意义的;⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.其中正确的命题为( )A .①③④B .②④⑤C .③④⑤D .②③⑤答案:C2.(2013·武昌调研)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线由K 2=n (a +b )(c +d )(a +c )(b +d ),算得K 2=260×50×60×50≈7.8.附表:A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”解析:因为K 2=110×(40×30-20×20)260×50×60×50≈7.8>6.635,所以有99%以上的把握认为“选择过马路的方式与性别有关”.答案:A3.(2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x+1上,则这组样本数据的样本相关系数为__________________.解析:所有点均在直线上,则样本相关系数最大即为1. 答案:14.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析: 由题意得y ^2-y ^1=[0.254(x +1)+0.321]-[0.254x +0.321]=0.254,即家庭年收入每增加1万元,年饮食支出平均增加0.254万元.答案:0.2541.(2012·湖南卷)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:根据回归方程的概念和性质知选项A ,B ,C 三项均正确,选项D 错误,线性回归方程只能预测学生的体重. 选项D 应改为“若该大学某女生身高为170 cm ,则估计其体重大约为58.79 kg”.答案:D2.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众年龄为20至40岁的概率.解析:(1)有关.收看新闻节目多为年龄大的.(2)应抽取的人数为:5×2745=3(人).(3)由(2)知,抽取的5名观众中,有2名观众年龄处于20至40岁,3名观众的年龄大于40岁.记大于40岁的人为a 1,a 2,a 3,20至40岁的人为b 1,b 2,则从5人中抽取2人的基本事件有(a 1,a 2),(a 1,a 3),(a 2,a 3),(b 1,b 2),(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),共10个,其中恰有1人为20至40岁的基本事件有(a 1,b 1),(a 1,b 2),(a 2,b 1),(a 2,b 2),(a 3,b 1),(a 3,b 2),共6个,因此所求的概率P =610=35.1.(2013·梅州一模)在2014年1月15日当天,某物价部门对本市的5家商场的某商品的一天销售量价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y ^=-3.2x +40,且m +n =20,则其中的n =________.解析:x =15(9+9.5+m +10.5+11)=15(40+m ),y =15(11+n +8+6+5)=15(30+n ).因为其线性回归直线方程是:y ^=-3.2x +40,所以15(30+n )=-3.2×15(40+m )+40,即30+n =-3.2(40+m )+200,又m +n =20, 解得m =n =10. 答案:102.某大学高等数学老师上学期分别采用了A ,B 两种不同的教学方式对甲、乙两个大一新生班进行教改试验(两个班人数均为60人,入学数学平均分数和优秀率都相同;勤奋程度和自觉性都一样).现随机抽取甲、乙两班各20名同学的上学期数学期末考试成绩,得到茎叶图如下:(1)依茎叶图判断哪个班的平均分高?(2)从乙班这20名同学中随机抽取2名高等数学成绩不得低于85分的同学,求成绩为90分的同学被抽中的概率.(3)学校规定:成绩不低于85分的为优秀,请填写下面的2×2列联表,并判断“能否在犯错误的概率不超过K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d(4)从乙班高等数学成绩不低于85分的同学中抽取2人,成绩不低于90分的同学得奖金100元,否则得奖金50元,记ξ为这2人所得的总奖金,求ξ的分布列和数学期望.解析:(1)甲班高等数学成绩集中于60~90分之间,而乙班数学成绩集中于80~100分之间,所以乙班的平均分高.(2)P =C 11C 19C 210=15.(3)K 2=40×(13×27×20×20≈5.584>5.024,因此在犯错误的概率不超过0.025的前提下可以认为成绩优秀与教学方式有关.(4)由题可知ξ的可能取值为100,150,200.P ()ξ=100=C 25C 210=29,P ()ξ=150=C 15C 15C 210=59,P ()ξ=200=C 25C 210=29,所以ξ的分布列为:∴E (ξ)=100×29+150×9+200×9=150.。
变量正相关
正相关是指两个变量变动方向相同,一个变量由大到小或由小到大变化时,另一个变量亦由大到小或由小到大变化。
具体来说,当一个变量随着另一个变量的变化而发生相同方向的变化(两个变量同时变大或变小)时,我们说这两个变量之间存在正相关关系。
在统计学中,常用相关系数r来表示两变量之间的相关关系。
当r为正时,表示两变量正相关,即当一个变量增加(或减少)时,另一个变量也相应增加(或减少)。
相关系数r的值介于-1与1之间,其绝对值越大,说明两变量之间的相关程度越高。
请注意,以上内容仅供参考,如需更专业的解释,建议咨询统计学专业人士。
新高考数学复习基础知识专题讲义22 回归方程和2×2联表(解析版)
新高考数学复习基础知识专题讲义 知识点22 回归方程和2×2联表知识理解 一.线性关系 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程: 是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数. 的计算公式.注意:回归方程必过样本中心(x,y),这也是做小题的依据和检验所求回归方程是否正确。
(3)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 二.独立性检验y bx a =+1122()()()n n x y x y x y ,,,,,,a b 、a b 、1122211()()()()nni i i ii i n ni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑(1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值22n(ad bc)K (a b)(c d)(a c)(b d)-=++++(其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.考向一 一次线性关系【例1-1】(2021·山东高三专题练习)某工厂的每月各项开支x 与毛利润y (单位:万元)之间有如下关系,y 与x 的线性回归方程 6.5y x a =+,则a =( )A .17.5B .17C .15D .15.5 【答案】A【解析】由题意,根据表中的数据,可得2456855x ++++==,3040605070505y ++++==,即样本中心为(5,50),代入y 与x 的线性回归方程为 6.5y x a =+,解得17.5a =.故选:A . 【例1-2】(2021·全国高三专题练习)西尼罗河病毒(WNV )是一种脑炎病毒,WNV 通常是由鸟类携考向分析带,经蚊子传播给人类.1999年8-10月,美国纽约首次爆发了WNV 脑炎流行.在治疗上目前尚未有什么特效药可用,感染者需要采取输液及呼吸系统支持性疗法,有研究表明,大剂量的利巴韦林含片可抑制WNV 的复制,抑制其对细胞的致病作用.现某药企加大了利巴韦林含片的生产,为了提高生产效率,该药企负责人收集了5组实验数据,得到利巴韦林的投入量x (千克)和利巴韦林含片产量y (百盒)的统计数据如下:由相关系数r 可以反映两个变量相关性的强弱,||[0.75,1]r ∈,认为变量相关性很强;||[0.3,0.75]r ∈,认为变量相关性一般;||[0,0.25]r ∈,认为变量相关性较弱. (1)计算相关系数r ,并判断变量x 、y 相关性强弱;(2)根据上表中的数据,建立y 关于x 的线性回归方程ˆˆˆybx a =+;为了使某组利巴韦林含片产量达到150百盒,估计该组应投入多少利巴韦林? 25.69≈.参考公式:相关系数()()niix x y y r--=∑ˆˆˆybx a =+中,()()()121niii ni i x x y y b x x ==--=-∑∑,ˆˆay bx =-. 【答案】(1)0.97r =≈,x 与y 具有很强的相关性;(2)54.2千克. 【解析】(1)1(12345)35x =⨯++++=,()11620232526225y =⨯++++=, ()()51(13)(1622)(23)(2022)(33)(2322)ii i xx y y x =--=-⨯-+--+-⨯-∑(43)(2522)(53)(2622)25+-⨯-+-⨯-=,()52222221(13)(23)(33)(43)(53)10i i x x =-=-+-+-+-+-=∑,()522221(1622)(2022)(2322)i i y y =-=-+-+-∑22(2522)(2622)66+-+-=,则()()50.97iix x y y r --==≈∑ 所以x 与y 具有很强的相关性.(2)由(1)得,()()()5152125ˆ 2.510iii i i x x y y bx x ==--===-∑∑, ˆˆ22 2.5314.5ay bx =-=-⨯=, 所以y 关于x 的线性回归方程为ˆ 2.514.5yx =+. 当150y =(百盒)时,54.2x =(千克)故要使某组利巴韦林含片产量达到150百盒,估计该组应投入54.2千克利巴韦林. 【举一反三】1.(2021·全国高三专题练习)某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程77.36 1.82y x =-,则以下说法中正确的是( )A .产量每增加1000件,单位成本约下降1.82元B .产量每减少1000件,单位成本约下降1.82元C .当产量为1千件时,单位成本为75.54元D .当产量为2千件时,单位成本为73.72元 【答案】A【解析】令()77.36 1.82f x x =-,因为(1)()77.36 1.82(1)77.36 1.82 1.82f x f x x x +-=-+-+=-, 所以产量每增加1000件,单位成本约下降1.82元.2.(2021·安徽省六安中学高三开学考试)“关注夕阳、爱老敬老”—某马拉松协会从2013年开始每年向敬老院捐赠物资和现金.下表记录了第x 年(2013年是第一年)与捐赠的现金y (万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程ˆ0.35ymx =+,则预测2019年捐赠的现金大约是( )A .5万元B .5.2万元C .5.25万元D .5.5万元 【答案】C【解析】由已知得,3456 2.534 4.54.5, 3.544x y ++++++====,所以样本点的中心点的坐标为(4.5,3.5),代入ˆ0.35ymx =+, 得3.5 4.50.35m =+,即0.7m =,所以ˆ0.70.35yx =+, 取7x =,得ˆ0.770.35 5.25y=⨯+=, 预测2019年捐赠的现金大约是5.25万元.3.(2021·全国高三专题练习)基于移动互联技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验、某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:(1)请在给出的坐标纸中作出散点图,并用相关系数说明可用线性回归模型拟合月度市场占有率y与月份代码x之间的关系;(2)求y关于x的线性回归方程,并预测该公司2020年2月份的市场占有率;(3)根据调研数据,公司决定再采购一批单车扩大市场,现有采购成本分别为1000元/辆和800元/辆的A、B两款车型报废年限各不相同,考虑到公司的经济效益,该公司决定先对两款单车各100辆进行科学模拟测试,得到两款单车使用寿命频数表如下:经测算,平均每辆单车每年可以为公司带来收入500元.不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且用频率估计每辆单车使用寿命的概率,以每辆单车产生利润的期望值为决策依据、如果你是该公司的负责人,你会选择采购哪款车型?参考数据:621()17.5ii x x =-=∑,61()()35i i i x x y y =--=∑36.5≈参考公式:相关系数C ;回归直线方程为ˆˆˆybx a =+,其中121()()ˆ()niii nii x x y y b x x ==--=-∑∑,ˆˆay bx =- 【答案】(1)散点图见解析,可用线性回归模型拟合两变量之间的关系;(2)ˆ29y x =+,23%;(3)应选择B 款车型.【解析】(1)散点图如图所示,111316152021166y +++++==,∴621()76i i y y =-=∑,∴()()350.9636.5niix x y y r --====≈∑,∴两变量之间具有较强的线性相关关系, 故可用线性回归模型拟合两变量之间的关系;(2)121()()35217.5()ˆniii ni i x x y y bx x ==--===-∑∑,又1234563.56x +++++==, ∴ˆˆ162 3.59ay bx =-=-⨯=,∴回归直线方程为ˆ29y x =+; ∴2020年2月的月份代码7x =,∴27923y =⨯+=, ∴估计2020年2月的市场占有率为23%;(3)用频率估计概率,A 款单车的利润X 的分布列为:∴()5000.100.35000.410000.2350E X =-⨯+⨯+⨯+⨯=(元),B 款单车的利润Y 的分布列为:∴()3000.152000.47000.3512000.1400E Y =-⨯+⨯+⨯+⨯=(元), 以每辆单车产生利润的期望值为决策依据,故应选择B 款车型.4.(2021·全国高三专题练习)近年来,“双11”网购的观念逐渐深入人心.某人统计了近5年某网站“双11”当天的交易额,,统计结果如下表:(1)请根据上表提供的数据,用相关系数r 说明y 与x 的线性相关程度,线性相关系数保留三位小数.(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (1i n ≤≤),则两个变量的相关系数的计算公式为:.统计学认为,对于变量,如果[]1,0.75r -∈-,那么负相关很强;如果[]0.751r ∈,,那么正相关很强;如果(]0.75,0.30r ∈--或[)0.30,0.75r ∈,那么相关性一般;如果[]0.25,0.25r ∈-,那么相关性较弱);(2)求出关于x 的线性y 回归方程,并预测2020年该网站“双11”当天的交易额.参考公式:121()()()ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-43.1≈. 【答案】(1)0.998;变量y 与x 的线性相关程度很强;(2)ˆ 4.3 4.1yx =+;29.9百亿元. 【解析】(1)由题意,根据表格中的数据, 可得:1(12345)35x =++++=,1(912172126)175y =++++=,则1()()(13)(917)(53)(2617)43niii x x y y =--=--++--=∑,43.1=≈,所以()()430.99843.1niix x y y r --==≈∑ 所以变量y 与x 的线性相关程度很强.(2)由(1)可得3x =,17y =,1()()43niii x x y y =--=∑,又由2221222(13)(23)(3(3)(43)(53)1)0nii x x ==-+-+-+-+-=-∑,所以121()()43 4.30)ˆ1(niii ni i x x y y bx x ==--===-∑∑,则ˆˆ17 4.33 4.1a y bx=-=-⨯=, 可得y 关于x 的线性回归方程为ˆ 4.3 4.1y x =+ 令6x =,可得ˆ 4.36 4.129.9y=⨯+=, 即2020年该网站“双11”当天的交易额29.9百亿元.考向二 独立性检验【例2】(2021·江苏泰州市·高三期末)2021年是脱贫攻坚的收官之年,国务院扶贫办确定的贫困县全部脱贫摘帽,脱贫攻坚取得重大胜利,为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础在产业扶贫政策的大力支持下,西部某县新建了甲、乙两家玩具加工厂,加工同一型号的玩具质监部门随机抽检了两个厂的各100件玩具,在抽取中的200件玩具中,根据检测结果将它们分成“A ”、“B ”、“C ”三个等级,A 、B 等级都是合格品,C 等级是次品,统计结果如下表所示:(表一)(表二)在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由原厂家自行销.(1)请根据所提供的数据,完成上面的2×2列联表(表二),并判断是否有95%的把握认为产品的合格率与厂家有关?(2)每件玩具的生产成本为30元,A 、B 等级产品的出厂单价分别为60元、40元.另外已知每件次品的销毁费用为4元.若甲厂抽检的玩具中有10件为A 等级,用样本的频率估计概率,试判断甲、乙两厂能否都能盈利,并说明理由.附:22()()()()()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.【答案】(1)列联表答案见解析,没有95%的把握认为产品的合格率与厂家有关;(2)甲厂能盈利,乙不能盈利,理由见解析. 【解析】(1)2×2列联表如下()2220075352565 2.38 3.84110010014060K ⨯⨯-⨯=≈<⨯⨯⨯,∴没有95%的把握认为产品的合格率与厂家有关.(2)甲厂10件A 等级,65件B 等级,25件次品, 对于甲厂,单件产品利润X 的可能取值为30,10,34-.X 的分布列如下:()3010341010204E X ∴=⨯+⨯-⨯=>, ∴甲厂能盈利,对于乙厂有10件A 等级,55件B 等级,35件次品, 对于乙厂,单位产品利润Y 的可能取值为30,10,34-,Y 分布列如下:()30103401020205E Y ∴=⨯+⨯-⨯=-<,乙不能盈利. 【举一反三】1.(2021·山东高三专题练习)共享单车进驻城市,绿色出行引领时尚.某市有统计数据显示,2021年该市共享单车用户年龄等级分布如图1所示,一周内市民使用单车的频率分布扇形图如图2所示.若将共享单车用户按照年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用单车用户”,使用次数为5次或不足5次的称为“不常使用单车用户”.已知在“经常使用单车用户”中有56是“年轻人”.(1)现对该市市民进行“经常使用共享单车与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,补全下列22⨯列联表,并根据列联表的独立性检验,判断是否有85%的把握认为经常使用共享单车与年龄有关?使用共享单车情况与年龄列联表(2)将(1)中频率视为概率,若从该市市民中随机任取3人,设其中经常使用共享单车的“非年轻人”人数为随机变量X,求X的分布列与期望.参考数据:独立性检验界值表其中,22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++【答案】(1)列联表见解析,有85%的把握可以认为经常使用共享单车与年龄有关;(2)分布列见解析,数学期望为0.3.【解析】(1)补全的列联表如下:于是100a =,20b =,60c =,20d =,∴22200(100206020) 2.083 2.0721208016040K ⨯⨯-⨯=≈>⨯⨯⨯,即有85%的把握可以认为经常使用共享单车与年龄有关. (2)由(1)的列联表可知,经常使用共享单车的“非年轻人”占样本总数的频率为20100%10%200⨯=, 即在抽取的用户中出现经常使用单车的“非年轻人”的概率为0.1, ∵~(3,0.1)X B ,0,1,2,3X =∴3(0)(10.1)0.729P X ==-=,(1)0.243P X ==(2)0.027P X ==,3(3)0.10.001P X ===,∴X 的分布列为E X=⨯=.∴X的数学期望()30.10.3【举一反三】1.(2021·全国高三专题练习)某工厂为了提高生产效率,对生产设备进行了技术改造,为了对比技术改造后的效果,采集了技术改造前后各20次连续正常运行的时间长度(单位:天)数据,整理如下:改造前:19,31,22,26,34,15,22,25,40,35,18,16,28,23,34,15,26,20,24,21 改造后:32,29,41,18,26,33,42,34,37,39,33,22,42,35,43,27,41,37,38,36 (1)完成下面的列联表,并判断能否有99%的把握认为技术改造前后的连续正常运行时间有差异?(2)工厂的生产设备的运行需要进行维护,工厂对生产设备的生产维护费用包括正常维护费,保障维护费两种.对生产设备设定维护周期为T天(即从开工运行到第kT天,k∈N*)进行维护.生产设备在一个生产周期内设置几个维护周期,每个维护周期相互独立.在一个维护周期内,若生产设备能连续运行,则只产生一次正常维护费,而不会产生保障维护费;若生产设备不能连续运行,则除产生一次正常维护费外,还产生保障维护费.经测算,正常维护费为0.5万元/次;保障维护费第一次为0.2万元/周期,此后每增加一次则保障维护费增加0.2万元.现制定生产设备一个生产周期(以120天计)内的维护方案:T=30,k=1,2,3,4.以生产设备在技术改造后一个维护周期内能连续正常运行的频率作为概率,求一个生产周期内生产维护费的分布列及均值.附:22()()()()()n ad bc K a b c d a c b d -=++++【答案】(1)见解析,有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)见解析;均值为2.275万元. 【解析】(1)列联表为:()224055151510 6.63520202020K ⨯-⨯∴==>⨯⨯⨯∴有99%的把握认为技术改造前后的连续正常运行时间有差异.(2)由题知,生产周期内有4个维护周期,一个维护周期为30天,一个维护周期内,生产线需保障维护的概率为14P =. 设一个生产周期内需保障维护的次数为ξ,则1~4,4B ξ⎛⎫⎪⎝⎭;一个生产周期内的正常维护费为0.542⨯=万元,保障维护费为()()20.210.10.12ξξξξ⨯+=+万元.∴一个生产周期内需保障维护ξ次时的生产维护费为()20.10.12ξξ++万元.设一个生产周期内的生产维护费为X ,则X 的所有可能取值为2,2.2,2.6,3.2,4.()4181214256P X ⎛⎫==-= ⎪⎝⎭ ()31411272.214464P X C ⎛⎫==-= ⎪⎝⎭ ()222411272.6144128P X C ⎛⎫⎛⎫==-=⎪ ⎪⎝⎭⎝⎭ ()3341133.214464P X C ⎛⎫⎛⎫==-= ⎪⎪⎝⎭⎝⎭ ()41144256P X ⎛⎫=== ⎪⎝⎭所以,X 的分布列为()2 2.2 2.6 3.242566412864256E X ∴=⨯+⨯+⨯+⨯+⨯ 162237.6140.438.44582.4 2.275256256++++===∴一个生产周期内生产维护费的均值为2.275万元.2.(2021·四川成都市·高三一模)一网络公司为某贫困山区培养了100名“乡土直播员”,以帮助宣传该山区文化和销售该山区的农副产品,从而带领山区人民早日脱贫致富.该公司将这100名“乡土直播员”中每天直播时间不少于5小时的评为“网红乡土直播员”,其余的评为“乡土直播达人”.根据实际评选结果得到了下面22⨯列联表:(1)根据列联表判断是否有95%的把握认为“网红乡土直播员”与性别有关系?(2)在“网红乡土直播员”中按分层抽样的方法抽取6人,在这6人中选2人作为“乡土直播推广大使”.设被选中的2名“乡土直播推广大使”中男性人数为ξ,求ξ的分布列和期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)有95%的把握认为“网红乡土直播员”与性别有关系;(2)分布列见解析;期望为23. 【解析】(1)由题中22⨯列联表,可得()2210010302040 4.762 3.84150503070K ⨯-⨯=≈>⨯⨯⨯.∴有95%的把握认为“网红乡土直播员”与性别有关系. (2)在“网红乡土直播员”中按分层抽样的方法抽取6人, 男性人数为106230⨯=人;女性人数为206430⨯=人. 由题,随机变量ξ所有可能的取值为0,1,2.()022426620155CC P C ξ====,()1124268115C C P C ξ===,()2024261215C C P C ξ===, ∴ξ的分布列为∴ξ的数学期望()28110201251515153E ξ=⨯+⨯+⨯==. 考向三 非一次性回归方程【例3-1】(2021·全国高三专题练习)在一项调查中有两个变量x 和y ,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y 关于x 的回归方程的函数类型是( )A .y a bx =+B .y c =+C .2y m nx =+D .xy p qc =+(0q >)【答案】B【解析】散点图呈曲线,排除A 选项,且增长速度变慢,排除选项C 、D ,故选B .【例3-2】.(2021·全国高三专题练习)根据公安部交管局下发的通知,自2021年6月1日起,将在全国开展“一盔一带”安全守护行动,其中就要求骑行摩托车、电动车需要佩戴头盔,为的就是让大家重视交通安全.某地交警部门根据某十字路口的监测数据,从穿越该路口的骑行者中随机抽查了200人,得到如图所示的列联表:(1)是否有97.5%的把握认为自觉带头盔行为与性别有关?(2)通过一定的宣传和相关处罚措施出台后,交警在一段时间内通过对某路口不带头盔的骑行者统计,得到上面的散点图和如下数据:观察散点图,发现两个变量不具有线性相关关系,现考虑用函数y ax=+对两个变量的关系进行拟合,通过分析得y与1有一定的线性相关关系,并得到以下参考数据(其中1w=):请选择合适的参考数据,求出y关于x的回归方程.参考公式:22()()()()()n ad bcKa b c d a c b d-=++++.) 2k对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为:1221ˆni i i ni i u v nuvunu β==-=-∑∑,ˆˆv u αβ=-. 【答案】(1)没有;(2)100ˆ10yx=+. 【解析】(1)由列联表计算22200(30701090)754.68755.024120804016016K ⨯⨯-⨯===<⨯⨯⨯.故没有97.5%的把握认为骑行者自觉带头盔行为与性别有关. (2)由1w x =,则by a x =+可转化为y a bw =+,又306516y ==, 得6162216173.860.415148.34ˆ1001.49260.16810.48346i ii ii w y wybww ==--⨯⨯====-⨯-∑∑,则ˆˆ511000.4110ay bw =-=-⨯=. 故y 关于x 的回归方程为100ˆ1010010yw x=+=+ 【举一反三】1.(2021·河南周口市·高三月考)已知变量y 关于变量x 的回归方程为0.5ˆbx ye -=,其一组数据如下表所示:若9.1ˆye =,则x =( ) A .5B .6C .7D .8 【答案】B【解析】由0.5ˆbx ye -=,得n 0ˆl .5ybx =-,令ln z y =,则0.5z bx =-,由题意,12342.54x +++==,1346 3.54z +++==,因为(),x z 满足0.5z bx =-,所以3.5 2.50.5b =⨯-,解得 1.6b =, 所以 1.60.5z x =-,所以 1.60.5ˆx ye -=,令 1.60.59.1x e e -=,解得6x =.故选:B.2.(2021·全国高三专题练习)近期,济南公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:表:根据以上数据,绘制了散点图.(1)根据散点图判断,在推广期内y a bx =+与xy c d =⋅(c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断,不必说明理由); (2)根据(1)的判断结果及表中的数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表:车队为缓解周边居民出行压力,以80万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有16的概率享受7折优惠,有13的概率享受8折优惠,有12的概率享受9折优惠,预计该车队每辆车每个月有1万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要()*n n N ∈年才能开始盈利,求n 的值.参考数据:其中lg i i v y =,7117ii v v ==∑ 参考公式:对于一组数据(),i i u v ,()22,u v ,…,(),n n u v ,其回归直线v a u β=+的斜率和截距的最小二乘估计公式分别为:1221ni i i n i i u v nuv u nuβ==-=-∑∑,a v u β=-.【答案】(1)xy c d =⋅;(2)0.253.4710x y =⨯,347;(3)7.【解析】(1)因为散点近似在指数型函数的图象上,所以xy c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型:(2)∵xy c d =⋅,两边同时取常用对数得:()lg lg lg lg xy c dc xd =⋅=+;设lg y v =,∴lg lg v c x d =+,∵4x =, 1.54v =,721140i i x ==∑, ∴717221750.1274 1.547lg 0.25140716287i i i ii x v xv d x x ==--⨯⨯====-⨯-∑∑,把样本中心点()4,1.54代入lg 0.25v c x =+,得:lg 0.54c =,∴0540.25v x =+,∴lg 0.540.25y x =+,∴y 关于x 的回归方程式:0.540.250.540.250.25101010 3.4710x x x y +==⨯=⨯; 把8x =代入上式:∴0.2583.4710347y ⨯=⨯=; 活动推出第8天使用扫码支付的人次为347;(3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4;()20.1P Z ==;()11.80.30.152P Z ==⨯=;()11.60.60.30.73P Z ==+⨯=;()11.40.30.056P Z ==⨯= 所以,一名乘客一次乘车的平均费用为:20.1 1.80.15 1.60.7 1.40.05 1.66⨯+⨯+⨯+⨯=(元), 由题意可知:1.661120.6612800n n ⨯⨯⋅-⨯⋅->,203n >,所以,n 取7;估计这批车大概需要7年才能开始盈利. 3.(2021·全国高三专题练习)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容.同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新.萌宠机器人一投放市场就受到了很多家长欢迎.为了更好地服务广大家长,该公司研究部门从流水线上随机抽取100件萌宠机器人(以下简称产品),统计其性能指数并绘制频率分布直方图(如图1):产品的性能指数在[)50,70的适合托班幼儿使用(简称A 类产品),在[)70,90的适合小班和中班幼儿使用(简称B 类产品),在[]90,110的适合大班幼儿使用(简称C 类产品),A ,B ,C ,三类产品的销售利润分别为每件1.5,3.5,5.5(单位:元).以这100件产品的性能指数位于各区间的频率代替产品的性能指数位于该区间的概率. (1)求每件产品的平均销售利润;(2)该公司为了解年营销费用x (单位:万元)对年销售量y (单位:万件)的影响,对近5年的年营销费用i x ,和年销售量()1,2,3,4,5i y i =数据做了初步处理,得到的散点图(如图2)及一些统计量的值.表中ln i i u x =,ln i i y υ=,5115i i u u ==∑,5115i i υυ==∑.根据散点图判断,by a x =⋅可以作为年销售量y (万件)关于年营销费用x (万元)的回归方程.(i )建立y 关于x 的回归方程;(ii )用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大? (收益=销售利润-营销费用,取 4.15964e =). 参考公式:对于一组数据()()()1122,,,,,,n n u u u υυυ,其回归直线u υαβ=+的斜率和截距的最小二乘估计分别为()()()121ˆnii i nii uu uuυυβ==--=-∑∑,ˆˆu αυβ=-. 【答案】(1)每件产品的平均销售利润为4元(2)(i )1464y x =(ii )该厂应投入256万元营销费. 【解析】(1)设每件产品的销售利润为ξ元,则ξ的所有可能取值为1.5,3.5,5.5, 由直方图可得,A ,B ,C 三类产品的频率分别为0.15、0.45、0.4, 所以,()1.50.15P ξ==,()3.50.45P ξ==,()5.50.4P ξ==, 所以随机变量ξ的分布列为:所以, 1.50.15 3.50.45 5.50.44E ξ=⨯+⨯+⨯=, 故每件产品的平均销售利润为4元;(2)(i )由by a x =⋅得,()ln ln ln ln by a xa b x =⋅=+,令ln u x =,ln y υ=,ln c a =,则c bu υ=+,由表中数据可得,()()()515210.41ˆ0.251.61ii i ii uu buuυυ==--===-∑∑, 则24.8716.30ˆˆ0.25 4.15955cbu υ=-=-⨯=, 所以,ˆ 4.1590.25u υ=+,即14.1594ˆln 4.1590.25ln ln y x e x ⎛⎫=+=⋅ ⎪⎝⎭, 因为 4.15964e =,所以14ˆ64y x =, 故所求的回归方程为1464y x =;(ii )设年收益为z 万元,则()14256z E y x x x ξ=⋅-=-, 设14t x =,()4256f t t t =-,则()()332564464f t t t'=-=-,当()0,4t ∈时,()0f t '>,f t 在()0,4单调递增, 当()4t ,∈+∞时,()0f t '<,ft 在()4,+∞单调递减,所以,当4t =,即256x =时,z 有最大值为768,即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.1.(2021·全国高三专题练习)给出下列说法:①回归直线ˆˆˆybx a =+恒过样本点的中心(,)x y ,且至少过一个样本点; ②两个变量相关性越强,则相关系数||r 就越接近1; ③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程ˆ20.5y x =-中,当解释变量x 增加一个单位时,预报变量ˆy平均减少0.5个单位. 其中说法正确的是( )A .①②④B .②③④C .①③④D .②④ 【答案】B【解析】对于①中,回归直线ˆˆˆybx a =+恒过样本点的中心(,)x y ,但不一定过一个样本点,所以不强化练习正确;对于②中,根据相关系数的意义,可得两个变量相关性越强,则相关系数||r 就越接近1,所以是正确的;对于③中,根据方差的计算公式,可得将一组数据的每个数据都加一个相同的常数后,方差是不变的,所以是正确的;对于④中,根据回归系数的含义,可得在回归直线方程ˆ20.5y x =-中,当解释变量x 增加一个单位时,预报变量ˆy平均减少0.5个单位,所以是正确的. 故选:B.2.(2021·全国高三专题练习)对两个变量x 、y 进行线性相关检验,得线性相关系数10.7859r =,对两个变量u 、v 进行线性相关检验,得线性相关系数20.9568r =-,则下列判断正确的是( ) A .变量x 与y 正相关,变量u 与v 负相关,变量x 与y 的线性相关性较强 B .变量x 与y 负相关,变量u 与v 正相关,变量x 与y 的线性相关性较强 C .变量x 与y 正相关,变量u 与v 负相关,变量u 与v的线性相关性较强D .变量x 与y 负相关,变量u 与v 正相关,变量u 与v 的线性相关性较强 【答案】C【解析】由线性相关系数10.78590r =>知x 与y 正相关, 由线性相关系数20.95680r =-<知u 与v 负相关,又12r r <,所以,变量u 与v 的线性相关性比x 与y 的线性相关性强, 故选:C.3.(2021·河南新乡市·高三一模)2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区2019年11月至2020年11月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码113分别对应2019年11月2020年11月)根据散点图选择y a =+ln y c d x =+两个模型进行拟合,经过数据处理得到的两个回归方程分别为0.9369y =+0.95540.0306ln y x =+,并得到以下一些统计量的值:注:x 是样本数据中x 的平均数,y 是样本数据中y 的平均数,则下列说法不一定成立的是( ) A .当月在售二手房均价y 与月份代码x 呈正相关关系B .根据0.9369y =+2021年2月在售二手房均价约为1.0509万元/平方米C .曲线0.9369y =+0.95540.0306ln y x =+的图形经过点(),x yD .0.95540.0306ln y x =+回归曲线的拟合效果好于0.9369y =+ 【答案】C【解析】对于A ,散点从左下到右上分布,所以当月在售二手房均价y 与月份代码x 呈正相关关系,故A 正确;对于B ,令16x =,由0.9369 1.0509y =+=,所以可以预测2021年2月在售二手房均价约为1.0509万元/平方米,故B 正确; 对于C ,非线性回归曲线不一定经过(),x y ,故C 错误; 对于D ,2R 越大,拟合效果越好,故D 正确.故选:C.4.(2021·全国高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )A .24310r r r r <<<<B .42130r r r r <<<<C .42310r r r r <<<<D .24130r r r r <<<< 【答案】A【解析】由给出的四组数据的散点图可以看出,题图1和题图3是正相关,相关系数大于0, 题图2和题图4是负相关,相关系数小于0,题图1和题图2的点相对更加集中,所以相关性更强,所以1r 接近于1,2r 接近于1-, 由此可得24310r r r r <<<<. 故选:A .5.(2021·邵阳市第二中学高三其他模拟(文))某种产品的广告费支出x 与销售额y (单位:万元)。
自考-数量方法-相关分析讲义(第七章)
第七章 相关与回归分析打印本页对于现实世界,不仅要知其然,而且要知其所以然。
顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素,以及这些因素是如何起作用的。
通过本章学习,要对客观现象之间存在的相互依存、相互制约的关系加以分析,了解它们之间存在什么样的关系及其密切程度,并且能用一定的数量方式表现出来。
第一节 简单线性相关一、 相关关系及其表现形态(一)什么是相关关系任何事物的变化都与周围的其他事物相互联系和相互影响,我们如何根据统计数据确定变量间的关系形态及其联系程度,并探索其内在的规律性,人们在实践中发现变量之间的关系可以分为两种类型即函数关系和相关关系。
1.相关关系的概念相关关系:客观现象之间存在的互相依存关系,但存在不确定的数量关系。
如居民储蓄与居民家庭收入;父母身高与子女身高等。
身高与体重具有相关关系。
一般来说,身材较高的人,体重也较重。
反过来,体重较重的人,一般身体也较高。
同时,身高1.7米的人其体重有许多值;体重为60公斤的人,其身高也有许多值。
身高与体重之间没有完全严格的数量关系存在。
相关分析:对现象之间相关关系密切程度的研究。
就是研究两个或两个以上变量之间相关程度大小以及用一定函数来表达现象相互关系的方法。
2.相关关系与函数关系的区别函数关系:是指变量之间存在的相互依存的关系,它们之间的关系值是确定的。
如销售额与销售量之间的关系(在价格确定的条件下);圆的半径与面积的关系等。
相关关系与函数关系的不同之处表现在:(1)函数关系指变量之间的关系是确定的,而相关关系的两变量的关系则是不确定的。
可以在一定范围内变动;(2)函数关系变量之间的依存可以用一定的方程y=f(x)表现出来,可以由给定的自变量来推算因变量,而相关关系则不能用一定的方程表示。
函数关系是相关关系的特例,即函数关系是完全的相关关系,相关关系是不完全的相关关系。
变量间的相关关系讲义
变量间的相关关系讲义变量间的相关关系讲义一、基础知识梳理知识点1:变量之间的相关关系两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系。
当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系。
相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系。
注意:两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系。
点睛:两个变量相关关系与函数关系的区别和联系相同点:两者均是两个变量之间的关系,不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。
知识点2.散点图.1.在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图。
2.从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合。
3.对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到由上角的区域内。
如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散步在从左上角到右下角的区域。
本科生金融计量经济学讲义(1)
《金融计量经济学》 讲义北京大学光华管理学院金融系《计量金融学》讲 义0 序言金融学是经济学领域中一门特殊的交叉学科,它有着自身独有的一些特点。
最重要的特 点是金融市场中拥有大量的交易数据, 且这些数据几乎都是在一个相对公开的市场环境中产 生的。
这就使得金融学不仅在经济学领域内,而且在整个社会科学领域内都可以说是,最具 有实证性的一门学科。
金融学的实证研究不仅仅对各种现象和数据进行抽象, 而且是与实际 的市场发展紧密联系并对全球金融市场的稳定、 健康发展起着重要的作用。
金融计量学对市 场中各种各样的可观测变量进行分析、度量,并寻找这些变量之间的相互关系,为市场的未 来发展提供指导,为市场中的管理者和参与者提供决策参考。
因此,计量方法是金融学研究 的主要内容。
在我国目前自然科学和工程技术技术领域普遍通过“数据实证加逻辑推理”的 研究方法,而社会科学和经济学领域还被认为通常是一些思想、智慧或看法。
金融计量学是 应用“数据实证与逻辑推理” 方法于金融学领域的主要方式之一。
可见计量方法是金融学 的核心内容,计量金融学在金融学中占有相当重要的地位。
一、什么是金融计量经济学 当一家金融机构,面临某种制度(例如,引入独立董事制度、选择接受 MBA 教育的公 司高管,交易制度的引入或限制某种交易行为)的引入时,需要考虑引入制度对公司价值的 提升作用或收入水平变化的影响进行相应决策。
假定你在一家投资银行工作, 你可能需要研 究几种不同的交易策略对短期国债进行投资的收益。
假定你是有志作为一名学术研究者, 你 需要验证市场上的各种变量之间的关系 (例如长短期利率变化) 来确定它们是否遵从相关的 金融理论和模型假设。
要完成上述这些任务中的任意一项,你都需要使用金融计量方法,对 各种变量之间的关系通过统计方法进行分析和检验。
金融计量经济学中将会大量使用统计模型和方法解决金融相关问题, 为此金融计量与统 计之间的关系如何就是一个首先需要明确的问题。
苏教版 高考数学 一轮复习 讲义---第10章 学案56 线性回归方程
学案56 线性回归方程导学目标: 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.自主梳理1.相关关系:两个变量之间的关系可能是________关系(如:函数关系),或__________关系.当自变量取值一定时,因变量也确定,则为确定性关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系.2.散点图:将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图.3.回归直线(1)定义:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有________________,这条直线叫做回归直线.(2)最小二乘法:通过求Q =∑ni =1 (y i -bx i -a )2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和______,这一方法叫做最小二乘法. (3)线性回归方程方程y ^=bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.错误!. 自我检测1.下列有关线性回归的说法,正确的序号是________. ①相关关系的两个变量不一定是因果关系; ②散点图能直观地反映数据的相关程度;③回归直线最能代表线性相关的两个变量之间的关系; ④任一组数据都有线性回归方程. 2.下列关系:①人的年龄与其拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一树木,其截面直径与高度之间的关系;⑤学生的身高与其学号之间的关系,其中有相关关系的是________(填序号).3.(2010·银川模拟)下表是某厂1~4月份用水量(单位:百吨)的一组数据:由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是y ^=-0.7x +a ,则a =________.4.如图所示,有5组(x ,y )数据,去掉________组数据后,剩下的4组数据的线性相关性最大.5.(2010·金陵中学三模)已知三点(3,10),(7,20),(11,24)的横坐标x 与纵坐标y 具有线性关系,则其线性回归方程是________________.探究点一利用散点图判断两个变量的相关性例1有一位同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出热饮杯数与当天气温的对比表:变式迁移1某班5个学生的数学和物理成绩如表:探究点二求线性回归方程例2假设关于某设备的使用年限x和所支出的维修费用y(万元)有以下统计资料:若由资料知y对x呈线性相关关系.试求线性回归方程y=bx+a.变式迁移2 已知变量x 与变量y 有下列对应数据:且y 对x 呈线性相关关系,求y 对x 的线性回归方程.探究点三 利用线性回归方程对总体进行估计例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=bx +a ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)变式迁移3 (2010·盐城期末)某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程y =bx +a 中b =-2,预测当气温为-4℃时,用电量的度数约为________.1.相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.而相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.线性回归方程:设x 与y 是具有相关关系的两个变量,且相应于n 个观测值的n 个点大致分布在某一条直线的附近,就可以认为y 对x 的线性回归函数的类型为直线型:y ^=bx +a .我们称这个方程为y 对x 的线性回归方程.其中x =1n ∑n i =1x i ,y =1n ∑ni =1y i.3.线性回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过线性回归方程的适用范围,否则没有实用价值.(满分:90分)一、填空题(每小题6分,共48分)1.命题:①路程与时间、速度的关系是相关关系;②同一物体的加速度与作用力是函数关系;③产品的成本与产量之间的关系是函数关系;④圆的周长与面积的关系是相关关系;⑤广告费用与销售量之间的关系是相关关系.其中正确的命题序号是________.2.(2011·陕西改编)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是________.(填序号)①x 和y 的相关系数为直线l 的斜率; ②x 和y 的相关系数在0到1之间;③当n 为偶数时,分布在l 两侧的样本点的个数一定相同;④直线l 过点(x ,y ).3.已知一组观测值具有线性相关关系,若对于y ^=bx +a ,求得b =0.51,x =61.75,y =38.14,则线性回归方程为__________________.4.某地区近几年居民的年收入x 与支出y 之间的关系,大致符合y ^=0.8x +0.1(单位:亿元).预计今年该地区居民收入为15亿元,则年支出估计是________亿元.5.根据两个变量x ,y 之间的观测数据画成散点图如图,则这两个变量________线性相关关系(填“具有”或“不具有”).6.若施化肥量x 与水稻产量y 的线性回归方程为y ^=5x +250,当施化肥量为80 kg 时,预计水稻产量为________kg.7.已知线性回归方程y ^=4.4x +838.19,则可估计x 与y 的增长速度之比约为________. 8.(2010·青岛模拟)为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1、l 2,已知两人所得的试验数据中,变量x 和y 的数据的平均值都相等,且分别是s 、t ,那么下列说法中正确的是________(填上正确的序号).①直线l 1和l 2一定有公共点(s ,t );②直线l 1和l 2相交,但交点不一定是(s ,t ); ③必有l 1∥l 2;④l 1与l 2必定重合.二、解答题(共42分) 9.(14分)(2010·威海模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:(1)(2)求出y 关于x 的线性回归方程y ^=bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b =∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x )10.(14分)(2010·潍坊模拟)某种产品的宣传费支出x 与销售额y (单位:万元)之间有如下对应数据:(1)画出散点图; (2)求线性回归方程;(3)试预测宣传费支出为10万元时,销售额多大?11.(14分)(1)(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元?学案56 线性回归方程答案自主梳理1.确定性 非确定性 3.(1)线性相关关系 (2)最小 (3)∑ni =1(x i -x )(y i -y )∑ni =1(x i -x )2∑n i =1x i y i -n x y∑ni =1x 2i -n x2y -b x自我检测 1.①②③解析 根据两个变量相关关系的概念,可知①正确,散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以②、③正确.只有线性相关的数据才有线性回归直线方程,所以④不正确. 2.①③④ 3.5.25解析x =2.5,y =3.5,∵线性回归方程过定点(x ,y ),∴3.5=-0.7×2.5+a .∴a =5.25. 4.D解析 因为A 、B 、C 、E 四点分布在一条直线附近且贴近某一直线,D 点离得远. 5.y ^=74x +234解析 ∵∑3i =1x i y i =434,x =7,y =18,∑3i =1x 2i=179, ∴b =∑3i =1x i y i -3x y∑3i =1x 2i -3x 2=74. a =y -b x=18-74×7=234,∴线性回归方程为y ^=74x +234.课堂活动区例1 解题导引 判断变量间是否线性相关,一种常用的简便可行的方法就是作散点图.解 (1)以x 轴表示温度,以y 轴表示热饮杯数,可作散点图,如图所示.(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间是负相关关系,即气温越高,卖出去的热饮杯数越少.从散点图可以看出,这些点大致分布在一条直线附近,所以两变量之间具有相关关系. 变式迁移1 解 以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下图所示:由散点图可见,两者之间具有相关关系.例2 解题导引 求线性回归方程,关键在于正确求出系数a ,b ,由于计算量较大,所以计算时要仔细谨慎,分层进行,避免因计算产生失误,特别注意,只有在散点图大体呈线性时,求出的线性回归方程才有意义.解 制表如下:i 1 2 3 4 5 合计 x i 2 3 4 5 6 20 y i 2.2 3.8 5.5 6.5 7.0 25 x i y i 4.4 11.4 22.0 32.5 42.0 112.3 x 2i4 9 16 25 36 90 x =4;y =5;于是有b =112.3-5×4×590-5×42=12.310=1.23;a =y -b x =5-1.23×4=0.08.∴线性回归方程为y ^=1.23x +0.08.变式迁移2 解 x =1+2+3+44=52,y =12+32+2+34=74,∑n i =1x 2i=12+22+32+42=30,∑ni =1x i y i=1×12+2×32+3×2+4×3=432, ∴b =∑ni =1x i y i-n x y ∑n i =1x 2i -n x 2=432-4×52×7430-4×254=0.8,a =y -b x =74-0.8×52=-0.25,∴y ^=0.8x -0.25.例3 解题导引 利用线性回归方程可以进行预测,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制,依据自变量的取值估计和预报因变量值的基础和依据,有广泛的应用.解 (1)散点图:(2)x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑4i =1x i y i =3×2.5+4×3+5×4+6×4.5=66.5.∑4i =1x 2i =32+42+52+62=86, ∴b =∑4i =1x i y i -4x y ∑4i =1x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7, a =y -b x =3.5-0.7×4.5=0.35. ∴所求的回归方程为y ^=0.7x +0.35.(3)现在生产100吨甲产品用煤y ^=0.7×100+0.35=70.35, ∴降低90-70.35=19.65(吨标准煤). 变式迁移3 68解析 x =10,y =40, 回归方程过点(x ,y ), ∴40=-2×10+a .∴a =60. ∴y ^=-2x +60.令x =-4,y ^=(-2)×(-4)+60=68. 课后练习区 1.②⑤ 2.④解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以①②错误.③中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以③错误.根据线性回归方程一定经过样本中心点可知④正确.3.y ^=0.51x +6.65解析 a =y -b x =38.14-0.51×61.75≈6.65. ∴y ^=0.51x +6.65. 4.12.1解析 ∵y ^=0.8x +0.1,∴当x =15时,y ^=0.8×15+0.1=12.1. 5.不具有 6.650解析 将x =80代入y ^=5x +250中,即可得水稻的产量约为650 kg. 7.522解析 x 与y 的增长速度之比即为回归方程的斜率的倒数14.4=1044=522.8.①解析 线性回归方程为y ^=bx +a .而a =y -b x , 即a =t -bs ,t =bs +a .∴(s ,t )在回归直线上.∴直线l 1和l 2一定有公共点(s ,t ). 9.解(1)散点图如图所示.(4分) (2)由表中数据得∑4i =1x i y i=52.5,x =3.5,y =3.5,∑4i =1x 2i=54, ∴b ^=0.7.(7分) ∴a ^=y -b ^x =1.05.∴y ^ =0.7x +1.05.回归直线如图中所示.(10分) (3)将x =10代入线性回归方程, 得y =0.7×10+1.05=8.05(小时),∴预测加工10个零件需要8.05小时.(14分) 10.解 (1)根据表中所列数据可得散点图如图所示:(4分)(2)计算得:x =255=5,y =2505=50, ∑5i =1x 2i =145,∑5i =1x i y i =1 380. 于是可得b =∑5i =1x i y i -5x y ∑5i =1x 2i -5x 2=1 380-5×5×50145-5×52=6.5,(7分)a =y -b x =50-6.5×5=17.5, 因此,所求线性回归方程是y ^=6.5x +17.5.(10分)(3)由上面求得的线性回归方程可知,当宣传费支出为10万元时, y ^=6.5×10+17.5=82.5(万元), 即这种产品的销售大约为82.5万元.(14分)11.解 (1)n =6,∑6i =1x i =21,∑6i =1y i=426,x =3.5,y =71, ∑6i =1x 2i =79,∑6i =1x i y i=1 481, b =∑6i =1x i y i -6x y ∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82.(5分)a =y -b x =71+1.82×3.5=77.37.∴线性回归方程为y ^=a +bx =77.37-1.82x . (8分)(2)因为单位成本平均变动b =-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有:产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (12分)(3)当产量为6 000件时,即x =6,代入线性回归方程:y ^=77.37-1.82×6=66.45(元).∴当产量为6 000件时,单位成本为66.45元.(14分)实用文档祝你高考成功!11。
stata简单讲义第六讲
stata简单讲义第六讲线性相关和回归赵耐青在实际研究中,经常要考察两个指标之间的关系,即:相关性。
现以体重与身高的关系为例,分析两个变量之间的相关性。
要求身高和体重呈双正态分布,既:在身高和体重平均数的附近的频数较多,远离身高和体重平均数的频数较少。
样本相关系数计算公式(称为Pearson 相关系数):)()())((22YYXXXY L L L Y Y X X Y Y X X r =----=∑∑∑(1)1. 考察随机模拟相关的情况。
显示两个变量相关的散点图程序simur.ado (本教材配套程序,使用见前言)。
命令为simur 样本量 总体相关系数 如显示样本量为100,ρ=0的散点图 本例命令为simur 100 0数据格式为X Y171.0 58.0176.0 69.0175.0 74.0172.0 68.0170.0 64.0173.0 68.5168.0 56.0172.0 54.0170.0 62.0172.0 63.0173.0 67.0168.0 60.0171.0 68.0172.0 76.0173.0 65.0Stata命令pwcorr 变量1 变量2 …变量m,sig 本例命令pwcorr x y,sigpwcorr x y,sig| x y-------------+------------------x | 1.0000||y | 0.5994 1.0000| 0.0182|Pearson相关系数=0.5994,P值=0.0182<0.05,因此可以认为身高与体重呈正线性相关。
注意:Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布,通常在检查中要求X服从正态分布并且Y服从正态分布。
如果不满足双正态分布时,可以计算Spearman相关系数又称为非参数相关系数。
Spearman相关系数的计算基本思想为:用X和Y的秩代替它们的原始数据,然后代入Pearson相关系数的计算公式并且检验与Pearson相关系数类同。
2023年高考数学(文科)一轮复习讲义——变量间的相关关系与统计案例
第4节 变量间的相关关系与统计案例考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=, a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1, y 1)(x 2, y 2),…,(x n, y n ), 其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c dc +d总计a +cb +d a +b +c +d则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )n =a +b +c +d 为样本容量.1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本点的中心(x -,y -).2.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.3.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)√ (4)√2.(易错题)(2022·兰州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,n ∈N *,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A.-1 B.0C.12D.1答案 D解析 由题设知,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25答案 A解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+b e xD.y=a+b ln x答案 D解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案 5%解析 K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.6.(2022·银川模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x (个) 10 20 30 40 50 加工时间y (min)62a758189若用最小二乘法求得回归直线方程为y ^=0.67x +54.9,则a 的值为________. 答案 68解析 x -=10+20+30+40+505=30,y -=62+a +75+81+895=61+2+a 5,所以61+2+a5=0.67×30+54.9, 解得a =68.考点一 相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6 人均销售额 6 5 8 3 4 7 利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是( ) A.利润率与人均销售额成正相关关系 B.利润率与人均销售额成负相关关系 C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系 答案 A解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C 和D ;其属于正相关关系,A 正确,B 错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3 答案 A解析 由散点图知图①与图③是正相关,故r 1>0,r 3>0, 图②与图④是负相关,故r 2<0,r 4<0,且图①与图②的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1,故选A. 3.(2022·合肥模拟)根据如下样本数据,得到回归直线方程y ^=b ^x +a ^,则( )x 3 4 5 6 7 8 y-3.0 -2.00.5-0.52.54.0A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0答案 C解析 作出散点图(图略),由散点图可知,a ^<0,b ^>0. 感悟提升 判断相关关系的两种方法:(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1,相关性越强. 考点二 回归分析 角度1 线性回归方程及应用例1 (2021·成都诊断)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x (单位:年)与失效费y (单位:万元)的统计数据如下表所示:使用年限x (单位:年) 1234567失效费y (单位:万元)2.903.30 3.604.40 4.805.20 5.90(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并估算该种机械设备使用10年的失效费. 参考公式:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2∑ni =1(y i -y -)2.线性回归方程y ^=b ^x +a ^中斜率和截距最小二乘估计计算公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 参考数据:∑7i =1(x i -x -)(y i -y -)=14.00, ∑7i =1(y i -y -)2=7.08,198.24≈14.10.解 (1)由题意,知x -=1+2+3+4+5+6+77=4,y -=2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,∑7i =1(x i -x -)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28, ∴r =14.0028×7.08=14.00198.24≈14.0014.10≈0.99.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系. (2)∵b ^=∑7i =1 (x i -x -)(y i -y -)∑7i =1 (x i -x -)2=1428=0.5, ∴a ^=y --b ^x -=4.3-0.5×4=2.3.∴y 关于x 的线性回归方程为y ^=0.5x +2.3.将x =10代入线性回归方程,得y ^=0.5×10+2.3=7.3, ∴估算该种机械设备使用10年的失效费为7.3万元. 角度2 非线性回归方程及应用例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB =1 024 TB),EB(1 EB =1 024 PB)乃至ZB(1 ZB =1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49 ZB ,2009年数据量为0.8 ZB ,2010年增长到1.2 ZB ,2011年数据量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:表中z i =ln y i ,z -=16∑6i =1z i . (1)根据上表数据信息判断,方程y =c 1·e c 2x (e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(c 2精确到0.01);(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由. 参数数据:e4.56≈95.58,e4.58≈97.51,回归方程y ^=a ^+b ^x 中,b ^=∑n i =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i -nx -2, a ^=y --b ^x -.解 (1)由y =c 1·e c 2x 得ln y =c 2x +ln c 1, 即z =c 2x +ln c 1,∴c 2=∑6i =1(x i -x -)(z i -z -)∑6i =1(x i -x -)2=6.7317.5≈0.38.又∵z -=c 2x -+ln c 1,0.38×3.5+ln c 1=2.85,ln c 1=1.52. ∴ln y =0.38x +1.52,即y =e 0.38x +1.52为所求的回归方程. (2)根据(1)知回归方程为y =e 0.38x +1.52.当x =9时,y =e 0.38×9+1.52=e 4.94>e 4.56≈95.58,95.581.82≈52.52.据此可以判断2022年全球产生的数据量超过2011年的50倍,因此,这种判断是准确的.感悟提升 回归分析问题的类型及解题方法 (1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. ②利用公式,求出回归系数b ^.③待定系数法:利用回归直线过样本点的中心求系数a ^.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.训练1 下面给出了根据我国2015~2021年水果人均占有量y (单位:kg)和年份代码x 绘制的散点图和线性回归方程的残差图.(2015年~2021年的年份代码x 分别为1~7)(1)根据散点图分析y 与x 之间的相关关系;(2)根据散点图相应数据计算得∑7i =1y i =1 074,∑7i =1x i y i =4 517,求y 关于x 的线性回归方程;(精确到0.01)(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果. 附:回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为 b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2, a ^=y --b ^x -.解 (1)从散点图可以看出,这些点的分布整体上在一条直线附近,且当x 由小变大时,y 也由小变大,所以y 与x 之间具有线性相关关系,且是正相关. (2)由题意可知,x -=1+2+3+4+5+6+77=4,y -=17∑7i =1y i=1 0747, ∑7i =1x 2i =12+22+32+42+52+62+72=140, ∴b ^=∑7i =1x i y i-7x - y -∑7i =1x 2i -7x -2=4 517-7×4×1 0747140-7×42=22128≈7.89,∴a ^=y --b ^x -=1 0747-7.89×4≈121.87,∴y 关于x 的线性回归方程为y ^=7.89x +121.87.(3)由残差图可以看出历年数据的残差均分布在-2~2之间,且图中各点比较均匀地分布在数值0所在直线附近,带状区域很窄,说明对应的回归直线拟合效果较好.考点三 独立性检验例3 (2021·武汉质检)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展,行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯,该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到统计图如图所示.(1)估算该市电动自行车骑乘人员的平均年龄; (2)根据所给的数据,完成列联表:是否佩戴头盔是否(3)根据(2)中的列联表,判断是否有99%的把握认为佩戴安全头盔与年龄有关. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)该市电动自行车骑乘人员平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(周岁). (2)完成2×2列联表如下:(3)K 2的观测值k =1 000×(60×540-60×340)2600×400×880×120=12522≈5.682<6.635.故没有99%的把握认为佩戴安全头盔与年龄有关.感悟提升 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0. |ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)通过比较观测值k与临界值的大小关系来作统计推断.训练2 (2022·南宁模拟)第五代移动通信技术(5G技术)是最新一代蜂窝移动通信技术,也是继4G、3G和2G系统之后的延伸.5G的性能目标是高数据速率、减少延迟、节省能源、降低成本、提高系统容量和大规模设备连接.某大学为了解学生对“5G”相关知识的了解程度,随机抽取100名学生参与测试,并根据得分划分成“不太了解”或“比较了解”两类后整理得到如下列联表:(1)补全列联表,并判断是否有99.9%的把握认为“学生对5G的了解程度与性别有关”;(2)从“不太了解”的学生中按性别分层抽取6人,再从这6人中随机选取2人参加“5G”知识讲座,求抽到的2人中恰有1名女生的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d). 临界值表:解(1)补全的列联表如下:不太了解 比较了解 总计 男生 25 33 58 女生 5 37 42 总计3070100所以K 2的观测值k =100×(25×37-33×5)258×42×30×70≈11.291>10.828,故有99.9%的把握认为“学生对5G 的了解程度与性别有关”. (2)“不太了解”的男生有25人,女生有5人,按性别分层抽样从中抽取6人,则男生应抽取5人,记为a ,b ,c ,d ,e ,女生应抽取1人,记为x ,再从这6人中随机抽取2人共有15种情况:xa ,xb ,xc ,xd ,xe ,ab ,ac ,ad ,ae ,bc ,bd ,be ,cd ,ce ,de ,抽到恰有1名女生有5种情况:xa ,xb ,xc ,xd ,xe , 所以所求的概率为515=13.1.为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验 D.概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v ,有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2),由这两个散点图可以判断( )A.变量x 与y 正相关,u 与v 正相关B.变量x 与y 正相关,u 与v 负相关C.变量x 与y 负相关,u 与v 正相关D.变量x 与y 负相关,u 与v 负相关 答案 C解析 由题图(1)可知,y 随x 的增大而减小,各点整体呈下降趋势,x 与y 负相关,由题图(2)可知,u 随v 的增大而增大,各点整体呈上升趋势,u 与v 正相关. 3.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( ) A.①② B.②③ C.①③ D.①②③答案 D4.(2022·昆明诊断)下表是关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)的统计表:x 2 3 4 5 6 y3.44.25.15.56.8由表可得线性回归方程y ^=0.81x +a ^,若规定:维修费用y 不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为( ) A.7B.8C.9D.10答案 D解析 由已知表格,得x -=15×(2+3+4+5+6)=4, y -=15×(3.4+4.2+5.1+5.5+6.8)=5,因为回归直线恒过样本点的中心(x -,y -), 所以5=0.81×4+a ^,解得a ^=1.76, 所以回归直线的方程为y ^=0.81x +1.76,由y ≤10,得0.81x +1.76≤10,解得x ≤82481≈10.17,由于x ∈N *,所以据此模型预测,该设备使用年限的最大值为10.故选D. 5.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:附表:参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关 答案 A解析 ∵K 2的观测值k =55×(20×20-5×10)225×30×30×25≈11.978>10.828,所以有99.9%的把握认为喜欢“应用统计”课程与性别有关,即在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关. 6.下列说法:①残差可用来判断模型拟合的效果;②设有一个回归方程:y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归直线:y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =6.665,则有99%的把握确认这两个变量间有关系(其中P (K 2≥6.635)=0.010), 其中错误的个数是( ) A.0 B.1 C.2 D.3答案 B解析 对于①,残差可用来判断模型拟合的效果,残差越小,拟合效果越好,∴①正确;对于②,回归方程y ^=3-5x 中,变量x 增加一个单位时,y 平均减少5个单位,∴②错误;对于③,线性回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),∴③正确; 对于④,在2×2列联表中,由计算得k =6.665,对照临界值得,有99%的把握确认这两个变量间有关系,∴④正确. 综上,其中错误的命题是②,共1个,故选B.7.已知x 和y 的散点图如图所示,在相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21,R 22中较大的是________.答案 R 21解析 由散点图知,用y =c 1e c 2x 拟合的效果比y ^=b ^x +a ^拟合的效果要好,所以R 21>R 22,故较大者为R 21.8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2的观测值k ≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%. 答案 ①解析 k ≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.9.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%; ②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%; ④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%. 答案 ②解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.10.(2022·河南名校联考)某学校食堂统计了最近5天到餐厅就餐的人数x (单位:百人)与食堂向食材公司购买所需食材(原材料)的数量y (单位:袋),得到如下统计表:(1)根据所给的5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)已知购买食材的费用C (单位:元)与数量y (单位:袋)的关系为C =⎩⎨⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),投入使用的每袋食材相应的销售单价为700元,多余的食材必须无偿退还食材公司,据悉下周一大约有1 500人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2,a ^=y --b ^x -. 参考数据:∑5i =1x i y i =1 343,∑5i =1x 2i =558,∑5i =1y 2i=3 237. 解 (1)由所给数据可得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,所以b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i-5x -2=1 343-5×10.4×25558-5×10.42=2.5,又a ^=y --b ^x -=25-2.5×10.4=-1, 所以y 关于x 的线性回归方程为y ^=2.5x -1. (2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要购买食材36.5袋. 因为C =⎩⎪⎨⎪⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),所以当y <36时,利润L =700y -(400y -20)=300y +20,y ∈N , 此时当y =35时,利润L max =300×35+20=10 520(元);当y ≥36时,根据线性回归方程预测需要购买食材36.5袋,并且剩余的食材只能无偿退还,此时当y =36时,利润L =700×36-380×36=11 520(元), 当y =37时,利润L =700×36.5-380×37=11 490(元).综上,食堂应购买36袋食材,才能获得最大利润,最大利润为11 520元. 11.(2022·“四省八校”开学考试)据我国一项专题调查显示,某市高级职称的中年知识分子中竟有高达75.3%的人处于亚健康状态,更令人担忧的是85%以上的企业管理者处于慢性疲劳状态或亚健康状态,这是由他们所处的特殊工作及生活的环境和行为模式所决定的.亚健康是指非病非健康的一种临界状态.如果这种状态不能及时得到纠正,非常容易引起身心疾病.某高科技公司为了了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查,该公司处于正常工作状态的员工(包括管理人员)共有8 000人,其中男性员工有6 000人,女性员工有2 000人,从8 000人中用分层抽样的方法随机抽取了400人作为样本进行健康状况的调查.(1)求男性员工、女性员工各抽取多少人?(2)通过调查得到如图所示的统计图,其中a=0.2,b=0.1.根据统计图,完成下面2×2列联表,健康亚健康总计男员工女员工总计400问是否有97.5%的把握认为人处于亚健康状态与性别有关?参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. 参考数据:P(K≥k0)0.050.0250.0100.005k0 3.841 5.024 6.6357.879解(1)由题意知样本容量与总体的比值为4008 000=120,∴男性员工抽取了6 000×120=300(人),女性员工抽取了2 000×120=100(人).(2)由统计图可知,样本中男员工处于亚健康状态的人数为300×0.2=60,样本中女员工处于亚健康状态的人数为100×0.1=10,2×2列联表为健康 亚健康 总计 男员工 240 60 300 女员工 90 10 100 总计33070400则K 2的观测值k =400×(240×10-60×90)2300×100×330×70≈5.195>5.024,∴有97.5%的把握认为人处于亚健康状态与性别有关.12.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高. 其中正确的为________(填序号). 答案 ①解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-12附近波动.经计算∑6i =1x i =12,∑6i =1y i =14,∑6i =1x 2i =23,则实数b 的值为________. 答案 1723解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -12, 此时t -=∑6i =1x 2i 6=236,y -=∑6i =1yi 6=73,代入y =bt -12,得73=b ×236-12,解得b =1723.14.近年来,国资委、党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:(1)求y 关于x 的线性回归方程(计算结果保留两位小数);(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解 (1)依题意得,x -=1+2+3+4+55=3,y -=8+10+13+25+245=16,故∑5i =1(x i -x -)(y i -y -)=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47, ∑5i =1(x i -x -)2=4+1+1+4=10,则b ^=∑5i =1(x i -x -)(y i -y -)∑5i =1 (x i -x -)2=4710=4.7,a ^=y --b ^x -=16-4.7×3=1.9.所以y 关于x 的线性回归方程为y ^=4.7x +1.9. (2)依题意,女性不愿意参与管理的人数为50, 计算得K 2的观测值为k =300×(150×50-50×50)2200×100×200×100=300×5 000×5 000200×100×200×100=18.75>10.828, 故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.。
2019版数学(理)高分计划一轮高分讲义:第9章 统计与统计案例 9.3 变量间的相关关系与统计案例
9.3变量间的相关关系与统计案例[知识梳理]1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2。
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归方程为错误!=错误!x+错误!,则错误!=错误!=错误!,错误!=错误!-错误!错误!.其中,错误!是回归方程的斜率,错误!是在y轴上的截距,错误!=错误!错误!x i,错误!=错误!错误!y i,(错误!,错误!)称为样本点的中心.说明:回归直线错误!=错误!x+错误!必过样本点的中心(错误!,错误!),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r=错误!,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量正相关;②当r<0时,表明两个变量负相关;③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|〉0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K=错误!,其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.[诊断自测]1.概念思辨(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(2)通过回归方程错误!=错误!x+错误!可以估计和观测变量的取值和变化趋势.()(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案(1)√(2)√(3)√(4)×2.教材衍化(1)(必修A3P94A组T3)某种产品的广告费用支出x(单位:万元)与销售额y(单位:万元)之间有如下的对应数据:错误!错误!错误!,则此直线一定经过点( )A .(5,60)B .(5,50)C .(6,50)D .(8,70) 答案 B解析 回归直线样本点的中心为(x -,错误!),而错误!=错误!×(2+4+5+6+8)=5,错误!=错误!×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B.(2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:则有________的把握认为性别与是否读生产日期有关. 答案 99.5%解析 由表中数据得k =错误!≈8。
stata简单讲义第六讲
表示在固定年龄情况下的身高总体均数。 上 述 公 式 称 为 直 线 回 归 方 程 。 其 中 为 回 归 系 数 ( regression coefficient),或称为斜率(slope);称为常数项(constant),或称为
截距(intercept)。回归系数表示 x 变化一个单位 y 平均变化个单位。
明显的离群点,故说明所建回归方程比较理想。
110.0 114.5 112.5 116.5 110.0 114.5 110.0 113.1
117.0 122.0 119.0 119.0 125.5 120.5 122.0 120.6
125.5 122.5 123.5 120.5 123.0 124.0 126.5 124.0
由于男孩的身高与年龄有关系,不同的年龄组的平均身高是不同
x | 1.0000
|
|
y | 0.5994 1.0000
| 0.0182
|
Pearson 相关系数=0.5994,P 值=0.0182<0.05,因此可以认为身高与体
重呈正线性相关。
注意:Pearson 相关系数又称为线性相关系数并且要求 X 和 Y 双正态
分布,通常在检查中要求 X 服从正态分布并且 Y 服从正态分布。
如果不满足双正态分布时,可以计算 Spearman 相关系数又称为非参
数相关系数。
Spearman 相关系数的计算基本思想为:用 X 和 Y 的秩代替它们的原
始数据,然后代入 Pearson 相关系数的计算公式并且检验与 Pearson
相关系数类同。
Stata 实现
spearman x y
Number of obs =
e|
《反比例函数》 讲义
《反比例函数》讲义一、反比例函数的定义一般地,如果两个变量 x、y 之间的关系可以表示成 y = k/x(k 为常数,k≠0)的形式,那么称 y 是 x 的反比例函数。
例如,在路程 s 一定的情况下,速度 v 和时间 t 之间的关系为 v =s/t,当 s 为常数时,v 就是 t 的反比例函数。
需要注意的是,反比例函数中,x 作为分母不能等于 0,所以函数的定义域是x≠0 的一切实数。
二、反比例函数的表达式反比例函数常见的表达式有以下三种形式:1、 y = k/x(k 为常数,k≠0),这是最基本的形式。
2、 xy = k(k 为常数,k≠0),变形可得 y = k/x。
3、 y = kx^(-1)(k 为常数,k≠0),这里的 x^(-1)表示 1/x。
三、反比例函数的图象反比例函数的图象是双曲线。
当 k>0 时,双曲线的两支分别位于第一、三象限,在每一象限内 y 随 x 的增大而减小;当 k<0 时,双曲线的两支分别位于第二、四象限,在每一象限内 y 随 x 的增大而增大。
例如,函数 y = 2/x,因为 k = 2>0,所以图象的两支分别在第一、三象限,在每个象限内,y 随 x 的增大而减小。
再比如,函数 y =-3/x,由于 k =-3<0,图象的两支就在第二、四象限,在每个象限内,y 随 x 的增大而增大。
为了更准确地画出反比例函数的图象,我们可以采用以下步骤:1、列表:选取一些 x 的值,计算出相应的 y 值,列出表格。
2、描点:根据表格中的数值,在平面直角坐标系中描出对应的点。
3、连线:用平滑的曲线将这些点连接起来。
四、反比例函数的性质1、对称性反比例函数的图象关于原点对称。
这意味着如果点(a,b)在反比例函数的图象上,那么点(a,b)也在图象上。
它的图象还是关于直线 y = x 和 y = x 对称的。
2、增减性当 k>0 时,在每个象限内,y 随 x 的增大而减小;当 k<0 时,在每个象限内,y 随 x 的增大而增大。
《社会学研究法》讲义-12-定性资料分析-教学版
第十二章定性资料分析与前面一章定量资料分析完全不同的是,本章所介绍的方法基本上与数字无关,与统计无关。
这是由定性研究所得资料的性质决定的。
与那种格式统一、能转变成数字、输入计算机,并进行统计分析的定量资料相比,定性资料显得过于杂乱无章;而与定量资料分析中那种规范的、统一的程序,成形的、相对固定的方法,以及标准化技术相比,定性资料分析也似乎是无规则可循。
它似乎主要根据每个研究者自己的喜好、习惯和经验来进行,而且基本上只依赖于研究者的主观分析。
但在实际上,我们仍然可以从这种看起来杂乱的资料中寻找到某些可以依据的线索和脉络,从这种无明显程序的分析过程中总结出某些经验性的做法。
在这一章中,我们将从了解和探讨定性资料的形式和特点开始,对定性资料分析的目标、特点等进行探讨,并详细介绍整理和分析这种类型资料的各种方法。
在介绍和探讨的过程中,我们会经常将定性资料分析与定量资料分析进行对比,以帮助读者更好地认识和掌握定性资料分析的方法。
第一节定性资料及其形式一、定性资料及分析的概念有的学者认为,“定性资料指的是那些以文字、段落、文章或其他记录符号来描述或表达社会生活中的人物、人物的行为、态度,以及各种社会生活事件的资料。
”在本书中,我们则进一步将定性资料(qualitative data)定义为:研究者从实地研究中所得到的各种以文字、符号表示的观察记录、访谈笔记,以及其他类似的记录材料。
根据这一定义,本章中所谈到的定性研究及定性研究者也主要指的是实地研究和实地研究者。
在一定的意义上,对这种定性资料的分析,也可以有定量与定性两种完全不同的方式。
定量方式主要体现在本书第九章中介绍的内容分析一节中。
在那里,研究者先将各种文字、段落、图片、符号等材料进行编码和量化的处理。
再运用各种统计手段对它们进行定量分析。
除了资料的来源不同、形式不同、编码的方法不同以外,内容分析中的资料分析程序与调查研究中对问卷资料的分析程序几乎没有什么两样。
变量的相关关系讲义
姓名学生姓名填写时间
学科数学年级高三教材版本新人教版阶段第()周观察期:□维护期:□
课题名称高考专题复习——变量的相关
关系
课时计划
第()次课
共()课时
上课时间2011-1-16
教学目标教学重点教学难点
教学过程
课后记本节课教学计划完成情况:照常完成□提前完成□延后完成□
学生的接受程度:完全能接受□部分能接受□不能接受□
学生的课堂表现:很积极□比较积极□一般□不积极□
学生上次的作业完成情况:数量% 完成质量分存在问题
备
注
班主任签字家长或学生签字教研主任审批
第11页。
路径分析结构方程讲义
路径分析结构方程讲义路径分析是一种统计分析方法,用于探索变量之间的关系和影响方向。
它可以通过计算变量之间的相关系数和回归系数来确定变量之间的直接和间接影响。
路径分析可以用来研究不同变量对一个特定结果变量的影响,以及变量之间的中介作用。
结构方程模型是路径分析的一种扩展形式,它能够同时考虑观测变量和潜在变量的影响。
路径分析的基本概念包括:观测变量、直接效应、间接效应、全效应和回归系数。
观测变量是指可以直接观察和测量的变量,直接效应是指一个变量对另一个变量的直接影响,间接效应是指一个变量通过其他变量对另一个变量的影响,全效应是指一个变量对另一个变量的总体影响,包括直接效应和间接效应。
回归系数是指一个变量对另一个变量的影响的比例。
路径分析的步骤包括:确定研究目的、构建研究模型、数据收集与检查、模型拟合与修正、模型解释与验证。
在确定研究目的时,需要明确所研究的变量以及它们之间的关系。
构建研究模型时,需要确定每个变量的测量方式和指标,以及变量之间的路径关系。
数据收集与检查阶段是为了获取有效的数据,并检查数据的质量和完整性。
模型拟合与修正阶段是用来拟合路径模型,通过检验模型的拟合度来确定模型的准确性和可靠性。
模型解释与验证阶段是对模型进行解释和验证,解释模型中各个路径的意义和方向,验证模型是否符合实际情况。
结构方程模型是一种更为复杂的路径分析方法,在路径分析的基础上添加了潜在变量。
潜在变量是指无法直接观察和测量的变量,可以通过多个观测变量进行间接测量。
结构方程模型可以通过测量模型和结构模型进行分析。
测量模型是用来验证潜在变量的指标是否准确地反映了潜在变量的含义,结构模型是用来分析潜在变量和观测变量之间的关系。
结构方程模型的应用范围很广,可以用于各种社会科学研究、心理学研究、教育研究等。
它可以用来分析变量之间的关系和作用机制,帮助研究者理解变量之间的复杂关系。
结构方程模型还可以用来进行因果推论和预测分析,帮助研究者预测未来的变化和结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量间的相关关系讲义一、基础知识梳理知识点1:变量之间的相关关系两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系。
当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系。
相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系。
注意:两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系。
点睛:两个变量相关关系与函数关系的区别和联系相同点:两者均是两个变量之间的关系,不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。
知识点2.散点图.1.在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图。
2.从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合。
3.对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到由上角的区域内。
如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散步在从左上角到右下角的区域。
注意:画散点图的关键是以成对的一组数据,分别为此点的横、纵坐标,在平面直角坐标系中把其找出来,其横纵坐标的单位长度的选取可以不同,应考虑数据分布的特征,散点图只是形象的描述点的分布,如果点的分布大致呈一种集中趋势,则两个变量可以初步判断具有相关关系,如图中数据大致分布在一条直线附近,则表示的关系是线性相关,如果两个变量统计数据的散点图呈现如下图所示的情况,则两个变量之间不具备相关关系,例如学生的身高和学生的英语成绩就没有相关关系。
点睛:散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形。
特点是能直观表现出影响因素和预测对象之间的总体关系趋势。
优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系。
散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度知识点3:回归直线(1)回归直线的定义如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
(2)回归直线的特征如果能够求出这条回归直线的方程(简称回归方程),那么我们就可以比较清楚的了解对应两个变量之间的相关性,就像平均数可以作为一个变量的数据的代表一样,这条直线也可以作为两个变量之间具有相关关系的代表。
(3)回归直线方程一般地,设x与y是具有相关关系的两个变量,且相应n组观测值的n个点(xi,yi)(i=1,2,…,n)大致分布在一条直线的附近,求在整体上与这n个点最接近的一条直线,设此直线方程为,这里的y在上方加上“”是为了区分实际值y,表示当x取值xi,y相应的观察值yi而直线上对应于xi,的纵坐标是点睛:1)散点图中的点整体上分布在一条直线附近时,可以应用线性回归分析的方法分析数据;2)回归直线是反映:“从整体上看,各点与此直线的距离的和最小”的一条直线,它反映了具有线性相关关系的两个变量之间的规律;3)我们可以通过回归直线方程,由一个变量的值来推测另一个变量的值,解决生活中的实际问题;这种方法称为回归方法知识点4:回归系数公式及相关问题1.最小二乘法:求回归直线的关键是如何用数学的方法刻画从整体上看,各点与此直线的距离最小,假设我们已经得到两个具有线性相关关系的变量的一组数据:……。
当自变量取(=1,2,……,n )时,可以得到(=1,2,……,n ),它与实际收集到的之间的偏差是(=1,2,……,n )这样用n 个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。
总的偏差为,偏差有正有负,易抵消,所以采用绝对值,由于带绝对值计算不方便所以换成平方,①现在的问题就归结为:当,b 取什么值时Q 最小,即点到直线y=bx+a 的整体距离最小②(其中,) 这种通过求①式的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法。
2.回归直线方程的求法①先判断变量是否线性相关②若线性相关,利用公式计算出a,b③利用回归方程对生活实际问题进行分析与预测注意:①线性回归直线方程中x 的系数是b ,常数项是a ,与直线的斜截式不大一样,②如果散点图中的点分布从整体上看不在任何一条直线附近,这时求出的线性回归方程实用价值不大。
点睛:线性回归方程:一般地,设有个观察数据如下:x 1x2x 3x … n x y1y 2y 3y … n y 当a,b 使取得最小值时,就称为拟合这对数据的线性回归方程,该方程所表示的直线称为回归直线知识点5:线性回归分析思想在实际中的应用教材中利用回归直线对年龄与脂肪的关系做了上述分析,这种分析方法叫做线性回归分析。
利用这种分析方法可以对生活中的很多问题进行分析与预测,求线性回归方程的步骤:计算平均数;计算的积,求;计算;将结果代入公式求;用 求;写出回归方程注意:对一组数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a,b 的计算公式,算出.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误。
知识点6:利用相关系数判断线性相关程度最小二乘法求出回归直线的方程后,可以对上面两个变量的关系进行分析与预测,如图前两个是线性相关,可以求回归方程,后两个是非线性相关,直线不能很好地反映图中两个变量之间的关系。
显然求回归直线的方程是没有意义的。
有些变量线性相关,有些非线性相关,衡量变量的线性相关程度引入一个量:相关系数注意它的符号:当时,x ,y 正相关,当时,x ,y 负相关,统计学认为:对于r ,若那么负相关很强,若,那么正相关很强若,那么相关性一般, 若,那么相关性较弱,点睛:相关系数的绝对值越大,线性相关关系就越强。
二、常考题型例解易---------------------知识点1例1:下列两个变量之间是相关关系的是( )A 、圆的面积与半径B 、球的体积与半径C 、角度与它的正弦值D 、一个考生的数学成绩与物理成绩思路分析:由题意知A 表示圆的面积与半径之间的关系S=πr2,B 表示球的体积与半径之间的关系C 表示角度与它的正弦值y=sinα,前面所说的都是确定的函数关系,相关关系不是确定的函数关系,故选D.解:D点拨:本题考查变量间的相关关系,判断两个变量间的关系还是函数关系还是相关关系的关键是判断两个变量之间的关系是否是确定的,若确定的则是函数关系;若不确定,则是相关关系.例2:名师出高徒可以解释为老师的水平越高,学生的水平也越高,那么教师与学生的水平之间有何种关系呢?你能举出更多的描述生活中两变量相关关系的成语与俗语吗?至少写两个。
思路分析:名师出高徒的意思是有名的教师一定能教出高明的徒弟,高水平教师有很大趋势教出高水平的学生,实际学生成绩的好坏还与很多因素有关,如学生的天赋,学生的努力,学习的环境等,所以它们之间的关系带有不确定性即为相关关系。
解:教师的水平与学生的水平之间具有相关关系生活中描述两个变量之间的相关关系的成语或俗语还有:老子英雄儿好汉,强将手下无弱兵,虎父无犬子2009•宁夏高考中知识点2例3.对变量x、y有观测数据(xi,yi)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图2.由这两个散点图可以判断()A、变量x与y正相关,u与v正相关B、变量x与y正相关,u与v负相关C、变量x与y负相关,u与v正相关D、变量x与y负相关,u与v负相关思路分析:由题图1可知,y随x的增大而减小,各点整体呈递减趋势,x与y负相关,由题图2可知,u随v的增大而增大,各点整体呈递增趋势,u与v正相关.解:C点拨:本题考查散点图,是通过读图来解决问题,考查读图能力,是一个基础题,本题可以粗略的反应两个变量之间的关系,是不是线性相关,是正相关还是负相关易知识点3例4:5个学生的数学和物理成绩如下表:由散点图判断它们是否相关,是正相关还是负相关?思路分析:分别以数学和物理成绩作为横纵坐标建立直角坐标系,描点画出散点图,然后根据散点图判断。
解:以x轴表示数学成绩,y轴表示物理成绩可得到相应的散点图,如图所示由散点图可知,两者之间具有相关关系,且为正相关.例5:下表为某地近几年机动车辆数与交通事故数的统计资料,请判断机动车辆数与交通事故数之间是否有线性相关关系,如果具有线性相关关系,求出线性回归方程;如果不具有线性相关关系,说明理由.思路分析:根据表中数据画出散点图,观察数据是否集中,判断变量之间关系,再利用最小二乘法计算系数a,b 写出线性回归方程解:在直角坐标系中画出数据的散点图,直观判断散点在一条直线附近,故具有线性相关关系.计算相应的数据之和:,将它们代入()式计算得,所以,所求线性回归方程为.知识点4例6:有一位同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计得到了一个热饮杯数与当天气温之间的线性关系,其回归方程为y^=-2.35x+147.77.如果某天气温为-2℃时,则该小卖部大约能卖出热饮的杯数是()A、140B、143C、152D、156思路分析:∵一个热饮杯数与当天气温之间的线性关系,其回归方程为y^=-2.35x+147.77.如果某天气温为-2℃时,即x=-2,则该小卖部大约能卖出热饮的杯数y=-2.35×(-2)+147.77=152.47≈152解:C.例7:某县教研室要分析学生初中升学的数学成绩对高一年级数学成绩有什么影响,在高一年级学生中随机抽选10名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩(如下表):(1)对变量x与y进行相关性检验,如果x与y之间具有线性相关关系,求出线性回归方程;(2)若某学生入学数学成绩是80分,试估测他高一期末数学考试成绩思路分析:(1)根据所给的数据利用最小二乘法.写出线性回归方程的系数和a的值,写出线性回归方程,注意运算过程中不要出错.(2)将x=80代入所求出的线性回归方程中,得y=8分,即这个学生的高一期末数学考试成绩预测值为84分解:(1)设所求的线性回归方程为y=ax+b最小二乘法可以写出因此所求的线性回归方程y=0.742x+23.108(2)将x=80代入所求出的线性回归方程中,得y=84分,即这个学生的高一期末数学考试成绩预测值为84分点拨:利用回归方程可以对总体进行预测估计,回归方程将部分观测值所反映的规律进行延伸,使我们对有线性相关关系的两个变量进行分析和控制,依据自变量的取值估计和预报因变量的值,在现实生活中有广泛的应用知识点5例8:某种产品的广告费用支出x万元与销售额y万元之间有如下的对应数据:(1)根据上表提供的数据,求出y关于x的线性回归方程;(2)据此估计广告费用为10万元时,所得的销售收入知识点6例9:一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)利用散点图或相关系数r的大小判断变量y对x是否线性相关?为什么?(2)如果y对x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?(最后结果精确到0.001.参考数据:,16×11+14×9+12×8+8×5=438,162+142+122+82=660,112+92+82+52=291)思路分析:(1)利用所给的数据做出两个变量的相关系数,得到相关系数趋近于1,得到两个变量具有线性相关关系.(2)先做出横标和纵标的平均数,做出利用最小二乘法求线性回归方程的系数的量,做出系数,求出a,写出线性回归方程.(3)根据上一问做出的线性回归方程,使得函数值小于或等于10,解出不等式.三、典例方法详析考点1:相关关系方法:两个变量间的关系。