利用散点图判断两个变量的相关关系
散点图揭示变量关联程度的方法

散点图揭示变量关联程度的方法散点图通过点的分布情况来揭示两个变量之间的关联程度。
以下是散点图如何揭示两个变量之间关联程度的详细说明:1. 点的分布模式●正相关:如果散点图中的点大致呈现从左下角到右上角的直线或曲线分布,即随着一个变量的增加,另一个变量也相应增加,这表明两个变量之间存在正相关关系。
正相关意味着一个变量的增加往往伴随着另一个变量的增加。
●负相关:相反,如果散点图中的点大致呈现从左上角到右下角的直线或曲线分布,即随着一个变量的增加,另一个变量相应减少,这表明两个变量之间存在负相关关系。
负相关意味着一个变量的增加往往伴随着另一个变量的减少。
●无关联或弱关联:如果散点图中的点分布散乱,没有明显的上升或下降趋势,那么这表明两个变量之间可能不存在明显的线性关联或关联程度较弱。
然而,这并不意味着两个变量之间完全无关,它们之间可能存在其他类型的关系(如非线性关系)。
2. 趋势线的添加为了进一步揭示两个变量之间的关联程度,可以在散点图中添加趋势线(如线性趋势线、多项式趋势线等)。
趋势线的斜率和截距可以提供关于变量之间关系的量化信息。
例如,线性趋势线的斜率表示一个变量随另一个变量变化的速率,斜率的大小和正负可以反映关联的程度和方向。
3. 点的密集程度散点图中点的密集程度也可以反映两个变量之间的关联程度。
如果点集中分布在某个区域,且形成明显的趋势线或带状分布,那么这表明两个变量之间的关联程度较强。
相反,如果点分布散乱且稀疏,那么这表明两个变量之间的关联程度较弱。
4. 异常值的识别在观察散点图时,还需要注意识别异常值(即与其他点显著不同的点)。
异常值可能是由测量错误、数据录入错误或极端情况引起的。
如果散点图中存在异常值,可能会对关联程度的判断产生影响。
因此,在分析时需要谨慎处理异常值,并考虑其对整体结果的影响。
综上所述,散点图通过点的分布模式、趋势线的添加、点的密集程度以及异常值的识别等方式来揭示两个变量之间的关联程度。
第三节 变量间的相关关系-高考状元之路

第三节 变量间的相关关系预习设计 基础备考知识梳理1.两个变量的线性相关(1)正相关:在散点图中,点散布在从到的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从 到 的区域,对于两个变量的这种相关关系,我们将它称为负相关.(3)线性相关关系、回归直线: 如果散点图中点的分布从整体上看大致在 就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法: 求回归直线使得样本数据的点到它的 的方法叫做最小二乘法.(2)回归方程:方程a x by ˆˆ+=是两个具有线性相关关系的变量的一组数据),(,),,(),,(2211n n y x y x y x 的回归方程,其中:ˆ,ˆb a是待定参数. ⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧-=⋅-====-∑∑-∑--∑==x b y a i y x n y x i n i i i n i b x n x x x y y x x n i i i n i n ˆˆ22211ˆ111)())((典题热身1.下列选项中,两个变量具有相关关系的是 ( )A .参加60年国庆阅兵的人数与观看第十一届全运会开幕布式的人数B .正方体的体积与棱长C .人体内的脂肪含量与年龄D .汶川大地震的经济损失与全球性金融危机的经济损失答案:C2.(2011.陕西高考)设),(,),,(),,(2211n n y x y x y x ⋅⋅⋅是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是 ( )A .直线l 过点),(y xB .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在O 到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同答案:A3.设有一个回归直线方程为,5.12ˆx y-=则变量x 增加一个单位 ( ) A .y 平均增加1.5个单位B .y 平均增加两个单位C .y 平均减少1.5个单位D .y 平均减少两个单位答案:C4.在一次实验中,测得(x ,y)的四组值为(1,2),(2,3),<蝴_(4,5),则y 与x 之间的回归直线方程为 ( )1ˆ.+=x yA 2ˆ.+=x yB 12ˆ.+=x yC 1ˆ.-=x yD 答案:A5.(2011.辽宁高考)调查了某地若干户家庭的年收入x (单位;万元)和年饮食支出y(单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:,321.0254.0ˆ+=x y 由回归直线方程可知,家庭年收入每增加l 万元,年饮食支出平均增加 万元.答案:0,254课堂设计 方法备考题型一 利用散点图判断两个变量的相关关系画出散点图,判断它们是否有相关关系.题型二 求回归直线方程【例2】下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据;(1)请画出表中数据的散点图;(2)请根据表中提供的数据,用最小二乘法求出y 关于x 的回归方程.ˆˆˆa x b y+= 题型三 利用回归直线方程对总体进行估计【例3】某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1000件时,单位成本平均变动多少?(3)假定产量为6000件时,单位成本为多少元?技法巧点(1)线性相关关系的理解:相关关系与函数关系不同,函数关系中的两个变量间是一种确定性关系,例如正方形面积S 与边长x 之间的关系2x s =就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系,例如商品的销售额与广告费是相关关系,两个变量具有相关关系是回归分析的前提. (2)求回归方程,关键在于正确求出系数b a b aˆ,ˆ,ˆ,ˆ由于的计算量大,计算时应仔细谨慎,分层进行,避免因计算产生错误.(注意回归直线方程中一次项系数为,ˆb 常数项为,ˆa 这与一次函数的习惯表示不同.)(3)回归分析是处理变量相关关系的一种数学方法,主要解决:①确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;②根据一组观察值,预测变量的取值及削断变量取值的变化趋势;③求出回归直线方程.失误防范1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.2.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.随堂反馈 1.(20】】.江西高考)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x 的线性回归方程为 ( )1-=⋅x y A 1+=⋅x y B x y c 2188+=⋅ 176=⋅y D 答案:C2.某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x 具有真相关关系,回归方程为.562.166.0ˆ+=x y若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为 ( )%83.A 0072.B 0076. c %66.D 答案:A3.(2011.广东高考)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y 之间的关系;小李这5天的平均投篮命中率为 ;用线性 回归分析的方程,预测小李该月6号打6小时篮球的投篮命中率为答案:53.0;5.0高效作业 技能备考一、选择题1.(201-1.福州模拟)已知变量x ,y 呈线性相关关系,回归方程为,25.0ˆx y+=则变量x ,y 是( ) A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系答案;A2.(2011.绍兴月考)对有线性相关关系的两个变量建立的回归直线方程x b a yˆˆˆ+=中,回归系数b ˆ( ) A .可以小于0 B .大于O C .能等于O D .只能小于0答案:A3.已知x 与y 之间的一组数据:则y 与x 的线性回归方程a x b yˆˆˆ+=必过 ( ) A .点(2,2) B .点(1.5,O) C .点(1,2) D .点(1.5,4)答案:D4.(2011.泰安模拟)下表是某厂l ~4月份用水量(单位:百吨)的一组数据:散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是,ˆ7.0ˆa x y+-=则 aˆ等于( ) 5.10.A 15.5.B 2.5.c 25.5.D答案:D5.对变量x ,y 有观测数据),10,,2,1)(,( =i y x i i 得散点图(1);对变量u ,v 有观测数据),10,,2,1)(,( =i v u i i 得散点图(2),由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关 B.变量_x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关答案:C6.(2011.青岛模拟)为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为⋅21l l 、已知两人所得的试验数据中,变量x 和y 的数据的平均值都相等,且分别是s 、t ,那么下列说法正确的是 ( )A .直线1l 和2l 一定有公共点(s ,t)B .直线1l 和2l 相交,但交点不一定是(s ,t)C .必有21//l l 21.l lD 与必定重合答案:A二、填空题7.(2011.舟山适应性考试)人的身高与手的扎长存在相关关系,且满足264.31303.0ˆ-=x y(x 为身高,y 为扎长,单位:cm),则当扎长为24.8 cm 时,身高为 cm.答案:03.1858.(2011.芜湖模拟)已知三点(3,10),(7,20),(11,24)的横坐标x 与纵坐标y 具有线性关系,则其线性回归方程是 答案:42347+=x y9.(2011.丽水调研)某单位为了了解用电量y 度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程,2ˆˆˆˆ-=+=b a x b y中预测当气温为-4℃时,用电量的度数约为 答案:68三、解答题10.(2011.台州模拟)在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y 与x 呈线性相关,试求回归方程.11.(2011.枣 庄模拟)在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如下表:根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.12.(2011.北京高考)以下茎叶图记录了甲、乙两组各四名同学的植树棵数,乙组记录中有一个数据模糊,无法确认,在图中以X 表示.(1)如果X=8,求乙组同学植树棵树的平均数和方差;(2)如果X=9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵树为19的概率. (注:方差],)()()[(1222212x x x x x x n s n -++-+-=其中x 为n x x x ,,,21 的平均数)。
散点图:直观判断变量相关性的步骤与注意事项

散点图:直观判断变量相关性的步骤与注意事项使用散点图判断两个变量之间的相关关系是一种直观且有效的方法。
以下是具体步骤和注意事项:步骤1.收集数据:2.首先,确保你有两个变量的数据集。
这些数据集应该是一一对应的,即每个观测值在两个变量上都有对应的取值。
3.绘制散点图:4.使用统计软件(如Excel、SPSS、R、Python等)将两个变量的数据绘制成散点图。
在散点图中,通常一个变量作为横坐标(X轴),另一个变量作为纵坐标(Y轴)。
5.观察散点分布:6.仔细观察散点图中点的分布模式。
点的分布模式会给出两个变量之间关系的直观印象。
7.识别趋势:o正相关:如果随着一个变量的增加,另一个变量也呈现增加的趋势,那么这两个变量之间存在正相关关系。
在散点图中,这通常表现为点集沿斜向上方的方向分布。
o负相关:如果随着一个变量的增加,另一个变量呈现减少的趋势,那么这两个变量之间存在负相关关系。
在散点图中,这通常表现为点集沿斜向下方的方向分布。
o无相关:如果点的分布没有明显的上升或下降趋势,而是呈现随机分布的状态,那么这两个变量之间可能不存在明显的线性相关关系。
但请注意,这并不意味着它们之间不存在其他类型的关系(如非线性关系)。
8.评估紧密程度:9.除了方向外,还可以观察点集的紧密程度来评估相关性的强弱。
如果点集紧密地围绕在某条直线(或曲线)周围,那么相关性可能较强;如果点集分散较开,那么相关性可能较弱。
10.注意异常值:11.检查是否有异常值(即与其他点显著不同的点)影响对关系的判断。
有时,异常值可能是由测量错误或数据录入错误引起的,应该进行核查和处理。
注意事项●散点图只能揭示两个变量之间的关联程度,并不能确定因果关系。
●即使两个变量之间存在显著的相关性,也不意味着一个变量是导致另一个变量变化的原因。
●相关性可以是线性的,也可以是非线性的。
散点图可以帮助识别线性关系,但对于非线性关系的识别可能需要更复杂的分析工具(如回归分析中的多项式模型)。
两个变量的线性相关 (11)

2.3变量间的相关关系2.3.1变量之间的相关关系2.3.2两个变量的线性相关1.变量间的相关关系 (1)相关关系的定义变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为函数关系和相关关系.(2)散点图将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形叫做散点图.(3)正相关与负相关①正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.②负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.2.回归直线方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程:回归直线对应的方程叫做回归直线的方程,简称回归方程. (3)最小二乘法:求线性回归方程y ^=b ^x +a ^时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.其中,b ^是线性回归方程的斜率,a ^是线性回归方程在y 轴上的截距.1.下列两个变量具有相关关系的是( ) A .角度和它的余弦值 B .圆的半径和该圆的面积 C .正n 边形的边数和它的内角和 D .居民的收入与存款D [A 、B 、C 中两变量是确定的函数关系.]2.已知变量x ,y 之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )A .y ^=1.5x +2 B .y ^=-1.5x +2 C .y ^=1.5x -2 D .y ^=-1.5x -2B [由散点图知,变量x ,y 之间负相关,回归直线在y 轴上的截距为正数,故只有B 选项符合.]3.5位学生的数学成绩和物理成绩如下表:A .是函数关系B .是相关关系,但相关性很弱C .具有较好的相关关系,且是正相关D .具有较好的相关关系,且是负相关C [数学成绩x 和物理成绩y 的散点图如图所示.从图上可以看出数学成绩和物理成绩具有较好的相关关系,且成正相关.] 4.设有一个回归方程为y ^=2-1.5x ,则变量x 每增加1个单位时,y 平均减少________个单位.1.5 [因为y ^=2-1.5x ,所以变量x 每增加1个单位时,y 1-y 2=[2-1.5(x +1)]-(2-1.5x )=-1.5,所以y 平均减少1.5个单位.](2)判断y与x是否具有线性相关关系.[解](1)散点图如图所示.(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系.相关关系的判断方法(1)两个变量x和y具有相关关系的判断方法①散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;②表格、关系式法:结合表格或关系式进行判断;③经验法:借助积累的经验进行分析判断.(2)判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.1.下列关系中,属于相关关系的是________(填序号).①正方形的边长与面积之间的关系;②农作物的产量与施肥量之间的关系;③出租车费与行驶的里程;④降雪量与交通事故的发生率之间的关系.②④[在①中,正方形的边长与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③为确定的函数关系;在④中,降雪量与交通事故的发生率之间具有相关关系.]1.任意两个统计数据是否均可以作出散点图? [提示] 任意两个统计数据均可以作出散点图. 2.任何一组数据都可以由最小二乘法得出回归方程吗?[提示] 用最小二乘法求回归方程的前提是先判断所给数据具有线性相关关系,否则求回归方程是无意义的.3.回归系数b ^的含义是什么?[提示] (1)b ^代表x 每增加一个单位,y 的平均增加单位数,而不是增加单位数.(2)当b ^>0时,两个变量呈正相关关系,含义为:x 每增加一个单位,y 平均增加b ^个单位数;当b ^<0时,两个变量呈负相关关系,含义为:x 每增加一个单位,y 平均减少b ^个单位数.【例2】 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下: 零件数x (个) 10 20 30 40 50 60 70 80 90 100 加工时间y (分)626875818995102108115122(2)如果y 与x 具有线性相关关系,求y 关于x 的回归直线方程.思路点拨:画散点图→确定相关关系→求回归直线系数→写回归直线方程. [解] (1)画散点图如下:由上图可知y与x具有线性相关关系.(2)列表、计算:i 1 2 3 4 5 6 7 8 9 10 x i10 20 30 40 50 60 70 80 90 100 y i62 68 75 81 89 95 102 108 115 122x i y i620 1 360 2 250 3 240 4 450 5 700 7 140 8 6401035012200 a^=y-b^x=91.7-0.668×55=54.96.即所求的回归直线方程为:y^=0.668x+54.96.求回归直线方程的步骤(1)收集样本数据,设为(x i ,y i )(i =1,2,…,n )(数据一般由题目给出). (2)作出散点图,确定x ,y 具有线性相关关系. (3)把数据制成表格x i ,y i ,x 2i ,x i y i . (4)(5)代入公式计算b ^,a ^,公式为(6)写出回归直线方程y ^=b ^x +a ^.2.某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:x 2 4 5 6 8y30 40 60 50 70(1)画出散点图;(2)求回归方程.[解](1)散点图如图所示.(2)列出下表,并用科学计算器进行有关计算.i 1 2 3 4 5x i 2 4 5 6 8y i30 40 60 50 70x i y i 60 160 300 300 560 x 2i416253664x =5,y =50,∑5i =1 x 2i =145,∑5i =1i i y i =1 380于是可得,b ^===6.5,a ^=y -b ^x =50-6.5×5=17.5. 于是所求的回归方程是y ^=6.5x +17.5.回归方程的应用学生 A B C D E 总成绩x 428 383 421 364 362 数学成绩y 7865716461(2)求y 对x 的线性回归方程(结果保留到小数点后3位数字); (3)如果一个学生的总成绩为450分,试预测这个学生的数学成绩. [解] (1)散点图如图所示:(2)由题中数据计算可得 x =391.6,y=67.8,∑5i =1x 2i =770654,∑5i =1x i y i =133 548.代入公式得b ^=133 548-5×391.6×67.8770 654-5×391.62≈0.204,a ^=67.8-0.204×391.6≈-12.086,所以y 对x 的线性回归方程为y ^=-12.086+0.204x .(3)由(2)得当总成绩为450分时,y ^=-12.086+0.204×450≈80,即这个学生的数学成绩大约为80分.利用线性回归方程解题的常见思路及注意点(1)利用回归直线过样本点的中心,可以求参数问题,参数可涉及回归方程或样本点数据.(2)利用回归方程中系数b ^的意义,分析实际问题.(3)利用回归直线进行预测,此时需关注两点;①所得的值只是一个估计值,不是精确值;②变量x 与y 成线性相关关系时,线性回归方程才有意义,否则即使求出线性回归方程也是毫无意义的,用其估计和预测的量也是不可信的.3.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑10i =1x i =80,∑10i =1y i =20,∑10i =1x i y i =184,∑10i =1x 2i =720.(1)求月储蓄y (千元)关于月收入x (千元)的线性回归方程; (2)若该居民区某家庭的月收入为7千元,预测该家庭的月储蓄. [解] (1)由题意知n =10,x =1n ∑10i =1x i =110×80=8,y =1n ∑n i =1y i =110×20=2,又∑ni =1x 2i -n x 2=720-10×82=80,∑10i =1x i y i -n x y =184-10×8×2=24,由此得b ^=2480=0.3,a ^=y -b ^y =2-0.3×8=-0.4, 故所求线性回归方程为y ^=0.3x -0.4.(2)将x =7代入线性回归方程,可以得到该家庭的月储蓄约为y ^=0.3×7-0.4=1.7(千元).1.判断变量之间有无相关关系,简便可行的方法就是绘制散点图.根据散点图,可看出两个变量是否具有相关关系,是否线性相关,是正相关还是负相关.2.求回归直线的方程时应注意的问题(1)知道x 与y 呈线性相关关系,无需进行相关性检验,否则应首先进行相关性检验.如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.(2)用公式计算a ^,b ^的值时,要先算出b ^,然后才能算出a ^.3.利用回归方程,我们可以进行估计和预测.若回归方程为y ^=b ^x +a ^,则x=x 0处的估计值为y ^0=b ^x 0+a ^.1.判断下列结论的正误(正确的打“√”,错误的打“×”) (1)相关关系是两个变量之间的一种确定的关系. ( ) (2)回归直线方程一定过样本中心点.( )(3)选取一组数据的部分点得到的回归方程与由整组数据得到的回归方程一定相同.( )[★答案★] (1)× (2)√ (3)×2.对有线性相关关系的两个变量建立的回归直线方程y ^=a ^+b ^x 中,回归系数b ^( )A .不能小于0B .不能大于0C .不能等于0D .只能小于0C [当b ^=0时,不具有相关关系,b ^可以大于0,也可以小于0.]3.若施化肥量x (千克/亩)与水稻产量y (千克/亩)的回归方程为y ^=5x +250,当施化肥量为80千克/亩时,预计水稻产量为亩产________千克左右.650 [当x =80时,y ^=400+250=650.]4.2019年元旦前夕,某市统计局统计了该市2018年10户家庭的年收入和年饮食支出的统计资料如下表:年饮食支出y (万元) 0.9 1.4 1.6 2.0 2.1 1.9 1.8 2.1 2.2 2.3如果已知y 与x 是线性相关的,求回归方程.(参考数据:∑10i =1x i y i =117.7,∑10i =1x 2i =406)[解] 依题意可计算得:x =6,y =1.83,x 2=36,x y =10.98, 又∵∑10i =1x i y i =117.7,∑10i =1x 2i =406,∴b ^=≈0.17,a ^=y -b ^ x =0.81,∴y ^=0.17x +0.81. ∴所求的回归方程为y ^=0.17x +0.81.。
利用散点图判断两个变量的相关关系资料讲解

负相关:如果散点图的点散布的位置是从在左上角到右下角的区域,即一个变量的值由小变大时,另 一个变量的值也近似的由大变小,对于两个变量的这种相关关系,我们称为负相关.
在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们将变量所对应的 点描出来,这些点就组成了变量之间的一个散点图.
探究:
(2)函数关系与相关关系之间有着密切联系: 在一定的条件下可以相互转化.而对于具有线性相关关系的两个变量来说,当求得其回归直线方程后, 又可以用一种确定性的关系对这两个变量间的取值进行估计:
3、判断相关关系的基本程序
两个变量 →一个变量值一定→另一个变量带有不确定性→相关关系
4、相关关系的类型 相关关系可分为线性相关,非线性相关两类.
如高原含氧量与海拔高度 的相关关系,海平面以上, 海拔高度越高,含氧量越 少。 作出散点图发现,它们散 布在从左上角到右下角的区 域内。又如汽车的载重和汽 车每消耗1升汽油所行使的 平均路程,称它们成负相关.
O
1、散点图的特点形象地体现了各数据的密切程度,因此我们可以根据散点图来判断两个 变量有没有线性关系.
利用散点图判断两个变量的相关关系
讲授新课
一:变量之间的相关关系
1.两变量之间的关系
(1)函数关系: 当自变量取值一定时,因变量取值由它唯一确定
正方形面积S与其边长x之间的函数关系S=x2 , 对自变量边长的每一个确定值,都有唯一确定值一定时,因变量的取值带有一定的随机性
一块农田的水稻产量与施肥量之间的关系 。 水稻产量并不是由施肥量唯一确定,在取值上带有随机性
不确定关系
2、相关关系的概念 自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫相关关系.
备战高考数学复习考点知识与题型讲解85---变量间的相关关系及回归模型

备战高考数学复习考点知识与题型讲解第85讲变量间的相关关系及回归模型考向预测核心素养两个变量线性相关的判断及应用,经验回归方程的求法及应用是高考考查的热点,各种题型均会出现.数据分析、数学运算一、知识梳理1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)散点图每一个成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们把这样的统计图叫做散点图.(3)相关关系的分类:正相关和负相关.(4)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.2.样本相关系数(1)r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-x)2.(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型参数的最小二乘估计(1)我们将y^=b^x+a^称为Y关于x的经验回归方程,其中⎩⎪⎨⎪⎧b ^=∑ni =1(x i-x )(y i-y )∑ni =1(x i-x )2,a ^=y -b ^x .(2)残差分析①对于响应变量Y ,通过观测得到的数据称为观测值,通过经验回归方程得到的y ^称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.②残差的散点图比较均匀地集中在以横轴为对称轴的水平带状区域内,则满足一元线性回归模型对随机误差的假设.在R 2表达式中,∑i =1 n (y i -y )2与经验回归方程无关,残差平方和∑i =1n(y i -y ^i )2与经验回归方程有关.因此R 2越大,意味着残差平方和越小,即模型的拟合效果越好;R 2越小,表示残差平方和越大,即模型的拟合效果越差.[提醒](1)经验回归直线过样本的中点(x ,y ).(2)回归分析和独立性检验都是基于成对样本观测数据进行估计或推断 ,得出的结论都可能犯错误.二、教材衍化1.(人A 选择性必修第三册P 103习题8.1T 1改编)下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )解析:选D.观察题图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系,故选D.2.(人A选择性必修第三册P138复习T1改编)已知变量x与y正相关,且由观测数据算得样本平均数x-=3,y-=3.5,则由该观测数据算得的经验回归方程可能是( )A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析:选A.由题意,x与y正相关,故排除C,D,将(x-,y-)代入经验回归方程检验得A正确.3.(人A选择性必修第三册P120习题8.2T2(2)改编)已知x,y的对应取值如下表,可得到经验回归方程为y^=0.95x+a^,则a^=( )x 013 4y 2.2 4.3 4.8 6.7A.3.25B.2.6C.2.2D.0解析:选B.经验回归直线过点(2,4.5),所以4.5=0.95×2+a^,所以a^=2.6.4.(人A选择性必修第三册P120习题8.2T2(2)改编)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得经验回归方程y^=0.67x+54.9.零件数x/个1020304050加工时间y/min62758189 现发现表中有一个数据看不清,请你推断出该数据的值为________.解析:由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,所以a=68.答案:68一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系来表示.( )(2)经验回归直线y^=b^x+a^至少经过点(x1,y1),(x2,y2),…,(x n,y n)中的一个点.( )(3)任何一组数据都对应着一个经验回归方程.( )答案:(1)√(2)×(3)×二、易错纠偏1.(回归模型意义不明致误)一位母亲记录了自己儿子3~9岁的身高数据(略),由此建立的身高与年龄的一元线性回归模型为y^=7.19x+73.93,用这个模型预报这个孩子10岁时的身高,则正确的叙述是( )A.身高一定是145.83 cmB.身高在145.83 cm以上C.身高在145.83 cm左右D.身高在145.83 cm以下解析:选C.由一元线性回归模型可得y^=7.19×10+73.93=145.83,所以预报这个孩子10岁时的身高在145.83 cm左右.2.(忽视经验回归直线过样本点中心致误)已知变量x和y的统计数据如下表:x 34567y 2.534 4.5 6根据上表可得经验回归方程为y^=b^x-0.25,据此可以预测当x=8时,y^=( ) A.6.4 B.6.25C.6.55D.6.45解析:选 C.由题中图表可知,x-=5,y-=4,因为经验回归方程经过样本的中心(x-,y-),则4=5b^-0.25,得b^=0.85,则经验回归方程为y^=0.85x-0.25,再将x=8代入方程,得y^=6.55.3.(决定系数的意义及应用不清致误)x和y的散点图如图所示,在相关关系中,若用y=c1e c2x拟合时的决定系数为R21,用y^=b^x+a^拟合时的决定系数为R22,则R21,R22中较大的是________.解析:由题图知,用y=c1e c2x拟合的效果比y^=b^x+a^拟合的效果要好,所以R21>R22,故较大者为R21.答案:R21考点一成对数据的相关性判断(自主练透)复习指导:通过收集现实问题中的成对数据作出散点图,并利用散点图直观认识变量间的相关关系.1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(u,v i)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判i断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由题图可得两组数据均线性相关,且图①的经验回归方程斜率为负,图②的经验回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:选A.由题图知图①与图③是正相关,故r1>0,r3>0,图②与图④是负相关,故r2<0,r4<0,且图①与图②的样本点集中在一条直线附近,因此r2<r4<0<r3<r1,故选A.3.某公司在2020年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:月份1月份2月份3月份4月份5月份6月份收入x 12.314.515.017.019.820.6支出y 5.63 5.75 5.82 5.89 6.11 6.18 根据统计资料,则( )A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系解析:选C.月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近于1,相关性越强.(3)经验回归方程:当b ^>0时,正相关;当b ^<0时,负相关.考点二 一元线性回归模型(多维探究)复习指导:经历用不同估算方法描述两个变量线性相关的过程,知道最小二乘法的思想,能根据给出的一元线性回归模型系数公式建立经验回归方程,并进一步了解回归的基本思想、方法及初步应用.角度1 经验回归方程(2022·贵州凯里第一中学高二期中)某市2017至2021年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年份 2017 2018 2019 2020 2021 年份代号t12 3 4 5 人均纯收入y 3.13.53.94.64.9从表可以看出,人均纯收入y 与年份代号t 线性相关,已知i =15t i y i =64.70.(1)求y 关于t 的经验回归方程y ^=b ^t +a ^;(2)预测2025年的人均纯收入为多少.(附:参考公式:【解】 (1)由题中表格知,n =5,t -=15(1+2+3+4+5)=3,y -=15(3.1+3.5+3.9+4.6+4.9)=4,i =15t 2i =12+22+32+42+52=55,则b ^==64.7-5×3×455-5×32=0.47,a ^=y --b ^t -=4-0.47×3=2.59,故经验回归方程为y ^=0.47t +2.59.(2)当年份为2025年时,对应的年份代码t =9, 所以y ^=0.47×9+2.59=6.82, 故2025年的人均纯收入约为6.82千元. 角度2 相关系数足球是世界普及率最高的运动,我国大力发展校园足球.为了解本地区足球特色学校的发展状况,社会调查小组得到如下统计数据:年份x 2016 2017 2018 2019 2020 足球特色学校y (百个)0.30 0.60 1.00 1.40 1.70根据上表数据,计算y 与x 的相关系数r ,并说明y 与x 的线性相关程度. (已知:0.75≤|r |≤1,则认为y 与x 线性相关程度很强;0.3≤|r |<0.75,则认为y 与x 线性相关程度一般;|r |≤0.25,则认为y 与x 线性相关程度较弱.参考公式和数据:r =∑ni =1(x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2,∑ni =1(x i -x )2=10,∑ni =1(y i -y )2=1.3,13≈3.605 6)【解】 由题得x =2 018,y =1,所以r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2=3.610 × 1.3=3.63.605 6≈0.998>0.75,所以y与x的线性相关程度很强.一元线性回归模型应用要点(1)建立经验回归方程的步骤①计算出x,y,x21+x22+…+x2n,x1y1+x2y2+…+x n y n的值;②利用公式计算参数a^,b^;③写出经验回归方程y^=b^x+a^.(2)经验回归方程的拟合效果,可以利用相关系数判断,当|r|越接近于1时,两变量的线性相关程度越强.|跟踪训练|某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如下表:x 123 4y 12284256(1)在图中画出表中数据的散点图;(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);(3)建立y 关于x 的经验回归方程,预测第5年的销售量.参考公式:经验回归方程y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2=∑ni =1x i y i -nx y ∑n i =1x 2i -n x 2,a ^=y -b ^x . 解:(1)作出的散点图如图:(2)根据散点图观察,可以用一元线性回归模型拟合y 与x 的关系. (3)观察(1)中散点图可知各点大致分布在一条直线附近,列出表格:i x i y i x 2i x i y i 1 1 12 1 12 2 2 28 4 56 3 3 42 9 126 4 4 56 16 224 ∑1013830418可得x =52,y =692,所以b ^=∑4i =1x i y i -4x y ∑4i =1x 2i -4x 2=418-4×52×69230-4×⎝ ⎛⎭⎪⎫522=735,a ^=y -b ^x =692-735×52=-2.故经验回归方程为y ^=735x -2.当x =5时,y ^=735×5-2=71.故预测第5年的销售量大约为71万件.考点三 非线性回归模型(综合研析)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到如图所示的散点图及一些统计量的值.x y w∑8i =1(x i -x )2∑8i =1(w i -w )2∑8i =1(x i -x )·(y i -y )∑8i =1(w i -w )·(y i -y ) 46.6 563 6.8 289.81.61469108.8表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①当年宣传费x =49千元时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v^=a^+b^u的斜率和截距的最小二乘估计分别为:b^=∑ni=1(u i-u)(v i-v)∑ni=1(u i-u)2,a^=v-b^u.【解】(1)由散点图可以判断y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的经验回归方程,由d^=∑8i=1(w i-w)·(y i-y)∑8i=1(w i-w)2=108.81.6=68.得c^=y-d^w=563-68×6.8=100.6.所以y关于w的经验回归方程为y^=100.6+68w,因此y关于x的非线性经验回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x +20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.非线性回归分析问题求解策略有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:|跟踪训练|中国是茶的故乡,也是茶文化的发源地.中国茶的发现和利用已有四千七百多年的历史,且长盛不衰,传遍全球.为了弘扬中国茶文化,某酒店推出特色茶食品“排骨茶”,为了解每壶“排骨茶”中所放茶叶量x(单位:克)与食客的满意率y的关系,通过调查研究发现可选择函数模型y=1100e kx+c来拟合y与x的关系,根据以下数据:茶叶量x/克1234 5ln(100y) 4.34 4.36 4.44 4.45 4.51 可求得y关于x的回归方程为( )A.y^=1100e0.043x+4.291B.y^=1100e0.043x-4.291C.y^=e0.043x+4.291D.y^=e0.043x-4.291解析:选 A.由表中数据可知x-=1+2+3+4+55=3,4.34+4.36+4.44+4.45+4.515=4.42.对于A,y^=1100e0.043x+4.291化简变形可得100y^=e0.043x+4.291,两边同时取对数可得ln(100y^)=0.043x+4.291,将x-=3代入可得ln(100y^)=0.043×3+4.291=4.42,与题中数据吻合,故选项A正确;对于B,y^=1100e0.043x-4.291化简变形可得100y^=e0.043x-4.291,两边同时取对数可得ln(100y^)=0.043x-4.291,将x-=3代入可得ln(100y^)=0.043×3-4.291=-4.162≠4.42,所以选项B错误;对于C,y^=e0.043x+4.291,两边同时取对数可得ln y^= 0.043x+4.291,而表中所给数据为ln(100y^)的相关量,所以C错误;对于D,y^=e0.043x-4.291,两边同时取对数可知ln y^=0.043x-4.291,而表中所给数据为ln(100y^)的相关量,所以D错误;故选A.[A 基础达标]1.对两个变量x,y进行线性回归分析,计算得到相关系数r=-0.996 2,则下列说法中正确的是( )A.x与y正相关B.x与y具有较强的线性相关关系C.x与y几乎不具有线性相关关系D.x与y的线性相关关系还需进一步确定解析:选B.因为相关系数r=-0.996 2,所以x与y负相关,因为|r|=0.996 2,非常接近1,所以相关性很强,故选B.2.(2022·四川省彭山一中高三入学考试)下列命题错误的是( )A.线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱B.抛掷均匀硬币一次,出现正面的次数是随机变量C.将一组数据中的每个数据都乘以同一个非零常数a后,标准差也变为原来的a倍D.若回归直线的斜率估计值为0.25,x=2,y=3,则回归直线的方程为y=0.25x+2.5解析:选A.对于A,线性相关系数|r|越接近于1,则相关性越强,所以A错误;对于B,抛掷均匀硬币一次,出现正面的次数是随机变量,所以B正确;对于C,由标准差的定义可知将一组数据中的每个数据都乘以同一个非零常数a后,标准差也变为原来的a倍,所以C正确;对于D,因为回归直线的斜率估计值为0.25,x=2,y=3,所以b^=0.25,a^=y-b^x=3-2×0.25=2.5,则回归直线的方程为y=0.25x+2.5,所以D 正确.3.(多选)(2022·重庆巴蜀中学高三月考)为了建立茶水温度y随时间x变化的函数模型,小明每隔1分钟测量一次茶水温度,得到若干组数据(x1,y1),(x2,y2),…,(x n,y),绘制了如图所示的散点图.小明选择了如下2个函数模型来拟合茶水温度y随时间nx的变化情况,函数模型一:y=kx+b(k<0,x≥0);函数模型二:y=ka x+b(k>0,0<a<1,x≥0),下列说法正确的是( )A.变量y与x具有负的相关关系B.由于水温开始降得快,后面降得慢,最后趋于平缓,因此模型二能更好的拟合茶水温度随时间的变化情况C.若选择函数模型二,利用最小二乘法求得y=ka x+b的图象一定经过点(x-,y-)D.当x=5时,通过函数模型二计算得y=65.1,用温度计测得实际茶水温度为65.2,则残差为0.1解析:选ABD.观察散点图,变量x与y具有负的相关关系,A正确;由于函数模型二中的函数y=ka x+b(k>0,0<a<1,x≥0),在x≥0时,函数单调递减,可得B正确;若选择函数模型二,利用最小二乘法求出的回归方程一定经过(a x,y),C错误;由于残差=真实值-预测值,因此残差为65.2-65.1=0.1,故D正确.4.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的经验回归方程:y^=0.245x+0.321,可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x变为x+1,y^=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2455.(2022·合肥检测)某公司一种型号的产品近期销售情况如下表:根据上表可得到经验回归方程y^=0.75x+a^,据此估计,该公司7月份这种型号产品的销售额为________万元.解析:由题意,x=2+3+4+5+65=4,y=15.1+16.3+17.0+17.2+18.45=16.8,经验回归直线y^=0.75x+a^过(x,y),可得a^=13.8,当x=7时,可得y^=0.75×7+13.8=19.05.答案:19.056.(2020·高考全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i,yi)(i=1,2,…,20),其中x i和y i分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i =1x i =60,∑20i =1y i =1 200,∑20i =1(x i -x )2=80,∑20i =1(y i -y )2=9 000,∑20i =1(x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2,2≈1.414.解:(1)由已知得样本平均数y =120∑20i =1y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑20i =1(x i -x )(y i -y )∑20i =1 (x i -x )2∑20i =1(y i -y )2=80080×9 000=223≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.7.某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)和市场占有率(y %)的几组相关对应数据:(1)根据上表中的数据,用最小二乘法求出y 关于x 的经验回归方程;(2)根据上述经验回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).解:(1)根据表中数据,计算x -=15×(1+2+3+4+5)=3,y -=15×(0.02+0.05+0.1+0.15+0.18)=0.1,所以b ^=1×0.02+2×0.05+3×0.1+4×0.15+5×0.18-5×3×0.112+22+32+42+52-5×32=0.042,所以a ^=0.1-0.042×3=-0.026, 所以经验回归方程为y ^=0.042x -0.026.(2)由上面的经验回归方程可知,上市时间与市场占有率正相关, 即上市时间每增加1个月,市场占有率都增加0.042个百分点; 由y ^=0.042x -0.026>0.5, 解得x ≥13;预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.[B 综合应用]8.(2022·河南省湘豫名校联盟高三联考)如下表,根据变量x 与y 之间的对应数据可求出y ^=-0.32x +b .其中y -=8.现从这5个样本点对应的残差中任取一个值,则残差不大于0的概率为( )A.15B.25C.35D.45解析:选C.由表中的数据可知,x =10+15+20+25+305=20,设y 的最后一个数据为n ,则y =11+10+8+6+n5=8,所以n =5,将x ,y 代入y ^=-0.32x +b 得b =14.4, 这5个样本点对应的残差分别为:y 1-y ^1=11-(-0.32×10+14.4)=-0.2, y 2-y ^2=10-(-0.32×15+14.4)=0.4, y 3-y ^3=8-(-0.32×20+14.4)=0, y 4-y ^4=6-(-0.32×25+14.4)=-0.4, y 5-y ^5=5-(-0.32×30+14.4)=0.2, 所以残差不大于0的概率为35.9.(多选)(2022·石家庄市藁城新冀明中学阶段性测试)某市对2016年至2020年这五年间全市烧烤店盈利店铺的个数进行了统计,具体统计数据如下表所示:根据所给数据,得出y 关于t 的经验回归方程为y ^=b ^t +273,则下列说法正确的是( )A .该市2016年至2020年全市烧烤店盈利店铺个数的平均数y =219B .y 关于t 的经验回归方程为y ^=-18t +273 C .估计该市2022年烧烤店盈利店铺的个数为147D .预测从2027年起,该市烧烤店盈利店铺的个数将不超过100解析:选ABC.由已知数据得t -=3,y -=219,故A 正确;因为y 关于t 的经验回归直线过点(3,219),所以219=3b ^+273,所以b ^=-18,所以y 关于t 的经验回归方程为y ^=-18t +273.故B 正确;2022年的年份代码为7,故2022年该市烧烤店盈利店铺的个数约为y ^=-18×7+273=147.故C 正确;令-18t +273≤100,由t ∈N *,得t ≥10,故从2025年起,该市烧烤店盈利店铺的个数将不超过100.故D 不正确,故选ABC.[C 素养提升]10.(2022·江苏省南通市高三教学质量监测)紫甘薯对环境温度要求较高,根据以往的经验,随着温度的升高,其死亡株数呈增长的趋势.下表给出了2019年种植的一批试验紫甘薯在温度升高时6组死亡的株数.经计算,x =16∑i =16 x i =26,y =16∑i =16y i =33,∑i =16 (x i -x )·(y i -y )=557,∑i =16(x i -x )2=84,∑i =16 (y i -y )2=3 930,∑i =16(y i -y ^i )2=236.64,e 8.060 5≈3 167,其中x i ,y i 分别为试验数据中的温度和死亡株数,i =1,2,3,4,5,6.(1)若用一元线性回归模型,求y 关于x 的经验回归方程y ^=b ^x +a ^(结果精确到0.1);(2)若用非线性回归模型求得y 关于x 的非线性经验回归方程y ^=0.06e 0.230 3x ,且决定系数为R 2=0.884 1.①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;②用拟合效果好的模型预测温度为35 ℃时该批紫甘薯的死亡株数(结果取整数).解:(1)由题意,得b^=∑i=16(x i-x-)(y i-y-)∑i=16(x i-x-)2=55784≈6.6,所以a^=33-6.6×26=-138.6,所以y关于x的经验回归方程为y^=6.6x-138.6. (2)①经验回归方程y^=6.6x-138.6对应的决定系数为R2=1-∑i=16(y i-y^i)∑i=16(y i-y-)2=1-236.643 930≈0.939 8,因为0.939 8>0.884 1,所以经验回归方程y^=6.6x-138.6比非线性经验回归方程y^=0.06e0.230 3x的拟合效果更好.②当x=35时,y=6.6×35-138.6=92.4≈92,即当温度为35 ℃时,该批紫甘薯的死亡株数为92.21 / 21。
人教版高中数学-利用散点图判断两个变量的关系

利用散点图判断两个变量的关系
现实生活中变量间除了存在确定的关系外,仍存在大量的非确定性的相关关系,并可以利用散点图直观体会这种相关关系。
在考虑两个变量的关系时,通常将变量所对应的点在直角坐标系中描出,这些点就组成了散点图.散点图的特点是形象地体现了各对数据的密切程度,我们可以根据散点图来判断两个变量有没有线性关系.
例1. 设某地10户家庭的年收入和年饮食支出的统计资料如下:
试判断年收入和年饮食支出是否具有相关关系?
解析: 由上表数据,以年收入x的取值作为横坐标,把年饮食支出y的相应取值作为纵坐标,作出散点图.从图1中可以直观地看出家庭年收入和年饮食支出之间具有相关关系,并且当年收入的值由小变大时,年支出的值也在由小变大.
如果关于两个变量统计数据的散点图呈现图2的形状,则这两个变量之间不具有相关性.例如,学生的身高与学生的数学成绩没有相关关系,此时称变量间是不相关的.
例2. 某种产品的广告费支出x与销售额y(单位:百万元)之间有以下对应的数据:
试判断变量x与y是否具有线性相关关系.
解析: 要判断两个变量之间是否具有线性相关关系,最有效、最简便的方法是画出各个数据对应的散点图.因为它能形象地反映各对数据的密切程度.
散点图如下:
由图可以看出,各点都在一条直线附近,所以广告费支出x与销售额y之间有线性相关关系.。
两个变量之间的相关关系(公开课)汤水秋

2.3 变量间的相关关系一、学习目标:1.理解两个变量的相关关系的概念2.通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观判断两个变量之间是否具有相关关系;3. 知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
二、学习重点、难点:1重点:作出散点图和根据给出的线性回归方程系数公式建立线性回归方程。
2.难点:对最小二乘法的理解。
三、学习方法:探究、合作、交流 四、学习过程:〖创设情境〗1、函数是研究两个变量之间的依存关系的一种数量形式.对于两个变量,如果当一个变量的取值一 定时,另一个变量的取值被惟一确定,则这两个变量之间的关系就是一个函数关系2、在中学校园里,有这样一种说法:“如果你的数学成绩好,那么你的物理学习就不会有什么大问 题。
”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着某种关系,我们把数学成绩和物理成 绩看成是两个变量,那么这两个变量之间的关系是函数关系吗?3、“名师出高徒”可以解释为教师的水平越高,学生的水平就越高,那么学生的学业成绩与教师的 教学水平之间的关系是函数关系吗? (一).相关关系(1)定义:如果两个变量中一个变量的取值一定时,另一个变量的取值带有一定的________性,那么这两个变量之间的关系,叫做相关关系.(2)两类特殊的相关关系:如果散点图中点的分布是从________角到________角的区域,那么这两个变量的相关关系称为正相关,如果散点图中点的分布是从________角到________角的区域,那么这两个变量的相关关系称为负相关.[归纳总结] 两个变量间的关系分为三类:一类是确定性的函数关系,如正方形的边长与面积的关系;另一类是变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,这种关系就是相关关系,例如,某位同学的“物理成绩”与“数学成绩”之间的关系,我们称它们为相关关系;再一类是不相关,即两个变量间没有任何关系. (二).线性相关(1)定义:如果两个变量散点图中点的分布从整体上看大致在一条________附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做_________.(2)最小二乘法:求线性回归直线方程y ^=b ^x +a ^时,使得样本数据的点到它的________________最小的方法叫做最小二乘法,其中a ,b 的值由以下公式给出:⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=---=∑∑∑∑====.,)())((1221121x b y a x n x yx n yx x x y y x x b ni i ni iini i ni i i其中x =n1∑=ni i x 1,y =n1∑=ni iy1,a 为回归方程的斜率,b 为截距。
2023年高考数学(文科)一轮复习讲义——变量间的相关关系与统计案例

第4节 变量间的相关关系与统计案例考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=, a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1, y 1)(x 2, y 2),…,(x n, y n ), 其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c dc +d总计a +cb +d a +b +c +d则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )n =a +b +c +d 为样本容量.1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本点的中心(x -,y -).2.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.3.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)√ (4)√2.(易错题)(2022·兰州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,n ∈N *,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A.-1 B.0C.12D.1答案 D解析 由题设知,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25答案 A解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+b e xD.y=a+b ln x答案 D解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案 5%解析 K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.6.(2022·银川模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x (个) 10 20 30 40 50 加工时间y (min)62a758189若用最小二乘法求得回归直线方程为y ^=0.67x +54.9,则a 的值为________. 答案 68解析 x -=10+20+30+40+505=30,y -=62+a +75+81+895=61+2+a 5,所以61+2+a5=0.67×30+54.9, 解得a =68.考点一 相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6 人均销售额 6 5 8 3 4 7 利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是( ) A.利润率与人均销售额成正相关关系 B.利润率与人均销售额成负相关关系 C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系 答案 A解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C 和D ;其属于正相关关系,A 正确,B 错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3 答案 A解析 由散点图知图①与图③是正相关,故r 1>0,r 3>0, 图②与图④是负相关,故r 2<0,r 4<0,且图①与图②的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1,故选A. 3.(2022·合肥模拟)根据如下样本数据,得到回归直线方程y ^=b ^x +a ^,则( )x 3 4 5 6 7 8 y-3.0 -2.00.5-0.52.54.0A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0答案 C解析 作出散点图(图略),由散点图可知,a ^<0,b ^>0. 感悟提升 判断相关关系的两种方法:(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1,相关性越强. 考点二 回归分析 角度1 线性回归方程及应用例1 (2021·成都诊断)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x (单位:年)与失效费y (单位:万元)的统计数据如下表所示:使用年限x (单位:年) 1234567失效费y (单位:万元)2.903.30 3.604.40 4.805.20 5.90(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并估算该种机械设备使用10年的失效费. 参考公式:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2∑ni =1(y i -y -)2.线性回归方程y ^=b ^x +a ^中斜率和截距最小二乘估计计算公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 参考数据:∑7i =1(x i -x -)(y i -y -)=14.00, ∑7i =1(y i -y -)2=7.08,198.24≈14.10.解 (1)由题意,知x -=1+2+3+4+5+6+77=4,y -=2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,∑7i =1(x i -x -)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28, ∴r =14.0028×7.08=14.00198.24≈14.0014.10≈0.99.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系. (2)∵b ^=∑7i =1 (x i -x -)(y i -y -)∑7i =1 (x i -x -)2=1428=0.5, ∴a ^=y --b ^x -=4.3-0.5×4=2.3.∴y 关于x 的线性回归方程为y ^=0.5x +2.3.将x =10代入线性回归方程,得y ^=0.5×10+2.3=7.3, ∴估算该种机械设备使用10年的失效费为7.3万元. 角度2 非线性回归方程及应用例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB =1 024 TB),EB(1 EB =1 024 PB)乃至ZB(1 ZB =1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49 ZB ,2009年数据量为0.8 ZB ,2010年增长到1.2 ZB ,2011年数据量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:表中z i =ln y i ,z -=16∑6i =1z i . (1)根据上表数据信息判断,方程y =c 1·e c 2x (e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(c 2精确到0.01);(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由. 参数数据:e4.56≈95.58,e4.58≈97.51,回归方程y ^=a ^+b ^x 中,b ^=∑n i =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i -nx -2, a ^=y --b ^x -.解 (1)由y =c 1·e c 2x 得ln y =c 2x +ln c 1, 即z =c 2x +ln c 1,∴c 2=∑6i =1(x i -x -)(z i -z -)∑6i =1(x i -x -)2=6.7317.5≈0.38.又∵z -=c 2x -+ln c 1,0.38×3.5+ln c 1=2.85,ln c 1=1.52. ∴ln y =0.38x +1.52,即y =e 0.38x +1.52为所求的回归方程. (2)根据(1)知回归方程为y =e 0.38x +1.52.当x =9时,y =e 0.38×9+1.52=e 4.94>e 4.56≈95.58,95.581.82≈52.52.据此可以判断2022年全球产生的数据量超过2011年的50倍,因此,这种判断是准确的.感悟提升 回归分析问题的类型及解题方法 (1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. ②利用公式,求出回归系数b ^.③待定系数法:利用回归直线过样本点的中心求系数a ^.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.训练1 下面给出了根据我国2015~2021年水果人均占有量y (单位:kg)和年份代码x 绘制的散点图和线性回归方程的残差图.(2015年~2021年的年份代码x 分别为1~7)(1)根据散点图分析y 与x 之间的相关关系;(2)根据散点图相应数据计算得∑7i =1y i =1 074,∑7i =1x i y i =4 517,求y 关于x 的线性回归方程;(精确到0.01)(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果. 附:回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为 b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2, a ^=y --b ^x -.解 (1)从散点图可以看出,这些点的分布整体上在一条直线附近,且当x 由小变大时,y 也由小变大,所以y 与x 之间具有线性相关关系,且是正相关. (2)由题意可知,x -=1+2+3+4+5+6+77=4,y -=17∑7i =1y i=1 0747, ∑7i =1x 2i =12+22+32+42+52+62+72=140, ∴b ^=∑7i =1x i y i-7x - y -∑7i =1x 2i -7x -2=4 517-7×4×1 0747140-7×42=22128≈7.89,∴a ^=y --b ^x -=1 0747-7.89×4≈121.87,∴y 关于x 的线性回归方程为y ^=7.89x +121.87.(3)由残差图可以看出历年数据的残差均分布在-2~2之间,且图中各点比较均匀地分布在数值0所在直线附近,带状区域很窄,说明对应的回归直线拟合效果较好.考点三 独立性检验例3 (2021·武汉质检)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展,行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯,该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到统计图如图所示.(1)估算该市电动自行车骑乘人员的平均年龄; (2)根据所给的数据,完成列联表:是否佩戴头盔是否(3)根据(2)中的列联表,判断是否有99%的把握认为佩戴安全头盔与年龄有关. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)该市电动自行车骑乘人员平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(周岁). (2)完成2×2列联表如下:(3)K 2的观测值k =1 000×(60×540-60×340)2600×400×880×120=12522≈5.682<6.635.故没有99%的把握认为佩戴安全头盔与年龄有关.感悟提升 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0. |ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)通过比较观测值k与临界值的大小关系来作统计推断.训练2 (2022·南宁模拟)第五代移动通信技术(5G技术)是最新一代蜂窝移动通信技术,也是继4G、3G和2G系统之后的延伸.5G的性能目标是高数据速率、减少延迟、节省能源、降低成本、提高系统容量和大规模设备连接.某大学为了解学生对“5G”相关知识的了解程度,随机抽取100名学生参与测试,并根据得分划分成“不太了解”或“比较了解”两类后整理得到如下列联表:(1)补全列联表,并判断是否有99.9%的把握认为“学生对5G的了解程度与性别有关”;(2)从“不太了解”的学生中按性别分层抽取6人,再从这6人中随机选取2人参加“5G”知识讲座,求抽到的2人中恰有1名女生的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d). 临界值表:解(1)补全的列联表如下:不太了解 比较了解 总计 男生 25 33 58 女生 5 37 42 总计3070100所以K 2的观测值k =100×(25×37-33×5)258×42×30×70≈11.291>10.828,故有99.9%的把握认为“学生对5G 的了解程度与性别有关”. (2)“不太了解”的男生有25人,女生有5人,按性别分层抽样从中抽取6人,则男生应抽取5人,记为a ,b ,c ,d ,e ,女生应抽取1人,记为x ,再从这6人中随机抽取2人共有15种情况:xa ,xb ,xc ,xd ,xe ,ab ,ac ,ad ,ae ,bc ,bd ,be ,cd ,ce ,de ,抽到恰有1名女生有5种情况:xa ,xb ,xc ,xd ,xe , 所以所求的概率为515=13.1.为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验 D.概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v ,有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2),由这两个散点图可以判断( )A.变量x 与y 正相关,u 与v 正相关B.变量x 与y 正相关,u 与v 负相关C.变量x 与y 负相关,u 与v 正相关D.变量x 与y 负相关,u 与v 负相关 答案 C解析 由题图(1)可知,y 随x 的增大而减小,各点整体呈下降趋势,x 与y 负相关,由题图(2)可知,u 随v 的增大而增大,各点整体呈上升趋势,u 与v 正相关. 3.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( ) A.①② B.②③ C.①③ D.①②③答案 D4.(2022·昆明诊断)下表是关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)的统计表:x 2 3 4 5 6 y3.44.25.15.56.8由表可得线性回归方程y ^=0.81x +a ^,若规定:维修费用y 不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为( ) A.7B.8C.9D.10答案 D解析 由已知表格,得x -=15×(2+3+4+5+6)=4, y -=15×(3.4+4.2+5.1+5.5+6.8)=5,因为回归直线恒过样本点的中心(x -,y -), 所以5=0.81×4+a ^,解得a ^=1.76, 所以回归直线的方程为y ^=0.81x +1.76,由y ≤10,得0.81x +1.76≤10,解得x ≤82481≈10.17,由于x ∈N *,所以据此模型预测,该设备使用年限的最大值为10.故选D. 5.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:附表:参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关 答案 A解析 ∵K 2的观测值k =55×(20×20-5×10)225×30×30×25≈11.978>10.828,所以有99.9%的把握认为喜欢“应用统计”课程与性别有关,即在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关. 6.下列说法:①残差可用来判断模型拟合的效果;②设有一个回归方程:y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归直线:y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =6.665,则有99%的把握确认这两个变量间有关系(其中P (K 2≥6.635)=0.010), 其中错误的个数是( ) A.0 B.1 C.2 D.3答案 B解析 对于①,残差可用来判断模型拟合的效果,残差越小,拟合效果越好,∴①正确;对于②,回归方程y ^=3-5x 中,变量x 增加一个单位时,y 平均减少5个单位,∴②错误;对于③,线性回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),∴③正确; 对于④,在2×2列联表中,由计算得k =6.665,对照临界值得,有99%的把握确认这两个变量间有关系,∴④正确. 综上,其中错误的命题是②,共1个,故选B.7.已知x 和y 的散点图如图所示,在相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21,R 22中较大的是________.答案 R 21解析 由散点图知,用y =c 1e c 2x 拟合的效果比y ^=b ^x +a ^拟合的效果要好,所以R 21>R 22,故较大者为R 21.8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2的观测值k ≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%. 答案 ①解析 k ≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.9.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%; ②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%; ④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%. 答案 ②解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.10.(2022·河南名校联考)某学校食堂统计了最近5天到餐厅就餐的人数x (单位:百人)与食堂向食材公司购买所需食材(原材料)的数量y (单位:袋),得到如下统计表:(1)根据所给的5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)已知购买食材的费用C (单位:元)与数量y (单位:袋)的关系为C =⎩⎨⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),投入使用的每袋食材相应的销售单价为700元,多余的食材必须无偿退还食材公司,据悉下周一大约有1 500人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2,a ^=y --b ^x -. 参考数据:∑5i =1x i y i =1 343,∑5i =1x 2i =558,∑5i =1y 2i=3 237. 解 (1)由所给数据可得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,所以b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i-5x -2=1 343-5×10.4×25558-5×10.42=2.5,又a ^=y --b ^x -=25-2.5×10.4=-1, 所以y 关于x 的线性回归方程为y ^=2.5x -1. (2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要购买食材36.5袋. 因为C =⎩⎪⎨⎪⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),所以当y <36时,利润L =700y -(400y -20)=300y +20,y ∈N , 此时当y =35时,利润L max =300×35+20=10 520(元);当y ≥36时,根据线性回归方程预测需要购买食材36.5袋,并且剩余的食材只能无偿退还,此时当y =36时,利润L =700×36-380×36=11 520(元), 当y =37时,利润L =700×36.5-380×37=11 490(元).综上,食堂应购买36袋食材,才能获得最大利润,最大利润为11 520元. 11.(2022·“四省八校”开学考试)据我国一项专题调查显示,某市高级职称的中年知识分子中竟有高达75.3%的人处于亚健康状态,更令人担忧的是85%以上的企业管理者处于慢性疲劳状态或亚健康状态,这是由他们所处的特殊工作及生活的环境和行为模式所决定的.亚健康是指非病非健康的一种临界状态.如果这种状态不能及时得到纠正,非常容易引起身心疾病.某高科技公司为了了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查,该公司处于正常工作状态的员工(包括管理人员)共有8 000人,其中男性员工有6 000人,女性员工有2 000人,从8 000人中用分层抽样的方法随机抽取了400人作为样本进行健康状况的调查.(1)求男性员工、女性员工各抽取多少人?(2)通过调查得到如图所示的统计图,其中a=0.2,b=0.1.根据统计图,完成下面2×2列联表,健康亚健康总计男员工女员工总计400问是否有97.5%的把握认为人处于亚健康状态与性别有关?参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. 参考数据:P(K≥k0)0.050.0250.0100.005k0 3.841 5.024 6.6357.879解(1)由题意知样本容量与总体的比值为4008 000=120,∴男性员工抽取了6 000×120=300(人),女性员工抽取了2 000×120=100(人).(2)由统计图可知,样本中男员工处于亚健康状态的人数为300×0.2=60,样本中女员工处于亚健康状态的人数为100×0.1=10,2×2列联表为健康 亚健康 总计 男员工 240 60 300 女员工 90 10 100 总计33070400则K 2的观测值k =400×(240×10-60×90)2300×100×330×70≈5.195>5.024,∴有97.5%的把握认为人处于亚健康状态与性别有关.12.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高. 其中正确的为________(填序号). 答案 ①解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-12附近波动.经计算∑6i =1x i =12,∑6i =1y i =14,∑6i =1x 2i =23,则实数b 的值为________. 答案 1723解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -12, 此时t -=∑6i =1x 2i 6=236,y -=∑6i =1yi 6=73,代入y =bt -12,得73=b ×236-12,解得b =1723.14.近年来,国资委、党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:(1)求y 关于x 的线性回归方程(计算结果保留两位小数);(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解 (1)依题意得,x -=1+2+3+4+55=3,y -=8+10+13+25+245=16,故∑5i =1(x i -x -)(y i -y -)=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47, ∑5i =1(x i -x -)2=4+1+1+4=10,则b ^=∑5i =1(x i -x -)(y i -y -)∑5i =1 (x i -x -)2=4710=4.7,a ^=y --b ^x -=16-4.7×3=1.9.所以y 关于x 的线性回归方程为y ^=4.7x +1.9. (2)依题意,女性不愿意参与管理的人数为50, 计算得K 2的观测值为k =300×(150×50-50×50)2200×100×200×100=300×5 000×5 000200×100×200×100=18.75>10.828, 故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.。
11.3变量间的相关关系

4
题型三
利用回归直线方程对总体进行估计
【例3】某企业上半年产品产量与单位成本资料如下: 月份 1 2 产量(千件) 2 3 单位成本(元) 73 72
3
4 5 6
4
3 4 5
71
73 69 68
(1)求出线性回归方程;
(2)指出产量每增加1 000件时,单位成本平均变 动多少? (3)假定产量为6 000件时,单位成本为多少元? 解
ˆ =1.23x+5 B. y
D. y ˆ =0.08x+1.23
当x=4时,y=1.23×4+0.08=5.
题型分类 深度剖析
题型一 利用散点图判断两个变量的相关性
【例 1】山东鲁洁棉业公司的科研人员在 7 块并排、 形状大小相同的试验田上对某棉花新品种进行施 化肥量 x 对产量 y 影响的试验,得到如下表所示的 一组数据(单位:kg).
归分析的前提.
2.求回归方程,关键在于正确求出系数 a ˆ ,由于 ˆ, b ˆ 的计算量大,计算时应仔细谨慎,分层进 a ˆ ,b
行,避免因计算而产生错误.(注意回归直线方程 中一次项系数为 b ˆ ,常数项为 a ˆ ,这与一次函数的 习惯表示不同.)
3.回归分析是处理变量相关关系的一种数学方法.主
4
思想方法
感悟提高
方法与技巧
1.线性相关关系的理解:相关关系与函数关系不同.
函数关系中的两个变量间是一种确定性关系.例如 正方形面积S与边长x之间的关系S=x2就是函数关系. 相关关系是一种非确定性关系,即相关关系是非随 机变量与随机变量之间的关系.例如商品的销售额
与广告费是相关关系.两个变量具有相关关系是回
i 1 i 1
第三节 变量间的相关关系、统计案例(数学建模八)

A.①② B.②③ C.③④ D.①④
答案 D
^^ ^
^
^
解析 由回归直线方程 y = bx+ a,知当 b>0时,y与x正相关;当 b<0时,y与x负
相关,∴①④一定不正确.故选D.
考点突破 栏目索引
方法技巧 判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. (2)相关系数:r>0时,正相关:r<0时,负相关. (3)线性回归方程: b^ >0时,正相关: b^ <0时,负相关.
教材研读 栏目索引
(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在⑤ 一条直线附近 ,就称这 两个变量之间具有线性相关关系,这条直线叫做回归直线. (4)最小二乘法 求回归直线,使得样本数据的点到它的⑥ 距离的平方和最小 的方法 叫做最小二乘法.
教材研读 栏目索引
(5)回归方程
考点突破 栏目索引
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回 归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归 模型拟合) (2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分
利用散点图判断两个变量的相关关系

精品文档 欢迎下载
读书破万卷,下笔如有神--杜甫
.
年龄 23 27
39
41
45
49 50
53
54
56
57
58
脂肪
9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6
30.2
31.4 30.8 33.5
年龄 60
61
脂肪 35.2 34.6
如上的一组数据,你能分析人体的脂肪含量与年龄 之间有怎样的关系吗?
从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现出“人体脂肪随年龄增长而增加” 这一规律.而表中各年龄对应的脂肪数是这个年龄
确定关系
(2)相关关系: 当自变量取值一定时,因变量的取值带有一定的随机性
一块农田的水稻产量与施肥量之间的关系 。 水稻产量并不是由施肥量唯一确定,在取值上带有随机性
不确定关系
2、相关关系的概念 自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫相关关系.
(1)相关关系与函数关系的异同点:相同点:均是指两个变量的关系 不同点:函数关系是一种确定的关系。 而相关关系是一种非确定关系; 即,函数关系是一种因果关系,而相 关关系不一定是因果关系,也可能是随机关系.
如高原含氧量与海拔高度 的相关关系,海平面以上, 海拔高度越高,含氧量越 少。 作出散点图发现,它们散 布在从左上角到右下角的区 域内。又如汽车的载重和汽 车每消耗1升汽油所行使的 平均路程,称它们成负相关.
O
1、散点图的特点形象地体现了各数据的密切程度,因此我们可以根据散点图来判断两个 变量有没有线性关系.
统计学第34章知识点与习题(含答案).446

A. 和各组次数分布多少无关
B.仅受各组标志值大小的影响
C. 受各组标志值和次数共同影响
D.不受各组标志值大小的影响
5、( )时,加权算术平均数等于简单算术平均数
A.当各组次数相等 B.当各组次数不等 C.仅当各组次数都等于 1D.当各组变量值不等
6、四分位数实际上是一种
A 算术平均数
B 几何平均数
4、当一组数据属于左偏分布时,平均数、中位数与众数的大小关系为________。
5、已知 4 个水果店苹果的单价和销售额,要求计算 4 店的平均单价,应用________平均
数。
二、单选题
1、两个总体的平均数不相等,标准差相等,则( )
A.平均数大,代表性大
B.平均数小,代表性大
C.两个总体的平均数代表性相同
C 位置平均数
D 数值平均数
7、已知某局所属 12 个工业企业的职工人数和工资总额,要求计算该局职工的平均工资,
应该采用________
A 简单算术平均法 B 加权算术平均法 C 加权调和平均法 D 几何平均法
8、某公司下属 5 个企业,已知每个企业某月产值计划完成百分比和实际产值,要求计算该
公司平均计划完成程度,应采用加权调和平均数的方法计算,其权数是
第三章 数据资料的统计描述:统计表和统计图
第一节 定性资料的统计描述 知识点: 1、 统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干组成部分
的一种统计方法。 2、 定性数据的频数、频率、百分数、累计频数、累积频率的概念及计算。 3、 定性数据频数分布表示方法主要有条形图、扇形图。
六、计算题
1、2006 年某月份甲、乙两农贸市场某农产品价格和成交量、成交额资料如下:
2015届高考数学总复习第九章 第五节 变量间的相关关系、统计案例课件 理

身 54 54.3 63 66 69 73 82 83 80.3 高
91 93.2 94 94
低蛋白食物组
年 龄 身 高 0.4 0.7 52 55 1 61 1 63. 4 1.5 66 2 68.5 2 67.9 2. 4 7 2 2. 8 3 1.3 1.8 0.2 69 51 3 77
76 74 65
点图如图所示.由图可以看出某地的年降雨量 (mm)与年平均
气温(℃)不具有相关关系.故选D.
答案:(1)A (2)D
点评:(1)在散点图中,如果所有的样本点都落在某一函 数的曲线上,就用该函数来描述变量之间的关系,即变量之 间具有函数关系.如果所有的样本点都落在某一函数的曲线 附近,变量之间就有相关关系.如果所有的样本点都落在某
通过分析,发现销售量y与商品的价格x具有线性相关关 系,则销售量y关于商品的价格x的线性回归方程为
________.
解析: xiyi=392,- x =10,- y =8, x2 i =502.5,
i=1 i=1
5
5
^ =-3.2,所以, ^ ^ - 代入公式,得 b a =- y -b x =40,故线性 ^=-3.2x+40. 回归方程为y ^=-3.2x+40 答案:y
根据以上数据求线性回归方程.
^ =b ^x+^ 解析:设回归直线方程为y a,
6 6 21 426 2 - x = 6 ,- y = 6 =71, xi =79, xiyi=1 481, i=1 i =1
x - y xiyi-6- ^= 所以代入公式b
i=1
6
, x2 xi2-6-
i=1 6
③某人每日吸烟量和身体健康情况;
④圆的半径与面积; ⑤汽车的重量和每公里耗油量. 其中两个变量成正相关的是( A.①③ B.②④ ) D.④⑤ C.②⑤
高中数学选修2-3统计案例之线性回归方程习题课

1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则b^,a^其中,b是回归方程的斜率,a是在y轴上的截距.4.样本相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.5.线性回归模型(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.(2)相关指数用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.规律(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.注意(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.考向一相关关系的判断例1.下列选项中,两个变量具有相关关系的是( )A.正方形的面积与周长B.匀速行驶车辆的行驶路程与时间C.人的身高与体重D.人的身高与视力答案:C例2.对变量x、y有观测数据(x i,y i)(i =1,2,…,10),得散点图1;对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由题图1可知,各点整体呈递减趋势,x与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关.例3.下面哪些变量是相关关系().A.出租车车费与行驶的里程B.房屋面积与房屋价格C.身高与体重D.铁块的大小与质量解析A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.答案 C例4.如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据的线性相关性最大.解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远.答案:D例5.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.答案 C例6.下列关系属于线性负相关的是( )A.父母的身高与子女身高的关系B.球的体积与半径之间的关系C.汽车的重量与汽车每消耗1 L汽油所行驶的平均路程D.一个家庭的收入与支出解析:选C.A、D中的两个变量属于线性正相关,B中两个变量是函数关系.例7.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):(1)画出散点图;(2)判断是否具有相关关系.[审题视点] (1)用x 轴表示化肥施用量,y 轴表示棉花产量,逐一画点.(2)根据散点图,分析两个变量是否存在相关关系.解 (1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.例8. 根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案否考向二线性回归方程例9.对有线性相关关系的两个变量建立的回归直线方程y^=a+bx中,回归系数b( )A.不能小于0 B.不能大于0C.不能等于0 D.只能小于0解析:选C.∵b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0.例10.已知回归方程y^=4.4x+838.19,则可估计x与y的增长速度之比约为________.解析:x与y的增长速度之比即为回归方程的斜率的倒数14.4=1044=522.答案:5 22例11.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是().A.y^=-10x+200 B.y^=10x+200 C.y^=-10x-200 D.y^=10x-200 解析因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.答案 A例12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[审题视点] (2)问利用公式求a ^、b ^,即可求出线性回归方程.(3)问将x =100代入回归直线方程即可. 解 (1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:i =14x 2i =86,x =3+4+5+64= 4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y ∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.例13.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y对x的线性回归方程为().A.y=x-1 B.y=x+1C.y=88+12x D.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案 C例14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y^=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:对预处理后的数据,容易算得,x=0,y=3.2,b=26040=6.5,a=y-b x=3.2.由上述计算结果,知所求回归直线方程为y -257=b(x-2 006)+a=6.5(x-2 006)+3.2,即y^=6.5(x-2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).例15.下列有关回归直线方程y^=bx+a 的叙述正确的是( )①反映y^与x之间的函数关系;②反映y与x之间的函数关系;③表示y^与x之间的不确定关系;④表示最接近y与x之间真实关系的一条直线.A.①② B.②③C.③④ D.①④解析:选D.y^=bx+a表示y^与x之间的函数关系,而不是y与x之间的函数关系;但它反映的关系最接近y与x之间的真实关系,故选D.例16.设有一个回归方程y^=3-5x,变量x增加一个单位时( )A.y平均增加3个单位B.y平均减少5个单位C.y平均增加5个单位D.y平均减少3个单位解析:选B.∵-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.例17.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不.正确的是( ) A.由样本数据得到的回归方程y^=b^x+a^必过样本中心(x,y)B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r =-0.9362,则变量y和x之间具有线性相关关系解析:选C.C中应为R2越大拟合效果越好.例18.已知回归方程y^=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )A .0.01B .0.02C .0.03D .0.04解析:选C.当x =2时,y ^=5, 当x =3时,y ^=7,当x =4时,y ^=9.∴e ^1=4.9-5=-0.1,e ^2=7.1-7=0.1, e ^3=9.1-9=0.1.∴ i =13e ^i 2=(-0.1)2+(0.1)2+(0.1)2=0.03.例19.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②回归方程y ^=bx +a 必过点(x ,y ); ③曲线上的点与该点的坐标之间具有相关关系;④在一个2×2列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是 90%.其中错误的是________.解析:①正确.由回归方程的定义及最小二乘法思想,知②正确.③④不正确.答案:③④例20.在2009年十一国庆8天黄金周期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:9通过分析,发现销售量对商品的价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为________.解析:由数据表可得x=10,y=8,离差x-x:-1,-0.5,0,0.5,1;离差y-y:3,2,0,-2,-3.∴b^=-1×3-0.5×2-0.5×2-1×3 1+0.25+0+0.25+1=-3.2,a ^=y -b ^x =40,∴回归直线方程为y ^=-3.2x +40. 答案:y ^=-3.2x +40例21.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.解:以x 轴表示身高,y 轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y^=b^ x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P(A)=1-410=35.(2)由数据求得,x=12,y=27,由公式求得.b^=52,a^=y-b^x=-3.所以y关于x的线性回归方程为y^=5 2 x-3.(3)当x=10时,y^=52×10-3=22,|22-23|<2;当x=8时,y^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的.。
高考数学必背知识手册-第八章-成对数据的统计分析(公式、定理、结论图表)

第八章成对数据的统计分析(公式、定理、结论图表)一、成对数据的统计相关性1.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图. (2)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.4.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r >0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r <0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.二、一元线性回归模型及其应用1.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y ,其回归方程为a bx y +=∧,则1221,.ni i i nii x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y .(3)相关系数:()()()()12211nii i nni i i i xx y y rx x y y ===--=--∑∑∑1222211ni ii n ni i i i x y nxyx nx y ny ===-=⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭∑∑∑.【方法归纳】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r 越趋近于1相关性越强.当残差平方和越小,相关指数2R 越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算 ,ba 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线 y bxa =+ 过样本点的中心(),x y 进行求值.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.
年龄 23 27
39
41
45
49 50
53
54
56
57
58
脂肪
9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6
30.2
31.4 30.8 33.5
年龄 60
61
脂肪 35.2 34.6
如上的一组数据,你能分析人体的脂肪含量与年龄 之间有怎样的关系吗?
从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现出“人体脂肪随年龄增长而增加” 这一规律.而表中各年龄对应的脂肪数是这个年龄
人群的样本平均数.我们也可以对它们作统计图、 表,对这两个变量有一个直观上的印象和判断.
下面我们以年龄为横轴, 脂肪含量为纵轴建立直 角坐标系,作出各个点, 称该图为散点图。
脂肪含量 40 35
如图:
30 25 20 15 10 5
O
20
25
30 35 40
年龄
45 50 55
60 65
从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从左下角到右上角的区域。称它们成正相关。 但有的两个变量的相关,如下图所示:
如高原含氧量与海拔高度 的相关关系,海平面以上, 海拔高度越高,含氧量越 少。 作出散点图发现,它们散 布在从左上角到右下角的区 域内。又如汽车的载重和汽 车每消耗1升汽油所行使的 平均路程,称它们成负相关.
O
1、散点图的特点形象地体现了各数据的密切程度,因此我们可以根据散点图来判断两个 变量有没有线性关系.
2、从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋 势.
一块农田的水稻产量与施肥量之间的关系 。 水稻产量并不是由施肥量唯一确定,在取值上带有随机性
不确定关系
2、相关关系的概念 自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫相关关系.
(1)相关关系与函数关系的异同点:相同点:均是指两个变量的关系 不同点:函数关系是一种确定的关系。 而相关关系是一种非确定关系; 即,函数关系是一种因果关系,而相 关关系不一定是因果关系,也可能是随机关系.
(2)函数关系与相关关系之间有着密切联系: 在一定的条件下可以相互转化.而对于具有线性相关关系的两个变量来说,当求得其回归直线方程后, 又可以用一种确定性的关系对这两个变量间的取值进行估计:
3、判断相关关系的基本ቤተ መጻሕፍቲ ባይዱ序
两个变量 →一个变量值一定→另一个变量带有不确定性→相关关系
4、相关关系的类型 相关关系可分为线性相关,非线性相关两类.
注意: 两个变量之间的关系具有确定性关系—函数关系. 两个变量变量之间的关系具有随机性,不确定性—相关关系.
二:散点图
1、散点图:将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,以表示具有相关 关系的两个变量的一组数据的图形叫做散点图.
2、正相关、负相关 正相关:如果散点图的点散布在从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量 的值也近似的由小变大,对于两个变量的这种相关关系,我们称为正相关
利用散点图判断两个变量的相关关系
讲授新课
一:变量之间的相关关系
1.两变量之间的关系
(1)函数关系: 当自变量取值一定时,因变量取值由它唯一确定
正方形面积S与其边长x之间的函数关系S=x2 , 对自变量边长的每一个确定值,都有唯一确定的面积的值与之对应。
确定关系
(2)相关关系: 当自变量取值一定时,因变量的取值带有一定的随机性
负相关:如果散点图的点散布的位置是从在左上角到右下角的区域,即一个变量的值由小变大时,另 一个变量的值也近似的由大变小,对于两个变量的这种相关关系,我们称为负相关.
在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们将变量所对应的 点描出来,这些点就组成了变量之间的一个散点图.
探究: