跟踪检测五十七变量间的相关关系统计案例

合集下载

变量间的相关关系、统计案例

变量间的相关关系、统计案例

第四节变量间的相关关系、统计案例[最新考纲] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.1.变量间的相关关系(1)变量间的关系分类:常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)正相关和负相关:从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.两个变量的线性相关的最小值而得到回归直线的方法,(1)分类变量变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)2×2列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(3)独立性检验利用随机变量K2(也可表示为χ2)的观测值k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.[常用结论]1.回归直线方程y^=b^x+a^必过样本点的中心(x,y),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.一、思考辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ()(2)只有两个变量有相关关系,所得到的回归模型才有预测价值.()(3)回归直线方程y^=b^x+a^至少经过点(x1,y1),(x2,y2),…,(x n,y n)中的一个点. ()(4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.()[答案](1)√(2)√(3)×(4)×二、教材改编1.下面是2×2列联表:则表中a,b的值分别为()A.94,72C.52,74 D.74,52C[∵a+21=73,∴a=52.又a+22=b,∴b=74.]2.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4A[因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A满足.]3.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,^=0.95x+a^,则a^=.且回归方程为y2.6[∵回归直线必过样本点的中心(x,y),又x=2,y=4.5,代入回归方程,得a^=2.6.]4.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:已知P(K2≥3.841)≈0.05根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为.5%[K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]考点1变量间的相关关系的判断判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中:b^>0时,正相关;b^<0时,负相关.1.观察下列各图形,①②③④其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③C[图形③具有正线性相关关系,图形④具有非线性相关关系,故选C.] 2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关C[因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=b^y+a^,b^>0,则z=b^y+a^=-0.1b^x+b^+a^,故x与z负相关.] 3.某统计部门对四组数据进行统计分析后,获得如图所示的散点图,关于相关系数的比较,其中正确的是()A.r4<r2<0<r1<r3B.r2<r4<0<r1<r3C.r2<r4<0<r3<r1D.r4<r2<0<r3<r1C[根据散点图的特征,数据大致呈增长趋势的是正相关,数据呈递减趋势的是负相关;数据越集中在一条直线附近,说明相关性越强,由题中数据可知:(1)(3)为正相关,(2)(4)为负相关;故r1>0,r3>0;r2<0,r4<0;又(1)与(2)中散点图更接近于一条直线,故r1>r3,r2<r4, 因此,r2<r4<0<r3<r1,故选C.](1)变量间的相关关系分线性相关关系和非线性相关关系,如T1.(2)对相关系数r来说,|r|越接近于1,散点图越接近于一条直线,如T3.考点2线性回归分析线性回归分析问题的类型及解题方法(1)求回归方程^.①利用公式,求出回归系数b^.②利用回归直线过样本点的中心求系数a(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.下图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2012~2018.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2020年我国生活垃圾无害化处理量.附注:参考数据:=9.32,=40.17,=0.55,7≈2.646.参考公式:相关系数r =回归方程y ^=a ^+b^t 中斜率和截距的最小二乘估计公式分别为:[解] (1)由折线图中数据和附注中参考数据得所以r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得a ^=y -b^t ≈1.331-0.10×4≈0.93. 所以y 关于t 的回归方程为 y ^=0.93+0.10t .将2020年对应的t =9代入回归方程得 y ^=0.93+0.10×9=1.83.所以预测2020年我国生活垃圾无害化处理量约为1.83亿吨.在计算时,应根据所给数据对公式进行合理变形,如[教师备选例题]下表是某学生在4月份开始进入冲刺复习至高考前的5次大型联考数学成绩(分):(1)(2)①请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程; ②若在4月份开始进入冲刺复习前,该生的数学分数最好为116分,并以此作为初始分数,利用上述回归方程预测高考的数学成绩,并以预测高考成绩作为最终成绩,求该生4月份后复习提高率.(复习提高率=净提高分卷面总分×100%,分数取整数).附:回归直线的斜率和截距的最小二乘估计公式分别为[解] (1)散点图如图:(2)①由题得,x =1+2+3+4+55=3,y =117+127+125+134+1425=129,=55,5x2=5×32=45,5x y=5×3×129=1 935,所以b^=1 992-1 93555-45=5710=5.7,a^=129-5.7×3=111.9,故y关于x的线性回归方程为y=5.7x+111.9.②由上述回归方程可得高考应该是第六次考试,故x=6,则y=5.7×6+111.9=146.1≈146(分),故净提高分为146-116=30(分),所以该生的复习提高率为30150×100%=20%.1.经过对中学生记忆能力x和识图能力y进行统计分析,得到如下数据:由表中数据,求得线性回归方程为y=45x+a,若某中学生的记忆能力为14,则该中学生的识图能力为()A.7B.9.5C.11.1D.12C[x的平均数x=14(4+6+8+10)=284=7,y的平均数y=14(3+5+6+8)=224=112=5.5,回归方程过点(x,y),即(7,5.5),则5.5=0.8×7+a^,得a^=-0.1,则y^=0.8x-0.1,则当x=14时,y=0.8×14-0.1=11.2-0.1=11.1,即该中学生的识图能力为11.1,故选C.]2.二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y (单位:万元/辆)进行整理,得到如下数据:z 关于x(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少.(b ^,a ^小数点后保留两位有效数字)[解] (1)由题意,知x =16×(2+3+4+5+6+7)=4.5,z =16×(3+2.48+2.08+1.86+1.48+1.10)=2,∴r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,∴z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.(2)b^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,∴a^=z-b^x=2+0.36×4.5=3.62,∴z与x的线性回归方程是z^=-0.36x+3.62,又z=ln y,∴y关于x的回归方程是y^=e-0.36x+3.62.令x=9,得y^=e-0.36×9+3.62=e0.38,∵ln 1.46≈0.38,∴y^=1.46,即预测某辆A型号二手车当使用年数为9年时售价约为1.46万元.考点3独立性检验独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),计算K2的观测值k的值;(3)查表比较K2的观测值k与临界值的大小关系,作统计判断.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )[解] (1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2的观测值k =100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.对于“估计概率”问题,一般是用频率代替概率.[教师备选例题]有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:附表:( )A .0.01B .0.025C .0.05D .0.10A[∵K2的观测值k=168×(68×38-20×42)288×80×110×58≈11.377,又11.377>6.635,∴在犯错误的概率不超过0.01的前提下认为多看电视与人变冷漠有关系,故选A.](2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[解] (1)旧养殖法的箱产量低于50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A 的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表K 2的观测值k =200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.。

变量间的相关关系及统计案例高品质版共77页文档

变量间的相关关系及统计案例高品质版共77页文档
ቤተ መጻሕፍቲ ባይዱ
39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
33、如果惧怕前面跌宕的山岩,生命 就永远 只能是 死水一 潭。 34、当你眼泪忍不住要流出来的时候 ,睁大 眼睛, 千万别 眨眼!你会看到 世界由 清晰变 模糊的 全过程 ,心会 在你泪 水落下 的那一 刻变得 清澈明 晰。盐 。注定 要融化 的,也 许是用 眼泪的 方式。
35、不要以为自己成功一次就可以了 ,也不 要以为 过去的 光荣可 以被永 远肯定 。
变量间的相关关系及统计案 例高品质版
31、别人笑我太疯癫,我笑他人看不 穿。(名 言网) 32、我不想听失意者的哭泣,抱怨者 的牢骚 ,这是 羊群中 的瘟疫 ,我不 能被它 传染。 我要尽 量避免 绝望, 辛勤耕 耘,忍 受苦楚 。我一 试再试 ,争取 每天的 成功, 避免以 失败收 常在别 人停滞 不前时 ,我继 续拼搏 。

变量间的相关关系、统计案例

变量间的相关关系、统计案例

变量间的相关关系、统计案例1. 两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2. 回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i -n x y∑n i =1x 2i-n x2a ^=y -b ^x.3. 回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4. 独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为 2×2列联表构造一个随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.1. 已知x 、y 的取值如下表:从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a ^=________. 答案 2.6 解析 因为回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入y ^=0.95x +a ^,得a ^=2.6.2. (2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元.答案 0.254 解析 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案 D 解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本点的中心(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是() A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系答案 D 解析只有K2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:() A.99.9% B.97.5% C.95% D.90%答案 A 解析可计算K2≈11.377>10.828.故选A.题型一两个变量间的相关关系例15个学生的数学和物理成绩如下表:思维启迪:将每个学生的数学成绩和物理成绩分别作为点的横坐标和纵坐标,作散点图,然后根据散点图判断两个变量是否存在相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.探究提高判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.对变量x,y有观测数据(x i,y i) (i=1,2,…,10),得散点图(1);对变量u、v有观测数据(u i,v i) (i=1,2,…,10),得散点图(2).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C 解析由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.题型二线性回归分析例2(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y ^=b ^x +a ^,其中b ^=-20,a ^=y -b ^x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 思维启迪:根据回归直线过样本点中心来求线性回归方程,然后利用回归方程求最大利润.解 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250,从而线性回归方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -8.25)2+361.25. 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. 探究提高 回归直线过样本点中心(x ,y )是一条重要性质;利用线性回归方程可以估计总体,帮助我们分析两个变量的变化趋势.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________. 答案 0.5 0.53解析 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故线性回归方程为y ^=0.01x +0.47,将x =6代入得6号打6小时篮球的投篮命中率约为0.53. 题型三 独立性检验例3 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.思维启迪:直接计算K 2的值,然后利用表格下结论.解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500×100%=14%.(2)K 2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>7.879,所以有99.5%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.探究提高 (1)根据样本估计总体是抽样分析的一个重要内容.要使估计的结论更加准确,抽样取得的样本很关键.(2)根据独立性检验知,需要提供服务的老人与性别有关,因此在调查时,采取男、女分层抽样的方法更好,从而看出独立性检验的作用.某班主任对全班50名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:系?说明理由.解 由K 2=50×(18×19-6×7)224×26×25×25≈11.54.∵K 2>10.828,故可以有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系. 典例:(12分)某地10户家庭的年收入和年饮食支出的统计资料如表所示:(2)如果某家庭年收入为9万元,预测其年饮食支出.审题视角 可以画出散点图,根据图中点的分布判断家庭年收入和年饮食支出的线性相关性.规范解答解 (1)由题意,知年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如图所示.[3分]从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.[4分] 因为x =6,y=1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,所以b ^=∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.172,a ^=y -b ^x ≈1.83-0.172×6=0.798.从而得到线性回归方程为y ^=0.172x +0.798.[8分](2)y ^=0.172×9+0.798=2.346(万元).所以家庭年收入为9万元时,可以预测年饮食支出为2.346万元.[12分]温馨提醒 (1)在统计中,用样本的频率分布表、频率分布直方图、统计图表中的茎叶图、折线图、条形图,去估计总体的相关问题,以及用散点图判断相关变量的相关性等都体现了数与形的完美结合.借助于形的直观,去统计数据,分析数据,无不体现了数形结合的思想.(2)本题利用散点图分析两变量间的相关关系,充分体现了数形结合思想的应用.(3)本题易错点为散点图画的不准确,导致判断错误.A组专项基础训练(时间:35分钟,满分:57分)一、选择题(每小题5分,共20分)1.2011·陕西)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案 A 解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B、C错误.D中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以D错误.根据线性回归直线一定经过样本点中心可知A正确.2.(2011·山东)某产品的广告费用x与销售额y的统计数据如下表:根据上表可得线性回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时销售额为() A.63.6万元B.65.5万元C.67.7万元D.72.0万元答案 B解析∵x=4+2+3+54=72,y=49+26+39+544=42,又y^=b^x+a^必过(x,y),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).3. (2012·课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为 ( )A .-1B .0C.12D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. A .①B .①③C .③D .②答案 C解析 ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ;③正确. 二、填空题(每小题5分,共15分)5. 某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:出有________线性相关关系. 答案 13 正解析 把2005~2009年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.3,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.6. 在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K 2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关). 答案 有关解析 由观测值k =27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关. 7. 在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由此得到回归直线的斜率b 是__________.(结果保留两位小数)答案 0.88 解析 把表中数据代入公式b ^=∑5i =1x i y i -5x y ∑5i =1x 2i -5x 2≈0.88.三、解答题(共22分)8. (10分)某企业上半年产品产量与单位成本资料如下:且已知产量x (1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,x =3.5,y=71,∑6i =1x 2i =79,∑6i =1x i y i =1 481,b ^=∑6i =1x i y i -6x y∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82,a ^=y -b ^x =71+1.82×3.5=77.37,∴线性回归方程为y ^ =b ^ x +a ^=-1.82x +77.37.(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入线性回归方程,得y ^=77.37-1.82×6=66.45(元) ∴当产量为6 000件时,单位成本大约为66.45元. 9. (12分)(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y =b x +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求线性回归方程.为此对数据预处理如下:对预处理后的数据,容易算得x =0,y =3.2.b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2.由上述计算结果,知所求线性回归方程为y ^-257=b ^(x -2 006)+a ^=6.5(x -2 006)+3.2,即y ^=6.5(x -2 006)+260.2.① (2)利用直线方程①,可预测2012年的粮食需求量约为 6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).B 组 专项能力提升 (时间:25分钟,满分:43分)一、选择题(每小题5分,共15分) 1. 以下四个命题,其中正确的是( )①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. A .①④B .②④C .①③D .②③答案 D 解析 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.2. (2011·湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 A 解析 根据独立性检验的定义,由K 2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.3.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x( )A.y ^=x -1B.y ^=x +1C.y ^ =88+12xD.y ^=176答案 C解析 因为x =174+176+176+176+1785=176,y =175+175+176+177+1775=176,又y 对x 的线性回归方程表示的直线恒过点(x ,y ),所以将(176,176)代入A 、B 、C 、D 中检验知选C.二、填空题(每小题5分,共15分)4. ①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上.上面是关于相关系数r 的几种说法,其中正确的序号是__________. 答案 ①③解析 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确;r <0,表示两个相关变量负相关,x 增大时,y 相应减小,故②错误;|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.5. (2011·广东)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.答案 185 解析 儿子和父亲的身高可列表如下:设线性回归方程y ^=a ^+b x ,由表中的三组数据可求得b =1,故a ^=y -b ^x =176-173=3,故线性回归方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.6. 某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________ t 钢是废品. 答案 16.68解析 ∵176.5=105.492+42.569x ,∴x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.∴生产的1 000 t 钢中,约有1 000×1.668%=16.68(t)钢是废品. 三、解答题7. (13分)某产品的广告支出x (单位:万元)与销售收入y (单位:万元)之间有下表所对应的数据:(1)(2)求出y 对x 的线性回归方程;(3)若广告费为9万元,则销售收入约为多少万元? 解 (1)作出的散点图如图所示(2)观察散点图可知各点大致分布在一条直线附近,列出下表易得x =52,y =692,所以b ^=∑4i =1x i y i -4x y ∑4i =1x 2i -4x 2=418-4×52×69230-4×⎝⎛⎭⎫522=735,a ^=y -b ^x =692-735×52=-2. 故y 对x 的线性回归方程为y ^=735x -2.(3)当x =9时,y ^=735×9-2=129.4. 故当广告费为9万元时,销售收入约为129.4万元.。

变量间的相关关系、统计案例

变量间的相关关系、统计案例

第四节 变量间的相关关系、统计案例[考纲传真] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=.(3)通过求Q =(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(5)相关指数:R 2=1-.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d ).[常用结论]1.从散点图观察相关性;(1)正相关:样本点分布在从左下角到右上角的区域; (2)负相关:样本点分布在从左上角到右下角的区域. 2.b ^的几何意义:体现平均增加或平均减少.3.线性回归方程y ^=b ^x +a ^一定过样本点的中心(—x ,—y ). 4.由回归直线求出的数据是估算值,不是精确值.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系, 也是一种因果关系.( ) (2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( )(4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )[答案] (1)× (2)√ (3)√ (4)×2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率C [“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.]3.(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数—x =3,—y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5) 在回归直线上,排除B ,选项A 满足.]4.下面是2×2列联表:则表中a ,b 的值分别为( )A.94,72 C .52,74D .74,52C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A.0.1% C .99%D .99.9%C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]1.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关C [因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.]2.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:( ) A .甲 B .乙 C .丙 D .丁D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性.]3.(2019·泰安月考)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]时,正相关;时,负相关【例1】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.i i 数据如下表:(1)(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据:.参考公式:[解] (1)=2 794-7×8×42708-7×82=1.7,故y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)∵0.75<0.93,∴二次函数回归模型更合适. 当x =3时,y ^=33.5.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.5万元.【例2】 收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828,K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解](1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表K 2的观测值k =200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(3)根据(2)附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),[解] (1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2的观测值k=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.。

变量间的相关关系、统计案例

变量间的相关关系、统计案例

∑ (������������ -������)(������������ -������)
������=1
∑ (������������ -������)2
= ������=1 ������
∑ ������������ ������������ -������������ ������
������=1
关闭
^
^
^
^ ^
关闭
^
^
^
^
A
解析 答案
-9知识梳理 考点自测
1
2
3
4
5
3.(2017辽宁葫芦岛一模)广告投入对商品的销售额有较大影响. 某电商对连续5个年度的广告费和销售额进行统计,得到统计数据 如下表(单位:万元):
广告费 x 销售额 y 2 29 3 41
^
4 50
5 59
6 71
关闭
由表可得到回归方程为 ������ 10 ,据此模型 ,预测广告费为 10 万 由题意 ,得������=4,������=50.∴50= 4= × 10..2 2x+ +������a ,解得 a=9.2. ^ 元时的销售额约为 ) ∴回归方程为������=10(.2x+9 .2. A.101.2万元 ^ B.108.8万元 ∴当 x=10 时,������=D.118 10.2× +9.2=111.2.故选 C. C.111
=1-������=1 ������
^ ∑ (������ - ������ )
������ ������ ������
2
∑ (������������ -������) ������=1
2 , R 越接近于 1,表示回归效果越好. 2

变量间的相关关系与统计案例

变量间的相关关系与统计案例

3.在一项打鼾与患心脏病的调查中,共调查了1 671人, 经过计算K2的观测值k=27.63,根据这一数据分析,我们 能在犯错误的概率不超过________的前提下认为打鼾 与患心脏病有关.
【解析】K2的观测值k=27.63>10.828,故能在犯错误的
概率不超过0.001的前提下认为打鼾与患心脏病有关.
3.独立性检验的三个步骤 (1)根据样本数据制成2×2列联表. (2)根据公式计算K2的值. (3)比较K2与临界值的大小关系作统计推断.
【教材母题变式】 1.有一个同学开了一家小卖部,他为了研究气温对热饮 销量的影响,经过统计计算,得到卖出的热饮杯数依当 天气温(℃)变化的回归直线方程为 y =146-3x,下列判 断正确的是________(填序号)
x1 x2 a c
y2
b d b+d ____
总计 a+b ____
c+d
总计
a+c
a+b+c+d
(2)K2统计量
K 2= 量).
a b c d a c b d
n ad bc
2
(其中n=a+b+c+d为样本容
【金榜状元笔记】 1.两种关系——函数关系与相关关系 (1)区别: ①函数关系是一种确定性关系,相关关系是一种非确定 性关系.
一条直线 附近,则称这两个变量之间具有线性 大致在_________
回归直线 相关关系,这条直线叫做_________.
(3)回归方程 距离 ①最小二乘法:使得样本数据的点到回归直线的_____ 的平方和 最小的方法叫做最小二乘法. _________
②回归方程:两个具有线性相关关系的变量的一组数据: (x1,y1),(x2,y2),…,(xn,yn),其回归方程为 y bx a,

变量间的相关关系与统计案例 PPT

变量间的相关关系与统计案例 PPT
此相关为_非__线___性__相__关_的.此时,可以用一条曲线来拟合.如果所有 的点在散点图中没有显示任何关系,则称变量间是不相关的.
(2)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就 称这两个变量之间具有线性相关关系,这条直线叫作回归直 线.
2. 回归分析
(1)最小二乘法
题型三 线性回归方程 【例3】 为了研究某种新上市产品的广告费与销售额之间的 关系,某统计局随机选取5家销售公司,由营业报告中查出其上 年度的广告费x(单位:万元)与销售额y(单位:百万元)之间有如 下的对应数据:
(1)以x为解释变量,y为预报变量,作出散点图; (2)求y与x之间的回归方程. 解析: (1)散点图如图所示:
解析:A中显然任给一个x都有唯一确定的y和它对应,是一种函数 关系;B也是一种函数关系;C中从散点图中可看出所有点看上去 都在某条直线附近波动,具有相关关系,而且是一种线性相关;D 中所有的点在散点图中没有显示任何关系,因此变量间是不相关 的. 答案: C
3. (原创题)经研究表明,学生的体重y(单位:kg)与身高x(单位: cm)有很强的线性相关关系,其回归方程为y=0.75x-68.2,如果一 个学生的身高为170 cm,则他的体重( )
A.90% B.95% C. 97.5% D. 99.9%
解析:根据题中的等高条形图,由于用药的患者50人,因
此,在用药的患者中感冒病好的人数为50* 8
10
=40;在未用药的患者中感冒病好的人数为20*
3
10
=6.于是列联表如下
由K2= 7040146102
50204624
≈15.85>10.828. 因此,有99.9%的把握认为感冒病好与用药有关,故选D.

变量间的相关关系与统计案例

变量间的相关关系与统计案例

高中数学:变量间的相关关系与统计案例1.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表;效率有差异?解:(1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可得分.)(2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2=40(15×15-5×5)20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i=x i,w=18∑8i=1w i.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β^=∑ni=1(u i-u)(v i-v)∑n i=1(u i-u)2,α^=v-β^u.解:(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d^=∑8i=1(w i-w)(y i-y)∑8 i=1(w i-w)2=108.81.6=68,c^=y-d^w=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x 的回归方程为y^=100.6+68x.(3)(ⅰ)由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.(ⅱ)根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。

变量间的相关关系统计案例

变量间的相关关系统计案例
返回
其中两个变量x、y具有相关关系的图是
A.①②
B.①④
C.③④
D.②③
解析:由散点图知③④具有相关关系.
答案: C
()
返回
2.如图所示,有5组(x,y)数据,去 掉________组数据后,剩下的4组 数据具有较强的线性相关关系. 解析:由散点图知呈带状区域时有较强的线性相关关系, 故去掉D. 答案: D
男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110
返回
由χ2=a+bcn+add-ab+cc2b+d算得,
χ2=110×60×405×0×306-0×205×0202≈7.8.
附表:
P(χ2≥k) 0.050 0.010 0.001
k
3.841 6.635 10.828
多考查基本思想的应用及基本运算.
返回
返回
一、变量间的相关坐标,另一个变量的相应
取值为纵坐标,在直角坐标系中描点,这样的图形叫 做散点图. 三、回归直线方程与回归分析 (1)直线方程=a+bx,叫做Y对x的 回归直线方程 ,b 叫
做 回归系数 .要确定回归直线方程,只要确定a与回 归系数b.
n
n
xi- x 2 yi- y 2
i=1
i=1
r=
n xiyi-n-x -y
i=1
n
xi2-n-x 2n yi2-n-y 2
i=1
i=1

.
返回
(4)样本相关系数r具有以下性质:|r|≤1,并且|r|越接近1,
线性相关程度 越强 ;|r|越接近0,线性相关程度越弱.
返回
四、独立性检验 (1)2×2列联表:
A.^y=-2x+100

变量间的相关关系与统计案例

变量间的相关关系与统计案例

xi2 3 x 2
i 1
3

4343718 179349
1.75
434 3 7 ˆ 18 - 7 1.75 185.75 ˆ a y - bx 179 3 49 1.75
ˆ 所求线性回归方程为: y 1.75 x 5.75.
六、回归效果的检测
n i 1 n
y i y 2
i 1
.
显然, R 2取值越大, 意味着残差平方和越小, 也就是说模型的拟合 效果越好.在线性回归模型中, R 2 表示解释变量对于预报变量变 化的贡献率. R 2 越 接近于 1, 表示回归的效果越好(因为R 2 越接近 于1, 表示解释变量和预报变量的线性相关性越强) .
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
3.独立性检验:假设有两个分类变量X和Y,它们的可能 取值分别为{x1,x2} 和 {y1,y2},其样本频数列联表(称 为2×2列联表)为:
y1 x1
x2 总计
y2 b
d
总计 a+b
c+d
a
c
a+c b+d a+b+c+d nad-bc2 K2= (其中 n=a+b+c+d 为样本容 a+ba+cb+dc+d
i 1 2 i i 1
n
n
i i
2.代入公式
求出 a 和 b ; ˆ ˆ
n n x y x y xi--yi-- xiyi-n-- i= 1 i= 1 b = , ^= n n - 2 x xi- x xi2-n-2 i= 1 i= 1 ^=--b - a y ^ x
如下图:
40 35 30 25 20 15 10 5

03变量间的相关关系统计案例(检测+答案)

03变量间的相关关系统计案例(检测+答案)

变量间的相关关系统计案例一、变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.二、两个变量的线性相关1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系 ,这条直线叫线性回归方程.2.回归直线方程为ˆˆˆybx a =+ ,其中= 1221ˆˆˆni ii n i i x ynx yb ay bx x nx==-==--∑∑ . 3.通过求()21ˆˆni ii Q y bx a ==--∑的最小值而得到回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.4.相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系 .通常|r|大于0.75时,认为两个变量有很强的线性相关性. 三、独立性检验1.2×2列联表:假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).2.用K 2的大小可以决定是否拒绝原来的统计假设H 0,若K 2值较大,就拒绝H 0,即拒绝事件A 与B 无关.3.当K 2≥3.841时,则有95%的把握说事件A 与B 有关; 当K 2≥6.635时,则有99%的把握说事件A 与B 有关; 当K 2≤2.706时,则认为事件A 与B 无关.例1:某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是 ( ) A.ˆy=-2x +100 B.ˆy =2x +100 C.ˆy =-2x -100 D.ˆy =2x -100 解:B 、D 为正相关,C ˆy中值恒为负,不符合题意. 例2:两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是 ( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25 解:相关指数R 2越大拟合效果越好.选A 。

变量间的相关关系与统计案例

变量间的相关关系与统计案例

变量间的相关关系与统计案例变量间的相关关系是统计学中一个重要的概念,它描述了两个或多个变量之间的关联程度。

在实际应用中,我们经常需要了解不同变量之间的相关性,以便更好地理解数据和进行预测分析。

本文将介绍变量间相关关系的基本概念,并通过统计案例来说明相关关系的计算和应用。

首先,我们需要了解相关系数的概念。

相关系数是衡量两个变量之间相关性强弱的统计指标,通常用于描述线性相关关系。

常见的相关系数有皮尔逊相关系数、斯皮尔曼相关系数和判定系数等。

其中,皮尔逊相关系数用于衡量两个连续变量之间的线性相关性,取值范围为-1到1,其绝对值越接近1,表示相关性越强。

接下来,我们通过一个实际的统计案例来说明相关系数的计算和应用。

假设我们对某公司员工的工作满意度和工作绩效进行了调查,现在我们希望了解这两个变量之间的相关关系。

我们首先收集了员工的工作满意度得分和绩效评价得分,然后计算了它们之间的皮尔逊相关系数。

假设计算结果为0.8,这意味着工作满意度和工作绩效之间存在较强的正相关关系,即工作满意度较高的员工通常也具有较好的工作绩效。

在实际应用中,相关系数的计算可以帮助我们了解变量之间的关联程度,从而指导决策和预测分析。

例如,在人力资源管理中,我们可以通过工作满意度和绩效之间的相关关系来评估员工的工作状态,制定相应的激励和管理策略。

在市场营销中,我们可以分析产品销量与广告投入之间的相关关系,从而优化营销策略和预测销售额。

除了了解相关系数的计算和应用,我们还需要注意相关关系的解释和局限性。

相关系数只能描述两个变量之间的线性相关关系,对于非线性关系或者其他类型的相关关系,相关系数可能无法准确描述。

因此,在实际应用中,我们需要结合具体情况,综合考虑多个统计指标和数据特征,以全面理解变量间的相关关系。

综上所述,变量间的相关关系是统计学中一个重要的概念,相关系数的计算和应用可以帮助我们了解变量之间的关联程度,指导决策和预测分析。

然而,我们需要注意相关关系的解释和局限性,以便更准确地理解数据和进行统计分析。

11、变量间的相关关系、统计案例(有答案)解读

11、变量间的相关关系、统计案例(有答案)解读

学科教师辅导教案学员编号: 年 级:高一 课时数:3课时 学员姓名: 辅导科目:数学 学科教师:授课类型 T 同步知识梳理 C 相关专题训练T 能力提高教学目标星级★★★授课日期及时段 2016.教学内容 :变量间的相关关系、统计案例一、同步知识梳理 1. 变量间的相关关系2. 散点图以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫做散点图. 3. 回归直线方程与回归分析(1)直线方程y ^=a +bx ,叫做Y 对x 的回归直线方程,b 叫做回归系数.要确定回归直线方程,只要确定a 与回归系数b .(2)用最小二乘法求回归直线方程中的a ,b 有下列公式b ^=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a ^ =y -b ^ x ,其中的a ^ ,b ^表示是求得的a ,b 的估计值.(3)相关性检验①计算相关系数r ,r 有以下性质:|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与Y直线之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.二、题型解答题型一相关关系的判断思维点播判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.例15个学生的数学和物理成绩如下表:学生A B C D E学科数学8075706560物理7066686462画出散点图,并判断它们是否具有相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.巩固(1)对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图②,由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C(2)(2012·课标全国)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 利用相关系数的意义直接作出判断.样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y i ^,代入相关系数公式r =1-∑i =1n(y i -y i ^)2∑i =1n(y i -y )2=1.题型二 线性回归分析思维点播 (1)回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过回归直线方程估计和预测变量的值.例2 某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的回归直线方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?(注:b^=∑i=1nx i y i-n x y∑i=1nx2i-n x2,a^=y-b^x)思维启迪求回归直线方程的系数b^时,为防止出错,应分别求出公式中的几个量,再代入公式.解(1)散点图如图.(2)由表中数据得:∑i=14x i y i=52.5,x=3.5,y=3.5,∑i=14x2i=54,∴b^=0.7,∴a^=1.05,∴y^=0.7x+1.05,回归直线如图所示.(3)将x=10代入回归直线方程,得y^=0.7×10+1.05=8.05,故预测加工10个零件约需要8.05小时.巩固1为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:时间x 1234 5命中率y 0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.答案0.50.53解析小李这5天的平均投篮命中率y=0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x=3.根据表中数据可求得b^=0.01,a^=0.47,故回归直线方程为y^=0.47+0.01x,将x=6代入得6号打6小时篮球的投篮命中率约为0.53.巩 固2 (2013·大连模拟)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归直线方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元答案 B解析 ∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^ =b ^ x +a ^ 必过(x ,y ),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴回归直线方程为y ^ =9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).家庭作业1. 某地区调查了2~9岁的儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为y ^=8.25x +60.13,下列叙述正确的是( )A .该地区一个10岁儿童的身高为142.63 cmB .该地区2~9岁的儿童每年身高约增加8.25 cmC .该地区9岁儿童的平均身高是134.38 cmD .利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 B2. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图), 以下结论中正确的是 ( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 答案 A解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B 、C 错误.D 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以D 错误.根据线性回归直线一定经过样本点中心可知A 正确.3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于回归直线方程中x 的系数为0.85, 因此y 与x 具有正的线性相关关系,故A 正确.又回归直线方程必过样本点中心(x ,y ),因此B 正确.由回归直线方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确. 当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.4. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由已知可计算求出x =30,而回归直线必过点(x ,y ), 则y =0.67×30+54.9=75,设模糊数字为a ,则 a +62+75+81+895=75,计算得a =68.5.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( ) A.63.6万元 B.65.5万元 C.67.7万元D.72.0万元解析:由题意可知x =3.5,y =42,则42=9.4×3.5+a ^,a ^=9.1,y ^=9.4×6+9.1=65.5,答案应选B. 答案:A6.下列各图中所示两个变量具有相关关系的是( )A .①②B .①③C .②④D .②③答案:D7.已知x ,y 的取值如下表所示:x 0 1 3 4 y2.24.34.86.7从散点图分析,y 与x 线性相关,且y ^=0.95x +a ^,则a ^=__________.答案:2.6。

变量间的相关关系与统计案例

变量间的相关关系与统计案例

变量间的相关关系与统计案例在统计学中,变量之间的相关关系是一个非常重要的概念。

通过分析变量之间的相关关系,我们可以更好地理解数据之间的联系,为进一步的分析和预测提供基础。

本文将通过一些统计案例,介绍变量间相关关系的概念,并通过实际数据进行分析,帮助读者更好地理解相关关系的含义及其在实际应用中的重要性。

首先,我们需要了解什么是变量间的相关关系。

在统计学中,变量之间的相关关系是指它们之间存在的某种关联或者依存关系。

这种关系可以是正向的,也可以是负向的。

正向的相关关系意味着两个变量的数值同时增加或减少,负向的相关关系则表示一个变量的数值增加时,另一个变量的数值减少。

通过相关系数的计算,我们可以量化这种相关关系的强度和方向。

接下来,我们通过一个实际的统计案例来说明变量间相关关系的应用。

假设我们有一组数据,包括了某个城市每月的平均气温和冰淇淋销量。

我们想要分析气温和冰淇淋销量之间是否存在相关关系。

首先,我们可以通过散点图来观察两个变量之间的关系。

如果散点图呈现出一种明显的趋势,那么说明两个变量之间可能存在相关关系。

接着,我们可以通过计算相关系数来量化这种关系的强度。

最常用的相关系数是皮尔逊相关系数,它的取值范围在-1到1之间,绝对值越接近1,表示两个变量之间的相关关系越强。

在这个案例中,我们发现气温和冰淇淋销量之间存在着正向的相关关系。

也就是说,随着气温的升高,冰淇淋销量也会增加。

这个发现对于冰淇淋生产商来说是非常有用的信息,他们可以根据气温的变化来调整生产和销售策略,以更好地满足消费者的需求。

除了正向的相关关系,我们还可以遇到负向的相关关系。

比如,一个城市的降雨量和游乐园的游客数量之间可能存在负向的相关关系。

这意味着降雨量增加时,游客数量会减少。

这对于游乐园的经营者来说也是非常重要的信息,他们可以根据天气预报来调整营销策略,以减少降雨天对游客数量的影响。

通过以上案例,我们可以看到,变量间的相关关系在实际应用中具有非常重要的意义。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

跟踪检测(五十七)变量间的相关关
系、统计案例
[基础训练]
1.下列两变量中不存在相关关系的是()
①人的身高与视力;
②曲线上的点与该点的坐标之间的关系;
③某农田的水稻产量与施肥量;
④某同学考试成绩与复习时间的投入量;
⑤匀速行驶的汽车的行驶距离与时间;
⑥商品的销售额与广告费.
A.①②⑤B.①③⑥
C.④⑤⑥D.②⑥
2.下表为“民安生鲜超市”的员工工作年限x(单位:年)与平均月薪y(单位:千元)的对照表.
利用最小二乘法求得y关于x的线性回归方程为y=0.7x+0.35,则(4,3),(5,λ),(6,4.5),这三个样本点中落在回归直线上方的个数为()
A.1 B.2
C.3 D.0
3.已知变量x,y之间具有线性相关关系,其回归方程为y^=-3+b^x,若
10
1i
i
x =

=17,
10
1i
i
y =
∑=4,则b^的值为()
A.2 B.1
C.-2 D.-1
4.[2019广东广雅中学期末]为研究变量x和y的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线l1和l2,两人计算知x相同,y
也相同,下列正确的是()
A.l1与l2重合
B.l1与l2一定平行
C.l1与l2相交于点(x,y)
D.无法判断l1和l2是否相交
5.[2019山西太原一模]已知某产品的广告费用x(单位:万元)与销售额y(单位:万元)具有线性相关关系,其统计数据如下表:
x 345 6
y 25 30 40 45
由上表可得线性回归方程y=b x+a,据此模型预测广告费用为8万元时的销售额是()
A.59.5万元B.52.5万元
C.56万元D.63.5万元
6.[2019吉林长春质检]下面四个残差图中反映出回归模型的拟合精度较高的为()
A.图①B.图②
C.图③D.图④
7.[2019山西实验中学一模]某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:
由最小二乘法得到回归方程y=0.67x+54.9,则a=________.
8.[2019湖南师大附中月考]在西非肆虐的“埃博拉病毒”的传播速度很快,已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:
参考公式:K2=
(a+b)(c+d)(a+c)(b+d)
认为“该种疫苗有预防埃博拉病毒感染的效果”.
9.下面是2×2列联表:
则表中a=
10.[2019重庆模拟]第96届(春季)全国糖酒商品交易会于2017年3月23日至25日在四川举办,展馆附近一家四川特色小吃店为了研究参会人数与本店所需原材料数量的关系,在交易会前查阅了最近5次交易会的参会人数x(万人)与店铺所用原材料数量y(袋),得到如下数据:
(1)请根据所给五组数据,求出y关于x的线性回归方程y=b x+a;
(2)若该店现有原材料12袋,据悉本次交易会大约有13万人参加,为了保证原材料能够满足需要,则该店应至少再补充原材料多少袋?
[强化训练]
1.[2019河南郑州预测]某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
由表中数据,求得线性回归方程为y=-4x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为()
A.1
6B.
1
3
C.1
2D.
2
3
2.假设有两个分类变量X和Y的2×2列联表:
()
A.a=45,c=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30
3.[2019河南洛阳模拟]通过随机询问110名性别不同的行人,对过马路是
愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:
算得K2的观测值k=由K2=
(a+b)(c+d)(a+c)(b+d)
110×(40×30-20×20)2
≈7.8.
60×50×60×50
附表:
A.在犯错误的概率不超过0.01的前提下,认为“选择过马路的方式与性别有关”
B.在犯错误的概率不超过0.01的前提下,认为“选择过马路的方式与性别无关”
C.在犯错误的概率不超过0.001的前提下,认为“选择过马路的方式与性别有关”
D.在犯错误的概率不超过0.001的前提下,认为“选择过马路的方式与性别无关”
4.某高校“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:
K2的观测值
k =50×(13×20-10×7)223×27×20×30≈4.844>3.841,所以判断统计专业与性别有关系,那么
这种判断出错的可能性最大为________.
5.[2019豫南九校2月联考]已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =________.
6.已知x ,y
对于表中数据,现给出如下拟合直线:①y ^=x +1;②y ^=2x -1;③y ^=85x -25;④y ^=32x .
则根据最小二乘法的思想求得拟合程度最好的直线是________.(填序号) 7.[2019河南洛阳3月模拟]某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画
出如下茎叶图,其中一个数字被污损.
(1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数的概率;
(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下对照表:
根据表中数据,试求线性回归方程y =b x +a ,并预测年龄为50岁的观众周
均学习成语知识的时间.。

相关文档
最新文档