变量间的相关关系与统计案例(教师版)
高考数学(理)一轮复习课件:统计与概率-3变量间的相关关系与统计案例(人教A版)
第3课时 变量间的相关关系与统计案例
考纲下载 1.会作两个有关联变量的数据的散点图,会利用散点 图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方 程系数公式建立线性回归方程.
3.了解独立性检验(只要求 2×2 列联表)的基本思想、 方法及其简单应用.
4.了解回归分析的基本思想、方法及其简单应用.
y2 总计
x1
a
x2
2
总计 b
21 73 25 27 46
则表中a、b处的值分别为( )
A.94、96
B.52、50
C.52、54
D.54、52
答案:C 解析:a=73-21=52,b=a+2=54,故选C.
5. [原创]某医疗研究所为了了解某种血清预防感冒的 作用,把 500 名使用过血清的人与另外 500 名未使用血清 的人一年中的感冒记录作比较,提出假设 H0:“这种血清 不能起到预防感冒的作用”,利用 2×2 列联表计算得 K2 ≈3.918,经查临界值表知 P(K2≥3.841)≈0.05.则下列结论 中,正确结论的序号是________.
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
随机变量 K2=(a+b)(cn+(da)d-(bac+)c2)(b+d), 其中 n=a+b+c+d 为样本容量.
(3)独立性检验 利用随机变量 K2 来确定在多大程度上可以认为“两
个分分类类变变量量有有关关系系”的方法称为两个分类变量的独立性
nn
(xi - x )(y i- y )
ii==11
为:^b=
, ^a=y-y---^b^bx-x- .
高三数学人教版A版数学(理)高考一轮复习教案变量间的相关关系、统计案例1
第四节 变量间的相关关系、统计案例变量间的相关关系、统计案例 1.变量间的相关关系(1)会作两个有关联变量的数据的散点图,会利用数点图认识变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 2.统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. (1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. (2)回归分析了解回归分析的基本思想、方法及其简单应用. 知识点一 回归分析 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑ni =1x 2i -n x 2,a ^=y -b ^x . (3)通过求Q =∑ni =1(y i -bx i -a )2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.易误提醒1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上 .3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).[自测练习]1.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.3 4.86.7A.3.25 B .2.6 C .2.2D .0解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:B2.(2016·镇江模拟)如图所示,有A ,B ,C ,D ,E 5组(x ,y )数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D . 答案:D知识点二 独立性检验 独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).易误提醒(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表.在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果做出错误的解释.[自测练习]3.下面是2×2列联表:y1y2总计x1 a 2173x2222547总计 b 46120则表中a,b的值分别为()A.94,72B.52,50C.52,74 D.74,52解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.答案:C考点一相关关系的判断|1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.答案:A2.(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:因为y=-0.1x+1,x的系数为负,故x与y负相关;而y与z正相关,故x与z 负相关.答案:C相关关系的判断的两种方法(1)散点图法.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.考点二回归分析|(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑8i =1(x i -x)2∑8i =1(w i -w)2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )(y i -y ) 46.6 563 6.8 289.8 1.6 1 469108.8表中w i =x i ,w =18∑i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^ u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1(w i -w )(y i -y )∑8i =1 (w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.回归直线方程的求法(1)利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心求系数.1.(2016·银川一中模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.x 3 4 5 6 y2.5344.5(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^. (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤,试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)解:(1)由对照数据,计算得∑4i =1x 1y 1=66.5,∑4i =1x 21=32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35,所求的回归方程为y ^=0.7x +0.35.(2)x =100,y ^=100×0.7+0.35=70.35,预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).考点三 独立性检验|(2016·邯郸模拟)为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表.平均每天喝500 mL 以上为常喝,体重超过50 kg 为肥胖.常喝 不常喝 合计 肥胖 2 不肥胖 18 合计30已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由.(3)设常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生中抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:K 2≥k 0 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)设常喝碳酸饮料肥胖的学生有x 人,x +230=415,解得x =6.常喝 不常喝 合计 肥胖 6 2 8 不肥胖 4 18 22 合计102030(2)由已知数据可求得K 2=30×(6×18-2×4)210×20×8×22≈8.523>7.879.因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.(3)设常喝碳酸饮料的肥胖男生为A ,B ,C ,D ,女生为E ,F ,任取两人的取法有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女的取法有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽出一男一女的概率是P =815.解独立性检验的应用问题的关注点(1)两个明确: ①明确两类主体; ②明确研究的两个问题. (2)两个关键:①准确画出2×2列联表; ②准确理解K 2.提醒:准确计算K 2的值是正确判断的前提.2.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计6050110K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:K 2=110×(40×30-20×20)260×50×60×50≈7.8.P (K 2≥6.635)=0.01=1-99%,∴有99%以上的把握认为“选择过马路的方式与性别有关”,故选A.答案:A12.独立性检验与概率交汇综合问题的答题模板【典例】(12分)(2016·保定调研)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)判断是否有(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d)[规范解答](1)由公式K2=55×(20×20-10×5)230×25×25×30≈11.978>7.879,(3分) 所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(6分)(2)设所抽样本中有m个男生,则630=m20,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,(9分)其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,G1),(B3,G2),(B4,G1),(B4,G2),共8个.(11分)所以恰有1个男生和1个女生的概率为815.(12分)[模板形成]分析2×2列联表数据↓利用K 2公式计算K 2值↓对分类变量的相关性作出判断↓求相应事件的概率↓反思解题过程,注意规范化[跟踪练习] 某班主任对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据见下表所示:(1)加社团活动且学习积极性一般的学生的概率是多少?(2)运用独立性检验的思想方法分析:学生的学习积极性与参加社团活动情况是否有关系?并说明理由.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d );其中n =a +b +c +d .解:(1)随机从该班抽查一名学生,抽到参加社团活动的学生的概率是2250=1125;抽到不参加社团活动且学习积极性一般的学生的概率是2050=25.(2)因为K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(17×20-5×8)225×25×22×28≈11.688>10.828,所以大约有99.9%的把握认为学生的学习积极性与参加社团活动情况有关系.A 组 考点能力演练1.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0 B.a >0,b <0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析:把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图(图略),由图可知b ^<0,a ^>0.故选B.答案:B2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y^=-0.3x +4.4解析:依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A ,B 得A 正确.答案:A3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k 0=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选A.答案:A4.根据如下样本数据:得到的回归方程为y =b x +a .若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位解析:依题意得,a +b -25=0.9,故a ^+b ^=6.5①;又样本点的中心为(5,0.9),故0.9=5b ^+a ^②,联立①②,解得b ^=-1.4,a ^=7.9,则y ^=-1.4x +7.9,可知当x 每增加1个单位时,y 就减少1.4个单位,故选B.答案:B5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y ∑6i =1x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.答案:C6.(2016·忻州联考)已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为________. 解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.答案:-0.617.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:(请用百分数表示).解析:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(20×15-5×10)225×25×30×20≈8.333>7.879.答案:0.5%8.已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =________.解析:回归直线y ^=4x +242必过样本点的中心点(x ,y ),而x =2+3+4+5+65=4,y =251+254+257+a +2665=1 028+a 5,∴1 028+a 5=4×4+242,解得a =262.答案:2629.(2015·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(2)能否有99% 解:(1)2×2列联表如下:主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(2)因为K 2=30×(8-128)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2015·高考重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t12345(1)求y 关于t 的回归方程y =b t +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y ^=b ^t +a ^中, b ^=∑ni =1t i y i -n t y ∑ni =1t 2i -n t2,a ^=y -b ^t .解:(1)列表计算如下这里n =5,t =1n ∑n i =1t i =155=3,y =1n ∑n i =1y i =365=7.2. 又l tt =∑ni =1t 2i -n t2=55-5×32=10,l ty =∑ni =1t i y i-n t y =120-5×3×7.2=12,从而b ^=l ty l tt =1210=1.2,a ^=y -b ^t =7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y ^=1.2×6+3.6=10.8(千亿元).B 组 高考题型专练1.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C.12.0万元D.12.2万元^=0.76,∴a^=8-0.76×10=0.4,∴回归方程为y^=0.76x 解析:∵x=10.0,y=8.0,b+0.4,把x=15代入上式得,y^=0.76×15+0.4=11.8(万元),故选B.答案:B2.(2015·高考北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析:(1)由题图分析乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中语文成绩名次比总成绩靠前的是乙;(2)丙同学的数学成绩名次位于中间稍微靠后,而总成绩名次相对靠后,所以丙同学的语文成绩名次比较靠后,所以丙同学的成绩名次靠前的科目是数学.答案:乙数学。
变量间的相关关系、统计案例教案(绝对经典)
§11.3 变量间的相关关系与独立性检验⎪⎪⎩⎪⎪⎨⎧⎩⎨⎧、不相关、非线性相关、线性相关、不确定的相关关系、确定的函数关系两个变量的关系32121 1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.(2)从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (4)相关系数①r =∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x)2∑ni =1(y i -y )2或()()12211ni i i n ni i i i x ynx yr x x y y ===-=--∑∑∑;②当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当r 的绝对值>0.75时,认为两个变量有很强的线性相关关系。
2.线性回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线ˆˆˆybx a =+的接近程度,使得上式达到最小值的直线ˆˆˆy bx a =+就是所要求的直线,这种方法称为最小二乘法(使得样本数据的点到回归直线的距离平方和最小的方法). (2)回归方程方程ˆˆˆybx a =+是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中,是待定参数.121()()ˆ()niii nii x x y y bx x ==--=-∑∑[]112222212()()()()...()()()()...()nnnx x y y x x y y x x yy x x x x x x --+--++--=⎡⎤-+-++-⎣⎦或者1221ˆni ii nii x ynx ybxnx ==-=-∑∑[]1122222212...,...n n nx y x y x y nx y x x x nx++-⋅=⎡⎤+++-⎣⎦ˆˆay bx =- 线性回归方程过样本点的中心(,)3、回归分析(1)y =bx +a +e 中,a 、b 称为模型的未知参数;e 称为随机误差.(2)随机误差e 的估计值e ˆ(a x b y y y e ii i i i ˆˆˆˆ--=-=)叫做相对于点(x i ,y i )的残差。
【精品课件】新教材一轮复习北师大版第10章第3讲变量间的相关关系、统计案例课件
求得回归方程^y=0.67x+54.9.
零件数 x(个) 10 20 30 40 50
加工时间 y(min) 62
75 81 89
现发现表中有一个数据看不清,请你推断出该数据的值为__6_8__.
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
[解析] 由-x =30,得-y =0.67×30+54.9=75. 设表中的“模糊数字”为 a, 则 62+a+75+81+89=75×5,∴a=68.
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
返回导航
5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了 50 名 男顾客和 50 名女顾客,每位顾客对该商场的服务给出满意或不满意的评 价,得到下面列联表:
满意 不满意 男顾客 40 10 女顾客 30 20
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
考点一
相关关系的判断——自主练透
(1)(2021·四 川 资 阳 模
拟)在一次对人体脂肪含量和年龄关
系的研究中,研究人员获得了一组样
本数据,并制作成如图所示的人体脂
肪含量与年龄关系的散点图.根据该
图,下列结论中正确的是 ( )
返回导航
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
积相近的 200 个地块,从这些地块中用简单随机抽样的方法抽取 20 个作
为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中 xi 和 yi 分别表 示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计
20
20
20
算得xi=60,yi=1 200,
变量间的相关关系与统计案例教师版
变量间的相关关系与统计案例【知识要点】 1.相关关系的判断(1)如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x 和y 具有线性相关关系.(2)样本数据),(i i y x (i =1,2,…,n )的相关系数21211)()())((y yx x y yx x r ini ini iini ----=∑∑∑=== 当0>r 时,两变量正相关,当0<r 时,两变量负相关,当1||≤r 且||r 越接近于1,相关程度越高,当1||≤r 且||r 越接近于0,相关程度越低. 2.回归方程的求法求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.若变量x 与y 具有线性相关关系,有n 个样本数据),(i i y x (i =1,2,…,n ),则回归方程a x b y+=中斜率和截距的最小二乘估计公式分别为:其中i n i x n x ∑==1_1,i ni y n y ∑==1_1,),(__y x 称为样本点的中心.【重点】 回归直线a x b y+=必过样本点的中心),(__y x ,这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据. 3.独立性检验设X ,Y 为两个变量,它们的取值分别为{}x 1,x 2和{}y 1,y 2,其样本频数列联表(2×2列联表)如下:利用随机变量22()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验.【例题解析】题型一 变量间的相关关系【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( ) A .r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3解析:选A 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.【变式1】四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( )A .①②B .②③C .③④D .①④解析:选D 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④,故选D.相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性. 【例2】(2014·湖北高考)根据如下样本数据得到的回归方程为y ^=bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <0 解析:选B 由表中数据画出散点图,如图, 由散点图可知b <0,a >0,选B.【例3】对于下列表格所示五个散点,已知求得的线性回归方程为y ^=0.8x -155,则实数m 的值为( )A.8 B .解析:选A x =196+197+200+203+2045=200,y =1+3+6+7+m 5=17+m5.样本中心点为⎝⎛⎭⎫200,17+m 5,将样本中心点⎝⎛⎭⎫200,17+m 5代入y ^=0.8x -155,可得m =8.故A 正确. 题型二 回归方程的求法【例4】某城市理论预测2011年到2015年人口总数与年份的关系如下表所示(1)请根据上表提供的数据,求最小二乘法求出关于的线性回归方程; (2)据此估计2016年该城市人口总数.参考公式:1221,ni ii nii x y nxyb a y bxxnx =-=-==--∑∑解:(1)210,x y ==,…… 2分∑=51i ii yx = 0×5+1×7+2×8+3×11+4×19=132,∑=51i 2ix=222220123430++++=1221ˆˆˆ 3.6ni ii ni i x y nx ybay bx x nx==-∴==-=-∑∑=3.2, 故y 关于x 的线性回归方程为y ˆ=3.2x+3.6 (2)当x=5时,yˆ=3.2*5+3.6即y ˆ=19.6 据此估计2016年该城市人口总数约为196万. 【例5】某保险公司有一款保险产品的历史户获益率(获益率=获益÷保费收入)的频率分布直方图如图所示: (Ⅰ)试估计平均获益率;(Ⅱ)根据经验若每份保单的保费在20元的基础上每增加x 元,对应的销量y (万份)与x (元)有较强线性相关关系,从历史销售记录中抽样得到如下5组x 与y 的对应数据:(ⅰ)根据数据计算出销量y (万份)与x (元)的回归方程为∧∧=+y b x a ; (ⅱ)若把回归方程∧∧=+y b x a 当作y 与x 的线性关系,用(Ⅰ)中求出的平均获益率估计此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益.参考公示:1122211()(),()∧∧∧====-∑--===-∑--∑∑nni ii i i i nni ii i x y nx yx x y y b a y b x x x xnx解析:(Ⅰ)区间中值依次为:0.05,0.15,0.25,0.35,0.45,0.55,取值概率依次为:0.1,0.2,0.25,0.3,0.1,0.05,平均获益率为0.050.100.150.200⨯+⨯+(Ⅱ)(i ) 则6.00.10(40)-=--y x 即0.1010.0=-+y x(ii )设每份保单的保费为20+x 元,则销量为0.1010.0=-+y x ,则保费获益为()(20)(0.1010.0)=+-+f x x x 万元, 22()0.182000.1(40)360=-++=--+f x x x x当40=x 元时,保费收入最大为360万元,保险公司预计获益为3600.275=99⨯万元. 题型三 独立性检验【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:解析:在假设无关的情况下,根据题意K 2=n ?ad -bc ?2?a +b ??c +d ??a +c ??b +d ?≈0.16,可以得到无关的概率大于50%,所以种子经过处理跟是否生病有关的概率小于50%,所以可以认为种子经过处理与是否生病无关.答案:无【例7】某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K 2=n ?ad -bc ??a +b ??c +d ??a +c ??b +d ?,其中n =a +b +c +d )解:(1)由公式K 2=55×?20×20-10×5?230×25×25×30≈11.978>7.879,所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(2)设所抽样本中有m 个男生,则630=m20,得m =4,所以样本中有4个男生,2个女生,分别记作B 1,B 2,B 3,B 4,G 1,G 2.从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,G 1),(B 1,G 2),(B 2,B 3),(B 2,B 4),(B 2,G 1),(B 2,G 2),(B 3,B 4),(B 3,G 1),(B 3,G 2),(B 4,G 1),(B 4,G 2),(G 1,G 2),共15个,其中恰有1个男生和1个女生的事件有(B 1,G 1),(B 1,G 2),(B 2,G 1),(B 2,G 2),(B 3,G 1),(B 3,G 2),(B 4,G 1),(B 4,G 2),共8个.所以恰有1个男生和1个女生的概率为815. 【变式1】经过对计量2K 的研究,得到了若干个临界值如下:当2K 的观测值 3.841K时,我们( A )A. 在犯错误的概率不超过0.05的前提可认为A 与B 有关B. 在犯错误的概率不超过0.05的前提可认为A 与B 无关C. 在犯错误的概率不超过0.01的前提可认为A 与B 有关D. 没有充分理由说明事件A 与B 有关系【变式2】某校高三子啊一次模拟考试后,为了解数学成绩是否与班级有关,对甲乙两个班数学成绩(满分150分)进行分析,按照不小于120分为优秀,120分以下为非优秀的标准统计成绩,已知从全班100人中随机抽取1人数学成绩优秀的概率为310,调查结果如下表所示. (1)请完成上面的列联表;(2)根据列联表的数据,问是否有95%的把握认为“数学成绩与班级有关系”;(3)若按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人的编号,求抽到的编号为6或10的概率.【变式3】为了解人们对新颁布的“生育二孩放开”政策的热度,现在某市进行调查.对[5,65]岁的人群随机抽取了人,得到如下统计表和各年龄段抽取人数的频率分布直方图:(Ⅰ)求,p 的值,并由频率分布直方图估计被调查人群的平均年龄;(Ⅱ)根据以上统计数据填下面2×2列联表,并根据列联表的独立性检验,判断能否有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系?参考数据:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++解:(Ⅰ)从[5,15)岁这一年龄组中抽取的人数为450.8=,且频率为0.010100.1⨯=, ∴5500.1n ==; 2分 又第二组的频率为0.2,则第二组人数为10人,∴50.510p == 4分 平均数0.1100.2200.3300.2400.1500.16033x =⨯+⨯+⨯+⨯+⨯+⨯=(岁) 6分 (Ⅱ) 22⨯列联表如下:225171772256.27 6.635232181152K ⨯⨯==≈<⨯⨯,∴没有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系。
课件3:11.3 变量间的相关关系、统计案例
【规律方法】解独立性检验的应用问题的关注点 (1)两个明确: ①明确两类主体. ②明确研究的两个问题. (2)两个关键: ①准确画出2×2列联表; ②准确理解K2. 提醒:准确计算K2的值是正确判断的前提.
考点3 线性回归分析及应用 知·考情
高考中对线性回归分析的考查主要在两个方面:一是求回归直线 方程,尤其是回归直线必过样本点中心是常考知识点;二是利用回归直 线方程进行预测.
本节内容结束
更多精彩内容请登录:
0.100 2.706
0.050 3.841
0.010 6.635
【规范解答】(1)因为P(K2≥3.841)=0.05,4.844>3.841, 所以判断出错的可能性不超过5%. 答案:不超过5% (2)①将2×2列联表中的数据代入计算公式, 得K2= 100(6010-2010)2 100 4.762,
a y bt 4.3 1 4 2.3, 2
所以y关于t的回归方程为y 1 t 2.3. 2
(2)因为 b
=
1 2
>0,所以2007年至2013年该地区人均纯收入稳步增
长,预计到2015年,该地区人均纯收入y= 1 ×9+2.3=6.8(千元),
2
所以预计到2015年,该地区人均纯收入约6 800元左右.
两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),
其回归方程为 y bx a
n
n
xi x yi y
xiyi nx y
则b i1 n
2
xi x
i1 n
x
2 i
2
nx
,a y bx,
i1
i1
其中, b 是回归方程的_斜__率__, a 是在y轴上的截距.
高中数学人教新课标A版:变量间的相关关系与统计案例 课件
关”.故选 C.
答案:C
3.(好题分享——新人教 A 版选择性必修第三册 P113T2 改编) 假如女儿身高 y(单位:cm)关于父亲身高 x(单位:cm)的经验回归方程为^y= 0.81x+25.82,已知父亲的身高 175 cm,则估计女儿的身高为________cm. 解析:由题意,当 x=175 时,^y=0.81×175+25.82=167.57 cm. 答案:167.57
选 C. 答案:C
2.(数形结合)已知 x,y 之间的数据见下表,线性回归方程为^y=^bx+^a,则( ) x3 4 5 6 7 8 y 4.0 2.5 -0.5 0.5 -2.0 -3.0
A.^a>0,^b<0 C.^a<0,^b<0
B.^a>0,^b>0 D.^a<0,^b>0
解析:画出散点图如图所示,y 的值大致随 x 的增加而减小,因而两个变量呈 负相关,可知^b<0,^a>0.故选 A.
三、“基本思想”很重要
1.(函数与方程)已知 y 与 x 的回归方程为^y=2-1.5x,则变量 x 增加 1 个单位
时,y 平均
()
A.增加 1.5 个单位
B.增加 2 个单位
C.减少 1.5 个单位
D.减去 2 个单位
解析:若 x 变为 x+1,则^y=2-1.5x-1.5,所以 y 平均减少 1.5 个单位.故
第二节 变量间的相关关系与统计案例 课标要求 1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相 关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线 性回归方程线性回归方程系数公式不要求记忆. 3.了解回归分析的思想、方法及其简单应用. 4.理解2×2列联表的统计意义,了解2×2列联表、独立性检验及其应用.
第3课时 变量间的相关关系、统计案例 ppt
• A.(2,1.8) • C.(3,2.5)
B.(4,3.2) D.(5,3.8)
解析: x =3, y =2.5,样本点中心为(3,2.5),回归直线过样本点 中心. 答案:C
• 4.独立性检验
• (1)分类变量:变量的不同“值”表不示同类个别体
所属的
,像这类变量称为分类变量.
• (2)列联表:列出两个分频类数变表 量的
,
称为列联表.假设有两个分类变量X和Y,它
们的可能取值分别为{x1,x2}和{y1,y2},其样 本频数列联表(称为2×2列联表)为
•
• 2×2列联表
y1 y2 总计 x1 a b a+b x2 c d c+d 构造一个随总机计变量aK+2=ca+bb+cnd+add-a+a+b+dcbc2 +b+c d,其中
• 答案:(1)D (2)D
• 题型二 线性回归分析
•
(2023·浙江宁波一模)以下是某地
搜集到的新房屋的销售价格y和房屋的面积x
的数据:
房屋面积 (m2)
115 110 80
135
10 5
销售价格 (万元)
24. 8
21. 6
18. 4
29. 2
22
• (1)画出数据对应的散点图;
• (2)求线性回归方程,并在散点图中加上回 归直线;
n= a+b+c+d
为样本容量.
• (3)独立性检验
• 利用随机K变2 量 来判断“两有个关分系类变量 ”的方法称为独立性检验.
• 对点演练
• (1)为了评价某个电视栏目的改革效果,在 改革前后分别从居民点抽取了100位居民进 行调查,经过计算K2≈0.99,根据这一数据 分析,下列说法正确的是
变量间相关关系统计案例
1122211()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑学 校: 年 级: 教学课题:统计案例 学员姓名: 辅导科目:数学 学科教师:王光明教学目标 变量间的相关关系与统计案例教学内容考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。
基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,1222211()()ni ii nni i i i x y nx yr x nx y n y ===-•=--∑∑∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K=2()()()()()n ad bca b a c b d c d-++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A.【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).[来源:学科网]解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计60 50110由K 2=n ad -dc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”答案:A解析:∵K2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数1263861829261 4 乙厂:分组[29.86,29.90)[来源:学。
变量间的相关关系与统计案例教师版
变量间的相关关系与统计案例教师版教师版:变量间的相关关系与统计案例引言:在统计学中,了解变量间的相关关系是非常重要的。
相关关系描述了两个或更多变量之间的连接,帮助我们理解它们如何相互影响和变化。
本文将介绍变量间相关关系的基本概念,并提供一些统计案例来帮助教师教授有关此主题的课程。
第一部分:相关性的定义和计算相关性是指两个或多个变量之间的关系程度。
直观上,当一个变量的值增加时,另一个变量的值是否也随之增加或减少。
相关性可以是正面的(变量之间的关系是正向的),也可以是负面的(变量之间的关系是反向的)。
相关性的计算可以通过两种方法来完成:Pearson相关系数和Spearman等级相关系数。
Pearson相关系数用于度量两个连续变量之间的线性关系,它的值介于-1和1之间。
当其值接近1时,表示两个变量之间的关系很强;当其值接近-1时,表示两个变量之间的关系是反向的;当其值接近0时,表示两个变量之间的关系较弱。
Spearman等级相关系数用于度量两个等级变量之间的关系,它的计算方式类似于Pearson相关系数,但在计算前将变量转换为等级。
第二部分:相关关系的案例研究案例1:学生的学习时间和学生成绩在这个案例中,我们研究了学生的学习时间和他们的学生成绩之间的相关关系。
我们收集了一组学生的学习时间(以小时为单位)和他们的学生成绩(以百分制为单位)数据。
通过计算Pearson相关系数,我们发现学习时间和学生成绩之间存在较强的正面相关关系(r = 0.8)。
这意味着学习时间越多,学生成绩越高。
案例2:家庭收入和孩子的学习成绩在这个案例中,我们研究了家庭收入与孩子学习成绩之间的相关关系。
我们收集了一组家庭收入水平(以年收入为单位)和孩子的学习成绩(以百分制为单位)数据。
通过计算Pearson相关系数,我们发现家庭收入和孩子学习成绩之间存在较弱的正面相关关系(r = 0.4)。
这意味着家庭收入较高的孩子往往有更好的学习成绩,但这种关系不是很强。
考点24 变量间的相关关系、统计案例教师版
1i b ny - x考点 24 变量间的相关关系、统计案例[玩前必备]1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直 线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程^ ^ ^方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中^ ^a ,b 是待定参数.n∑i =1 (x i - x )(y i - y )∑x i y i -n xy i =1b =n =,n ∑ i =1(x i - x )2∑x 2-n x 2i =1^= . 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中( x , y )称为样本点的中心. (3)相关系数当 r >0 时,表明两个变量正相关; 当 r <0 时,表明两个变量负相关.r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于 0.75 时,认为两个变量有很强的线性相关性. 4.独立性检验y y y y (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量 X 和 Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为 2×2 列联表)为2×2 列联表y 1y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量 K 2= n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中 n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量 K 2 来判断“两个分类变量有关系”的方法称为独立性检验. 当χ2≤2.706 时,没有充分的证据判定变量 A ,B 有关联; 当χ2>2.706 时,有 90%的把握判定变量 A ,B 有关联; 当χ>3.841 时,有 95%的把握判定变量 A ,B 有关联; 当χ>6.635 时,有 99%的把握判定变量 A ,B 有关联.[玩转典例]题型一 相关关系判断例 1 变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量 U 与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1 表示变量 Y 与 X 之间的线性相关系数,r 2 表示变量 V 与 U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1答案 C解析 对于变量 Y 与 X 而言,Y 随 X 的增大而增大,故 Y 与 X 正相关,即 r 1>0;对于变量 V 与 U 而言,V 随 U 的增大而减小,故 V 与 U 负相关,即 r 2<0,所以有 r 2<0<r 1.故选 C .例 2 四名同学根据各自的样本数据研究变量 x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y 与x 负相关且^=2.347x -6.423; ②y 与x 负相关且^=-3.476x+5.648;③y 与 x 正相关且^=5.437x +8.493; ④y 与 x 正相关且^=-4.326x -4.578.1其中一定不正确的结论的序号是( )A.①②B.②③C.③④D.①④答案 D解析由回归直线方程^=^+^,知当^时,x 与y 正相关,当^时,x 与y 负相关,所以①④一定错误.[玩转跟踪]y bx a b>0 b<01.(2020•全国 1 卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20 个不同的温度条件下进行种子发芽实验,由实验数据(xi, yi)(i = 1, 2, , 20) 得到下面的散点图:由此散点图,在10°C 至40°C 之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y =a +bxB.y =a +b x2C.y =a +b e xD.y =a +b ln x【答案】D【解析】根据散点图的分布可选择合适的函数模型.【详解】由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y 和温度x 的回归方程类型的是y =a +b ln x .故选:D.【点睛】本题考查函数模型的选择,主要观察散点图的分布,属于基础题.2.(2015 湖北)已知变量x 和y 满足关系y=-0.1x+1,变量y 与z 正相关.下列结论中正确的是( ) A.x 与y 正相关,x 与z 负相关B.x 与y 正相关,x 与z 正相关C.x 与y 负相关,x 与z 负相关D.x 与y 负相关,x 与z 正相关答案 Cny n解析 因为 y =-0.1x +1,-0.1<0,所以 x 与 y 负相关.又 y 与 z 正相关,故可设 z =ay +b (a >0),所以 z =-0.1ax +a +b ,-0.1a <0,所以 x 与 z 负相关.故选 C .题型二 线性回归分析 例 3 已知 x ,y 取值如下表:从所得的散点图分析可知:y 与 x 线性相关,且=0.95x +a ,则 a =( )A .1.30B .1.45C .1.65D .1.80答案 B解析 ∵ x =0+1+4+5+6+8=4,61.3+1.8+5.6+6.1+7.4+9.3 = 6=5.25,^又y =0.95x +a 过( x , y ),∴5.25=0.95×4+a ,得 a =1.45.例 4 (2014•新课标Ⅱ)某地区 2007 年至 2013 年农村居民家庭人均纯收入 y (单位:千元)的数据如表:(Ⅰ)求 y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析 2007 年至 2013 年该地区农村居民家庭人均纯收入的变化情况,并预测该地区 2015 年农村居民家庭人均纯收入.∑(t i - t )( y i - y )附:回归直线的斜率和截距的最小二乘估计公式分别为: b ˆ = i =1, a ˆ = y - b ˆt .解:(Ⅰ)由题意, t = 1⨯ (1 + 2 + 3 + 4 + 5 + 6 + 7) = 4 ,7y = 1⨯ (2.9 + 3.3 + 3.6 + 4.4 + 4.8 + 5.2 + 5.9) = 4.3,7∑(t i i =1- t )2∴ b ˆ =(-3) ⨯ (-1.4) + (-2) ⨯ (-1) + (-1) ⨯ (-0.7) + 0 ⨯ 0.1 + 1⨯ 0.5 + 2 ⨯ 0.9 + 3 ⨯1.6 = 14 = 0.5 ,9 + 4 + 1 + 0 + 1 + 4 + 9 28y8a ˆ = y -b ˆt = 4.3 - 0.5⨯ 4 = 2.3 .∴ y 关于t 的线性回归方程为 y ˆ = 0.5t + 2.3 ;(Ⅱ)由(Ⅰ)知, b = 0.5 > 0 ,故 2007 年至 2013 年该地区农村居民家庭人均纯收入逐年增加,平均每年 增加 0.5 千元.将 2015 年的年份代号t = 9 代入 y ˆ = 0.5t + 2.3 ,得: y ˆ = 0.5 ⨯ 9 + 2.3 = 6.8 ,故预测该地区 2015 年农村居民家庭人均纯收入为 6.8 千元.例 5 (2015•新课标Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x (单位:千元) 对年销售量 y (单位:t ) 和年利润 z (单位:千元)的影响,对近 8 年的年宣传费 x i 和年销售量 y i (i = 1,2, , 8) 数据作了初步处理,得到下面的散点图及一些统计量的值.xyw8∑(x - x )2ii =18∑(w - w )2ii =18∑(xi- x )( y i - y ) i =18∑(w i- w )( yi- y )i =146.6 563 6.8 289.8 1.6 1469108.81 8表中 w i = x i , w = ∑ w ii =1(Ⅰ)根据散点图判断, y = a + bx 与 y = c + d 哪一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立 y 关于 x 的回归方程;(Ⅲ)已知这种产品的年利润 z 与 x 、 y 的关系为 z = 0.2 y - x .根据(Ⅱ)的结果回答下列问题: (i) 年宣传费 x = 49 时,年销售量及年利润的预报值是多少? (ii) 年宣传费 x 为何值时,年利润的预报值最大?附:对于一组数据 (u 1v 1 ) , (u 2 v 2 )⋯..(u n v n ) ,其回归线 v = α+ βu 的斜率和截距的最小二乘估计分别为:xx x 49 x n∑ ∑ ∑ ∑ - y ) = 9000 , ∑(x∑(u i- u )(v i- v )βˆ = i =1,αˆ = v - βˆu .∑(u i- u )2i =1解:(Ⅰ)由散点图可以判断, y = c + d适宜作为年销售量 y 关于年宣传费 x 的回归方程类型;(Ⅱ)令 w = ,先建立 y 关于 w 的线性回归方程,由于 d ˆ = 108.8 = 68 ,1.6c ˆ = y -d ˆw = 563 - 68⨯ 6.8 = 100.6 ,所以 y 关于 w 的线性回归方程为 y ˆ = 100.6 + 68w ,因此 y 关于 x 的回归方程为 y ˆ = 100.6 + 68 ,(Ⅲ) (i ) 由(Ⅱ)知,当 x = 49 时,年销售量 y 的预报值 y ˆ = 100.6 + 68 = 576.6 ,年利润 z 的预报值 z ˆ = 576.6 ⨯ 0.2 - 49 = 66.32 ,(ii ) 根据(Ⅱ)的结果可知,年利润 z 的预报值 z ˆ = 0.2(100.6 + 68 x ) - x = -x + 13.6 + 20.12 ,当 = 13.6 = 6.8 时,即当 x = 46.24 时,年利润的预报值最大.2[玩转跟踪]1.已知 x 与 y 之间的一组数据:x 0 1 2 3 ym35.57 ^已求得关于 y 与 x 的线性回归方程y =2.1x +0.85,则 m 的值为( )A .0.85B .0.75C .0.6D .0.5答案 D解析 x =0+1+2+3=3,y =m +3+5.5+7=15.5+m ,把( x ,y )15.5+m 3 代入线性回归方程,=2.1× 4 2 4 4 4 2 +0.85,m =0.5.2.(2020•全国 2 卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区 某种野生动物的数量,将其分成面积相近的 200 个地块,从这些地块中用简单随机抽样的方法抽取 20 个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中 x i 和 y i 分别表示第 i 个样区的植物覆盖面积(单 20位:公顷)和这种野生动物的数量,并计算得xii =120 = 60 , y i i =120= 1200 , (x i i =1- x )2 = 80 ,20(yii =1202i i =1- x () y i - y ) = 800. n x x20 20ii=1∑( y i -y )i=180 ⨯90002 220∑20(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i,y i)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=∑(x i-x()i=1yi-y )≈1.414.【答案】(1)12000;(2)0.94 ;(3)详见解析1 20y =1⨯1200 = 60【详解】(1)样区野生动物平均数为∑i ,i=1地块数为 200,该地区这种野生动物的估计值为200 ⨯ 60 = 12000(2)样本( x i , y i ) (i=1,2,…,20)的相关系数为20(xi-x )( yi-y )800r =i=1 ==≈ 0.943(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间植物覆盖面积差异很大,从俄各地块间这种野生动物的数量差异很大,采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.题型三独立性检验分析例6 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:n∑in(x -x ) (y -y)2∑ n2ii=1i=1(1)记 A 表示事件“旧养殖法的箱产量低于 50 kg ”,估计 A 的概率;(2)填写下面列联表,并根据列联表判断是否有 99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较. 附:K 2= n (ad -bc )2 .(a +b )(c +d )(a +c )(b +d )解 (1)旧养殖法的箱产量低于 50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件 A 的概率估计值为 0.62.(2)根据箱产量的频率分布直方图得列联表如下:200×(62×66-34×38)2 K 2= 100×100×96×104≈15.705.由于 15.705>6.635,故有 99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在 50 kg 到 55 kg 之间,旧养殖法的箱产量平均值(或中位数)在 45 kg 到 50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[玩转跟踪]1.(2020•全国 3 卷)某学生兴趣小组随机调查了某市 100 天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为 1,2,3,4 的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为 1 或 2,则称这天“空气质量好”;若某天的空气质量等级为 3 或 4,则称这天“空气质量不好”.根据所给数据,完成下面的 2×2 列联表,并根据列联表,判断是否有 95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附: K2n (ad -bc )2, (a + b )(c + d )(a + c )(b + d )【答案】(1)该市一天的空气质量等级分别为1、2 、3 、4 的概率分别为0.43、0.27 、0.21、0.09 ;(2)350;(3)有,理由见解析.=( ) 2【详解】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为2 +16 + 25 = 0.43,等级为 2 的100概率为5 +10 +12 = 0.27 ,等级为3 的概率为6 +7 +8 = 0.21,等级为 4 的概率为 7 + 2 + 0= 0.09 ;100 100 100(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100⨯ 20 + 300⨯ 35 + 500⨯ 45= 350100(3) 2 ⨯ 2 列联表如下:100⨯ 33⨯8 - 37 ⨯ 22 2K 2 =≈ 5.820 > 3.841,55⨯ 45⨯ 70⨯ 30因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.2.(2020•新全国 1 山东)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的 PM 2.5和SO 浓度(单位: μg/m 3 ),得下表:(1)估计事件“该市一天空气中 PM 2.5浓度不超过75,且SO 2 浓度不超过150”的概率;(2)根据所给数据,完成下面的 2 ⨯ 2 列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM 2.5浓度与SO2 浓度有关?附:K2n(ad -bc)2,(a +b)(c +d)(a +c)(b +d)P(K 2 ≥k ) 0.050 0.010 0.001k 3 841 6.635 10.828【答案】(1)0.64 ;(2)答案见解析;(3)有.【详解】(1)由表格可知,该市 100 天中,空气中的PM 2.5浓度不超过 75,且SO2 浓度不超过 150 的天数有32 + 6 +18 + 8 = 64 天,所以该市一天中,空气中的PM 2.5浓度不超过 75,且SO 浓度不超过 150 的概率为64= 0.64 ;2(2)由所给数据,可得2 ⨯ 2 列联表为:100(3)根据2 ⨯ 2 列联表中的数据可得K 2 = n(ad -bc)2=100⨯ (64⨯10 -16⨯10)2=3600≈ 7.4844 > 6.635 ,(a +b)(c +d )(a +c)(b +d ) 80⨯ 20⨯ 74⨯ 26 481 =因为根据临界值表可知,有99%的把握认为该市一天空气中 PM 2.5浓度与SO 2 浓度有关.[玩转练习]1.(2017•山东)为了研究某班学生的脚长 x (单位:厘米)和身高 y (单位:厘米)的关系,从该班随机抽取 10 名学生,根据测量数据的散点图可以看出 y 与 x 之间有线性相关关系,设其回归直线方程为 1010y ˆ = b ˆx + a ˆ ,已知 ∑ x i = 225 , ∑ y i = 1600 ,b ˆ = 4 ,该班某学生的脚长为 24,据此估计其身高为( )i =1i =1A .160B .163C .166D .170【答案】C【解析】由线性回归方程为 y ˆ = 4x + a ˆ ,则 x =1 ∑10 x= 22.5 ,y =1 ∑10y= 160 ,则数据的样本中心点(22.5,160) ,i i =1 i i =1由回归直线方程样本中心点,则 a ˆ = y ˆ - 4x = 160 - 4 ⨯ 22.5 = 70 ,∴回归直线方程为 y ˆ = 4x + 70 ,当 x = 24 时, y ˆ = 4 ⨯ 24 + 70 = 166 ,则估计其身高为 166,2.(2015•福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表:根据上表可得回归直线方程 y ˆ = b ˆx + a ˆ ,其中 b ˆ = 0.76, a ˆ = y - b ˆx ,据此估计,该社区一户收入为 15 万元家庭年支出为( )A .11.4 万元B .11.8 万元C .12.0 万元D .12.2 万元【答案】B【解析】由题意可得 x = 1(8.2 + 8.6 + 10.0 + 11.3 + 11.9) = 10 ,5y = 1(6.2 + 7.5 + 8.0 + 8.5 + 9.8) = 8 ,代入回归方程可得 a ˆ = 8 - 0.76 ⨯10 = 0.4 ,5∴回归方程为 y ˆ = 0.76x + 0.4 ,把 x = 15 代入方程可得 y = 0.76 ⨯15 + 0.4 = 11.83.(2014•湖北)根据如下样本数据:得到了回归方程 y ˆ = b ˆx + a ˆ,则()10 10A.aˆ> 0 ,bˆ< 0 B.aˆ> 0 ,bˆ> 0 C.aˆ< 0 ,bˆ< 0 D.aˆ< 0 ,bˆ> 0 【答案】A6 6224.5【解析】样本平均数x=5.5,y=0.25,∴∑(x i -x)(y i -y)=-24.5,∑(x i -x)= 17.5 ,∴b =-=-1.4 ,17.5∴a= 0.25 - (-1.4) 5.5 = 7.95i =1 i =14.(2018•新课标Ⅱ)如图是某地区2000 年至2016 年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018 年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000 年至2016 年的数据(时间变量t 的值依次为1,2,,17) 建立模型①:yˆ=-30.4 + 13.5t ;根据2010 年至2016 年的数据(时间变量t 的值依次为1,2,,7) 建立模型②:yˆ= 99 + 17.5t .(1)分别利用这两个模型,求该地区2018 年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解:(1)根据模型①:yˆ=-30.4 +13.5t ,计算t = 19 时,yˆ =-30.4 + 13.5 ⨯19 = 226.1 ;利用这个模型,求出该地区2018 年的环境基础设施投资额的预测值是226.1 亿元;根据模型②:yˆ = 99 + 17.5t ,计算t = 9 时,yˆ = 99 + 17.5 ⨯ 9 = 256.5 ;.利用这个模型,求该地区2018 年的环境基础设施投资额的预测值是256.5 亿元;(2)模型②得到的预测值更可靠;因为从总体数据看,该地区从2000 年到2016 年的环境基础设施投资额是逐年上升的,而从2000 年到2009 年间递增的幅度较小些,从2010 年到2016 年间递增的幅度较大些,所以,利用模型②的预测值更可靠些.5.(2016•新课标Ⅲ)如图是我国2008 年至2014 年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1 - 7 分别对应年份2008 - 2014 .∑ i =1n(t - t ) ( y - y )2 ∑ n2i ii =177i i =1∑( y i- y )i =12 7 0.55n( Ⅰ ) 由 折 线 图 看 出 , 可 用 线 性 回 归 模 型 拟 合 y 与 t 的 关 系 , 请 用 相 关 系 数 加 以证明;(Ⅱ)建立 y 关于t 的回归方程(系数精确到0.01) ,预测 2016 年我国生活垃圾无害化处理量. 附注:参考数据: ∑ y i i =1= 9.32 , ∑t i y i i =1= 40.17 ,= 0.55 , ≈ 2.646 .参考公式:相关系数 r =∑(ti- t )( y i - y )i =1 ,回归方程 y ˆ = a ˆ + b ˆt 中斜率和截距的最小二乘估计公式分别为:∑(t i - t )( y i - y )b ˆ = i =1, a ˆ = y - b ˆt . ∑(t i i =1- t )2解:(1)由折线图看出, y 与t 之间存在较强的正相关关系,理由如下:7 7r =∑(ti- t )( y i - y )i =1=∑t i yi- 7tyi =1 40.17 - 4 ⨯ 9.32 ≈ 2.89 ≈ 2.91060.993 ,0.993 > 0.75 ,故 y 与t 之间存在较强的正相关关系;∑(ti- t )( y i - y )∑t i y i - 7ty 2.89(2) b ˆ =i =1 = i =1 ≈ ≈ 0.103 ,n 72 2 2 ∑(t i- t ) i =1 ∑t i i =1- 7t a ˆ = y - b ˆt ≈ 1.331- 0.103⨯ 4 ≈ 0.92 ,∴ y 关于t 的回归方程 y ˆ = 0.10t + 0.92 ,7 n n 7 7 n∑ i =17( y - y )2i7 77i i =1∑( y i- y )i =1282016 年对应的t 值为 9,故 y ˆ = 0.10 ⨯ 9 + 0.92 = 1.82 ,预测 2016 年我国生活垃圾无害化处理量为 1.82 亿吨.6.(2019•新课标Ⅰ)某商场为提高服务质量,随机调查了 50 名男顾客和 50 名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95% 的把握认为男、女顾客对该商场服务的评价有差异?附: K 2 n (ad - bc )2. P (K 2 k )0.050 0.010 0.001 k3.8416.63510.828解:(1)由题中数据可知,男顾客对该商场服务满意的概率 P = = ,50 5女顾客对该商场服务满意的概率 P = 30 = 3 ;50 5 2100(40 ⨯ 20 - 30 ⨯10)2100(2)由题意可知, K == ≈ 4.762 > 3.841, 70 ⨯ 30 ⨯ 50 ⨯ 50 21故有95% 的把握认为男、女顾客对该商场服务的评价有差异. 7.(2018•新课标Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位: min ) 绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求 40 名工人完成生产任务所需时间的中位数 m ,并将完成生产任务所需时间超过 m 和不超过 m 的工=人数填入下面的列联表:(3)根据(2)中的列联表,能否有99% 的把握认为两种生产方式的效率有差异?附:K 2n(ad -bc)2,(a +b)(c +d )(a +c)(b +d )解:(1)根据茎叶图中的数据知,第一种生产方式的工作时间主要集中在72 ~ 92 之间,第二种生产方式的工作时间主要集中在65 ~ 85 之间,所以第二种生产方式的工作时间较少些,效率更高;(2)这40 名工人完成生产任务所需时间按从小到大的顺序排列后,排在中间的两个数据是79 和81,计算它们的中位数为m =79 + 81= 80 ;2由此填写列联表如下;(3)根据(2)中的列联表,计算2n(ad -bc)2 40 ⨯ (15 ⨯15 - 5 ⨯ 5)2K === 10 > 6.635 ,(a +b)(c +d )(a +c)(b +d ) 20 ⨯ 20 ⨯ 20 ⨯ 20∴能有99% 的把握认为两种生产方式的效率有差异.8.(2020·四川省高三期末)随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100 人进行分析,从而得到表(单位:人)=(1)完成上表,并根据以上数据判断能否在犯错误的概率不超过0.01 的前提下认为我市市民网购与性别有关?(2)①现从所抽取的女市民中利用分层抽样的方法抽取10 人,再从这10 人中随机选取3 人赠送优惠券,求选取的3 人中至少有2 人经常网购的概率;②将频率视为概率,从我市所有参与调查的市民中随机抽取10 人赠送礼品,记其中经常网购的人数为X ,求随机变量X 的数学期望和方差.n(ad-bc)2参考公式:K 2 =(a +b )(c +d )(a +c )(b +d )解:(1)完成列联表(单位:人):由列联表,得:200⨯(50⨯30-50⨯70)2 25K 2 ==≈ 8.333> 6.635 ,120 ⨯80 ⨯100 ⨯100 3∴能在犯错误的概率不超过0.01 的前提下认为我市市民网购与性别有关.(2)①由题意所抽取的10 名女市民中,经常网购的有10 ⨯70100= 7 人,偶尔或不用网购的有10 ⨯30 100= 3 人,∴选取的3 人中至少有2 人经常网购的概率为:c2c1 +c3 49P =7 3 7 =.310② 由2 ⨯ 2 列联表可知,抽到经常网购的市民的频率为:120= 0.6 ,200将频率视为概率,∴从我市市民中任意抽取一人,恰好抽到经常网购市民的概率为0.6,由题意X B(10,0.6),∴随机变量X的数学期望E(X)=10⨯0.6=6,方差D(X)= D (X )= 10 ⨯ 0.6 ⨯ 0.4 = 2.4 .9.(2020·神州市质量检测)峰谷电价是目前在城市居民当中开展的一种电价类别.它是将一天24 小时划分成两个时间段,把8:00~20:00 共14 个小时称为峰段,执行峰电价,电价上调;22:00~次日8:00 共10 个小时称为谷段,执行谷电价,电价下调.为了进一步了解民众对峰谷电价的使用情况,从某市一小区随机抽取了50 户住户进行夏季用电情况调查,各户月平均用电量以[100,300),[300,500),[500,700),[700,900),[900,1 100),[1 100,1 300](单位:度)分组的频率分布直方图如图.若将该小区月平均用电量不低于700 度的住户称为“大用户”,月平均用电量低于700 度的住户称为“一般用户”.其中使用峰谷电价的户数如下表:月平均用电量/度[100,300)[300,500)[500,700)[700,900)[900,1100)[1 100,1 300]使用峰谷电价的户数3913 721(1)利用频率分布直方图,估计所抽取的50 户的月平均用电量的众数和平均数(同一组中的数据用该组区间的中点值作代表);(2)(ⅰ)将“一般用户”和“大用户”的户数填入下面的2×2 列联表:一般用户大用户总计使用峰谷电价的用户不使用峰谷电价的用户总计c60=(ⅱ)根据(ⅰ)中的列联表,能否有 99%的把握认为“用电量的高低”与“使用峰谷电价”有关? 附:K 2= n (ad -bc )2 ,(a +b )(c +d )(a +c )(b +d )解:(1)根据频率分布直方图得到月平均用电量在 100 度到 300 度的频率为:1-0.001×200-0.001 5×200 -0.001 2×200-0.000 6×200-0.000 2×200=0.1, 估计所抽取的 50 户的月平均用电量的众数为500+700600(度). 2估计所抽取的 50 户的月平均用电量的平均数为: x =(200×0.000 5+400×0.001+600×0.001 5+ 800×0.001 2+1 000×0.000 6+1 200×0.000 2)×200=640(度). (2)(ⅰ)依题意,2×2 列联表如下(ⅱ)K 2=50×(25×10-10×5)2=400≈6.35<6.635,35×15×30×2063 所以没有 99%的把握认为“用电量的高低”与“使用峰谷电价”有关.。
变量间的相关关系与统计案例教案(绝对经典)
第3节变量间的相关关系与统计案例【最新考纲】 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.【高考会这样考】考查回归分析、独立性检验的基本思想和简单应用.要点梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^__,则b^=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2=∑ni=1x i y i-nx-y-∑ni=1x2i-nx-2,a^=y--b^x-.其中,b^是回归方程的斜率,a^是在y轴上的截距.回归直线一定过样本点的中心(x-,y-).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n),其中(x-,y-)称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R2=1-∑ni=1(y i-y^i)2∑ni=1(y i-y-)2.其中∑ni=1(y i-y^i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.4.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为则随机变量K2=n(ad-bc)(a+b)(a+c)(b+d)(c+d),其中n=a+b+c+d为样本容量. [友情提示]1.求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点(x-,y-).2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.基础自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:x 681012y 235 6则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x-=9,y-=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%题型分类深度解析考点一相关关系的判断考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:m 106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关. (2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【变式练习1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:月份1月份2月份3月份4月份5月份6月份收入x 12.314.515.017.019.820.6支出y 5.63 5.75 5.82 5.89 6.11 6.18根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.解析 (1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x 与y 正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误. 答案 (1)C (2)①②考点二 线性回归方程及应用【例2】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x -y -w -∑8i =1(x i -x -)2∑8i =1(w i -w -)2∑8i =1(x i -x -)·(y i -y -) ∑8i =1(w i -w -)·(y i -y -) 46.6 5636.8289.81.61 469108.8表中w i =x i ,w -=18∑i =1w i . (1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:β^=∑ni=1(u i-u-)(v i-v-)∑n i=1(u i-u-)2,α^=v--β^u-.解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于d^=∑8i=1(w i-w-)·(y i-y-)∑8i=1(w i-w-)2=108.81.6=68,c^=y--d^w-=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y^=b^x+a^必过样本点中心(x-,y-).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y与x不具有线性相关,先作变换,转化为y与w具有线性相关,求出y关于w的线性回归方程,然后进一步求解.【变式练习2】某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -nx -·y-∑ni =1x 2i -nx-2,a ^=y --b ^x -)解 (1)t -=3,z -=2.2,∑5i =1t i z i =45,∑5i =1t 2i =55, b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8. (3)因为y ^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元. 考点三 独立性检验【例3】 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解 (1)旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,因此,事件A 的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表:箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2的观测值为k =200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高.因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【变式练习3】某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712.(2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.课后练习A组(时间:40分钟)一、选择题1.为了判定两个分类变量X和Y是否有关系,应用独立性检验法算得K2的观测值为5,又已知P(K2≥3.841)=0.05,P(K2≥6.635)=0.01,则下列说法正确的是()A.有95%的把握认为“X和Y有关系”B.有95%的把握认为“X和Y没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y”有关系.答案 A2.下列说法错误的是()A.回归直线过样本点的中心(x-,y-)B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误.答案 C3.已知两个随机变量x,y之间的相关关系如表所示:根据上述数据得到的回归方程为y^=b^x+a^,则大致可以判断()A.a^>0,b^>0B.a^>0,b^<0C.a ^<0,b ^>0D.a ^<0,b ^<0 解析 作出散点图,画出回归直线直观判定b ^>0,a ^<0.答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n ((a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A .160B .163C .166D .170解析 由已知得x -=22.5,y -=160,∵回归直线方程过样本点中心(x -,y -),且b ^=4,∴160=4×22.5+a ^,解得a ^=70.∴回归直线方程为y ^=4x +70,当x =24时,y ^=166.答案 C 二、填空题6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 解析 由x -=30,得y -=0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68. 答案 687.心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计302050根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________. 附表:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828解析 由列联表计算K 2的观测值k =50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025. 答案 0.0258.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x-=18+13+10+(-1)4=10,y-=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60,所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K2=(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.解(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.故所求的概率为P =610=0.6.(2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据:x -=8,y -=42,∑7i =1x i y i =2 794,∑7i =1x 2i =708. 参考公式:b ^=∑ni =1x i y i -nx - y-∑ni =1x 2i -nx-2,a ^=y --b ^x -.解 (1) b ^=∑7i =1x i y i -7x - y-∑7i =1x 2i -7x-2=2 794-7×8×42708-7×82=1.7. ∴a ^=y --vx -=42-1.7×8=28.4,故y 关于x 的线性回归方程是y ^=1.7x +28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x =3时,y ^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.47万元.B 组(时间:20分钟)11.济南市地铁R 1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是( )附:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关” B .有95%的把握认为“对能否缓解交通拥堵的认识与性别无关” C .有99%的把握认为“对能否缓解交通拥堵的认识与性别有关” D .有99%的把握认为“对能否缓解交通拥堵的认识与性别无关” 解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x -=9+9.5+m +10.5+115=8+m5,y -=11+n +8+6+55=6+n5.回归直线一定经过样本中心(x -,y -),即6+n5=-3.2⎝⎛⎭⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎨⎧3.2m +n =42,m +n =20,解得⎩⎨⎧m =10,n =10,故n =10.答案 1013.已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.月份1 2 3 4 利润y (单位:百万元)4466相关公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑ni =1x 2i -nx-2,a ^=y --b ^x -.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x -=2.5,y -=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b ^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3.因此线性回归方程为y^=0.8x+3.当x=8时,y^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。
变量间的相关关系、统计案例
2.独立性检验思想的理解 独立性检验的思想类似于反证法,即要确定“两个变量 X 与 Y 有关 系”这一结论成立的可信度,首先假设结论不成立,即它们之间没有关 系,也就是它们是相互独立的,利用概率的乘法公式可推知, (ad-bc) nad-bc2 接近于零,也就是随机变量 K = 应该很小,如 a+bc+da+cb+d
A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心( x , y ) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg
【名师点评】 求样本数据的线性回归方程的步骤 第一步,计算平均数 x , y ;
2 第二步,求和i∑ x y , ∑ x ; i i =1 i=1 i n n
∑ xi- x yi- y ∑ x y -n x y =1 =1 i i i i ^= 第三步,计算b = n 2 , n 2 2 ∑ xi- x ∑ x -n x i=1 i=1 i ^= y -b ^x; a ^x+a ^. 第四步,写出回归方程^ y=b
2
由于 9.967>6.635, 所以在犯错误的概率不超过 0.01 的前提下认为该 地区的老年人是否需要帮助与性别有关.
• (3)由(2)的结论知,该地区老年人是否需 要帮助与性别有关,并且从样本数据能看 出该地区男性老年人与女性老年人中需要 帮助的比例有明显差异,因此在调查时, 先确定该地区老年人中男、女的比例,再 把老年人分成男、女两层并采用分层抽样 方法,比采用简单随机抽样方法更好.
• 考向二 回归方程的求法及回归分析 • [例2] (2013年淄博模拟)某种产品的宣传 费支出x与销售额y(单位:万元)之间有如 下对应数据:
2018届一轮复习人教A版10.3变量间的相关关系统计案例 学案
§10.3 变量间的相关关系、统计案例考纲展示►1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用.考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是________;与函数关系不同,________是一种非确定性关系.答案:相关关系 相关关系2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________,点散布在左上角到右下角的区域内,两个变量的相关关系为________.答案:正相关 负相关对回归系数的理解:解释变量;预报变量.某工厂工人月工资y (元)依劳动产值x (万元)变化的回归直线方程为y ^=900x +600,下列判断正确的是__________.①劳动产值为10 000元时,工资为500元; ②劳动产值提高10 000元时,工资提高1 500元; ③劳动产值提高10 000元时,工资提高900元; ④劳动产值为10 000元时,工资为900元. 答案:③解析:回归系数b ^的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位.[典题1] (1)下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )A BC D[答案] D[解析] 观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.(2)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ [答案] D[解析] 由回归方程y ^=b ^x +a ^知,当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.[点石成金] 相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.考点2 线性回归分析1.回归分析对具有________的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求________;(ⅲ)用回归直线方程作预报.答案:相关关系 回归直线方程 2.回归直线如果散点图中点的分布从整体上看大致在________附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.答案:一条直线3.回归直线方程的求法——最小二乘法设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=b ^x +a ^的系数为:⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x2= ,a ^=y -b ^x ,其中x =1n ∑i =1n x i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的________.答案:∑i =1nx i y i -n x y∑i =1nx 2i -n x 2中心4.相关系数当r >0时,表明两个变量________; 当r <0时,表明两个变量________.r 的绝对值越接近于1,表明两个变量的线性相关性________.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.答案:正相关 负相关 越强[教材习题改编]已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为__________.答案:y ^=1.23x +0.08解析:设回归直线方程为y ^=1.23x +a ^, 因为回归直线必过样本点的中心(x ,y ), 将点(4,5)代入回归直线方程得a ^=0.08, 所以所求方程为y ^=1.23x +0.08.变量的相关关系:散点图;回归直线过(x ,y ).某工厂经过技术改造后,生产某种产品的产量x (吨)与相应的生产能耗y (吨标准煤)有如下几组样本数据.0.7,那么当产量x =10吨时,估计相应的生产能耗为__________吨标准煤.答案:7.35解析:先求得x =4.5,y =3.5,由y ^=0.7x +a ^过点(x ,y ),得a ^=0.35, 所以回归直线方程是y ^=0.7x +0.35.当x =10吨时,y ^=7+0.35=7.35(吨标准煤).[典题2] (1)已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )A.3.25 C .2.2D .0[答案] B[解析] 由已知得x =2,y =4.5, 因为回归方程经过点(x ,y ), 所以a ^=4.5-0.95×2=2.6.(2)由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.①求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; ②(ⅰ)判断变量x 与y 之间是正相关还是负相关; (ⅱ)当使用年限为8年时,试估计支出的维修费是多少.附:在线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.[解] ①∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2. ②(ⅰ)由①知,b ^=1.2>0, ∴变量x 与y 之间是正相关.(ⅱ)由①知,当x =8时,y ^=9.8,即使用年限为8年时,支出维修费约是9.8万元. [点石成金] 1.正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.2.回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2,b ^=-4 × -21 + -2 × -11 +2×19+4×29-5×0×3.2-4 + -2 +2+4-5×0=26040=6.5,a ^=y -b ^x =3.2. 由上述计算结果知,所求回归直线方程为 y ^-257=b ^(x -2 010)+a ^=6.5(x -2 010)+3.2, 即y ^=6.5×(x -2 010)+260.2.(2)利用(1)中所求回归直线方程,可预测2016年的粮食需求量为6.5×(2 016-2 010)+260.2=6.5×6+260.2=299.2(万吨).考点3 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表:K2=(其中n=________为样本容量),则利用独立性 a+b a+c b+d c+d检验判断表来判断“X与Y的关系”.答案:a+b+c+d(1)[教材习题改编]为调查中学生的近视情况,测得某校150名男生中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,最有说服力的方法是________.(填序号)①回归分析;②期望与方差;③独立性检验;④概率.答案:③解析:“近视”与“性别”是两个分类变量,其是否有关,应该用独立性检验来判断.(2)[教材习题改编]在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得出“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,有下列四种说法:①100个吸烟者中至少有99人患有肺癌;②1个人吸烟,那么这人有99%的概率患有肺癌;③在100个吸烟者中一定有患肺癌的人;④在100个吸烟者中可能一个患肺癌的人也没有.其中正确说法的序号是________.答案:④对独立性检验的理解:K2的计算;对P(K2≥k0)的解释.[2017·湖南张家界模拟]某高校教“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:k =50× 13×20-10×7223×27×20×30≈4.844.因为k >3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.附表:解析:∵k >3.841,查临界值表,得P (K 2≥3.841)=0.05,故这种判断出错的可能性为5%.[典题3] (1)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:已知P P (K 2≥5.024)≈0.025.根据表中数据,得到K 2=50× 13×20-10×7 223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.[答案] 5%[解析] 由K 2≈4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%. (2)[2017·江西九江模拟]某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生的成绩分为6组,得到如下所示的频数分布表.数学成绩与性别是否有关;②规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.K2=.a+b c+d a+c b+d[解]①x男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.②由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:≈1.79,可得K2=60×40×30×70因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.[点石成金] 1.独立性检验的关键是正确列出2×2列联表,并计算出K2的值.2.弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.[2017·广西玉林、贵港联考]某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填写下面的2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2= a +b c +d a +c b +d.解:x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:K 2=10×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.[方法技巧] 1.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b ^,常数项为a ^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.[易错防范] 1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K 2的观测值k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.真题演练集训1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元 答案:B解析:由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴ a ^=8-0.76×10=0.4,∴ 当x =15时,y ^=0.76×15+0.4=11.8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,i =17y i -y 2=0.55,7≈2.646. 参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1ny i -y2,回归方程y ^=b ^t +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i =1nt i -ty i -y∑i =1nt i -t 2,a ^=y -b ^t .解:(1)由折线图中数据和附注中参考数据,得t =4,∑i =17 (t i -t )2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t)(y i -y )=∑i =17t i y i -t∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1),得b ^=∑i =17t i -ty i -y∑i =17t i -t 2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程,得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.3.[2015·新课标全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18x i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+β u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u 2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w 2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.4.[2014·新课标全国卷Ⅱ]某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t 2,a ^=y -b ^t .解:(1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t 2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3.所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.课外拓展阅读 统计案例问题的规范答题[典例] [2013·福建卷]某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:K 2= a +b c +d a +c b +d.[审题视角] 由频率分布直方图列举基本事件,结合古典概型,求概率.利用独立性检验公式计算K 2.[解] (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以K 2= a +b c +d a +c b +d=100× 15×25-15×45 260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. [答题模板] 第1步:由分层抽样计算两组工人的数目; 第2步:由频率分布直方图计算两组不足60件的人数; 第3步:列举5人抽取2人的基本事件数; 第4步,由古典概型计算概率;第5步:统计生产能手与非生产能手,列2×2列联表; 第6步:由公式计算K 2,确定答案. 归纳总结(1)分层抽样比为100500=15,故25周岁以上有300×15=60(人),25周岁以下的200×15=40(人),然后再根据频率计算“不足60件”的人数,并设定符号.(2)列2×2列联表时,其中的数字应先由频率分布直方图算出后再列表.。
变量间的相关关系与统计案例教案.docx
变量间的相关关系与统计案例适用学科数学适用年级高二适用区域全国课时时长(分钟)60知识点1相关关系的分类2线性相关3.回归方程4、线性回归模型教学目标1、理解相关关系、正相关、负相关、散点图;2、理清相关关系和散点图之间的关系.教学重点理解相关关系、正相关、负相关、散点图;教学难点熟练应用相关关系、正相关、负相关、散点图解题教学过程_•课程导入:引入新课:在学校里老师对学生经常这样说:〃如果你的数学成绩好,那么你的物理学习就不会有什么大问题.〃按照这种说法, 似乎学生的物理成绩与数学成绩之间存在着一种相关关系.这种说法有没有根据呢?二.复习预习复习已学统计的知识:1、简单随机抽样2、系统抽样3、分层抽样4、用样本估计总体预习并思考什么是相关关系、正相关、负相关?三、知识讲解考点1.相关关系的判断利用散点图判断两个变量是否有相关关系是比较简便的方法・在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系・即变量之间具有函数关系•如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.考点厶独立性检验独立性检验的步骤: ⑴根据样本数据制成2x2列联表;2 n(ad-bc) (a + b)(a + c)(b + d)(c + d) ⑶比较冷与临界值的大小关系作统计推断・⑵根据公式/计算考点久线性回归方程在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.3.例题精析!1!【例题1]【题干】下面哪些变量是相关关系(A.出租车车费与行驶的里程C .身高与体重B.房屋面积与房屋价格D.铁块的大小与质量【答案】C【解析】A , B , D都是函数关系,其中A —般是分段函数,只有C是相关关系.【例题2】【题干】对变量X, F有观测数据(X/,拥(/di,2 ,…,10),得散点图⑴;对变量一1/有观测数据(3、16)(/= 1,210),得散点图(2)・由这两个散点图可以判断()•错误!未找到引用源。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量间的相关关系与统计案例【知识要点】1、相关关系的判断(1)如果散点图中点的分布从整体上瞧大致在一条直线的附近,我们说变量x 与y 具有线性相关关系.(2)样本数据),(i i y x (i =1,2,…,n )的相关系数21211)()())((y yx x y yx x r ini ini iini ----=∑∑∑=== 当0>r 时,两变量正相关,当0<r 时,两变量负相关,当1||≤r 且||r 越接近于1,相关程度越高,当1||≤r 且||r 越接近于0,相关程度越低. 2、回归方程的求法求回归方程的方法就是最小二乘法,即使得样本数据的点到回归直线的距离的平方与最小. 若变量x 与y 具有线性相关关系,有n 个样本数据),(i i y x (i =1,2,…,n ),则回归方程a xb y ))+=中斜率与截距的最小二乘估计公式分别为:1122211()(),()∧∧∧====-∑--===-∑--∑∑nni ii i i i nni ii i x y nx yx x y y b a y b x x x xnx其中i n i x n x ∑==1_1,i ni y n y ∑==1_1,),(__y x 称为样本点的中心.【重点】 回归直线a x b y ))+=必过样本点的中心),(__y x ,这个结论既就是检验所求回归直线方程就是否准确的依据,也就是求参数的一个依据. 3.独立性检验设X ,Y 为两个变量,它们的取值分别为⎩⎨⎧⎭⎬⎫x 1x 2与⎩⎨⎧⎭⎬⎫y 1y 2,其样本频数列联表(2×2列联表)如下:利用随机变量2()()()()()n ad bc K a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 【例题解析】题型一 变量间的相关关系【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的就是( )A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3解析:选A 易知题中图(1)与图(3)就是正相关,图(2)与图(4)就是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1、【变式1】四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2、347x -6、423; ②y 与x 负相关且y ^=-3、476x +5、648; ③y 与x 正相关且y ^=5、437x +8、493; ④y 与x 正相关且y ^=-4、326x -4、578、 其中一定不正确的结论的序号就是( )A.①②B.②③C.③④D.①④解析:选D 正相关指的就是y 随x 的增大而增大,负相关指的就是y 随x 的增大而减小,故不正确的为①④,故选D 、相关关系的直观判断方法就就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也就是有相关性,若呈图形区域且分布较乱则不具备相关性.【例2】(2014·湖北高考)根据如下样本数据x 345678 y4、0 2、5 -0、5 0、5 -2、0-3、0得到的回归方程为y ^=bx +a ,则( )A.a >0,b >0B.a >0,b <0C.a <0,b >0D.a <0,b <0 解析:选B 由表中数据画出散点图,如图,由散点图可知b <0,a >0,选B 、【例3】对于下列表格所示五个散点,已知求得的线性回归方程为y ^=0、8x -155,则实数m 的值为( )x 196 197 200 203 204 y1367mA 、8 D.8、5 解析:选A x =196+197+200+203+2045=200,y =1+3+6+7+m 5=17+m5、样本中心点为⎝ ⎛⎭⎪⎪⎫20017+m 5,将样本中心点⎝ ⎛⎭⎪⎪⎫20017+m 5代入y ^=0、8x -155,可得m =8、故A 正确.题型二 回归方程的求法【例4】某城市理论预测2011年到2015年人口总数与年份的关系如下表所示(1)请根据上表提供的数据,求最小二乘法求出关于的线性回归方程;(2)据此估计2016年该城市人口总数、参考公式:$1221,ni ii nii x y nxybay bx xnx =-=-==--∑∑$$解:(1)210,x y ==Q ,…… 2分∑=51i ii yx = 0×5+1×7+2×8+3×11+4×19=132,∑=51i 2ix=222220123430++++=1221ˆˆˆ 3.6ni ii ni i x y nx yba y bx x nx==-∴==-=-∑∑=3.2, 故y 关于x 的线性回归方程为y ˆ=3、2x+3、6(2)当x=5时,y ˆ=3、2*5+3、6即y ˆ=19、6 据此估计2016年该城市人口总数约为196万、【例5】某保险公司有一款保险产品的历史户获益率(获益率=获益÷保费收入)的频率分布直方图如图所示: (Ⅰ)试估计平均获益率;(Ⅱ)根据经验若每份保单的保费在20元的基础上每增加x 元,对应的销量y (万份)与x (元)第19题图3.2.2.1.有较强线性相关关系,从历史销售记录中抽样得到如下5组x 与y 的对应数据:(Ⅰ)中求出的平均获益率估计此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益、参考公示:1122211()(),()∧∧∧====-∑--===-∑--∑∑nni ii i i i nni ii i x y nx yx x y y b a y b x x x xnx解析:(Ⅰ)区间中值依次为:0、05,0、15,0、25,0、35,0、45,0、55,取值概率依次为:0、1,0、2,0、25,0、3,0、1,0、05,平均获益率为0.050.100.150.200.250.250.350.300.450.100.550.050.275⨯+⨯+⨯+⨯+⨯+⨯=(Ⅱ)(i)1221500.10,0500∧∧∧==--∴===-=-=-∑∑ni ii ni i x y nx yb a y b x x nx则 6.00.10(40)-=--y x 即0.1010.0=-+y x(ii)设每份保单的保费为20+x 元,则销量为0.1010.0=-+y x ,则保费获益为()(20)(0.1010.0)=+-+f x x x 万元, 22()0.182000.1(40)360=-++=--+f x x x x当40=x 元时,保费收入最大为360万元,保险公司预计获益为3600.275=99⨯万元、 题型三 独立性检验【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理 种子未处理总计 得病 32 101 133 不得病 61 213 274 总计93314407根据以上数据,”)关. 解析:在假设无关的情况下,根据题意K 2=n ad -bc 2a +bc +d a +cb +d≈0、16,可以得到无关的概率大于50%,所以种子经过处理跟就是否生病有关的概率小于50%,所以可以认为种子经过处理与就是否生病无关.答案:无【例7】某高校为调查学生喜欢“应用统计”课程就是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:喜欢“应用统计”课程不喜欢“应用统计”课程总计 男生 20 5 25 女生 10 20 30 总计302555(1)(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生与1个女生的概率.下面的临界值表供参考: P (K 2≥k ) 0、150、100、050、250、010 0、0050、001k2、072 2、7063、841 5、024 6、635 7、879 10、828(参考公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d )解:(1)由公式K 2=55×20×20-10×5230×25×25×30≈11、978>7、879,所以有99、5%的把握认为喜欢“应用统计”课程与性别有关.(2)设所抽样本中有m 个男生,则630=m20,得m =4,所以样本中有4个男生,2个女生,分别记作B 1,B 2,B 3,B 4,G 1,G 2、从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,G 1),(B 1,G 2),(B 2,B 3),(B 2,B 4),(B 2,G 1),(B 2,G 2),(B 3,B 4),(B 3,G 1),(B 3,G 2),(B 4,G 1),(B 4,G 2),(G 1,G 2),共15个,其中恰有1个男生与1个女生的事件有(B 1,G 1),(B 1,G 2),(B 2,G 1),(B 2,G 2),(B 3,G 1),(B 3,G 2),(B 4,G 1),(B 4,G 2),共8个.所以恰有1个男生与1个女生的概率为815、【变式1】经过对计量2K 的研究,得到了若干个临界值如下:当2K 的观测值 3.841K 时,我们( A )A 、 在犯错误的概率不超过0、05的前提可认为A 与B 有关 B 、 在犯错误的概率不超过0、05的前提可认为A 与B 无关C 、 在犯错误的概率不超过0、01的前提可认为A 与B 有关D 、 没有充分理由说明事件A 与B 有关系【变式2】某校高三子啊一次模拟考试后,为了解数学成绩就是否与班级有关,对甲乙两个班数学成绩(满分150分)进行分析,按照不小于120分为优秀,120分以下为非优秀的标准统计成绩,已知从全班100人中随机抽取1人数学成绩优秀的概率为310,调查结果如下表所示、(1)请完成上面的列联表;(2)根据列联表的数据,问就是否有95%的把握认为“数学成绩与班级有关系”;(3)若按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数与被记为抽取人的编号,求抽到的编号为6或10的概率、【变式3】为了解人们对新颁布的“生育二孩放开”政策的热度,现在某市进行调查.对[5,65]岁的人群随机抽取了人,得到如下统计表与各年龄段抽取人数的频率分布直方图:(Ⅰ)求,p的值,并由频率分布直方图估计被调查人群的平均年龄;(Ⅱ)根据以上统计数据填下面2×2列联表,并根据列联表的独立性检验,判断能否有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系?年龄不低于45岁的人数年龄低于45岁的人数合计支持不支持合计参考数据:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++解:(Ⅰ)从[5,15)岁这一年龄组中抽取的人数为450.8=,且频率为0.010100.1⨯=, ∴5500.1n ==; 2分又第二组的频率为0.2,则第二组人数为10人,∴50.510p == 4分平均数0.1100.2200.3300.2400.1500.16033x =⨯+⨯+⨯+⨯+⨯+⨯=(岁) 6分2 6.27 6.635232181152K ==≈<⨯⨯,∴没有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系。