第九章 第三节 变量间的相关关系统计案例
最新高考数学总复习——第9章 第3节 变量间的相关关系与统计案例
i=1
yyii--y^yi22=1-94×118=1-18=78=0.875,
所以“污水净化量的差异”有87.5%是由年份引起的,这说明
回归方程预报的效果是良好的.
在线性回归分析中,只需利用公式求出回归直线方程 并利用其进行预测即可(注意回归直线过样本点的中心( x , y )),利 用回归方程进行预测,常把线性回归方程看作一次函数,求函数 值.
i=1
ti-
t
2∑ i=1
yi- y 2
线性回归方程y^=^a+b^t,
n
∑ b^=i=1
ti-
n
t
yi-
y
,^a=
y
-b^
t
∑
i=1
ti- t 2
n
∑ 反映回归效果的公式为:R2=1-i=n1
yi-y^i2 ,
∑
i=1
yi- y 2
其中R2越接近于1,表示回归的效果越好.
[解](1)由折线图中的数据得,
高考数学总复习
9.3 变量间的相关关 系与统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于两个 变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,两个变量 的这种相关关系称为负相关.
(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在 一条直线
4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售
量的影响,他收集了一段时间内这种冷饮每天的销售量 y(杯)与当天
最高气温 x(℃)的有关数据,通过描绘散点图,发现 y 和 x 呈线性相
关关系,并求得其回归方程^y=2x+60.如果气象预报某天的最高气温
完整版变量间的相关关系统计案例
完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
第9章第3讲 变量间的相关关系与统计案例
第3讲变量间的相关关系与统计案例[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测]从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2021年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回归方程(1)相关关系的分类02右上角的区域内,如图①正相关:从散点图上看,点散布在从□01左下角到□1;04右下角的区域内,如图②负相关:从散点图上看,点散布在从□03左上角到□2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□05一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做□06回归直线.(3)回归方程①最小二乘法:使得样本数据的点到回归直线的□07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y--b ^x -.其中,b ^是回归方程的□08斜率,a ^是在y 轴上的□09截距,x -=1n ∑n i =1x i ,y -=1n ∑n i =1y i ,□10(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2,用它来衡量两个变量间的线性相关关系.①当r >0时,表明两个变量□11正相关; ②当r <0时,表明两个变量□12负相关; ③r 的绝对值越接近1,表明两个变量的线性相关性□13越强;r 的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.2.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)残差平方和为∑ni =1(y i -y ^i )2. (3)相关指数:R 2=1-□01∑n i =1(y i -y ^i )2∑n i =1 (y i-y -)2.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的□01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□02频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=□03n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =□04a +b +c +d 为样本容量.(3)独立性检验利用随机变量□05K 2来判断“两个分类变量□06有关系”的方法称为独立性检验.1.概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)“名师出高徒”可以解释为教师的教学水平与学生水平成正相关关系.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (5)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)× (2)√ (3)√ (4)√ (5)× 2.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位答案 B解析因为-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.故选B.(2)在下列各图中,两个变量具有相关关系的图是()A.①②B.①③C.②④D.②③答案 D解析①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性.(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.非一线一线总计愿生452065不愿生132235总计5842100 算得K2=≈9.616.58×42×35×65附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828 A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案 C解析 因为K 2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”.(4)已知变量x ,y 具有线性相关关系,它们之间的一组数据如下表所示,若y 关于x 的回归方程为y ^=1.3x -1,则m =________.x 1 2 3 4 y0.11.8m4答案 解析 由已知得x -=14×(1+2+3+4)=2.5, y -=14(0.1+1.8+m +4)=14×(5.9+m ).因为(x -,y -)在直线y ^=1.3x -1上,所以y -=1.3×2.5-1=2.25, 所以14×(5.9+m )=2.25,解得m =3.1.题型一 相关关系的判断1.下列两变量中不存在相关关系的是( )①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A .①②⑤B .①③⑥C .④⑤⑥D .②⑥答案 A解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系. 2.下列命题中正确的为( )A.线性相关系数r越大,两个变量的线性相关性越强B.线性相关系数r越小,两个变量的线性相关性越弱C.残差平方和越小的模型,模型拟合的效果越好D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好答案 C解析线性相关系数r的绝对值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3答案 A解析易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.故选A.1.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.|r |越趋近于1相关性越强.见举例说明3.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关. 2.判断拟合效果的两个方法(1)残差平方和越小,拟合效果越好.见举例说明2.(2)相关指数R 2越大,越接近于1,拟合效果越好.1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 所有点均在直线上,则样本相关系数最大即为1,故选D.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④答案 D解析 由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.题型二 回归分析角度1 线性回归方程及应用1.某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x /年 1 2 3 4 5 维修总费用y /万元0.51.22.23.34.5根据上表可得y 关于x 的线性回归方程y ^=b ^x -0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )A .8年B .9年C .10年D .11年答案 D解析 由y 关于x 的线性回归直线y ^=b ^x -0.69过样本点的中心(3,2.34),得b ^=1.01,即线性回归方程为y ^=1.01x -0.69,令y ^=1.01x -0.69=10,得x ≈10.6,所以预测该汽车最多可使用11年.故选D.2.(2019·东北三省三校三模)现代社会,“鼠标手”已成为常见病.一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(sEMG)等指标.(1)10名实验对象实验前、后握力(单位:N)测试结果如下: 实验前:346,357,358,360,362,362,364,372,373,376. 实验后:313,321,322,324,330,332,334,343,350,361.完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N?(2)实验过程中测得时间t (分)与10名实验对象前臂表面肌电频率(sEMG)的中位数y (Hz)的九组对应数据(t ,y )为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立y 关于时间t 的线性回归方程;(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?参考数据:∑9i =1(t i -t )(y i -y -)=-1800; 参考公式:回归方程y ^=b ^t +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t )(y i -y -)∑ni =1 (t i-t )2,a ^=y --b ^ t 解 (1)根据题意得到茎叶图如下图所示:由图中数据可得x -1=110×(346+357+358+360+362+362+364+372+373+376)=363,x -2=110×(313+321+322+324+330+332+334+343+350+361)=333, ∴x -1-x -2=363-333=30(N), ∴故实验前后握力的平均值下降了30 N.(2)由题意得t =19×(0+20+40+60+80+100+120+140+160)=80, y -=19×(87+84+86+79+78+78+76+77+75)=80,∑9i =1(t i -t )2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24000,又∑9i =1(t i -t )(y i -y -)=-1800,∴b ^=∑9i =1(t i -t )(y i -y -)∑9i =1 (t i-t )2=-180024000=-0.075, ∴a ^=y --b ^t =80-(-0.075)×80=86, ∴y 关于时间t的线性回归方程为y ^=-0.075t +86.(3)九组数据中40分钟到60分钟y 的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了.角度2 非线性回归模型的应用3.(2019·莆田二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量x i (单位:亿元)对年销售额y i (单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y =α+βx 2,②y =e λx +t ,其中α,β,λ,t 均为常数,e 为自然对数的底数.现该公司收集了近12年的年研发资金投入量x i 和年销售额y i 的数据,i =1,2,…,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值.令u i =x 2,v i =ln y i (i =1,2,…,12),经计算得如下数据: x - y - ∑i =112(x i -x -)2 ∑i =112(y i -y -)2 u -v - 20 66770 2004604.20∑i =112(u i -u -)2 ∑i =112(u i -u -)·(y i -y -) ∑i =112(v i -v -)2 ∑i =112(x i -x -)·(v i -v -) 3125000 21500 0.308 14i i 1i i 2的角度,选择一个拟合程度更好的模型;(2)①根据(1)的选择及表中数据,建立y 关于x 的回归方程(系数精确到0.01); ②若下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 是多少亿元?附:相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2,回归直线y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2,a ^=y --b ^x -;参考数据:308=4×77,90≈9.4868,e 4.4998≈90.解 (1)由题意,r 1=∑i =112(u i -u -)(y i -y -)∑i =112(u i -u -)2∑i =112(y i -y -)2=215003125000×200=2150025000=4350=0.86,r 2=∑i =112(x i -x -)(v i -v -)∑i =112(x i -x -)2∑i =112(v i -v -)2=14770×0.308=1477×0.2=1011≈0.91,则|r 1|<|r 2|,因此从相关系数的角度,模型y =e λx +t 的拟合程度更好.(2)①先建立v关于x的线性回归方程,由y=eλx+t,得ln y=t+λx,即v=t+λx;由于λ=∑i=112(x i-x-)(v i-v-)∑i=112(x i-x-)2=14770≈0.018,t=v--λx-=4.20-0.018×20=3.84,所以v关于x的线性回归方程为v^=0.02x+3.84,所以ln y^=0.02x+3.84,则y^=e0.02x+3.84.②下一年销售额y需达到90亿元,即y=90,代入y^=e0.02x+3.84,得90=e0.02x+3.84,又e4.4998≈90,所以4.4998≈0.02x+3.84,所以x≈4.4998-3.840.02=32.99,所以预测下一年的研发资金投入量约是32.99亿元.1.利用线性回归方程时的关注点(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x-,y-).见举例说明1.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.2.非线性回归方程的求法(1)根据原始数据(x,y)作出散点图.(2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见举例说明3.1.(2019·南宁二模)一汽车销售公司对开业4年来某种型号的汽车“五一”优惠金额与销售量之间的关系进行分析研究并做了记录,得到如下资料.日期 第1年 第2年 第3年 第4年 优惠金额x (千元) 10 11 13 12 销售量y (辆)22243127(1)用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若第5年优惠金额为8.5千元,估计第5年的销售量y (辆)的值.参考公式:b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -.解 (1)由题意,得x -=11.5,y -=26,∑i =14x i y i =1211,∑i =14x 2i =534,∴b ^=∑i =14x i y i -4x -y -∑i =14x 2i -4x-2=1211-4×11.5×26534-4×11.52=155=3,则a ^=y --b ^ x -=26-3×11.5=-8.5.∴y ^=3x -8.5.(2)当x =8.5时,y ^=17,∴第5年优惠金额为8.5千元时,销售量估计为17辆.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y =bx +a ,②y =c e dx拟合,得到回归方程分别为y ^(1)=0.24x -8.81,y ^(2)=1.70e 0.022x ,作残差分析,如下表:身高x (cm) 60 70 80 90 100 110 体重y (kg)6 8 10 14 15 18 e ^(1) 0.41 0.01 1.21 -0.19 0.41 e ^(2)-0.360.070.121.69-0.34-1.12(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^ x -. 解 (1)根据残差分析,把x =80代入y ^(1)=0.24x -8.81中,得y ^(1)=10.39. ∵10-10.39=-0.39, ∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62, 模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7. ∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg 的样本点被剔除后,剩余的数据如下表: 身高x (cm) 60 70 80 100 110 体重y (kg)6 8 10 15 18 e ^(1)0.410.01-0.39-0.190.41由公式b ^=∑n i =1 (x i -x )(y i -y )∑ni =1 (x i -x -)2,a ^=y --b ^ x -, 得回归方程为y ^=0.24x -8.76.题型三 独立性检验1.假设有两个分类变量X和Y的2×2列联表如下:() A.a=45,c=15 B.a=40,c=20C.a=35,c=25 D.a=30,c=30答案 A解析根据2×2列联表与独立性检验可知,当aa+10与cc+30相差越大时,X与Y有关系的可能性越大,即a,c相差越大,aa+10与cc+30相差越大.故选A.2.(2019·南昌三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人.在一次地理考试后,对成绩作了数据分析(满分100分),成绩为85分以上的同学称为“地理之星”,得到了如下列联表:如果从全班45人中任意抽取1人,抽到“地理之星”的概率为1 3.(1)完成“地理之星”与性别的2×2列联表,并回答是否有90%以上的把握认为获得“地理之星”与“性别”有关?(2)若已知此次考试中获得“地理之星”的同学的成绩平均值为90,方差为7.2,请你判断这些同学中是否有得到满分的同学,并说明理由.(得分均为整数分)参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.临界值表:P (K 2≥k 0)0.10 0.05 0.010 0.005 0.001 k 02.7063.8416.6357.87910.828解 (1)根据题意知“地理之星”总人数为45×13=15,填写列联表如下:地理之星 非地理之星 合计男生 7 8 15 女生 8 22 30 合计153045根据表中数据,计算K 2=45×(7×22-8×8)215×30×15×30=1.8<2.706,所以没有90%的把握认为获得“地理之星”与性别有关.(2)没有得满分的同学,记各个分值由高到低分别为x 1,x 2,…,x 15; ①若有2个以上的满分,则s 2=115×[(100-90)2+(100-90)2+…+(x 15-90)2]>403>7.2,不符合题意.②若恰有1个满分,为使方差最小,则其他分值需集中分布在平均数90的附近,且为保证平均值为90,则有10个得分为89,其余4个得分为90,此时方差取得最小值,∴s 2min=115×[(100-90)2+4×(90-90)2+10×(89-90)2]=223>7.2,与题意方差为7.2不符合,所以这些同学中没有得满分的同学.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K2的观测值k,查表确定临界值k0;(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X 与Y有关系”.1.学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:不关注关注总计男生301545女生451055总计7525100K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),并参考以下临界数据:P(K2≥k0)0.500.400.250.150.100.050.0250.010.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828错的概率不超过()A.0.10 B.0.05 C.0.025 D.0.01 答案 A解析由题意可得K2=100×(30×10-15×45)245×55×75×25≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828解(1)第二种生产方式的效率更高.理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)(2)由茎叶图知m=79+812=80.列联表如下:超过m 不超过m第一种生产方式15 5 第二种生产方式515(3)由于K2的观测值k=40×(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.组基础关1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1答案 C解析对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1C .智商D .阅读量答案 D解析 K 21=52×(6×22-10×14)216×36×20×32,令5216×36×20×32=m ,则K 21=82m ,同理,K 22=m ×(4×20-12×16)2=1122m ,K 23=m ×(8×24-8×12)2=962m ,K 24=m ×(14×30-6×2)2=4082m ,∴K 24>K 22>K 23>K 21,则与性别有关联的可能性最大的变量是阅读量.故选D.3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________. 答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y -=∑6i =1yi 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.4.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.k 03.841 6.635 10.828答案 解析 设男生人数为x ,由题意可得列联表如下: 喜欢韩剧不喜欢韩剧总计 男生 x 6 5x 6 x 女生 x 3 x 6 x 2 总计x 2x3x 2若有95%的把握认为是否喜欢韩剧和性别有关,则k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.5.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)组 能力关1.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定80分及以上者晋级成功,否则晋级失败(满分为100分).(1)求图中a 的值;(2)估计该次考试的平均分x -(同一组中的数据用该组的区间中点值代表); (3)根据已知条件完成下面的2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)由频率分布直方图中各小长方形的面积总和为1,可知(2a +0.020+0.030+0.040)×10=1,故a =0.005.(2)由频率分布直方图知各小组的区间中点值分别为55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,故可估计平均数x -=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74. (3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25, 故晋级成功的人数为100×0.25=25,故填表如下:K 2=100×(16×41-34×9)225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.2.(2019·银川一中模拟)某餐厅通过查阅了最近5次食品交易会参会人数x (万人)与餐厅所用原材料数量y (袋),得到如下统计表:(1)根据所给5组数据,求出y 关于x 的线性回归方程y =b x +a ;(2)已知购买原材料的费用C (元)与数量t (袋)的关系为C =⎩⎨⎧400t -20,0<t <36(t ∈N ),380t ,t ≥36(t ∈N ),投入使用的每袋原材料相应的销售收入为700元,多余的原材料只能无偿返还,据悉本次交易大会大约有15万人参加.根据(1)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -. 参考数据:∑i =15x i y i =1343,∑i =15x 2i =558,∑i =15y 2i =3237.解 (1)由所给数据,得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x-2=1343-5×10.4×25558-5×10.42=2.5,a ^=y --b ^ x -=25-2.5×10.4=-1,则y 关于x 的线性回归方程为y ^=2.5x ^-1.(2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要原材料36.5袋,因为C =⎩⎨⎧400t -20,0<t <36,t ∈N ,380t ,t ≥36,t ∈N ,所以当t <36时,利润L =700t -(400t -20)=300t +20, 当t =35时,利润L =300×35+20=10520; 当t ≥36时,利润L =700t -380t ,当t =36时,利润L =700×36-380×36=11520,因为预计需要原材料36.5袋,且多余的原材料只能无偿返还,所以当t =37时,利润L =700×36.5-380×37=11490.综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11520元.。
11.3第三节 变量间的相关关系与统计案例
________.
【解析】K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理, 应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性 约为5%. 答案:5%
核心素养 数据分析——线性回归方程应用中的数据分析能力 【素养诠释】
在现实生活中有许多问题应当先做调查研究,收集数据,通过分析作出判 断,体会数据中蕴涵的信息;对于同样的数据可以有多种分析的方法,需要根据 问题的背景选择合适的方法;通过数据分析体验随机性,一方面,对于同样的事 情每次收集到的数据可能不同;另一方面,只要有足够的数据就可能从中发现 规律.数据分析是统计的核心.
7
7
【解析】(1)由题意有
x =8,
y
=4.2,
xiyi=279.4,
x
2 i
=708,
7
i1
i1
所以
b$
xi yi-7xgy
i1
7 xi2-7x2
279.4-7 8 4.2 708-7 82
=0.17,
a$ y b$x 4.2 0.17 8 2.84,
所以y关于xi的1 线性回归方程为 y$=0.17x+2.84;
【解析】选D.由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关 关系,故A正确;又线性回归方程必过样本点的中心( x , y ),故B正确;由线性回 归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确;当某女生 的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,故D不正确.
【易错点索引】
序号
易错警示
1 相关系数r,相关指数R2与相关性强弱的关系
第九章 第三节 变量间的相关关系与统计案例
2.回归方程 (1)最小二乘法:
求回归直线使得样本数据的点到它的距离的平方和最小 的方法叫做最小二乘法.
返回
(2)回归方程: 方程^y =^bx+^a是两个具有线性相关关系的变量的一组数 据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中^a,^b是 待定参数.
n
xi--x yi--y
^
b
=
i=1
0.01,
^
a
=
y
-
^
b
x
=0.47,∴
^
y
=0.01x+0.47,令x=6,得
^
y
=0.53.
[答案] (1)B (2)0.5 0.53
返回
[悟一法] 1.求回归方程,关键在于正确求出系数^a,^b由于计算量较
大,所以计算时要仔细谨慎,分层进行,避免因计算产 生失误,特别注意,只有在散点图大体呈线性时,求出 的回归方程才有意义. 2.利用回归方程可以估计总体,它是回归方程所反映的规律 的延伸,可使我们对有线性相关关系的两个变量进行分 析和控制.
返回
4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,
像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假
设有两个分类变量X和Y,它们的可能取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
返回
2×2列联表
x1 x2 总计
返回
1.两个变量的线性相关 (1)正相关:
在散点图中,点散布在从 左下角 到右上角的区域,对于 两个变量的这种相关关系,我们将它称为正相关.
返回
(2)负相关: 在散点图中,点散布在从 左上角 到 右下角的区域,两 个变量的这种相关关系称为负相关.
高考知识点变量间的相关关系与统计案例
第3节变量间的相关关系与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则^是回归方程的斜率,a^是在y轴上的截距.其中,b回归直线一定过样本点的中心(x,y).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:其中21()ni i i y y =-∑是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),其中n =a +b +c +d 为样本容量.[常用结论与微点提醒]1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x ,y ).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.诊断自测1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()答案(1)√(2)√(3)×(4)√2.(必修3P90例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:则y对x的线性回归直线方程为()A.y^=2.3x-0.7B.y^=2.3x+0.7C.y^=0.7x-2.3D.y^=0.7x+2.3解析易求x=9,y=4,样本点中心(9,4)代入验证,满足y^=0.7x-2.3.答案 C3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案 A4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案5%考点一相关关系的判断【例1】(1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.【训练1】(1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关指数为R21,用y^=b^x+a^拟合时的相关指数为R22,则R21>R22;③x,y之间不能建立线性回归方程.解析(1)从统计图表中看出,月收入的中位数是12(15+17)=16,收入增加,则支出也增加,x与y正线性相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y^=b^x+a^拟合效果要好,则R21>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程y^=b^x+a^必过样本点中心(x,y).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)本例中y 与x 不具有线性相关,先作变换,转化为y 与w 具有线性相关,求出y 关于w 的线性回归方程,然后进一步求解.【训练2】 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:表2(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t -=2.2-3×1.2=-1.4, 所以z ^=1.2t -1.4.(2)将t=x-2 012,z=y-5,代入z^=1.2t-1.4,得y-5=1.2(x-2 012)-1.4,即y^=1.2x-2 410.8.(3)因为y^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.考点三独立性检验【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:将2×2列联表中的数据代入公式计算,得K 2的观测值 k =300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k ;(3)比较观测值k 与临界值的大小关系,作统计推断.【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.基础巩固题组 (建议用时:40分钟)一、选择题1.为了判定两个分类变量X 和Y 是否有关系,应用独立性检验法算得K 2的观测值为5,又已知P (K 2≥3.841)=0.05,P (K 2≥6.635)=0.01,则下列说法正确的是( )A.有95%的把握认为“X 和Y 有关系”B.有95%的把握认为“X 和Y 没有关系”C.有99%的把握认为“X和Y有关系”D.有99%的把握认为“X和Y没有关系”解析依题意K2的观测值为k=5,且P(K2≥3.841)=0.05,因此有95%的把握认为“X和Y有关系”.答案 A2.(2018·石家庄模拟)下列说法错误的是()A.回归直线过样本点的中心(x,y).B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对分类变量X与Y,随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程y^=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y^平均增加0.2个单位解析根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量K2的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误. 答案 C3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:^=b^x+a^,则大致可以判断()根据上述数据得到的回归方程为yA.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0^>0,a^<0.解析作出散点图,画出回归直线直观判定b答案 C4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2的观测值为k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2的观测值为k ≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160B.163C.166D.170解析 由已知得x =22.5,y =160, ∵回归直线方程过样本点中心(x ,y ), 且b^=4,∴160=4×22.5+a^,解得a^=70.∴回归直线方程为y^=4x+70,当x=24时,y^=166.答案 C二、填空题6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,^为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.现发现表中有一个数据看不清,请你推断出该数据的值为________.解析由x=30,得y=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.答案687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析由列联表计算K2的观测值k=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.0258.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y^=b^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40.所以a^=40-(-2)×10=60,y^=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110. 所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人). 抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs . 其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6. (2)由题意,得K 2的观测值为k =80(30×20-20×10)2(30+20)(10+20)(30+10)(20+20) =163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.10.(2018·惠州模拟)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.∴a^=y-b^x=42-1.7×8=28.4,故y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.93,∴二次函数回归模型更合适.当x=3时,y^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.能力提升题组(建议用时:20分钟)11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析 由2×2列联表,可求K 2的观测值, k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20) ≈5.288>3.841.由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 解析 x =9+9.5+m +10.5+115=8+m 5, y =11+n +8+6+55=6+n 5.回归直线一定经过样本中心(x ,y ), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1013.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高? (2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元), 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元). 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.(3)∵x =2.5,y =5,12+22+32+42=30,1×4+2×4+3×6+4×6=54, ∴b^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3. 因此线性回归方程为y ^=0.8x +3. 当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.。
变量间的相关关系与统计案例 PPT
(2)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就 称这两个变量之间具有线性相关关系,这条直线叫作回归直 线.
2. 回归分析
(1)最小二乘法
题型三 线性回归方程 【例3】 为了研究某种新上市产品的广告费与销售额之间的 关系,某统计局随机选取5家销售公司,由营业报告中查出其上 年度的广告费x(单位:万元)与销售额y(单位:百万元)之间有如 下的对应数据:
(1)以x为解释变量,y为预报变量,作出散点图; (2)求y与x之间的回归方程. 解析: (1)散点图如图所示:
解析:A中显然任给一个x都有唯一确定的y和它对应,是一种函数 关系;B也是一种函数关系;C中从散点图中可看出所有点看上去 都在某条直线附近波动,具有相关关系,而且是一种线性相关;D 中所有的点在散点图中没有显示任何关系,因此变量间是不相关 的. 答案: C
3. (原创题)经研究表明,学生的体重y(单位:kg)与身高x(单位: cm)有很强的线性相关关系,其回归方程为y=0.75x-68.2,如果一 个学生的身高为170 cm,则他的体重( )
A.90% B.95% C. 97.5% D. 99.9%
解析:根据题中的等高条形图,由于用药的患者50人,因
此,在用药的患者中感冒病好的人数为50* 8
10
=40;在未用药的患者中感冒病好的人数为20*
3
10
=6.于是列联表如下
由K2= 7040146102
50204624
≈15.85>10.828. 因此,有99.9%的把握认为感冒病好与用药有关,故选D.
第九章 变量间的相关关系统计案例
返回
(2)∵ xiyi=3 245, x =25, y =15.43, x2=5 075,7( x )2=4 375,7x y=2 695 i
i= 1 i= 1
7
7
--
y xiyi-7 x ·
i= 1
7
^ ∴b =
≈0.79,
xi2-7 x 2
i= 1
7
^= y -b x =-4.32,∴回归直线方程是y =0.79x-4.32. ^ a (3)进店人数80人时,商品销售的件数y=0.79×80-4.32≈59件.
^ B.y =2x+100 ^ D.y =2x-100
^ 解析:B、D为正相关,C中y 值恒为负,不符合题意.
答案: A
返回
2.两个变量y与x的回归模型中,分别选择了4个不同模
型,它们的相关指数R2如下,其中拟合效果最好的 模型是 A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80 C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25 解析:相关指数R2越大拟合效果越好. ( )
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别无关”
返回
[自主解答]
根据独立性检验的定义,由K2≈7.8>6.635
可知我们有99%以上的把握认为“爱好该项运动与性别
^= a
^ y -b x .
n
^ ^ Q= yi-b xi-a 2 的最小值而得到回归直线的方 3.通过求
i= 1
法,即求回归直线,使得样本数据的点到它的距离的平 方和最小,这一方法叫做最小二乘法.
第3节 变量间的相关关系与统计案例
y = 1 (y1+…+yn), a$= y - b$x ,( x , y )称为样本点的中心. n
③相关系数 r=
n
xi
x
yi
y
i1
,当 r>0 时,两变量 正
n
2n
2
xi x
yi y
i1
i1
相关,当 r<0
时,两变量 负 相关,当|r|≤1 且 |r| 越接近于 1,相关程度 越强 ≤1 且|r|越接近于 0,相关程度 越弱 .
P(K2≥k0) k0
0.50 0.455 0.05 3.841
0.40 0.708 0.025 5.024
0.25 1.323 0.010 6.635
0.15 2.072 0.005 7.879
0.10 2.706 0.001 10.828
②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认 为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.
.
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.
(4) 某 同 学 研 究 卖 出 的 热 饮 杯 数 y 与 气 温 x(℃) 之 间 的 关 系 , 得 回 归 方 程 =-
知识梳理自测 考点深度剖析 核心素养提升
知识梳理自测
知识梳理
1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不 同,相关关系是一种非确定性关系. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为 正相关,点分布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
变量间的相关关系与统计案例
xi2 3 x 2
i 1
3
4343718 179349
1.75
434 3 7 ˆ 18 - 7 1.75 185.75 ˆ a y - bx 179 3 49 1.75
ˆ 所求线性回归方程为: y 1.75 x 5.75.
六、回归效果的检测
n i 1 n
y i y 2
i 1
.
显然, R 2取值越大, 意味着残差平方和越小, 也就是说模型的拟合 效果越好.在线性回归模型中, R 2 表示解释变量对于预报变量变 化的贡献率. R 2 越 接近于 1, 表示回归的效果越好(因为R 2 越接近 于1, 表示解释变量和预报变量的线性相关性越强) .
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
3.独立性检验:假设有两个分类变量X和Y,它们的可能 取值分别为{x1,x2} 和 {y1,y2},其样本频数列联表(称 为2×2列联表)为:
y1 x1
x2 总计
y2 b
d
总计 a+b
c+d
a
c
a+c b+d a+b+c+d nad-bc2 K2= (其中 n=a+b+c+d 为样本容 a+ba+cb+dc+d
i 1 2 i i 1
n
n
i i
2.代入公式
求出 a 和 b ; ˆ ˆ
n n x y x y xi--yi-- xiyi-n-- i= 1 i= 1 b = , ^= n n - 2 x xi- x xi2-n-2 i= 1 i= 1 ^=--b - a y ^ x
如下图:
40 35 30 25 20 15 10 5
第3课时 变量间的相关关系、统计案例 ppt
• A.(2,1.8) • C.(3,2.5)
B.(4,3.2) D.(5,3.8)
解析: x =3, y =2.5,样本点中心为(3,2.5),回归直线过样本点 中心. 答案:C
• 4.独立性检验
• (1)分类变量:变量的不同“值”表不示同类个别体
所属的
,像这类变量称为分类变量.
• (2)列联表:列出两个分频类数变表 量的
,
称为列联表.假设有两个分类变量X和Y,它
们的可能取值分别为{x1,x2}和{y1,y2},其样 本频数列联表(称为2×2列联表)为
•
• 2×2列联表
y1 y2 总计 x1 a b a+b x2 c d c+d 构造一个随总机计变量aK+2=ca+bb+cnd+add-a+a+b+dcbc2 +b+c d,其中
• 答案:(1)D (2)D
• 题型二 线性回归分析
•
(2023·浙江宁波一模)以下是某地
搜集到的新房屋的销售价格y和房屋的面积x
的数据:
房屋面积 (m2)
115 110 80
135
10 5
销售价格 (万元)
24. 8
21. 6
18. 4
29. 2
22
• (1)画出数据对应的散点图;
• (2)求线性回归方程,并在散点图中加上回 归直线;
n= a+b+c+d
为样本容量.
• (3)独立性检验
• 利用随机K变2 量 来判断“两有个关分系类变量 ”的方法称为独立性检验.
• 对点演练
• (1)为了评价某个电视栏目的改革效果,在 改革前后分别从居民点抽取了100位居民进 行调查,经过计算K2≈0.99,根据这一数据 分析,下列说法正确的是
第三节 变量间的相关关系、统计案例(数学建模八)
A.①② B.②③ C.③④ D.①④
答案 D
^^ ^
^
^
解析 由回归直线方程 y = bx+ a,知当 b>0时,y与x正相关;当 b<0时,y与x负
相关,∴①④一定不正确.故选D.
考点突破 栏目索引
方法技巧 判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. (2)相关系数:r>0时,正相关:r<0时,负相关. (3)线性回归方程: b^ >0时,正相关: b^ <0时,负相关.
教材研读 栏目索引
(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在⑤ 一条直线附近 ,就称这 两个变量之间具有线性相关关系,这条直线叫做回归直线. (4)最小二乘法 求回归直线,使得样本数据的点到它的⑥ 距离的平方和最小 的方法 叫做最小二乘法.
教材研读 栏目索引
(5)回归方程
考点突破 栏目索引
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回 归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归 模型拟合) (2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分
变量间的相关关系与统计案例
变量间的相关关系与统计案例变量间的相关关系是统计学中一个重要的概念,它描述了两个或多个变量之间的关联程度。
在实际应用中,我们经常需要了解不同变量之间的相关性,以便更好地理解数据和进行预测分析。
本文将介绍变量间相关关系的基本概念,并通过统计案例来说明相关关系的计算和应用。
首先,我们需要了解相关系数的概念。
相关系数是衡量两个变量之间相关性强弱的统计指标,通常用于描述线性相关关系。
常见的相关系数有皮尔逊相关系数、斯皮尔曼相关系数和判定系数等。
其中,皮尔逊相关系数用于衡量两个连续变量之间的线性相关性,取值范围为-1到1,其绝对值越接近1,表示相关性越强。
接下来,我们通过一个实际的统计案例来说明相关系数的计算和应用。
假设我们对某公司员工的工作满意度和工作绩效进行了调查,现在我们希望了解这两个变量之间的相关关系。
我们首先收集了员工的工作满意度得分和绩效评价得分,然后计算了它们之间的皮尔逊相关系数。
假设计算结果为0.8,这意味着工作满意度和工作绩效之间存在较强的正相关关系,即工作满意度较高的员工通常也具有较好的工作绩效。
在实际应用中,相关系数的计算可以帮助我们了解变量之间的关联程度,从而指导决策和预测分析。
例如,在人力资源管理中,我们可以通过工作满意度和绩效之间的相关关系来评估员工的工作状态,制定相应的激励和管理策略。
在市场营销中,我们可以分析产品销量与广告投入之间的相关关系,从而优化营销策略和预测销售额。
除了了解相关系数的计算和应用,我们还需要注意相关关系的解释和局限性。
相关系数只能描述两个变量之间的线性相关关系,对于非线性关系或者其他类型的相关关系,相关系数可能无法准确描述。
因此,在实际应用中,我们需要结合具体情况,综合考虑多个统计指标和数据特征,以全面理解变量间的相关关系。
综上所述,变量间的相关关系是统计学中一个重要的概念,相关系数的计算和应用可以帮助我们了解变量之间的关联程度,指导决策和预测分析。
然而,我们需要注意相关关系的解释和局限性,以便更准确地理解数据和进行统计分析。
高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件
附:
P(K2≥k0) 0.100 0.050 0.025 0.010 0.001
A.0.1%
k0 2.706 3.841 5.024 6.635 10.828 B.1%
C.99%
D.99.9%
C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1- 0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg 箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=20100×0×621×006×6-963×4×103482≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
() (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优 秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) [答案] (1)× (2)√ (3)√ (4)×
2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近
视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,
关关系,故①正确;由散点图知用y=c1ec2x拟合比用 ^y = b^ x+ ^a 拟合效果要好,
则R
2 1
>R
2 2
,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③
错误.]
[规律方法] 判定两个变量正、负相关性的方法 1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. 2相关系数:r>0时,正相关;r<0时,负相关. 3线性回归方程中: 时,正相关; 时,负相关.
变量间的相关关系与统计案例
变量间的相关关系与统计案例在统计学中,变量之间的相关关系是一个非常重要的概念。
通过分析变量之间的相关关系,我们可以更好地理解数据之间的联系,为进一步的分析和预测提供基础。
本文将通过一些统计案例,介绍变量间相关关系的概念,并通过实际数据进行分析,帮助读者更好地理解相关关系的含义及其在实际应用中的重要性。
首先,我们需要了解什么是变量间的相关关系。
在统计学中,变量之间的相关关系是指它们之间存在的某种关联或者依存关系。
这种关系可以是正向的,也可以是负向的。
正向的相关关系意味着两个变量的数值同时增加或减少,负向的相关关系则表示一个变量的数值增加时,另一个变量的数值减少。
通过相关系数的计算,我们可以量化这种相关关系的强度和方向。
接下来,我们通过一个实际的统计案例来说明变量间相关关系的应用。
假设我们有一组数据,包括了某个城市每月的平均气温和冰淇淋销量。
我们想要分析气温和冰淇淋销量之间是否存在相关关系。
首先,我们可以通过散点图来观察两个变量之间的关系。
如果散点图呈现出一种明显的趋势,那么说明两个变量之间可能存在相关关系。
接着,我们可以通过计算相关系数来量化这种关系的强度。
最常用的相关系数是皮尔逊相关系数,它的取值范围在-1到1之间,绝对值越接近1,表示两个变量之间的相关关系越强。
在这个案例中,我们发现气温和冰淇淋销量之间存在着正向的相关关系。
也就是说,随着气温的升高,冰淇淋销量也会增加。
这个发现对于冰淇淋生产商来说是非常有用的信息,他们可以根据气温的变化来调整生产和销售策略,以更好地满足消费者的需求。
除了正向的相关关系,我们还可以遇到负向的相关关系。
比如,一个城市的降雨量和游乐园的游客数量之间可能存在负向的相关关系。
这意味着降雨量增加时,游客数量会减少。
这对于游乐园的经营者来说也是非常重要的信息,他们可以根据天气预报来调整营销策略,以减少降雨天对游客数量的影响。
通过以上案例,我们可以看到,变量间的相关关系在实际应用中具有非常重要的意义。
第九章 第三节 变量间的相关关系、统计案例
[究 疑 点] 1.相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 种非确定的关系;
(2)函数关系是一种因果关系,而相关关系不一定是因
果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 关系,这样的结论一定是正确的吗? 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据,
得到如下一组数据: 年龄 23 27 39 41 45 49 51 53
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6
判断它们是否有相关关系,若有作一回归直线.
解:以年龄作为x轴,脂肪含量为y轴,可得相应散点图:
由散点图可见,两者之间具有相关关系.
3.下面是水稻产量与施化肥量的一组观测数据:
解析:用回归模型y=7.19x+73.93,只能作预测其结果, 不一定是个确定值. 答案:C
2.已知回归方程 ^ =4.4x+838.19,则可估计x与y的增长 y 速度之比约为________.
解析:x与y的增长速度之比即为回归方程的斜率的倒数 1 5 = . 4.4 22
5 答案: 22
3.若施化肥量x与水稻产量y的回归直线方程为 ^ =5x+250, y 当施化肥量为80 kg时,预计水稻产量为________.
[题组自测]
1.下面是一个2×2列联表 y1 x1 a y2 21 总计 73
x2
总计
2
b
25
46
27
则表中a、b处的值分别为 A.94、96 C.52、54 B.52、50 D.54、52
第3讲 变量间的相关关系、统计案例
第3讲变量间的相关关系、统计案例一、知识梳理1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线方程叫线性回归方程.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y =bx +a ,其中b =∑n^ i =1x i y i -nx -y -∑n ^ i =1x 2i -n x -2,a =y -b x -.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.3.独立性检验设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2=A -1;变量B :B 1,B 2=B -1,通过观察得到下表所示数据:则χ2=n (ad -bc )(a +b )(c +d ))(a +c )(b +d ),用它的大小来检验变量之间是否独立.①当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的;②当χ2>2.706时,有90%的把握判定变量A ,B 有关联; ③当χ2>3.841时,有95%的把握判定变量A ,B 有关联; ④当χ2>6.635时,有99%的把握判定变量A ,B 有关联. 常用结论1.求解线性回归方程的关键是确定回归系数a ,b ,应充分利用线性回归方程过样本中心点(x -,y -).2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.3.根据线性回归方程计算的y 值,仅是一个预报值,不是真实发生的值.二、教材衍化1.已知x与y之间的一组数据如表:x 0123y m 3 5.57答案:0.52.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720 根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:χ2≈4.844>3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()(4)事件X,Y的关系越密切,由观测数据计算得到的χ2的观测值越大.()(5)通过线性回归方程y=bx+a可以估计和观测变量的取值和变化趋势.()答案:(1)×(2)√(3)√(4)√(5)√二、易错纠偏常见误区|K(1)混淆相关关系与函数关系;(2)对独立性检验χ2值的意义不清楚;(3)不知道线性回归直线必过样本点中心.1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A.①②③B.②③①C.②①③D.①③②解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.()A.0.1% B.1%C.99% D.99.9%解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.已知x,y的取值如下表,从散点图可以看出y与x线性相关,且线性回归方程为y =0.95x+a,则a=________.x 013 4y 2.2 4.3 4.8 6.7解析:由已知得x=2,y=4.5,因为线性回归方程经过点(x,y),所以a=4.5-0.95×2=2.6.答案:2.6相关关系的判断(师生共研)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关D.x与y负相关,x与z正相关【解析】因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z负相关.【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中:b>0时,正相关;b<0时,负相关.1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图如图①,对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由散点图可得两组数据均线性相关,且题图①的线性回归方程斜率为负,题图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.对变量x,y有观测数据(x i,y i)(i=1,2,3,4,5),得表1;对变量u,v有观测数据(u i,v i)(i=1,2,3,4,5),得表2.由这两个表可以判断()表1:x 12345y 2.9 3.3 3.6 4.4 5.1u 12345v2520211513B .变量x 与y 负相关,u 与v 正相关C .变量x 与y 负相关,u 与v 负相关D .变量x 与y 正相关,u 与v 负相关解析:选D.由题可知,随着x 的增大,对应的y 值增大,其散点图呈上升趋势,故x 与y 正相关;随着u 的增大,v 减小,其散点图呈下降趋势,故u 与v 负相关.线性回归方程及其应用(师生共研)(2020·江西宜春模拟)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y (单位:个)与一定范围内的温度x (单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:日期 2日 7日 15日 22日 30日 温度x /℃ 10 11 13 12 8 产卵数y /个2325302616关于x 的线性回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y 关于x 的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?附:线性回归方程的斜率和截距的最小二乘估计公式分别为b =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a =y --b x -.【解】 (1)由已知数据得x -=12,y -=27,∑3i =1 (x i -x -)(y i -y -)=5,∑3i =1 (x i -x -)2=2.所以b ^=∑3i =1(x i -x -)(y i -y -)∑3i =1(x i -x -)2=52, a =y --52x -=27-52×12=-3.所以y 关于x 的线性回归方程为y =52x -3.(2)由(1)知,y 关于x 的线性回归方程为y =52x -3.当x =10时,y =52×10-3=22,|22-23|<2,当x =8时,y =52×8-3=17,|17-16|<2.所以(1)中所得的线性回归方程y =52x -3是可靠的.线性回归分析问题的类型及解题方法(1)求线性回归方程①利用公式,求出回归系数b ,a ;②待定系数法:利用线性回归方程过样本点的中心求系数. (2)样本数据的相关系数r =∑ni =1(x i -x -)(y i -y -)∑n i =1(x i -x -)2∑ni =1(y i -y -)2,反映样本数据的相关程度,|r |越大,则相关性越强.1.对两个变量x ,y 进行线性回归分析,计算得到相关系数r =-0.996 2,则下列说法中正确的是( )A .x 与y 正相关B .x 与y 具有较强的线性相关关系C .x 与y 几乎不具有线性相关关系D .x 与y 的线性相关关系还需进一步确定解析:选B.因为相关系数r =-0.996 2,所以x 与y 负相关,因为|r |=0.996 2,非常接近1,所以相关性很强,故选B.2.(2020·成都第一次诊断性检测)在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x 与销售单价y (单位:元)之间的关系,经统计得到如下数据:等级代码数值x 38 48 58 68 78 88 销售单价y /元16.818.820.822.82425.8程(系数精确到0.1);(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归方程y =bx +a的斜率和截距的最小二乘估计分别为b =∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a =y --b x -.参考数据:∑6i =1x i y i =8 440,∑6i =1x 2i=25 564. 解:(1)由题意,得x -=38+48+58+68+78+886=63,y -=16.8+18.8+20.8+22.8+24+25.86=21.5,b =∑6i =1x i y i -6x - y -∑6i =1x 2i -6x -2=8 440-6×63×21.525 564-6×63×63≈0.2,a =y --b x -=21.5-0.2×63=8.9. 故所求线性回归方程为y =0.2x +8.9.(2)由(1),知当x =98时,y =0.2×98+8.9=28.5. 所以估计该等级的中国小龙虾销售单价为28.5元.独立性检验(师生共研)(2019·高考全国卷Ⅰ改编)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (χ2>k ) 0.050 0.010 0.001 k3.8416.63510.828【解】 (1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)χ2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)独立性检验的一般步骤①根据样本数据制成2×2列联表;②根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算χ2的值;③查表比较χ2与临界值的大小关系,作出统计判断. (2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题; ②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解χ2.(2020·陕西渭南模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n 的样本,得到一周参加社区服务时间的统计数据如下表:超过1小时不超过1小时男 20 8 女12m(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关?附:P (χ2>k ) 0.050 0.010 0.001 k3.8416.63510.828χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)由已知,该校有女生400人,故12+m 20+8=400560,得m =8,从而n =20+8+12+8=48. (2)作出2×2列联表如下: 超过1小时的人数不超过1小时的人数总计 男 20 8 28 女 12 8 20 合计321648χ2=48×(160-96)228×20×32×16=2435≈0.685 7<3.841.所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关.[基础题组练]1.(2020·陕西西安陕师大附中等八校联考)设两个变量x 和y 之间具有线性相关关系,它们的相关系数为r ,y 关于x 的线性回归方程为y =kx +b ,则( )A .k 与r 的符号相同B .b 与r 的符号相同C .k 与r 的符号相反D .b 与r 的符号相反解析:选A.因为相关系数r 为正,表示正相关,回归直线方程上升,r 为负,表示负相关,回归直线方程下降,所以k 与r 的符号相同.故选A.2.在一次对性别与说谎是否相关的调查中,得到如下数据:说谎 不说谎 总计 男 6 7 13 女 8 9 17 总计141630A .在此次调查中有95%的把握认为是否说谎与性别有关B .在此次调查中有99%的把握认为是否说谎与性别有关C .在此次调查中有99.5%的把握认为是否说谎与性别有关D .在此次调查中没有充分的证据显示说谎与性别有关解析:选D.由已知得χ2=30×(6×9-7×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关.3.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y =0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2454.如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y =bx +1,则b =________.解析:由题图知x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y =bx +1中,解得b =0.8. 答案:0.85.(2020·陕西汉中略阳天津高级中学等12校联考)某市为了了解民众对开展创建文明城市工作以来的满意度,随机调查了40名群众,并将他们随机分成A ,B 两组,每组20人,A 组群众给第一阶段的创文工作评分,B 组群众给第二阶段的创文工作评分,根据两组群众的评分绘制了如图所示的茎叶图.(1)根据茎叶图比较群众对两个阶段的创文工作满意度评分的平均值和集中数据(不要求计算出具体值,给出结论即可);(2)完成下面的2×2列联表,并通过计算判断是否有99%的把握认为民众对两个阶段创文工作的满意度存在差异?低于70分不低于70分总计参考公式:χ2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解:(1)根据题中茎叶图可以看出,B 组群众给第二阶段创文工作满意度评分的平均值高于A 组群众给第一阶段创文工作满意度评分的平均值,且给分相对于A 组更集中些.(2)填写2×2列联表如下:所以χ2=40×(11×17-9×3)220×20×14×26≈7.033>6.635.所以有99%的把握认为民众对两个阶段创文工作的满意度存在差异.6.某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)和市场占有率(y %)的几组相关对应数据:(1)(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).解:(1)根据表中数据,计算x -=15×(1+2+3+4+5)=3,y -=15×(0.02+0.05+0.1+0.15+0.18)=0.1,所以b =1×0.02+2×0.05+3×0.1+4×0.15+5×0.18-5×3×0.112+22+32+42+52-5×32=0.042,所以a=0.1-0.042×3=-0.026,所以线性回归方程为y=0.042x-0.026.(2)由上面的线性回归方程可知,上市时间与市场占有率正相关,即上市时间每增加1个月,市场占有率都增加0.042个百分点;由y=0.042x-0.026>0.5,解得x≥13;预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.[综合题组练]1.(2020·兰州市诊断考试改编)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:热烈参与者”.(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;(2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?附:χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)(n为样本容量)8解:(1)以200人中“热烈参与者”的频率作为概率,则该市“热烈参与者”的人数约为20 000×40200=4 000.(2)2×2列联表为热烈参与者非热烈参与者总计 男 35 105 140 女 5 55 60 总计40160200χ2=200×(35×55-105×5)240×160×140×60≈7.292>6.635.故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关. 2.(2020·鹰潭市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:月份 1 2 3 4 5 6 广告投入量/万元 2 4 6 8 10 12 收益/万元14.2120.3131.831.1837.8344.67bx 行残差分析,得到如图所示的残差图及一些统计量的值:x -y - ∑6i =1x i y i ∑6i =1x 2i 7301 464.24364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. ①剔除异常数据后,求出(1)中所选模型的线性回归方程;②广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归方程y =bx +a 的斜率和截距的最小二乘估计分别为:b =∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a =y --b x -. 解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,线性回归方程的预报精度高.(2)①剔除异常数据,即3月份的数据后,得 x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64.∑5i =1x i y i =1 464.24-6×31.8=1 273.44, ∑5i =1x 2i =364-62=328. b =∑5i =1x i y i -5x - y -∑5i =1x 2i -5x -2=1 273.44-5×7.2×29.64328-5×7.2×7.2=206.468.8=3,a =y --b x -=29.64-3×7.2=8.04.所以y 关于x 的线性回归方程为y =3x +8.04.②把x =18代入(ⅰ)中所求线性回归方程得y =3×18+8.04=62.04. 故预报值为62.04万元.。
第三节 变量间的相关关系、统计案例
第三节 变量间的相关关系、统计案例考试要求1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解回归分析的基本思想、方法及简单应用.4.了解独立性检验的基本思想、方法及其初步应用.[知识排查·微点淘金]知识点1 变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内 ,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.知识点2 两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程为y ^=b ^x +a ^,其中b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .(3)通过求总体偏差Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.[微提醒]回归直线y ^=b ^x +a ^必过样本点的中心x ,y 这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.知识点3 独立性检验 (1)2×2列联表设X ,Y 为两个分类变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d(2)独立性检验 利用随机变量K 2(也可表示为χ2)的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量)来判断“两个分类变量是否有关系”的方法称为独立性检验.[微提醒]根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.[小试牛刀·自我诊断]1.思考辨析(在括号内打“ √”或“×”)(1)散点图是判断两个变量是否相关的一种重要方法和手段.(√)(2)回归直线方程y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.(×) (3)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.(×) (4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.(√)2.(链接教材选修2-3 P 86例2)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25解析:在两个变量y 与x 的回归模型中,它们的相关指数R 2越接近于1,这个模型的拟合效果越好,观察选项可知0.98是相关指数最大的值.故选A .答案:A3.(链接教材必修3 P 94A 组T 2)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5),根据收集到的数据可知x =20,由最小二乘法求得回归直线方程为y ^=0.6x +48,则∑i =15y i =( )A .60B .120C .150D .300解析:选D 由题意,x =20,回归直线方程y ^=0.6x +48,所以y ^=0.6×20+48=60.则∑i =15y i =60×5=300.4.(链接教材选修2-3 P 97T 2)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2的观测值 k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为 . 答案:5%5.(忽视回归直线过样本点中心)已知变量x 和y 的统计数据如下表:x 3 4 5 6 7 y2.5344.56根据上表可得回归直线方程为y ^=b ^x -0.25,据此可以预测当x =8时,y ^=( ) A .6.4 B .6.25 C .6.55D .6.45解析:选C 由题中图表可知,x =5,y =4,因为回归方程经过样本的中心(x ,y ),则4=5b ^-0.25,得b ^=0.85,则回归方程为y ^=0.85x -0.25,再将x =8代入方程,得y ^=6.55.一、基础探究点——线性相关关系的判断(题组练透)1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.(2021·辽宁大连模拟)已知相关变量x和y的散点图如图所示,若用y=b1ln(k1x)与y =k2x+b2拟合时的相关系数分别为r1,r2,则比较r1,r2的大小结果为()A.r1>r2B.r1=r2C.r1<r2D.不确定解析:选C由散点图可知,y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;又因为此关系为负相关,∴-r1>-r2,r1<r2,故选C.判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.二、应用探究点——线性回归分析(思维拓展)[典例剖析][例1] (2020·全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1200,∑i =120(x i -x)2=80,∑i =120(y i -y)2=9000,∑i =120(x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,2≈1.414.解:(1)由已知得样本平均数y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑i =120(x i -x )(y i -y )∑i =120(x i -x)2∑i =120(y i -y )2=80080×9000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[学会用活]1.发展清洁能源,是改善能源结构、保障能源安全、推进生态文明建设的重要任务.十三五以来,我国加快调整能源结构,减少煤炭消费、稳定油气供应、大幅增加清洁能源比重,风电、光伏发电等可再生能源发电效率不断提高.据资料整理统计我国从2015年到2019年的年光伏发电量如表:(1)请用相关系数r 说明是否可用线性回归模型拟合年光伏发电量y 与x 的关系; (2)建立年光伏发电量y 关于x 的线性回归方程,并预测2021年年光伏发电量(结果保留整数).参考公式:相关系数r =∑i =1nx i y i -n x y∑i =1n(x i -x)2∑i =1n(y i -y )2,回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2,a ^=y -b ^x .解:(1)因为x =15(1+2+3+4+5)=3,∑i =15x i y i =23 574,∑i =15(x i -x)2∑i =15(y i -y )2≈4837.5,y =1251.2.所以相关系数r =∑i =1nx i y i -n x y∑i =1n (x i -x )2∑i =1n(y i -y )2=23 574-5×3×1251.24837.5≈0.993,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合. (2)因为∑i =15x 2i =12+22+32+42+52=55,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=23 574-5×3×1251.255-5×32=480.6,a ^=y -b ^x =1251.2-480.6×3=-190.6, 所以回归方程为y ^=480.6x -190.6,因为2021年所对应的年份编号为7,所以当x =7时,y ^=480.6×7-190.6≈3174. 故预计2021年年光伏发电量为3174亿千瓦时.三、应用探究点——独立性检验(思维拓展)[典例剖析][例2] (2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828解:(1)甲机床生产的产品中一级品的频率为150200=34;乙机床生产的产品中一级品的频率为120200=35.(2)由题意知, K 2=400×(150×80-120×50)2200×200×270×130≈10.256.由10.256>6.635知,有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表; (2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断. 2.解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体;②明确研究的两个问题; (2)两个准确:①准确画出2×2列联表;②准确理解K 2.[学会用活]2.(2020·新高考全国卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:SO 2PM2.5[0,50] (50,150] (150,475][0,35] 32 18 4 (35,75] 6 8 12 (75,115]3710(1)2”的概率; (2)根据所给数据,完成下面的2×2列联表:SO 2PM2.5[0,150] (150,475][0,75] (75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828解:(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:SO 2PM2.5[0,150] (150,475] [0,75] 64 16 (75,115]1010(3)根据(2)的列联表得K 2=100×(64×10-16×10)280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关.限时规范训练 基础夯实练1.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x解析:选D 由散点图可以看出,点大致分布在对数型函数的图象附近. 2.(2021·安徽合肥一中模拟)下列有关回归分析的论断不正确的是( ) A .若相关系数r 满足|r |越接近1,则这两个变量相关性越强 B .若相关指数R 2越大,则模型的拟合效果越好 C .若所有样本点都在y ^=b ^x +a ^上,则线性相关系数r =1D .残差图的带状区域的宽度越窄,模型拟合的精度越高,回归方程的预报精度越高 解析:选C 若所有样本点都在y ^=b ^x +a ^上,则线性相关系数r =1或-1,所以C 选项错误,故选C .3.(2021·河南洛阳月考)某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价x (元)和销售额y (元)的数据,整理得到下面的散点图:已知销售额y =单价x ×销量z ,根据散点图,下面四个回归方程类型中最适宜作为服装销量z 与单价x 的回归方程类型的是( )A .z =a +bxB .z =a +bxC .z =a +bx 2D .z =a +be x解析:选B 由散点图可知,y 与x 成线性相关,设回归方程为y =m +kx ,由题意z =yx ,所以z =mx+k ,对应B 最适合.故选B .4.(2021·安徽合肥二模)2020年初,从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民的生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量y 与温度x 的关系可以用模型y =c 1e c 2x 拟合,设z =ln y ,其变换后得到一组数据:x 20 23 25 27 30 z22.4334.6由上表可得线性回归方程z =0.2x +a ,则c 1=( )A .-2B .e -2 C .3D .e 3解析:选B 由表格数据知:x =15(20+23+25+27+30)=25,z =15(2+2.4+3+3+4.6)=3,代入z ^=0.2x +a ^得a ^=3-0.2×25=-2,∴z =0.2x -2,即ln y =0.2x -2,∴y =e 0.2x-2=e -2·e 0.2x ,∴c 1=e -2,故选B .5.(2021·黑龙江大庆模拟)下列描述中正确命题的个数为( ) ①最小二乘法的原理是使得∑i =1n[y i -(a +bx i )]2最小②样本相关系数r 越大,相关程度越大③设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 减少5个单位 A .0 B .1 C .2D .3解析:选B 对于①,最小二乘法是使得样本数据点到回归直线的距离的评分和最小的方法,即使得∑i =1n[y i -(a +bx i )]2最小,故①正确;对于②,相关系数r 为负数时,样本相关系数r 越大,相关程度越小,故②错误;对于③,变量x 增加一个单位时,y 平均减少5个单位,故③错误;所以正确命题的个数为1个.故选B .6.(2021·山西太原三模)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:由表中数据可得y 关于x 的回归方程为y =55x 2+m ,则据此回归模型相应于点(2,173)的残差为( )A .-5B .-6C .3D .2解析:选B 令t =x 2,则y =55t +m ,t =1+4+9+16+255=11,y =15+173+457+842+13335=564,所以564=55×11+m ,m =-41,所以y =55x 2-41,当x =2时,y =55×22-41=179,所以残差为173-179=-6.故选B .7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据.(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为 .解析:由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,解得a =68. 答案:688.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手 非生产能手总计 25周岁以上 25 35 60 25周岁以下10 30 40 总计3565100有 以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%9.(2021·安徽合肥模拟)树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A 树木,某农科所为了研究A 树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A 树木,调查得到A 树木根部半径x (单位:米)与A 树木高度y (单位:米)的相关数据如表所示:(1)求y 关于x (2)对(1)中得到的回归方程进行残差分析,若某A 树木的残差为零则认为该树木“长势标准”,在此片树林中随机抽取1棵A 树木,估计这棵树木“长势标准”的概率.参考公式:回归直线方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .解:(1)由x =16×(0.1+0.2+0.3+0.4+0.5+0.6)=0.35,y =16×(1.1+1.3+1.6+1.5+2.0+2.1)=1.6,∑i =16x i y i =0.1×1.1+0.2×1.3+0.3×1.6+0.4×1.5+0.5×2.0+0.6×2.1=3.71,∑i =16x 2i =0.12+0.22+0.32+0.42+0.52+0.62=0.91,有b ^=∑i =16x i y i -6x y∑i =16x 2i -6x2=3.71-6×0.35×1.60.91-6×0.352=2,a ^=y -b ^x =1.6-2×0.35=0.9,故y 关于x 的回归方程为y ^=2x +0.9.(2)当x =0.1时,y ^=2×0.1+0.9=1.1,残差为1.1-1.1=0, 当x =0.2时,y ^=2×0.2+0.9=1.3,残差为1.3-1.3=0, 当x =0.3时,y ^=2×0.3+0.9=1.5,残差为1.6-1.5=0.1, 当x =0.4时,y ^=2×0.4+0.9=1.7,残差为1.5-1.7=-0.2,当x =0.5时,y ^=2×0.5+0.9=1.9,残差为2.0-1.9=0.1, 当x =0.6时,y ^=2×0.6+0.9=2.1,残差为2.1-2.1=0, 由这6棵A 树木中残差为零的有3棵,占比为36=12,∴这棵树木“长势标准”的概率为12.综合提升练10.(2021·广东肇庆模拟)如图是相关变量x ,y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y ^=b 1x +a ^1,相关系数为r 1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y ^=b 2x +a ^2,相关系数为r 2.则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0解析:选D 根据相关变量x ,y 的散点图知,变量x ,y 具有负线性相关关系,且点(10,21)是离群值;方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以相关系数-1<r 2<r 1<0.故选D .11.(2021·南昌一模)某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且线性回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%解析:选D 因为y 与x 具有线性相关关系,且满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.12.为了丰富教职工业余文化生活,某校计划在假期组织70名教师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男教师选择方案一,有75%的女教师选择方案二,且选择方案一的教师中女教师占40%,则参照附表,得到的正确结论是( )附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”解析:选C 设该校男教师的人数为x ,女教师的人数为y ,则可得如下表格:方案一 方案二男老师 0.5x 0.5x x 女老师 0.25y 0.75y y0.5x +0.25y0.5x +0.75yx +y由题意0.25y 0.5x +0.25y =0.4,可得y x =43,可得x =30,y =40,则K 2=70×(15×30-15×10)225×45×30×40≈4.667>3.841,但4.667<5.024,所以无97.5%以上但有95%以上的把握认为“选择方案与性别有关”.故选C .13.(2020·安徽蚌埠市第三次质检)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则 (填“能”或“不能”)有99%以上的把握认为是否持乐观态度与国内外差异有关.附K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k 0)0.0500.0100.0050.001k 0 3.841 6.635 7.879 10.828解析:由题意可得列联表如下:不乐观 乐观 合计 国内代表 40 60 100 国外代表 60 40 100 合计100100200则K 2=200×(40×40-60×60)2100×100×100×100=8>6.635,所以有99%以上的把握认为是否持乐观态度与国内外差异有关.答案:能14.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数为 .解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.答案:1创新应用练15.(2021·江苏南通三模)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.下表是某市一主干道路口监控设备所抓拍的5个月内驾驶员不“礼让行人”行为统计数据:月份 1 2 3 4 5 违章驾驶人次1251051009080(1)y 关于x 的回归方程y ^=b ^x +a ^,并预测该路口7月份不“礼让行人”违规驾驶人次;(2)交警从这5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下表:不礼让行人礼让行人 驾龄不超过2年 24 16 驾龄2年以上2624结论判断的体会.附:b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x . K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 k 02.0722.7063.8415.0246.635解:(1)由表中数据知,x =1+2+3+4+55=3,y =125+105+100+90+805=100,所以∑i =15(x i -x )(y i -y )=-50-5+0-10-40=-105,∑i =1n(x i -x )2=4+1+0+1+4=10,所以b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2=-10510=-10.5,a^=100-(-10.5)×3=131.5.所以y^=-10.5x+131.5,所以令x=7,则y^=-10.5×7+131.5=58人,故预测该路口7月份不“礼让行人”违规驾驶人次为58人次.(2)根据表中的列联表补全得下表:故K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=90×(24×24-16×26)250×40×40×50≈0.58<2.706,所以没有90%的把握认为“礼让行人行为”与驾龄有关.礼让行人是一种良好的驾驶习惯,无论驾龄多少,都需遵守规章,礼让行人.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
返回
(2)∵ xiyi=3 245, x =25, y =15.43, x2=5 075,7( x )2=4 375,7x y=2 695 i
i= 1 i= 1
7
7
--
y xiyi-7 x ·
i= 1
7
^ ∴b =
≈0.79,
xi2-7 x 2
i= 1
7
^= y -b x =-4.32,∴回归直线方程是y =0.79x-4.32. ^ a (3)进店人数80人时,商品销售的件数y=0.79×80-4.32≈59件.
本容量). 2.用K2的大小可以决定是否拒绝原来的统计假设H0,若K2 值较大,就拒绝H0,即拒绝事件A与B无关. 3.当K2≥3.841时,则有95%的把握说事件A与B有关; 当K2≥6.635时,则有99%的把握说事件A与B有关; 当K2≤2.706时,则认为事件A与B无关.
返回
返回
1.(教材习题改编)某商品销售量y(件)与销售价格x (元/件)负相关,则其回归方程可能是 ^ A.y =-2x+100 ^ C.y =-2x-100 ( )
返回
4.在一项打鼾与患心脏病的调查中,共调查了1 671人,经 过计算K2的观测值k=27.63,根据这一数据分析,我们 有理由认为打鼾与患心脏病是_______的(有关,无关). 解析:k=27.63>10.828,有99.9%的把握认为打鼾与 患心脏病有关. 答案:有关
返回
5.已知x、y的取值如下表所示: x y 0 2.2 1 4.3 3 4.8 4 6.7
^= a
^ y -b x .
n
^ ^ Q= yi-b xi-a 2 的最小值而得到回归直线的方 3.通过求
i= 1
法,即求回归直线,使得样本数据的点到它的距离的平 方和最小,这一方法叫做最小二乘法.
返回
4.相关系数 当r>0时,表明两个变量 正相关 ;
当r<0时,表明两个变量 负相关 .
r的绝对值越接近于1,表明两个变量的线性相关性 越强 .r的绝对值越接近于0时,表明两个变量之间 几乎不存在线性相关关系 .通常|r|大于0.75 时,认 为两个变量有很强的线性相关性.
返回
三、独立性检验 1.2×2列联表:假设有两个分类变量X和Y,它们的值 域分别为{x1,x2}和{y1,y2},其样本频数列联表 (称2×2列联表)为: y1 y2 总计 a+b c+d a+b+c+d
x1 x2
总计
a c
a+c
b d
b+d
返回
nad-bc2 K2= a+ba+cb+dc+d (其中n=a+b+c+d为样
返回
[冲关锦囊]
1.最小二乘法估计的一般步骤: (1)作出散点图,判断是否线性相关; ^ ^ (2)如果是,则用公式求a 、b ,写出回归方程; (3)根据方程进行估计. 2.回归直线方程恒过点( x , -). y
返回
[精析考题] [例3] (2011· 湖南高考)通过随机询问110名性别不同的大 学生是否爱好某项运动,得到如下的列联表: 男 爱好 不爱好 40 20 女 20 30 总计 60 50
有关.”
[答案] A
返回
[巧练模拟]—————(课堂突破保分题,分分必保!)
5.(2012· 郑州模拟)某中学对高二甲、乙两个同类班级 进行“加强„语文阅读理解‟训练对提高„数学应用题‟得 分率作用”的试验,其中甲班为试验班(加强语文阅读 理解训练),乙班为对比班(常规教学,无额外训练), 在试验前的测试中,甲、乙两班学生在数学应用题上
^ ^ ^ (1)利用所给数据求年需求量与年份之间的回归方程y =b x+a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.
返回
[自主解答]
(1)由所给数据看出,年需求量与年份之间
是近似直线上升,下面来配回归直线方程.为此对数据 预处理如下:
年份-2006
-4
-2
-11
0
0
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该 项运动与性别无关”
返回
[自主解答]
根据独立性检验的定义,由K2≈7.8>6.635
可知我们有99%以上的把握认为“爱好该项运动与性别
返回
[巧练模拟]——————(课堂突破保分题,分分必保!) 1.(2012· 潮州月考)观察下列各图形:
返回
其中两个变量x、y具有相关关系的图是 A.①② B.①④
(
)
C.③④
D.②③
解析:由散点图知③④具有相关关系. 答案: C
返回
2.(2012· 镇江联考)如图所示,有5组 (x,y)数据,去掉________组数据 后,剩下的4组数据具有较强的线 性相关关系.
返回
解析:由散点图知呈带状区域时有较强的线性相关关系,
故去掉D. 答案: D
返回
[冲关锦囊] 相关关系的直观判断方法就是作出散点图,若散 点图呈带状且区域较窄,说明两个变量有一定的线性相 关性,若呈曲线型也是有相关性,若呈图形区域且分布
较乱则不具备相关性.
返回
[精析考题] [例2] (2011· 安徽高考)某地最近十年粮食需求量逐年上升,下表 是部分统计数据: 年份 需求量(万吨) 2002 2004 2006 2008 2010 236 246 257 276 286
考查基本思想的应用及基本运算.
返回
返回
一、变量间的相关关系
1.常见的两变量之间的关系有两类:一类是函数关系, 另一类是 相关关系 ;与函数关系不同, 相关关系 是 一种非确定性关系. 2.从散点图上看,点分布在从左下角到右上角的区域 内,两个变量的这种相关关系称为 正相关 ,点分布 在左上角到右下角的区域内,两个变量的相关关系 为 负相关 . 返回
二、两个变量的线性相关 1.从散点图上看,如果这些点从整体上看大致分布在通 过散点图中心的一条直线附近,称两个变量之间具有 线性相关关系 ,这条直线叫 回归直线 .
返回
xiyi-n x y
i= 1 ^=b x+a ^ y ^ ^ 2.回归直线方程为 ,其中b =
n
,
n
x2-n x 2 i
i= 1
(2)利用直线方程①,可预测2012年的粮食需求量为 6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2 (万吨)≈300(万吨).
返回
[巧练模拟]———————(课堂突破保分题,分分必保!)
3.(2012· 盐城调研)已知x,y之间的一组数据如下表: x 2 3 4 5 6
出它们之间贴近的数学表达式;
(2)根据一组观察值,预测变量的取值及判断变量取 值的变化趋势; (3)求出回归方程. 返回
2.独立性检验思想的理解 独立性检验的思想类似于反证法,即要确定“两个变量X与Y 有关系”这一结论成立的可信度,首先假设结论不成立,即它 们之间没有关系,也就是它们是相互独立的,利用概率的乘法 公式可推知,(ad-bc)接近于零,也就是随机变量K2= nad-bc2 应该很小,如果计算出来的K2的观测 a+bc+da+cb+d 值k不是很小,通过查表P(K2≥k0)的概率很小.又根据小概率事 件不可能发生,由此判断假设不成立,从而可以肯定地断言X 与Y之间有关系.
答案: A
返回
3.已知x,y之间的数据如表所示,则回归直线过点( x y A.(0,0) C.(3,2.5) 1 1.2 2 1.8 3 2.5 B.(2,1.8) D.(4,3.2) 4 3.2 5 3.8
)
返回
解析:回归直线恒过定点( x , y ),故 x =3, y =2.5.
答案: C
的得分率基本一致,试验结束后,统计几次数学应用
数公式建立线性回归方程.
3.了解下列常见的统计方法,并能应用这些方法解决一些 实际问题.
(1)了解独立性检验(只要求2×2列联表)的基本思想、方
法及其简单应用. (2)了解回归的基本思想、方法及其简单应用. 返回
怎 么 考 1.回归分析与独立性检验的考查呈现逐年升温的趋势. 2.题型多为客观试题,部分地区考查的答题(如安徽卷)多
第 九 章 统 计、 统 计 案 例 及 算 法 初 步
第 三 节 变 量 间 的 相 关 关 系 统 计 案 例
抓 基 础 明 考 向
教 你 一 招 我 来 演 练
提 能 力
[备考方向要明了]
考 什 么 1.会作两个有关联变量数据的散点图,会利用散点图认识 变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系
y
3
4
6
8
9
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1; 8 2 3 ③y=5x-5;④y=2x,则根据最小二乘法的思想得拟合程度最好 的直线是________(填序号).
返回
^=8 解析:由题知 x =4, y =6.∴b 5 2 ^ ^ ∴a = y -b x =-5. 2 ^ 8 ∴y =5x-5.故选③
量V与U之间的线性相关系数,则 ( A.r2<r1<0 C.r2<0<r1 ) B.0<r2<r1 D.r2=r1 返回
[自主解答] 对于变量Y与X而言,Y随X的增大而增大,
故Y与X正相关,即r1>0;对于变量V与U而言,V随U的
增大而减小,故V与U负相关,即r2<0,所以有r2<0<r1. [答案] C
^ B.y =2x+100 ^ D.y =2x-100
^ 解析:B、D为正相关,C中y 值恒为负,不符合题意.
答案: A
返回