2013届高考数学(理)一轮复习课件:第十篇 统计、统计案例第3讲 变量间的相关关系与统计案例)
高考数学一轮复习 10.3变量间的相关关系、统计案例课件 文 湘教版
3/24/2019
2.回归方程 (1)最小二乘法 求回归直线使得样本数据的点到回归直线的 距离的平方和 最小 的方法叫做最小二乘法. (2)回归方程 ˆ bx a 是两个具有线性相关关系的变量的一组数据 方程 y (x1,y1) , (x2,y2) ,…, (xn,yn)的回归方程,其中 a,b 是待定参数.
3/24/2019
3/24/2019
*5.独立性检验 不同类别 (1)分类变量:变量的不同“值”表示个体所属的 __________, 像这样的变量称为分类变量. 频数表 ,称为列联表. (2)列联表:列出两个分类变量的________ 假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和 {y1,y2},其样本频数列联表(称为2×2列联表)为 2×2列联表
3.回归分析 相关关系 的两个变量进行统计分析的 (1)定义:对具有__________ 一种常用方法. (2)随机误差:线性回归模型用y=bx+a+e表示,其中a 未知参数 ,___ e 称为随机误差. 和b为模型的__________
3/24/2019
(4)相关系数
xi- x yi- y
【解析】 据相关指数的定义可知,相关指数R2的值越大,
残差平方和越小,即模型的拟合效果越好.
【答案】 A
3/24/2019
3.有关线性回归的方法,不正确的是 ( ) A.相关关系的两个变量是非确定关系 B.散点图能直观地反映数据的相关程度 C.回归直线最能代表线性相关的两个变量之间的关系 D.散点图中的点越集中,两个变量的相关性越强
【解析】( x0 , y0 )为这 10 组数据的平均值,又因为回归直线=x +必过样本中心点( x, y ),因此( x0 , y0 )一定满足线性回归方程, 但坐标满足线性回归方程的点不一定是( x, y ). 【答案】B
第3讲 变量间的相关关系与统计案例
K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1
高考数学一轮复习第十章统计与统计案例10.3变量间的相关关系、统计案例学案理
§10.3 变量间的相关关系、统计案例考纲展示►1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用.考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是________;与函数关系不同,________是一种非确定性关系.答案:相关关系 相关关系2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________,点散布在左上角到右下角的区域内,两个变量的相关关系为________.答案:正相关 负相关对回归系数的理解:解释变量;预报变量.某工厂工人月工资y (元)依劳动产值x (万元)变化的回归直线方程为y ^=900x +600,下列判断正确的是__________.①劳动产值为10 000元时,工资为500元; ②劳动产值提高10 000元时,工资提高1 500元; ③劳动产值提高10 000元时,工资提高900元; ④劳动产值为10 000元时,工资为900元. 答案:③解析:回归系数b ^的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位.[典题1] (1)下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )A BC D[答案] D[解析] 观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.(2)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ [答案] D[解析] 由回归方程y ^=b ^x +a ^知,当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.[点石成金] 相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.考点2 线性回归分析1.回归分析对具有________的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求________;(ⅲ)用回归直线方程作预报.答案:相关关系 回归直线方程 2.回归直线如果散点图中点的分布从整体上看大致在________附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.答案:一条直线3.回归直线方程的求法——最小二乘法设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=b ^x +a ^的系数为:⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x2= ,a ^=y -b ^x ,其中x =1n ∑i =1n x i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的________.答案:∑i =1nx i y i -n x y∑i =1nx 2i -n x 2中心4.相关系数当r >0时,表明两个变量________; 当r <0时,表明两个变量________.r 的绝对值越接近于1,表明两个变量的线性相关性________.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.答案:正相关 负相关 越强[教材习题改编]已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为__________.答案:y ^=1.23x +0.08解析:设回归直线方程为y ^=1.23x +a ^, 因为回归直线必过样本点的中心(x ,y ), 将点(4,5)代入回归直线方程得a ^=0.08, 所以所求方程为y ^=1.23x +0.08.变量的相关关系:散点图;回归直线过(x ,y ).某工厂经过技术改造后,生产某种产品的产量x (吨)与相应的生产能耗y (吨标准煤)有如下几组样本数据.x 3 4 5 6 y2.5344.50.7,那么当产量x =10吨时,估计相应的生产能耗为__________吨标准煤.答案:7.35解析:先求得x =4.5,y =3.5,由y ^=0.7x +a ^过点(x ,y ),得a ^=0.35, 所以回归直线方程是y ^=0.7x +0.35.当x =10吨时,y ^=7+0.35=7.35(吨标准煤).[典题2] (1)已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.34.86.7A.3.25 C .2.2D .0[答案] B[解析] 由已知得x =2,y =4.5, 因为回归方程经过点(x ,y ), 所以a ^=4.5-0.95×2=2.6.(2)由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.①求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; ②(ⅰ)判断变量x 与y 之间是正相关还是负相关; (ⅱ)当使用年限为8年时,试估计支出的维修费是多少.附:在线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.[解] ①∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2. ②(ⅰ)由①知,b ^=1.2>0, ∴变量x 与y 之间是正相关.(ⅱ)由①知,当x =8时,y ^=9.8,即使用年限为8年时,支出维修费约是9.8万元. [点石成金] 1.正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.2.回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2006 2008 2010 2012 2014 需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=b ^x +a ^; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:年份-2 010 -4 -2 0 2 4 需求量-257-21-111929对预处理后的数据,容易算得,x =0,y =3.2,b ^=-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2. 由上述计算结果知,所求回归直线方程为 y ^-257=b ^(x -2 010)+a ^=6.5(x -2 010)+3.2, 即y ^=6.5×(x -2 010)+260.2.(2)利用(1)中所求回归直线方程,可预测2016年的粮食需求量为6.5×(2 016-2 010)+260.2=6.5×6+260.2=299.2(万吨).考点3 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n ad-bc2a+b a+c b+d c+d(其中n=________为样本容量),则利用独立性检验判断表来判断“X与Y的关系”.答案:a+b+c+d(1)[教材习题改编]为调查中学生的近视情况,测得某校150名男生中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,最有说服力的方法是________.(填序号)①回归分析;②期望与方差;③独立性检验;④概率.答案:③解析:“近视”与“性别”是两个分类变量,其是否有关,应该用独立性检验来判断.(2)[教材习题改编]在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得出“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,有下列四种说法:①100个吸烟者中至少有99人患有肺癌;②1个人吸烟,那么这人有99%的概率患有肺癌;③在100个吸烟者中一定有患肺癌的人;④在100个吸烟者中可能一个患肺癌的人也没有.其中正确说法的序号是________.答案:④对独立性检验的理解:K2的计算;对P(K2≥k0)的解释.[2017·湖南张家界模拟]某高校教“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:专业性别非统计专业统计专业男1310女720 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K2的观测值k=50×13×20-10×7223×27×20×30≈4.844.因为k>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828 答案:5%解析:∵k>3.841,查临界值表,得P(K2≥3.841)=0.05,故这种判断出错的可能性为5%.[典题3] (1)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:理科文科总计男131023女72027总计203050已知P2P(K2≥5.024)≈0.025.根据表中数据,得到K2=50×13×20-10×7223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.[答案]5%[解析]由K2≈4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.(2)[2017·江西九江模拟]某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生的成绩分为6组,得到如下所示的频数分布表.分数段[40,50)[50,60)[60,70)[70,80)[80,90)[90,100] 男39181569女64510132①估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;②规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.优分 非优分 总计 男生 女生 总计100附表及公式:P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.841 6.63510.828K 2=n ad -bc 2a +bc +d a +cb +d.[解] ①x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.②由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:优分 非优分 总计 男生 15 45 60 女生 15 25 40 总计3070100可得K 2=100×15×25-15×45260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”. [点石成金] 1.独立性检验的关键是正确列出2×2列联表,并计算出K 2的值. 2.弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.[2017·广西玉林、贵港联考]某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下; 月收入 (单位: 百元) [15, 25)[25, 35)[35, 45)[45, 55)[55, 65)[65, 75]赞成定 价者人数 1 2 3 5 3 4认为价 格偏高 者人数4812521“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填写下面的2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.月收入低于 55百元的人数月收入不低于 55百元的人数总计认为价 格偏高者赞成 定价者 总计附:K 2=a +bc +d a +c b +d. P (K 2≥k 0)0.05 0.01 k 03.8416.635解:x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:月收入低于55百元的人数月收入不低于55百元的人数总计认为价格偏高者29332 赞成定价者11718 总计401050 K2=50×7×29-3×11210×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.[方法技巧] 1.求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b^,常数项为a^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.[易错防范] 1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.真题演练集训1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元) 6.27.58.08.59.8 根据上表可得回归直线方程y=b x+a,其中b=0.76,a=y-b x.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元 B.11.8万元C.12.0万元 D.12.2万元答案:B解析:由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,∴a^=8-0.76×10=0.4,∴当x=15时,y^=0.76×15+0.4=11.8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i=17y i=9.32,∑i=17t i y i=40.17,i=17y i-y2=0.55,7≈2.646.参考公式:相关系数r=∑i=1nt i-t y i-y∑i=1nt i-t2∑i=1ny i-y2,回归方程y^=b^t+a^中斜率和截距的最小二乘估计公式分别为b^=∑i=1nt i-t y i-y∑i=1nt i-t2,a^=y-b^t.解:(1)由折线图中数据和附注中参考数据,得t =4,∑i =17(t i -t)2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t)(y i -y )=∑i =17t i y i -t∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1),得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程,得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.3.[2015·新课标全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑i =18(x i∑i =18(w i∑i =18(x i -∑i =18(w i --x )2-w )2x )(y i -y )w )(y i -y )46.65636.8289.81.61 469108.8表中w i =x i ,w =18∑i =18x i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+β u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.4.[2014·新课标全国卷Ⅱ]某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3.所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.课外拓展阅读 统计案例问题的规范答题[典例] [2013·福建卷]某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828附:K 2=a +bc +d a +cb +d.[审题视角] 由频率分布直方图列举基本事件,结合古典概型,求概率.利用独立性检验公式计算K 2.[解] (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:生产能手 非生产能手总计 25周岁以上组 15 45 60 25周岁以下组15 25 40 总计3070100所以K 2=n ad -bc 2a +bc +d a +cb +d=100×15×25-15×45260×40×30×70=2514≈1.79. 因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. [答题模板] 第1步:由分层抽样计算两组工人的数目; 第2步:由频率分布直方图计算两组不足60件的人数; 第3步:列举5人抽取2人的基本事件数; 第4步,由古典概型计算概率;第5步:统计生产能手与非生产能手,列2×2列联表; 第6步:由公式计算K 2,确定答案. 归纳总结(1)分层抽样比为100500=15,故25周岁以上有300×15=60(人),25周岁以下的200×15=40(人),然后再根据频率计算“不足60件”的人数,并设定符号.(2)列2×2列联表时,其中的数字应先由频率分布直方图算出后再列表.。
高考数学一轮复习第十章统计与统计案例第三节变量间的相关关系、统计案例课件理
[典题 3] (2016·九江模拟)某校数学课外兴趣小组为研 究数学成绩是否与性别有关,先统计本校高三年级每个学生 一学期数学成绩平均分(采用百分制),剔除平均分在 40 分以 下的学生后,共有男生 300 名,女生 200 名.现采用分层抽 样的方法,从中抽取了 100 名学生,按性别分为两组,并将 两组学生成绩分为 6 组,得到如下所示频数分布表.
n
xi--x yi--y
n xiyi-n-x -y
i=1
=
i=1
=
,^a=-y -^b-x ,其中^b是
n
xi--x 2
n x2i -n-x 2
i=1
i=1
回归方程的 斜率(x,ié^alǜ是) 在 y 轴上的 截距 .
第六页,共43页。
③样本中心:对于一组具有线性相关关系的数据(x1,y1), (x2,y2),…,(xn,yn)中(-x ,-y )称为样本点的中心.
附表及公式 K2=a+bcn+add-ab+cc2b+d
第三十五页,共43页。
[ 听 前 试 做 ] (1) x 男 = 45×0.05 + 55×0.15 + 65×0.3 + 75×0.25+85×0.1+95×0.15=71.5,
第二十页,共43页。
[听前试做] (1)观察散点图可知,只有 D 选项的散点图表 示的是变量 x 与 y 之间具有负的线性相关关系.
(2)由散点图可以看出两个变量所构成的点在一条直线附 近,所以线性相关关系较强,且应为正相关,所以回归直线方 程的斜率应为正数,且从散点图观察,回归直线方程的斜率应 该比 y=x 的斜率要小一些,综上可知应选 B.
(4)样本相关系数
n
xi--x yi--y
人教版高三数学(理)一轮总复习PPT课件:10-3 变量间的相关关系、统计案例
把脉高考 理清考情
考点研析 题组冲关 素能提升 学科培优
课时规范训练
第1页
返回导航
数学
第2页
返回导航
数学
第 3 课时
变量间的相关关系、统计案例
第3页
返回导航
数学
1.以实际生活问题为背景,利用统计表格中的数据与 已知的回归系数求解线性回归直线方程,并根据线性 考纲 回归直线方程进行估计、预算等. 点击 2.以实际生活问题为背景,获取 2×2 列联表,代入 K2 计算公式求值, 并根据其所在区间对两组数据的相 互独立性进行判断.
根据上表可得回归直线方程 y^=b^x+a^, 其中 b^=0.76, a^ =y-b^ 出为( x.据此估计,该社区一户年收入为 15 万元家庭的年支 ) B.11.8 万元 D.12.2 万元
A.11.4 万元 C.12.0 万元
第8页
返回导航
数学
8.2+8.6+10.0+11.3+11.9 解析:选 B.由题意知,x= =10, 5 6.2+7.5+8.0+8.5+9.8 y= =8, 5 ∴∧ a =8-0.76×10=0.4, ∴当 x=15 时,∧ y =0.76×15+0.4=11.8(万元).
3 757 160 ,
2 2 2 则 K2 > K > K > K 4 2 3 1 , 所以阅读量与性别有关联的可能性最
大.
第15页
返回导航
数学
4. (2014· 高考课标全国卷Ⅱ)某地区 2007 年至 2013 年农村居 民家庭人均纯收入 y(单位:千元)的数据如下表: 年份 年份代 号t 人均纯 收入 y 2007 2008 2009 2010 2011 2012 2013 1 2 3 4 5 6 7
最新高考数学(理)一轮复习讲义 变量间的相关关系、统计案例
B.52,50
C.52,74
D.74,52
解析:选 C.因为 a+21=73,所以 a=52.又 a+22=b,所以 b=74.
3.(必修 3P90 例题改编)某研究机构对高三学生的记忆力 x 和判断力 y 进行统计分析,
所得数据如表:
x 6 8 10 12 y23 5 6 则 y 对 x 的线性回归直线方程为( )
回归直线方程为^y=0.7x-2.3.故选 C.
一、思考辨析 判断正误(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件 X,Y 的关系越密切,由观测数据计算得到的 K2 的观测值越大.( ) (5)通过回归方程y^=b^x+a^可以估计和观测变量的取值和变化趋势.( ) 答案:(1)× (2)√ (3)√ (4)√ (5)√ 二、易错纠偏 常见误区|K(1)混淆相关关系与函数关系; (2)对独立性检验 K2 值的意义不清楚; (3)不知道回归直线必过样本点中心. 1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分 别反映的变量间的相关关系是( )
A.回归分析
B.均值与方差
C.独立性检验
D.概率
解析:选 C.“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
2.(选修 23P97 练习改编)下面是 2×2 列联表:
y1 y2 合计
x1
a 21 73
x2
22 25
47
合计 b 46 120Fra bibliotek则表中 a,b 的值分别为( )
2013届高考北师大版数学总复习课件:10.3变量间的相关关系
0+1+ 3+4 [解析] ∵ x = =2, 4 2.2+4.3+4.8+6.7 y= =4.5, 4 ∴a= y -0.95 x =4.5-0.95×2=2.6.
• 7.下面是水稻产量与施化肥量的一组观测 施化肥 数据: 15 20 25 30 35 40 45 量 水稻产 320 330 360 410 460 470 480 量
知识梳理 1.散点图 (1)将变量所对的点描出来,就组成了变量之间的一个图, 这种图为变量之间的 散点图 .
(2)从散点图上可以看出,如果变量之间存在着某种关系,这
光滑的曲线来 些点会有一个集中的大致趋势,这种趋势可用一条
近似,这种近似的过程称为曲线拟合.
若两个变量 x 和 y 的散点图中,所有点看上去都在一条直 线附近波动, 则称变量间是 线性相关 的. 若所有点看上去都 在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关 _________ 的.如果所有的点在散点图中没有显示任何关系,则称变量间 是不相关的.
[答案] C
[解析] 回归直线必过点(4,5),故其方程为 y-5=1.23(x -4),即 y=1.23x+0.08,故选 C.
• 2 . 对变量 x , y 有观测数据 (xi , yi)(i = 1,2 , …,10),得散点图1;对变量u,v有观测数 据 (ui , vi)(i = 1,2 , … , 10) ,得散点图 2. 由 这两个散点图可以判断.( )
2.回归方程 (1)最小二乘法 如果有 n 个点:(x1,y1),(x2,y2),…,(xn,yn)可以用下 面的表达式来刻画这些与 直线 y=a+bx 的接近程度: [y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2 使得上式达到最小值的 直线 y=a+bx 就是我们要求 的直线,这种方法称为最小二乘法.
【走向高考】高三数学一轮总复习 10-3变量间的相关关系课件 北师大版
(2)回归直线方程 回归直线方程 y=a+bx 中
i=1
xi- x yi- y xi- x 2
nnBiblioteka b=i=1i=1
xiyi-n x y
2 - n x x2 i n
n
=
i=1
a= y -b x x1+x2+…+xn y1+y2+…yn 其中 x = ,y= n n
走向高考· 数学
北师大版 ·高考一轮总复习
路漫漫其修远兮 吾将上下而求索
第十章
统计、统计案例
第十章
第三节 变量间的相关关系
高考目标
3
课堂典例讲练
课前自主预习
4
思想方法点拨
5
课后强化作业
高考目标
考纲解读 1.会作两个有关联变量的数据的散点图,会利用散点图 认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程 系数公式建立线性回归方程.
3.(2012· 南昌模拟)某商品销售量 y(件)与销售价格 x(元/ 件)负相关,则其回归方程可能是( ^ A.y=-10x+200 ^ C.y=-10x-200 )
^ B.y=10x+200 ^ D.y=10x-200
[答案]
A
[解析]
因为销量与价格负相关,由函数关系考虑为减函
数,又因为 x,y 不能为负数,再排除 C,故选 A.
[答案] C
[解析]
回归直线必过点(4,5),故其方程为 y-5=1.23(x
-4),即 y=1.23x+0.08,故选 C.
5. (2011· 辽宁理, 14)调查了某地若干户家庭的年收入 x(单 位:万元)和年饮食支出 y(单位:万元),调查显示年收入 x 与 年饮食支出 y 具有线性相关关系, 并由调查数据得到 y 对 x 的 ^ 回归直线方程:y=0.254x+0.321.由回归直线方程可知,家庭 年收入每增加 1 万元,年饮食支出平均增加________万元.
高考数学一轮复习第十章统计与统计案例103变量的相关性与统计案例课件苏教版
核心素养测评
结束语
同学们,你们要相信梦想是价值的源泉,相信成 功的信念比成功本身更重要,相信人生有挫折没 有失败,相信生命的质量来自决不妥协的信念, 考试加油。
必备知识·自主学习
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0;Ⅰ与Ⅱ没有关系.
(2)根据2×2列联表与公式χ2=
n(adbc)2
计算χ2的值.
(ab)(cd)(ac)(bd)
(3)参照表中临界值,作出判断.
必备知识·自主学习
2.回归分析 (1)线性回归方程 直线 yabx 称为线性回归方程.
23272030
必备知识·自主学习
【解析】χ2≈4.844,这表明小概率事件发生. 根据假设检验的基本原理,应该断定有95%的把握认为选修文科与性别之间有关 系. 答案:95%
核心素养·微专题
核心素养 数据分析——线性回归方程应用中的数据分析能力 【素养诠释】
在现实生活中有许多问题应当先做调查研究,收集数据,通过分析作出判 断,体会数据中蕴涵的信息;对于同样的数据可以有多种分析的方法,需要根据 问题的背景选择合适的方法;通过数据分析体验随机性,一方面,对于同样的事 情每次收集到的数据可能不同;另一方面,只要有足够的数据就可以从中发现 规律.数据分析是统计的核心.
经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪
个回归模型更好.
核心素养·微专题
(3)已知利润z与x,y的关系为z=200y-x. 根据(2)的结果回答:当广告费x=20时,销售量及利润的预测值是多少?(精确到 0.01)参考数据: 5 ≈2.236.
核心素养·微专题
【教材·知识梳理】 1.独立性检验 一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸 烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得 到如下列联表所示的抽样数据:
高考数学一轮复习 第十章 统计、统计案例 第3讲 变量相关关系与统计案例教案 理(含解析)
第3讲变量相关关系与统计案例基础知识整合1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非□01确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为□02正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为□03负相关.2.回归方程与回归分析(1)线性相关关系与回归直线如果散点图中点的分布从整体上看大致在□04一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程①最小二乘法:求回归直线使得样本数据的点到回归直线的□05距离的平方和最小的方法叫做最小二乘法.②回归方程:方程y^=b^x+a^是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的回归方程,其中a^,b^是待定数.⎩⎪⎪⎨⎪⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x 2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a^=y -b ^x .(3)回归分析①定义:对具有□06相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心:在具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,x =1n(x 1+…+x n ),y =1n(y 1+…+y n ),a ^=y -b ^x ,(x ,y )称为样本点的中心.③相关系数r =∑i =1nx i -xy i -y∑i =1nx i -x2∑i =1ny i -y2,当r >0时,两变量□07正相关;当r <0时,两变量□08负相关;当|r |≤1且|r |越接近于1,相关程度□09越强;当|r |≤1且|r |越接近于0,相关程度□10越弱. 3.独立性检验(1)独立性检验的有关概念①分类变量可用变量的不同“值”表示个体所属的□11不同类别的变量称为分类变量.②2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(2)独立性检验利用随机变量K2=n ad-bc2a+b c+d a+c b+d(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:①计算随机变量K2的观测值k,查表确定临界值k0:②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内;负相关:样本点分布在从左上角到右下角的区域内.3.回归直线y^=b^x+a^必过样本点的中心.1.下面是一个2×2列联表其中a,b处填的值分别为( )A.94 72 B.52 50C.52 74 D.74 52答案C解析由a+21=73,得a=52,a+22=b,得b=74.故选C.2.(2019·湖北模拟)已知相关变量x和y满足关系y=-0.1x +1,相关变量y与z负相关.下列结论中正确的是( ) A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案D解析因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z负相关,可设z=b^y+a^,b^<0,则z=b^y+a^=-0.1b^x+b^+a^,故x与z正相关.3.(2017·重庆高考)已知变量x与y正相关,且由观测数据算得样本平均数x-=3,y-=3.5,则由该观测数据算得的线性回归方程可能是( )A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4答案A解析依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5),代入A,B得A正确.4.某校为了研究学生的性别与对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=6.669,则所得到的统计学结论是:有________的把握认为“学生性别与是否支持该活动有关系”.附:答案99%解析因为6.669与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与是否支持该活动有关系”.5.(2019·山西模拟)某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此模型预报广告费用为6万元时销售额约为________万元.答案 65.5解析 由表可计算x -=4+2+3+54=3.5,y -=49+26+39+544=42,因为点(3.5,42)在回归直线y ^=b ^x +a ^上,且b ^=9.4, 所以42=9.4×72+a ^,解得a ^=9.1.故回归方程为y ^=9.4x +9.1.令x =6,得y ^=65.5.核心考向突破考向一 线性回归分析例1 (2019·河南洛阳模拟)某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东、西部各5个城市,得到观看该节目的人数的统计数据(单位:千人),并画出如下茎叶图,其中一个数字被污损.(1)求东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数的概率;(2)该节目的播出极大地激发了观众对成语知识学习积累的热情,现从观看节目的观众中随机统计了4位观众学习成语知识的周均时间(单位:小时)与年龄(单位:岁),并制作了如下对照表:根据表中数据,试求线性回归方程y ^=b ^x +a ^,并预测年龄为50岁的观众周均学习成语知识的时间.参考公式:b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y -b ^x .解 (1)设被污损的数字为a ,则a 有10种情况. 由88+89+90+91+92>83+83+87+90+a +99, 得a <8,∴有8种情况使得东部各城市观看该节目的观众的平均人数超过西部各城市观看该节目的观众的平均人数,所求概率为810=45.(2)由表中数据,计算得x =35,y =3.5,b ^=∑i =14x i y i -4x -y -∑i =14x 2i -4x 2=525-4×35×3.55400-4×352=7100, a ^=y -b ^x =3.5-7100×35=2120.∴y ^=7100x +2120. 当x =50时,y ^=4.55.即预测年龄为50岁的观众周均学习成语知识的时间为4.55小时.触类旁通错误!2回归直线方程y ^=b ^x +a ^必过样本点中心x ,y .(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.即时训练 1.PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:(1)根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若周六同一时间段车流量是200万辆,试根据(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?( 参考公式:b ^=∑ni =1 x i -xy i -y∑ni =1x i -x2,a ^=y -b ^x ;参考数据:∑5i =1x i =540,∑5i =1y i=420 ) 解 (1)由条件可知,x =15∑5i =1x i =5405=108,y =15∑5i =1y i =4205=84,∑5i =1(x i -x )(y i -y )=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144,∑5i =1(x i -x )2=(-8)2+(-6)2+02+62+82=200.b ^=∑5i =1 x i -xy i -y∑5i =1x i -x2=144200=0.72, a ^=y -b ^x =84-0.72×108=6.24,故y 关于x 的线性回归方程为y ^=0.72x +6.24.(2)当x =200时,y ^=0.72×200+6.24=150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米.考向二 两个变量的相关性角度1 相关关系的判断例 2 为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=b ^x +a ^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案 B解析 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y =x 的斜率要小一些,综上可知应选B.角度2 相关系数的意义例3 (2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x =116∑i =116x i =9.97,s =116∑i =116x i -x 2=116∑i =116x 2i -16x2≈0.212,∑i =116i -8.52≈18.439,∑i =116(x i -x -)(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x--3s,x-+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i,y i)(i=1,2,…,n)的相关系数r=∑i=1nx i-x -y i-y -∑i=1nx i-x2∑i=1ny i-y-2.0.008≈0.09.解(1)由样本数据得(x i,i)(i=1,2,…,16)的相关系数r=∑i=116x i-x-i-8.5∑i=116x i-x-2∑i=116i-8.52≈-2.780.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x-=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x--3s,x-+3s)以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为 115×(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.i =116x 2i ≈16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为 115×(1591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.触类旁通判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.2相关系数法:利用相关系数判定,|r |越趋近于1相关性越强.即时训练 2.(2019·贵阳模拟)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3答案 A解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.3.如图所示是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1ny i -y2,回归方程y ^=a +bt 中,斜率和截距的最小二乘估计公式分别为b =∑i =1nt i -ty i -y∑i =1nt i -t2,a =y -b t .解 (1)由折线图中的数据和附注中的参考数据,得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.由y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1),得b =∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103,a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016对应的t=9代入回归方程,得y^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.考向三独立性检验例4 (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n ad-bc2a+b c+d a+c b+d,解(1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)(2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2的观测值k =40×15×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.触类旁通利用统计量K2进行独立性检验的步骤(1)根据数据列出2×2列联表.2根据公式计算K2找观测值k.3比较观测值k与临界值表中相应的检验水平,作出统计推断.即时训练 4.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K2=n ad-bc2a+b c+d a+c b+d.解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表 K 2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).。
高三数学一轮复习课件:11-3 第3课时 变量间的相关关系、统计案例ppt
其中一定不.正.确.的结论的序号是
A.①② C.③④
B.②③ D.①④
()
(2)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图 (1);对变量u、v有观测数据(ui,vi)(i=1,2,…,10),得散 点图(2).由这两个散点图可以判断
()
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关
(二)命题趋势 1.从考查内容看,高考中对本节的考查主要为判断两个变
量的相关关系,利用最小二乘法求线性回归方程并进行预 测、独立性检验的应用.近几年对该部分内容的考查有加 强的趋势且常与概率问题结合在一起考查. 2.从考查形式看,选择题、填空题、解答题都有可能出现, 属中档题.
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从左下角 到 右上角 的区域,对 于两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从左上角 到 右下角的区域,两 个变量的这种相关关系称为负相关.
参考公式:回归直线的方程是^y=bx+a,其中 b=
n
xi- x yi- y
i=1
,a=
y
=b
-
x.
n
xi- x 2
i=1
解:(1)从 5 名学生中任取 2 名学生的所有情况为:(A4,A5),(A4, A1),(A4,A2),(A4,A3),(A5,A1),(A5,A2),(A5,A3),(A1,A2), (A1,A3),(A2,A3),共 10 种情况. 其中至少有一人的物理成绩高于 90 分的情况有:(A4,A5)、(A4, A1)、(A4,A2)、(A4,A3)、(A5,A1)、(A5,A2)、(A5,A3),共 7 种 情况. 故选中的学生中至少有一人的物理成绩高于 90 分的概率 P=170.
2013版高考数学一轮复习精品学案:10.3统计案例
2013版高考数学一轮复习精品学案:第十章 统计、统计案例10.3统计案例【高考新动向】一、考纲点击1.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;2.了解回归分析的基本思想、方法及其简单应用. 二、热点提示1.本部分主要内容是变量的相关性及其几种常见的统计方法.在高考中主要是以考查独立性检验、回归分析为主,并借助解决一些简单的实际问题来了解一些基本的统计思想;2.本部分在高考中多为选择、填空题,也有可能出现解答题,都为中低档题.【考纲全景透析】1.回归分析 Z,xx,k (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示,其中a b 和为模型的未知数,e 称为随机误差. (3)样本点的中心在具有线性相关关系的数据1122(,),(,),,(,)n n x y x y x y 中,回归方程的截距和斜率的最小二乘估计公式分别为:121()()ˆˆˆˆ,.()niii nii x x y y bay bx x x ==--==--∑∑ 其中1111,,(,)n ni i i i x x y y x y n n ====∑∑称为样本点的中心.(4)相关系数①()()niix x y y r --=∑②当0r >时,表明两个变量正相关; 当0r <时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常||r 大于0.75时,认为两个变量有很强的线性相关性.2.残差分析 (1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()nii yy =-∑(2)残差数据点和它回归直线上相应位置的差异()i i y y -是随机误差的效应,称i i i e y y =-为残差. (3)残差平方和21()niii y y =-∑.(4)相关指数22121()()niii nii y y R y y ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量.(3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注: 在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值,或者说2K 是一个随机变量,它在a ,b ,c ,d )取不同值时,2K 可能不同,而k 是取定一组数a ,b ,c ,d 后的一个确定的值.【热点难点精析】(一)线性回归分析 ※相关链接※1.首先利用散点图判断两个变量是否线性相关.2.求回归方程y bx a =+.(1)线性回归方程中的截距a 和斜率b 都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.(2)回归方程y bx a =+中的b 表示x 增加1个单位时y 的变化量为b . (3)可以利用回归方程y bx a =+预报在x 取某一个值时y 的估计值. 3.相关系数r利用相关系数r 来衡量两个变量之间的线性相关的强弱. 4.建立回归模型的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等). (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a =+). (4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.※例题解析※〖例〗测得某国10对父子身高(单位:英寸)如下:(1)对变量y x 与进行相关性检验;(2)如果y x 与之间具有线性相关关系,求回归方程. (3)如果父亲的身高为73英寸,估计儿子的身高.思路解析:(1)先根据已知计算相关系数r ,判断是否具有相关关系. (2)再利用分工求出回归方程进行回归分析. 解答:(1)10101022221111066.8,67.01,4462.24,4490.4,44974,44941.93,44842.4,10iii i i i i i ix y x y x y x y x y x yr ======≈===-==∑∑∑∑0.804.≈所以y x 与之间具有很强的线性相关关系.(2)设回归方程为y bx a =+.由101102211044842.444762.6879.72ˆ0.46464479444662.4171.610i ii i i x y x ybx x==--===≈--∑∑.ˆˆ67.010.464666.835.97.ay bx =-=-⨯≈ 故所求的回归方程为:ˆ0.464635.97yx =+. (3)当x=73时, ˆ0.46467335.9769.9y=⨯+≈.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.(二)非线性回归分析 ※相关链接※1.非线性回归模型:当回归方程不是形如y bx a =+时称之为非线性回归模型.2.非线性回归模型的拟合效果:对于给定的样本点1122(,),(,),,(,)n n x y x y x y ,两个含有未知数的模型(1)(2)(,)(,)yf x a yg x b ==和,其中a b 和都是未知参数.可按如下的步骤比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(2)ˆˆˆˆ(,)(,)yf x ay g x b ==和,其中ˆˆa b 和分别是参数a b 和的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)2(2)(2)211ˆˆˆˆ()()n ni i i i i i Q y y Q y y ===-=-∑∑和;(3)若(1)ˆQ<(2)ˆQ,则(1)(2)ˆˆˆˆ(,)(,)yf x ay g x b ==的效果比; 反之, (1)(2)ˆˆˆˆ(,)(,)yf x ay g x b ==的效果不如的好. ※例题解析※〖例〗为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图; 学§科§ (2)描述解释变量x 与预报变量y 之间的关系; (3)计算残差平方和、相关指数.思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析. 解答:(1)所作散点图如图所示.(2)由散点图看出样本点分析在一条指数函数21c xy c e=的周围,于是令ln z y =,则由计算器得:ˆ0.69 1.112,zx =+则有 1.69 1.112ˆx y e +=.(3)则662211ˆˆ() 3.1643ii i i i ey y ===-=∑∑,621ˆ()i i i y y =-∑=24642.8,2 3.164310.999924642.8R =-=,即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.(三)独立性检验〖例〗在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?思路解析:(1)先由已知作出调查数据的列联表; (2)再根据列联表画出二维条形图,并进行分析; (3)利用独立性检验作出判断.解答:根据题目所给的数据作出如下的联表:根据列联表作出相应的二维条形图,如图所示.从二维条形图来看,在男人中患色盲的比例38480,要比在女人中患色盲的比例6520要大,其差值为386||0.068,480520-≈差值较大,因而我们可以认为“性别与患色盲是有关的”,根据列联表中所给的数据可以有38,442,6,514,480,520,44,956,1000,a b c d a b c d a c b d n ====+=+=+=+==代入公式22()()()()()n ad bc K a b c d a c b d -=++++得221000(385146442)27.148052044956K ⨯⨯-⨯=≈⨯⨯⨯。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)试分别估计两个分厂生产零件的优质品率; (2)由以上统计数据填下面2×2列联表,并问是否有99%的把握 认为“两个分厂生产的零件的质量有差异”. 甲 厂 乙 优质品 非优质品 合 计 厂 合 计
附
nad-bc2 K2 厂抽查的产品中有360件优质品,从而甲厂生产的零
3.(2012· 南昌模拟)某商品销售量y(件)与销售价格x(元/件)负相 关,则其回归方程可能是( ^ A.y=-10x+200 ^ C.y=-10x-200 解析 ).
^ B.y=10x+200 ^ D.y=10x-200
因为销量与价格负相关,由函数关系考虑为减函数,又
因为x,y不能为负数,再排除C,故选A. 答案 A
解
(1)散点图如图所示
(2)由散点图知,各组数据对应点大致都在一条直线附近,所 以施化肥量x与产量y具有线性相关关系.
利用散点图判断两个变量是否有相关关系是比较简便的方 法.在散点图中如果所有的样本点都落在某一函数的曲线上, 就用该函数来描述变量之间的关系.即变量之间具有函数关 系.如果所有的样本点落在某一函数的曲线附近,变量之间就 有相关关系;如果所有的样本点都落在某一直线附近,变量之 间就有线性相关关系.
3.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离平方和最 小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: ^ ^ ^ (x1,y1),(x2,y2),„,(xn,yn),其回归方程为y=bx+a,则
其中,b 是回归方程的 斜率 ,a 是在 y 轴上的截距.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2的值越大,说明残差平方和越小,也就是说模型的拟合效 果 越好 .在线性回归模型中,R2表示解释变量对预报变量变化 的贡献率,R2越接近于1,表示回归效果越好.
解析 A,B,D都是函数关系,其中A一般是分段函数,只有 C是相关关系. 答案 C
2.对变量x,y有观测数据(xi,yi)(i=1,2,„,10),得散点图 (1);对变量u,v有观测数据(ui、vi)(i=1,2,„,10),得散点 图(2).由这两个散点图可以判断( ).
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关 解析 由题图(1)可知,各点整体呈递减趋势,x与y负相关;由 题图(2)可知,各点整体呈递增趋势,u与v正相关. 答案 C
2×2 列联表 y1 x1 x2 a c y2 b d 总计 a+b c+d
总计 a+c b+d a+b+c+d nad-bc2 K2 = (其中 n = a + b + c + d 为样本容 a+ba+cc+db+d 量),可利用独立性检验判断表来判断“x 与 y 的关系” . 这种利用随机变量 K2 来确定在多大程度上可以认为 “两个分类 变量有关系”的方法称为两个分类变量的独立性检验.
独立性检验的步骤: (1)根据样本数据制成2×2列联表; nad-bc2 (2)根据公式K2= 计算K2的观测值; a+ba+cb+dc+d (3)比较K2与临界值的大小关系作统计推断.
【训练 2】 某企业有两个分厂生产某种零件,按规定内径尺寸 (单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分 厂生产的零件中各抽出了 500 件,量其内径尺寸,得结果如下 表: 甲厂:
160 270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比 例; (2)能否有99%的把握认为该地区老年人是否需要志愿者提供帮 助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区老 年人中,需要志愿者提供帮助的老年人的比例?说明理由. 附:
nad-bc2 K2 = a+bc+da+cb+d
考向三
线性回归方程
【例 2】►下表提供了某厂节能降耗技术改造后生产甲产品过程 中记录的产量 x(吨)与相应的生产能耗 y(吨标准煤)的几组对照 数据. x 3 4 5 6
y 2.5 3 4 4.5 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出 y 关于 x 的线性 ^ ^ ^ 回归方程y=bx+a;
[审题视点]
第(2)问由a=40,b=30,c=160,d=270,代入
公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样方法 说明. 解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因
此该地区老年人中,需要志愿者提供帮助的老年人的比例的估 70 计值为 =14%. 500
【训练1】 根据两个变量x,y之间的观测数据画成散点图如图 所示,这两个变量是否具有线性相关关系________(填“是” 与“否”).
解析 从散点图看,散点图的分布成团状,无任何规律,所以 两个变量不具有线性相关关系. 答案 否
考向二 独立性检验 【例 3】►(2010· 新课标全国)为调查某地区老年人是否需要志愿 者提供帮助,用简单随机抽样方法从该地区调查了 500 位老年 人,结果如下: 性别 是否需要志愿者 需要 不需要 男 40 女 30
第3讲 变量间的相关关系与统计案例
【2013 年高考会这样考】 以选择题或填空题的形式考查回归分析及独立性检验中的基本 思想方法及其简单应用. 【复习指导】 高考在该部分的主要命题点就是回归分析和独立性检验的基础 知识和简单应用.因此,复习时要掌握好回归分析和独立性检 验的基本思想、方法和基本公式.
[30. [29.86 [29.90 [29.94 [29.98 [30.02 [30.06 10 , , , , , , 分 , 组 29. 29. 29. 30. 30. 30. 30
90)
频
94)
98)
02)
06)
10)
. 14)
乙厂:
[30. [29.86 [29.90 [29.9 [30.0 [30.0 10 [29.94 , , 8, 2, 6, , 分 , 组 29. 29. 30. 30. 30. 30 29.98) 90) 94) 02) 06) 10) . 14) 频 数 29 71 85 159 76 62 18
5.在一项打鼾与患心脏病的调查中,共调查了 1 671 人,经过 计算 K2 的观测值 k=27.63,根据这一数据分析,我们有理由认 为打鼾与患心脏病是________的(有关,无关). 解析 由观测值 k=27.63 与临界值比较, 我们有 99%的把握说
打鼾与患心脏病有关. 答案 有关
考向一 相关关系的判断 【例1】►山东鲁洁棉业公司的科研人员在7块并排、形状大小 相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的 试验,得到如下表所示的一组数据(单位:kg):
基础梳理 1.相关关系的分类 从散点图上看,点散布在从左下角到右上角的区域内,对于两 个变量的这种相关关系,我们将它称为正相关 ;点散布在从左 上角到右下角的区域内, 两个变量的这种相关关系称为负相关 . 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条直线附 近,则称这两个变量之间具有线性相关关系,这条直线 叫 回归直线 .
360 件的优质品率估计为500×100%=72%; 乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优 320 质品率估计为500×100%=64%.
(2) 甲 厂 乙 厂 合 计 优质品 非优质品 合 计 360 140 500 320 180 500 680 320 1 000
1 000×360×180-320×1402 K2 = ≈7.35>6.635, 500×500×680×320 所以有99%的把握认为“两个分厂生产的零件的质量有差 异”.
施化肥 量x 棉花产 量y
15 20 25 30 35 40 45
33 34 36 40 44 45 45 0 5 5 5 5 0 5
(1)画出散点图; (2)判断是否具有相关关系. [审题视点] (1)用x轴表示化肥施用量,y轴表示棉花产量,逐一 画点. (2)根据散点图,分析两个变量是否存在相关关系.
4. (2012·枣庄模拟)下面是 2×2 列联表: y1 x1 x2 合计 则表中 a,b 的值分别为( A.94,72 B.52,50 C.52,74 D.74,52 a y2 合计 21 73 47 120
22 25 b 46
).
解析 答案
∵a+21=73,∴a=52,又a+22=b,∴b=74. C
(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准 煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的 生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
^ ^ [审题视点] (2)问利用公式求a、b,即可求出线性回归方程. (3)问将x=100代入回归直线方程即可. 解:(1)由题设所给数据,可得散点图如图所示.
(3)独立性检验的随机变量 K2=3.841 是判断是否有关系的临界 值, 2≤3.841 应判断为没有充分证据显示事件 A 与 B 有关系, K 而不能作为小于 95%的量化值来判断.
双基自测 1.(人教A版教材习题改编)下面哪些变量是相关关系( A.出租车车费与行驶的里程 C.身高与体重 B.房屋面积与房屋价格 D.铁块的大小与质量 ).
4.样本相关系数
xi- x yi- y
r= i=1 ,用它来衡量两个变量间的线 n n xi- x 2 yi- y 2 i=1 i=1
n
性相关关系.
(1)当 r>0 时,表明两个变量 正相关 ; (2)当 r<0 时,表明两个变量 负相关 ; (3)r 的绝对值越接近 1,表明两个变量的线性相关性 越强 ;r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关 关系.通常当|r|>0.75 时,认为两个变量有很强的线性相关关 系.