2019高考数学一轮复习第10章概率统计和统计案例第5讲变量间的相关关系与统计案例名师课件文科
高考数学一轮复习第十章统计与统计案例10.3变量间的相关关系、统计案例学案理
§10.3 变量间的相关关系、统计案例考纲展示►1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用.考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是________;与函数关系不同,________是一种非确定性关系.答案:相关关系 相关关系2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________,点散布在左上角到右下角的区域内,两个变量的相关关系为________.答案:正相关 负相关对回归系数的理解:解释变量;预报变量.某工厂工人月工资y (元)依劳动产值x (万元)变化的回归直线方程为y ^=900x +600,下列判断正确的是__________.①劳动产值为10 000元时,工资为500元; ②劳动产值提高10 000元时,工资提高1 500元; ③劳动产值提高10 000元时,工资提高900元; ④劳动产值为10 000元时,工资为900元. 答案:③解析:回归系数b ^的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位.[典题1] (1)下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )A BC D[答案] D[解析] 观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.(2)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ [答案] D[解析] 由回归方程y ^=b ^x +a ^知,当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.[点石成金] 相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.考点2 线性回归分析1.回归分析对具有________的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求________;(ⅲ)用回归直线方程作预报.答案:相关关系 回归直线方程 2.回归直线如果散点图中点的分布从整体上看大致在________附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.答案:一条直线3.回归直线方程的求法——最小二乘法设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=b ^x +a ^的系数为:⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x2= ,a ^=y -b ^x ,其中x =1n ∑i =1n x i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的________.答案:∑i =1nx i y i -n x y∑i =1nx 2i -n x 2中心4.相关系数当r >0时,表明两个变量________; 当r <0时,表明两个变量________.r 的绝对值越接近于1,表明两个变量的线性相关性________.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.答案:正相关 负相关 越强[教材习题改编]已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为__________.答案:y ^=1.23x +0.08解析:设回归直线方程为y ^=1.23x +a ^, 因为回归直线必过样本点的中心(x ,y ), 将点(4,5)代入回归直线方程得a ^=0.08, 所以所求方程为y ^=1.23x +0.08.变量的相关关系:散点图;回归直线过(x ,y ).某工厂经过技术改造后,生产某种产品的产量x (吨)与相应的生产能耗y (吨标准煤)有如下几组样本数据.x 3 4 5 6 y2.5344.50.7,那么当产量x =10吨时,估计相应的生产能耗为__________吨标准煤.答案:7.35解析:先求得x =4.5,y =3.5,由y ^=0.7x +a ^过点(x ,y ),得a ^=0.35, 所以回归直线方程是y ^=0.7x +0.35.当x =10吨时,y ^=7+0.35=7.35(吨标准煤).[典题2] (1)已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.34.86.7A.3.25 C .2.2D .0[答案] B[解析] 由已知得x =2,y =4.5, 因为回归方程经过点(x ,y ), 所以a ^=4.5-0.95×2=2.6.(2)由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.①求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; ②(ⅰ)判断变量x 与y 之间是正相关还是负相关; (ⅱ)当使用年限为8年时,试估计支出的维修费是多少.附:在线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.[解] ①∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2. ②(ⅰ)由①知,b ^=1.2>0, ∴变量x 与y 之间是正相关.(ⅱ)由①知,当x =8时,y ^=9.8,即使用年限为8年时,支出维修费约是9.8万元. [点石成金] 1.正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.2.回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2006 2008 2010 2012 2014 需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=b ^x +a ^; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:年份-2 010 -4 -2 0 2 4 需求量-257-21-111929对预处理后的数据,容易算得,x =0,y =3.2,b ^=-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2. 由上述计算结果知,所求回归直线方程为 y ^-257=b ^(x -2 010)+a ^=6.5(x -2 010)+3.2, 即y ^=6.5×(x -2 010)+260.2.(2)利用(1)中所求回归直线方程,可预测2016年的粮食需求量为6.5×(2 016-2 010)+260.2=6.5×6+260.2=299.2(万吨).考点3 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n ad-bc2a+b a+c b+d c+d(其中n=________为样本容量),则利用独立性检验判断表来判断“X与Y的关系”.答案:a+b+c+d(1)[教材习题改编]为调查中学生的近视情况,测得某校150名男生中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,最有说服力的方法是________.(填序号)①回归分析;②期望与方差;③独立性检验;④概率.答案:③解析:“近视”与“性别”是两个分类变量,其是否有关,应该用独立性检验来判断.(2)[教材习题改编]在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得出“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,有下列四种说法:①100个吸烟者中至少有99人患有肺癌;②1个人吸烟,那么这人有99%的概率患有肺癌;③在100个吸烟者中一定有患肺癌的人;④在100个吸烟者中可能一个患肺癌的人也没有.其中正确说法的序号是________.答案:④对独立性检验的理解:K2的计算;对P(K2≥k0)的解释.[2017·湖南张家界模拟]某高校教“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:专业性别非统计专业统计专业男1310女720 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K2的观测值k=50×13×20-10×7223×27×20×30≈4.844.因为k>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828 答案:5%解析:∵k>3.841,查临界值表,得P(K2≥3.841)=0.05,故这种判断出错的可能性为5%.[典题3] (1)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:理科文科总计男131023女72027总计203050已知P2P(K2≥5.024)≈0.025.根据表中数据,得到K2=50×13×20-10×7223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.[答案]5%[解析]由K2≈4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.(2)[2017·江西九江模拟]某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生的成绩分为6组,得到如下所示的频数分布表.分数段[40,50)[50,60)[60,70)[70,80)[80,90)[90,100] 男39181569女64510132①估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;②规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.优分 非优分 总计 男生 女生 总计100附表及公式:P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.841 6.63510.828K 2=n ad -bc 2a +bc +d a +cb +d.[解] ①x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.②由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:优分 非优分 总计 男生 15 45 60 女生 15 25 40 总计3070100可得K 2=100×15×25-15×45260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”. [点石成金] 1.独立性检验的关键是正确列出2×2列联表,并计算出K 2的值. 2.弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.[2017·广西玉林、贵港联考]某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下; 月收入 (单位: 百元) [15, 25)[25, 35)[35, 45)[45, 55)[55, 65)[65, 75]赞成定 价者人数 1 2 3 5 3 4认为价 格偏高 者人数4812521“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填写下面的2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.月收入低于 55百元的人数月收入不低于 55百元的人数总计认为价 格偏高者赞成 定价者 总计附:K 2=a +bc +d a +c b +d. P (K 2≥k 0)0.05 0.01 k 03.8416.635解:x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:月收入低于55百元的人数月收入不低于55百元的人数总计认为价格偏高者29332 赞成定价者11718 总计401050 K2=50×7×29-3×11210×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.[方法技巧] 1.求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b^,常数项为a^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.[易错防范] 1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.真题演练集训1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元) 6.27.58.08.59.8 根据上表可得回归直线方程y=b x+a,其中b=0.76,a=y-b x.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元 B.11.8万元C.12.0万元 D.12.2万元答案:B解析:由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,∴a^=8-0.76×10=0.4,∴当x=15时,y^=0.76×15+0.4=11.8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i=17y i=9.32,∑i=17t i y i=40.17,i=17y i-y2=0.55,7≈2.646.参考公式:相关系数r=∑i=1nt i-t y i-y∑i=1nt i-t2∑i=1ny i-y2,回归方程y^=b^t+a^中斜率和截距的最小二乘估计公式分别为b^=∑i=1nt i-t y i-y∑i=1nt i-t2,a^=y-b^t.解:(1)由折线图中数据和附注中参考数据,得t =4,∑i =17(t i -t)2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t)(y i -y )=∑i =17t i y i -t∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1),得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程,得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.3.[2015·新课标全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑i =18(x i∑i =18(w i∑i =18(x i -∑i =18(w i --x )2-w )2x )(y i -y )w )(y i -y )46.65636.8289.81.61 469108.8表中w i =x i ,w =18∑i =18x i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+β u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.4.[2014·新课标全国卷Ⅱ]某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3.所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.课外拓展阅读 统计案例问题的规范答题[典例] [2013·福建卷]某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828附:K 2=a +bc +d a +cb +d.[审题视角] 由频率分布直方图列举基本事件,结合古典概型,求概率.利用独立性检验公式计算K 2.[解] (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:生产能手 非生产能手总计 25周岁以上组 15 45 60 25周岁以下组15 25 40 总计3070100所以K 2=n ad -bc 2a +bc +d a +cb +d=100×15×25-15×45260×40×30×70=2514≈1.79. 因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. [答题模板] 第1步:由分层抽样计算两组工人的数目; 第2步:由频率分布直方图计算两组不足60件的人数; 第3步:列举5人抽取2人的基本事件数; 第4步,由古典概型计算概率;第5步:统计生产能手与非生产能手,列2×2列联表; 第6步:由公式计算K 2,确定答案. 归纳总结(1)分层抽样比为100500=15,故25周岁以上有300×15=60(人),25周岁以下的200×15=40(人),然后再根据频率计算“不足60件”的人数,并设定符号.(2)列2×2列联表时,其中的数字应先由频率分布直方图算出后再列表.。
高考数学一轮复习第十章统计与统计案例第三节变量间的相关关系、统计案例课件理
[典题 3] (2016·九江模拟)某校数学课外兴趣小组为研 究数学成绩是否与性别有关,先统计本校高三年级每个学生 一学期数学成绩平均分(采用百分制),剔除平均分在 40 分以 下的学生后,共有男生 300 名,女生 200 名.现采用分层抽 样的方法,从中抽取了 100 名学生,按性别分为两组,并将 两组学生成绩分为 6 组,得到如下所示频数分布表.
n
xi--x yi--y
n xiyi-n-x -y
i=1
=
i=1
=
,^a=-y -^b-x ,其中^b是
n
xi--x 2
n x2i -n-x 2
i=1
i=1
回归方程的 斜率(x,ié^alǜ是) 在 y 轴上的 截距 .
第六页,共43页。
③样本中心:对于一组具有线性相关关系的数据(x1,y1), (x2,y2),…,(xn,yn)中(-x ,-y )称为样本点的中心.
附表及公式 K2=a+bcn+add-ab+cc2b+d
第三十五页,共43页。
[ 听 前 试 做 ] (1) x 男 = 45×0.05 + 55×0.15 + 65×0.3 + 75×0.25+85×0.1+95×0.15=71.5,
第二十页,共43页。
[听前试做] (1)观察散点图可知,只有 D 选项的散点图表 示的是变量 x 与 y 之间具有负的线性相关关系.
(2)由散点图可以看出两个变量所构成的点在一条直线附 近,所以线性相关关系较强,且应为正相关,所以回归直线方 程的斜率应为正数,且从散点图观察,回归直线方程的斜率应 该比 y=x 的斜率要小一些,综上可知应选 B.
(4)样本相关系数
n
xi--x yi--y
2019高考数学一轮复习第10章概率、统计和统计案例第5讲变量间的相关关系与统计案例分层演练文
第5讲 变量间的相关关系与统计案例一、选择题1.某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( )A .y 与x 具有正的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右解析:选D .由回归直线方程知,y 与x 具有负的线性相关关系,A 错,若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错.当销售价格为10元时,y ^=-5×10+150=100,即销售量为100件左右,C 错,故选D .2.(2018·湖南湘中名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为( )C .99.5%D .95%解析:选D .由图表中数据可得,当k >3.841时,有95%的把握认为“X 和Y 有关系”,故选D .3.(2018·湖北七市(州)联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y =10.2x +a ,据此模型,预测广告费为10万元时销售额约为( )A .101.2万元B .108.8万元C .111.2万元D .118.2万元解析:选C .根据统计数据表,可得x -=15×(2+3+4+5+6)=4,y -=15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),所以50=10.2×4+a ^,解得a ^=9.2,所以回归方程为y ^=10.2x +9.2,所以当x =10时,y =10.2×10+9.2=111.2,故选C .4.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%解析:选D .因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y ^=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.二、填空题5.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2456.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则n =________.解析:x -=9+9.5+m +10.5+115=8+m 5,y -=11+n +8+6+55=6+n 5,回归直线一定经过样本中心(x -,y -),即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案:10 三、解答题7.某公司的广告费支出x (单位:万元)与销售额y (单位:万元)之间有下列对应数据:(1)(2)根据表中提供的数据,求出y 与x 的回归方程y ^=b ^x +a ^; (3)预测销售额为115万元时,大约需要多少万元广告费. 解:(1)散点图如图.由图可判断:广告费与销售额具有相关关系.(2)x -=15×(2+4+5+6+8)=5,y -=15×(30+40+60+50+70)=50,∑5i =1x i y i =2×30+4×40+5×60+6×50+8×70=1 380, ∑5i =1x 2i =22+42+52+62+82=145,b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=1 380-5×5×50145-5×52=6.5, a ^=y --b ^x -=50-6.5×5=17.5.所以线性回归方程为y ^=6.5x +17.5.(3)由题得y =115时,6.5x +17.5=115,得x =15. 故预测销售额为115万元时,大约需要15万元的广告费.8.(2018·郑州第一次质量预测)近年来郑州空气污染较为严重,现随机抽取一年(365天)内100天的空气中PM2.5指数的检测数据,统计结果如下:间[0,100]内时对企业没有造成经济损失;当x 在区间(100,300]内时对企业造成的经济损失成直线模型(当PM2.5指数为150时造成的经济损失为500元,当PM2.5指数为200时,造成的经济损失为700元);当PM2.5指数大于300时造成的经济损失为2 000元.(1)试写出S (x )的表达式;(2)试估计在本年内随机抽取一天,该天经济损失S 大于500元且不超过900元的概率; (3)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面列联表,并判断是否有95%的把握认为郑州市本年度空气重度污染与供暖有关?附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)依题意,可得S (x )=⎩⎪⎨⎪⎧0,x ∈[0,100]4x -100,x ∈(100,300].2 000,x ∈(300,+∞)(2)设“在本年内随机抽取一天,该天经济损失S 大于500元且不超过900元”为事件A , 由500<S ≤900,得150<x ≤250,频数为39,P (A )=39100. (3)根据题中数据得到如下2×2列联表:K 2的观测值k =100×(63×8-22×7)285×15×30×70≈4.575>3.841,所以有95%的把握认为空气重度污染与供暖有关.1.中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:同人群对“延迟退休年龄政策”的支持度有差异;(2)若以458人参加某项活动.现从这8人中随机抽取2人,求至少有1人是45岁以上的概率.参考数据:K 2=(a +b )(c +d )(a +c )(b +d )解:(1)因为K 2=50×50×80×20=6.25>3.841,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)从不支持“延迟退休”的人中,45岁以下应抽6人,45岁以上应抽2人. 记45岁以下的为1,2,3,4,5,6;45岁以上的为A ,B , 则有1→2,3,4,5,6,A ,B , 2→3,4,5,6,A ,B , 3→4,5,6,A ,B , 4→5,6,A ,B , 5→6,A ,B , 6→A ,B ,A →B ,故所求概率为1328.2.(2018·广东汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^、a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x -2,a ^=y --b ^x -,r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139, ∑6i =1(x i -x -)2≈4.18, ∑6i =1(y i -y -)2≈13.96, ∑6i =1(z i -z -)2≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34. 解:(1)由题意,知x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,又∑6i =1x i z i =47.64, ∑6i =1(x i -x -)2≈4.18, ∑6i =1(z i -z -)2≈1.53, 所以r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36, 所以a ^=z --b ^x -=2+0.36×4.5=3.62, 所以z 与x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,得y ^=e -0.36×9+3.62=e 0.38,因为ln 1.46≈0.38,所以y ^=1.46,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元. (3)当y ^≥0.711 8, 即e-0.36x +3.62≥0.711 8=eln 0.711 8=e-0.34时,则有-0.36x +3.62≥-0.34, 解得x ≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.。
高三数学一轮精品复习学案:第十章 统计、统计案例
高三数学一轮精品复习学案:第十章统计、统计案例【知识特点】1.统计中所学的内容是数理统计中最基本的问题,通过这些内容主要来介绍相关的统计思想和方法,了解一些有关统计学的基本知识,并能够应用几个基本概念、基本公式来处理实际生活中的一些基本问题。
2.统计案例为新课标中新增内容,主要是通过案例体会运用统计方法解决实际问题的思想和方法。
增加了统计和统计案例后,使得高中数学的整个体系更加完善了,有利于开阔数学视野,丰富数学思想和方法。
【重点关注】1.从对新课标高考试题的分析可以发现,主要考查抽样方法、各种统计图表、样本数字特征等。
对这部分的考查主要以选择题和填空题的形式出现。
2.统计案例中的独立性检验和回归分析也会逐步在高考题中出现,难度不会太大,多数情况下是考查两种统计分析方法的简单知识,以选择题和填空题为主。
【地位与作用】《全国新课程标准高考数学考试大纲》中对考生能力要求明确界定为空间想象能力、抽象概括能力、推理论证能力、运算求解能力、数据处理能力以及应用意识和创新意识等六个方面,其中数据处理能力是首次提出的一个能力要求,这定义为:会收集数据、整理数据、分析数据,能从大量数据中抽取对研究问题有用的信息,并作出判断。
数据处理能力主要依据统计(高考考试大纲对知识点要求如下表所示)或统计案例中的方法对数据进行整理、分析,并解决给定的实际问题,对统计的要求已提升到能力的高度。
统计的思想方法广泛应用于自然科学和社会科学的研究中,统计的语言不仅是数学的语言,也是各学科经常引用的大众语言,统计知识是作为一个新时期公民所比备的知识。
统计学就是应用科学的方法收集、整理、分析、描述所要研究的数据资料,然后根据所得到的结果,进行推断或决策的一门实用性很强的科学。
统计这部分内容,在高中数学新课程中,主要分布在必修3第二章(约16课时)与选修2—3第三章(约9课时)。
相对于高中学生的认知水平和生活经历还相对不是很高,所以它只能属于非重点内容,所出的相关题目一般来说都相对比较简单。
2019高考数学一轮复习10.4变量间的相关关系、统计案例课件理新人教B
������
∑
(������������-������)2
������=1
=
������∑=1������������������������-������������ ������ ������∑=������1���������2��� -������������2
,
^^
������ = ������-������ ������.
) (4)事件X,Y关系越密切,则由观测数据计算得到的X2的值越大.(
)
(5)通过回归方程^������ = ^bx+^������可以估计和观测变量的取值和变化趋关闭
势(1).×( (2))√ (3)√ (4)√ (5)√
答案
-8-
知识梳理 考点自测
12345
2.已知变量 x 和 y 满足关系^������=-0.1x+1,变量^������与 z 正相关.下列结
线叫做 回归直线
.
-4-
知识梳理 考点自测
(2)回归方程^������ = ^bx+^������是两个具有线性相关关系的变量的一组
数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中^������ ,
^
������ 是待定系数.
������
������
^
������
=
������∑=1(������������-������)(������������-45
1.判断下列结论是否正确,正确的画“√”,错误的画“×”.
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关 系.( )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关 系表示.( )
高考数学一轮总复习第10章概率与统计第四节变量间的相关关系与统计案例文新人教A版
2.回归方程
(1)最小二乘法 求回归直线使得样本数据的点到回归直线的 距离的平方和 最 小的方法叫做最小二乘法. (2)回归方程
方程^y=b^x+a^是两个具有线性相关关系的变量的一组数据
(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^,b^是待定 参数.
3.回归分析 (1)定义 对具有 相关关系 的两个变量进行统计分析的一种常用方法. (2)样本点的中心 在具有线性相关关系的数据(x1,y1),(x2,y2),.…,(xn,yn)中,(x , y ) 称为样本点的中心.
[点评] (1)回归分析是对具有相关关系的两个变量进行统计
分析的方法,只有在散点图大致呈线性时,求出的线性回归
方程才有实际意义,否则,求出的线性回归方程毫无意义.
【例 1】 在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1, x2,…,xn 不全相等)的散点图中,若所有样本点(xi,yi)(i=1,
2,…,n)都在直线 y=12x+1 上,则这组样本数据的样本相关 系数为( )
A.-1
B.0
1
C.2
D.1
解析 所有点均在直线 y=12x+1 上,则样本相关系数最大即 为 1.
(3)线性回归方程问题的重点类型及解法
重点类型
解决方法
回归直线的两大特征:①b^是回归直线
回归直线的特征 的斜率,b^>0,正相关,b^<0,负相
关;②回归直线过(-x,-y)
求回归直线方程 利用公式,求出回归系数b^,a^
利用回归直线方 把回归直线方程看作一次函数,求函
程进行预测
数值
求参数值
若已知回归直线方程求参数值,往往 利用(-x,-y)满足回归直线方程求解
2019届高考数学一轮复习第10单元算法初步、统计、统计案例第66讲变量间的相关关系、统计案例课件理
������ =1
∑ (������ ������ -t) ∑ (������ ������ -y)2
������ =1
为:b=������ =1 ������
∑ (������ ������ -t)(������ ������ -y)
������ =1
∑ (������ ������ -t)2
,a=y-bt.
教学参考
解:(1)记 B 表示事件“旧养殖法的箱产量低于 50 kg”,C 表示事件“新养殖法的箱产量不低于 50 kg”. 由题意知 P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于 50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62, 故 P(B)的估计值为 0.62. 新养殖法的箱产量不低于 50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故 P(C)的估计值为 0.66. 因此,事件 A 的概率估计值为 0.62×0.66=0.409 2.
教学参考
(2)根据箱产量的频率分布直方图得列联表:
箱产量<50 kg 旧养殖法 新养殖法
2 200 × (62 × 66-34 × 38) 2 K= ≈15.705. 100× 100× 96× 104
箱产量≥50 kg 38 66
62 34
由于 15.705>6.635,故有 99%的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于 50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于 55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法箱产量的中位数的估计值为
2019版高考数学一轮复习第十章概率与统计第五节变量的相关关系课件文【优质ppt版本】
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在⑤ 一条直线附近 ,就称这
两个变量之间具有线性相关关系,这条直线叫做回归直线.
(4)最小二乘法
求回归直线,使得样本数据的点到它的⑥ 距离的平方和最小 的方法
叫做最小二乘法.
(5)回归方程
方程 y^ =b^ xa+^ 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2), …,(xn,yn)的回归方程,其中 a^ ,b^ 是待定参数.
r的绝对值越接近于1,表明两个变量的线性相关性 越强 .r的绝对 值越接近于0,表明两个变量之间 几乎不存在线性相关关系 .通常 |r|大于或等于 0.75 时,认为两个变量有很强的线性相关性.
1.观察下列各图:
其中两个变量x,y具有线性相关关系的图是 ( C )
A.①② B.①④ C.③④ D.②③ 答案 C 由散点图知③④中x,y具有线性相关关系.
n
i n1x⑨i,y(1n i n1,y i,则 ) 将称为样x 本y 点的中心.
n
(3)相关系数:r
.
xi yi nxy
i1
当r>0时,表明两个变in1x量i2 ⑩nx2
正in1相yi2 关ny2
;
当r<0时,表明两个变量 负相关 .
.
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
58
答案 5.9
解析 x = 4 =23.53, 5= =4y 3, 49263958
4
∵回归直线经过点( x , y ),
∴43=10.6×3.5+a,∴a=5.9.
第十章 统计与概率10-3变量间的相关关系与统计案例
(3)利用回归直线方程对总体进行估计 ^ ^ ^ 若回归直线方程为y=bx+a,则在x=x0处的估计值: ^0=bx0+a. ^ y ^ (4)线性相关强度的检验: 对于变量x与y随机取到的n对数据(xi,yi),用y与x间 x y xi--yi--
i=1 n
的相关系数r= x y xi--2· yi--2
i=1 4 ^
所以,由最小二乘法确定的回归直线方程的系数 为:
(3)由(2)的回归方程及技改前生产100吨甲产 品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).
(2010·山东枣庄模考)某单位为了了解用电 量y(度)与气温x(℃)之间的关系,随机统计 了某4天的用电量与当天气温,并制作了对 照表: 18 13 10 -1 气温(℃)
疱疹面积不 疱疹面积小 合计 小于 2 于70mm 70mm2 注射药物 A a= b=
注射药物 nad-bc2 c= d= 2 附:χ = B a+bc+da+cb+d 合计
n=
[解析]
(1)
可以看出注射药物A后的疱疹面积的中位数 在65至70之间,而注射药物B后的疱疹面积 的中位数在70至75之间,所以注射药物A后 疱疹面积的中位数小于注射药物B后疱疹面 积的中位数. (2)表3: 疱疹面积 疱疹面积不 合计 小于 小于 70mm2 70mm2 100 注射药物A a=70 b=30 100 注射药物B c=35 d=65 105 95 合计 n=200
关关系,这条直线叫做回归直线. 数为:
(2)回归直线方程的求法——最小二乘法.
n n y x y xiyi-n x · xi--yi-- i=1 i=1 ^ = b= n n 2 2 x xi -n x xi--2 i=1 i=1 a=--b x ^ y ^ 1 n 1 n 其中 - = x i, - = y i,( - , - )称作样本点的中 x y x y n i=1 n i=1 心. ^ ^ a , b 表示由观察值用最小二乘法求得的a,b的估计 值,叫回归系数.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概率、统计与统计案例
第5讲
变量间的相关关系与统计案例
1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一
相关关系 ;与函数关系不同,相关关系是一种非确定 类是__________
性关系. (2)从散点图上看,点分布在从左下角到右上角的区域内,两
正相关 ,点分布在左上角到右 个变量的这种相关关系称为________ 负相关 . 下角的区域内,两个变量的相关关系为________
正相关 ; 当 r>0 时,表明两个变量________ 负相关 . 当 r<0 时,表明两个变量________ 越强 . r 的绝对值越接近于 1, 表明两个变量的线性相关性______ r
的绝对值越接近于 0,表明两个变量之间几乎不存在线性相
0.75 时,认为两个变量有很强的 关关系,通常|r|大于__________
解析:选 A.四条回归直线,斜率最大的是省城,故选 A.
登山族为了了解某山高 y(百米)与气温 x(℃)之间的关系, 随机统计了 4 次山高与相应的气温,并制作了对照表. 气温(℃) 山高(百米) 18 24 13 34 10 38 -1 64
由表中数据, 得到线性回归方程^ y =-2x+^ a (^ a ∈R). 由此估计 山高为 72(百米)处气温的度数为( A.-10 C.-6 ) B.-8 D.-4
n(ad-bc)2 (a+b)(a+c)(b+d)(c+d)(其中 n=a+b+c+ K2=________________________________
d 为样本容量).
(必修 3 P101A 组 T8 改编)改革开放以来,我国教育事业发 展迅速,某省把近 10 年来农村、县城、地级市和省城每年考 入大学的百分比作为因变量,把年份 x 作为自变量得到四条 回归直线. 省城^ y =2. 84x+9. 50, 地级市^ y =2. 52x+8. 35, 县城^ y =2.31x+6.76,农村^ y =0.42x+1.80,则四个区 域中,大学入学率年增长率最快的区域是( A.省城 C.县城 B.地级市 D.农村 )
2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散 点图中心的一条直线附近,称两个变量之间具有线性相关关
回归直线 . 系,这条直线叫__________
y =^ b x+^ a ,其中 (2) 回 归 方 程 为 ^
- ^ - y - b x ____________ .
^ ,a=
(3)通过求 Q=
(yi-bxi-a)2 的最小值而得出回归直线的方
法,即求回归直线,使得样本数据的点到它的距离的平方和 最小,这一方法叫做最小二乘法. (4)相关系数: r= - - ∑ ( x - x )( y - y) i i i= 1
n - - 2 2 ∑ ( x - x ) ∑ ( y - y ) i i i= 1 i= 1 n n
其回归直线方程为^ y =0. 85x-85, 则下列说法错误的是( A.x 与 y 是正相关 B.随机误差 ei(i=1,2,…,8)的均值为 0 C.身高 180 cm 的女生的体重估计为 68 kg D.身高 175 cm 的残差为-0.25
解析:选 D.因为 0.85>0,故 A 正确.随机误差的均值为 0,故 B 正确. ^ 当 x=180 时, y =0.85×180-85=68,故 C 正确. 当 x=175 时,^ y =0.85×175-85=63.75.残差 e=64- 63.75=0.25.故 D 错误,故选 D.
解析:计算得 K2 的观测值为 30×(12×8-2×8)2 k= ≈4.286>3.841, 14×16×20×10 则推断犯错误的概率不超过 0.050.
答案:0.050
考点一 相关关系的回归分析与判断 (1)甲、乙、丙、丁四位同学各自对 A、B 两变量的线性 相关性做试验, 并用回归分析方法分别求得相关系数 r 与残差 的平方和 m 如下表: 甲 r m 0.82 106 乙 0.78 115 丙 0.69 124 丁 0.85 103
(选修 12 P15 练习改编)某班班主任对全班 30 名男生进行了 “认为作业量多少”的调查,数据如下表: 认为作业多 喜欢玩电脑游戏 不喜欢玩电脑游戏 总计 12 2 14 认为作业不多 8 8 16 总计 20 10 30
该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系, 则这种推断犯错误的概率不超过________. 附表: P(K2≥k0) k0 0.050 3.841 0.010 6.635 0.001 10.828
线性相关性.
3.回归分析的一般步骤 (1)画出散点图. (2)建立回归方程(线性回归方程或非线性回归方程). (3)残差分析或相关指数检验
R2 表示解释变量对预报变量变化的贡献率. R2 越接近于 1,表示回归效果越好,所求回归方程拟合程度 越好.
4.独立性检验 假设有两个分类变量 X 和 Y, 它们的取值分别为{x1, x2}和{y1, y2},其样本频数列联表(称为 2×2 列联表)为: y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+ d a+b+c+d
解析:选 C.因为x=10,y=40, 所以样本中心点为(10,40), 因为回归直线过样本中心点, 所以 40=-20+^ a ,即^ a =60, 所以线性回归方程为^ y =-2x+60, 所以山高为 72(百米)处气温的度数为-6,故选 C.
(选修 12 P2 例 1 改编)从某大学随机选取 8 名女大学生, 其 身高(x cm)和体重(y kg)数据如下表所示. 身高 体重 165 48 165 57 157 50 170 54 175 64 165 61 155 43 170 59 )
则哪位同学的试验结果能更强地体现 A、B 两变量的线性相 关性( A.甲 C.丙 ) B.乙 D.丁
(2)x 和 y 的散点图如图所示,有下列说法: