【高考一轮】2018课标版文科数学一轮复习 10.5变量的相关关系、统计案例 夯基提能作业本(含答案)
高三数学(文)一轮复习课件:变量间的相关关系、统计案例
某商品销售量 y(件)与销售价格 x(元/件)负相关,
则其回归方程可能是( )
A. yˆ 10x 200
B. yˆ 10x 200
C. yˆ 10x 200
D. yˆ 10x 200
【解析】 ∵商品销售量 y(件)与销售价格 x(元/件)负相 关,∴a<0,排除 B,D.又∵x=0 时,y>0 ,∴排除 C,答案为 A. 【答案】 A
10.3 变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于 两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,对于 两个变量的这种相关关系,我们将它称为负相关.
2/18/2020
和b为模型的_未__知__参__数___,_e__称为随机误差.
2/18/2020
(4)相关系数
n
xi- x yi- y
i=1
n
n
xi- x 2 yi- y 2
i=1
i=1
①r=____________________________;
②当r>0时,表明两个变量__正__相__关__; 当r<0时,表明两个变量__负__相___关__.
2/18/2020
有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85
分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计 105
已知从全部 105 人中随机抽取 1 人为优秀的概率为 2 . 7
(1)请完成上面的列联表;
2018版高考一轮数学文科:第56讲-变量间的相关关系、统计案例ppt课件
^ c=y-d^w=563-68×6.8=100.6, ^ = 100.6 + 所以 y 关于 w 的线性回归方程为 y 68w, ^=100.6+68 x. 因此 y 关于 x 的回归方程为y
20.12, 13.6 ^ 所以当 x= 2 =6.8, 即 x=46.24 时, z取 得最大值. 故年宣传费为 46.24 千元时,年利润的预 报值最大.
真题在线
9.32 ^= (2)由 y= 7 ≈1.331 及(1)得b ^ ^t≈1.331-0.103×4≈0.92. a=y-b ^=0.92+0.10t. 所以,y 关于 t 的回归方程为y
≈0.103,
^=0.92+0.10×9=1.82, 将 2016 年对应的年份代码 t=9 代入回归方程,得y 所以预测 2016 年我国生活垃圾无害化处理量将约为 1.82 亿吨.
真题在线
附注:
^ = ^ ^ t 中 斜 率 和 截 距 的 最 小 二 乘 估 计 公 式 分 别 为 : 回 归 方 程 y a + b
真题在线
2.89 2.89 ≈ ≈0.99. 0.55× 28 0.55×2×2.646 因为 y 与 t 的相关系数近似为 0.99, 说明 y 与 t 的线性相关程度相当高, 从而可以用线性 回归模型拟合 y 与 t 的关系. r=
真题在线
4.[2012· 新课标全国卷] 在一组样本数据(x1, y1),(x2,y2),„,(xn,yn)(n≥2,x1,x2,„, xn 不全相等)的散点图中, 若所有样本点(xi, yi)(i 1 =1,2,„,n)都在直线 y=2x+1 上,则这组 样本数据的样本相关系数为( ) 1 A.-1 B.0 C.2 D.1
2018-2019届高三数学(文)一轮复习课件:第9章 统计、统计案例、概率 第3节
中a,b是待定数. n n xi- x yi- y xiyi-n x y i=1 ∧ i=1 = , b= n n 2 2 2 x - n x x - x i i i=1 i=1 ∧ ∧ a= y -b x .
(3)回归分析
②如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误 的概率不超过 P(K2≥k0);否则,就认为在犯错误的概率不超过 P(K2≥k0)的前提下不能推断“X 与 Y 有关系”.
质疑探究 2∶k2≥3.841 和 k2≥6.635 分别说明了什么问题?
提示:独立性检验得出的结论带有概率性质,只能说结论 成立的概率有多大,而不能完全肯定一个结论,因此才出现了 临界值,3.841 和 6.635 就是两个常用的临界值,一般认为当 k2≥3.841 时, 则有 95%的把握说事件 A 与 B 有关; 当 k2≥6.635 时,则有 99%的把握说事件 A 与 B 有关.
[ 答案] B
2.下面是 2×2 列联表: y1 x1 x2 总计 a 22 b y2 21 25 46 ) B.52,50 D.74,52 总计 73 47 120
则表中 a,b 的值分别为( A.94,72 C.52,74
[ 解析] 选 C.
[ 答案]
∵a+21=73, ∴a=52, 又 a+22=b, ∴b=74. 故
近,就称这两个变量之间具有线性相关关系,这条直线叫做回 归直线. (2)回归方程 ①最小二乘法:求回归直线使得样本数据的点到回归直线
距离的平方和 最小的方法叫做最小二乘法. 的________________
∧
∧
∧
②回归方程:方程 y =bx+a是两个具有线性相关关系的变 量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其
2018版高考数学一轮总复习第9章统计统计案例及算法初步9.3变量相关关系与统计案例课件文
板块二 典例探17· 洛阳模拟]为研究语文成绩和英语成绩之间
是否具有线性相关关系, 统计某班学生的两科成绩得到如图 所示的散点图(x 轴、 y 轴的单位长度相同), 用回归直线方程 ^ y =bx+a 近似地刻画其相关关系,根据图形,以下结论最 有可能成立的是( )
考点 3
独立性检验
1.独立性检验的有关概念 (1)分类变量 可用变量的不同“值”表示个体所属的 不同类别 的 变量称为分类变量.
(2)2×2 列联表 假设有两个分类变量 X 和 Y,它们的取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为 y1 x1 x2 总计 a c y2 b d 总计 a+b c+d a+b+c+d
【变式训练 2】
PM2.5 是指空气中直径小于或等于 2.5
微 米 的 颗粒 物 ( 也称 可 入肺 颗 粒物 ) . 为 了探 究 车流 量 与 PM2.5 的浓度是否相关, 现采集到某城市周一至周五某一时 间段车流量与 PM2.5 浓度的数据如下表: 时间 车流量 x(万辆) PM2.5 的浓度 y(微克/立方米) 周一 周二 周三 周四 周五 100 78 102 80 108 84 114 88 116 90
[双基夯实] 一、疑难辨析 判断下列结论的正误. ( 正确的打“√”,错误的打 “×”) 1.相关关系与函数关系都是一种确定性的关系,也是 一种因果关系.( × ) 2.只有两个变量有相关关系,所得到的回归模型才有 预测价值.( √ )
3. 某同学研究卖出的热饮杯数 y 与气温 x(℃)之间的关 ^ 系,得到回归方程y=-2.352x+147.767,则气温为 2 ℃时, 一定可卖出 143 杯热饮.( × ) 4.事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大.( √ ) 5. 由独立性检验可知, 在犯错误的概率不超过 1%的前 提下认为物理成绩优秀与数学成绩有关,某人数学成绩优 秀,则他有 99%的可能物理优秀.( × )
【小初高学习】课标通用2018年高考数学一轮复习第十章统计与统计案例10.3变量间的相关关系统计案例
§10.3 变量间的相关关系、统计案例考纲展示►1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用.考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是________;与函数关系不同,________是一种非确定性关系.答案:相关关系 相关关系2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________,点散布在左上角到右下角的区域内,两个变量的相关关系为________.答案:正相关 负相关对回归系数的理解:解释变量;预报变量.某工厂工人月工资y (元)依劳动产值x (万元)变化的回归直线方程为y ^=900x +600,下列判断正确的是__________.①劳动产值为10 000元时,工资为500元; ②劳动产值提高10 000元时,工资提高1 500元; ③劳动产值提高10 000元时,工资提高900元; ④劳动产值为10 000元时,工资为900元. 答案:③解析:回归系数b ^的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位.[典题1] (1)下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )A BC D[答案] D[解析] 观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.(2)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ [答案] D[解析] 由回归方程y ^=b ^x +a ^知,当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.[点石成金] 相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.考点2 线性回归分析1.回归分析对具有________的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求________;(ⅲ)用回归直线方程作预报.答案:相关关系 回归直线方程 2.回归直线如果散点图中点的分布从整体上看大致在________附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.答案:一条直线3.回归直线方程的求法——最小二乘法设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=b ^x +a ^的系数为:⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x2= ,a ^=y -b ^x ,其中x =1n ∑i =1n x i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的________.答案:∑i =1nx i y i -n x y∑i =1nx 2i -n x 2中心4.相关系数当r >0时,表明两个变量________; 当r <0时,表明两个变量________.r 的绝对值越接近于1,表明两个变量的线性相关性________.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.答案:正相关 负相关 越强[教材习题改编]已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为__________.答案:y ^=1.23x +0.08解析:设回归直线方程为y ^=1.23x +a ^, 因为回归直线必过样本点的中心(x ,y ), 将点(4,5)代入回归直线方程得a ^=0.08, 所以所求方程为y ^=1.23x +0.08.变量的相关关系:散点图;回归直线过(x ,y ).某工厂经过技术改造后,生产某种产品的产量x (吨)与相应的生产能耗y (吨标准煤)有如下几组样本数据.0.7,那么当产量x =10吨时,估计相应的生产能耗为__________吨标准煤.答案:7.35解析:先求得x =4.5,y =3.5,由y ^=0.7x +a ^过点(x ,y ),得a ^=0.35, 所以回归直线方程是y ^=0.7x +0.35.当x =10吨时,y ^=7+0.35=7.35(吨标准煤).[典题2] (1)已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )A.3.25 C .2.2D .0[答案] B[解析] 由已知得x =2,y =4.5, 因为回归方程经过点(x ,y ), 所以a ^=4.5-0.95×2=2.6.(2)由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.①求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; ②(ⅰ)判断变量x 与y 之间是正相关还是负相关; (ⅱ)当使用年限为8年时,试估计支出的维修费是多少.附:在线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.[解] ①∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2. ②(ⅰ)由①知,b ^=1.2>0, ∴变量x 与y 之间是正相关.(ⅱ)由①知,当x =8时,y ^=9.8,即使用年限为8年时,支出维修费约是9.8万元. [点石成金] 1.正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.2.回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =b x +a ; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2,b ^=--+--+2×19+4×29-5×0×3.2-2+-2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2. 由上述计算结果知,所求回归直线方程为 y ^-257=b ^(x -2 010)+a ^=6.5(x -2 010)+3.2, 即y ^=6.5×(x -2 010)+260.2.(2)利用(1)中所求回归直线方程,可预测2016年的粮食需求量为6.5×(2 016-2 010)+260.2=6.5×6+260.2=299.2(万吨).考点3 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表:K2=(其中n=________为样本容量),则利用独立性a +b a+c b+d c+d检验判断表来判断“X与Y的关系”.答案:a+b+c+d(1)[教材习题改编]为调查中学生的近视情况,测得某校150名男生中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,最有说服力的方法是________.(填序号)①回归分析;②期望与方差;③独立性检验;④概率.答案:③解析:“近视”与“性别”是两个分类变量,其是否有关,应该用独立性检验来判断.(2)[教材习题改编]在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得出“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,有下列四种说法:①100个吸烟者中至少有99人患有肺癌;②1个人吸烟,那么这人有99%的概率患有肺癌;③在100个吸烟者中一定有患肺癌的人;④在100个吸烟者中可能一个患肺癌的人也没有.其中正确说法的序号是________.答案:④对独立性检验的理解:K2的计算;对P(K2≥k0)的解释.[2017·湖南张家界模拟]某高校教“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:k=-223×27×20×30≈4.844.因为k>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.附表:解析:∵k>3.841,查临界值表,得P(K2≥3.841)=0.05,故这种判断出错的可能性为5%.[典题3] (1)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:已知PP(K2≥5.024)≈0.025.根据表中数据,得到K2=-223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.[答案]5%[解析]由K2≈4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.(2)[2017·江西九江模拟]某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生的成绩分为6组,得到如下所示的频数分布表.数学成绩与性别是否有关;②规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.K2=.a +b c+d a+c b+d[解]①x男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.②由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:≈1.79,可得K2=60×40×30×70因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.[点石成金] 1.独立性检验的关键是正确列出2×2列联表,并计算出K2的值.2.弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.[2017·广西玉林、贵港联考]某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填写下面的2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=a +bc +d a +c b +d. 解:x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:K 2=10×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.[方法技巧] 1.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b ^,常数项为a ^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.[易错防范] 1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K 2的观测值k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.真题演练集训1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元 答案:B解析:由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴ a ^=8-0.76×10=0.4,∴ 当x =15时,y ^=0.76×15+0.4=11.8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=b ^t +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由折线图中数据和附注中参考数据,得t =4,∑i =17 (t i -t )2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t)(y i -y )=∑i =17t i y i -t∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1),得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程,得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.3.[2015·新课标全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18x i .(1)根据散点图判断,y =a +bx 与y=c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+β u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.4.[2014·新课标全国卷Ⅱ]某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3.所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.课外拓展阅读 统计案例问题的规范答题[典例] [2013·福建卷]某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:K 2=a +bc +d a +cb +d.[审题视角] 由频率分布直方图列举基本事件,结合古典概型,求概率.利用独立性检验公式计算K 2.[解] (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以K 2=a +bc +d a +cb +d=-260×40×30×70=2514≈1.79. 因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. [答题模板] 第1步:由分层抽样计算两组工人的数目; 第2步:由频率分布直方图计算两组不足60件的人数; 第3步:列举5人抽取2人的基本事件数; 第4步,由古典概型计算概率;第5步:统计生产能手与非生产能手,列2×2列联表; 第6步:由公式计算K 2,确定答案. 归纳总结(1)分层抽样比为100500=15,故25周岁以上有300×15=60(人),25周岁以下的200×15=40(人),然后再根据频率计算“不足60件”的人数,并设定符号.(2)列2×2列联表时,其中的数字应先由频率分布直方图算出后再列表.。
2018高三数学(理)一轮复习课件:10-4变量间的相关关系 统计案例
������
������
∑
2 ������2 ������������ ������
, ������ = ������ − ������ ������,它主要用来估计和预测取值,从而获得对
^
^
这两个变量之间整体关系的了解.求回归方程的方法是最小二乘法, 即使得样本数据的点到回归直线的距离的平方和最小.
,它主要用于相关量的显著性检验,以衡量
2
它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0 时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关 性 越强 ;当|r|接近0时,表明两个变量间几乎不存 在 线性相关性 .
知识梳理 知识梳理 双基自测
-7-
1 2 3 4 5
5.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的 不同类别 , 像这类变量称为分类变量. (2)列联表:列出两个分类变量的 频数表 ,称为列联表.假设 有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样 本频数列联表(称为2×2列联表)为 2×2列联表
^
^
^
^ ^
^ ^ ^ 由 ������ =-0.1x+1 知 y 与 x 负相关,又 ������ 与 z 正相关,故 z 与 x 负相关.
关闭
D.x 与������ 负相关,x 与 z 正相关
^
关闭
A
解析 答案
知识梳理 知识梳理 双基自测
-11-
1 2 3 4 5
3.(2016河南焦作二模)为了解某社区居民的家庭年收入与年支出 的关系,随机调查了该社区5户家庭,得到如下统计数据表:
-5-
高三数学一轮精品复习学案:第十章 统计、统计案例
高三数学一轮精品复习学案:第十章统计、统计案例【知识特点】1.统计中所学的内容是数理统计中最基本的问题,通过这些内容主要来介绍相关的统计思想和方法,了解一些有关统计学的基本知识,并能够应用几个基本概念、基本公式来处理实际生活中的一些基本问题。
2.统计案例为新课标中新增内容,主要是通过案例体会运用统计方法解决实际问题的思想和方法。
增加了统计和统计案例后,使得高中数学的整个体系更加完善了,有利于开阔数学视野,丰富数学思想和方法。
【重点关注】1.从对新课标高考试题的分析可以发现,主要考查抽样方法、各种统计图表、样本数字特征等。
对这部分的考查主要以选择题和填空题的形式出现。
2.统计案例中的独立性检验和回归分析也会逐步在高考题中出现,难度不会太大,多数情况下是考查两种统计分析方法的简单知识,以选择题和填空题为主。
【地位与作用】《全国新课程标准高考数学考试大纲》中对考生能力要求明确界定为空间想象能力、抽象概括能力、推理论证能力、运算求解能力、数据处理能力以及应用意识和创新意识等六个方面,其中数据处理能力是首次提出的一个能力要求,这定义为:会收集数据、整理数据、分析数据,能从大量数据中抽取对研究问题有用的信息,并作出判断。
数据处理能力主要依据统计(高考考试大纲对知识点要求如下表所示)或统计案例中的方法对数据进行整理、分析,并解决给定的实际问题,对统计的要求已提升到能力的高度。
统计的思想方法广泛应用于自然科学和社会科学的研究中,统计的语言不仅是数学的语言,也是各学科经常引用的大众语言,统计知识是作为一个新时期公民所比备的知识。
统计学就是应用科学的方法收集、整理、分析、描述所要研究的数据资料,然后根据所得到的结果,进行推断或决策的一门实用性很强的科学。
统计这部分内容,在高中数学新课程中,主要分布在必修3第二章(约16课时)与选修2—3第三章(约9课时)。
相对于高中学生的认知水平和生活经历还相对不是很高,所以它只能属于非重点内容,所出的相关题目一般来说都相对比较简单。
高考数学一轮复习 第10章 统计、统计案例 第3讲 变量相关关系与统计案例课件
2.回归方程与回归分析 (1)线性相关关系与回归直线 如果散点图中点的分布从整体上看大致在 04 ___一__条__直__线____附近,就称 这两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归方程 ①最小二乘法:求回归直线使得样本数据的点到回归直线的 05 __距__离___ __的__平__方__和___最小的方法叫做最小二乘法. ②回归方程:方程y^=b^ x+a^ 是两个具有线性相关关系的变量的一组数 据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中a^ ,b^ 是待定数.
12/11/2021
1.相关关系与函数关系的异同 共同点:二者都是指两个变量间的关系; 不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关 系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系. 2.从散点图看相关性 正相关:样本点分布在从左下角到右上角的区域内; 负相关:样本点分布在从左上角到右下角的区域内. 3.回归直线y^=b^ x+a^ 必过样本点的中心.
解析 答案
2.(2019·湖南衡阳联考)甲、乙、丙、丁四位同学各自对 A,B 两个变
量的线性相关性做了试验,并用回归分析方法分别求得相关系数 r 与残差
平方和 m,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现的 A,B 两变量有更强的线性相关性( )
列联表.参照附表,能得到的正确结论是( )
男
女
总计
爱好
40
20
60
不爱好
20
2018年高考数学(文)一轮复习文档第十章统计、统计案例第3讲变量间的相关关系、统计案例Word版含答案
第3讲 变量间的相关关系、统计案例, )1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y ∑n i =1x 2i -n x 2,a ^=y -b ^x .(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.非线性回归分析如果在样本数据的散点图中,样本点并没有分布在某一条直线附近,而是分布在某一条曲线(如二次函数、指数函数、对数函数等)的周围,我们就称这两个变量之间不具有线性相关关系,而是非线性相关关系.对这样的两个变量进行回归分析,称为非线性回归分析.4.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).1.辨明四个易误点(1)易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.(2)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(3)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).(4)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法 (1)求线性回归方程的方法求解回归方程的关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x ,y ,∑ni =1x 2i ,∑ni =1x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x ,y ),即有y =b ^x +a ^,可确定a ^.(2)非线性回归分析的步骤①通过散点图,判断回归模型的形式是线性的还是非线性的,若为非线性的,可以通过变化趋势选择合适的模型,求出模型后,通过相关指数判断哪个模型拟合效果较好;②非线性回归问题可以通过变换转化为用线性回归方法去解决,转化过程中,注意数据也相应地跟着变化;③利用变量替换转化为线性问题,解决后要再转化回来.1.有关线性回归的说法,不正确的是( ) A .具有相关关系的两个变量是非确定性关系 B .散点图能直观地反映数据的相关程度C .回归直线最能代表线性相关的两个变量之间的关系D .散点图中的点越集中,两个变量的相关性越强 D2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A .0.1%B .1%C .99%D .99.9%C 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.教材习题改编 改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x 作为自变量得到四条回归直线.省城y ^=2.84x +9.50,地级市y ^=2.52x +8.35, 县城y ^=2.31x +6.76,农村y ^=0.42x +1.80,则四个区域中,大学入学率年增长率最快的区域是( )A .省城B .地级市C .县城D .农村A 四条回归直线,斜率最大的是省城,故选A.4.对于下列表格所示的五个散点,已知求得的回归直线方程为y ^=0.8x -155.则实数m 的值为( )A.8 B .8.2 C .8.4D .8.5A 依题意得x -=15×(196+197+200+203+204)=200,y -=15×(1+3+6+7+m )=17+m 5,因为回归直线必经过样本点的中心,所以17+m5=0.8×200-155,解得m =8,选A.5.下面是一个2×2列联表则表中a 、b 处的值分别为________. 因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54, 52、54相关关系的判断(1)(2015·高考湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关(2)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关【解析】 (1)因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)由题图①可知,各点整体呈递减趋势,x 与y 负相关;由题图②可知,各点整体呈递增趋势,u 与v 正相关.【答案】 (1)C (2)C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关:r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.1.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )D 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3A 由相关系数的定义,以及散点图所表达的含义可知r2<r4<0<r3<r1.线性回归方程及其应用(高频考点)线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.高考中对线性回归问题的考查主要有以下两个命题角度:(1)求回归直线方程;(2)利用回归方程进行预测.(2017·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 010,z =y -5得到下表2:(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x·y∑i =1nx 2i -n x2,a ^=y -b ^x )【解】 (1) t -=3,z -=2.2,∑i =15 t i z i =45,∑i =15t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4,所以z ^=1.2t -1.4.(2)将t =x -2 010,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 010)-1.4,即y ^=1.2x -2 408.4. (3)因为y ^=1.2×2 020-2 408.4=15.6,所以预测到2020年年底,该地储蓄存款额可达15.6千亿元.最小二乘估计的三个步骤(1)作出散点图,判断是否线性相关. (2)如果是,则用公式求a ^,b ^,写出回归方程. (3)根据方程进行估计.回归直线方程恒过点(x -,y -).角度一 求回归直线方程1.某企业每天由空气污染造成的经济损失y (单位:元)与空气污染指数API(记为x )的数据统计如下:(1)求出y 与x 的线性回归方程y ^=b ^x +a ^;(2)若该地区某天的空气污染指数为800,预测该企业当天由空气污染造成的经济损失.附:回归方程中⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x ) (y i-y )∑i =1n(x i-x )2a ^=y -b ^x(1)x =14×(150+200+250+300)=225,y =14×(200+350+550+800)=475,∑i =14(x i -x)(y i -y )=(-75)×(-275)+(-25)×(-125)+25×75+75×325=50000,∑i =14(x i -x )2=(-75)2+(-25)2+252+752=25×25×20=12 500,b ^=4,a ^=y -b ^x =475-4×225=-425,所以y ^=4x -425.(2)当x =800时,y ^=2 775.角度二 利用回归方程进行预测2.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C .12.0万元D .12.2万元B 由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,所以a ^=8-0.76×10=0.4, 所以当x =15时, y ^=0.76×15+0.4=11.8(万元).独立性检验(2017·沈阳模拟)为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值; (2)绘制发病率的条形统计图,并判断疫苗是否有效?(3)能够有多大把握认为疫苗有效?附:K 2=n (ad -bc )2(a +b )(a +c )(c +d )(b +d ),n =a +b +c +d【解】 (1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件E , 由已知得P (E )=y +30100=25,所以y =10,B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23,注射疫苗发病率为1040=14.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率.(3)K 2=100×(20×10-30×40)250×50×40×60=1 000 00050×20×60=503≈16.67>10.828.所以至少有99.9%的把握认为疫苗有效.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K2与临界值的大小关系,作出统计判断.(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),n=a+b+c+d(1)x男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”., )——回归直线方程的求解与运用(本题满分12分)(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2分)(2)令w =x ,先建立y 关于w 的线性回归方程. 由于=108.81.6=68,(4分)c ^=y -d ^w =563-68×6.8=100.6,(5分)所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (6分)(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. (9分)②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. (12分)(1)求解本题的思路①根据散点图中的点的分布规律作出判断.②若x ,y 为线性相关,可直接求其线性回归方程,若x ,y 为非线性相关,可通过换元先建立线性回归方程,然后再转化为非线性回归方程.③利用②中求出的回归方程求最大预报值. (2)求解本题渗透的思想①通过散点图判断回归类型,体现了数形结合思想.②通过换元法将问题转化为线性回归分析,体现了化归转化思想., )1.已知变量x ,y 呈线性相关关系,线性回归方程为y ^=0.5+2x ,则变量x ,y 是( ) A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系A 随着变量x 增大,变量y 有增大的趋势,则x ,y 称为正相关.2.某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( )A .y 与x 具有正的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右D 由回归直线方程知,y 与x 具有负的线性相关关系,A 错,若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错.当销售价格为10元时,y ^=-5×10+150=100,即销售量为100件左右,C 错,故选D.3.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x (单位:元)和销售量y (单位:件)之间的四组数据如下表:为决策产品的市场指导价,用最小二乘法求得销售量y 与售价x 之间的线性回归方程为y ^=-1.4x +a ^,那么方程中的a ^值为( )A .17B .17.5C .18D .18.5B x -=4+4.5+5.5+64=5,y -=12+11+10+94=10.5,因为回归直线过样本点的中心, 所以a ^=10.5+1.4×5=17.5.故选B.4.甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差的平方和m 如下表:则哪位同学的试验结果体现A 、B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙D .丁D 相关系数r 越接近于1和残差平方和m 越小,两变量A ,B 的线性相关性越强.故选D.5.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%D 因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y ^=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.6.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”A 由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k =100×(675-300)255×45×75×25≈3.030.因为 2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.0.2458.某单位为了了解用电量y 千瓦·时与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温.由表中数据得线性回归方程y ^=a ^+b ^x 中b ^=-2,据此预测当气温为5℃时,用电量的千瓦·时数约为________.因为回归直线经过样本中心点,故由已知数表可得x -=10,y -=30,即(10,30)在回归直线上,代入方程可得a ^=50,即回归直线方程为y ^=50-2x ,故可预测当气温为5℃时,用电量的度数约为50-2×5=40.409.某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据以上数据完成下列2×2列联表.(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析. (1)2×2列联表如下:(2)因为K 2=30×(4×2-16×8)12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数.(1)由表中数据计算得,t -=5,y -=4,∑i =15(t i -t -)(y i -y -)=8.5,∑i =15(t i -t -)2=10,b ^=∑i =15(t i -t) (y i -y )∑i =15(t i -t )2=0.85,a ^=y --b ^t -=-0.25.所以回归方程为y ^=0.85t -0.25.(2)将t =8代入(1)的回归方程中得y ^=0.85×8-0.25=6.55. 故预测t =8时,细菌繁殖个数为6.55千个.11.(2017·梅州一模)在2016年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________.x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.1012.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图; (2)下表是近五届奥运会中国代表团获得的金牌数之和y (从第26届算起,不包括之前已获得的金牌数)随时间x 变化的数据:作出散点图如下:由图可以看出,金牌数之和y 与时间x 之间存在线性相关关系,请求出y 关于x 的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?参考数据:x -=28,y -=85.6,∑i =1n(x i -x -)(y i -y -)=381,∑i =1n(x i -x -)2=10.(1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:(2)b ^=∑i =1n(x i -x) (y i -y )∑i =1n(x i -x )2=38110=38.1, a ^=y --b ^x -=85.6-38.1×28=-981.2,所以金牌数之和y 关于时间x 的线性回归方程为y ^=38.1x -981.2.当x =32时,中国代表团获得的金牌数之和的预报值 y ^=38.1×32-981.2=238,故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.13.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d(1)依题意得⎩⎪⎨⎪⎧10(0.035+0.025+c +2b +a )=12b =a +c解得b =0.01,因为成绩在内的有6人,所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48, 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得K 2=60×(22×4-26×8)48×12×30×30≈1.666 7<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.。
2018版高考数学一轮复习第十一章统计与概率11.3变量间的相关关系统计案例理
第十一章 统计与概率 11.3 变量间的相关关系、统计案例 理1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1x i -x y i-y ∑ni =1 x i-x 2=∑ni =1x i y i -n x y ∑ni =1x 2i-n x2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n ad -bc 2a +bc +d a +c b +d,其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. 【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( √ )(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( × )1.(2015·湖北)已知变量x 和y 满足关系y ^=-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案 C解析 因为y ^=-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z ^=b ^y+a ^(b ^>0),所以z ^=-0.1b ^x +b ^+a ^,-0.1b ^<0,所以x 与z 负相关.故选C. 2.(教材改编)下面是2×2列联表:则表中a ,b 的值分别为( )A .94,72B .52,50C .52,74D .74,52 答案 C解析 ∵a +21=73,∴a =52.又a +22=b ,∴b =74.3.(2016·河南八市质检)为了研究某大型超市当天销售额与开业天数的关系,随机抽取了5天,其当天销售额与开业天数的数据如下表所示:根据上表提供的数据,求得y 关于x 的线性回归方程为y ^=0.67x +54.9,由于表中有一个数据模糊看不清,请你推断出该数据的值为( ) A .67 B .68 C .68.3 D .71 答案 B解析 设表中模糊看不清的数据为m ,因为x =10+20+30+40+505=30,又样本中心点(x ,y )在回归直线y ^=0.67x +54.9上, 所以y =m +3075=0.67×30+54.9,得m =68,故选B.4.(2017·湖南三校联考)某产品在某零售摊位的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得线性回归方程y ^=b ^x +a ^中的b ^=-4,据此模型预测零售价为15元时,每天的销售量为( )A .51个B .50个C .49个D .48个 答案 C解析 由题意知x =17.5,y =39,代入线性回归方程得a ^=109,109-15×4=49,故选C.5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X 和Y 是否有关系,通过查阅下表来确定“X 和Y 有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得K 2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.答案 95解析 根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95% 的把握认为用电脑时间与视力下降有关系.题型一 相关关系的判断例1 (1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1 拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22; ③x 、y 之间不能建立线性回归方程. 答案 (1)D (2)①②解析 (1)由线性回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.(2)①显然正确;由散点图知,用y =c 1拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确. 思维升华 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.(1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1 D .r 2=r 1答案 (1)D (2)C解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.2e c x 2e c x题型二 线性回归分析例2 (2016·全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1ny i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t 2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55.∑i =17 (t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t 2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点的中心求系数. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u 2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18w i -w· y i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人.(1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系?参考公式:K 2=n ad -bc 2 a +b c +d a +c b +d(其中n =a +b +c +d )(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关. 根据(1)中的数据,可以求得K 2=100× 15×46-35×4 250×50×19×81≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算K 2的大小判断:K 2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表.②根据公式K 2=n ad -bc 2 a +b a +c b +d c +d计算K 2的观测值k .③比较k 与临界值的大小关系,作统计推断.(2017·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名.(1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系? (2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率.附:K 2=n ad -bc 2 a +b c +d a +c b +d解 (1)由题意可得2×2列联表如下:根据2×2列联表中数据,得K 2的观测值为k =800× 60×500-100×140 2160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.24.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y =b x +a ;(2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b ^=-4 × -21 + -2 × -11 +2×19+4×29-5×0×3.2-4 + -2 +2+4-5×0=26040=6.5, a ^=y -b ^x =3.2.[6分]由上述计算结果,知所求线性回归方程为y ^-257=6.5(x -2010)+3.2,即y ^=6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+ 260.2=6.5×6+260.2=299.2(万吨).[12分]1.(2016·衡水质检)具有线性相关关系的变量x ,y 满足一组数据如下表所示.若y 与x 的线性回归方程为y ^=3x -32,则m 的值是( )A.4B.92 C .5 D .6答案 A解析 由已知得x =32,y =m4+2,又因为点(x ,y )在直线y ^=3x -32上,所以m 4+2=3×32-32,得m =4.2.(2017·武汉质检)根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 B解析 作出散点图如下:观察图象可知,回归直线y ^=b ^x +a ^的斜率b ^<0,当x =0时,y ^=a ^>0.故a ^>0,b ^<0.3.(2017·泰安月考)为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据:(1)统计量:K 2=n ad -bc 2a +bc +d a +c b +d(n =a +b +c +d ).(2)独立性检验的临界值表:则下列说法正确的是( )A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 答案 C解析 因为K 2=40× 14×13-7×6220×20×21×19≈4.912,3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关. 4.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归方程为y ^ =b ^ x +a ^,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′答案 C解析 b ′=2,a ′=-2,由公式b ^=∑i =16x i -xy i -y∑i =16x i -x 2,求得b ^=57,a ^ =y -b ^ x =136-57×72=-13,∴b ^ <b ′,a ^>a ′.5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:附:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据,得到K 2=105× 10×30-20×45255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”.6.(2016·合肥二模)某市居民2010~2014年家庭年平均收入x (单位:万元)与年平均支出y (单位:万元)的统计资料如下表所示:根据统计资料,居民家庭年平均收入的中位数是______,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”) 答案 13 正解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.8.(2016·长春模拟)在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)现已知其线性回归方程为y =0.36x +a ,则根据此线性回归方程估计数学得90分的同学的物理成绩为______(四舍五入到整数). 答案 73解析 x =60+65+70+75+805=70,y =62+64+66+68+705=66,所以66=0.36×70+a ^,a ^=40.8,即线性回归方程为y ^=0.36x +40.8.当x =90时,y ^=0.36×90+40.8=73.2≈73.9.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表: 甲厂:乙厂:(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”?附解 (1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为360500×100%=72%;乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为320500×100%=64%.(2)完成的2×2列联表如下:由表中数据计算得K 2的观测值k =1 000× 360×180-320×140 2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”. 10.某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:(1)根据2~5月份的数据,画出散点图,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想? 解 (1)根据表中2~5月份的数据作出散点图,如图所示:计算得x =11,y =24,∑5i =2x i y i =11×25+13×29+12×26+8×16=1 092,∑5i =2x 2i =112+132+122+82=498, 则b ^=∑5i =2x i y i -4x y∑5i =2x 2i -4x2=1 092-4×11×24498-4×112=187, a ^=y -b ^x =24-187×11=-307.故y 关于x 的线性回归方程为y ^=187x -307.(2)当x =10时,y ^=187×10-307=1507, 此时|1507-22|<2;当x =6时,y ^=187×6-307=787,此时|787-12|<2.故所得的线性回归方程是理想的.。
最新-2018年高考数学一轮复习 183 变量的相关性与统计
2018年高考数学一轮复习精品教学案12.3 变量的相关性与统计案例(新课标人教版,教师版)【考纲解读】 1.变量的相关性:(1)会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 2.统计案例:(1)了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.(2)独立性检验:①了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.理科② 假设检验:了解假设检验的基本思想、方法及其简单应用. ③ 回归分析:了解回归的基本思想、方法及其简单应用.【考点预测】高考对此部分内容考查的热点与命题趋势为:1.统计与统计案例是历年来高考重点内容之一,选择题、填空题与解答题三种题型都会考查,难度一般不大,在考查统计与统计案例的同时,又考查转化与化归思想和分类讨论等数学思想,以及分析问题与解决问题的能力.2.2018年的高考将会继续保持稳定,坚持考查统计与统计案例,命题形式会更加灵活,特别要注意新课标中新增的内容. 【要点梳理】1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则⎩⎪⎨⎪⎧b ^=∑i =1n i-xi-y∑i =1ni-x 2=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^ x .其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数r=∑i =1ni-xi-y∑i =1ni-x2∑i =1ni-y2,用它来衡量两个变量间的线性相关关系.(1)当r >0时,表明两个变量正相关; (2)当r <0时,表明两个变量负相关;(3)r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型(1)y =bx +a +e 中,a 、b 称为模型的未知参数;e 称为随机误差. (2)相关指数用相关指数R 2来刻画回归的效果,其计算公式是:R 2= ,R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对预报变量变化的贡献率,R 2越接近于1,表示回归效果越好. 6.独立性检验(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.(2)列出的两个分类变量的频数表,称为列联表.(3)一般地,假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为: 2×2列联表K 2=n ad a +ba +c c +db +d(其中n =a +b +c +d 为样本容量),可利用独立性检验判断表来判断“x 与y 的关系”.这种利用随机变量K 2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验. 【例题精析】考点一 变量的相关性例1.(2018年高考湖南卷文科5)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x-85.71,则下列结论中不正确...的是( ) A.y 与x 具有正的线性相关关系 B.回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1cm ,则其体重约增加0.85kgD.若该大学某女生身高为170cm ,则可断定其体重必为58.79kg【变式训练】1.(2018年高考湖南卷文科5)通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表:由2222()110(40302030)7.8()()()()60506050n ad bc K K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯算得,附表:参照附表,得到的正确结论是( )A . 有99%以上的把握认为“爱好该项运动与性别有关”B . 有99%以上的把握认为“爱好该项运动与性别无关”C . 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D . 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 【答案】A【解析】由27.8 6.635K ≈>,而2( 6.635)0.010P K ≥=,故由独立性检验的意义可知选A.考点二 回归分析例2.(2018年高考山东卷文科8)某产品的广告费用x 与销售额y 的统计数据如下表根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为( )(A)63.6万元 (B)65.5万元 (C)67.7万元 (D)72.0万元【名师点睛】本小题主要考查线性回归直线方程的求解,以及由回归分析进行估计,考查了学生对数据处理的基本方法和能力,考察运用统计知识解决简单实际应用问题能力和运算求解能力.【变式训练】2. (2018年高考安徽卷文科20)某地最近十年粮食需求量逐年上升,下表是部分统计数据:=+;(Ⅰ)利用所给数据求年需求量与年份之间的回归直线方程y bx a(Ⅱ)利用(Ⅰ)中所求出的直线方程预测该地2018年的粮食需求量。
2018版高考数学复习第十章统计与统计案例10.3变量间的相关关系统计案例教师用书文北师大版
2018版高考数学大一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例教师用书 文 北师大版1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.线性回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (2)线性回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎨⎧b =∑n i =1x i -xy i -y∑ni =1x i-x2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,(x,y)称为样本点的中心.(3)相关系数①r=∑ni=1x i-x y i-y∑ni=1x i-x2∑ni=1y i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2;②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;当r=0时,表明两个变量线性不相关.|r|值越接近于1,表明两个变量之间的线性相关程度越高.|r|值越接近于0,表明两个变量之间的线性相关程度越低.4.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1.2×2列联表:BAB1B2总计A1 a b a+bA2 c d c+d总计a+c b+d n=a+b+c+d 构造一个统计量χ2=n ad-bc2a+b c+d a+c b+d.利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ2>3.841时,有95%的把握判定变量A,B有关联;当χ2>6.635时,有99%的把握判定变量A,B有关联.【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ×)(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √)(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √)(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( ×)(5)事件X,Y关系越密切,则由观测数据计算得到的χ2越大.( √)(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ×)1.(2015·湖北)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关答案 C解析因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=by +a(b>0),所以z=-0.1bx+b+a,-0.1b<0,所以x与z负相关.故选C.2.(教材改编)下面是2×2列联表:y1y2合计x1 a 2173x2222547合计 b 46120则表中a,b的值分别为( )A.94,72 B.52,50 C.52,74 D.74,52答案 C解析∵a+21=73,∴a=52.又a+22=b,∴b=74.3.(2017·重庆联考)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )A.y=0.4x+2.3 B.y=2x-2.4C.y=-2x+9.5 D.y=-0.3x+4.4答案 A解析因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A和B中的直线方程进行检验,可以排除B,故选A.4.(2016·西安模拟)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:由上表可得线性回归方程y=bx+a中的b=-4,据此模型预测零售价为15元时,每天的销售量为( )A.51个 B.50个 C.49个 D.48个答案 C解析由题意知x=17.5,y=39,代入线性回归方程得a=109,109-15×4=49,故选C.5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X和Y是否有关系,通过查阅下表来确定“X和Y有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得χ2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.答案95解析根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95% 的把握认为用电脑时间与视力下降有关系.题型一 相关关系的判断例1 (1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论: ①y 与x 负相关且y =2.347x -6.423; ②y 与x 负相关且y =-3.476x +5.648; ③y 与x 正相关且y =5.437x +8.493; ④y 与x 正相关且y =-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用y =21e c xc 拟合时的相关系数的平方为r 21,用y =bx +a 拟合时的相关系数的平方为r 22,则r 21>r 22; ③x 、y 之间不能建立线性回归方程. 答案 (1)D (2)①②解析 (1)由线性回归方程y =bx +a 知当b >0时,y 与x 正相关,当b <0时,y 与x 负相关,∴①④一定错误.(2)①显然正确;由散点图知,用21ec xy c =拟合的效果比用y =bx +a 拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确. 思维升华 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b >0时,正相关;b <0时,负相关.(1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y=12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1 D .r 2=r 1答案 (1)D (2)C解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.题型二 线性回归分析例2 (2016·全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r =∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y =a +bt 中斜率和截距的最小二乘估计公式分别为:b =∑i =1nt i -ty i -y∑i =1nt i -t2,a =y -b t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55.∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b =∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y =0.92+0.10t .将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ,a .②待定系数法:利用回归直线过样本点的中心求系数. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b .(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑i =18(x i -x )2∑i =18(w i -w )2∑i =18(x i -x )·(y i -y )∑i =18(w i -w )·(y i -y )46.6 563 6.8289.81.61 469108.8表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑i =1nu i -uv i -v∑i =1nu i -u2,α=v -βu .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d =∑i =18w i -w·y i -y∑i =18w i -w2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w ,因此y 关于x 的回归方程为y =100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6, 年利润z 的预报值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z =0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作的积极性和对待企业改革的态度的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人. (1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系?参考公式:χ2=n ad -bc 2a +bc +d a +cb +d(其中n =a +b +c +d )P (χ2≥k 0)0.500.400.250.150.100.05 0.025 0.010 0.0050.001k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828解 (1)根据题设条件,得2×2列联表如下:支持企业改革不太赞成企业改革总计 工作积极 46 4 50 工作一般 35 15 50 总计8119100(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关. 根据(1)中的数据,可以求得 χ2=100×15×46-35×4250×50×19×81≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.思维升华 (1)比较几个分类变量有关联的可能性大小的方法 ①通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.②通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. (2)独立性检验的一般步骤 ①根据样本数据制成2×2列联表. ②根据公式χ2=n ad -bc 2a +ba +cb +dc +d计算χ2.③比较χ2与临界值的大小关系,作出统计推断.(2016·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名. (1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系? (2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率. 附:χ2=n ad -bc 2a +bc +d a +cb +dP (χ2≥k 0)0.010 0.005 0.001 k 06.6357.87910.828解 (1)由题意可得2×2列联表如下:不常吃零食常吃零食 总计 不患龋齿 60 100 160 患龋齿 140 500 640 总计200600800根据2×2列联表中数据,得 χ2=800×60×500-100×1402160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.小组 1 2 3 4 5 6 收集数据 甲乙 甲丙 甲丁 乙丙 乙丁 丙丁 处理数据丙丁乙丁乙丙甲丁甲丙甲乙由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.21.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2006 2008 2010 2012 2014 需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的线性回归方程y =bx +a ; (2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组统计数据,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.年份-2010 -4 -2 0 2 4 需求-257-21-111929对处理的数据,容易算得x =0,y =3.2,[4分]b =-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5, a =y -b x =3.2.[6分]由上述计算结果,知所求线性回归方程为y -257=6.5(x -2010)+3.2,即y =6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]1.(2016·衡水质检)具有线性相关关系的变量x ,y 满足一组数据如下表所示.若y 与x 的线性回归方程为y =3x -32,则m 的值是( )x 0 1 2 3 y-11m8A.4B.92 C .5 D .6答案 A解析 由已知得x =32,y =m4+2,又因为点(x ,y )在直线y =3x -32上,所以m 4+2=3×32-32,得m =4.2.(2016·湖南师大附中月考)已知x ,y 的取值如下表:x 0 1 4 5 6 8 y1.31.85.66.17.49.3从所得散点图中分析可知:y 与x 线性相关,且y =0.95x +a ,则x =13时,y 等于( ) A .1.45 B .13.8 C .13 D .12.8 答案 B解析 由题意,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25,∵y 与x 线性相关,且y =0.95x +a , ∴5.25=0.95×4+a ,∴a =1.45, 从而当x =13时,有y =13.8.故选B.3.(2017·泰安质检)为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:优秀 非优秀 总计 A 班 14 6 20 B 班7 13 20 总计211940附:参考公式及数据: (1)统计量:χ2=n ad -bc 2a +bc +d a +cb +d(n =a +b +c +d ).(2)独立性检验的临界值表:P (χ2≥k 0)0.050 0.010 k 03.8416.635则下列说法正确的是( )A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关答案 C解析 因为χ2=40×14×13-7×6220×20×21×19≈4.912,3.841<χ2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 ∵0.85>0,∴y 与x 正相关,∴A 正确; ∵回归直线经过样本点的中心(x ,y ),∴B 正确; ∵Δy =0.85(x +1)-85.71-(0.85x -85.71)=0.85, ∴C 正确.故选D.5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀 非优秀 总计 甲班 10b乙班 c30 合计附:P (χ2≥k 0)0.05 0.025 0.010 0.005 k 03.8415.0246.6357.879已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据,得到χ2=105×10×30-20×45255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”.6.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y =bx +a ,则“(x 0,y 0)满足线性回归方程y =bx +a ”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件答案 B解析 x 0,y 0为这10组数据的平均数,根据公式计算线性回归方程y =bx +a 的b 以后,再根据a =y -b x (x ,y 为样本平均数)求得a .因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y =0.2x +12中,当解释变量x 每增加一个单位时,预报变量y 平均增加0.2个单位;④对分类变量X 与Y 的统计量χ2来说,χ2越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,统计量χ2越小,说明两个相关变量有关系的把握程度越小. 8.(2016·郑州模拟)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y =13x +a ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a 的值是________.答案 18解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38, 则38=13×34+a ,解得a =18. 9.(2016·江西南昌二中模拟)为了研究某种细菌随时间x 变化的繁殖个数y ,收集数据如下:天数x /天 1 2 3 4 5 6 繁殖个数y /个612254995190(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断y =a +bx 与y =c 12e c x 哪一个作为繁殖个数y 关于时间x 变化的回归方程类型为最佳;(给出判断即可,不必说明理由)(2)根据(1)中判断的最佳类型及表中的数据,建立y 关于x 的回归方程.x y z∑6i =1(x i -x )2∑6i =1(x i -x )·(y i -y )∑6i =1(x i -x )·(z i -z )3.5 62.83 3.53 17.5596.512.09其中z i =ln y i ,z =16∑6i =1z i .参考公式:b =∑6i =1x i -xy i -y∑6i =1x i -x2,a =y -b x .解 (1)画散点图如下.由散点图看出样本点分布在一条类似指数函数图像的周围,于是先选择y =c 12e c x . (2)对y =c 12e c x 两边取对数,得ln y =c 2x +ln c 1. 令z =ln y ,c 2=b ,ln c 1=a ,则z =bx +a .x 1 2 3 4 5 6z1.792.483.22 3.894.555.25由b =∑6i =1x i -xz i -z∑6i =1x i -x2=12.0917.5=0.691, a =z -b x ≈1.112,得z =0.691x +1.112, 所以y =e0.691x +1.112.10.某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 附:χ2=n ad -bc 2a +bc +d a +c b +d. P (χ2≥k 0)0.10 0.05 0.010 0.005 k 02.7063.8416.6357.879解 (1)300×4 50015 000=90,所以应收集90位女生的样本数据. (2)由频率分布直方图得 1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表男生 女生 总计 每周平均体育运动时间不超过4小时 45 30 75 每周平均体育运动时间超过4小时165 60 225 总计210 90300结合列联表可算得χ2=300×45×60-165×3075×225×210×90=10021≈4.762>3.841. 所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。
高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件
附:
P(K2≥k0) 0.100 0.050 0.025 0.010 0.001
A.0.1%
k0 2.706 3.841 5.024 6.635 10.828 B.1%
C.99%
D.99.9%
C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1- 0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg 箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=20100×0×621×006×6-963×4×103482≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
() (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优 秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) [答案] (1)× (2)√ (3)√ (4)×
2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近
视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,
关关系,故①正确;由散点图知用y=c1ec2x拟合比用 ^y = b^ x+ ^a 拟合效果要好,
则R
2 1
>R
2 2
,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③
错误.]
[规律方法] 判定两个变量正、负相关性的方法 1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. 2相关系数:r>0时,正相关;r<0时,负相关. 3线性回归方程中: 时,正相关; 时,负相关.
2018版高考数学复习第十章统计与统计案例10.3变量间的相关关系统计案例教师用书文新人教版
2018版高考数学大一轮复习 第十章 统计与统计案例 10.3 变量间的相关关系、统计案例教师用书 文 新人教版1.两个变量的线性相关 (1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1x i -x y i-y∑ni =1 x i-x2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=n ad -bc a +bc +d a +cb +d,其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. 【思考辨析】判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( × )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( √ )(6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( × )1.(2015·湖北)已知变量x 和y 满足关系y ^=-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案 C解析 因为y ^=-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z ^=b ^y+a ^(b ^>0),所以z ^=-0.1b ^x +b ^+a ^,-0.1b ^<0,所以x 与z 负相关.故选C. 2.(教材改编)下面是2×2列联表:则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52答案 C解析 ∵a +21=73,∴a =52.又a +22=b ,∴b =74.3.(2017·重庆质检)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A 和B 中的直线方程进行检验,可以排除B ,故选A.4.(2017·湖南三校联考)某产品在某零售摊位的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得线性回归方程y ^=b ^x +a ^中的b ^=-4,据此模型预测零售价为15元时,每天的销售量为( )A .51个B .50个C .49个D .48个 答案 C解析 由题意知x =17.5,y =39,代入线性回归方程得a ^=109,109-15×4=49,故选C.5.(2016·玉溪一中月考)利用独立性检验来判断两个分类变量X 和Y 是否有关系,通过查阅下表来确定“X 和Y 有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得K 2≈3.855,那么就有________%的把握认为用电脑时间与视力下降有关系.答案 95解析 根据表格发现3.855>3.841,3.841对应的是0.05,所以根据独立性检验原理可知有95% 的把握认为用电脑时间与视力下降有关系.题型一 相关关系的判断例1 (1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④(2)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系; ②在该相关关系中,若用21e c xy c =拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22; ③x 、y 之间不能建立线性回归方程. 答案 (1)D (2)①②解析 (1)由线性回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.(2)①显然正确;由散点图知,用21ec xy c =拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确. 思维升华 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.(1)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A .-1 B .0 C.12D .1(2)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( ) A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1 D .r 2=r 1答案 (1)D (2)C解析 (1)所有点均在直线上,则样本相关系数最大,即为1,故选D.(2)对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.题型二 线性回归分析例2 (2016·全国丙卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解 (1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55.∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32= 2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. 思维升华 线性回归分析问题的类型及解题方法 (1)求线性回归方程①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点的中心求系数.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.(2015·课标全国Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 题型三 独立性检验例3 (2016·福建厦门三中模拟)某大型企业人力资源部为了研究企业员工工作的积极性和对待企业改革的态度的关系,随机抽取了100名员工进行调查,其中支持企业改革的调查者中,工作积极的有46人,工作一般的有35人,而不太赞成企业改革的调查者中,工作积极的有4人,工作一般的有15人. (1)根据以上数据建立一个2×2列联表;(2)对于人力资源部的研究项目,根据以上数据是否可以认为企业的全体员工对待企业改革的态度与其工作积极性有关系?参考公式:K2=n ad-bc2a +b c+d a+c b+d(其中n=a+b+c+d)解(1)根据题设条件,得2×2列联表如下:(2)提出假设:企业的全体员工对待企业改革的态度与其工作积极性无关.根据(1)中的数据,可以求得K2=-250×50×19×81≈7.862>6.635,所以有99%的把握认为抽样员工对待企业改革的态度与工作积极性有关,从而认为企业的全体员工对待企业改革的态度与其工作积极性有关.思维升华(1)比较几个分类变量有关联的可能性大小的方法①通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.(2)独立性检验的一般步骤①根据样本数据制成2×2列联表.②根据公式K2=n ad-bc2a +b a+c b+d c+d计算K2的观测值k.③比较k与临界值的大小关系,作统计推断.(2017·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名. (1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系? (2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率. 附:K 2=n ad -bc 2a+bc +d a +cb +d解 (1)由题意可得2×2列联表如下:根据2×2列联表中数据,得K 2的观测值为 k =800×-2160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.21.求线性回归方程的方法技巧典例 (12分)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y ^=b ^x +a ^; (2)利用(1)中所求出的线性回归方程预测该地2016年的粮食需求量.思想方法指导 回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 规范解答解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.对处理的数据,容易算得x =0,y =3.2,[4分]b ^=--+--+2×19+4×29-5×0×3.2-2+-2+22+42-5×02=26040=6.5, a ^=y -b ^x =3.2.[6分]由上述计算结果,知所求线性回归方程为y ^-257=6.5(x -2010)+3.2,即y ^=6.5(x -2010)+260.2.[8分](2)利用所求得的线性回归方程,可预测2016年的粮食需求量大约为6.5×(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).[12分]1.(2016·衡水质检)具有线性相关关系的变量x ,y 满足一组数据如下表所示.若y 与x 的线性回归方程为y ^=3x -32,则m 的值是( )A.4B.92 C .5 D .6答案 A解析 由已知得x =32,y =m4+2,又因为点(x ,y )在直线y ^=3x -32上,所以m 4+2=3×32-32,得m =4.2.(2016·湖南师大附中月考)已知x ,y 的取值如下表:从所得散点图中分析可知:y 与x 线性相关,且y ^=0.95x +a ^,则x =13时,y 等于( ) A .1.45 B .13.8 C .13 D .12.8 答案 B解析 由题意,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25,∵y 与x 线性相关,且y ^=0.95x +a ^,∴5.25=0.95×4+a ^,∴a ^=1.45, 从而当x =13时,有y =13.8.故选B.3.(2017·泰安月考)为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据: (1)统计量:K 2=n ad -bc 2a +bc +d a +cb +d(n =a +b +c +d ).(2)独立性检验的临界值表:则下列说法正确的是( )A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 答案 C 解析 因为K 2=-220×20×21×19≈4.912,3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 ∵0.85>0,∴y 与x 正相关,∴A 正确; ∵回归直线经过样本点的中心(x ,y ),∴B 正确;∵Δy =0.85(x +1)-85.71-(0.85x -85.71)=0.85, ∴C 正确.故选D.5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:附:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误. 根据列联表中的数据, 得到K 2=-255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”.6.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件答案 B解析 x 0,y 0为这10组数据的平均数,根据公式计算线性回归方程y ^=b ^x +a ^的b ^以后,再根据a ^=y -b ^x (x ,y 为样本平均数)求得a ^.因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点. 7.以下四个命题,其中正确的序号是________.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. 答案 ②③解析 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.8.(2016·郑州模拟)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是________. 答案 18解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38, 则38=13×34+a ^ ,解得a ^=18. 9.某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:(1)根据2~5月份的数据,画出散点图,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想? 解 (1)根据表中2~5月份的数据作出散点图,如图所示:计算得x =11,y =24,∑5i =2x i y i =11×25+13×29+12×26+8×16=1 092,∑5i =2x 2i =112+132+122+82=498, 则b ^=∑5i =2x i y i -4x y∑5i =2x 2i -4x 2=1 092-4×11×24498-4×112=187, a ^=y -b ^x =24-187×11=-307.故y 关于x 的线性回归方程为y ^=187x -307.(2)当x =10时,y ^=187×10-307=1507, 此时|1507-22|<2;当x =6时,y ^=187×6-307=787,此时|787-12|<2.故所得的线性回归方程是理想的.10.某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n ad-bc2a +b c+d a+c b+d.解(1)300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表结合列联表可算得K2=-275×225×210×90=10021≈4.762>3.841.所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。
2018届高三数学一轮复习第十章概率与统计第五节变量的相关关系统计案例课件文
3.已知x,y的对应取值如下表,从散点图可以看出y与x线性相关,且回归方
程为
^
y
^
=0.95x+a
,则a ^
=(
)
x
0
1
3
4
y
2.2
4.3
4.8
6.7
A.3.25 B.2.6
C.2.2 D.0 答案 B x =2,y 故选B.
=4.5,因为回归直线经过点(x ,y
),所以a ^
=4.5-0.95×2=2.6,
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在⑤ 一条直线附近 ,就称这
两个变量之间具有线性相关关系,这条直线叫做回归直线.
(4)最小二乘法
求回归直线,使得样本数据的点到它的⑥ 距离的平方和最小 的方法
叫做最小二乘法.
(5)回归方程
方程
^
y
=b ^
xa+^
是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),
1.观察下列各图:
其中两个变量x,y具有线性相关关系的图是 ( ) A.①② B.①④ C.③④ D.②③ 答案 C 由散点图知③④中x,y具有线性相关关系.
2.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下 列结论中正确的是 ( ) A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关 答案 C 由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相 关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负 相关,故选C.
最新-2018届高三数学一轮复习 变量间的相关关系课件
• 4.独立性检验 • (1)若变量的不同“值”表示个体所属的不同类别,则这些 变量称为分类变量. • (2)两个分类变量X与Y的频数表,称作2×2列联表.
y1
y2
合计
x1 x2
合计
n11 n21 n+1
n12 n22 n+2
n1+ n2+ n
2 n n n - n n 11 22 12 21 在2×2列联表中,随机变量χ2= ,其中 n1+· n2+· n+1· n+2
• • • • •
检验的步骤如下: ①作统计假设:x与Y不具有线性相关关系. ②根据小概率0.05与n-2在附表中查出r的一个临界值r0.05. ③根据样本相关系数计算公式算出r的值. ④作统计推断.如果|r|>r0.05,表明有95%的把握认为x与Y 之间具有线性相关关系. • 如果|r|≤r0.05,我们没有理由拒绝原来的假设.这时寻找回归 直线方程是毫无意义的.
• 解析:作出散点图如图:
• 由图可见,身高与年龄具有线性相关关系.
• (09·宁夏、海南)对变量x,y的观测数据(xi,yi)(i=1,2,…, 10),得散点图(1);对变量u,v的观测数据(u1,v1)(i= 1,2,…,10),得散点图(2).由这两个散点图可以判 断.( )
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关 解析:由图(1)可知,各点整体呈递减趋势,x与y负相关, 由图(2)可知,各点整体呈递增趋势,u与v正相关. • 答案:C • • • • •
n n 1 1 其中 - x = x i, - y = y i,( - x ,- y )称作样本点的中 n i=1 n i=1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五节变量的相关关系、统计案例A组基础题组1.已知变量x,y之间具有线性相关关系,其散点图如图所示,回归直线l的方程为=x+,则下列说法正确的是( )A.>0,<0B.>0,>0C.<0,<0D.<0,>02.(2016辽宁沈阳二中一模)某考察团对全国10大城市居民人均工资水平x(千元)与居民人均消费水平y(千元)进行统计调查,y与x具有相关关系,回归方程为=0.66x+1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )A.83%B.72%C.67%D.66%3.(2016江西南昌十所省重点中学二模)某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表所示,根据表中数据可得回归方程=x+中的=10.6.据此模型预测广告费用为10万元时的销售额为( )A.112.1万元万元4.春节期间,“厉行节约,反对浪费”之风悄然吹开,通过随机询问某市100名性别不同的居民是否能做到“光盘”,附:K2=则下面的结论正确的是( )A.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”5.(2016湖北优质高中联考)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,由表中数据得回归直线方程=x+中的=-2,预测当气温为-4 ℃时,用电量为.6.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加万元.7.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)小李这5天的平均投篮命中率为;6号打6小时篮球的投篮命中率为.8.已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.(1)求n的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:K2=9.(2015课标Ⅰ,19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2, (8)数据作了初步处理,得到下面的散点图及一些统计量的值.(x i-)2(w i-)2(x i-)(y i-) (w i-)(y i-)6.8表中w i=,=w i.(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:(i)年宣传费x=49时,年销售量及年利润的预报值是多少?(ii)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.B组提升题组10.在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )A.-1B.0C.D.111.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中的是( )A.y与x具有正的线性相关关系B.回归直线过样本点的中心(,)C.若该大学某女生的身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生的身高为170 cm,则可断定其体重必为58.79 kg12.某炼钢厂废品率x(%)与成本y(元/吨)的线性回归方程为=105.492+42.569x.当成本控制在176.5元/吨时,可以预计生产的1 000吨钢中,约有吨钢是废品.13.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”.附:K2=(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计分别为:=,=-.答案全解全析A组基础题组1.D 由题图可知,回归直线的斜率是正数,即>0;回归直线在y轴上的截距是负数,即<0,故选D.2.A 由7.675=0.66x+1.562,得x≈9.262,所以×100%≈83%.故选A.3.C 由题表中数据得=3.5,=43.由于回归直线=x+过点(,),且=10.6,解得=5.9,所以线性回归方程为=10.6x+5.9,于是当x=10时,=111.9.4.A K2=≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.5.答案68度解析根据题意知==10,==40,因为回归直线过样本点的中心,所以=40-(-2)×10=60,所以=-2x+60,当x=-4时,=(-2)×(-4)+60=68,所以用电量为68度.6.答案0.254解析由题意知回归直线的斜率为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元.7.答案0.5;0.53解析这5天的平均投篮命中率=×(0.4+0.5+0.6+0.6+0.4)=0.5.利用相关公式计算易得=0.01,=0.47,∴线性回归方程为=0.01x+0.47,当x=6时,=0.01×6+0.47=0.53.8.解析(1)依题意得⇒b=0.01,因为成绩在[90,100]内的有6人,所以n==60.(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,于是本次测试的及格情况与性别的合计结合列联表计算可得K2=≈1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.9.解析(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型. (2)令w=,先建立y关于w的线性回归方程.由于===68,=-=563-68×6.8=100.6,所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.(3)(i)由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,年利润z的预报值=576.6×0.2-49=66.32.(ii)根据(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.所以当==6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.B组提升题组10.D 所有样本点均在同一条斜率为正数的直线上,则样本相关系数最大,为1,故选D.11.D ∵0.85>0,∴y与x具有正的线性相关关系,∴A正确;∵回归直线经过样本点的中心(,),∴B正确;Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,∴C正确;当某女生的身高为170 cm时,其体重估计值是58.79 kg,因此D不正确.故选D.12.答案16.68解析由176.5=105.492+42.569x,解得x≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨钢是废品.13.解析(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,在样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),所以K2===≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.14.解析(1)由所给数据计算得=×(1+2+3+4+5+6+7)=4,-)2=9+4+1+0+1+4+9=28,=×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,(t(t i-)(y i-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,===0.5,=-=4.3-0.5×4=2.3,所求回归方程为=0.5t+2.3.(2)由(1)知,=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.。