高考数学一轮复习课时作业61变量间的相关关系统计案例理含解析新人教版
高考数学统考一轮复习第十一章11.5变量间的相关关系与统计案例课件文新人教版
人次≤400 人次>400 空气质量好 空气质量不好
附:K2=(a+b)(cn+(da)d-(bac+)c2)(b+d) ,
P(K2≥k) 0.050 0.010 0.001
k
3.841 6.635 10.828
悟·技法
解独立性检验的应用问题的关注点
i=1
=
=
;
n
(xi--x )2
i=1
n
x2i
-n-x 2
i=1
a^ =-y -b^ -x ,r=
n
(xi--x )(yi--y )
i=1
n
(xi--x )2·n
(yi--y )2
i=1
i=1
6
参考数据:x
6
iyi=187.4,x
6
izi=47.64,x
2 i
=139,
i=1
i=1
i=1
6
(xi--x )2
√ ×
× √
2.下面是2×2列联表:
A.94,72 C.52,74
y1 y2 总计 x1 a 21 73 x2 22 25 47 总计 b 46 120
B.52,50 D.74,52
解析:∵a+21=73,∴a=52.又a+22=b,∴b=74.
零件数x (个)
10
20
30 40 50
加工时间
2.[2021·云南昆明诊断]某商家今年上半年各月的人均销售额(单
位:千元)与利润率统计表如下:
月份
1 2 3 45 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
高三数学人教版A版数学(理)高考一轮复习教案变量间的相关关系、统计案例1
第四节 变量间的相关关系、统计案例变量间的相关关系、统计案例 1.变量间的相关关系(1)会作两个有关联变量的数据的散点图,会利用数点图认识变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 2.统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. (1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. (2)回归分析了解回归分析的基本思想、方法及其简单应用. 知识点一 回归分析 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑ni =1x 2i -n x 2,a ^=y -b ^x . (3)通过求Q =∑ni =1(y i -bx i -a )2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.易误提醒1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上 .3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).[自测练习]1.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.3 4.86.7A.3.25 B .2.6 C .2.2D .0解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:B2.(2016·镇江模拟)如图所示,有A ,B ,C ,D ,E 5组(x ,y )数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D . 答案:D知识点二 独立性检验 独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).易误提醒(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表.在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果做出错误的解释.[自测练习]3.下面是2×2列联表:y1y2总计x1 a 2173x2222547总计 b 46120则表中a,b的值分别为()A.94,72B.52,50C.52,74 D.74,52解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.答案:C考点一相关关系的判断|1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.答案:A2.(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:因为y=-0.1x+1,x的系数为负,故x与y负相关;而y与z正相关,故x与z 负相关.答案:C相关关系的判断的两种方法(1)散点图法.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.考点二回归分析|(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑8i =1(x i -x)2∑8i =1(w i -w)2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )(y i -y ) 46.6 563 6.8 289.8 1.6 1 469108.8表中w i =x i ,w =18∑i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^ u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1(w i -w )(y i -y )∑8i =1 (w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.回归直线方程的求法(1)利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心求系数.1.(2016·银川一中模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.x 3 4 5 6 y2.5344.5(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^. (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤,试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)解:(1)由对照数据,计算得∑4i =1x 1y 1=66.5,∑4i =1x 21=32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35,所求的回归方程为y ^=0.7x +0.35.(2)x =100,y ^=100×0.7+0.35=70.35,预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).考点三 独立性检验|(2016·邯郸模拟)为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表.平均每天喝500 mL 以上为常喝,体重超过50 kg 为肥胖.常喝 不常喝 合计 肥胖 2 不肥胖 18 合计30已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由.(3)设常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生中抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:K 2≥k 0 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)设常喝碳酸饮料肥胖的学生有x 人,x +230=415,解得x =6.常喝 不常喝 合计 肥胖 6 2 8 不肥胖 4 18 22 合计102030(2)由已知数据可求得K 2=30×(6×18-2×4)210×20×8×22≈8.523>7.879.因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.(3)设常喝碳酸饮料的肥胖男生为A ,B ,C ,D ,女生为E ,F ,任取两人的取法有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女的取法有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽出一男一女的概率是P =815.解独立性检验的应用问题的关注点(1)两个明确: ①明确两类主体; ②明确研究的两个问题. (2)两个关键:①准确画出2×2列联表; ②准确理解K 2.提醒:准确计算K 2的值是正确判断的前提.2.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计6050110K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:K 2=110×(40×30-20×20)260×50×60×50≈7.8.P (K 2≥6.635)=0.01=1-99%,∴有99%以上的把握认为“选择过马路的方式与性别有关”,故选A.答案:A12.独立性检验与概率交汇综合问题的答题模板【典例】(12分)(2016·保定调研)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)判断是否有(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d)[规范解答](1)由公式K2=55×(20×20-10×5)230×25×25×30≈11.978>7.879,(3分) 所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(6分)(2)设所抽样本中有m个男生,则630=m20,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,(9分)其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,G1),(B3,G2),(B4,G1),(B4,G2),共8个.(11分)所以恰有1个男生和1个女生的概率为815.(12分)[模板形成]分析2×2列联表数据↓利用K 2公式计算K 2值↓对分类变量的相关性作出判断↓求相应事件的概率↓反思解题过程,注意规范化[跟踪练习] 某班主任对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据见下表所示:(1)加社团活动且学习积极性一般的学生的概率是多少?(2)运用独立性检验的思想方法分析:学生的学习积极性与参加社团活动情况是否有关系?并说明理由.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d );其中n =a +b +c +d .解:(1)随机从该班抽查一名学生,抽到参加社团活动的学生的概率是2250=1125;抽到不参加社团活动且学习积极性一般的学生的概率是2050=25.(2)因为K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(17×20-5×8)225×25×22×28≈11.688>10.828,所以大约有99.9%的把握认为学生的学习积极性与参加社团活动情况有关系.A 组 考点能力演练1.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0 B.a >0,b <0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析:把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图(图略),由图可知b ^<0,a ^>0.故选B.答案:B2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y^=-0.3x +4.4解析:依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A ,B 得A 正确.答案:A3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k 0=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选A.答案:A4.根据如下样本数据:得到的回归方程为y =b x +a .若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位解析:依题意得,a +b -25=0.9,故a ^+b ^=6.5①;又样本点的中心为(5,0.9),故0.9=5b ^+a ^②,联立①②,解得b ^=-1.4,a ^=7.9,则y ^=-1.4x +7.9,可知当x 每增加1个单位时,y 就减少1.4个单位,故选B.答案:B5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y ∑6i =1x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.答案:C6.(2016·忻州联考)已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为________. 解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.答案:-0.617.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:(请用百分数表示).解析:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(20×15-5×10)225×25×30×20≈8.333>7.879.答案:0.5%8.已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =________.解析:回归直线y ^=4x +242必过样本点的中心点(x ,y ),而x =2+3+4+5+65=4,y =251+254+257+a +2665=1 028+a 5,∴1 028+a 5=4×4+242,解得a =262.答案:2629.(2015·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(2)能否有99% 解:(1)2×2列联表如下:主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(2)因为K 2=30×(8-128)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2015·高考重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t12345(1)求y 关于t 的回归方程y =b t +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y ^=b ^t +a ^中, b ^=∑ni =1t i y i -n t y ∑ni =1t 2i -n t2,a ^=y -b ^t .解:(1)列表计算如下这里n =5,t =1n ∑n i =1t i =155=3,y =1n ∑n i =1y i =365=7.2. 又l tt =∑ni =1t 2i -n t2=55-5×32=10,l ty =∑ni =1t i y i-n t y =120-5×3×7.2=12,从而b ^=l ty l tt =1210=1.2,a ^=y -b ^t =7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y ^=1.2×6+3.6=10.8(千亿元).B 组 高考题型专练1.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C.12.0万元D.12.2万元^=0.76,∴a^=8-0.76×10=0.4,∴回归方程为y^=0.76x 解析:∵x=10.0,y=8.0,b+0.4,把x=15代入上式得,y^=0.76×15+0.4=11.8(万元),故选B.答案:B2.(2015·高考北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析:(1)由题图分析乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中语文成绩名次比总成绩靠前的是乙;(2)丙同学的数学成绩名次位于中间稍微靠后,而总成绩名次相对靠后,所以丙同学的语文成绩名次比较靠后,所以丙同学的成绩名次靠前的科目是数学.答案:乙数学。
高考新课标数学(理)大一轮复习课时作业66变量间的相关关系、统计案例 Word版含解析
课时作业变量间的相关关系、统计案例
一、选择题
.在一组样本数据(,),(,),…,(,)(≥,,,…,不全相等)的散点图中,若所有样本点(,)(=,,…,)都在直线=
+上,则这组样本数据的样本相关系数为( )
.-.
.
解析:样本点都在一条直线上时,其样本数据的相关系数为.
答案:
.根据如下样本数据
得到的回归方程为=+,则().>,> .>,<
.<,> .<,<
解析:由表中数据画出散点图,如图,
由散点图可知<,>,选.
答案:
.(·辽宁大连双基)已知,的取值如表所示:
如果与线性相关,且线性回归方程为=+,则的值为()
.-
.-
解析:将=,=代入到=+中,得=-.故选.
答案:
.(·湖北武汉调考)根据如下样本数据
得到的回归直线方程为=+.若=,则每增加个单位,就()
.增加个单位
.减少个单位
.减少个单位
.增加个单位
解析:=(++++)=,=(+-+-)=,所以样本中心为(,),代入
回归直线方程可得=×+⇒
=-,所以每增加个单位,就减少个单位,故选.
答案:.(·兰州、张掖联考)对具有线性相关关系的变量,有一组观测数据(,)(=,,…,),其回归直线方程是=+,且+++…+=(+++…+)=,则实数的值是()
解析:依题意可知样本中心点为,则=×+,解得=.
答案:.(·东营一模)某商品的销售量(件)与销售价格(元件)存在线性相关关。
2023年高考数学(理科)一轮复习——变量间的相关关系与统计案例
索引
角度2 非线性回归方程及应用
例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB=1 024 TB),EB(1 EB=1 024 PB)乃至ZB(1 ZB=1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数 据量为0.49 ZB,2009年数据量为0.8 ZB,2010年增长到1.2 ZB,2011年数据 量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的 数据量(单位:ZB)及相关统计量的值:
(1)“ 名 师 出 高 徒 ” 可 以 解 释 为 教 师 的 教 学 水 平 与 学 生 的 水 平 成 正 相 关 关
系.( √ ) (2)通过回归直线方程y^=b^x+a^可以估计预报变量的取值和变化趋势.( √ ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 K2 的观测值越大.( √ )
索引
4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度 x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数 据(xi,yi)(i=1,2,…,20)得到下面的散点图: 由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发
高三数学一轮复习课时作业6:11.3 变量间的相关关系、统计案例
11.3 变量间的相关关系、统计案例一、选择题1.为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男 45 10 女3015附:P (K 2≥k 0) 0.10 0.05 0.025 k 02.7063.8415.024K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )参照附表,得到的正确结论是( )A .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”2.已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+b ^x ,若∑10i =1x i =17,∑10i =1y i=4,则b^的值为( ) A .2 B .1 C .-2D .-13.观察下面频率等高条形图,其中两个分类变量x ,y 之间关系最强的是( )A B C D4.对于下列表示五个散点,已知求得的线性回归方程为y ^=0.8x -155,则实数m 的值为( )x 196 197 200 203 204 y1367 mA.8 B .8.2 C .8.4D .8.55.登山族为了了解某山高y (km)与气温x (℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表.气温x (℃) 18 13 10 -1 山高y (km)24343864由表中数据,得到线性回归方程y ^=-2x +a ^(a ^∈R ),由此请估计出山高为72(km)处气温的度数为( )A .-10B .-8C .-4D .-66.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则有多大把握认为“学生性别与支持该活动有关系”.( )附:P (K 2≥k 0) 0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.63510.828A.0.1% B .1% C .99% D .99.9%二、填空题7.(2014·济南模拟)为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入x (单位:万元)和年教育支出y (单位:万元),调查显示年收入x 与年教育支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.15x +0.2.由回归直线方程可知,家庭年收入每增加1万元,年教育支出平均增加__________万元.8.(2014·嘉兴联考)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2=50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为__________.9.(2015·江西重点中学联考)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x(个)1020304050加工时间y(min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为______.三、解答题10.电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷合计男女合计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k0)0.100.050.01k0 2.706 3.841 6.63511.某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:『0,2』,(2,4』,(4,6』,(6,8』,(8,10』,(10,12』.估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.100.050.0100.005 k0 2.706 3.841 6.6357.879答案一、选择题 1.『解析』由题设知:a =45,b =10,c =30,d =15,所以k =100×45×15-30×10255×45×75×25≈3.030,2.706<3.030<3.841,由附表可知,有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选C.『答案』C2.『解析』依题意知,x =1710=1.7,y =410=0.4, 而直线y ^=-3+b ^x 一定经过点(x ,y ), 所以-3+b^×1.7=0.4,解得b ^=2. 『答案』A3.『解析』在频率等高条形图中,a a +b 与cc +d相差很大时,我们认为两个分类变量有关系,四个选项中,等高条形图中x 1,x 2所占比例相差越大,则分类变量x ,y 关系越强,故选D.『答案』D4.『解析』x =196+197+200+203+2045=200,y =1+3+6+7+m 5=17+m5.样本中心点为⎝⎛⎭⎫200,17+m 5,将样本中心点⎝⎛⎭⎫200,17+m 5代入y ^=0.8x -155,可得m =8.故A 正确.『答案』A5.『解析』由题意可得x =10,y =40,所以a^=y +2x =40+2×10=60. 所以y ^=-2x +60,当y ^=72时,-2x +60=72. 解得x =-6,故选D.『答案』D6.『解析』因为K 2=7.069>6.635,所以P (K 2>6.635)=0.010,所以说有99%的把握认为“学生性别与支持该活动有关系”.『答案』C二、填空题 7.『解析』回归直线的斜率为0.15,所以家庭年收入每增加1万元,年教育支出平均增加0.15万元.『答案』0.158.『解析』∵K 2≈4.844,根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.『答案』5%9.『解析』由已知可计算求出x =30,而回归直线方程必过点(x ,y ),则y =0.67×30+54.9=75,设模糊数字为a ,则a +62+75+81+895=75,计算得a =68.『答案』68三、解答题10.『解析』(1)由所给的频率分布直方图知, “体育迷”人数为100×(10×0.020+10×0.005)=25, “非体育迷”人数为75,则据题意完成2×2列联表:非体育迷 体育迷 合计 男 30 15 45 女 45 10 55 合计7525100将2×2列联表的数据代入公式计算: K 2=100×30×10-45×15275×25×45×55=10033≈3.030. 因为3.030>2.706,所以有90%的把握认为“体育迷”与性别有关. (2)由所给的频率分布直方图知“超级体育迷”人数为100×(10×0.005)=5,记a i (i =1,2,3)表示男性,b j (j =1,2)表示女性,所有可能结果构成的基本事件空间为Ω={(a 1,a 2),(a 1,a 3),(a 2,a 3),(a 1,b 1),(a 2,b 1),(a 3,b 1),(a 1,b 2),(a 2,b 2),(a 3,b 2),(b 1,b 2)},共有10个基本事件组成,且每个基本事件出现是等可能的.用A 表示事件“任选2人,至少1名女性”,则A ={(a 1,b 1),(a 2,b 1),(a 3,b 1),(a 1,b 2),(a 2,b 2),(a 3,b 2),(b 1,b 2)},共有7个基本事件组成,故任选2人,至少1名女性观众的概率为P (A )=710.11.『解析』(1)300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生 女生 总计 每周平均体育运动时间不超过4小时 453075每周平均体育运动时间超过4小时 165 60 225 总计21090300结合列联表可算得K 2=300× 2 250275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。
人教版高考数学理科一轮总复习配套课件11.9变量间的相关关系、统计案例
-3-
1.相关关系: 当自变量取值一定时, 因变量的取值带有一定随机性的两 个变量之间的关系叫做相关关系.与函数关系不同, 相关关系是一种
非确
定性关系 .
2.散点图: 表示具有相关关系的两个变量的一组数据的图形叫做散点 图, 它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点分 布在从左下角到右上角的区域, 则称两个变量 在从左上角到右下角的区域, 则称两个变量
������
, ������ = ������ − ������ ������ , 它主要用来估
^
计和预测取值, 从而获得对这两个变量之间整体关系的了解.
^ ^
想一想结合直线的点斜式方程, 你能推导出回归方程 ������ =
^
������ x+ ������ 经过的定点吗?
答案: 由������ = ������ − ������ ������ 得������ = ������ x+������ − ������ ������ , 即 ������ − ������ = ������ (x-������ ), 由此可知回
-4-
4.回归方程: ������ = ������ x+������ , 其中 ������ =
^
^ ^
^
������=1 ������
∑ ������������ ������������ -n������ ������ ^
2 ∑ ������2 ������ -n������ ������=1
关闭
^ ^ ^
^
������ =
^
4+2+3+5 4 ^
=3.5,������=
2021版新高考地区高考数学(人教版)大一轮复习第2讲 变量间的相关关系、统计案例
第2讲 变量间的相关关系、统计案例一、知识梳理 1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑n^ i =1x i y i -nx -y -∑n^ i =1x 2i -n x-2,a ^=y --b ^x -.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:(2)K 2统计量 K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).常用结论1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x -,y -).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值. 二、教材衍化1.已知x 与y 之间的一组数据如表:已求得y 关于x 的线性回归方程为y =2.1x +0.85,则m 的值为________. 答案:0.52.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:K 2的观测值k ≈4.844>3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 的关系越密切,由观测数据计算得到的K 2的观测值越大.( ) (5)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) 答案:(1)× (2)√ (3)√ (4)√ (5)√ 二、易错纠偏常见误区| (1)混淆相关关系与函数关系; (2)对独立性检验K 2值的意义不清楚; (3)不知道回归直线必过样本点中心.1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A .①②③B .②③①C .②①③D .①③②解析:选D .第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A .C .99%D .99.9%解析:选C .因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=________.解析:由已知得x -=2,y =4.5,因为回归方程经过点(x ,y -),所以a ^=4.5-0.95×2=2.6.答案:2.6考点一 相关关系的判断(基础型)复习指导| 通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.核心素养:直观想象1.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关解析:选C .因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C .由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.3.某公司在2019年上半年的月收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系解析:选C .月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关. 考点二 回归分析(应用型)复习指导| 经历用不同估算方法描述两个变量线性相关的过程,知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程,并进一步了解回归的基本思想、方法及初步应用.核心素养:数学建模、数据分析 角度一 线性回归方程及其应用(2020·福州市第一学期抽测)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y (单位:个)与一定范围内的温度x (单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:组数据建立y 关于x 的线性回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y 关于x 的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -.【解】 (1)由已知数据得x -=12,y -=27,∑3i =1 (x i -x -)(y i -y -)=5,∑3i =1 (x i-x -)2=2. 所以b ^=∑3i =1(x i -x -)(y i -y -)∑3i =1(x i -x -)2=52, a ^=y --52x -=27-52×12=-3.所以y 关于x 的线性回归方程为y ^=52x -3.(2)由(1)知,y 关于x 的线性回归方程为y ^=52x -3.当x =10时,y ^=52×10-3=22,|22-23|<2,当x =8时,y ^=52×8-3=17,|17-16|<2.所以(1)中所得的线性回归方程y ^=52x -3是可靠的.求回归直线方程的步骤角度二相关系数及其应用某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x 的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)相关系数公式:r=∑i=1n(x i-x-)(y i-y-)∑i=1n(x i-x-)2∑i=1n(y i-y-)2,参考数据:0.3≈0.55,0.9≈0.95.【解】 由已知数据可得x -=2+4+5+6+85=5,y -=3+4+4+4+55=4.因为∑i =15(x i -x -)(y i -y -)=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x -)2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y -)2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x -)(y i -y -)∑i =15(x i -x -)2∑i =15(y i -y -)2=625×2=910≈0.95.因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系.回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.1.对两个变量x ,y 进行线性回归分析,计算得到相关系数r =-0.996 2,则下列说法中正确的是( )A .x 与y 正相关B .x 与y 具有较强的线性相关关系C .x 与y 几乎不具有线性相关关系D .x 与y 的线性相关关系还需进一步确定解析:选B .因为相关系数r =-0.996 2,所以x 与y 负相关,因为|r |=0.996 2,非常接近1,所以相关性很强,故选B .2.(2020·成都第一次诊断性检测)在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x 与销售单价y (单位:元)之间的关系,经统计得到如下数据:(1)程(系数精确到0.1);(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a ^=y --b ^x -.参考数据:∑6i =1x i y i =8 440,∑6i =1x 2i =25 564.解:(1)由题意,得x -=38+48+58+68+78+886=63,y -=16.8+18.8+20.8+22.8+24+25.86=21.5,b ^=∑6i =1x i y i -6x - y -∑6i =1x 2i -6x -2=8 440-6×63×21.525 564-6×63×63≈0.2,a ^=y --b ^x -=21.5-0.2×63=8.9. 故所求线性回归方程为y ^=0.2x +8.9.(2)由(1),知当x =98时,y =0.2×98+8.9=28.5. 所以估计该等级的中国小龙虾销售单价为28.5元. 考点三 独立性检验(应用型)复习指导| 通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.核心素养:数学建模、数据分析(2019·高考全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).【解】 (1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)独立性检验的一般步骤①根据样本数据制成2×2列联表; ②根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;③查表比较K 2与临界值的大小关系,作出统计判断. (2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题; ②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K 2.(2020·长沙市统一模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n 的样本,得到一周参加社区服务时间的统计数据如下表:(1)求m ,n 的值;(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)由已知,该校有女生400人,故12+m 20+8=400560,得m =8,从而n =20+8+12+8=48. (2)作出2×2列联表如下:K 2=48×(160-96)28×20×32×16=2435≈0.685 7<3.841.所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关.[基础题组练]1.(2020·陕西西安陕师大附中等八校联考)设两个变量x 和y 之间具有线性相关关系,它们的相关系数为r ,y 关于x 的回归直线方程为y ^=kx +b ,则( )A .k 与r 的符号相同B .b 与r 的符号相同C .k 与r 的符号相反D .b 与r 的符号相反解析:选A .因为相关系数r 为正,表示正相关,回归直线方程上升,r 为负,表示负相关,回归直线方程下降,所以k 与r 的符号相同.故选A .2.在一次对性别与说谎是否相关的调查中,得到如下数据:A .在此次调查中有95%的把握认为是否说谎与性别有关B .在此次调查中有99%的把握认为是否说谎与性别有关C .在此次调查中有99.5%的把握认为是否说谎与性别有关D .在此次调查中没有充分的证据显示说谎与性别有关解析:选D .由已知得k =30×(6×9-7×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关.3.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2454.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体情况如下表:________(精确到0.001).若断定主修统计专业与性别有关系,这种判断出错的可能性为________.(由临界值表知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025,其中K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ), )n =a +b +c +d解析:由题意,根据公式可得K 2=50×(13×20-10×7)223×27×20×30≈4.844.因为5.024>4.844>3.841,所以断定主修统计专业与性别有关系,这种判断出错的可能性为0.05.答案:4.844 0.055.某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)和市场占有率(y %)的几组相关对应数据:(1)(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).解:(1)根据表中数据,计算x -=15×(1+2+3+4+5)=3,y -=15×(0.02+0.05+0.1+0.15+0.18)=0.1,所以b ^=1×0.02+2×0.05+3×0.1+4×0.15+5×0.18-5×3×0.112+22+32+42+52-5×32=0.042,所以a ^=0.1-0.042×3=-0.026, 所以线性回归方程为y ^=0.042x -0.026.(2)由上面的回归方程可知,上市时间与市场占有率正相关, 即上市时间每增加1个月,市场占有率都增加0.042个百分点; 由y ^=0.042x -0.026>0.5,解得x ≥13;预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.6.(2020·辽宁五校模拟)进入二十一世纪以来,科技发展日新月异,工业生产更加依赖科技的发展,沈阳某企业积极进行升级,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品,图1是设备改造前的样本的频率分布直方图,表1是设备改造后的样本的频数分布表:图1:设备改造前的样本的频率分布直方图表1:设备改造后的样本的频数分布表量指标值与设备改造有关.(2)根据图1较.附K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)根据题意填写2×2列联表K 2=400×(172×8-192×28)364×36×200×200≈12.210>6.635,所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关. (2)根据频率分布直方图和频数分布表知,设备改造前产品为合格品的概率为172200=4350,设备改造后产品为合格品的概率为192200=2425>4350,显然设备改造后产品合格率更高,因此设备改造后性能更优.[综合题组练]1.(2020·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:热烈参与者”.(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数; (2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )(n 为样本容量)为20 000×40200=4 000.(2)2×2列联表为K 2=200×(35×55-105×5)40×160×140×60≈7.292>6.635.故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关. 2.(2020·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:差分析,得到如图所示的残差图及一些统计量的值:(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;(2)残差绝对值大于2的数据被认为是异常数据,需要剔除.①剔除异常数据后,求出(1)中所选模型的回归方程;②广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2=∑n i =1x i y i -n x - y -∑n i =1x 2i -n x -2,a ^=y --b ^x -. 解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.(2)①剔除异常数据,即3月份的数据后,得x -=15×(7×6-6)=7.2, y -=15×(30×6-31.8)=29.64. ∑5i =1x i y i =1 464.24-6×31.8=1 273.44, ∑5i =1x 2i =364-62=328. b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i -5x -2=1 273.44-5×7.2×29.64328-5×7.2×7.2=206.468.8=3, a ^=y --b ^x -=29.64-3×7.2=8.04.所以y 关于x 的回归方程为y ^=3x +8.04.②把x =18代入①中所求回归方程得y ^=3×18+8.04=62.04.故预报值为62.04万元.。
高考数学统考一轮复习课后限时集训62变量间的相关关系统计案例理含解析新人教
学习资料课后限时集训(六十二) 变量间的相关关系、统计案例建议用时:40分钟一、选择题1.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程错误!=错误!1x+错误!1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程错误!=错误!2x+错误!2,相关系数为r2.则()A.0<r1<r2<1 B.0<r2<r1<1C.-1<r1<r2<0 D.-1<r2<r1<0D[根据相关变量x,y的散点图知,变量x,y具有负线性相关关系,且点(10,21)是离群值.方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以相关系数-1<r2<r1<0.故选D.]2.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln xD[根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.]3.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为错误!=错误!x+错误!.已知.该班某学生的脚长为24,据此估计其身高为()A.160 cm B.163 cm C.166 cm D.170 cm4.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的()A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理D[由条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意愿的学生数量,男生偏爱两理一文,女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故选D.]5.某医疗所为了检查新开发的流感疫苗对甲型H1N1流感的预防作用,把1 000名注射疫苗的人与另外1 000名未注射疫苗的人半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算得P(K2≥6。
2019高三数学人教A版理一轮课时分层训练61 变量间的相关关系与统计案例 含解析 精品
课时分层训练(六十一) 变量间的相关关系与统计案例(对应学生用书第263页)A 组 基础达标 (建议用时:30分钟)一、选择题1.如图9-4-2对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图②.由这两个散点图可以判断( )图① 图②图9-4-2A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关C [由题图①可知y 随x 的增大而减小,各点整体呈下降趋势,故变量x 与y 负相关,由题图②知v 随u 的增大而增大,各点整体呈上升趋势,故变量v 与u 正相关.]2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确...的结论的序号是( ) A .①② B .②③ C .③④D .①④D [由回归直线方程y ^=b ^x +a ^,知当b ^>0时,y 与x 正相关;当b ^<0时,y 与x 负相关.∴①④一定错误.故选D.]3.(2018·石家庄一模)下列说法错误的是( ) A .回归直线过样本点的中心(x -,y -)B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^平均增加0.2个单位C [根据相关定义分析知A ,B ,D 正确;C 中对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,判断“X 与Y 有关系”的把握程度越大,故C 错误,故选C .]4.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) 【导学号:97190338】A .160B .163C .166D .170C [∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166. 故选C .]5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad (a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”C [根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.]二、填空题6.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x+54.9.68 [由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,即a =68.]7.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.① [K 2=3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.]8.(2017·长沙雅礼中学质检)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为________度.68 [根据题意知x =18+13+10+(-1)4=10,y =24+34+38+644=40,因为回归直线过样本点的中心,所以a ^=40-(-2)×10=60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量为68度.]三、解答题9.(2018·合肥二检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.【导学号:97190339】(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少? (2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2=180×(60×45-30×45)105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关. 10.(2016·全国卷Ⅲ)如图9-4-3是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.图9-4-3注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1(t i -t )(y i -y )∑n i =1(t i -t )2∑n i =1(y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 (t i -t )(y i -y )∑ni =1(t i -t )2,a ^=y --b ^t . [解] (1)由折线图中的数据和附注中的参考数据得t =4,∑7i =1(t i -t )2=28,∑7i =1 (y i -y )2=0.55,∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,r ≈ 2.892×2.646×0.55≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得 b ^=∑7i =1 (t i -t )(y i -y )∑7i =1(t i -t )2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.B 组 能力提升 (建议用时:15分钟)11.下列说法错误的是( )A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好 B [根据相关关系的概念知A 正确;当r >0时,r 越大,相关性越强,当r <0时,r 越大,相关性越弱,故B 不正确;对于一组数据拟合程度好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好;二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R 2为0.80的模型拟合的效果好,C ,D 正确,故选B .]12.2017年9月18日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n =________. 【导学号:97190340】10 [x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n5,回归直线一定经过样本中心(x ,y ),即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎨⎧ 3.2m +n =42,m +n =20,解得⎩⎨⎧m =10,n =10,故n =10.]13.(2018·东北三省三校二联)下表数据为某地区某种农产品的年产量x (单位:吨)及对应销售价格y (单位:千元/吨).(1)若y 与x 用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若每吨该农产品的成本为13.1千元,假设该农产品可全部卖出,预测当年产量为多少吨时,年利润Z 最大?参考公式:⎩⎪⎨⎪⎧b ^=∑ni =1x i y i -n x -y-∑n i =1x 2i-n x -2=∑ni =1(x i -x )(y i -y -)∑ni =1(x i -x )2,a ^=y --b ^x -.[解] (1)∵x =1+2+3+4+55=3,y -=70+65+55+38+225=50,∑5i =1x i y i =1×70+2×65+3×55+4×38+5×22=627, ∑5i =1x 2i =1+4+9+16+25=55,根据公式解得b ^=-12.3, a ^=50+12.3×3=86.9, ∴y ^=-12.3x +86.9.(2)∵年利润Z =x (86.9-12.3x )-13.1x =-12.3x 2+73.8x =-12.3(x -3)2+110.7,∴当x =3时,年利润Z 最大.。
高考数学一轮复习 9.3 变量间的相关关系及统计案例课
【与名师对话】2015高考数学一轮复习 9.3 变量间的相关关系及统计案例课时作业理(含解析)新人教A版附:P(K2≥k0)0.1000.0500.0250.0100.005k0 2.706 3.841 5.024 6.6357.879K2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d一、选择题1.(2013·石家庄质检(二))设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归方程(如图),以下结论中正确的是( )A.x和y正相关B.x和y的相关系数为直线l的斜率C.x和y的相关系数在-1到0之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同解析:由图可知x和y是负相关,相关系数与直线的斜率无关,相关系数的取值范围在-1与1之间,所以选C.答案:C2.(2013·湖南省六校联考)两个变量y与x的回归模型中,分别选择了4个不同模型,计算出它们的相关指数R2如下,其中拟合效果最好的模型是( )A.模型1(相关指数R2为0.97)B.模型2(相关指数R2为0.89)C .模型3(相关指数R 2为0.56) D .模型4(相关指数R 2为0.45)解析:在回归分析中,相关指数R 2越大,说明两变量拟合效果越好,故选A. 答案:A3.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:作出X ,Y 对应散点图可知Y 与X 正相关, ∴r 1>0.作出U ,V 对应散点图可知U 与V 负相关 ∴r 2<0.∴r 2<0<r 1. 答案:C4.(2013·郑州第三次质量预测)已知实数:x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a 的值是( ) A .1.30 B .1.45 C .1.65 D .1.80 解析:由数表可知此样本数据的中心点为x =0+1+4+5+6+86=4,y =1.3+1.8+5.6+6.1+7.4+9.36=5.25,代入回归方程y ^=0.95x +a 可得a =1.45,故选B. 答案:B5.(2013·云南昆明高三调研)变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=( )A.35B.45C .1D .3 解析:依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y -1.4=2.2-1.42-1(x -1),即y =0.8x +0.6上,因此解释变量对于预报变量变化的贡献率R 2=1,选C.答案:C6.(2013·东北三校第二次联考)以下有关线性回归分析的说法不正确的是( ) A .通过最小二乘法得到的线性回归直线过样本点的中心(x ,y )B .用最小二乘法求回归直线方程,是寻求使∑i =1n(y i -bx i -a )2最小的a ,b 的值C .相关系数r 越小,表示两个变量相关性越弱D .R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2越接近1,表示回归的效果越好解析:相关系数0<r <1时,表示正相关,r 越小相关性越弱,-1<r <0时表示负相关,r 越小相关性越强,所以C 不正确,选C.答案:C 7.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过点(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( ) A .0 B .1 C .2 D .3解析:一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2=13.079>10.828,故有99%的把握确认这两个变量有关系,④正确.故选B.答案:B 二、填空题8.某地居民2008~2012年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:年份/年20082009201020112012收入x/万元11.512.11313.315支出Y/万元 6.88.89.81012出有________线性相关关系.解析:根据中位数的定义,居民家庭年平均收入的中位数是13,家庭年平均收入与年平均支出有正线性相关关系.答案:13 正9.(2013·河北保定月考)为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:喜爱打篮球不喜爱打篮球合计男生20525女生101525合计302050解析:由公式可得k2≈8.333>7.879,故填99.5%.答案:99.5%三、解答题10.某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位学生说明其亲属30人的饮食习惯; (2)根据以上数据完成下列2×2的列联表:主食蔬菜 主食肉类 合计 50岁以下 50岁以上 合计解:(1)在30位亲属中,50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主. (2)2×2的列联表如下:主食蔬菜 主食肉类 合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(3)因为K 2=12×18×20×10=12×18×20×10=10>6.635,所以有99%的把握认为亲属的饮食习惯与年龄有关.11.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料: 日期12月 1日 12月 2日 12月 3日 12月 4日 12月 5日 温差x (℃) 101113128发芽数y (颗)23 25 30 26 16归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A ,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P (A )=1-410=35. (2)由数据求得,x =12,y =27,由公式求得.b ^=52,a ^=y -b ^x =-3. 所以y 关于x 的线性回归方程为y ^=52x -3.(3)当x =10时,y ^=52×10-3=22,|22-23|<2;当x =8时,y ^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的. [热点预测]12.(2013·辽宁省大连市高三第一次模拟考试节选)某工厂用甲、乙两种不同工艺生产一大批同一种零件,零件尺寸均在[21.7,22.3](单位:cm)之间,把零件尺寸在[21.9,22.1)的记为一等品,尺寸在[21.8,21.9)∪[22.1,22.2)的记为二等品,尺寸在[21.7,21.8)∪[22.2,22.3]的记为三等品,现从甲、乙工艺生产的零件中各随机抽取100件产品,所得零件尺寸的频率分布直方图如图所示:根据上述数据完成下列2×2列联表,根据此数据你认为选择不同的工艺与生产出一等品是否有关?甲工艺乙工艺合计一等品非一等品合计解:2×2甲工艺乙工艺合计一等品5060110非一等品504090合计100100200 χ2=≈2.02<3.841,所以没有理由认为选择不同的工艺与生100×100×110×90产出一等品有关.。
高三数学(理)一轮复习课时作业(六十四)变量间的相关关系与统计案例 Word版含解析
所以预测此车间加工这种零件70个时,所需要的加工时间为101.8分钟.
12.(2017·河北省“五校联盟”质量检测)为了调查某高中学生每天的睡眠时间,现随机对20名男生和20名女生进行问卷调查,结果如下:
睡眠时间(小时)
[4,5)
[5,6)
[6,7)
[7,8)
p:有95%的把握认为“这种血清能起到预防感冒的作用”;
q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;
r:这种血清预防感冒的有效率为95%;
s:这种血清预防感冒的有效率为5%.
则下列命题中,真命题的序号是__________.(把你认为正确的命题序号都填上)
①p∧綈q②綈p∧q③(綈p∧綈q)∧(r∨s)
D.有99%以上的把握认为“爱好该项运动与性别无关”
解析:因为7.8>6.635,所以有99%以上的把握认为“爱好该项运动与性别有关”.
答案:C
6.(2017·河南省八市重点高中质量检测)为了研究某大型超市开业天数与销售额的情况,随机抽取了5天,其开业天数与每天的销售额的情况如下表所示:
开业天数
10
20
30
40
50
销售额/天(万元)
62
75
81
89
根据上表提供的数据,求得y关于x的线性回归方程为 =0.67x+54.9,由于表中有一个数据模糊看不清,请你推断出该数据的值为()
A.67 B.68
C.68.3 D.71
解析:设表中模糊看不清的数据为m.因为 = =30,又样本中心( , )在回归直线 =0.67x+54.9上,所以 = =0.67×30+54.9,得m=68,故选B.
高三数学(理)一轮复习课后作业(六十三)变量间的相关关系统计案例
课后作业(六十三)变量间的相关关系、统计案例一、选择题1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图9-4-2(1);对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图9-4-2(2).由这两个散点图可以判断()图9-4-1A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关2.在2012年7月伦敦第30届奥运会上,中国健儿取得了38金、27银、23铜的好成绩,稳居世界奖牌榜次席,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力()A.平均数与方差B.回归直线方程C.独立性检验D.概率3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177 则y对A.y=x-1 B.y=x+1C.y=88+12x D.y=1764.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠不冷漠总计)A.99% B.97.5%C.95% D.90%5.(2013·根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此模型预报广告费用为6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元二、填空题6.已知x、y从所得的散点图分析,y与x线性相关,且y^=0.95x+a,则a=________.7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2已知P(K2≥3.841)≈根据表中数据,得到k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.8.某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天由表中数据得线性回归方程y^=b^x+a^中b^=-2,预测当气温为-4℃时,用电量的度数约为________.三、解答题9.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调(1)概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由.(参考下表)议.现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.(1)(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.11.某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%)(2)若数学成绩不低于80分为优秀,低于80分的为非优秀,根据以上统计数据写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为解析及答案一、选择题1.【解析】由散点图可得两组数据均线性相关,且图(1)的线性回归方程斜率为负,图(2)的线性回归方程斜率为正,则由此散点图可判断变量x与y负相关,u与v正相关.【答案】 C2.【解析】由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求.故用独立性检验最有说服力.【答案】 C3.【解析】x=176,y=176,又回归直线一定过(x,y),∴经检验A、B、D错误,C正确.【答案】 C4.【解析】可计算k=11.377>6.635.【答案】 A5.【解析】∵x=4+2+3+54=72,y=49+26+39+544=42,又y^=b^x+a^必过(x,y),∴42=72×9.4+a^,∴a^=9.1.∴线性回归方程为y^=9.4x+9.1,∴当x=6时,y^=9.4×6+9.1=65.5(万元).【答案】 B二、填空题6.【解析】因为回归方程必过样本点的中心(x,y),解得x=2,y=4.5,将(2,4.5)代入y^=0.95x+a可得a=2.6.【答案】 2.67.【解析】∵k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.【答案】5%8.【解析】x=10,y=40,回归方程过点(x,y),∴40=-2×10+a^.∴a^=60.∴y^=-2x+60.令x=-4,∴y^=(-2)×(-4)+60=68.【答案】68三、解答题9.【解】(1)积极参加班级工作的学生有24人,总人数为50人,∴抽到积极参加班级工作的学生的概率P1=2450=12 25,不太主动参加班级工作且学习积极性一般的学生有19人,∴抽到不太主动参加工作且学习积极性一般的学生概率P2=1950,(2)由列联表知,k=50×(18×19-6×7)225×25×24×26=15013≈11.5,由k>6.635,∴有99%的把握认为学习积极性与对待班级工作的态度有关系.10.【解】 (1)x =100+-12-17+17-8+8+127=100; y =100+-6-9+8-4+4+1+67=100; ∴s 2数学=9947=142,∴s 2物理=2507,从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b ^=497994=0.5,a^=100-0.5×100=50, ∴线性回归方程为y ^=0.5x +50.当y =115时,x =130.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.11.【解】 (1)依题意甲校应抽取110人,乙校应抽取90人,故x =10,y =15,由此估计甲、乙两校数学成绩的平均分为:x 甲=55×10+65×25+75×35+85×30+95×10110≈75, x 乙=55×15+65×30+75×25+85×15+95×590≈71. (2)列2×2列联表如下:k=200(40×70-20×70)2110×90×60×140≈4.714,又因为4.714>3.841.故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.。
2022版高中数学一轮复习课时作业梯级练六十六变量的相关性与统计案例课时作业理含解析新人教A版
课时作业梯级练六十六变量的相关性与统计案例【基础落实练】(30分钟60分)一、选择题(每小题5分,共25分)1.2020年5月28日,《中华人民某某国民法典》(以下简称《民法典》)获十三届全国人大三次会议高票通过,其被誉为“社会生活的百科全书”,具有重要意义.某就“是否关注《民法典》”向网民展开问卷调查,回收100份有效问卷,得到2×2列联表,经计算K2≈3.030,则下列结论正确的是( )附:A.有90%的把握认为网民关注《民法典》与性别无关B.有90%的把握认为网民关注《民法典》与性别有关C.在犯错误不超过1%的前提下,认为网民关注《民法典》与性别无关D.在犯错误超过1%的前提下,认为网民关注《民法典》与性别无关【解析】选B.由题意知,K2≈3.030>2.706,所以有90%的把握认为网民关注《民法典》与性别有关.2.已知x与y之间的一组数据如表所示:x 0 1 2 3y m 3 5.5 7已求得y关于x的线性回归方程为=2.1x+0.85,则m的值为( )A.0.85B.0.75C.0.6D.0.5【解析】选D.由题中数据可得=,=,因为回归直线必过样本点的中心,所以=2.1×+0.85,解得m=0.5.3.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )【解析】选A.用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.4.经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系.对某小组学生每周用于数学的学习时间x与数学成绩y进行数据收集如表:x 15 16 18 19 22y 102 98 115 115 120由表中样本数据求得回归方程为=x+,则下列说法正确的是( )A.+18<100B.+18>100C.+18=100D.+18与100的大小无法确定【解析】选B.=(15+16+18+19+22)×=18,=(102+98+115+115+120)×=110,所以样本中心点为(18,110),所以有110=18+,即点(,)满足+18=110>100.【加练备选·拔高】如图所示,5组数据(x,y)中去掉D(3,10)后,下列说法错误的是( )A.残差平方和变大B.相关系数r变大C.相关指数R2变大D.变量x与变量y的相关性变强【解析】选A.根据散点图:5组数据(x,y)中去掉D(3,10)后,得到的结论,y与x的线性相关性加强,且为正相关,所以r 变大,相关系数R 2变大,残差平方和变小.5.以模型y=ce kx 去拟合一组数据时,为了求出回归方程,设z=lny,其变换后得到线性回归方程z=0.3x+4,则c=( ) A.0.3B.e 0.3 C.4D.e 4【解析】选D.因为y=ce kx ,所以两边同时取对数得lny=kx+lnc,设z=lny,得z=kx+lnc,又因为变换后得到线性回归方程z=0.3x+4,所以lnc=4,解得c=e 4. 二、填空题(每小题5分,共15分)6.(2021·某某模拟)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是=13x +且x 1+x 2+…+x 8=24,y 1+y 2+…+y 8=12,则实数的值是________.【解析】根据题意知,x 1+x 2+…+x 8=24,y 1+y 2+…+y 8=12, 所以x =18×24=3,y =18×12=32,所以回归直线=13x +过样本中心点⎝ ⎛⎭⎪⎫3,32, 所以=32-13×3=12,即实数=12. 答案:127.(2020·某某模拟)某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为l 1:=0.68x +,计算其相关系数为r 1,相关指数为R 21.经过分析确定点F 为“离群点”,把它去掉后,再利用剩下的5组数据计算得到回归直线的方程为l 2:=x +0.68,相关系数为r 2,相关指数为R 22.以下结论中,不正确的序号是________.①r1>0,r2>0②R21>R22③=0.12④0<<0.68【解析】由图可知两变量呈现正相关,故r1>0,r2>0,且r1<r2,故R21<R22,故①正确,②不正确.又回归直线l1:=0.68x+必经过样本点的中心(3.5,2.5),所以=2.5-0.68×3.5=0.12,③正确.回归直线l2:=x+0.68必经过样本点的中心(3,2),所以2=×3+0.68,所以=0.44,也可直接根据图象判断0<<0.68(比较两直线的倾斜程度),故④正确.答案:②8.某学校社团为调查学生课余学习围棋的情况,随机抽取了100名学生进行调查.根据调查结果绘制的学生日均学习围棋时间的频率分布直方图如图所示,将日均学习围棋时间不低于40分钟的学生称为“围棋迷”.根据已知条件作出了下面不完整的2×2列联表,则据此资料判断________(填“能”或“不能”)在犯错误的概率不超过0.05的前提下认为“围棋迷”与性别有关.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .【解析】由频率分布直方图可知,在抽取的100人中,“围棋迷”有100×0.25=25人, 从而2×2列联表如下所示:将2×2列联表中的数据代入公式计算,得 K 2的观测值k =100×(30×10-15×45)245×55×75×25=10033≈3.030,因为3.030<3.841,所以不能在犯错误的概率不超过0.05的前提下认为“围棋迷”与性别有关.答案:不能三、解答题(每小题10分,共20分)9.(2020·新高考全国Ⅰ卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得到表格:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成2×2列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P (K 2≥k ) 0.050 0.010 0.001 k3.8416.63510.828【解析】(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:[0,150] (150,475] [0,75] 64 16 (75,115]1010(3)根据(2)的列联表得K 2的观测值k =100×(64×10-16×10)280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关. 10.某高校在A 省自主招生,对初审通过的1 000人进行复试,按分数从高到低录取100人认定复试通过(20道客观题,每题10分,满分200分),不低于140分的各分数对应人数如表: 分数x 140 150 160 170 180 人数y29 15 9 52t =1x -120120130140150160 (1)已知y 关于t 的回归方程为=814.3t -11.6,求y 关于x 的回归方程=x +;(2)已知y 关于x 的相关系数为-0.95,试求出y 关于t 的相关系数r (小数点后保留两位小数),通过比较,判断哪个回归方程拟合效果更好;(注:|r |越大,拟合性越好)(3)根据(2)中拟合性更好的回归方程,预报得分为130的考生能否全部通过复试? 相关公式和数据:=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,=y -x ,r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2=∑i =1nx i y i -n x y∑i =1n(x i -x )2∑i =1n(y i -y )2,∑i =15x i y i =8 960,∑i =15x 2i =129 000,∑i =15t i y i ≈2.31,∑i =15t 2i ≈0.004 9,t =0.029,t 2=0.000 841,x =160,y =12,∑i =15 (x i -x )2≈31.6,∑i =15(t i -t )2≈0.027,∑i =15(y i -y )2≈21.4.【解析】(1)=∑i =15x i y i -5x y∑i =15x 2i -5x2=8 960-9 600129 000-128 000=-0.64,=y -x =12-(-0.64)×160=114.4,所以,y 关于x 的回归方程是=-0.64x +114.4.(2)r =∑i =15t i y i -5t y∑i =15(t i -t )2∑i =15(y i -y )2≈2.31-1.740.027×21.4≈0.99,比较相关系数:|-0.95|<|0.99|,故y 关于t 的方程拟合效果更好. (3)当x =130时,t =110,代入回归方程=814.3t -11.6,得预报值:=814.3×110-11.6=69.83,因为140分以上有60人,所以只需在130分的人中录取40人,故不能全部通过复试. 【素养提升练】(20分钟35分)1.如图是某某市2019年4月至2020年3月每月最低气温与最高气温(℃)的折线统计图,已知每月最低气温与最高气温的线性相关系数r =0.83,则下列结论错误的是( )A.每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关 B .月温差(月最高气温-月最低气温)的最大值出现在10月 C .9-12月的月温差相对于5-8月,波动性更大 D .每月最高气温与最低气温的平均值在前6个月逐月增加【解析】选D.每月最低气温与最高气温的线性相关系数r =0.83,可知每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关,由所给的折线图可以看出月温差(月最高气温-月最低气温)的最大值出现在10月,9-12月的月温差相对于5-8月,波动性更大,每月的最高气温与最低气温的平均值在前5个月逐月增加,第6个月开始减少,所以ABC 正确,D 错误.2.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i ) (i =1,2,…,6)都在曲线y =bx 2-12附近波动.经计算∑i =16x i =12,∑i =16y i =14,∑i =16x 2i =23,则实数b 的值为________.【解析】令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -12,此时t =∑i =16x 2i6=236,y = i =16y i6=146,代入y =bt -12,得146=b ×236-12,解得b =1723.答案:17233.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y =2e 2x +1的图象附近,设z =ln y ,将其变换后得到线性方程z =mx +n ,则mn =________. 【解析】由题可知,ln (2e 2x +1)=mx +n , 所以ln 2+(2x +1)=mx +n ,所以m =2,n =1+ln 2,mn =2+2ln 2. 答案:2+2ln 24.某食盐加工厂有甲、乙两条包装生产线,正常情况下生产出来每包食盐质量ξ(单位:g)服从正态分布N (μ,σ2)(单位:g),并把质量在(μ-3σ,μ+3σ)内的产品作为合格品,剩下的作为不合格品重新包装,两条生产线均设置μ=500,σ=5.现随机从这两条生产线上各抽取20件产品作为样本并称出它们的质量(单位:g),结果如下: 甲生产线:480 481 483 484 497 501 502 502 502 503 504 504 505 506 506 508 509 513 517 518乙生产线:482 483 484 497 497 499 502 502 503 504 506 506 508 508 509 513 516 517 518 520(1)由以上统计数据完成下面2×2列联表,能否在犯错误的概率不超过0.15的前提下认为产品的包装合格与两条生产线的选择有关?附表:(参考公式:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),n =a +b +c +d .)(2)乙生产线上的检验员某天随机抽取两包食盐,其质量分别为516 g 和519 g ,检验员根据抽测结果判断该生产线出现异常,要求立即停产检修,检验员的判断是否合理,请说明理由. 参考公式:P (μ-3σ<ξ<μ+3σ)=0.997 4. 【解析】(1)补充完整的2×2列联表如表所示:所以K 2=40×(14×7-13×6)227×13×20×20=40351≈0.114<2.072,故不能在犯错误的概率不超过0.15的前提下认为产品的包装合格与两条生产线的选择有关.(2)检验员的判断是合理的.理由如下:因为μ=500,σ=5,所以P(485<ξ<515)=0.997 4,即合格品的概率为0.9974,而不合格品的概率为1-0.997 4=0.002 6,几乎为0,但随机抽取的两包食盐质量分别为516 g和519 g,均属于不合格品,所以有理由认为生产线出现了异常.故检验员的判断合理.5.(2021·某某模拟)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量x(单位:亿元)对年销售额y(单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y=α+βx2,②y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数.现该公司收集了近12年的年研发资金投入量x i和年销售额y i(i=1,2,…,12)的数据,并对这些数据作了初步处理,得到了散点图及一些统计量的值.令u i=x2i,v i=ln y i(i=1,2,…,12),经计算得如表中的数据:(1)设{u i}和{y i}的相关系数为r1,{x i}和{v i}的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);(ii)若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元.附:①相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,回归直线方程=+x中斜率和截距的最小二乘估计公式分别为:=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2,=y-x;②参考数据:308=4×77,90≈9.486 8,e4.499 8≈90.【解析】(1)由题意,r1=∑i=112(u i-u)(y i-y)∑i=112(u i-u)2∑i=112(y i-y)2=21 5003 125 000×200=21 50025 000=4350=0.86,r 2=∑i =112(x i -x )(v i -v )∑i =112(x i -x )2∑i =112(v i -v )2=14770×0.308=1477×0.2=1011≈0.91,则|r 1|<|r 2|,因此从相关系数的角度, 模型y =e λx +t 的拟合程度更好. (2)(i)先建立v 关于x 的回归直线方程, 由y =e λx +t ,得ln y =t +λx ,即v =t +λx ;由于λ=∑i =112(x i -x )(v i -v )∑i =112(x i -x )2=14770≈0.018≈0.02, t =v -λx =4.20-0.018×20=3.84,所以v 关于x 的回归直线方程为=0.02x +3.84, 所以ln=0.02x +3.84,则=e 0.02x +3.84.(ii)下一年销售额y 需达到90亿元,即y =90, 代入=e 0.02x +3.84,得90=e 0.02x +3.84,又e 4.499 8≈90,所以4.499 8≈0.02x +3.84, 所以x ≈4.499 8-3.840.02=32.99,所以预测下一年的研发资金投入量约是32.99亿元.。
2020版高考数学人教版理科一轮复习课时作业:61 变量间的相关关系、统计案例 Word版含解析
课时作业61 变量间的相关关系、统计案例一、选择题1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:^①y与x负相关且=2.347x-6.423;y^②y与x负相关且=-3.476x+5.648;y^③y与x正相关且=5.437x+8.493;y^④y与x正相关且=-4.326x-4.578.y其中一定不正确的结论的序号是( D )A.①②B.②③C.③④D.①④解析:正相关指的是y随x的增大而增大,负相关指的是y随x 的增大而减小,故不正确的为①④.2.下列说法错误的是( B )A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好解析:根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相当性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好,二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R 2为0.80的模型拟合的效果好,C 、D 正确,故选B.3.为了解某商品销售量y (件)与其单价x (元)的关系,统计了(x ,y )的10组值,并画成散点图如图,则其回归方程可能是( B )A.=-10x -198B.=-10x +198y ^y ^C.=10x +198D.=10x -198y ^y ^解析:由图象可知回归直线方程的斜率小于零,截距大于零,故选B.4.若一函数模型为y =ax 2+bx +c (a ≠0),为将y 转化为t 的回归直线方程,需作变换t =( C )A .x 2B .(x +a )2C.2D .以上都不对(x +b 2a)解析:y 关于t 的回归直线方程,实际上就是y 关于t 的一次函数.因为y =a 2+,所以可知选项C 正确.(x +b 2a )4ac -b 24a5.(2019·湖北七市联考)广告投入对商品的销售额有较大影响,某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元)广告费23456销售额2941505971由表可得回归方程为=10.2x +,据此模拟,预测广告费为10y ^a ^万元时的销售额约为( C )A .101.2B .108.8C .111.2D .118.2解析:由题意得:=4,=50,∴50=4×10.2+,解得=9.2,∴x y a ^a ^回归直线方程为=10.2x +9.2,∴当x =10时,=10.2×10+9.2=y ^y ^111.2,故选C.6.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均y ^消费额占人均工资收入的百分比为( D )A .66%B .67%C .79%D .84%解析:因为y 与x 具有线性相关关系,满足回归方程=0.6x +1.2,y ^该城市职工人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为=84%.4.257.(2019·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线一线总计愿生452065不愿生132235总计5842100由K 2=,n (ad -bc )2(a +b )(c +d )(a +c )(b +d )得K 2=≈9.616.100×(45×22-20×13)265×35×58×42参照下表,P (K 2≥k 0)0.0500.0100.001k 03.8416.63510.828下列说法中,正确的结论是( C )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.二、填空题8.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:气温(℃)181310-1用电量(度)24343864由表中数据得线性回归直线方程=x +中的=-2,预测当气y ^b ^a ^b ^温为-4 ℃时,用电量为68度.解析:回归直线过点(,),x y 根据题意得==10,x 18+13+10+(-1)4==40,将(10,40)代入=-2x +,解得=60,y 24+34+38+644y ^ a ^ a ^则=-2x +60,当x =-4时,=(-2)×(-4)+60=68,即当气温y ^ y ^为-4 ℃时,用电量约为68度.9.(2019·安徽蚌埠段考)为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手非生产能手总计25周岁以上25356025周岁以下103040总计3565100有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.解析:由2×2列联表可知,K 2=≈2.93,100×(25×30-10×35)240×60×35×65因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.三、解答题10.某公司为了了解广告投入对销售收益的影响,在若干地区各投入万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入x (单位:万元)12345销售收益y (单位:万元)2327表中的数据显示,x 与y 之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算y 关于x 的线性回归方程.解:(1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.1+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20, 0.28, 0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.2+5×0.28+7×0.24+9×0.08+11×0.04=5.(3)空白栏中填5.由题意可知,==3,x 1+2+3+4+55==3.8,i y i=1×2+2×3+3×2+4×5+y 2+3+2+5+755∑i =1x 5×7=69,=12+22+32+42+52=55.5∑i =1x 2i 根据公式可求得===1.2,=3.8-b ^69-5×3×3.855-5×321210a ^ 1.2×3=0.2,即线性回归方程为=1.2x +0.2.y ^11.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程=x +中的=y ^b ^a ^b ^0.8(用最小二乘法求得).那么,当广告费用为6千元时,可预测销售额约为( B )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:依题意得=4.5,=3.5,由回归直线必过样本中心点得a x y =3.5-0.8×4.5=-0.1.当x =6时,=0.8×6-0.1=4.7.y ^12.近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和《二十四史》中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录.近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:表一日期12345678910天气晴霾霾阴霾霾阴霾霾霾日期11121314151617181920天气阴晴霾霾霾霾霾霾阴晴日期21222324252627282930天气霾霾晴霾晴霾霾霾晴霾对于此种情况,该市政府为减少雾霾于次年采取了全年限行的政策.下表是一个调查机构对比以上两年11月份(该年不限行30天、次年限行30天,共60天)的调查结果:表二不限行限行总计没有雾霾a 有雾霾b 总计303060(1)请由表一中数据求a ,b 的值,并估计在该年11月份任取一天是晴天的概率;(2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?P (K 2≥k 0)0.1000.0500.0100.001k 02.7063.8416.63510.828(表中数据使用时四舍五入取整数)解:(a )a =10,b =20,所求概率P ==.63015(2)设限行时有x 天没有雾霾,则有雾霾的天数为30-x ,由题意得K 2的观测值k =≤3,代入数据化简得21x 2-440x +1 n (ad -bc )2(a +b )(c +d )(a +c )(b +d )500≤0,x ∈[0,30],x ∈N *,即(7x -30)(3x -50)≤0,解得≤x ≤,307503所以5≤x ≤16,且x ∈N *,所以若没有90%的把握认为雾霾与限行有关系,则限行时有5~16天没有雾霾.尖子生小题库——供重点班学生使用,普通班学生慎用13.(2019·山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:年份2011201220132014201520162017广告费支出x 1246111319销售量y 1.93.24.04.45.25.35.4(1)若用线性回归模型拟合y 与x 的关系,求出y 关于x 的线性回归方程;(2)若用y =c +d 模型拟合y 与x 的关系,可得回归方程=1.63x y ^+0.99,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,x 请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果回答下列问题:①广告费x =20时,销售量及利润的预报值是多少?②广告费x 为何值时,利润的预报值最大?(精确到0.01)参考公式:回归直线=+x 的斜率和截距的最小二乘估计分别y ^ a ^ b ^为==,=- .b ^n∑i =1x i y i-nx y n∑i =1x 2i-nx2n∑i =1(x i-x )(y i-y )n∑i =1(x i-x )2a ^ yb ^x≈2.24.5解:(1)∵=8,=4.2,i y i =279.4,=708,x y 7∑i =1x 7∑i =1x 2i∴===0.17,b ^7∑i =1x i y i -7x y7∑i =1x 2i-7x 2279.4-7×8×4.2708-7×82=- =4.2-0.17×8=2.84,a ^ y b ^x∴y 关于x 的线性回归方程为=0.17x +2.84.y ^(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好,∴选用=1.63+0.99更好.y ^x (3)由(2)知,①当x =20时,销售量的预报值=1.63+0.99≈6.07(万台),y ^20利润的预报值z =200×(1.63+0.99)-20≈1 193.04(万元).20②z =200(1.63+0.99)-x =-x +198+326=-()2+198x x x x +326=-(-99)2+10 127,x =99,即x =9 801时,利润的预报值最大,故广告费为9 x 801万元时,利润的预报值最大.。
高考数学一轮复习课时作业(六十三) 变量间的相关关系、统计案例
课时作业(六十三) 变量间的相关关系、统计案例1.(多选)2020年3月15日,某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x (元)和销售量y (件)之间的一组数据如表所示:价格x 9 9.5 10 10.5 11 销售量y1110865按公式计算,y 与x 的回归直线方程是:y ^ =-3.2x +a ^,相关系数|r |=0.986,则下列说法正确的有( )A .变量x ,y 线性负相关且相关性较强B .a ^=40C .当x =8.5时,y 的估计值为12.8D .相应于点(10.5,6)的残差约为0.4ABC [对A ,由表可知y 随x 增大而减少,可认为变量x ,y 线性负相关,且由相关系数|r |=0.986可知相关性强,故A 正确.对B ,价格平均x =15 (9+9.5+10+10.5+11)=10,销售量y =15 (11+10+8+6+5)=8.故回归直线恒过定点(10,8),故8=-3.2×10+a ^ ⇒a ^=40,故B 正确. 对C ,当x =8.5时,y ^=-3.2×8.5+40=12.8,故C 正确.对D ,相应于点(10.5,6)的残差e ^=6-(-3.2×10.5+40)=-0.4,故D 不正确.故选ABC.] 2.(多选)因防疫的需要,多数大学开学后启用封闭式管理.某大学开学后也启用封闭式管理,该校有在校学生9 000人,其中男生4 000人,女生5 000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:满意 不满意 男 20 20 女4010附表:P (K 2≥k )0.100 0.05 0.025 0.010 0.001 k2.7063.8415.0246.63510.828附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )以下说法正确的有( )A .满意度的调查过程采用了分层抽样的抽样方法B .该学校学生对学校的管理和服务满意的概率的估计值为0.6C .有99%的把握认为学生对学校的管理和服务满意与否与性别有关系D .没有99%的把握认为学生对学校的管理和服务满意与否与性别有关系AC [因为男女比例为4 000∶5 000,故A 正确.满意的频率为20+4090 =23 ≈0.667,所以该学校学生对学校的管理和服务满意的概率的估计值约为0.667,所以B 错误.由列联表K 2=90×(20×10-20×40)240×50×60×30=9>6.635,故有99%的把握认为学生对学校的管理和服务满意与否与性别有关系,所以C 正确,D 错误.故选AC.]3.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得如下实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,得到下表中c 的值为________.解析: x =3+4+5+6+75 =5,y =2.5+3+4+4.5+c 5 =14+c5 ,代入回归直线方程中得:14+c5=0.85×5-0.25,解得c =6.答案: 64.某校某次数学考试规定80分以上(含80分)为优分,在1 000名考生中随机抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:________________.附表及公式P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解析:K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”. 答案: 没有90%以上的把握认为“数学成绩与性别有关”5.某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如表:超市 A B C D E F G 广告费支出x i 1 2 4 6 11 13 19 销售额y i19324044525354(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.解析:(1) b ^ =∑i=17xiyi -7x -y -∑i=17x 2i -7x 2=2 794-7×8×42708-7×82=1.7.所以a ^ =y -b ^x =42-1.7×8=28.4, 故y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)因为0.75<0.93,所以二次函数回归模型更合适.当x =3时,y ^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.47万元.6.为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查.已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n 的样本,得到一周参加社区服务时间的统计数据如下表:(1)求m ,n (2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关? (3)以样本中学生参加社区服务时间超过1小时的频率作为该事件发生的概率,现从该校学生中随机调查6名学生,试估计这6名学生中一周参加社区服务时间超过1小时的人数.附:K 2=n (ad bc 2(a +b )(c +d )(a +c )(b +d )解析:(1)由已知,该校有女生400人,故12+m 20+8 =400560 ,得m =8,从而n =20+8+12+8=48. (2)作出2×2列联表如下:K 2=48×(160-96)228×20×32×16 =2435≈0.685 7<3.841.所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关. (3)根据以上数据,学生一周参加社区服务时间超过1小时的概率P =3248 =23 ,故估计这6名学生中一周参加社区服务时间超过1小时的人数是4.7.(2020·全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600] 1(优)216252(良)51012 3(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:K2=n ad bc2(a+b)(c+d)(a+c)(b+d),P(K2≥k)0.0500.0100.001k 3.841 6.63510.828解析:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:空气质量等级123 4概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为1100(100×20+300×35+500×45)=350.(3)根据所给数据,可得2×2列联表:人次≤400人次>400空气质量好 33 37 空气质量不好228根据列联表得K 2=100×(33×8-22×37)255×45×70×30≈5.820.由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.8.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到如图散点图及一些统计量的值.x y w∑i =18(x i -x)2∑i =18(w i -w )2∑i =18(x i -x )· (y i -y )∑i =18(w i -w )· (y i -y )46.6 563 6.8 289.81.61.469 108.8表中w i =xi ,w =18∑i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^ =α^ +β^u 的斜率和截距的最小二乘估计分别为:解析: (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程,由d ^ =∑i=18(wi -w )·(yi -y )∑i=18(wi -w )2=108.81.6=68. 得c ^ =y -d ^w =563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ∧=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849 =576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62 =6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课时作业61 变量间的相关关系、统计案例一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( D ) A .①② B .②③ C .③④ D .①④解析:正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.2.下列说法错误的是( B )A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好解析:根据相关关系的概念知A 正确;当r >0时,r 越大,相关性越强,当r <0时,r 越大,相当性越弱,故B 不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好,二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R 2为0.80的模型拟合的效果好,C 、D 正确,故选B.3.为了解某商品销售量y (件)与其单价x (元)的关系,统计了(x ,y )的10组值,并画成散点图如图,则其回归方程可能是( B )A.y ^=-10x -198B.y ^=-10x +198C.y ^=10x +198D.y ^=10x -198解析:由图象可知回归直线方程的斜率小于零,截距大于零,故选B.4.若一函数模型为y =ax 2+bx +c (a ≠0),为将y 转化为t 的回归直线方程,需作变换t =( C )A .x 2B .(x +a )2C.⎝ ⎛⎭⎪⎫x +b 2a 2D .以上都不对解析:y 关于t 的回归直线方程,实际上就是y 关于t 的一次函数.因为y =a ⎝ ⎛⎭⎪⎫x +b 2a 2+4ac -b 24a,所以可知选项C 正确.5.(2019·湖北七市联考)广告投入对商品的销售额有较大影响,某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元)由表可得回归方程为y =10.2x +a ,据此模拟,预测广告费为10万元时的销售额约为( C )A .101.2B .108.8C .111.2D .118.2解析:由题意得:x =4,y =50,∴50=4×10.2+a ^,解得a ^=9.2,∴回归直线方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.6.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( D )A .66%B .67%C .79%D .84%解析:因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市职工人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.7.(2019·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=a +bc +d a +cb +d,得K 2=-265×35×58×42≈9.616.A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”. 二、填空题8.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:由表中数据得线性回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为68度.解析:回归直线过点(x ,y ), 根据题意得x =18+13+10+-4=10,y =24+34+38+644=40,将(10,40)代入y ^=-2x +a ^,解得a ^=60,则y ^=-2x +60,当x =-4时,y ^=(-2)×(-4)+60=68,即当气温为-4 ℃时,用电量约为68度.9.(2019·安徽蚌埠段考)为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:解析:由2×2列联表可知,K 2=25×30-240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.10.某公司为了了解广告投入对销售收益的影响,在若干地区各投入万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:算y 关于x 的线性回归方程.解:(1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.1+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20, 0.28, 0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.2+5×0.28+7×0.24+9×0.08+11×0.04=5. (3)空白栏中填5. 由题意可知,x =1+2+3+4+55=3,y =2+3+2+5+75=3.8,∑i =15x i y i =1×2+2×3+3×2+4×5+5×7=69,∑i =15x 2i =12+22+32+42+52=55. 根据公式可求得b ^=69-5×3×3.855-5×32=1210=1.2,a ^=3.8-1.2×3=0.2,即线性回归方程为y ^=1.2x +0.2.11.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中的b ^=0.8(用最小二乘法求得).那么,当广告费用为6千元时,可预测销售额约为( B )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:依题意得x =4.5,y =3.5,由回归直线必过样本中心点得a =3.5-0.8×4.5=-0.1.当x =6时,y ^=0.8×6-0.1=4.7.12.近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和《二十四史》中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录.近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:表一构对比以上两年11月份(该年不限行30天、次年限行30天,共60天)的调查结果:表二(1) (2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?解:(a )a =10,b =20,所求概率P =630=15.(2)设限行时有x 天没有雾霾,则有雾霾的天数为30-x ,由题意得K 2的观测值k =n ad -bc 2a +bc +d a +cb +d≤3,代入数据化简得21x 2-440x +1 500≤0,x ∈[0,30],x ∈N *,即(7x -30)(3x -50)≤0,解得307≤x ≤503,所以5≤x ≤16,且x ∈N *,所以若没有90%的把握认为雾霾与限行有关系,则限行时有5~16天没有雾霾. 尖子生小题库——供重点班学生使用,普通班学生慎用13.(2019·山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果回答下列问题: ①广告费x =20时,销售量及利润的预报值是多少? ②广告费x 为何值时,利润的预报值最大?(精确到0.01)参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x 2=279.4-7×8×4.2708-7×82=0.17, a ^=y -b ^x =4.2-0.17×8=2.84,∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好,∴选用y ^=1.63+0.99x 更好.(3)由(2)知,①当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).②z=200(1.63+0.99x)-x=-x+198x+326=-(x)2+198x+326=-(x-99)2+10 127,∴当x=99,即x=9 801时,利润的预报值最大,故广告费为9 801万元时,利润的预报值最大.。