教育最新K122019届高考数学一轮复习 第九篇 统计与统计案例 第3节 变量的相关性与统计案例训练 理 新人教版

合集下载

2019年高考数学(理)一轮复习第9章 算法初步、统计与统计案例 第2节 随机抽样学案

2019年高考数学(理)一轮复习第9章 算法初步、统计与统计案例 第2节 随机抽样学案

第二节随机抽样[考纲传真] (教师用书独具)1.理解随机抽样的必要性和重要性.2.会用简单随机抽样方法从总体中抽取样本.3.了解分层抽样和系统抽样方法.4.会用随机抽样的基本方法解决一些简单的实际问题.(对应学生用书第160页)[基础知识填充]1.抽样调查(1)抽样调查通常情况下,从调查对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某些指标作出推断,这就是抽样调查.(2)总体和样本调查对象的全体称为总体,被抽取的一部分称为样本.(3)抽样调查与普查相比有很多优点,最突出的有两点:①迅速、及时;②节约人力、物力和财力.2.简单随机抽样(1)简单随机抽样时,要保证每个个体被抽到的概率相同.(2)通常采用的简单随机抽样的方法:抽签法和随机数法.3.分层抽样(1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.4.系统抽样系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按分组的间隔(称为抽样距)抽取其他样本.这种抽样方法也叫等距抽样或机械抽样.[知识拓展] 三种抽样方法的共性:等概率抽样,不放回抽样,逐个抽取,总体确定.[基本能力自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)简单随机抽样中每个个体被抽到的机会不一样,与先后有关.( )(2)系统抽样在起始部分抽样时采用简单随机抽样.( )(3)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )(4)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )[答案] (1)× (2)√ (3)× (4)×2.(教材改编)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本A [从5 000名居民某天的阅读时间中抽取200名居民的阅读时间,样本容量是200,抽取的200名居民的阅读时间是一个样本,每名居民的阅读时间就是一个个体,5 000名居民的阅读时间的全体是总体.]3.老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( )A .随机抽样B .分层抽样C .系统抽样D .以上都不是C [因为抽取学号是以5为公差的等差数列,故采用的抽样方法应是系统抽样.]4.利用简单随机抽样从含有8个个体的总体中抽取一个容量为4的样本,则总体中每个个体被抽到的概率是________.12 [总体个数为N =8,样本容量为M =4,则每一个个体被抽到的概率为P =M N =48=12.] 5.(2017·江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.18 [∵样本容量总体个数=60200+400+300+100=350, ∴应从丙种型号的产品中抽取350×300=18(件).](对应学生用书第160页)(1)下列抽取样本的方式属于简单随机抽样的个数为( )①盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;②从20件玩具中一次性抽取3件进行质量检验;③某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A .0B .1C .2D .3(2)利用简单随机抽样,从n 个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为13,则在整个抽样过程中,每个个体被抽到的概率为( )A .14B .13C .514D .1027(1)A (2)C [(1)①②③中都不是简单随机抽样,这是因为:①是放回抽样,②中是“一次性”抽取,而不是“逐个”抽取,③中“指定个子最高的5名同学”,不存在随机性,不是等可能抽样.(2)根据题意得,9n -1=13,解得n =28.故每个个体被抽到的概率为1028=514.]A .从某厂生产的5 000件产品中抽取600件进行质量检验B .从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验C .从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验D .从某厂生产的5 000件产品中抽取10件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A .08 (1)B (2)D [(1)A ,D 中总体的个体数较多,不适宜用抽签法,C 中,一般甲、乙两厂的产品质量有区别,也不适宜用抽签法,故选B .(2)由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.](1)采用系统抽样方法从1 000人中抽取50人做问卷调查,将他们随机编号1,2,…,1 000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.若抽到的50人中,编号落入区间[1,400]的人做问卷A ,编号落入区间[401,750]的人做问卷B ,其余的人做问卷C ,则抽到的人中,做问卷C 的人数为( )A .12B .13C .14D .15(2)(2017·湖北重点中学适应模拟)某校高三年级共有30个班,学校心理咨询室为了了解同学们的心理状况,将每个班编号,依次为1到30,现用系统抽样的方法抽取5个班进行调查,若抽到的编号之和为75,则抽到的最小的编号为________.【导学号:79140323】(1)A (2)3 [(1)根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差d =1 00050=20的等差数列{a n },∴通项公式a n =8+20(n -1)=20n -12,令751≤20n -12≤1 000,得76320≤n ≤2535,又∵n ∈N +,∴39≤n ≤50,∴做问卷C 的共有12人,故选A .(2)系统抽样的抽取间隔为305=6. 设抽到的最小编号为x ,则x +(6+x )+(12+x )+(18+x )+(24+x )=75,所以x =3.]一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( )A .13B .19C .20D .51 C [由系统抽样的原理知抽样的间隔为524=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,从而可知选C .](1)(2018·南昌一模)某校为了解学生学习的情况,采用分层抽样的方法从高一 1 000人、高二1 200人、高三n 人中,抽取81人进行问卷调查.已知高二被抽取的人数为30,那么n =( )A .860B .720C .1 020D .1 040(2)(2018·南京、盐城、连云港二模)下表是关于青年观众的性别与是否喜欢戏剧的调查数据,人数如表所示:若在“不喜欢戏剧的男性青年观众”中抽取了8人,则n 的值为________.(1)D (2)30 [由分层抽样的特点可得301 200=811 000+1 200+n,解得n =1 040,故选D .(2)由题意可得n =840×150=30.]级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为( )A.15,10,20 B.10,5,30C.15,15,15 D.15,5,25(2)某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:本容量比C产品的样本容量多10,根据以上信息,可得C的产品数量是________件.【导学号:79140324】(1)A(2)800[(1)三个年级抽取的人数分别为300900×45=15,200900×45=10,400900×45=20.故选A.(2)设样本容量为x,则x3 000×1 300=130,∴x=300.∴A产品和C产品的样本中共有300-130=170(件).设C产品的样本容量为y,则y+y+10=170,∴y=80.∴C产品的数量为3 000300×80=800(件).]。

2018-2019届高三数学(文)一轮复习课件:第9章 统计、统计案例、概率 第3节

2018-2019届高三数学(文)一轮复习课件:第9章 统计、统计案例、概率 第3节
∧ ∧
中a,b是待定数. n n xi- x yi- y xiyi-n x y i=1 ∧ i=1 = , b= n n 2 2 2 x - n x x - x i i i=1 i=1 ∧ ∧ a= y -b x .
(3)回归分析
②如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误 的概率不超过 P(K2≥k0);否则,就认为在犯错误的概率不超过 P(K2≥k0)的前提下不能推断“X 与 Y 有关系”.
质疑探究 2∶k2≥3.841 和 k2≥6.635 分别说明了什么问题?
提示:独立性检验得出的结论带有概率性质,只能说结论 成立的概率有多大,而不能完全肯定一个结论,因此才出现了 临界值,3.841 和 6.635 就是两个常用的临界值,一般认为当 k2≥3.841 时, 则有 95%的把握说事件 A 与 B 有关; 当 k2≥6.635 时,则有 99%的把握说事件 A 与 B 有关.
[ 答案] B
2.下面是 2×2 列联表: y1 x1 x2 总计 a 22 b y2 21 25 46 ) B.52,50 D.74,52 总计 73 47 120
则表中 a,b 的值分别为( A.94,72 C.52,74
[ 解析] 选 C.
[ 答案]
∵a+21=73, ∴a=52, 又 a+22=b, ∴b=74. 故
近,就称这两个变量之间具有线性相关关系,这条直线叫做回 归直线. (2)回归方程 ①最小二乘法:求回归直线使得样本数据的点到回归直线
距离的平方和 最小的方法叫做最小二乘法. 的________________



②回归方程:方程 y =bx+a是两个具有线性相关关系的变 量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其

[配套K12]2019届高考数学一轮复习 第九章 算法初步、统计与统计案例 第3节 用样本估计总体练习 新人教A版

[配套K12]2019届高考数学一轮复习 第九章 算法初步、统计与统计案例 第3节 用样本估计总体练习 新人教A版

第九章 第3节 用样本估计总体[基础训练组]1.(导学号14577866)有一个容量为66的样本,数据的分组及各组的频数如下: [11.5,15.5) 2 [15.5,19.5) 4 [19.5,23.5) 9 [23.5,27.5) 18 [27.5,31.5) 11 [31.5,35.5) 12 [35.5,39.5) 7 [39.5,43.5) 3根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是( ) A.16 B.13 C.12D.23解析:B [由条件可知,落在[31.5,43.5)的数据有12+7+3=22(个),故所求概率约为2266=13.故选B.] 2.(导学号14577867)(2018·大连模拟)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,一般情况下PM2.5浓度越大,大气环境质量越差.如图所示的茎叶图表示的是某市甲、乙两个监测站连续10日内每天的PM2.5浓度读数(单位:μg/m 3),则下列说法正确的是( )A .甲、乙监测站读数的极差相等B .乙监测站读数的中位数较大C .乙监测站读数的众数与中位数相等D .甲、乙监测站读数的平均数相等解析:C [因为甲、乙监测站读数的极差分别为55,57,所以A 错误;甲、乙监测站读数的中位数分别为74,68,所以B 错误;乙监测站读数的众数与中位数都是68,所以C 正确,因此选C.]3.(导学号14577868)(2018·丹东市、鞍山市、营口市一模)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a (a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( )A .1+a,4B .1+a,4+aC .1,4D .1,4+a解析:A [方法1:∵y i =x i +a ,∴E (y i )=E (x i )+E (a )=1+a ,方差D (y i )=D (x i )+E (a )=4.方法2:由题意知y i =x i +a ,则y -=110(x 1+x 2+…+x 10+10×a )=110(x 1+x 2+…+x 10)=x -+a =1+a ,方差s 2=110[(x 1+a -(x -+a )2+(x 2+a -(x -+a )2+…+(x 10+a -(x -+a )2]=110[(x 1-x -)2+(x 2-x -)2+…+(x 10-x -)2]=s 2=4.故选A.] 4.(导学号14577869)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,测试成绩(单位:分)如图所示,假设得分值的中位数为m e ,众数为m o ,平均值为x -,则( )A .m e =m c =x -B .m e =m o <x -C .m e <m o <x -D .m o <m e <x -解析:D [由图可知,30名学生的得分情况依次为得3分的有2人,得4分的有3人,得5分的有10人,得6分的有6人,得7分的有3人,得8分的有2人,得9分的有2人,得10分的有2人.中位数为第15、16个数(分别为5、6)的平均数,即m e =5.5,5出现的次数最多,故m o =5,x -=2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×1030≈5.97.于是得m o <m e <x -.故选D.]5.(导学号14577870)(2018·柳州市、钦州市一模)甲、乙、丙三名同学6次数学测试成绩及班级平均分(单位:分)如表:A .甲同学的数学学习成绩高于班级平均水平,且较稳定B .乙同学的数学成绩平均值是81.5C .丙同学的数学学习成绩低于班级平均水平D .在6次测验中,每一次成绩都是甲第一、乙第二、丙第三解析:D [由统计表知:甲同学的数学学习成绩高于班级平均水平,且较稳定,选项A 正确;乙同学的数学成绩平均值是16(88+80+85+78+86+72)=81.5,选项B 正确;丙同学的数学学习成绩低于班级平均水平,选项C 正确;在第6次测验成绩是甲第一、丙第二、乙第三,选项D 错误.故选D.]6.(导学号14577871)(2018·济宁市一模)如图是某学校抽取的学生体重的频率分布直方图,已知图中从左到右的前3个小组的频率依次成等差数列,第2小组的频数为10,则抽取的学生人数为 ________ .解析:前3个小组的频率和为1-(0.037 5+0.012 5)×5=0.75, 所以第2小组的频率为13×0.75=0.25所以抽取的学生人数为100.25=40.答案:407.(导学号14577872)(2018·兰州市调研)某市教育行政部门为了对某届高中毕业生学业水平进行评价,从该市高中毕业生中随机抽取1 000名学生的学业水平考试数学成绩作为样本进行统计.已知该样本中的每个值都是[40,100]中的整数,且在[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]上的频率分布直方图如图所示.记这1000名学生学业水平考试数学平均成绩的最小值(平均数的最小值是用区间的左端点值乘以各组的频率)为a ,则a 的值为 ________ .解析:平均数的最小值是用区间的左端点值乘以各组的频率,于是a =0.005×10×40+0.010×10×50+0.025×10×60+0.035×10×70+0.015×10×80+0.010×10×90=67.5.答案:67.58.(2018·成都市一诊)甲、乙两人在5次综合测评中成绩的茎叶图如图所示,其中一个数字被污损,记甲,乙的平均成绩分别为x -甲,x -乙,则x -甲>x -乙的概率是____________________.解析:由已知中的茎叶图可得乙的5次综合测评中的成绩分别为87,86,92,94,91,则乙的平均成绩x -乙=15(87+86+92+94+91)=90.设污损数字为x ,则甲的5次综合测评中的成绩分别为85,87,84,99,90+x , 甲的平均成绩x -甲=15(85+87+84+99+90+x )=89+x 5,因为x -甲>x -乙,所以90<89+x 5,x ∈N ,解得x 的可能取值为6,7,8,9,所以x -甲>x -乙的概率是p =410=25.答案:259.(导学号14577873)(2018·赣州市二模)某经销商从外地一水殖厂购进一批小龙虾,并随机抽取40只进行统计,按重量分类统计结果如下图:(1)记事件A 为:“从这批小龙虾中任取一只,重量不超过35 g 的小龙虾”,求P (A )的估计值;(2)试估计这批小龙虾的平均重量;(3)为适应市场需求,制定促销策略.该经销商又将这批小龙虾分成三个等级,并制定出销售单价,如下表:解:(1)由于40只小龙虾中重量不超过35 g 的小龙虾有6+10+12=28(只),所以P (A )=2840=710. (2)从统计图中可以估计这批小龙虾的平均重量为140(6×10+10×20+12×30+8×40+4×50=114040)=28.5(克).(3)设该经销商收购这批小龙虾每千克至多x 元.根据样本,由(2)知,这40只小龙虾中一等品、二等品、三等品各有16只、12只、12只,约有1 140 g 即1.14千克,所以1 140x ≤16×1.2+12×1.5+12×1.8, 而16×1.2+12×1.5+12×1.81.140≈51.6,故可以估计该经销商收购这批小龙虾每千克至多51元.10.(导学号14577874)(文科)甲、乙两人参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,画出茎叶图如图所示,乙的成绩中有一个数个位数字模糊,在茎叶图中用c 表示.(把频率当作概率)(1)假设c =5,现要从甲,乙两人中选派一人参加数学竞赛,从统计学的角度,你认为派哪位学生参加比较合适?(2)假设数字c 的取值是随机的,求乙的平均分高于甲的平均分的概率. 解:(1)若c =5,则派甲参加比较合适,理由如下: x -甲=18(70×2+80×4+90×2+9+8+8+4+2+1+5+3)=85, x -乙=18(70×1+80×4+90×3+5+3+5+2+5)=85,s 2甲=18[(78-85)2-(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,s 2乙=18[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41.因为x -甲=x -乙,s 2甲<s 2乙,所以两人的平均成绩相等,但甲的成绩比较稳定,派甲参加比较合适.(2)若x -乙>x -甲,则18(75+80×4+90×3+3+5+2+c )>85, 所以c >5 所以c =6,7,8,9.c 的所有可能取值为0,1,2,3,4,5,6,7,8,9,所以乙的平均分高于甲的平均分的概率为25.10.(导学号14577875)(理科)未来制造业对零件的精度要求越来越高.3D 打印通常是采用数字技术材料打印机来实现的,常在模具制造、工业设计等领域被用于制造模型,后逐渐用于一些产品的直接制造,已经有使用这种技术打印而成的零部件.该技术应用十分广泛,可以预计在未来会有广阔的发展空间.某制造企业向A 高校3D 打印实验团队租用一台3D 打印设备,用于打印一批对内径有较高精度要求的零件.该团队在实验室打印出了一批这样的零件,从中随机抽取10件零件,度量其内径的茎叶图如图所示(单位:μm).(1)计算平均值μ与标准差σ;(2)假设这台3D 打印设备打印出品的零件内径Z 服从正态分布N (μ,σ2),该团队到工厂安装调试后,试打了5个零件,度量其内径分别为(单位:μm):86、95、103、109、118,试问此打印设备是否需要进一步调试,为什么?参考数据:P (μ-2σ<Z <μ+2σ)=0.954 4,P (μ-3σ<Z <μ+3σ)=0.997 4,0.954 43=0.87,0.997 44=0.99,0.045 62=0.002. 解:(1)平均值μ=100+-3-3-2+2+5+7+8+9+13+1410=105.标准差σ=110-2×2+-2+-2+0+22+32+42+82+92=6.(2)假设这台3D 打印设备打印出品的零件内径Z 服从正态分布N (105,62),∴P (μ-2σ<Z <μ+2σ)=P (93<Z <117)=0.954 4,可知:落在区间(93,117)的数据有3个:95、103、109,因此满足2σ的概率为:0.954 43×0.045 62≈0.001 7.P (μ-3σ<Z <μ+3σ)=P (87<Z <123)=0.997 4,可知:落在区间(87,123)的数据有4个:95、103、109、118,因此满足3σ的概率为:0.997 44×0.002 6≈0.002 6.由以上可知:此打印设备不需要进一步调试.[能力提升练]11.(导学号14577876)(2018·益阳市模拟)为了了解某校九年级1 600名学生的体能情况,随机抽查了部分学生,测试1分钟仰卧起坐的成绩(次数),将数据整理后绘制成如图所示的频率分布直方图,根据统计图的数据,下列结论错误的是( )A.该校九年级学生1分钟仰卧起坐的次数的中位数为26.25B.该校九年级学生1分钟仰卧起坐的次数的众数为27.5C.该校九年级学生1分钟仰卧起坐的次数超过30的人数约为320D.该校九年级学生1分钟仰卧起坐的次数少于20的人数约为32解析:D [由频率分布直方图可知,中位数是频率分布直方图面积等分线对应的数值,是26.25;众数是最高矩形的中间值27.5;1分钟仰卧起坐的次数超过30的频率为0.2,所以估计1分钟仰卧起坐的次数超过30的人数为320;1分钟仰卧起坐的次数少于20的频率为0.1,所以估计1分钟仰卧起坐的次数少于20的人数为160.故D错.] 12.(导学号14577877)(2018·广东惠州第二调研)惠州市某机构对两千多名出租车司机的年龄进行调查,现从中随机抽出100名司机,已知抽到的司机年龄都在[20,45)岁之间,根据调查结果得出司机的年龄情况残缺的频率分布直方图如图所示,利用这个残缺的频率分布直方图估计该市出租车司机年龄的中位数大约是( )A.31.6岁B.32.6岁C.33.6岁D.36.6岁解析:C [由面积和为1,知[25,30)的频率为0.2,为保证中位数的左右两边面积都是0.5,必须把[30,35)的面积0.35划分为0.25+0.1,此时划分边界为30+5×0.250.35=33.57,故选C.]13.(导学号14577878)(2018·南昌市模拟)在一次演讲比赛中,6位评委对一名选手打分的茎叶图如图所示,若去掉一个最高分和一个最低分,得到一组数据x i (1≤i ≤4),在如图所示的程序框图中,x -是这4个数据的平均数,则输出的v 的值为 ________ .解析:根据题意得到的数据为78,80,82,84,则x -=81.该程序框图的功能是求以上数据的方差,故输出的v 的值为14[(78-81)2+(80-81)2+(82-81)2+(84-81)2]=5.答案:514.(导学号14577879)(理科)(2018·马鞍山市一模)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,它是形成雾霾天气的主要原因之一.PM2.5日均值越小,空气质量越好.2012年2月29日,国家环保部发布的《环境空气质量标准》见表:针对日趋严重的雾霾情况各地环保部门做了积极的治理.马鞍山市环保局从市区2017年11月~12月和2018年11月~12月的PM2.5检测数据中各随机抽取15天的数据来分析治理效果.样本数据如茎叶图所示(十位为茎,个位为叶)(1)11月~12月的空气质量是否比2018年同期有所提高?(2)在2019年的样本数据中随机抽取3天,以X 表示抽到空气质量为一级的天数,求X 的分布列与期望.解:(1)2018年数据的中位数是58,平均数是28+31+31+41+41+44+45+58+60+61+75+77+84+92+9915≈57.32017年数据的中位数是51,平均数是17+18+23+30+39+39+49+51+52+55+58+62+63+69+7015≈46.3.2019年11月~12月比2018年11月~12月的空气质量有提高.(2)2019年的15个数据中有4天空气质量为一级,故X 的所有可能取值是0,1,2,3, 利用P (X =k )=C 3-k 4C k11C 315可得:P (X =0)=3391,P (X =1)=4491,P (X =2)=66455,P (X =3)=4455.E (X )=0+1×4491+2×455+3×455=5. 14.(导学号14577880)(文科)(2018·渭南市二模)我国是世界严重缺水的国家,城市缺水问题较为突出,某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准x (吨),用水量不超过x 的部分按平价收费,超过x 的部分按议价收费,为了了解全市居民月用水量的分布情况,通过抽样,获得了100位居民某年的月用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a 的值;(2)已知该市有80万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由; (3)若该市政府希望使85%的居民每月的用水量不超过标准x (吨),估计x 的值,并说明理由.解:(1)由频率分布直方图,可得(0.08+0.16+a+0.40+0.52+a+0.12+0.08+0.04)×0.5=1,解得a=0.30.(2)由频率分布直方图可知,100位居民每人月用水量不低于3吨的人数为(0.12+0.08+0.04)×0.5×100=12,由以上样本频率分布,可以估计全市80万居民中月均用水量不低于3吨的人数为800 000×12100=96 000.(3)∵前6组的频率之和为(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85,而前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,∴2.5≤x<3.由0.3×(x-2.5)=0.85-0.73,解得x=2.9,因此,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.。

2019高三数学文一轮:第9章 重点强化课5 统计与统计案例

2019高三数学文一轮:第9章 重点强化课5 统计与统计案例

重点强化课(五) 统计与统计案例(对应学生用书第145页)[复习导读] 本章是新课程改革增加内容,是命题的热点,以算法框图、回归分析、统计图表为重点,以客观题为主.命题注重背景新颖、角度灵活.但近几年统计与统计案例、统计与概率交汇,加大了考查力度.2015年、2016年全国卷均以解答题的形式呈现,强化统计思想方法和创新应用意识的考查,复习过程中应引起注意,多变换角度,注重新背景、新材料题目的训练.重点1 算法框图及应用角度1 算法框图与数列交汇执行如图1的算法框图,如果输入的N =100,则输出的X =( )【导学号:00090336】A .0.95B .0.98C .0.99D .1.00图1C [由算法框图知,输出的X 表示数列⎩⎪⎨⎪⎧⎭⎪⎬⎪⎫1n (n +1)的前99项和,∴X =11×2+12×3+…+199×100=⎝ ⎛⎭⎪⎫1-12+⎝ ⎛⎭⎪⎫12-13+…+⎝ ⎛⎭⎪⎫199-1100=99100.]角度2 算法框图与统计的渗透(2017·合肥模拟)随机抽取某中学甲、乙两个班各10名同学,测量他们的身高获得身高数据的茎叶图如图2,在样本的20人中,记身高在[150,160),[160,170),[170,180),[180,190)的人数依次为A1,A2,A3,A4.如图3是统计样本中身高在一定范围内的人数的算法框图.若图中输出的S=18,则判断框应填________.图2图3i<5或i≤4[由于i从2开始,也就是统计大于或等于160的所有人数,于是就要计算A2+A3+A4,因此,判断框应填i<5或i≤4.]角度3算法框图与函数交汇渗透如图4所示的算法框图的输入值x∈[-1,3],则输出值y的取值范围为()图4A.[1,2]B.[0,2]C.[0,1]D.[-1,2]B[当0≤x≤3时,1≤x+1≤4,所以0≤log2(x+1)≤2.当-1≤x<0时,0<-x≤1⇒1<2-x≤2,所以0<2-x-1≤1.因此输出值y的取值范围为[0,2].][规律方法] 1.完善算法框图:结合初始条件和输出结果,分析控制循环的变量应满足的条件或累加、累乘的变量的表达式.2.求解该类问题,关键是准确理解算法框图的结构,明确算法框图的功能,按照算法框图中的条件进行程序.重点2用样本估计总体随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图,如图5所示.图5(1)根据茎叶图判断哪个班的平均身高较高;(2)计算甲班的样本方差;(3)现从乙班这10名同学中随机抽取2名身高不低于173 cm的同学,求身高为176 cm的同学被抽中的概率.[解](1)由茎叶图可知:甲班同学身高集中在162~179 cm,而乙班同学身高集中在170~179 cm,因此乙班的平均身高高于甲班.(2)x甲=158+162+163+168+168+170+171+179+179+18210=170(cm),甲班的样本方差s2甲=110×[(158-170)2+(162-170)2+(163-170)2+(168-170)2+(168-170)2+(170-170)2+(171-170)2+(179-170)2+(179-170)2+(182-170)2]=57.2(cm)2.(3)记“身高为176 cm的同学被抽中”为事件A.从乙班10名同学中抽出2名身高不低于173 cm的同学有:(173,176),(173,178),(173,179),(173,181),(176,178),(176,179),(176,181),(178,179),(178,181),(179,181),共10个基本事件,而事件A含有4个基本事件,故P(A)=410=25.[规律方法] 1.利用统计图表解决实际问题的关键在于从统计图表中提炼准确的数据信息.2.本例通过茎叶图考查对数据的处理能力和数形结合的思想方法,通过求概率考查运算求解能力和实际应用意识.[对点训练1] 为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图6所示.图6(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为x 1,x 2,估计x1-x 2的值. 【导学号:00090337】[解] (1)设甲校高三年级学生总人数为n . 由题意知30n =0.05,解得n =600.2分样本中甲校高三年级学生数学成绩不及格人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为 ⎝ ⎛⎭⎪⎫1-530×100%≈83%.5分(2)设甲、乙两校样本平均数分别为x ′1,x ′2,根据样本茎叶图可知30(x ′1-x ′2)=30x ′1-30x ′2=(7-5)+(55+8-14)+(24-12-65)+(26-24-79)+(22-20)+92=2+49-53-77+2+92=15,因此x ′1-x ′2=0.5, 故x 1-x 2的估计值为0.5分.12分重点3 统计的应用(2016·全国卷Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:图7记x 表示1台机器在三年使用期内需更换的易损零件数,y 表示1台机器在购买易损零件上所需的费用(单位:元),n 表示购机的同时购买的易损零件数. (1)若n =19,求y 与x 的函数解析式;(2)若要求“需更换的易损零件数不大于n ”的频率不小于0.5,求n 的最小值; (3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件? [解] (1)当x ≤19时,y =3 800;当x >19时,y =3 800+500(x -19)=500x -5 700, 所以y 与x 的函数解析式为 y =⎩⎨⎧3 800,x ≤19,500x -5 700,x >19(x ∈N ).4分(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n 的最小值为19.8分(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800,20台的费用为4 300,10台的费用为4 800,因此这100台机器在购买易损零件上所需费用的平均数为1100(3 800×70+4 300×20+4 800×10)=4 000.10分若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000,10台的费用为4 500,因此这100台机器在购买易损零件上所需费用的平均数为1100(4 000×90+4 500×10)=4 050. 比较两个平均数可知,购买1台机器的同时应购买19个易损零件.12分[规律方法] 1.本题将分段函数、频率分布、样本的数字特征交汇命题,体现了统计思想的意识和应用.2.本题易错点有两处:一是混淆频率分布直方图与柱状图致误;二是审题不清或不懂题意,导致解题无从入手.避免此类错误,需认真审题,读懂题意,并认真观察频率分布直方图与柱状图的区别,纵轴表示的意义.[对点训练2] (2018·池州模拟)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图8所示.规定80分以上者晋级成功,否则晋级失败(满分为100分). 【导学号:00090338】 (1)求图中a 的值;(2)估计该次考试的平均分x (同一组中的数据用该组的区间中点值代表); (3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.图--参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d[+0.040)×10=1,解得a=0.005. 3分(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95,对应的频率分布为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为x=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分). 6分(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为100×0.25=25,8分填写2×2列联表如下:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(16×41-34×9)225×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关. 12分。

近年届高考数学一轮复习第九章统计、统计案例课堂达标50用样本估计总体文新人教版(2021年整理)

近年届高考数学一轮复习第九章统计、统计案例课堂达标50用样本估计总体文新人教版(2021年整理)

2019届高考数学一轮复习第九章统计、统计案例课堂达标50 用样本估计总体文新人教版编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2019届高考数学一轮复习第九章统计、统计案例课堂达标50 用样本估计总体文新人教版)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2019届高考数学一轮复习第九章统计、统计案例课堂达标50 用样本估计总体文新人教版的全部内容。

课堂达标(五十)用样本估计总体[A基础巩固练]1.(2017·课标Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数[解析]刻画评估这种农作物亩产量稳定程度的指标是标准差,故选B.[答案]B2.(2018·郑州第二次质量检测)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m、n的比值错误!=( )A.1 B.错误!C.错误!D.错误![解析]由题中茎叶图可知甲的数据为27、30+m、39,乙的数据为20+n、32、34、38。

由此可知乙的中位数是33,所以甲的中位数也是33,所以m=3.由此可以得出甲的平均数为33,所以乙的平均数也为33,所以有错误!=33,所以,n=8,所以错误!=错误!.[答案]D3.(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22。

2019版高考数学(理)一轮复习全国经典版:第9章 统计、统计案例 9-3a

2019版高考数学(理)一轮复习全国经典版:第9章 统计、统计案例  9-3a

2
高考一轮总复习 ·数学[理](经典版)
解析
因为 y=-0.1x+1 的斜率小于 0,故 x 与 y 负相
^ ^ ^ ^ ^ 关. 因为 y 与 z 正相关, 可设 z=by+a, b>0, 则 z=by+a= ^ ^ ^ -0.1bx+b+a,故 x 与 z 负相关.
3
高考一轮总复习 ·数学[理](经典版)
2.[2018· 桂林模拟]根据如下样本数据: x 3 4 5 6 7 8 -3.0 ) y 4.0 2.5 -0.5 0.5 -2.0 ^ 得到的回归方程为y=bx+a,则( A.a>0,b>0 C.a<0,b>0 B.a>0,b<0 D.a<0,b<0
4
高考一轮总复习 ·数学[理](经典版)
解析 由表中数据画出散点图,如图,
A.有 97.5%以上的把握认为“爱好该项运动与性别有
6
高考一轮总复习 ·数学[理](经典版)
B.有 97.5%以上的把握认为“爱好该项运动与性别无 关” C.在犯错误的概率不超过 5%的前提下,认为“爱好 该项运动与性别有关” D.在犯错误的概率不超过 5%的前提下,认为“爱好 该项运动与性别无关”
12
高考一轮总复习 ·数学[理](经典版)
6. 为了判断高中三年级学生选修文科是否与性别有关, 现随机抽取 50 名学生,得到如图所示 2×2 列联表: 理科 男 女 总计 13 7 20 文科 10 20 30 总计 23 27 50
已知 P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表
高考一轮总复习 ·数学[理](经典版)
板块四 模拟演练· 提能增分
1
高考一轮总复习 ·数学[理](经典版)

高考数学一轮复习第9章算法初步统计与统计案例课件文北师大版

高考数学一轮复习第9章算法初步统计与统计案例课件文北师大版
老师没提了一个问题,同学们就应当立即主动地去思考,积极地寻找答案,然后和老师的解答进行比较。通过超前思考,可以把注意力集中在对这些“难点”的理解 上,保证“好钢用在刀刃上”,从而避免了没有重点的泛泛而听。通过将自己的思考跟老师的讲解做比较,还可以发现自己对新知识理解的不妥之处,及时消除知识 的“隐患”。
3.注重交汇,突出统计思想 强化统计思想方法的应用,注重知识的交汇渗透,如算法框图与数列、统计 与函数、统计图表与概率.复习时善于把握命题新动向,抓住命题的增长点,强 化规范性训练,力争不失分、得满分.
编后语
有的同学听课时容易走神,常常听着听着心思就不知道溜到哪里去了;有的学生,虽然留心听讲,却常常“跟不上步伐”,思维落后在老师的讲解后。这两种情况都 不能达到理想的听课效果。听课最重要的是紧跟老师的思路,否则,教师讲得再好,新知识也无法接受。如何跟上老师饭思路呢?以下的听课方法值得同学们学习:
二、同步听课法
有些同学在听课的过程中常碰到这样的问题,比如老师讲到一道很难的题目时,同学们听课的思路就“卡壳“了,无法再跟上老师的思路。这时候该怎么办呢?
如果“卡壳”的内容是老师讲的某一句话或某一个具体问题,同学们应马上举手提问,争取让老师解释得在透彻些、明白些。
如果“卡壳先承认老师给出的结论(公式或定律)并非继续听下去,先把问题记 下来,到课后再慢慢弄懂它。
精选最新中小学教学课件
8
一、“超前思考,比较听课”
什么叫“超前思考,比较听课”?简单地说,就是同学们在上课的时候不仅要跟着老师的思路走,还要力争走在老师思路的前面,用自己的思路和老师的思路进行对 比,从而发现不同之处,优化思维。
比如在讲《林冲棒打洪教头》一文,老师会提出一些问题,如林冲当时为什么要戴着枷锁?林冲、洪教头是什么关系?林冲为什么要棒打洪教头?••••••

2019版高考数学(文)一轮狂刷练:第9章统计与统计案例9-1a含解析

2019版高考数学(文)一轮狂刷练:第9章统计与统计案例9-1a含解析

[基础送分提速狂刷练]一、选择题1.在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5000名居民的阅读时间的全体是()A.总体B.个体C.样本的容量D.从总体中抽取的一个样本答案A解析5000名居民的阅读时间的全体是总体,每名居民的阅读时间是个体,200是样本容量,故选A.2.将参加英语口语测试的1000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,若第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为()A.700B.669C.695D.676答案C解析由题意可知,第一组随机抽取的编号l=15,分段间隔k=Nn=100050=20,故抽取的第35个编号为15+(35-1)×20=695.故选C.3.某月月底,某商场想通过抽取发票存根的方法估计该月的销售总额.先将该月的全部销售发票的存根进行了编号,1,2,3,…,然后拟采用系统抽样的方法获取一个样本.若从编号为1,2,3,…,10的前10张发票的存根中随机抽取1张,然后再按系统抽样的方法依编号顺序逐次产生第2张、第3张、第4张、……,则抽样中产生的第2张已编号的发票存根,其编号不可能是()A.13B.17C.19D.23答案D解析因为第一组的编号为1,2,3,…,10,所以根据系统抽样的定义可知第二组的编号为11,12,13,…,20,故第2张已编号的发票存根的编号不可能为23.故选D.4.从某500件产品中随机抽取50件进行质检,利用随机数表法抽取样本时,先将这500件产品按001,002,003,…,500进行编号.如果从随机数表的第7行第4列的数2开始,从左往右读数,则依次抽取的第4个个体的编号是()附:随机数表第6行至第8行各数如下:A .217B .245C .421D .206答案D 解析产品的编号为3位号码,故每次读数取3位,第一个三位数为217,依次取出符合条件的号码为157,245,206,故第4个个体编号为206.故选D.5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为()A .7B .9C .10D .15答案C解析由系统抽样的特点,知抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人.故选C.6.(2018·朝阳质检)某工厂有甲、乙、丙、丁四类产品共3000件,且它们的数量成等比数列,现用分层抽样的方法从中抽取150件进行质量检测,其中从乙、丁两类产品中抽取的总数为100件,则甲类产品有()。

高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件

高考数学一轮复习第9章统计与统计案例第3节变量间的相关关系、统计案例课件

附:
P(K2≥k0) 0.100 0.050 0.025 0.010 0.001
A.0.1%
k0 2.706 3.841 5.024 6.635 10.828 B.1%
C.99%
D.99.9%
C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1- 0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg 箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=20100×0×621×006×6-963×4×103482≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
() (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优 秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( ) [答案] (1)× (2)√ (3)√ (4)×
2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近
视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,
关关系,故①正确;由散点图知用y=c1ec2x拟合比用 ^y = b^ x+ ^a 拟合效果要好,
则R
2 1
>R
2 2
,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③
错误.]
[规律方法] 判定两个变量正、负相关性的方法 1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. 2相关系数:r>0时,正相关;r<0时,负相关. 3线性回归方程中: 时,正相关; 时,负相关.

全国版2019版高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案201805092

全国版2019版高考数学一轮复习第9章统计统计案例第3讲变量相关关系与统计案例学案201805092

第3讲 变量相关关系与统计案例板块一 知识梳理·自主学习[必备知识]考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.考点2 回归方程与回归分析 1.线性相关关系与回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定数.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i -x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b ^x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:在具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,x =1n(x 1+…+x n ),y =1n(y 1+…+y n ),a ^=y -b ^x ,(x ,y )称为样本点的中心.(3)相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x )2∑i =1n(y i -y)2,当r >0时,两变量正相关,当r <0时,两变量负相关,当|r |≤1且|r |越接近于1,相关程度越强,当|r |≤1且|r |越接近于0,相关程度越弱.考点3 独立性检验 1.独立性检验的有关概念 (1)分类变量可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量. (2)2×2列联表假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d2利用随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.步骤如下:(1)计算随机变量K 2的观测值k ,查表确定临界值k 0:P(K 2≥k 0)0.5.40 0.25 0.15 0.10 0.05 0.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.879 10.82800则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.[必会结论]1.相关关系与函数关系的异同共同点:二者都是指两个变量间的关系;不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.2.从散点图看相关性正相关:样本点分布在从左下角到右上角的区域内; 负相关:样本点分布在从左上角到右下角的区域内. 3.回归直线y ^=b ^x +a ^必过样本点的中心.[考点自测]1.判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)× (2)√ (3)√ (4)× 2.下面是一个2×2列联表y 1 y 2总计 x 1 a21 73 x 22225 47 合计b46120其中A .94 72 B .52 50 C .52 74 D .74 52 答案 C解析 由a +21=73,得a =52,a +22=b ,得b =74.故选C.3.[课本改编]四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 正相关指的是y 随x 的增大而增大.负相关指的是y 随x 的增大而减小,故不正确的为①④,故选D.4.从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:身高x (cm)160165170175180体重y (kg)6366 70 72 74 根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A .70.09 kgB .70.12 kgC .70.55 kgD .71.05 kg 答案 B解析 x =160+165+170+175+1805=170,y =63+66+70+72+745=69.∵回归直线过点(x ,y ),∴将点(170,69)代入回归直线方程得y ^=0.56x -26.2,代入x =172 cm ,则其体重为70.12 kg.5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算得K 2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).答案 有关解析 K 2>10.828就有99.9%的理由认为两个量是有关的.板块二 典例探究·考向突破 考向线性回归分析例 1 [2018·金华模拟]某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:月份 1 2 3 4 5 6 销售量x (万件) 10 11 13 12 8 6 利润y (万元)2225 29 26 16 12(1)根据2至5月份的数据,求出y 关于x 的回归直线方程y =b x +a ;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的回归直线方程是理想的,试问所得回归直线方程是否理想?参考公式:b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x -2,a ^=y --b ^x -.解 (1)根据表中2至5月份的数据, 计算得x -=11,y -=24,∑5i =2x i y i =11×25+13×29+12×26+8×16=1092,∑5i =2x 2i =112+132+122+82=498, 则b ^=∑5i =2x i y i -4x -y -∑5i =2x 2i -4x -2=1092-4×11×24498-4×112=187, a ^=y --b ^x -=24-187×11=-307.故y 关于x 的回归直线方程为y ^=187x -307.(2)当x =10时,y ^=187×10-307=1507,此时⎪⎪⎪⎪⎪⎪1507-22<2;当x =6时,y ^=187×6-307=787,此时⎪⎪⎪⎪⎪⎪787-12<2.故所得的回归直线方程是理想的. 触类旁通(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.【变式训练1】 PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5浓度的数据如下表:时间 周一周二周三周四周五车流量x (万辆) 100102108114116PM2.5的浓度y (微克/立方米)7880 84889(1)根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若周六同一时间段车流量是200万辆,试根据(1)求出的线性回归方程预测,此时PM2.5的浓度为多少?( 参考公式:b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2,a ^=y -b ^x ;参考数据:∑5i =1x i =540,∑5i =1y i =420 ) 解 (1)由条件可知,x =15∑5i =1x i =5405=108,y =15∑5i =1y i =4205=84, ∑5i =1 (x i -x )(y i -y )=(-8)×(-6)+(-6)×(-4)+0×0+6×4+8×6=144, ∑5i =1(x i -x )2=(-8)2+(-6)2+02+62+82=200.b ^=∑5i =1(x i -x )(y i -y )∑5i =1 (x i -x )2=144200=0.72, a ^=y -b ^x =84-0.72×108=6.24,故y 关于x 的线性回归方程为y ^=0.72x +6.24.(2)当x =200时,y ^=0.72×200+6.24=150.24,所以可以预测此时PM2.5的浓度约为150.24微克/立方米.考向两个变量的相关性命题角度1 相关关系的判断例 2 对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3答案 A解析易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.命题角度2 相关系数的意义例 3 [2017·全国卷Ⅰ]为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x=116∑i=116x i=9.97,s=116∑i=116(x i-x)2=116(∑i=116x2i-16x2)≈0.212,∑i=116(i-8.5)2≈18.439,∑i=116(x i-x-)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)(1)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(x--3s,x-+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i,y i)(i=1,2,…,n)的相关系数r=∑i=1n(x i-x-)(y i-y-)∑i=1n(x i-x)2∑i=1n(y i-y-)2.0.008≈0.09.解(1)由样本数据得(x i,i)(i=1,2,…,16)的相关系数r=∑i=116(x i-x-)(i-8.5)∑i=116(x i-x-)2∑i=116(i-8.5)2≈-2.780.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)(ⅰ)由于x-=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(x--3s,x-+3s)以外,因此需对当天的生产过程进行检查.(ⅱ)剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑i=116x2i≈16×0.2122+16×9.972≈1591.134,剔除第13个数据,剩下数据的样本方差为115(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.考向独立性检验例 4 [2017·全国卷Ⅱ]海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法0.01).附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A的概率估计值为0.62×0.66=0.4092.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法6238新养殖法34 66K 2=100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).触类旁通利用统计量K 2进行独立性检验的步骤(1)根据数据列出2×2列联表; (2)根据公式计算K 2找观测值k ;(3)比较观测值k 与临界值表中相应的检验水平,作出统计推断.【变式训练2】 某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?选择自然科学类选择社会科学类合计男生 女生 合计附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P(K 2≥k 0)0.50.40 0.25 0.15 0.10 0.05 0.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.879 10.828解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为180=12.(2)根据统计数据,可得2×2列联表如下:选择自然科学类选择社会科学类合计 男生 60 45 105 女生 30 45 75 合计9090180∴K 2=2105×75×90×90=7≈5.1429>5.024.∴在犯错误的概率不超过0.025的前提下可以认为科类的选择与性别有关.核心规律1.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b ^,常数项为a ^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法,主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.3.根据K 2的值可以判断两个分类变量有关的可信程度,并用来指导科研和生活实际. 满分策略1.相关关系与函数关系的区别相关关系与函数关系不同,函数关系中的两个变量间是一种确定性关系.例如正方形面积S 与边长x 之间的关系S =x 2就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如商品的销售额与广告费是相关关系.两个变量具有相关关系是回归分析的前提.2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.板块三 启智培优·破译高考数学思想系列10———线性回归中的函数思想[2015·全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x -错误错∑8i =1(x i-x -)2∑8i =1(w i-w -)2∑8i =1(x i-x -)(y i -y -)∑8i =1(w i-w -)(y i -y -)46.65636.8289.8 1.61469108.8表中w i =x i ,w -=8∑i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u -)(v i -v -)∑ni =1(u i -u -)2,α^=v --β^u -. 解题视点 求解第(1)问时,利用散点图结合学过的函数图象直接判断即可.求解第(2)问时,根据题目提供的数据及公式求出相关量,就可写出回归方程.求解第(3)问中的第一小问时,把x =49直接代入回归方程求解出y 的预报值,再代入年利润z 与x ,y 的关系式求解即可;求解第二小问时,把y 与x 的关系式代入年利润z 与x ,y 的关系式,将z 转化为关于x 的二次函数求最值即可.解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1 (w i -w -)(y i -y -)∑8i =1 (w i -w -)2=108.81.6=68, c ^=y --d ^w -=563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6,年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.答题启示 利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.解决此类问题的步骤为:(1)将表中的各对数据在平面直角坐标系中描点,得到散点图;(2)按求回归方程的步骤和公式,写出回归方程;(3)利用回归方程进行分析,分析中注意函数思想的应用.跟踪训练某品牌2017款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S 店分别进行了两天试销售,得到如下数据:(1)分别以五家4S 店的平均单价与平均销量为散点,求出单价与销量的回归直线方程y ^=b ^x +a ^;(2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)?附:b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 解 (1)五家4S 店的平均单价和平均销量分别为(18.3,83),(18.5,80),(18.7,74),(18.4,80),(18.6,78),∴x -=18.3+18.5+18.7+18.4+18.65=18.5,y -=83+80+74+80+785=79,∴b ^=-0.2×4+0×1+0.2×(-5)+(-0.1)×1+0.1×(-1)0.04+0+0.04+0.01+0.01=-20.1=-20.∴a ^=y --b ^x -=79-(-20)×18.5=79+370=449, ∴y ^=-20x +449.(2)设该款汽车的单价应为x 万元, 则利润f (x )=(x -12)(-20x +449) =-20x 2+689x -5388,f ′(x )=-40x +689,令-40x +689=0,解得x ≈17.2,故当x ≈17.2时,f (x )取得最大值.∴要使该款汽车获得最大利润,该款汽车的单价约为17.2万元.板块四 模拟演练·提能增分[A 级 基础达标]1.[2018·湖北模拟]已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 答案 C解析 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.2.[2018·桂林模拟]根据如下样本数据:x 3 4 5 6 7 8 y4.2.5-0.50.5-2.0-3.0得到的回归方程为y =bx +a ,则( ) A .a >0,b >0 B .a >0,b <0C .a <0,b >0D .a <0,b <0答案 B解析 由表中数据画出散点图,如图,由散点图可知b <0,a >0.3.通过随机询问200名性别不同的大学生是否爱好踢键子运动,计算得到统计量K 2的观测值k ≈4.892,参照附表,得到的正确结论是( )P (K 2≥k )0.10 0.05 0.025 k2.7063.8415.024A B .有97.5%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关” 答案 C解析 因为K 2的观测值k ≈4.892>3.841,所以有95%以上的把握认为“爱好该项运动与性别有关”.4.[2018·洛阳模拟]为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=bx +a 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值 答案 B解析 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y =x 的斜率要小一些,综上可知应选B.5.某产品的广告费用x (单位:万元)与销售额y (单位:万元)的统计数据如下表:广告费用x 4 2 3 5 销售额y49263954根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 答案 B解析 x =4+2+3+54=3.5,y =49+26+39+544=42.因为回归直线过点(x ,y ),所以42=9.4×3.5+a ^,解得a ^=9.1.故回归方程为y ^=9.4x +9.1.所以当x =6时,y ^=6×9.4+9.1=65.5.6.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:理科 文科 总计 男 13 10 23 女 7 20 27 总计203050已知P (k =50×(13×20-10×7)223×27×20×30≈4.844,则有________的把握认为选修文科与性别有关.答案 95%解析 由题意知,k =50×(13×20-10×7)223×27×20×30≈4.844,因为 5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.7.[2018·沧州七校联考]某单位为了制定节能减排的计划,随机统计了某4天的用电量y (单位:度)与当天气温x (单位:℃),并制作了对照表(如表所示).由表中数据,得线性回归方程y ^=-2x +a ^,当某天的气温为-5 ℃时,预测当天的用电量约为________度.x 18 13 10 -1 y24343864答案 解析 气温的平均值x -=14×(18+13+10-1)=10,用电量的平均值y -=14×(24+34+38+64)=40,因为回归直线必经过点(x -,y -),将其代入线性回归方程得40=-2×10+a ^,解得a ^=60,故回归方程为y ^=-2x +60.当x =-5时,y ^=(-2)×(-5)+60=70,所以当某天的气温为-5 ℃时,预测当天的用电量约为70度.8.已知x ,y 之间的一组数据如下表:x 2 3 4 5 6 y34689对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =5x -5;④y =32x .则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).答案 ③解析 由题意知x -=4,y -=6,∴b ^=∑5i =1 (x i -x -)(y i -y -)∑5i =1(x i -x -)2=85,∴a ^=y --b ^x -=-25,∴y ^=85x -25,∴填③. 9.由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.(1)求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; (2)①判断变量x 与y 之间是正相关还是负相关; ②当使用年限为8年时,试估计支出的维修费是多少. 解 (1)∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2.(2)①由(1)知b ^=1.2>0,∴变量x 与y 之间是正相关.②由(1)知,当x =8时,y ^=9.8,即使用年限为8年时,支出的维修费约是9.8万元. 10.[2018·聊城模拟]在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.(1)求a 的值,并计算所抽取样本的平均值x -(同一组中的数据用该组区间的中点值作代表);(2)填写下面的2×2列联表,并判断能否有超过95%的把握认为“获奖与学生的文、理科有关”?文科生 理科生 合计 获奖 5 不获奖合计200K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828x -=45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69.(2)2×2列联表如下:文科生 理科生 合计 获奖 5 35 40 不获奖 45 115 160 合计50150200因为K 2=40×160×50×150=6≈4.167>3.841,所以有超过95%的把握认为“获奖与学生的文、理科有关”.[B 级 知能提升]1.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6.则实数a ^的值是( )A.116 B.18 C.14 D.12答案 B解析 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18.2.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀 非优秀 总计 甲班 10b乙班 c30 总计105已知在全部105人中随机抽取1人,成绩优秀的概率为7,则下列说法正确的是( )参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案 C解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A ,B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”,选项C 正确.3.[2018·赣州模拟]在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i =21,则实数b 的值为________. 答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 4.某校开展“翻转合作学习法”教学试验,经过一年的实践后,对“翻转班”和“对照班”的220名学生的数学学习情况进行测试,按照大于或等于120分为“成绩优秀”,120分以下为“成绩一般”统计,得到如下的2×2列联表:成绩优秀 成绩一般 合计 对照班 20 90 110 翻转班 40 70 110 合计60160220秀与翻转合作学习法”有关;(2)为了交流学习方法,从这次测试数学成绩优秀的学生中,用分层抽样的方法抽出6名学生,再从这6名学生中抽出3名交流学习方法,求至少抽到一名“对照班”学生的概率.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828解 (1)K 2=60×160×110×110=6≈9.167<10.828,∴在犯错误的概率不超过0.001的前提下,不能认为“成绩优秀与翻转合作学习法”有关.(2)设从“翻转班”中抽取x 人,从“对照班”中抽取y 人,由分层抽样的定义可知660=x 40=y20,解得x =4,y =2. 在这6名学生中,设“对照班”的2名学生分别为A 1,A 2,“翻转班”的4名学生分别为B 1,B 2,B 3,B 4.则所有的抽样情况如下,{A 1,A 2,B 1},{A 1,A 2,B 2},{A 1,A 2,B 3},{A 1,A 2,B 4}, {A 1,B 1,B 2},{A 1,B 1,B 3},{A 1,B 1,B 4},{A 1,B 2,B 3}, {A 1,B 2,B 4},{A 1,B 3,B 4},{A 2,B 1,B 2},{A 2,B 1,B 3}, {A 2,B 1,B 4},{A 2,B 2,B 3},{A 2,B 2,B 4},{A 2,B 3,B 4}, {B 1,B 2,B 3},{B 1,B 2,B 4},{B 1,B 3,B 4},{B 2,B 3,B 4}, 共20种.其中至少有一名“对照班”学生的情况有16种.记事件A 为至少抽到一名“对照班”学生交流学习方法,则P (A )=1620=45=0.8.5.[2018·太原模拟]假设关于某种设备的使用年限x (年)与所支出的维修费用y (万元)百度文库 - 让每个人平等地提升自我21 有如以下的统计数据: x (年)2 3 4 5 6 y (万元)2.23.8 5.5 6.5 7.0 已知∑i =1x 2i =90,∑i =1y 2i =140.8,∑i =1x i y i =112.3,79≈8.9,2≈1.4. (1)求x -,y -;(2)对x ,y 进行线性相关性检验;(3)如果x 与y 具有线性相关关系,求出回归直线方程;(4)估计使用年限为10年时,维修费用约是多少?解 (1)x -=2+3+4+5+65=4, y -=2.2+3.8+5.5+6.5+7.05=5. (2)因为∑5i =1x i y i -5x -y -=112.3-5×4×5=12.3, ∑5i =1x 2i -5x -2=90-5×16=10, ∑5i =1y 2i -5y -2=140.8-125=15.8, 所以r =12.310×15.8=12.3158≈0.987. 因为0.987>0.75,所以x 与y 之间具有很强的线性相关关系. (3)因为b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=12.310=1.23,a ^=y --b ^x -=5-1.23×4=0.08,所以所求的回归直线方程为y ^=1.23x +0.08.(4)当x =10时,y ^=1.23×10+0.08=12.38,即估计使用年限为10年时,维修费用约为12.38万元.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3节变量的相关性与统计案例
基础巩固(时间:30分钟)
1.观察下列散点图,其中两个变量的相关关系判断正确的是( D )
(A)a为正相关,b为负相关,c为不相关
(B)a为负相关,b为不相关,c为正相关
(C)a为负相关,b为正相关,c为不相关
(D)a为正相关,b为不相关,c为负相关
解析:根据散点图,由相关性可知:
图a各点散布在从左下角到右上角的区域里,是正相关;
图b中各点分布不成带状,相关性不明确,所以不相关;
图c中各点分布在从左上方到右下方的区域里,是负相关.故选D.
2.通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量K2的观测值
(A)有97.5%以上的把握认为“爱好该项运动与性别有关”
(B)有97.5%以上的把握认为“爱好该项运动与性别无关”
(C)在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”
(D)在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”
解析:因为K2的观测值k≈4.892>3.841,所以有95%以上的把握认为“爱好该项运动与性别有关”.故选C.
得到的回归方程为=bx+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,y就( B ) (A)增加1.4个单位(B)减少1.4个单位
(C)增加7.9个单位(D)减少7.9个单位
解析:依题意得=0.9,故a+b=6.5, ①
又样本点的中心为(5,0.9),故0.9=5b+a, ②
联立①②,解得b=-1.4,a=7.9,则=-1.4x+7.9,可知当x每增加1个单位时,y就减少1.4个单位.故选B.
4.(2017·山东济宁市一模)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如表所示:
由表可得回归直线方程=x+中的=-4,据此模型预测零售价为20元时,每天的销售量为( D )
(A)26个 (B)27个(C)28个(D)29个
解析: ==17.5,
==39.
将(,)代入回归方程得39=-4×17.5+,
解得=109.
所以回归方程为=-4x+109.
当x=20时, =-4×20+109=29.故选D.
(A)a=45,c=15 (B)a=40,c=20
(C)a=35,c=25 (D)a=30,c=30
解析:当与相差越大,X与Y有关系的可能性越大,即a,c相差越大,与
相差越大.故选A.
6.(2017·延边州仿真)某公司在2013~2017年的收入与支出情况如表所示:
根据表中数据可得回归直线方程为=0.8x+,依此估计如果2018年该公司收入为7亿元时的支出为( B )
(A)4.5亿元(B)4.4亿元(C)4.3亿元(D)4.2亿元
解析: =×(2.2+2.6+4.0+5.3+5.9)=4, =×(0.2+1.5+2.0+2.5
+3.8)=2,
所以=2-0.8×4=-1.2,所以回归直线方程为=0.8x-1.2,
当x=7时, =0.8×7-1.2=4.4(亿元),即2018年该公司收入为7亿元时的支出为4.4亿元.
故选B.
7.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如
则在犯错误的概率不超过的前提下认为喜爱打篮球与性别有关(请用百分数表示).
解析:K2==≈8.333>7.879.
答案:0.5%
8.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为cm.
解析:儿子和父亲的身高可列表如下:
设回归直线方程=+x,由表中的三组数据可求得=1,故=-=
176-173=3,故回归直线方程为=3+x,将x=182代入得孙子的身高为185 cm.
答案:185
能力提升(时间:15分钟)
9.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约
(A)0.1% (B)1% (C)99% (D)99.9%
2
所以有99%的把握说喜欢乡村音乐与学生性别有关系.故选C.
10.(2017·河南濮阳市一模)在利用最小二乘法求回归方程=0.67x+54.9时,用到了表中的5
解析:由题意可得= (10+20+30+40+50)=30,
= (62+a+75+81+89),
因为回归直线=0.67x+54.9过样本点的中心,
所以 (a+307)=0.67×30+54.9,解得a=68.故选A.
11.(2016·福建省高中毕业班质检)某公司为了增加其商品的销售利润,调查了该商品投入
由表中数据,得线性回归方程=x+ (=,=-),则下列结论错误的是( D )
(A) >0 (B) >0
(C)直线过点(4,8) (D)直线过点(2,5)
解析:变量x,y为正相关,故>0,结合散点图(图略)可知, >0,样本点的中心为(4,8),故直线过点(4,8),只能是选项D中的结论错误.
12.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所
已知P(K≥3.841)≈0.05,P(K≥5.024)≈0.025.根据表中数据,得到K的观测值
k=≈4.844,则有的把握认为选修文科与性别有关.
解析:由题意知,K2=≈4.844,
因为5.024>4.844>3.841,
所以有95%的把握认为选修文科与性别有关.
答案:95%
(1)若某企业每天由空气污染造成的经济损失S(单位:元)与空气质量指数AQI(记为ω)的
关系式为S=试估计在本年内随机抽取一天,该天经济损失S大于400元且不超过700元的概率;
(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?
附:
K2=
解:(1)记“在本年内随机抽取一天,该天经济损失S大于400元且不超过700元”为事件A. 由400<S≤700,即400<3ω-200≤700,解得200<ω≤300,其满足条件天数为20.所以
P(A)==.
(2)根据题目数据得到如下列联表:
K2=≈4.575>3.841,所以有95%的把握认为该市本年空气重度污染与供暖有关.
14. (2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(x i-)2(w i-)2(x i-)(y i-) (w i-)(y i-)
表中w i=,=w i,
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二
乘估计分别为=,=-.
解:(1)由题目散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68. (3)①由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.。

相关文档
最新文档