10.3 变量间的相关关系与统计案例(课时测试)-2017届高三数学(文)一轮复习(解析版)
高三数学(文)一轮复习课件:变量间的相关关系、统计案例
某商品销售量 y(件)与销售价格 x(元/件)负相关,
则其回归方程可能是( )
A. yˆ 10x 200
B. yˆ 10x 200
C. yˆ 10x 200
D. yˆ 10x 200
【解析】 ∵商品销售量 y(件)与销售价格 x(元/件)负相 关,∴a<0,排除 B,D.又∵x=0 时,y>0 ,∴排除 C,答案为 A. 【答案】 A
10.3 变量间的相关关系、统计案例
1.两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于 两个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从 左上角 到 右下角 的区域,对于 两个变量的这种相关关系,我们将它称为负相关.
2/18/2020
和b为模型的_未__知__参__数___,_e__称为随机误差.
2/18/2020
(4)相关系数
n
xi- x yi- y
i=1
n
n
xi- x 2 yi- y 2
i=1
i=1
①r=____________________________;
②当r>0时,表明两个变量__正__相__关__; 当r<0时,表明两个变量__负__相___关__.
2/18/2020
有甲、乙两个班级进行数学考试,按照大于等于 85 分为优秀,85
分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
总计
甲班
10
乙班
30
合计 105
已知从全部 105 人中随机抽取 1 人为优秀的概率为 2 . 7
(1)请完成上面的列联表;
高考一轮复习课时作业(人教版):10-3变量间的相关关系与统计案例word版含答案
10-3变量间的相关关系与统计案例A级基础达标演练(时间:40分钟满分:60分)一、选择题(每小题5分,共25分)1.下列两个变量之间的关系是相关关系的是().A.正方体的棱长与体积B.单位面积的产量为常数时,土地面积与总产量C.日照时间与水稻的亩产量D.电压一定时,电流与电阻解析A、B、D中两个变量间的关系都是确定的,所以是函数关系;C中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产量,故选C.答案 C2.(2012·石家庄调研)下列结论正确的是().①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④解析由回归分析的方法及概念判断.答案 C3.(2011·莱芜二模)在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是().A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有解析统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.答案 D4.(2011·陕西)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是().A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同解析由样本的中心(x,y)落在回归直线上可知A正确;x和y的相关系数表示为x与y之间的线性相关程度,不表示直线l的斜率,故B错;x和y的相关系数应在-1到1之间,故C错;分布在回归直线两侧的样本点的个数并不绝对平均,即无论样本点个数是奇数还是偶数,故D错.答案 A5.(2011·山东)某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时销售额为().A.63.6万元 B.65.5万元C.67.7万元 D.72.0万元解析x=4+2+3+54=3.5(万元),y=49+26+39+544=42(万元),∴a^=y -b ^x =42-9.4×3.5=9.1, ∴回归方程为y ^=9.4x +9.1,∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元). 答案 B二、填空题(每小题4分,共12分) 6.已知x 、y 的取值如下表:从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a =________. 解析 因为回归方程必过样本点的中心(x ,y ),解得x =2,y =4.5,将(2,4.5)代入y ^=0.95x +a 可得a =2.6. 答案 2.67.某高校“初步统计”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:K 2=50×(13×20-10×7)223×27×20×30≈4.844,因为K 2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________. 答案 5%8.(2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析 由题意,知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元.答案0.254三、解答题(共23分)9.(11分)(2012·天津模拟)在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:解以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.10.(12分)某种产品的广告费支出x与消费额y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)预测当广告费支出为700万元时的销售额.解(1)散点图如图所示.(3)当x =7(百万元)时,y =6.5×7+17.5=63(百万元). ∴当广告费支出7百万元时,销售额约为63百万元.B 级(时间:30分钟 满分:40分)一、选择题(每小题5分,共10分)1.(2011·合肥二检)已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y ^=bx +a ,则“(x 0,y 0)满足线性回归方程y ^=bx +a ”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( ).A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件解析 x 0,y 0为这10组数据的平均值,又因为线性回归方程y ^=bx +a 必过样本中心(x ,y ),因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点. 答案 B2.在第29届奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居世界金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力( ).A .平均数与方差B .回归直线方程C .独立性检验D .概率解析 由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求,故用独立性检验最有说服力. 答案 C二、填空题(每小题4分,共8分)3.(2011·东北四校联考(二))某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =bx +a 中的b ≈-2,预测当气温为-5 ℃时,热茶销售量为________杯(已知回归系数解析 根据表格中的数据可求得x =14×(18+13+10-1)=10,y =14×(24+34+38+64)=40(杯).∴a =y -b x =40-(-2)×10=60, ∴y ^=-2x +60,当x =-5时, y ^=-2×(-5)+60=70(杯). 答案 704.(2012·石家庄模拟)某医疗研究所为了了解某种血清预防感冒的作用,把500名使用过血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.解析因为K2≈3.918≥3.841,而P(K2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.答案①三、解答题(共22分)5.(10分)(2012·佛山模拟)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.已知从全部105人中随机抽取1人为优秀的概率为2 7.(1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”;(3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率.附K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解(1)(2)k =105×(10×30-20×45)255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6号或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y ),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个. 事件A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,∴P (A )=836=29.6.(12分)(2010·辽宁)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B.表1和表2分别是注射药物A 和药物B 后的试验结果(疱疹面积单位:mm 2).表1:注射药物A 后皮肤疱疹面积的频数分布表表2注射药物A 后皮肤疱疹面积的频率分布直方图注射药物B 后皮肤疱疹面积的频率分布直方图(2)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:解 (1)注射药物A 后皮肤疱疹面积的频率分布直方图注射药物B 后皮肤疱疹面积的频率分布直方图可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药物B 后疱疹面积的中位数. (2)表3:K 2=200100×100×105×95≈24.56.由于K 2>6.635,所以有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.。
高三数学一轮复习 10-3变量间的相关关系、统计案例学案
例4.(2010年新课标)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(Ⅰ)估计该地区 老年人中,需要志愿提供帮助的老年人的比例;
(Ⅱ)能否有99℅的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
总计
总计
若要推断的论述为Hl:X与Y有关系,可以按如下步骤判断结论Hl成立的可能性:根据观测数据计算由公式 所给出的检验随机变量的 观测值k,并且k的值越大,说明“X与Y有关系”成立的可能性越大,利用以下数据来确定“X与Y有关系”的可信程度,
如果 ,就有_______的把握认为“ 与 有关系”;
如果 ,就有99%的把握认为“ 与 有关系”;
月平均气温x(℃)
17
13
33
40
55
9.春节期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
10
10.5
11
销售量y
11
10
8
6
5
通过分析,发现销售量 y与商品的价格x具有相关关系 ,则销售量y关于商品的价格x的回归直线方程为_____________________。
x
0
1
2
3
y
1
3
5
7
( D)以上说法都不对
2.已知x与y之间的一组数据如右表:则x与y的线性回归直线 必过点
(A)(2,2)(B)(1.5,0)(C)(1,2)(D)(1.5,4)
习题-变量间的相关关系、统计案例
10.3 变量间的相关关系、统计案例基础篇 固本夯基考点一 变量间的相关关系1.(2022届陕西宝鸡期末,4)下列两个变量具有相关关系的是( ) A.正方体的体积与棱长 B.汽车匀速行驶时的路程与时间 C.人的体重与饭量 D.人的身高与视力 答案 C2.(2021西南名校联盟联考,3)已知甲、乙、丙、丁四组数据变量间对应的线性相关系数分别为0.46,0.79, -0.92,0.85,则( )A.甲组数据变量间的线性相关程度最强B.乙组数据变量间的线性相关程度最弱C.丙组数据变量间的线性相关程度最强D.丁组数据变量间的线性相关程度最强 答案 C3.(2020陕西铜川二模,5)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x-6.423; ②y 与x 负相关且y ^=-3.476x+5.648; ③y 与x 正相关且y ^=5.437x+8.493; ④y 与x 正相关且y ^=-4.326x-4.578. 其中不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ 答案 D4.(2020陕西榆林三模,3)如图所示,给出了样本容量均为7的A,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组样本数据的相关系数为r 2,则( )A.r 1=r 2B.r 1<r 2C.r 1>r 2D.无法判定 答案 C5.(2022届四川资阳一诊,4)我国在2020年如期完成了新时代脱贫攻坚目标任务,脱贫攻坚战取得全面胜利,历史性地解决了绝对贫困问题,并全面建成了小康社会.现就2013—2019 年年末全国农村贫困人口数进行了统计,制成如下散点图:据此散点图,下面 4个回归方程类型中最适宜作为年末贫困人口数y 和年份代码x 的回归方程类型的是( )A.y=a+bxB.y=a+bx C.y=a+be x D.y=a+bln x 答案 A6.(2022届四川绵阳阶段测试,3)某市物价部门对5家商场的某商品一天的销售量及其价格进行了调查,5家商场的价格x(元)和销售量y(件)之间的一组数据如表所示:价格x(元) 9 9.5 10 10.5 11 销售量y(件)1110865按公式计算,y 与x 的回归直线方程是y ^=-3.2x+a ^,相关系数|r|=0.992,则下列说法错误的是( ) A.变量x,y 线性负相关且相关性较强 B.a ^=40C.当x=8.5时,y 的估计值为12.8D.相应于点(10.5,6)的残差为0.4 答案 D7.(2020兰州一诊,7)近五年来某草场羊只数与草场植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示.年份 1 2 3 4 5 羊只数(万只) 1.4 0.9 0.750.60.3 草场植被指数1.14.315.6 31.349.7根据表及图得到以下判断:①羊只数与草场植被指数成减函数关系;②若利用这五组数据得到的两变量间的相关系数为r 1,去掉第一年数据后得到的相关系数为r 2,则|r 1|<|r 2|; ③可以利用回归直线方程,准确地得到当羊只数为2万只时的草场植被指数. 以上判断中正确的个数是( )A.0B.1C.2D.3 答案 B8.(2020课标Ⅱ,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i=1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i=120x i =60,∑i=120y i =1 200,∑i=120(x i -x )2=80,∑i=120(y i -y )2=9 000,∑i=120(x i -x)(y i -y)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);(2)求样本(x i ,y i )(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由. 附:相关系数 r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2,√2≈1.414.解析(1)由已知得样本平均数y =120∑i=120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i=1,2,…,20)的相关系数 r=∑i=120(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i-y)2=√80×9 000=2√23≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.考点二 独立性检验1.(2022届黑龙江月考,8)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则K 2的观测值可能为( )P(K 2≥k 0) 0.10 0.05 0.025 0.010 0.0050.001k0 2.706 3.841 5.024 6.6357.87910.828A.K2=3.206B.K2=6.625C.K2=7.869D.K2=11.208答案C2.(2022届山西运城期中,7)为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验.根据四个实验室得到的列联表画出如下四个等高堆积条形图,最能体现该药物对预防禽流感有显著效果的图形是()答案D3.(2020宁夏石嘴山二模,4)通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到K2的观测值k≈4.892,参照下表,得到的正确结论是()P(K2≥k0)0.100.050.025k0 2.706 3.841 5.024A.有97.5%以上的把握认为“爱好该项运动与性别有关”B.有97.5%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”答案C4.(2021四川南充阆中中学4月质检,6)若由一个2×2列联表中的数据计算得K2=4.013,那么有的把握认为两个变量有关系.()P(K2≥k0)0.150.100.050.0250.0100.0050.001k0 2.0722.7063.8415.0246.6357.87910.828A.95%B.97.5%C.99%D.99.9%答案A5.(2021安徽黄山二模,7)给出下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于0,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1; ③两个模型中残差平方和越小的模型拟合的效果越好;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大. 其中正确命题的个数是( )A.1B.2C.3D.4 答案 C6.(2022届河南焦作模拟,17)第32届夏季奥运会于2021年7月23日至8月8日在日本举行,为了解某校学生对奥运会是否关注,随机调查了该校200名学生,统计结果如表:关注 不关注 合计 女生 34 51 85 男生 66 49 115 合计100100200(1)分别估计该校女生和男生关注奥运会的概率;(2)能否有99%的把握认为该校女生和男生对奥运会的关注度有差异? 参考公式及数据: K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.050 0.010 0.001k3.8416.635 10.828解析 (1)估计该校女生关注奥运会的概率约为3485=25;男生关注奥运会的概率约为66115. (2)由题表中数据可知K2=200×(34×49-66×51)2100×100×85×115=13623≈5.913. 因为5.913<6.635,故没有99%的把握认为该校女生和男生对奥运会的关注度有差异.7.(2022届昆明质检,17)“微信运动”是手机APP 推出的多款健康运动软件中的一款,某学校140名教师均在微信好友群中参与了“微信运动”,对运动10 000步或以上的教师授予“运动达人”称号,低于10 000步称为“参与者”.为了解教师们的运动情况,选取了教师们在某日的运动数据进行分析,统计结果如下:运动达人 参与者 合计 男教师 60 20 80 女教师 40 20 60 合计10040140(1)根据上表说明,能否在犯错误概率不超过0.05的前提下认为获得“运动达人”称号与性别有关; (2)从获得“运动达人”称号的教师中采用按性别分层抽样的方法选取5人参加全国第四届“万步有约”全国健走激励大赛某赛区的活动,若从选取的5人中随机抽取2人作为代表参加开幕式,求抽取的2人都为女教师的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.050 0.0100.001k 03.8416.635 10.828解析 (1)∵K2=140×(60×20-40×20)280×60×100×40≈1.167<3.841,∴不能在犯错误的概率不超过0.05的前提下认为获得“运动达人”称号与性别有关.(2)根据分层抽样方法得:参赛的男教师有60100×5=3人,参赛的女教师有40100×5=2人,抽取的男教师记为A,B,C;女教师记为a,b.从抽取的这五名教师中随机选取2名,有AB,AC,Aa,Ab,BC,Ba,Bb,Ca,Cb,ab 共10种选法,其中2人都是女教师的选法有ab 一种,故抽取的2人都为女教师的概率P=110.8.(2019课标Ⅰ,17,12分)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).P(K 2≥k)0.050 0.010 0.001 k3.8416.63510.828.解析 (1)由调查数据,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6. (2)K2=100×(40×20-10×30)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.综合篇 知能转换考法一 线性回归方程的求解与应用1.(2022届四川模拟,8)已知回归直线的斜率的估计值为1.23,样本点的中心为(5,6),则回归直线方程为( ) A.y ^=-0.15x+1.23 B.y ^=-2.38x+1.23C.y ^=1.23x-2.38 D.y ^=1.23x-0.15 答案 D2.(2022届哈尔滨模拟,10)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间具有线性相关关系,利用下表中的五组数据求得回归直线方程为y ^=b ^x+a ^,根据该回归方程,预测当x=8时,y ^=84.8,则b ^=( )x23456y 25 37 50 56 64A.9.4B.9.5C.9.6D.9.8 答案 C3.(2021甘肃二模,7)某地以“绿水青山就是金山银山”理念为引导,推进绿色发展,现要订购一批苗木,苗木长度与售价如下表:苗木长度x(厘米) 38 485868 7888 售价y(元)16.8 18.8 20.8 22.8 2425.8由表可知,苗木长度x(厘米)与售价y(元)之间存在线性相关关系,回归方程为y ^=0.2x+a ^,则当苗木长度为150厘米时,售价大约为( ) A.33.3元 B.35.5元 C.38.9元 D.41.5元 答案 C4.(2021西安中学二模,4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x-85.71. ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg; ④若该大学某女生身高为170 cm,则其体重必为58.79 kg. 则上述判断不正确的个数是( ) A.1 B.2 C.3 D.4 答案 A5.(2020中原名校质量考评,7)根据最小二乘法,由一组样本数据(x i ,y i )(其中i=1,2,…,300)求得的回归方程是y ^=b ^x+a ^,则下列说法正确的是( )A.至少有一个样本点落在回归直线y ^=b ^x+a ^上B.若所有样本点都在回归直线y ^=b ^x+a ^上,则变量间的相关系数为1 C.对所有的解释变量x i (i=1,2,…,300),b ^x i +a ^的值一定与y i 有误差 D.若回归直线y ^=b ^x+a ^的斜率b ^>0,则变量x 与y 正相关 答案 D6.(2021江西八校4月联考,14)如图,根据已知的散点图得到y 关于x 的线性回归方程为y ^=b ^x+0.2,则b ^= .答案 1.67.(2022届江西顶级名校调研,18)根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作.某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用.自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种新冠疫苗的情况如下表:第x 天 1 2 3 4 5 新接种人数y1015192328(1)建立y 关于x 的线性回归方程;(2)假设全村共计2 000名居民(均未接种过新冠疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天.参考公式:回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i=1nx i y i -nxy ∑i=1nx i 2-nx2,a ^=y -b ^x .解析 (1)x =1+2+3+4+55=3,y =10+15+19+23+285=19,则b ^=10+30+57+92+140-5×3×1912+22+32+42+52-5×32=225,a ^=19-225×3=295,故y 关于x 的线性回归方程为y ^=225x+295.(2)设a n =225n+295,数列{a n }的前n 项和为S n ,易知数列{a n }是等差数列, 则S n =n(a 1+a n )2=n (225+295+225n+295)2=115n 2+8n,因为S 6=127.2,S 7=163.8,所以10S 6=1 272,10S 7=1 638,又2 000×80%=1 600(人),所以预测该村80%居民接种新冠疫苗需要7天.8.(2021广西贵港港北模拟,17)某个体服装店经营各种服装,在某周内获纯利润y(元)与该周每天销售这种服装件数x 之间的一组数据关系如下表:x 3456789y66 69 73 81 89 90 91(1)求x ,y ;(2)若y 与x 线性相关,请求纯利润y(元)与每天销售件数x 的回归直线方程. 参考数据及公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y ∑i=1nx i2-nx 2,a ^=y -b ^x ,∑i=17x i 2=280,∑i=17x i y i =3 487. 解析 (1)x =17×(3+4+5+6+7+8+9)=6,y =17×(66+69+73+81+89+90+91)=5597. (2)设回归直线方程为y ^=b ^x+a ^.∵∑i=17x i 2=280,∑i=17x i y i =3 487,∴b ^=3 487-7×6×5597280-7×36=13328=4.75,a ^=5597-6×4.75≈51.36.∴回归直线方程为y ^=4.75x+51.36.9.(2021成都郫都模拟,18)某人统计了近5年某网站“双11”当天的交易额,统计结果如下表:年份 2015 2016 2017 2018 2019 年份代码x 1 2 3 4 5 交易额y/百亿元912172126(1)请根据上表提供的数据,用相关系数r 说明y 与x 的线性关系的强弱(线性相关系数保留三位小数);(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值x i ,变量y 的观测值为y i (1≤i ≤n),则两个变量的相关系数的计算公式为r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2.统计学认为,对于变量x,y,如果r ∈[-1,-0.75],那么负相关很强;如果r ∈[0.75,1],那么正相关很强;如果r ∈(-0.75,-0.30]或r ∈[0.30,0.75),那么相关性一般;如果r ∈[-0.25,0.25],那么相关性较弱)(2)求出y 关于x 的线性回归方程,并预测2020年该网站“双11”当天的交易额. 参考公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x ,参考数据:√1 860≈43.1.解析 (1)根据题表中的数据,可得x =15×(1+2+3+4+5)=3,y =15×(9+12+17+21+26)=17, 则∑i=15(x i -x )(y i -y )=(1-3)×(9-17)+…+(5-3)×(26-17)=43;√∑i=15(x i -x)2∑i=15(y i -y)2=√10×186≈43.1,所以r=∑i=15(x i -x)(y -y)√∑i=15(x i -x)2∑i=15(y i-y)2=4343.1≈0.998,所以变量y 与x 的线性相关性很强. (2)由(1)可得x =3,y =17,∑i=15(x i -x )(y i -y )=43,∑i=15(x i -x )2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,所以b ^=∑i=15(x i -x)(y i -y)∑i=15(x i -x)2=4310=4.3,则a ^=y -b ^x =17-4.3×3=4.1.所以y 关于x 的线性回归方程为y ^=4.3x+4.1.令x=6,可得y ^=4.3×6+4.1=29.9,故预测2020年该网站“双11”当天的交易额为29.9百亿元.思路分析 (1)利用已知条件求解相关系数,判断即可;(2)根据公式求出回归直线方程的系数,得回归直线方程,然后把x=6代入,求出结果进行预测即可.考法二 独立性检验的应用1.(2022届河南月考,9)某外语学校要学生从德语和日语中选择一种作为“第二外语”进行学习,为了解选择第二外语的倾向与性别的关系,随机抽取100名学生,得到下面的数据表:选择德语 选择日语 男生 15 35 女生3020根据表中提供的数据可知( ) 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.100 0.050 0.010 0.005 0.001 k2.7063.841 6.635 7.87910.828A.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别无关B.在犯错误的概率不超过0.1%的前提下,认为选择第二外语的倾向与性别有关C.有99.5%的把握认为选择第二外语的倾向与性别无关D.有99.5%的把握认为选择第二外语的倾向与性别有关答案D2.(2020江西吉安、抚州、赣州一模,5)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A 的100天日落和夜晚天气,得到如下2×2列联表:夜晚天气下雨未下雨日落云里走出现255未出现2545临界值表P(K2≥k0)0.100.050.0100.001k0 2.706 3.841 6.63510.828并计算得到K2≈19.05,下列小波对地区A天气的判断不正确的是()A.夜晚下雨的概率约为12B.未出现“日落云里走”,夜晚下雨的概率约为514C.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨答案D3.(2020湖南衡阳八中月考,5)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:喜欢应用统计课程不喜欢应用统计课程男生205女生1020附表:P(K2≥k)0.100.050.0250.0100.0050.001k 2.706 3.841 5.024 6.6357.87910.828参考公式:K2=n(ad-bc)2,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关答案A4.(2020安徽蚌埠三模,15)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则有99%以上的把握认为是否持乐观态度与国内外差异有关(填“能”或“不能”).P(K2≥k)0.0500.0100.0050.001k 3.841 6.6357.87910.828附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).答案能5.(2021山东青岛一模,15)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(K2≥k)0.050.0250.0100.001k 3.841 5.024 6.63510.828答案0.0256.(2022届吉林重点高中月考,19)新能源汽车是指除汽油、柴油发动机之外所有的其他能源汽车,被认为能减少空气污染和缓解能源短缺.在当今提倡全球环保的前提下,新能源汽车产业必将成为未来汽车产业发展的导向与目标.新能源汽车也越来越受到消费者的青睐.某机构调查了某地区近期购车的200位车主的性别与购车种类情况,得到数据如下:购置新能源汽车购置传统燃油汽车合计男性10020120女性503080合计15050200 (1)根据表中数据,判断是否有99.9%的把握认为购置新能源汽车与性别有关;(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,参加关于“新能源汽车驾驶体验”的问卷调查,并从这6位车主中随机抽取2位车主赠送一份小礼物,求这2位获赠礼品的车主中至少有1位女性车主的概率. 参考公式:K 2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.参考数据:P(K 2≥k 0) 0.10 0.05 0.010 0.001 k 02.7063.8416.63510.828解析 (1)由题表得K2=200×(100×30-20×50)2120×80×150×50=1009≈11.111>10.828.所以有99.9%的把握认为购置新能源汽车与性别有关.(2)用分层抽样的方法按性别从被调查的购置新能源汽车的车主中选出6位,其中男性车主有100150×6=4人,记为a,b,c,d;女性车主有50150×6=2人,记为E,F.从这6位车主中随机抽取2位车主包含的基本事件有:ab,ac,ad,aE,aF,bc,bd,bE,bF,cd,cE,cF,dE,dF,EF,共15种. 至少有1位女性车主包含的基本事件有:aE,aF,bE,bF,cE,cF,dE,dF,EF,共9种.故所求概率P=915=35. 7.(2022届山西长治质检,17)为了了解某种新型药物对治疗某种疾病的疗效,某机构日前联合医院进行了小规模的调查.结果显示,相当多的受访者担心使用新药后会有副作用.为了了解使用该种新型药品后是否会引起疲乏症状,该机构随机抽取了某地患有这种疾病的275人进行调查,得到统计数据如下表:无疲乏症状有疲乏症状总计 未使用新药 150 25 t 使用新药 x y 100 总计225m275(1)求2×2列联表中的数据x,y,m,t 的值,并确定能否有95%的把握认为有疲乏症状与使用该新药有关; (2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,再从这4人中随机抽取2人作进一步调查,求这2人中恰有1人有疲乏症状的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.150 0.100 0.050 0.025 0.010 k2.072 2.7063.841 5.0246.635解析 (1)t=150+25=175,x=225-150=75,y=100-75=25,m=25+25=50,所以K 2的观测值k=275×(150×25-75×25)2225×50×100×175≈4.910 7>3.841,故有95%的把握认为有疲乏症状与使用新药有关.(2)从使用该新药的100人中按是否有疲乏症状,采用分层抽样的方法抽出4人,其中无疲乏症状的有75100×4=3人,记为a,b,c;有疲乏症状的有25100×4=1人,记为D,则从这4人中随机抽取2人的情况有ab,ac,aD,bc,bD,cD,共6种,这2人中恰有1人有疲乏症状的情况有aD,bD,cD,共3种.故所求概率P=36=12. 8.(2021安徽五校联盟联考(二),18)网购是当前人们购物的新方式,某公司为了改进营销方式,随机调查了100名市民,统计了不同年龄的人群网购的人数如下表:年龄段(岁) (0,20) [20,40) [40,60) [60,100) 网购人数 26 32 34 8 男性人数1510105(1)若把年龄在[20,60)的人称为“网购迷”,否则称为“非网购迷”,请完成下面的2×2列联表,并判断能否有99%的把握认为网购与性别有关;网购迷非网购迷总计男性 女性 总计(2)若从年龄小于40岁的网购男性中用分层抽样的方法抽取5人,再从中抽取两人,求两人年龄都小于20岁的概率. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K 2≥k) 0.10 0.05 0.01 0.001k2.7063.841 6.635 10.828解析 (1)由题中信息完善2×2列联表如下表所示:网购迷 非网购迷 总计 男性 20 20 40 女性 46 14 60 总计6634100∴K2=100×(20×14-46×20)266×34×40×60≈7.605>6.635,故有99%的把握认为网购与性别有关.(2)年龄在(0,20)、[20,40)的网购男性分别有15人、10人.按分层抽样的方法随机抽取5人,从年龄段(0,20)内抽取3人,分别记为1、2、3;从年龄段[20,40)内抽取2人,分别记为a 、b,从中随机抽取2人的可能结果有(1,2)、(1,3)、(1,a)、(1,b)、(2,3)、(2,a)、(2,b)、(3,a)、(3,b)、(a,b),共10个.用A表示“两人年龄都小于20岁”这一事件,则事件A包含的结果为(1,2)、(1,3)、(2,3),共3个.故事件A发生的概率P(A)=310.9.(2021安徽黄山二模,17)2021年3月5日,人社部和全国两会政府工作报告中针对延迟退休给出了最新消息,人社部表示正在研究延迟退休改革方案,两会上指出十四五期间要逐步延迟法定退休年龄.现对某市工薪阶层关于延迟退休政策的态度进行调查,随机调查了50人,他们月收入的频数分布及对延迟退休政策赞成的人数如下表.月收入(单位:百元)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75]频数510151055赞成人数123534(1)根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异;月收入不低于55百元月收入低于55百元合计赞成不赞成合计(2)若采用分层抽样法从月收入在[25,35)和[65,75]的被调查人中选取6人进行跟踪调查,并随机给其中3人发放奖励,求获得奖励的3人中至少有1人月收入在[65,75]的概率.参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k)0.0500.0100.001k 3.841 6.63510.828解析(1)2×2列联表如下:月收入不低于55百元月收入低于55百元合计赞成71118不赞成32932合计104050则K2=50×(7×29-3×11)210×40×32×18≈6.27<6.635,所以没有99%的把握认为“月收入以55百元为分界点”对延迟退休政策的态度有差异.(2)按照分层抽样的方法可知,月收入在[25,35)的抽取4人,记为a,b,c,d,月收入在[65,75]的抽取2人,记为A,B,则从6人中任取3人的所有情况为{A,B,a}、{A,B,b}、{A,B,c}、{A,B,d}、{A,a,b}、{A,a,c}、{A,a,d}、{A,b,c}、{A,b,d}、{A,c,d}、{B,a,b}、{B,a,c}、{B,a,d}、{B,b,c}、{B,b,d}、{B,c,d}、{a,b,c}、{a,b,d}、{a,c,d}、{b,c,d},共20种, 其中至少有1人月收入在[65,75]的情况有16种, 所以3人中至少有1人月收入在[65,75]的概率为1620=45.应用篇 知行合一应用 回归模型的应用1.(2020课标Ⅰ,5,5分探索创新情境)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A.y=a+bxB.y=a+bx 2C.y=a+be xD.y=a+bln x 答案 D2.(2022届宁夏顶级名校月考,20实际生活)“金山银山不如绿水青山;绿水青山就是金山银山.”复兴村借力“乡村振兴”国策,依托得天独厚的自然资源开展乡村旅游,乡村旅游事业蓬勃发展.复兴村旅游协会记录了近八年的游客人数,见下表.年份2013 年 2014 年 2015 年 2016 年 2017 年 2018 年 2019 年2020 年 年份代码x 1 2 345678 游客人数y (百人)4816 32 51 71 97122为了分析复兴村未来的游客人数变化趋势,公司总监分别用两种模型对变量y 和x 进行拟合,得到了相应的回归方程,绘制了残差图.残差图如下(注:残差e ^i =y i -y ^i ):模型①y ^=bx 2+a;模型②y ^=dx+c.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由; (2)根据(1)中选定的模型求出相应的回归方程(系数均保留两位小数); (3)根据(2)中求出的回归方程来预测2021年的游客人数(结果保留整数). 其中,z=x2,z =18∑i=18z i .参考数据:∑i=18(x i -x )·(y i -y )=728∑i=18(x i -x )2=42∑i=18(z i -z )·(y i -y )=6 868∑i=18(z i -z )2=3 570∑i=18z i =204∑i=18y i =400附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x .解析 (1)选择模型①.理由:根据残差图可以看出, 模型①的估计值和真实值相对比较接近;模型②的残差相对比较大,所以模型①的拟合效果相对较好.(2)由(1)可知y 关于x 的回归方程为y ^=bx 2+a.令z=x 2,则y ^=bz+a,由题中所给数据得b ^=6 8683 570≈1.92,又z =18∑i=18z i =2048=25.5,y =4008=50,所以a ^=50-1.92×25.5=1.04,所以y 关于x 的回归方程为y ^=1.92x 2+1.04. (3)将x=9代入回归方程,可得y ^=1.92×92+1.04≈157, 则2021年游客人数大约为157百人. 3.(2021哈尔滨三中一模,19实际生活)宁夏西海固地区,在1972年被联合国粮食开发署确定为最不适宜人类生存的地区之一.为改善这一地区人民生活的贫困状态,20世纪90年代,党中央和自治区政府决定开始吊庄移民,将西海固地区的人口成批地迁移到更加适合生活的地区.为了帮助移民人口尽快脱贫,党中央作出推进东西部对口协作的战略部署,其中确定福建对口帮扶宁夏,在福建人民的帮助下,原西海固人民实现了快速脱贫,下表是对2016年以来近5年某移民村庄100位移民的年人均收入的统计:年份 2016 2017 2018 2019 2020 年份代码x12 3 4 5 人均年收入y(千元) 1.32.85.78.913.8现要建立y 关于x 的回归方程,有两个不同回归模型可供选择,模型一y^(1)=b ^x+a ^;模型二y ^(2)=c ^x 2+d ^,即使画出y 关于x 的散点图,也无法确定哪个模型拟合效果更好,现用最小二乘法原理,已经求得模型一的方程为y ^=3.1x-2.8.(1)请你用最小二乘法原理,结合下面的参考数据及参考公式求出模型二的方程(计算结果保留到小数点后一位);(2)用计算残差平方和的方法比较哪个模型拟合效果更好(已经计算出模型一的残差平方和为∑i=15(y i -y ^i )2=3.7).参考数据:∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52,其中t i =x i 2,i=1,2,3,4,5.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计公式分别为β^=∑i=1nu i v i -nuv ∑i=1nu i 2-nu 2,α^=v -β^u .解析 (1)令t=x 2,则模型二可化为y 关于t 的线性回归问题, t =1+4+9+16+255=11,y =1.3+2.8+5.7+8.9+13.85=6.5, 则由参考数据可得c ^=∑i=15t i y i -5ty ∑i=15t i2-5t 2≈0.52≈0.5,d ^=y -c ^t =6.5-0.52×11≈0.8, 则模型二的方程为y ^(2)=0.5x 2+0.8. (2)由模型二的回归方程可得,y ^1(2)=0.5×1+0.8=1.3,y ^2(2)=0.5×4+0.8=2.8,y ^3(2)=0.5×9+0.8=5.3,y ^4(2)=0.5×16+0.8=8.8,y ^5(2)=0.5×25+0.8=13.3,∴∑i=15(y i -y ^i (2))2=02+02+0.42+0.12+0.52=0.42<3.7,故模型二的拟合效果更好.创新篇 守正出奇创新 统计与统计案例的综合应用。
变量间相关关系统计案例
1122211()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑学 校: 年 级: 教学课题:统计案例 学员姓名: 辅导科目:数学 学科教师:王光明教学目标 变量间的相关关系与统计案例教学内容考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。
基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,1222211()()ni ii nni i i i x y nx yr x nx y n y ===-•=--∑∑∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K=2()()()()()n ad bca b a c b d c d-++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A.【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).[来源:学科网]解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计60 50110由K 2=n ad -dc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”答案:A解析:∵K2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数1263861829261 4 乙厂:分组[29.86,29.90)[来源:学。
高中数学复习教案:变量间的相关关系、统计案例
第四节 变量间的相关关系、统计案例[考纲传真] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=.(3)通过求Q = (y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(5)相关指数:R 2=1-.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d ).[常用结论]1.从散点图观察相关性;(1)正相关:样本点分布在从左下角到右上角的区域; (2)负相关:样本点分布在从左上角到右下角的区域. 2.b ^的几何意义:体现平均增加或平均减少.3.线性回归方程y ^=b ^x +a ^一定过样本点的中心(—x ,—y ). 4.由回归直线求出的数据是估算值,不是精确值.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系, 也是一种因果关系.( ) (2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( )(4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )[答案] (1)× (2)√ (3)√ (4)×2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率C [“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.]3.(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数—x =3,—y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4A [因为变量x 和y 正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A 满足.]4.下面是2×2列联表:则表中a ,b 的值分别为( )y 1 y 2 合计 x 1 a 21 73 x 222 2547合计 b 46 120A.94,72 C .52,74D .74,52C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:P (K 2≥k 0) 0.100 0.050 0.025 0.010 0.001k 02.7063.841 5.024 6.635 10.828A.0.1% C .99%D .99.9%C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]相关关系的判断1.( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关C [因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.]2.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:甲乙丙丁r 0.82 0.78 0.69 0.85 m 106 115 124 103则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性.]3.(2019·泰安月考)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.][规律方法] 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:时,正相关;时,负相关.线性回归分析及应用【例1】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.[规律方法] 线性回归分析问题的类型及解题方法 (1)求线性回归方程: ①利用公式,求出回归系数②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:,把回归直线方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关: 决定正相关还是负相关的是系数(2018·临沂期末)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:超市AB C D E F G广告费支出x i 1 246 11 13 19销售额y i19 32 40 44 52 53 54(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据:.参考公式:[解] (1)=2 794-7×8×42708-7×82=1.7,故y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)∵0.75<0.93,∴二次函数回归模型更合适. 当x =3时,y ^=33.5.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.5万元.独立性检验及应用【例2】(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828,K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解](1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg 箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2的观测值k =200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[规律方法] 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表; (2)根据公式K 2=,计算K 2的观测值k 的值;(3)查表比较K 2的观测值k 与临界值的大小关系,作统计判断.课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?选择自然科学类 选择社会科学类 合计男生 女生 合计附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2 ≥k 0) 0.500 0.400 0.250 0.150 0.100 0.050 0.025 0.010 0.005 0.001 k 00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:选择自然科学类 选择社会科学类 合计男生 60 45 105 女生 30 45 75 合计9090180则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m 不超过m 第一种生产方式 第二种生产方式(3)根据(2)中的列联表, 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k 0) 0.050 0.010 0.001k 03.841 6.635 10.828[解] (1)理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2的观测值k=20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.。
2017年高考数学(文)人教A版一轮课件:10.3 变量间的相关关系、统计案例
x1 x2
总计
y1
y2
总计
a
b
a+b
c
d
c+d
a+c
b+d
a+b+c+d
知识梳理
核心考点
-6-
构造一个随机变量
K2=
������(������������-������������)2 (������+������)(������+������)(������+������)(������+������)
知识梳理
核心考点
-3-
1.相关关系:当自变量取值一定时,因变量的取值带有一定随机性 的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系 是一种非确定性关系 .
2.散点图:表示具有相关关系的两个变量的一组数据的图形叫做 散点图,它可直观地判断两变量的关系是否可以用线性关系表示. 若这些散点分布在从左下角到右上角的区域,则称两个变量正相 关 ;若这些散点分布在从左上角到右下角的区域,则称两个变量 负相关 .
(5)通过回归方程^������ = ^bx+���^���可以估计和观测变量的取值和变化趋
势. ( √ )
-7-
核心考点
12345
2.(2015 湖北,文 4)已知变量 x 和 y 满足关系^������=-0.1x+1,变量^y
与 z 正相关.下列结论中正确的是( )
A.x 与^������负相关,x 与 z 负相关 B.x 与^������正相关,x 与 z 正相关 C.x 与^������正相关,x 与 z 负相关 D.x 与^������负相关,x 与 z 正相关
10.3 变量间的相关关系与统计案例(课时练习)-2017届高三数学(理)一轮复(解析版)
高三一轮复习(理)10.3 变量间的相关性与统计案例(练习教师版)一、选择题1. 在对两个变量x,y进行线性回归分析时,有下列步骤:①对所求出的线性回归方程作出解释;②收集数据(x i,y i),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x,y具有线性相关结论,则在下列操作顺序中正确的是()A.①②⑤③④B.③②④⑤①C.②④③①⑤D.②⑤④③①【答案】D【解析】对两个变量进行回归分析时,首先收集数据(x i,y i),i=1,2,…,n;根据所搜集的数据绘制散点图.观察散点图的形状,判断线性关系的强弱,求相关系数,写出线性回归方程,最后对所求出的线性回归方程作出解释;故正确顺序是②⑤④③①.故选D2.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是()A.y=-10x+200 B.y=10x+200C.y=-10x-200 D.y=10x-200【答案】A【解析】根据y与x负相关,排除B,D,又y>0,x>0,则排除C,故选A3.根据下面给出的2004年至2013年我国二氧化碳年排放量(单位:万吨)柱形图,以下结论中不正确的是()A.逐年比较,2008年减少二氧化碳排放量的效果最显著B.2007年我国治理二氧化碳排放显现成效C.2006年以来我国二氧化碳年排放量呈减少趋势D.2006年以来我国二氧化碳年排放量与年份正相关【答案】D【解析】由柱形图可知2006年以来,我国二氧化碳排放量基本成递减趋势,所以二氧化碳排放量与年份负相关,故选D.4.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4【答案】A【解析】因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的 中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的直线方程进行检验, 可以排除B ,故选A. 二、填空题5.为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入x (单位:万元)和年教育支出y (单位:万元),调查显示年收入x 与年教育支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:=0.15x +0.2.由回归直线方程可知,家庭年收入每增加1万元,年教育支出平均增加__________万元。
11、变量间的相关关系、统计案例(有答案)解读
学科教师辅导教案学员编号: 年 级:高一 课时数:3课时 学员姓名: 辅导科目:数学 学科教师:授课类型 T 同步知识梳理 C 相关专题训练T 能力提高教学目标星级★★★授课日期及时段 2016.教学内容 :变量间的相关关系、统计案例一、同步知识梳理 1. 变量间的相关关系2. 散点图以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫做散点图. 3. 回归直线方程与回归分析(1)直线方程y ^=a +bx ,叫做Y 对x 的回归直线方程,b 叫做回归系数.要确定回归直线方程,只要确定a 与回归系数b .(2)用最小二乘法求回归直线方程中的a ,b 有下列公式b ^=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a ^ =y -b ^ x ,其中的a ^ ,b ^表示是求得的a ,b 的估计值.(3)相关性检验①计算相关系数r ,r 有以下性质:|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱;②|r|>r0.05,表明有95%的把握认为变量x与Y直线之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.二、题型解答题型一相关关系的判断思维点播判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.例15个学生的数学和物理成绩如下表:学生A B C D E学科数学8075706560物理7066686462画出散点图,并判断它们是否具有相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.巩固(1)对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图②,由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C(2)(2012·课标全国)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 利用相关系数的意义直接作出判断.样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y i ^,代入相关系数公式r =1-∑i =1n(y i -y i ^)2∑i =1n(y i -y )2=1.题型二 线性回归分析思维点播 (1)回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过回归直线方程估计和预测变量的值.例2 某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的回归直线方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?(注:b^=∑i=1nx i y i-n x y∑i=1nx2i-n x2,a^=y-b^x)思维启迪求回归直线方程的系数b^时,为防止出错,应分别求出公式中的几个量,再代入公式.解(1)散点图如图.(2)由表中数据得:∑i=14x i y i=52.5,x=3.5,y=3.5,∑i=14x2i=54,∴b^=0.7,∴a^=1.05,∴y^=0.7x+1.05,回归直线如图所示.(3)将x=10代入回归直线方程,得y^=0.7×10+1.05=8.05,故预测加工10个零件约需要8.05小时.巩固1为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:时间x 1234 5命中率y 0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.答案0.50.53解析小李这5天的平均投篮命中率y=0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x=3.根据表中数据可求得b^=0.01,a^=0.47,故回归直线方程为y^=0.47+0.01x,将x=6代入得6号打6小时篮球的投篮命中率约为0.53.巩 固2 (2013·大连模拟)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归直线方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元答案 B解析 ∵x =4+2+3+54=72,y =49+26+39+544=42,又y ^ =b ^ x +a ^ 必过(x ,y ),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴回归直线方程为y ^ =9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).家庭作业1. 某地区调查了2~9岁的儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为y ^=8.25x +60.13,下列叙述正确的是( )A .该地区一个10岁儿童的身高为142.63 cmB .该地区2~9岁的儿童每年身高约增加8.25 cmC .该地区9岁儿童的平均身高是134.38 cmD .利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 B2. 设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图), 以下结论中正确的是 ( )A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 答案 A解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B 、C 错误.D 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以D 错误.根据线性回归直线一定经过样本点中心可知A 正确.3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由于回归直线方程中x 的系数为0.85, 因此y 与x 具有正的线性相关关系,故A 正确.又回归直线方程必过样本点中心(x ,y ),因此B 正确.由回归直线方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确. 当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.4. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为________. 答案 68解析 由已知可计算求出x =30,而回归直线必过点(x ,y ), 则y =0.67×30+54.9=75,设模糊数字为a ,则 a +62+75+81+895=75,计算得a =68.5.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( ) A.63.6万元 B.65.5万元 C.67.7万元D.72.0万元解析:由题意可知x =3.5,y =42,则42=9.4×3.5+a ^,a ^=9.1,y ^=9.4×6+9.1=65.5,答案应选B. 答案:A6.下列各图中所示两个变量具有相关关系的是( )A .①②B .①③C .②④D .②③答案:D7.已知x ,y 的取值如下表所示:x 0 1 3 4 y2.24.34.86.7从散点图分析,y 与x 线性相关,且y ^=0.95x +a ^,则a ^=__________.答案:2.6。
第十章 统计与概率10-3变量间的相关关系与统计案例
(3)利用回归直线方程对总体进行估计 ^ ^ ^ 若回归直线方程为y=bx+a,则在x=x0处的估计值: ^0=bx0+a. ^ y ^ (4)线性相关强度的检验: 对于变量x与y随机取到的n对数据(xi,yi),用y与x间 x y xi--yi--
i=1 n
的相关系数r= x y xi--2· yi--2
i=1 4 ^
所以,由最小二乘法确定的回归直线方程的系数 为:
(3)由(2)的回归方程及技改前生产100吨甲产 品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).
(2010·山东枣庄模考)某单位为了了解用电 量y(度)与气温x(℃)之间的关系,随机统计 了某4天的用电量与当天气温,并制作了对 照表: 18 13 10 -1 气温(℃)
疱疹面积不 疱疹面积小 合计 小于 2 于70mm 70mm2 注射药物 A a= b=
注射药物 nad-bc2 c= d= 2 附:χ = B a+bc+da+cb+d 合计
n=
[解析]
(1)
可以看出注射药物A后的疱疹面积的中位数 在65至70之间,而注射药物B后的疱疹面积 的中位数在70至75之间,所以注射药物A后 疱疹面积的中位数小于注射药物B后疱疹面 积的中位数. (2)表3: 疱疹面积 疱疹面积不 合计 小于 小于 70mm2 70mm2 100 注射药物A a=70 b=30 100 注射药物B c=35 d=65 105 95 合计 n=200
关关系,这条直线叫做回归直线. 数为:
(2)回归直线方程的求法——最小二乘法.
n n y x y xiyi-n x · xi--yi-- i=1 i=1 ^ = b= n n 2 2 x xi -n x xi--2 i=1 i=1 a=--b x ^ y ^ 1 n 1 n 其中 - = x i, - = y i,( - , - )称作样本点的中 x y x y n i=1 n i=1 心. ^ ^ a , b 表示由观察值用最小二乘法求得的a,b的估计 值,叫回归系数.
2017届高考数学(理)一轮复习课后作业:第十章第三节 变量间的相关关系、统计案例 含解析
错误!一、选择题1.①正相关,②负相关,③不相关,则下列散点图分别反映的变量间的相关关系是()A.①②③B.②③①C.②①③D.①③②2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且错误!=2.347x-6。
423;②y与x负相关且错误!=-3。
476x+5.648;③y与x正相关且错误!=5.437x+8。
493;④y与x正相关且错误!=-4。
326x-4。
578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④3.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8。
28。
610。
011.311.9支出y(万元) 6.27。
58.08.59.8!=错误!-错误!错误!.据此估计,该社区一户年收入为15万元家庭的年支出为() A.11。
4万元B.11.8万元C.12。
0万元D.12.2万元4.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4〈0〈r3<r1B.r4〈r2<0<r1〈r3C.r4〈r2<0<r3<r1D.r2〈r4<0〈r1〈r35.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是()A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%二、填空题6.(2016·忻州联考)已知x,y的取值如下表:x 234 5y 2。
2 3.8 5.56。
5从散点图分析,y与x线性相关,且回归方程为y,=1.46x+错误!,则实数错误!的值为________.7.(2016·济南模拟)经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的回归直线方程:错误!=0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.8.某工厂为了调查工人文化程度与月收入之间的关系,随机调查了部分工人,得到如下表所示的2×2列联表(单位:人):月收入2 000元以下月收入2 000元及以上总计高中文化以上104555高中文化及以下203050 总计3075105系”.附:K2=错误!P(K2〉k0)0。
高三数学一轮复习课时作业10:第3讲 变量间的相关关系与统计案例
基础巩固题组(建议用时:40分钟)一、选择题1.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析相关指数R2越大,拟合效果越好,因此模型1拟合效果最好.答案 A2.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标代入检验,A满足.答案 A3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x -85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析∵0.85>0,∴y与x正相关,∴A正确;∵回归直线经过样本点的中心(x ,y ),∴B 正确; ∵Δy =0.85(x +1)-85.71-(0.85x -85.71)=0.85, ∴C 正确. 答案 D4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由K 2=(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y^=b^x+a^,其中b^=0.76,a^=y-b^x,据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元解析由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,∴a^=8-0.76×10=0.4,∴当x=15时,y^=0.76×15+0.4=11.8(万元).答案 B二、填空题6.若8名学生的身高和体重数据如下表:第3名学生的体重漏填,但线性回归方程是y=0.849x-85.712,则第3名学生的体重估计为________.解析设第3名学生的体重为a,则18(48+57+a+54+64+61+43+59)=0.849×18(165+165+157+170+175+165+155+170)-85.712.解之得a≈50.答案507.(2017·广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:已知P(K2≥3.841)根据表中数据,得到K2=50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.解析由K2=4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.答案5%8.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y=b x+a中的b=-2,预测当气温为-4 ℃时,用电量约为________度.解析根据题意知x=18+13+10+(-1)4=10,y=24+34+38+644=40,因为回归直线过样本点的中心,所以a^=40-(-2)×10=60,所以当x=-4时,y =(-2)×(-4)+60=68,所以用电量约为68度.答案68三、解答题9.(2017·郑州调研)某地区2009年至2015年农村居民家庭人均纯收入y(单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2017年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为: b ^=∑ni =1 (t i -t )(y i -y )∑ni =1(t i -t -)2,a ^=y --b ^t -. 解 (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4, y -=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i =1 (t i -t )2=9+4+1+0+1+4+9=28, ∑7i =1(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14, b ^=∑7i =1 (t i -t )(y i -y )∑7i =1(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b^=0.5>0,故2009至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年约增加0.5千元.将2017年的年份代号t =9代入(1)中的回归方程,得y ^=0.5×9+2.3=6.8,故预测该地区2017年农村居民家庭人均纯收入为6.8千元.10.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=(a +b )(c +d )(a +c )(b +d )解 (1)x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:K 2=10×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.能力提升题组(建议用时:20分钟)11.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x(单位:元)和销售量y(单位:件)之间的四组数据如下表:x之间的线性回归方程为y^=-1.4x+a^,那么方程中的a^值为()A.17B.17.5C.18D.18.5解析x=4+4.5+5.5+64=5,y=12+11+10+94=10.5,∵回归直线过样本点的中心,∴a^=10.5+1.4×5=17.5.答案 B12.根据如下样本数据得到的回归方程为y=b x+a,则()A.a^>0,b^>0B.a^>0,b^<0C.a^<0,b^>0D.a^<0,b^<0 解析作出散点图如下:观察图象可知,回归直线y^=b^x+a^的斜率b^<0,当x=0时,y^=a^>0.故a^>0,b^<0. 答案 B13.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题代数题总计男同学22830女同学81220总计302050概率不超过________.附表:P(K2≥k0)0.150.100.050.0250.0100.0050.001 k0 2.072 2.706 3.841 5.024 6.6357.87910.828解析由列联表计算K2k0=50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过0.025.答案0.02514.(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i=x i,w=18∑8i=1w i.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:β^=∑ni=1(u i-u)(v i-v)∑ni=1(u i-u)2,α^=v-β^u解(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于d^=∑8i=1(w i-w)·(y i-y)∑8i=1(w i-w)2=108.81.6=68,c^=y-d^w=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
2017年高考数学(文)一轮复习讲练测 专题10.3 变量间的相关性(练) 含解析
A基础巩固训练1.【2017届山西怀仁县一中高三上学期开学考数学】下表是某工厂1-4月份用电量(单位:万度)的一组数据:月份x12344.543 2.5用电量y由散点图可知,用电量y与月份x间有较好的线性相关关系,其线性回归直线方程是0.7=-+,则a=()y x aA.10.5 B.5。
25 C.5。
2 D.5.15【答案】B【解析】2. 【2015数学一轮复习迎战高考】下列两个变量中具有相关关系的是()A。
正方形的面积与边长B.匀速行驶的车辆的行驶距离与时间C。
人的身高与体重D.人的身高与视力【答案】C【解析】本题要注意区分函数关系与相关关系,函数关系是一种确定的关系,而相关关系则是一种存在某一种不确定的关系,题中A 、B 为函数关系,C 是相关关系,D 则无相关关系.3. 【2016届内蒙古赤峰市高三4月统一能力测试数学】某产品在某零售摊位的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:x11 10。
5 10 9。
5 9 y5 6810 10根据上表得回归直线方程ˆˆˆy bx a =+,其中ˆˆˆ3.2,ba y bx =-=-,按此回归方程估计零售价为5元时的销售量估计为( )个.A .16个B .20个C .24个D .28个 【答案】C 【解析】4.【2016届山东省滨州市高三第二次模拟考试】为了研究某种细菌在特定环境下,随时间变化的繁殖情况,得到的实验数据如下表,并由此计算得回归直线方程为25.085.0-=∧x y ,后来因工作人员不慎将下表中的实验数据c 丢失。
天数x (天) 34567繁殖个数y(千个) c 3 4 4。
5 6则上表中丢失的实验数据c 的值为______.【答案】5.2 【解析】试题分析:由表中数据可得3456734 4.5617.55,555c c x y +++++++++====,将点17.55,5c +⎛⎫ ⎪⎝⎭代入25.085.0-=∧x y 可解得 2.5c =,故答案填5.2。
2017届新课标高考总复习·数学课件:第10章 第3节 变量间的相关关系、统计案例
(1)正确理解计算^b,^a的公式和准确的计算是求线性回归方程 的关键.
(2)回归直线方程^y=^bx+^a必过样本点中心( x , y ). (3)在分析两个变量的相关关系时,可根据样本数据作出散点 图来确定两个变量之间是否具有相关关系,若具有线性相关关系, 则可通过线性回归方程来估计和预测.
n x2i -n-x 2
i=1
i=1
回归方程的 斜率 ,^a是在 y 轴上的 截距 .
第六页,编辑于星期六:点 五十五分。
③样本中心:对于一组具有线性相关关系的数据(x1,y1), (x2,y2),…,(xn,yn)中(-x ,-y )称为样本点的中心.
(4)样本相关 五十五分。
2.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类 别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假 设有两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2}和 {y1,y2},其样本频数列联表(称为 2×2 列联表)为
第二十九页,编辑于星期六:点 五十五分。
某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2006 2008 2010 2012 2014
需求量(万吨) 236 246 257 276 286
(1)利用所给数据求年需求量与年份之间的回归直线方程^y =^bx+^a;
(2)利用(1)中所求出的回归直线方程预测该地 2016 年的粮 食需求量.
答案:(1)D (2)B (3)C
第二十一页,编辑于星期六:点 五十五分。
相关关系的直观判断方法就是作出散点图,若散点 图呈带状且区域较窄,说明两个变量有一定的线性相关 性,若呈曲线型也是有相关性,若呈图形区域且分布较 乱则不具备相关性.
高考数学总复习 103 变量间的相关关系与统计案例配套课时作业 理 新人教A版
高考数学总复习 103 变量间的相关关系与统计案例配套课时作业 理 新人教A 版附表:K 2=n ad -bc 2a +bc +d a +cb +dP (K 2≥k 0)0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 01.3232.0722.7063.8415.0246.6357.87910.828一、选择题1.观察下列散点图,则①正相关,②负相关,③不相关,这三句话与散点图的位置相对应的是( )A .①②③B .②③①C .②①③D .①③②答案:D2.已知变量x ,y 呈线性相关关系,回归方程为y ^=0.5+2x ,则变量x ,y 是 A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系解析:随着变量x 增大,变量y 有增大的趋势,则x 、y 称为正相关,则A 是正确的. 答案:A 3.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( )A .0B .1C .2D .3解析:一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2=13.079>10.828,故有99%的把握确认这两个变量有关系,④正确.故选B.答案:B4.(2011年山东)某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析:∵a ^=y -b ^x -=49+26+39+544-9.4×4+2+3+54=9.1,∴回归方程为y ^=9.4x +9.1.令x =6,得y ^=9.4×6+9.1=65.5(万元). 答案:B5.(2011年江西)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:作出X ,Y 对应散点图可知Y 与X 正相关, ∴r 1>0.作出U ,V 对应散点图可知U 与V 负相关 ∴r 2<0.∴r 2<0<r 1. 答案:C6.(2011年湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n ad -bc 2a +bc +d a +cb +d算得,K 2=110×40×30-20×20260×50×60×50=7.8.参照附表,得到正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:∵k 2=7.8>6.635,而P (k 2≥6.635)=0.010,∴有99%以上的把握认为“爱好该运动与性别有关”.答案:C 二、填空题7.某地居民2008~2012年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:年份/年 2008 2009 2010 2011 2012 收入x /万元 11.5 12.1 13 13.3 15 支出Y /万元6.88.89.81012出有________线性相关关系.解析:根据中位数的定义,居民家庭年平均收入的中位数是13,家庭年平均收入与年平均支出有正线性相关关系.答案:13 正8.下列是某厂1~4月份用水量(单位:百吨)的一组数据:月份x 1 2 3 4 用水量y4.5432.5由其散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是y ^=-0.7x +a ^,则a ^=________.解析:a ^=y -b ^x =3.5+0.7×2.5=5.25. 答案:5.259.(2013年河北保定月考)为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:则至少有) 解析:由公式可得k 2≈8.333>7.879,故填99.5%. 答案:99.5% 三、解答题10.某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)(2)根据以上数据完成下列2×2的列联表:(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析.解:(1)在30位亲属中,50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主. (2)2×2的列联表如下:主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(3)因为K 2=30×8-128212×18×20×10=30×120×12012×18×20×10=10>6.635,所以有99%的把握认为亲属的饮食习惯与年龄有关.11.(2012年安徽淮北二模)时维壬辰,序属仲春,值春耕播种时机,某中学生物研究性学习小组对春季昼夜温差大小与水稻发芽率之间的关系进行研究,记录了实验室4月10日至4月14日的每天昼夜温差与每天每50颗稻籽浸泡后的发芽数,得到如下资料:日期 4月10日4月11日4月12日4月13日4月14日温差x /℃ 10 12 13 14 11 发芽数y /颗1113141612均小于14”的概率;(2)根据表中的数据可知发芽数y (颗)与温差x (℃)呈线性相关,请求出发芽数y 关于温差x 的线性回归方程y ^=b ^x +a ^.(参考公式:回归直线方程式y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x 2,a ^=y -b ^x )解:(1)m ,n 构成的基本事件(m ,n )有:(11,13),(11,14),(11,16),(11,12),(13,14),(13,16),(13,12),(14,16),(14,12),(16,12),共有10个.其中“m ,n 均小于14”的有3个,故所求概率为310.(2)∵x =12,y =13.2, ∴b ^=10×11+12×13+13×14+14×16+11×12-5×12×13.2102+122+132+142+112-5×122=1.2, 于是,a ^=13.2-1.2×12=-1.2.故所求线性回归方程为y ^=1.2x -1.2.12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A ,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P (A )=1-410=35. (2)由数据求得,x =12,y =27,由公式求得.b ^=52,a ^=y -b ^x =-3. 所以y 关于x 的线性回归方程为y ^=52x -3.(3)当x =10时,y ^=52×10-3=22,|22-23|<2;当x =8时,y ^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的. [热点预测]13.(2012年广东惠州高三模拟)甲、乙两所学校高三年级分别有1 200人,1 000人,为了了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下:甲校:分组 [70,80) [80,90) [90,100)[100,110)频数 3 4 8 15 分组 [110,120)[120,130)[130,140)[140,150]频数 15x32乙校: 分组 [70,80) [80,90) [90,100)[100,110)频数 1 2 8 9 分组 [110,120)[120,130)[130,140)[140,150]频数1010y3(1)计算x ,y 的值;(2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率; (3)由以上统计数据填写下面的2×2列联表,并判断能否在犯错误的概率不超过0.10的前提下认为两所学校的数学成绩有差异.甲校 乙校 总计 优秀 非优秀 总计解:(1)从甲校抽取110×1201 200+1 000=60(人),从乙校抽取110× 1 0001 200+1 000=50(人),故x =10,y =7.(2)估计甲校数学成绩的优秀率为1560×100%=25%,乙校数学成绩的优秀率为2050×100%=40%.(3)表格填写如图,甲校 乙校 总计 优秀 15 20 35 非优秀 45 30 75 总计6050110K 2的观测值k =110×15×30-20×45260×50×35×75≈2.829>2.706,故在犯错误的概率不超过0.10的前提下认为两个学校的数学成绩有差异.。
高三数学课时作业1.10.3变量间的相关关系含答案
一、选择题1.①正相关,②负相关,③不相关,则下列散点图分别反映的变量是( )A.①②③B.②③①C.②①③D.①③②解析:第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②,故选D。
答案:D2.下列有关回归直线方程错误!=错误!x+错误!的叙述正确的是( )①反映错误!与x之间的函数关系;②反映y与x之间的函数关系;③表示错误!与x之间的不确定关系;④表示最接近y与x之间真实关系的一条直线.A.①②B.②③C.③④D.①④解析:y,^=错误!x+错误!表示错误!与x之间的函数关系,而不是y 与x之间的函数关系,但它反映的关系最接近y与x之间的真实关系.答案:D3.观测两相关变量得如下数据:x -9-6.99-5。
01-2.98-554.9994(2)观察散点图知,散点图中的点分布在一条直线附近,则水稻产量与施化肥量之间具有线性相关关系.11.某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份2002200420062008201需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程错误!=错误!x+错误!;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解析:(1)由所给数据看出,年需求量与年份之间的关系近似直线上升,下面来配回归直线方程.为此对数据预处理如下:年份-2006-4-2024需求量-257-21-1101929对预处理后的数据,容易算得x=0,错误!=3.2,错误!=错误!=错误!=6.5,a,^=错误!-错误!错误!=3。
2。
由上述计算结果,知所求回归直线方程为错误!-257=错误!(x-2006)+错误!=6。
5(x-2006)+3。
2,即错误!=6。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高三一轮复习(文) 10.3变量间的相关性与统计案例(检测教师版)
时间:50分钟 总分:70分
班级: 姓名:
一、选择题(共6小题,每题5分,共30分)
1.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i ) (i =1,2,…,n ),用最小二乘法建立的回归方程为y ^
=0.85x -85.71,则下列结论中不正确...
的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )
C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg
D .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 【答案】D
【解析】由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确. 又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知, x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时, 其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.故选D .
2.(2016北京昌平区二模)小王的手机使用的是每月300M 流量套餐,如图记录了小王在4月1日至 4月10日这十天的流量使用情况,下列叙述中正确的是( )
A .1日﹣10日这10天的平均流量小于9.0M/日
B .11日﹣30日这20天,如果每天的平均流量不超过11M ,这个月总流量就不会超过套餐流量
C .从1日﹣10日这10天的流量中任选连续3天的流量,则3日,4日,5日这三天的流量的方差最大
D .从1日﹣10日这10天中的流量中任选连续3天的流量,则8日,9日,10日这三天的流量的方差最小 【答案】C
【解析】对应A :
(6.2+12.4+14+11.6+4.8+6.2+5.5+9.5+10+11.2)=9.14,故A 错误;
对于B :11×20+91.4=311.4>300,这个月总流量就超过套餐流量,故B 错误;
对于C 、D ,结合图象C 正确,D 错误;故选:C . 3.已知x 与y 之间的几组数据如下表:
假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )
A .b ^>b ′,a ^
>a ′ B.b ^>b ′,a ^<a ′ C. b ^<b ′,a ^
>a ′ D.b ^<b ′,a ^<a ′
【答案】C
【解析】作出散点图如图所示,在散点图中作出两条直线,由图可得b ^<b ′,a ^
>a ′,故选C.
4.如图,5个(x ,y )数据,去掉D (3,10)后,下列说法错误的是( )
A .相关系数r 变大
B .残差平方和变大
C .相关指数R 2变大
D .解释变量x 与预报变量y 的相关性变强 【答案】B
【解析】由散点图知,去掉D 后,x 与y 的相关性变强,且为正相关, 所以r 变大,R 2变大,残差平方和变小.故选B. 5.某学生四次模拟考试时,其英语作文的减分情况如下表:
显然所减分数y ( ) A .y =0.7x +5.25 B .y =-0.6x +5.25 C .y =-0.7x +6.25
D .y =-0.7x +5.25
【答案】D
【解析】由题意,可知所减分数y 与模拟考试次数x 之间为负相关,所以排除A ,考试次数的平均数为 x =14(1+2+3+4)=2.5,所减分数的平均数为y =1
4(4.5+4+3+2.5)=3.5,
即直线应该过点(2.5,3.5),代入验证可知直线y =-0.7x +5.25成立,故选D.
6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有 样本点(x i ,y i )(i =1,2,…,n )都在直线y =1
2
x +1上,则这组样本数据的样本相关系数为( )
A .-1
B .0 C.1
2 D .1
【答案】D
【解析】 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^
i ,代入相关系数公式r =1. 故选D
二、填空题(共4小题,每题5分,共20分)
7.(2016北京通州区一模)中国天气网2016年3月4日晚六时通过手机发布的3月5日通州区天气预报的折线图(如图),其中上面的折线代表可能出现的最高气温,下面的折线代表可能出现的最低气温. 指出最高气温与最低气温的相关性____ ;
【答案】见解析
【解析】由最高气温与最低气温的折线图得到:最高气温与最低气温之间成正 相关,即最高气温越高,相应地最低气温也越高.
8.对于下列表示五个散点,已知求得的线性回归方程为=0.8x -155,则实数m 的值为______
【答案】8
【解析】x =196+197+200+203+2045=200,y =1+3+6+7+m 5=17+m 5。
样本中心点为⎝⎛⎭⎫200,17+m 5,将样本中心点⎝
⎛⎭⎫
200,17+m 5代入=0.8x -155,可得m =8
9. .对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是
y ^
=1
3
x +a ^ ,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^
的值是______
【答案】1
8
【解析】 依题意可知样本点的中心为⎝⎛⎭⎫34,38,则38=13×34+a ^
,解得a ^
=18
. 10.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm,170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm. 【答案】185
【解析】儿子和父亲的身高可列表如下:
设回归直线方程为=+x ,由表中数据可求得x =173,y =176,∴1=b ,3=a ,故回归直线 方程为3+=∧
x y .当x =182时,=182+3=185.故预测他的孙子的身高为185 cm. 三、解答题(共2小题,每题10分,共20分)
11.某种设备的使用年限x 和维修费用y (万元),有以下的统计数据:
(1)(2)请根据上表提供的数据,求出y 关于x 的线性回归方程=x +; (3)估计使用年限为10年,维修费用是多少? 【答案】见解析
【解析】(1)散点图如图所示.
(2)由表中数据,计算得∑5
i =
1
x i y i =66.5, ∑5
i =
1
x 2i =32+42+52+62
=86, x =4.5,y =3.5,
则b ^=66.5-4×4.5×3.586-4×4.52
=66.5-6386-81
=0.7, a ^
=y -x =3.5-0.7×4.5=0.35;所以所求的线性回归方程为y ^
=0.7x +0.35.
(3)当x =10时,y ^
=0.7×10+0.35=7.35,
所以使用年限为10年,维修费用约是7.35万元.
12.为了解春季昼夜温差大小与某种子发芽多少之间的关系,现在从4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天100颗种子浸泡后的发芽数,得到如下表格:
(1)从这5(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另3天的数据,
求出y 关于x 的线性回归方程
^
^^
t y b a =+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠? (参考数据:
3
3
21
1
977,434i i
i i i x y
x ==-==∑∑)
附:回归方程错误!未找到引用源。
中 错误!未找到引用源。
【答案】见解析
【解析】(1)所有的基本事件为(23,25),(23,30),(23,26),(23,16),(25,30),(25,26), (25,16),(30,26),(30,16),(26,16),共10个.
设“m ,n 均不小于25”为事件A ,则事件A 包含的基本事件为(25,30),(25,26),(30,26), 共3个.所以P (A )=3
10
.
(2)由数据得,另3天的平均数x =12,y =27,3x y =972,32
x =432,
33
2
1
1
977,434i i i i i x y x ==-==∑∑,所以=977-972434-432=52
,=27-5
2×12=-3,
所以y 关于x 的线性回归方程为=5
2
x -3.
(3)依题意得,当x =10时,=22,|22-23|<2;当x =8时,=17,|17-16|<2, 所以(2)中所得到的线性回归方程是可靠的.。