变量的相关关系与统计案例

合集下载

第十章第二节变量的相关性与统计案例

第十章第二节变量的相关性与统计案例

第二节变量的相关性与统计案例[考纲要求]1会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2. 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3•了解回归分析的思想、方法及其简单应用.4•了解独立性检验的思想、方法及其初步应用.突破点一回归分析抓牢双基•自学回扣[基本知识]1. 变量间的相关关系(1) 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2) 从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相垒点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. __________[基本能力]、判断题(对的打,错的打“X” )(1) 相关关系与函数关系都是一种确定性的关系,也是一种因果关系. ()(2) “名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ()(3) 只有两个变量有相关关系,所得到的回归模型才有预测价值. ()答案:⑴X (2)V (3) V二、填空题1•已知x, y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为y = 0.95x + a,则 a = _______ .答案:2.62•两个变量y与x的回归模型中,分别选择了4个不同模型,经计算得到它们的相关系数r的值如下表,其中拟合效果最好的模型是 ____________ .答案:模型1A A 103•已知变量x, y之间具有线性相关关系,其回归方程为y =- 3 + bx,若无X i= 17 ,i = 110 AZ yi= 4,则b的值为_________ .i= 1答案:2研透高考廉化提能[全析考法]考法一相关关系的判断•[例1](1)(20佃福建泉州月考)在下列各图中,两个变量具有相关关系的图是()°* * • » »\ I**:心* X②③A .①②B .①③C .②③D .②④(2)(2019昆明一中一模)若对于变量x的取值为3,4,5,6,7 时,变量y对应的值依次分别为4.0,2.5,—0.5,- 1,- 2;若对于变量u的取值为1,2,3,4时,变量v对应的值依次分别为2,3,4,6,则变量x和y,变量u和v的相关关系是()x 和y 是负相关,变量[解析]⑴①为函数关系;②为正相关关系;③为负相关关系;④没有明显相关性.(2)变量x 增加,变量y 减少,所以变量 x 和y 是负相关;变量 u 增加,变量v 增加, 所以变量u 和v 是正相关,故选 D.[答案]⑴C (2)D [方法技巧]判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关 系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.⑵相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.考法二 线性回归分析 •[例2] (2018全国卷n )下图是某地区2000年至2016年环境基础设施投资额 y(单位: 亿元)的折线图.为了预测该地区 2018年的环境基础设施投资额,建立了 y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y=-30.4 + 13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模 型②:y = 99+ 17.5t.(1) 分别利用这两个模型,求该地区 2018年的环境基础设施投资额的预测值; (2) 你认为用哪个模型得到的预测值更可靠?并说明理由.[解](1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y =- 30.4A.变量 B .变量 x 和y 是正相关,变量 x 和y 是正相关,变量 u 和v 是正相关 u 和v 是负相关 C .变量 x 和y 是负相关,变量 u 和v 是负相关u 和v 是正相关 D .变量+ 13.5X 19= 226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y= 99 + 17.5X 9 = 256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i )从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+ 13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010 年相对2009 年的环境基础设施投资额有明显增加,2010 年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y y= 99+ 17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii )从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1 亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)[方法技巧]1. 回归直线方程中系数的2种求法(1) 公式法:利用公式,求出回归系数y b,a y.(2) 待定系数法:利用回归直线过样本点中心(-x,-y )求系数.2. 回归分析的2 种策略(1) 利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(2) 利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数y b.[集训冲关]1. [考法一]四名同学根据各自的样本数据研究变量x, y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且?= 2.347x- 6.423;②y与x负相关且?=— 3.476x + 5.648;③y与x正相关且?= 5.437X+ 8.493;④y 与x 正相关且y y=- 4.326x- 4.578.其中一定不正确的结论的序号是( )A. ①②B. ②③C .③④D .①④解析:选D 正相关指的是y 随x 的增大而增大,负相关指的是 y 随x 的增大而减小, 故不正确的为①④. 2.[考法二]二手车经销商小王对其所经营的 A 型号二手汽车的使用年数x 与销售价格y(单位:万元/辆)进行整理,得到如下数据使用年数x 2 3 4 5 6 7 售价y 20 12 8 6.4 4.4 3 z = In y3.002.482.081.861.481.10z 关于x 的折线图,如图所示:(1)由折线图可以看出,可以用线性回归模型拟合 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测某辆 A 型号二手车当使用年数为 9年时售价约为多少.(b ,a 小数点后保留两位有效数字)参考公式:n _ iXi — x 如一y ' xy j — nx yi = 1“- i = 1A —— A ——------------ ,a = y — bx , n -2 — 2 xx i — nxi =1n— 1解:(1)由题意,知 x =-X (2 + 3 + 4+ 5+ 6 + 7) = 4.5,6z = * (3 + 2.48 + 2.08 + 1.86 + 1.48 + 1.10) = 2, 647.64 — 6 X 4.5 X 2…r =4.18X 1.53••• z 与x 的相关系数大约为—0.99,说明z 与x 的线性相关程度很高. A 47.64 — 6X 4.5 X 2 (2)b= 139— 6X 4.52•- a = z — b x = 2+ 0.36 X 4.5= 3.62, • z 与x 的线性回归方程是 z=— 0.36x + 3.62, 又z = lny ,「. y 关于x 的回归方程是,=e— 0.36x +3.620.36X 9+ 3.620.38令 x = 9,得 y = e = e ,•/ In 1.46〜0.38,「. y = 1.46, 即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.突破点二 独立性检验抓牢双基•自学回扣[基本知识]1. 分类变量变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. 2. 列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{X 1, X 2}和{y 1, y 2},其样本频数列联表(称为2X 2列联表)为y 1y 2 总计 X 1 a b a + b X 2 c d c + d 总计a + cb + da +b +c + dK 2=恒+—a +Cj [b + d (其中n = a + b +c +d 为样本容量),可利用独立性检验判6.366337 一0.99,型一 0.36,17.54.18,断表来判断“ X与Y的关系”.[基本能力]一、判断题(对的打“/ ,错的打“X” )(1) 事件X,Y关系越密切,则由观测数据计算得到的K2的值越大.()(2) 由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案:⑴“(2)X二、填空题1.下面是2 X 2列联表:则表中a, b的值分别为解析:•/ a+ 21 = 73,「.a= 52,又a + 22= b,「. b= 74.答案:52,742. 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2 X 2列联表:已知P(K2> 3.841)宀 0.05,2根据表中数据,得到K2的观测值k= 13X 20一10X 7〜4.844.则认为选修文科与23 X 27 X 20 X 30性别有关系出错的可能性为__________ .答案:5%3. (2019阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过 .答案:0.05研透高考廉化提能[典例](2018全国卷川)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式•为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人•第一组工人用第一种生产方式,第二组工人用第二种生产方式•根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:第一种生产方式第—种生产方式865 5 6 8 99 7 6 2701223456689877654332814 4 52 110 090(1) 根据茎叶图判断哪种生产方式的效率更高?并说明理由.(2) 求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:?2附: K2=nad二坐-(a+ b ]c+ d ]a+ c ]b+ d )P( K3^^)0. 0500, 0100. 001k3,8416,63516 828[解](1)第二种生产方式的效率更高.理由如下:(i )由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min ,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.(ii )由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min ,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.(iv )由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最7多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 上的最多,关于茎 7大致呈对称分布•又用两种生产方式的工人完成生产任务所需时间分 布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方 式完成生产任务所需的时间更少•因此第二种生产方式的效率更高.(以上给出了 4种理由,答出其中任意一种或其他合理理由均可得分 )列联表如下:⑶因为宀 節薦。

变量间的相关关系与统计案例

变量间的相关关系与统计案例

第二节 变量间的相关关系与统计案例1.变量间的相关关系:例1.下面现象间的关系属于线性相关关系的是( ) A .圆的周长和它的半径之间的关系B .价格不变条件下,商品销售额与销售量之间的关系C .家庭收入愈多,其消费支出也有增长的趋势D .正方形面积和它的边长之间的关系 演变1.下列关系中是函数关系的是( )A .球的半径长度和体积的关系B .农作物收获和施肥量的关系C .商品销售额和利润的关系D .产品产量与单位成品成本的关系例2.对变量x ,y 有观测数据(i x ,i y )(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据(i u ,i v )(i =1,2,…,10),得散点图2,由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关演变1.在一组样本数据1122(,),(,),,(,)n n x y x y x y ⋅⋅⋅(122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点(,)(1,2,,)i i x y i n =⋅⋅⋅都在直线112y x =+上,则这组样本数据的样本相关系数为( )A. -1B.0C.12D.1 例3.实验测得四组),(y x 的值为)5,4(),4,3(),3,2(),2,1(,则y 与x 之间的回归方程为( )A .1ˆ+=x yB .2ˆ+=x yC .12ˆ+=x yD .1ˆ+=x y 演变1.在回归直线方程中,b 表示( )A .当x 增加一个单位时,y 增加a 的数量B .当y 增加一个单位时,x 增加b 的数量C .当x 增加一个单位时,y 的平均增加量D .当y 增加一个单位时,x 的平均增加量演变2.工人月工资(x 元)与劳动生产率(x 千元)变化的回归直线方程为ˆ5080yx =+,下列判断不正确的是( )A .劳动生产率为1000元时,工资为130元B .劳动生产率提高1000元时,则工资提高80元C .劳动生产率提高1000元时,则工资提高130元D.当月工资为210元时,劳动生产率为2000元2.独立性检验:例1.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?例2.为考察数学成绩与物理成绩的关系,在高二年级随机抽取了300名学生,得到如下列联表:请你由表中的数据考察数学成绩与物理成绩之间是否有关系?并说明理由。

【精品课件】新教材一轮复习北师大版第10章第3讲变量间的相关关系、统计案例课件

【精品课件】新教材一轮复习北师大版第10章第3讲变量间的相关关系、统计案例课件

求得回归方程^y=0.67x+54.9.
零件数 x(个) 10 20 30 40 50
加工时间 y(min) 62
75 81 89
现发现表中有一个数据看不清,请你推断出该数据的值为__6_8__.
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
[解析] 由-x =30,得-y =0.67×30+54.9=75. 设表中的“模糊数字”为 a, 则 62+a+75+81+89=75×5,∴a=68.
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
返回导航
5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了 50 名 男顾客和 50 名女顾客,每位顾客对该商场的服务给出满意或不满意的评 价,得到下面列联表:
满意 不满意 男顾客 40 10 女顾客 30 20
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
考点一
相关关系的判断——自主练透
(1)(2021·四 川 资 阳 模
拟)在一次对人体脂肪含量和年龄关
系的研究中,研究人员获得了一组样
本数据,并制作成如图所示的人体脂
肪含量与年龄关系的散点图.根据该
图,下列结论中正确的是 ( )
返回导航
第十章 统计、统计案例
高考一轮总复习 • 数学(新高考)
积相近的 200 个地块,从这些地块中用简单随机抽样的方法抽取 20 个作
为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中 xi 和 yi 分别表 示第 i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计
20
20
20
算得xi=60,yi=1 200,

第3讲 变量间的相关关系与统计案例

第3讲 变量间的相关关系与统计案例

K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1

变量间的相关关系与统计案例

变量间的相关关系与统计案例

第3课时 变量间的相关关系与统计案例一、基础知识总结复习1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散分布在从左下角到右上角的区域内. ②负相关:从散点图上看,点散分布在从左上角到右下角的区域内. (2)线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. (3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法. ②回归方程:两个具有线性相关关系的变量的一组数据:11(,)x y ,22(,)x y ,…,(,)n n x y ,其回归方程为y bx a =+,其中,112222211()()()nniii ii i nniii i x x y y x y nx yxy x y b x xx x xnx====----===---∑∑∑∑,a y bx =-b 是斜率,a 是y 轴上的截距.0b 正相关,0b 负相关.③样本中心:(,)x y 叫做具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的样本点的中心. (4)样本相关系数:()()niix x y y xy x y r --==∑,用它来衡量两个变量间的线性相关关系的强弱. ①当r >0时,表明两个变量正相关; ②当r <0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近0, 表明两个变量的线性相关性越弱.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.(5)相关指数2R :① 22121()1()niii niii y y R y y ==-=--∑∑(线性回归模型中21R 0≤≤,且2R 越大拟合效果越好).②在含一个解释变量的线性相关关系中,22R r =,残差平方和越小,2R 越大.(6)总偏差平方和、残差平方和、回归平方和总偏差平方和:21()ni i y y =-∑;残差平方和21()ni i i y y =-∑;回归平方和21()ni i y y =-∑.残差的平方和越小,观测值更接近预报值,拟合效果越好,相关性也越强,预报更准确.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.一般地,假设有两个分类变量X 和Y ,它们的可能取值分别为{}12,x x 和{}12,y y ,则样本频数列联表(称为2×2列联表)为:随机变量22()()()()()n ad bc K a b a c b d c d -=++++ (其中n a b c d =+++为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”. 2K 越大,X 与Y 的无关性越小,相关性越强.二、基础知识过关判断下列结论的正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.(√) (3)通过回归方程y bx a =+可以估计和观测变量的取值和变化趋势.(√) (4)任何一组数据都对应着一个回归直线方程.(×)有线性和非线性拟合 (5)事件X ,Y 关系越密切,则由观测数据计算得到的2K 的观测值越大.(√) (6)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(√) (7)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√) (8)某同学研究卖出的热饮杯数y 与气温x (C )之间的关系,得回归方程 2.352147.767y x =-+,则气温为2℃时,一定可卖出143杯热饮.(×),只能预报不能确定(9)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)只能说相关的可能性大,但不能预报优秀程度 (10)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小(×).应越大 三、典型例题与练习20()P K k ≥ 0k 0.001 10.828 0.50 0.455 0.010 6.635 0.005 7.879 0.025 5.024 0.05 3.841 0.10 2.706 0.15 2.072 0.25 1.323 0.40 0.708[例1](1)对变量x ,y 有观测数据()i i x y ,(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据()i i u v , (i =1,2,…,10),得散点图2.由这两个散点图可以判断( ) A .变量x 与y 正相关,u 与v 正相关 B .变量x 与y 正相关,u 与v 负相关 C .变量x 与y 负相关,u 与v 正相关 D .变量x 与y 负相关,u 与v 负相关 解:由图1可知,各点整体呈递减趋势,x 与y 负相关;由图2可知,各点整体呈递增趋势,u 与v 正相关.选C(2)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( ) A .r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1 D .r 2<r 4<0<r 1<r 3解:因为正相关0r ,负相关0r ,132400 00r r r r ,,,∴又因为相关性越强,r 越大,从散点看(1)(2)相关性强,图象近似成直线了,24r r |24310r r r r ∴;故选A.练习1.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用21c xy c e =拟合时的相关指数为21R ,用拟合时的相关指数为22R , 则2212R R ;③x 、y 之间不能建立回归直线方程. 解:①显然正确;由散点图知,用21c xy c e =拟合的效果比用y bx a =+拟合的效果要好,2212R R ∴,故②正确;x ,y 之间能建立回归直线方程,只不过预报精度不高,故③不正确.故填:①②2.如图所示,有A ,B ,C ,D ,E 五组数据,去掉________组数据后,剩下的四组数据具有较强的线性相关关系. 解:因为散点图呈带状区域时有较强的线性相关关系,带关区域越窄,相关性越强,故去掉D 组数据.填写答案:D[例2]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:719.32i i y ==∑,7140.17i i i t y ==∑,0.55= 2.646≈.参考公式:相关系数1()()niii t t y y r =--=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,a y bt =-解:(1) 由折线图中数据得4t=,721()28i i t t =-=∑∴,0.55=0.55 1.1 2.646 2.9106=⨯=⨯=又7711()()7i i i i i i t t y y t y t y ==--=-∑∑∵,719.32i i y ==∑,7117i i y y ==∑∴777111()()40.1749.32 2.89i i i i i i i i t t y y t y t y ===--=-=-⨯=∑∑∑∴, 2.890.9932.9106r =≈因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2) 719.32i i y ==∑∵,7119.321.3377i i y y ===≈∑∴,又721()28i i t t =-=∑∵, 71()() 2.89i ii t t y y =--=∑∴, 2.890.1028b =≈∴,1.330.1040.93a y bt =-=-⨯=∴所以,y 关于t 的回归方程为0.930.1y t =+.根据年份代码,2016年对应t =9,0.930.109 1.83y =+⨯= 所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.练习.某公司为确定下一年度投入某种产品的宣 传费,需了解年宣传费x (单位:千元)对年 销售量y (单位:t)和年利润z (单位:千元)的 影响.对近8年的年宣传费x i 和年销售量 y i (i =1,2,…,8)数据作了初步处理,得 到下面的散点图及一些统计量的值.表中i i x ω=8118i i ωω==∑, (1)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为0.2z y x =-.根据(2)的结果回答下列问题: ①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率 和截距的最小二乘估计分别为:121()()()nii i nii uu v v uu β==--=-∑∑,v u αβ=-解:(1)由散点图可以判断,y c x =+适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)先作变换,令w =x ,则y c d ω=+,所以先建立y 关于w 的线性回归方程. 根据题目所给出的统计量有:81821()()108.8681.6()iii ii y y d ωωωω==--===-∑∑ 6.8,563y ω==∵,56368 6.8100.6c y d ω=-=-⨯=∴,100.668y ω=+∴,因此y 关于x 的回归方程为100.668y x =+(3)①由(2)知, 100.668y x =+所以当x =49时,年销售量y 的预报值100.66849576.6y =+=,0.2z y x =-∵∴年利润z 的预报值0.2576.64966.32z =⨯-=.②根据(2)的结果知,年利润z 的预报值:0.2(100.620.12z x x =+-=-+∵所以当13.66.82==时,即46.24x =时,z 取得最大值.[例3] 为了解某地区观众对某大型综艺节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众观看该节目的场数与所对应的人 数的表格:将收看该节目场数不低于13场的观众称为“歌迷”,已知“歌迷”中有10名女性.(1)根据已知条件完成如下2×2列联表,并判断我们能否有95%的把握认为是否为“歌迷”与性别有关?(2)将收看该节目所有场数(14场)的观众称为“超级歌迷”,已知“超级歌迷”中有2名女性,若从“超级歌迷”中任意选取2人,求至少有1名女性观众的概率. 注:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解:(1)由统计表可知,在抽取的100人中,“歌迷”有25人,非歌迷有75人,哥歌迷中有10名女性,所以男歌迷有15人,又因为100名观众中有55名女性,所以非歌迷中有45名女性,所以非歌迷的男性有30名,从而完成2×2列联表如下:2100(30104515)100 3.0303.8417525554533K ⨯-⨯==≈⨯⨯⨯所以我们没有95%的把握认为是否为“歌迷”与性别有关. (2)由统计表可知,“超级歌迷”有5人,其中2名女性,3名男性,记“从“超级歌迷”中任意选取2人,至少有1名女性观众”的事件为A ,因为从5名歌迷中任选2人的不同选法有2510C =种,其中有一名是女性的选法有11326C C =种,有两名女性的选法有221C =种, 16()0.710P A +==∴. [注] :1.独立性检验的一般步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值.(3)查表比较K 2与临界值的大小关系,作统计判断 2.两个分类变量x 和y 是否有关系的判断方法(1)当K 2≤2.706时,没有充分的证据判定变量x ,y 有关联,可以认为变量x ,y 没有关联; (2)当K 2>2.706时,有90%的把握判定变量x ,y 有关联; (3)当K 2>3.841时,有95%的把握判定变量x ,y 有关联; (4)当K 2>6.635时,有99%的把握判定变量x ,y 有关联; (5)当K 2>10.828时,有99.9%的把握判定变量x ,y 有关联.练习.大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞.某高校文学社从男女学生中各抽取50名同学调查他们对莫言作品的了解程度,结果如下:(1)试估计该校学生阅读莫言作品超过50篇的概率;(2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了解”,否则为“一般了解”.根据题意完成下表,并判断能否有75%的把握认为对莫言作品非常了解与性别有关?附:K 2=解:(1)由抽样调查表可知,学生阅读莫言作品在50篇以上的人有79人,所以估计该校学生阅读莫言作品超过50篇的概率约为79100.(2)因为阅读超过75篇的男生有30人,女生有25人,阅读不超过75篇的男生有20人,女生有25人,所以列联表如下:。

22 变量间的相关关系与统计案例-艺考生文化课百日冲刺

22 变量间的相关关系与统计案例-艺考生文化课百日冲刺

(二十二) 变量间的相关关系与统计案例1.下列两个变量之间的关系是相关关系的是A .正方体的棱长与体积B .单位面积产量为常数时,土地面积与产量C .日照时间与水稻的亩产量D .电压一定时,电流与电阻2.一位母亲记录了儿子3~9岁的身高,数据略,由此建立的身高与年龄的回归模型为,93.7319.7ˆ+=x y用这个模型预测这个孩子10岁时的身高,则正确的叙述是 .A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 左右D .身高在145.83 cm 以下3.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是423.1ˆ+=⋅x yA 523.1ˆ+=⋅x yB 08.023.1ˆ+=⋅x yC 23.108.0ˆ+=⋅x y D4.对分类变量X 与Y 的随机变量2K 的观测值k ,说法正确的是A .k 越大,“X 与y 有关系”的可信程度越小B .后越小,“X 与y 有关系”的可信程度越小C .尼越接近于O ,“X 与y 无关”的可信程度越小D .后越大,“X 与y 无关”的可信程度越大5.已知算与y 之间的几组数据如下表:则y 与x 的线性回归方程a bx y+=ˆ必过 A .点(2,2) B .点(1.5,0) C .点(1,2) D .点(1.5,4)为了判断主修统计专业是否与性别有关系,根据表中的数据,得到,844.430202723)7102013(5022≈⨯⨯⨯⨯-⨯⨯=K 因为≥2K ,841.3所以判定主修统计专业与性别有关系,那么 这种判断出错的可能性为7.某学生对其亲属30人的饮食习惯进行了一次调查,并用如图22 -1所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位学生说明其亲属30人的饮食习惯;(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析,附: ))()()(()(22d b c a d c b a bc ad n K ++++-=。

第九章 第三节 变量间的相关关系、统计案例

第九章  第三节  变量间的相关关系、统计案例

A.变量x与y正相关,u与v正相关 .变量 与 正相关 正相关, 与 正相关 B.变量x与y正相关,u与v负相关 .变量 与 正相关 正相关, 与 负相关 C.变量x与y负相关,u与v正相关 .变量 与 负相关 负相关, 与 正相关 D.变量x与y负相关,u与v负相关 .变量 与 负相关 负相关, 与 负相关
[究 疑 点] 究 1.相关关系与函数关系有何异同点? .相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 函数关系是一种确定关系, 不同点: 函数关系是一种确定关系 种非确定的关系; 种非确定的关系; (2)函数关系是一种因果关系,而相关关系不一定是因 函数关系是一种因果关系, 函数关系是一种因果关系 果关系,也可能是伴随关系. 果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 .根据独立性检验的基本思想, 关系,这样的结论一定是正确的吗? 关系,这样的结论一定是正确的吗? 提示:在实际问题中, 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如: 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 吸烟与肺癌是否有关时,通过收集、整理、分析数据, 我们得到“吸烟与患肺癌有关”的结论, 我们得到“吸烟与患肺癌有关”的结论,并且有超过 99%的把握说明吸烟与患肺癌有关系,或者这个结论 的把握说明吸烟与患肺癌有关系, 的把握说明吸烟与患肺癌有关系 出错的概率为0.01以下.但实际上一个人吸烟也不一 以下. 出错的概率为 以下 定会患肺癌, 定会患肺癌,这是数学中的统计思维与确定性思维差 异的反映. 异的反映.

第三节 变量间的相关关系、统计案例

第三节 变量间的相关关系、统计案例

第三节 变量间的相关关系、统计案例考试要求1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解回归分析的基本思想、方法及简单应用.4.了解独立性检验的基本思想、方法及其初步应用.[知识排查·微点淘金]知识点1 变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内 ,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.知识点2 两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程为y ^=b ^x +a ^,其中b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .(3)通过求总体偏差Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.[微提醒]回归直线y ^=b ^x +a ^必过样本点的中心x ,y 这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.知识点3 独立性检验 (1)2×2列联表设X ,Y 为两个分类变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d(2)独立性检验 利用随机变量K 2(也可表示为χ2)的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量)来判断“两个分类变量是否有关系”的方法称为独立性检验.[微提醒]根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.[小试牛刀·自我诊断]1.思考辨析(在括号内打“ √”或“×”)(1)散点图是判断两个变量是否相关的一种重要方法和手段.(√)(2)回归直线方程y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.(×) (3)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.(×) (4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.(√)2.(链接教材选修2-3 P 86例2)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25解析:在两个变量y 与x 的回归模型中,它们的相关指数R 2越接近于1,这个模型的拟合效果越好,观察选项可知0.98是相关指数最大的值.故选A .答案:A3.(链接教材必修3 P 94A 组T 2)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5),根据收集到的数据可知x =20,由最小二乘法求得回归直线方程为y ^=0.6x +48,则∑i =15y i =( )A .60B .120C .150D .300解析:选D 由题意,x =20,回归直线方程y ^=0.6x +48,所以y ^=0.6×20+48=60.则∑i =15y i =60×5=300.4.(链接教材选修2-3 P 97T 2)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2的观测值 k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为 . 答案:5%5.(忽视回归直线过样本点中心)已知变量x 和y 的统计数据如下表:x 3 4 5 6 7 y2.5344.56根据上表可得回归直线方程为y ^=b ^x -0.25,据此可以预测当x =8时,y ^=( ) A .6.4 B .6.25 C .6.55D .6.45解析:选C 由题中图表可知,x =5,y =4,因为回归方程经过样本的中心(x ,y ),则4=5b ^-0.25,得b ^=0.85,则回归方程为y ^=0.85x -0.25,再将x =8代入方程,得y ^=6.55.一、基础探究点——线性相关关系的判断(题组练透)1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.(2021·辽宁大连模拟)已知相关变量x和y的散点图如图所示,若用y=b1ln(k1x)与y =k2x+b2拟合时的相关系数分别为r1,r2,则比较r1,r2的大小结果为()A.r1>r2B.r1=r2C.r1<r2D.不确定解析:选C由散点图可知,y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;又因为此关系为负相关,∴-r1>-r2,r1<r2,故选C.判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.二、应用探究点——线性回归分析(思维拓展)[典例剖析][例1] (2020·全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1200,∑i =120(x i -x)2=80,∑i =120(y i -y)2=9000,∑i =120(x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,2≈1.414.解:(1)由已知得样本平均数y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑i =120(x i -x )(y i -y )∑i =120(x i -x)2∑i =120(y i -y )2=80080×9000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[学会用活]1.发展清洁能源,是改善能源结构、保障能源安全、推进生态文明建设的重要任务.十三五以来,我国加快调整能源结构,减少煤炭消费、稳定油气供应、大幅增加清洁能源比重,风电、光伏发电等可再生能源发电效率不断提高.据资料整理统计我国从2015年到2019年的年光伏发电量如表:(1)请用相关系数r 说明是否可用线性回归模型拟合年光伏发电量y 与x 的关系; (2)建立年光伏发电量y 关于x 的线性回归方程,并预测2021年年光伏发电量(结果保留整数).参考公式:相关系数r =∑i =1nx i y i -n x y∑i =1n(x i -x)2∑i =1n(y i -y )2,回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2,a ^=y -b ^x .解:(1)因为x =15(1+2+3+4+5)=3,∑i =15x i y i =23 574,∑i =15(x i -x)2∑i =15(y i -y )2≈4837.5,y =1251.2.所以相关系数r =∑i =1nx i y i -n x y∑i =1n (x i -x )2∑i =1n(y i -y )2=23 574-5×3×1251.24837.5≈0.993,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合. (2)因为∑i =15x 2i =12+22+32+42+52=55,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=23 574-5×3×1251.255-5×32=480.6,a ^=y -b ^x =1251.2-480.6×3=-190.6, 所以回归方程为y ^=480.6x -190.6,因为2021年所对应的年份编号为7,所以当x =7时,y ^=480.6×7-190.6≈3174. 故预计2021年年光伏发电量为3174亿千瓦时.三、应用探究点——独立性检验(思维拓展)[典例剖析][例2] (2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828解:(1)甲机床生产的产品中一级品的频率为150200=34;乙机床生产的产品中一级品的频率为120200=35.(2)由题意知, K 2=400×(150×80-120×50)2200×200×270×130≈10.256.由10.256>6.635知,有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表; (2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断. 2.解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体;②明确研究的两个问题; (2)两个准确:①准确画出2×2列联表;②准确理解K 2.[学会用活]2.(2020·新高考全国卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:SO 2PM2.5[0,50] (50,150] (150,475][0,35] 32 18 4 (35,75] 6 8 12 (75,115]3710(1)2”的概率; (2)根据所给数据,完成下面的2×2列联表:SO 2PM2.5[0,150] (150,475][0,75] (75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828解:(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:SO 2PM2.5[0,150] (150,475] [0,75] 64 16 (75,115]1010(3)根据(2)的列联表得K 2=100×(64×10-16×10)280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关.限时规范训练 基础夯实练1.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x解析:选D 由散点图可以看出,点大致分布在对数型函数的图象附近. 2.(2021·安徽合肥一中模拟)下列有关回归分析的论断不正确的是( ) A .若相关系数r 满足|r |越接近1,则这两个变量相关性越强 B .若相关指数R 2越大,则模型的拟合效果越好 C .若所有样本点都在y ^=b ^x +a ^上,则线性相关系数r =1D .残差图的带状区域的宽度越窄,模型拟合的精度越高,回归方程的预报精度越高 解析:选C 若所有样本点都在y ^=b ^x +a ^上,则线性相关系数r =1或-1,所以C 选项错误,故选C .3.(2021·河南洛阳月考)某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价x (元)和销售额y (元)的数据,整理得到下面的散点图:已知销售额y =单价x ×销量z ,根据散点图,下面四个回归方程类型中最适宜作为服装销量z 与单价x 的回归方程类型的是( )A .z =a +bxB .z =a +bxC .z =a +bx 2D .z =a +be x解析:选B 由散点图可知,y 与x 成线性相关,设回归方程为y =m +kx ,由题意z =yx ,所以z =mx+k ,对应B 最适合.故选B .4.(2021·安徽合肥二模)2020年初,从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民的生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量y 与温度x 的关系可以用模型y =c 1e c 2x 拟合,设z =ln y ,其变换后得到一组数据:x 20 23 25 27 30 z22.4334.6由上表可得线性回归方程z =0.2x +a ,则c 1=( )A .-2B .e -2 C .3D .e 3解析:选B 由表格数据知:x =15(20+23+25+27+30)=25,z =15(2+2.4+3+3+4.6)=3,代入z ^=0.2x +a ^得a ^=3-0.2×25=-2,∴z =0.2x -2,即ln y =0.2x -2,∴y =e 0.2x-2=e -2·e 0.2x ,∴c 1=e -2,故选B .5.(2021·黑龙江大庆模拟)下列描述中正确命题的个数为( ) ①最小二乘法的原理是使得∑i =1n[y i -(a +bx i )]2最小②样本相关系数r 越大,相关程度越大③设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 减少5个单位 A .0 B .1 C .2D .3解析:选B 对于①,最小二乘法是使得样本数据点到回归直线的距离的评分和最小的方法,即使得∑i =1n[y i -(a +bx i )]2最小,故①正确;对于②,相关系数r 为负数时,样本相关系数r 越大,相关程度越小,故②错误;对于③,变量x 增加一个单位时,y 平均减少5个单位,故③错误;所以正确命题的个数为1个.故选B .6.(2021·山西太原三模)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:由表中数据可得y 关于x 的回归方程为y =55x 2+m ,则据此回归模型相应于点(2,173)的残差为( )A .-5B .-6C .3D .2解析:选B 令t =x 2,则y =55t +m ,t =1+4+9+16+255=11,y =15+173+457+842+13335=564,所以564=55×11+m ,m =-41,所以y =55x 2-41,当x =2时,y =55×22-41=179,所以残差为173-179=-6.故选B .7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据.(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为 .解析:由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,解得a =68. 答案:688.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手 非生产能手总计 25周岁以上 25 35 60 25周岁以下10 30 40 总计3565100有 以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%9.(2021·安徽合肥模拟)树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A 树木,某农科所为了研究A 树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A 树木,调查得到A 树木根部半径x (单位:米)与A 树木高度y (单位:米)的相关数据如表所示:(1)求y 关于x (2)对(1)中得到的回归方程进行残差分析,若某A 树木的残差为零则认为该树木“长势标准”,在此片树林中随机抽取1棵A 树木,估计这棵树木“长势标准”的概率.参考公式:回归直线方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .解:(1)由x =16×(0.1+0.2+0.3+0.4+0.5+0.6)=0.35,y =16×(1.1+1.3+1.6+1.5+2.0+2.1)=1.6,∑i =16x i y i =0.1×1.1+0.2×1.3+0.3×1.6+0.4×1.5+0.5×2.0+0.6×2.1=3.71,∑i =16x 2i =0.12+0.22+0.32+0.42+0.52+0.62=0.91,有b ^=∑i =16x i y i -6x y∑i =16x 2i -6x2=3.71-6×0.35×1.60.91-6×0.352=2,a ^=y -b ^x =1.6-2×0.35=0.9,故y 关于x 的回归方程为y ^=2x +0.9.(2)当x =0.1时,y ^=2×0.1+0.9=1.1,残差为1.1-1.1=0, 当x =0.2时,y ^=2×0.2+0.9=1.3,残差为1.3-1.3=0, 当x =0.3时,y ^=2×0.3+0.9=1.5,残差为1.6-1.5=0.1, 当x =0.4时,y ^=2×0.4+0.9=1.7,残差为1.5-1.7=-0.2,当x =0.5时,y ^=2×0.5+0.9=1.9,残差为2.0-1.9=0.1, 当x =0.6时,y ^=2×0.6+0.9=2.1,残差为2.1-2.1=0, 由这6棵A 树木中残差为零的有3棵,占比为36=12,∴这棵树木“长势标准”的概率为12.综合提升练10.(2021·广东肇庆模拟)如图是相关变量x ,y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y ^=b 1x +a ^1,相关系数为r 1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y ^=b 2x +a ^2,相关系数为r 2.则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0解析:选D 根据相关变量x ,y 的散点图知,变量x ,y 具有负线性相关关系,且点(10,21)是离群值;方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以相关系数-1<r 2<r 1<0.故选D .11.(2021·南昌一模)某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且线性回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%解析:选D 因为y 与x 具有线性相关关系,且满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.12.为了丰富教职工业余文化生活,某校计划在假期组织70名教师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男教师选择方案一,有75%的女教师选择方案二,且选择方案一的教师中女教师占40%,则参照附表,得到的正确结论是( )附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”解析:选C 设该校男教师的人数为x ,女教师的人数为y ,则可得如下表格:方案一 方案二男老师 0.5x 0.5x x 女老师 0.25y 0.75y y0.5x +0.25y0.5x +0.75yx +y由题意0.25y 0.5x +0.25y =0.4,可得y x =43,可得x =30,y =40,则K 2=70×(15×30-15×10)225×45×30×40≈4.667>3.841,但4.667<5.024,所以无97.5%以上但有95%以上的把握认为“选择方案与性别有关”.故选C .13.(2020·安徽蚌埠市第三次质检)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则 (填“能”或“不能”)有99%以上的把握认为是否持乐观态度与国内外差异有关.附K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k 0)0.0500.0100.0050.001k 0 3.841 6.635 7.879 10.828解析:由题意可得列联表如下:不乐观 乐观 合计 国内代表 40 60 100 国外代表 60 40 100 合计100100200则K 2=200×(40×40-60×60)2100×100×100×100=8>6.635,所以有99%以上的把握认为是否持乐观态度与国内外差异有关.答案:能14.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数为 .解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.答案:1创新应用练15.(2021·江苏南通三模)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.下表是某市一主干道路口监控设备所抓拍的5个月内驾驶员不“礼让行人”行为统计数据:月份 1 2 3 4 5 违章驾驶人次1251051009080(1)y 关于x 的回归方程y ^=b ^x +a ^,并预测该路口7月份不“礼让行人”违规驾驶人次;(2)交警从这5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下表:不礼让行人礼让行人 驾龄不超过2年 24 16 驾龄2年以上2624结论判断的体会.附:b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x . K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 k 02.0722.7063.8415.0246.635解:(1)由表中数据知,x =1+2+3+4+55=3,y =125+105+100+90+805=100,所以∑i =15(x i -x )(y i -y )=-50-5+0-10-40=-105,∑i =1n(x i -x )2=4+1+0+1+4=10,所以b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2=-10510=-10.5,a^=100-(-10.5)×3=131.5.所以y^=-10.5x+131.5,所以令x=7,则y^=-10.5×7+131.5=58人,故预测该路口7月份不“礼让行人”违规驾驶人次为58人次.(2)根据表中的列联表补全得下表:故K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=90×(24×24-16×26)250×40×40×50≈0.58<2.706,所以没有90%的把握认为“礼让行人行为”与驾龄有关.礼让行人是一种良好的驾驶习惯,无论驾龄多少,都需遵守规章,礼让行人.。

变量间相关关系统计案例

变量间相关关系统计案例

1122211()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑学 校: 年 级: 教学课题:统计案例 学员姓名: 辅导科目:数学 学科教师:王光明教学目标 变量间的相关关系与统计案例教学内容考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。

基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,1222211()()ni ii nni i i i x y nx yr x nx y n y ===-•=--∑∑∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K=2()()()()()n ad bca b a c b d c d-++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A.【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).[来源:学科网]解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计60 50110由K 2=n ad -dc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”答案:A解析:∵K2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数1263861829261 4 乙厂:分组[29.86,29.90)[来源:学。

新课标理科数学第九章第四节变量间的相关关系、统计案例

新课标理科数学第九章第四节变量间的相关关系、统计案例

03 统计案例分析
线性回归分析案例
线性回归分析是研究两个或多个 变量之间关系的统计方法,其中 一个变量是因变量,另一个变量
是自变量。
线性回归分析案例可以包括研究 广告投入与销售额之间的关系、 研究温度与产品销售量之间的关
系等。
在线性回归分析中,需要确定自 变量和因变量,收集数据,进行 模型拟合和参数估计,最后进行
THANKS FOR WATCHING
感谢您的观看
描述性统计分析
Python的NumPy和Pandas库提供了描述性统计分析的功能,如求和、 平均值、中位数、标准差等。
相关性分析
Python可以使用Scipy库进行相关性分析,如计算皮尔逊相关系数、 斯皮尔曼秩相关等。
回归分析
Python的Scikit-learn库提供了多种回归分析方法,如线性回归、多 项式回归、岭回归等,可以根据研究目的选择合适的回归模型。
模型评估和预测。
非线性回归分析案例
非线性回归分析是研究非线性关系的统计方法,适用于自变量和因变量之间关系不 是线性的情况。
非线性回归分析案例可以包括研究药物剂量与疗效之间的关系、研究投资与回报之 间的关系等。
在非线性回归分析中,需要选择合适的非线性模型,进行模型拟合和参数估计,最 后进行模型评估和预测。
新课标理科数学第九章第四节变量 间的相关关系、统计案例
contents
目录
• 引言 • 变量间的相关关系 • 统计案例分析 • 统计软件应用 • 总结与思考
01 引言
主题简介
变量间的相关关系
探讨变量间关系的性质和特点, 包括线性相关和非线性相关。
统计案例
通过实际案例分析,了解相关关 系在各个领域的应用,如医学、 经济学、社会学等。

(旧教材适用)2023高考数学一轮总复习第十章统计统计案例第3讲变量间的相关关系与统计案例课件

(旧教材适用)2023高考数学一轮总复习第十章统计统计案例第3讲变量间的相关关系与统计案例课件

抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95




-x

1 16
16
x
i

9.97

s

i=1
1 16
16
xi--x 2

i=1
0.050 0.010
k0
3.841 6.635
附:K2=a+bcn+add-ab+cc2b+d.
0.005 7.879
0.001 10.828
解析 根据题目所给数据得到如下 2×2 列联表:
乐观
不乐观
总计
国内代表
60
40
100
国外代表
40
60
100
总计
100
100
200
则 K2=20100×0×6100×0×601-004×0×104002=8>6.635,所以有 99%的把握认为是否
∵y 与 x 的相关系数近似为 0.9966,说明 y 与 x 的线性相关程度相当强,
∴可以用线性回归模型拟合 y 与 x 的关系.
(3)建立 y 关于 x 的回归方程,预测第 5 年的销售量约为多少?
参考数据:
∑4
i=1
yi--y 2≈32.7,
5≈2.24,i∑=4 1xiyi=418.
参考公式:
(3)回归分析 ①定义:对具有 □06 相关关系的两个变量进行统计分析的一种常用方法. ②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),…, (xn,yn)中,-x =1n(x1+…+xn),-y =1n(y1+…+yn),a^ =-y -b^ -x ,(-x ,-y ) 称为样本点的中心.

变量间的相关关系、统计案例

变量间的相关关系、统计案例

2.独立性检验思想的理解 独立性检验的思想类似于反证法,即要确定“两个变量 X 与 Y 有关 系”这一结论成立的可信度,首先假设结论不成立,即它们之间没有关 系,也就是它们是相互独立的,利用概率的乘法公式可推知, (ad-bc) nad-bc2 接近于零,也就是随机变量 K = 应该很小,如 a+bc+da+cb+d
A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心( x , y ) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg
【名师点评】 求样本数据的线性回归方程的步骤 第一步,计算平均数 x , y ;
2 第二步,求和i∑ x y , ∑ x ; i i =1 i=1 i n n
∑ xi- x yi- y ∑ x y -n x y =1 =1 i i i i ^= 第三步,计算b = n 2 , n 2 2 ∑ xi- x ∑ x -n x i=1 i=1 i ^= y -b ^x; a ^x+a ^. 第四步,写出回归方程^ y=b
2
由于 9.967>6.635, 所以在犯错误的概率不超过 0.01 的前提下认为该 地区的老年人是否需要帮助与性别有关.
• (3)由(2)的结论知,该地区老年人是否需 要帮助与性别有关,并且从样本数据能看 出该地区男性老年人与女性老年人中需要 帮助的比例有明显差异,因此在调查时, 先确定该地区老年人中男、女的比例,再 把老年人分成男、女两层并采用分层抽样 方法,比采用简单随机抽样方法更好.
• 考向二 回归方程的求法及回归分析 • [例2] (2013年淄博模拟)某种产品的宣传 费支出x与销售额y(单位:万元)之间有如 下对应数据:

考点51 变量间的相关关系与统计案例

考点51 变量间的相关关系与统计案例

考点五十一 变量间的相关关系与统计案例知识梳理1.相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系. 2.散点图通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图. 3.正相关与负相关从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. 4.回归直线方程 (1)曲线拟合从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合. (2)线性相关在两个变量x 和y 的散点图中,若所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (3)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线y =a +bx 的接近程度,使得上式达到最小值的直线y =a +bx 就是所要求的直线,这种方法称为最小二乘法. (4)回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ,b 是待定参数. ⎩⎪⎨⎪⎧b =∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2,a =y -b x .说明:回归直线必过样本中心(x,y),但是样本数据不一定在回归直线上,甚至可能所有的样本数据点都不在直线上.5.相关系数相关系数r=∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2∑ni=1(y i-y)2=∑ni=1x i y i-n x y(∑ni=1x2i-n x2)(∑ni=1y2i-n y2);当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.6.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1;2×2列联表:构造一个随机变量χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.当χ2≤2.706时,没有充分的证据判定变量A,B有关联;当χ2>2.706时,有90%的把握判定变量A,B有关联;当χ>3.841时,有95%的把握判定变量A,B有关联;当χ>6.635时,有99%的把握判定变量A,B有关联.典例剖析题型一相关关系判断例1变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则________.①r2<r1<0 ②0<r2<r1③r2<0<r1④r2=r1答案③解析 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.变式训练 四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是________. 答案 ①④解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,x 与y 正相关,当b ^<0时,x 与y 负相关,所以①④一定错误.解题要点 判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱. 题型二 回归分析例2 已知x ,y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =________. 答案 1.45解析 ∵x =0+1+4+5+6+86=4,y =1.3+1.8+5.6+6.1+7.4+9.36=5.25,又y ^=0.95x +a 过(x ,y ),∴5.25=0.95×4+a ,得a =1.45. 变式训练 已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程y =2.1x +0.85,则m 的值为________. 答案 0.5解析 x =0+1+2+34=32,y =m +3+5.5+74=15.5+m4,把(x ,y )代入线性回归方程,15.5+m 4=2.1×32+0.85,m =0.5. 解题要点 回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).利用这一结论,可以快速求出回归方程中的参数.例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解析 (1)由题意,作散点图如图.(2)由对照数据,计算得∑i =14x i y i =66.5,∑i =14x 2i =32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35, 所以回归方程为y ^=0.7x +0.35.(3)当x =100时,y =100×0.7+0.35=70.35(吨标准煤),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).变式训练 (2015新课标Ⅰ文)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.5452504846444240表中w i =x i ,w =18∑i =18w i .(I)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(II)根据(I)的判断结果及表中数据,建立y 关于x 的回归方程;(III)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(II)的结果回答下列问题: (i )当年宣传费90x =时,年销售量及年利润的预报值时多少? (ii )当年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α^=v -β^u .解析 (I)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(II)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑i =18(w i -w )·(y i -y )∑i =18(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(III)(i )由(II)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.(ii )根据(II)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解题要点 (1)正确运用计算b ,a 的公式和准确的计算,是求线性回归方程的关键. (2)分析两变量的相关关系,可由散点图作出判断,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(3) 求解回归方程关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x -,y -,i =1∑n,i =1)x 2i ,i =1∑n,i =1)x i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x -,y -),即有y =b ^x -+a ^,可确定a ^. 题型三 相关分析例4 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是________.① 列联表中c 的值为30,b 的值为35 ② 列联表中c 的值为15,b 的值为50 ③根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”④根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案 ③解析 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到χ2=2105(10302045)55503075⨯⨯-⨯⨯⨯⨯≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.变式训练 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520名女性中,有6人患色盲. (1)根据以上数据建立一个2×2列联表;(2)若认为“性别与患色盲有关系”,求出错的概率. 解析 (1)2×2列联表如下:(2)0χ2=1 000×(38×514-6×442)2480×520×44×956≈27.14,又P (χ2≥10.828)=0.001,即H 0成立的概率不超过0.001,故若认为“性别与患色盲有关系”,则出错的概率为0.1%.解题要点 (1)独立性检验的关键是正确列出2×2列联表,并计算出χ2的值.(2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.当堂练习1.(2015湖北文)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是________.①x 与y 正相关,x 与z 负相关 ②x 与y 正相关,x 与z 正相关 ③x 与y 负相关,x 与z 负相关 ④x 与y 负相关,x 与z 正相关 答案 ③解析 因为y =-0.1x +1,-0.1<0,所以x 与y 负相关.又y 与z 正相关,故可设z =ay +b (a >0),所以z =-0.1ax +a +b ,-0.1a <0,所以x 与z 负相关. 2.(2014·湖北卷) 根据如下样本数据得到的回归方程为y =bx +a ,则________.①a >0,b <0 ②a >0,b >0 ③a <0,b <0 ④a <0,b >0 答案 ①解析 作出散点图如下:由图象不难得出,回归直线y ^=bx +a 的斜率b <0,截距a >0,所以a >0,b <0. 3. 通过随机询问110名大学生是否爱好某项运动,得到如下列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是________.① 有99%以上的把握认为“爱好该项运动与性别有关” ② 有99%以上的把握认为“爱好该项运动与性别无关”③ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” ④ 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 ①解析 因为7.8>6.635,所以选项①正确.4.下列有关样本相关系数的说法不正确的是________.①相关系数用来衡量变量x 与y 之间的线性相关程度 ②|r |≤1,且|r |越接近于1,相关程度越大 ③|r |≤1,且|r |越接近0,相关程度越小 ④|r |≥1,且|r |越接近1,相关程度越小 答案 ④5.两个相关变量满足如下关系:答案 y ∧=0.56x +997.4解析 回归直线经过样本中心点(20,1 008.6),经检验只有选项A 符合题意.课后作业一、 填空题1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为_____. 答案 1解析 根据相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是______. ①y 与x 具有正的线性相关关系 ②回归直线过样本点的中心(x ,y )③若该大学某女生身高增加1cm ,则其体重约增加0.85kg ④若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 答案 ④解析 由回归方程为y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-,所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以④不正确.3.(2015新课标II文)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图.以下结论不正确...的是________.①逐年比较,2008年减少二氧化硫排放量的效果最显著②2007年我国治理二氧化硫排放显现成效③2006年以来我国二氧化硫年排放量呈减少趋势④2006年以来我国二氧化硫年排放量与年份正相关答案④解析从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,①选项正确;2007年二氧化硫排放量较2006年降低了很多,②选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即③选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,④选项错误,故选④.4.下面是一个2×2列联表其中a,b处填的值分别为答案5274解析由a+21=73,得a=52,a+22=b,得b=74.5.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算K2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为________.答案99%解析因为K2=8.01>6.635,所以有99%以上的把握认为“喜欢乡村音乐与性别有关系”.6.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为________. 答案 3解析 由y =0.7x +0.35得2.5+t +4+4.54=0.7×3+4+5+64+0.35⇒11+t 4=3.5⇒t =3.7.(2014·江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是________.表1 表2表3 表4答案 阅读量解析 通过计算可得,表1中的χ2≈0.009,表2中的χ2≈1.769,表3中的χ2=1.300,表4中的χ2≈23.481.8.已知某车间加工零件的个数x 与所花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要的时间为________. 答案 6.5 h解析 将600代入线性回归方程y ^=0.01x +0.5中得需要的时间为6.5 h.9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________. 答案 5%解析 由K 2的观测值k ≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%. 10.考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________cm. 答案 56.19解析 根据回归方程y ^=1.197x -3.660,将x =50代入,得y =56.19,则肱骨长度的估计值为56.19 cm.11.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线的回归方程为________.答案 y ^=1.23x +0.08解析 设回归直线方程为y ^=1.23x +a ,由题意得:5=1.23×4+a ,得a =0.08,故回归方程为y ^=1.23x +0.08. 二、解答题12. (2013·重庆文)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a =y -b x ,其中x -,y -为样本平均值,线性回归方程也可写为y ∧=b ∧x +a ∧.解析 (1)由题意知n =10,x =1n ∑i =110x i =8010=8,y =1n ∑i =110y i =2010=2,又∑i =110x 2i -n x 2=720-10×82=80, ∑i =110x i y i -n x y =184-10×8×2=24,由此得b =∑i =110x i y i -n x y∑i =110x 2i -n x2=2480=0.3, a =y -b x =2-0.3×8=-0.4,故所求回归方程为y ∧=0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b =0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄约为y =0.3×7-0.4=1.7千元. 13.近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重,大气污染可引起心悸,呼吸困难等心肺疾病,为了解某市心肺疾病是否与性别有关,在某医院随机对入院50人进行了问卷调查,得到了如下的列联表.(1)(2)为了研究心肺疾病是否与性别有关,请计算出统计量K2,并回答有多大把握认为心肺疾病与性别有关?参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解析(1)在患心肺疾病人群中抽6人,则抽取比例为630=15,∴男性应该抽取20×15=4人.(2)∵K2≈8.333,且P(K2≥7.879)=0.005=0.5%,所以有99.5%的把握认为患心肺疾病与性别有关系.。

第十章 统计与概率10-3变量间的相关关系与统计案例

第十章  统计与概率10-3变量间的相关关系与统计案例

(3)利用回归直线方程对总体进行估计 ^ ^ ^ 若回归直线方程为y=bx+a,则在x=x0处的估计值: ^0=bx0+a. ^ y ^ (4)线性相关强度的检验: 对于变量x与y随机取到的n对数据(xi,yi),用y与x间 x y xi--yi--
i=1 n
的相关系数r= x y xi--2· yi--2
i=1 4 ^
所以,由最小二乘法确定的回归直线方程的系数 为:


(3)由(2)的回归方程及技改前生产100吨甲产 品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).

(2010·山东枣庄模考)某单位为了了解用电 量y(度)与气温x(℃)之间的关系,随机统计 了某4天的用电量与当天气温,并制作了对 照表: 18 13 10 -1 气温(℃)


疱疹面积不 疱疹面积小 合计 小于 2 于70mm 70mm2 注射药物 A a= b=
注射药物 nad-bc2 c= d= 2 附:χ = B a+bc+da+cb+d 合计
n=

[解析]
(1)
可以看出注射药物A后的疱疹面积的中位数 在65至70之间,而注射药物B后的疱疹面积 的中位数在70至75之间,所以注射药物A后 疱疹面积的中位数小于注射药物B后疱疹面 积的中位数. (2)表3: 疱疹面积 疱疹面积不 合计 小于 小于 70mm2 70mm2 100 注射药物A a=70 b=30 100 注射药物B c=35 d=65 105 95 合计 n=200
关关系,这条直线叫做回归直线. 数为:

(2)回归直线方程的求法——最小二乘法.
n n y x y xiyi-n x · xi--yi-- i=1 i=1 ^ = b= n n 2 2 x xi -n x xi--2 i=1 i=1 a=--b x ^ y ^ 1 n 1 n 其中 - = x i, - = y i,( - , - )称作样本点的中 x y x y n i=1 n i=1 心. ^ ^ a , b 表示由观察值用最小二乘法求得的a,b的估计 值,叫回归系数.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

变量的相关关系与统计案例[时间:45分钟分值:100分]基础热身1.对于自变量x和因变量y,当x取值一定时,y的取值带有一定的随机性,x,y之间的这种非确定性关系叫()A.函数关系B.线性关系C.相关关系D.回归关系2.分类变量X和A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强3.[2011·陕西卷] 设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图K56-1),以下结论中正确的是()图K56-1A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同4.[2011·长沙模拟] 2010年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月由表中数据算出线性回归方程y=bx+a中的b≈-2.气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月羽绒服的销售量约为________件.5.工人月工资y(元)关于劳动生产率x(千元)的回归方程为y=650+80x,下列说法中正确的个数是()①劳动生产率为1000元时,工资为730元;②劳动生产率提高1000元,则工资提高80元;③劳动生产率提高1000元,则工资提高730元;④当月工资为810元时,劳动生产率约为2000元.A.1 B.2 C.3 D.46.[2011·山东卷] 某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元7.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确 8.[2011·江西卷] 变量X 与Y 相对应的一组数据为(10,1),(11.3,2)(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 19.已知x 、y如果y 与x 呈线性相关,且线性回归方程为y =bx +132,则b =( )A.13 B .-12 C.12D .1 10.假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:若由资料可知y 对x 呈线性相关关系,且线性回归方程为y =a +bx ,其中已知b =1.23,请估计使用年限为20年时,维修费用约为________.11.[2011·南昌一模] 对一些城市进行职工人均工资水平x (千元)与居民人均消费水平y (元)统计调查后知,y 与x 具有相关关系,满足回归方程y =0.66x +1.562.若某被调查城市居民人均消费水平为7.675(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为________%(保留两个有效数字).12.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后进行统计假设是________________________________________________________________________.13.[2011·广东卷] 为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.14.(10分)[2011·山西大学附中模拟] 某中学采取分层抽样的方法从应届高三学生中按照性别抽出20.(1)3人中既有男生也有女生的概率;(2)用假设检验的方法分析有多大的把握认为该中学的高三学生选报文理科与性别有关?参考公式和数据:K2=n(ad-bc)2.15.(13分)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:(1)(2)求线性回归方程,并在散点图中加上回归直线;(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.难点突破16.(12分)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)(2)求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.(参考数据: 1.04≈1.02;由检验水平0.01及n-2=3,查表得r0.01=0.959)参考答案【基础热身】1.C[解析] 由相关关系的概念可知,C正确.故选C.2.C [解析] 因为K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d ),当(ad -bc )2越大时,K 2越大,说明X 与Y 关系越强.故选C.3.A [解析] 由题设给出的图象知两变量负相关,则相关系数为负值,则C 错,相关系数r 是研究相关性大小的,b 为直线的斜率,则B 错,回归分析得到的直线为与所有点距离和最小的,与点在直线两边的个数无关,D 错,故答案为A.4.46 [解析] 由给定的样本数据可知,该样本点的中心(x ,y )为(10,38),因为线性回归方程过样本点的中心,故38=-20+a ,所以a =58,∴y ^=-2x +58,故当x =6时,y ^=46.【能力提升】5.C [解析] 将数据代入方程计算可判断①②④正确.故选C.6.B [解析] x =4+2+3+54=3.5,y =49+26+39+544=42,由于回归方程过点(x ,y ),所以42=9.4×3.5+a ^,解得a ^=9.1,故回归方程为y ^=9.4x +9.1,所以当x =6时,y =6×9.4+9.1=65.5.7.C [解析] 根据独立性检验的思想知,选项C 正确. 8.C [解析] 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0.∴r 2<0<r 1. 故选C.9.B [解析] 因为x =3,y =5,又回归直线过点(x ,y ),所以5=3b +132,所以b =-12.10.22.68万元 [解析] 易得x =4,y =3,而b =1.23,代入回归方程得a =-1.92,所以,回归方程为y ^=1.23x -1.92,若使用年限为20年时,估计维修费用约为y ^=1.23×20-1.92=22.68.11.83 [解析] 将y =7.675代入回归方程得x =9.262,所以估计该城市人均消费额占人均工资收入的百分比约为7.6759.262≈0.83.12.小白鼠的死亡与电离辐射的剂量无关 [解析] 根据独立性检验的基本思想,可知类似反证法,即要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.对本题进行统计分析时的统计假设应是“小白鼠的死亡与剂量无关”.13.0.5 0.53 [解析] y =0.4+0.5+0.6+0.6+0.45=2.55=0.5;x =1+2+3+4+55=3.b ^=(x 1-x )(y 1-y )+…+(x 5-x )(y 5-y )(x 1-x )2+…+(x 5-x )2=0.01,a ^=y -b ^x =0.5-0.01×3=0.47,所以回归方程为:y =0.47+0.01x ,所以当x =6时,y =0.47+0.01×6=0.53.14.[解答] (1)设样本中两名男生分别为a ,b,5名女生分别为c ,d ,e ,f ,g ,则基本事件空间为:(abc ),(abd ),(abe ),(abf ),(abg ),(acd ),(ace ),(acf ),(acg ),(ade ),(adf ),(adg ),(aef ),(aeg ),(afg ),(bcd ),(bce ),(bcf ),(bcg ),(bde ),(bdf ),(bdg ),(bef ),(beg ),(bfg ),(cde ),(cdf ),(cdg ),(cef ),(ceg ),(cfg ),(def ),(deg ),(dfg ),(efg )共35种,其中既有男又有女的事件为前25种.故“抽出的3人既有男生又有女生”的概率为P =2535=57.(2)K 2=20×(50-6)27×13×12×8≈4.43>3.84,对照参考表格,结合考虑样本是抽取分层抽样抽取的,可知有95%以上的把握认为学生选报文理科与性别有关.15.[解答] (1)(2)x =15∑i =15x i =109,∑i =15 (x i -x )2=1570,y =23.2,∑i =15(x i -x )(y i -y )=308.设所求回归直线方程为y ^=b ^x +a ^, 则b ^=3081570≈0.1962,a ^=y -b ^x =23.2-109×3081570≈1.8166.故所求回归直线方程为y ^=0.1962x +1.8166.(3)据(2),当x =150 m 2时,销售价格的估计值为 y ^=0.1962×150+1.8166=31.2466(万元). 【难点突破】16.[解答] (1)由∑i =15(x i -x )(y i -y )=10,∑i =15(x i -x)2=20,∑i =15(y i -y )2=5.2,可得r =∑i =15(x i -x )(y i -y )∑i =15(x i -x)2∑i =15(y i -y )2=10104≈0.98. 即年推销金额y 与工作年限x 之间的相关系数约为0.98. (2)由(1)知,r =0.98>0.959=r 0.01,所以可以认为年推销金额y 与工作年限x 之间具有较强的线性相关关系.设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y )∑i =15(x i -x )2=1020=0.5,a ^=y -b ^x =0.4. 所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4.(3)由(2)可知,当x =11时,y ^=0.5x +0.4=0.5×11+0.4=5.9万元. 所以可以估计第6名推销员的年推销金额为5.9万元.。

相关文档
最新文档