【北师大版】高考数学《54相关性最玄乘估计与统计案例理》(解析版)
北师大版 高考数学 统计-相关性 知识梳理+要点导学+错题解析
②曲线上的点与该点的坐标之间的关系是一一对应的,即是
课 时
作
要 点
一种确定性关系,不具有相关关系.
业
导
学
第12页
第一章 §7
北师大版·数学·必修3
③柑橘的产量除了受气温影响以外,还受施肥量以及水分等
自 主
因素的影响,具有相关关系.
预
习
④森林中的同一种树木,其横断面直径随高度的增加而增
加,但是还受光照等因素的影响,具有相关关系.
课 时
作
要 点
图具有直观、简便的优点,通过散点图不但可以从点的位置判断
业
导
学 测量值的高低、大小、变动趋势或变化范围,还可以通过观察剔
除异常数据,从而提高用计算法估算相关程度的准确性,所以散
点图对于探究两种事物、两种现象之间的关系起着重要的作用.
第6页
第一章 §7
北师大版·数学·必修3
2.变量之间的相关关系
(1)相同点:两者均是指两个变量的关系.
课
(2)不同点:①函数关系是一种确定的关系,如匀速直线运动 时
作
要 点
中时间 t 与路程 s 的关系;相关关系是一种非确定的关系,如一
业
导
学 块农田的水稻产量与施肥量之间的关系.事实上,函数关系是两
个非随机变量的关系,而相关关系是非随机变量与随机变量的关
系.②函数关系是一种因果关系,而相关关系不一定是因果关系,
【错因分析】 许多学生不使用散点图,而直接通过数据判
自 主
断两个变量是否具备相关关系.
预
习
课
时
作
要
业
点
导
学
第28页
第一章 §7
北师大版版高考数学一轮复习算法初步统计与统计案例统计图表用样本估计总体教学案理解析版
[考纲传真] 1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.常用统计图表(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=错误!;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示错误!,每个小矩形的面积表示样本落在该组内的频率.(3)频率分布折线图和总体密度曲线1频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(4)茎叶图的画法:第一步:将每个数据分为茎(高位)和叶(低位)两部分;第二步:将各个数据的茎按大小次序排成一列;第三步:将各个数据的叶依次写在其茎的右(左)侧.2.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把错误!=错误!称为x1,x2,…,x n这n个数的平均数.(4)标准差与方差:设一组数据x1,x2,x3,…,x n的平均数为错误!,则这组数据的标准差和方差分别是s=错误!;s2=错误![(x1—错误!)2+(x2—错误!)2+…+(x n—错误!)2].错误!1.频率分布直方图中各小矩形的面积之和为1.2.频率分布直方图与众数、中位数与平均数的关系(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.3.若数据x1,x2,…,x n的平均数为错误!,方差为s2,则数据mx1+a,mx2+a,mx3+a,…,mx n+a的平均数是m错误!+a,方差为m2s2.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.(2)一组数据的方差越大,说明这组数据越集中. ()(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高.(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.()[答案] (1)√(2)×(3)√(4)×2.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数B[标准差反映样本数据的离散波动大小,故选B.]3.数据1,3,4,8的平均数与方差分别是()A.2,2.5B.2,10.5C.4,2D.4,6.5D[平均数为错误!=4,方差为错误!=6.5.]4.某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为()A.117 B.118C.118.5D.119.5B[22次考试中,所得分数最高的为98,最低的为56,所以极差为98—56=42,将分数从小到大排列,中间两数为76,76,所以中位数为76,所以此学生该门功课考试分数的极差与中位数之和为42+76=118.]5.(教材改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.48 [由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人). ]样本的数字特征的计算与应用1.在某次测量中,得到的A样本数据为81,82,82,84,84,85,86,86,86,若B样本数据恰好是A样本数据分别加2后所得的数据,则A,B两个样本的下列数字特征对应相同的是()A.众数B.平均数C.标准差D.中位数C[由题意可得A,B两组数据的众数分别是86和88,排除A;B组数据的平均数比A组数据的平均数大2,排除B;B组数据的中位数比A组数据的中位数大2,排除D;A,B两组数据的标准差相同,C正确,故选C.]2.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则()甲乙A.甲的成绩的平均数小于乙的成绩的平均数B.甲的成绩的中位数等于乙的成绩的中位数C.甲的成绩的方差小于乙的成绩的方差D.甲的成绩的极差小于乙的成绩的极差C[根据条形统计图可知甲的中靶情况为4环、5环、6环、7环、8环;乙的中靶情况为5环、5环、5环、6环、9环.错误!甲=错误!(4+5+6+7+8)=6,错误!乙=错误!(5×3+6+9)=6,甲的成绩的方差为错误!=2,乙的成绩的方差为错误!=2.4;甲的成绩的极差为4环,乙的成绩的极差为4环;甲的成绩的中位数为6环,乙的成绩的中位数为5环,综上可知C正确,故选C.]3.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x—y|的值为()A.1B.2C.3D.4D[由题意可知错误!∴错误!∴(x+y)2=x2+y2+2xy,即208+2xy=400,∴xy=96.∴(x—y)2=x2+y2—2xy=16,∴|x—y|=4,故选D.][规律方法] 众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(2)方差的简化计算公式:s2=错误![(x错误!+x错误!+…+x错误!)—n错误!2],或写成s2=错误!(x错误!+x错误!+…+x错误!)—错误!2,即方差等于原数据平方的平均数减去平均数的平方.【例1】某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产量的数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出品种A与B亩产量数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解] (1)画出茎叶图如图所示.(2)由于每个品种的数据都只有25个,样本容量不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且可以随时记录新的数据.(3)通过观察茎叶图可以看出:1品种A的亩产量的平均数(或均值)比品种B高;2品种A的亩产量的标准差(或方差)比品种B大,故品种A的亩产量的稳定性较差.[规律方法] 茎叶图中的两个关注点(1)重复出现的数据要重复记录,不能遗漏.(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.易错警示:茎叶图中数字大小排列不一定从小到大排列,一定要看清楚.气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数约为________.(该年为365天)(2)如图所示的茎叶图是甲、乙两位选手在某次比赛中的比赛得分,则下列说法正确的是()A.甲的平均数大于乙的平均数B.甲的中位数大于乙的中位数C.甲的方差大于乙的方差D.甲的平均数等于乙的中位数(1)146 (2)C[(1)该样本中AQI大于100的频数是4,频率为错误!,由此估计该地全年AQI大于100的频率为错误!,估计此地该年AQI大于100的天数约为365×错误!=146.(2)由茎叶图可知,错误!甲=错误!×(59+45+32+38+24+26+11+12+14)=29,错误!乙=错误!×(51+43+30+34+20+25+27+28+12)=30,s错误!=错误!×(302+162+32+92+52+32+182+172+152)≈235.3,s错误!=错误!×(212+132+02+42+102+52+32+22+182)≈120.9,甲的中位数为26,乙的中位数为28.所以甲的方差大于乙的方差.故选C.]频率分布直方图【例2】某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值.(2)求月平均用电量的众数和中位数.(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240]的用户中应抽取多少户?[解] (1)(0.002+0.009 5+0.011+0.0125+x+0.005+0.0025)×20=1,解得x=0.007 5.即直方图中x的值为0.007 5.(2)月平均用电量的众数是错误!=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,(0.002+0.009 5+0.011+0.0125)×20=0.7>0.5,∴月平均用电量的中位数在[220,240)内.设中位数为a,则0.45+0.0125×(a—220)=0.5,解得a=224,即中位数为224.(3)月平均用电量在[220,240]的用户有0.0125×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280)的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为错误!=错误!.∴月平均用电量在[220,240)的用户中应抽取25×错误!=5(户).[规律方法] 频率、频数、样本容量的计算方法(1)错误!×组距=频率.(2)错误!=频率,错误!=样本容量,样本容量×频率=频数.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125]频数62638228(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?[解] (1)如图所示:(2)质量指标值的样本平均数为错误!=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(—20)2×0.06+(—10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了1月至12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳A[对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半A[设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确.]。
高考数学一轮复习第10章统计统计案例及算法初步第3讲相关性与最玄乘估计统计案例课件文北师大版
x2
2 25 27
总计 b 46
则表中 a、b 处的值分别为____5_2_、_5_4____. 解析:因为 a+21=73,所以 a=52. 又因为 a+2=b,所以 b=54,
考点一 相关关系的判断
(2015·高考湖北卷)已知变量 x 和 y 满足关系 y=- 0.1x+1,变量 y 与 z 正相关.下列结论中正确的是( C ) A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关
1.有关线性回归的说法,不正确的是( D ) A.具有相关关系的两个变量是非确定关系 B.散点图能直观地反映数据的相关程度 C.回归直线最能代表线性相关的两个变量之间的关系 D.散点图中的点越集中,两个变量的相关性越强
2.(2016·石家庄模拟)某校为了研究学生的性别和对待某一活
动的态度(支持和不支持两种态度)的关系,运用 2×2 列联表进
2.最小二乘法 (1)最小二乘法 如果有 n 个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面 的表达式来刻画这些点与直线 y=a+bx 的接近程度:[y1- (a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2, 使得上式达到_最__小_值____的直线 y=a+bx 即为所求直线,这 种方法称为最小二乘法.
第十章 统计、统计案例及算法初步
第3讲 相关性与最小二乘估计、统计 案例
1.相关性 (1)线性相关 若两个变量 x 和 y 的散点图中,所有点看上去都在 __一__条_直__线______附近波动,则称变量间是线性相关的,此时
直线
可用一条_________________来拟合.
北师大版高中数学第十章 第3节相关性、最小二乘估计与统计案例
第3节相关性、最小二乘估计与统计案例最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.(2)回归直线方程的求法——最小二乘法.设具有线性相关关系的两个变量x,y的一组观察值为(x i,y i)(i=1,2,…,n),则回归直线方程y=a+bx的系数为:称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1.2×2列联表构造一个随机变量χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(2)独立性检验利用随机变量来判断“两个变量有关联”的方法称为独立性检验.(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B 是没有关联的;②当χ2>2.706时,有90%的把握判定变量A,B有关联;③当χ2>3.841时,有95%的把握判定变量A,B有关联;④当χ2>6.635时,有99%的把握判定变量A,B有关联.[微点提醒]1.求解回归方程的关键是确定回归系数a ,b ,应充分利用回归直线过样本中心点(x -,y -).2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y 值,仅是一个预报值,不是真实发生的值.基 础 自 测1.判断下列结论正误(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y =bx +a 可以估计预报变量的取值和变化趋势.( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)事件X ,Y 关系越密切,则由观测数据计算得到的χ2值越大.( ) 答案 (1)√ (2)√ (3)× (4)√2.(选修2-3P87问题提出)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验D.概率解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C3.(选修2-3P78讲解改编)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关系数r 如下,其中拟合效果最好的模型是( ) A.模型1的相关系数r 为0.98 B.模型2的相关系数r 为0.80 C.模型3的相关系数r 为0.50D.模型4的相关系数r 为0.25解析 在两个变量y 与x 的回归模型中,它们的相关系数r 越近于1,模拟效果越好,在四个选项中A 的相关系数最大,所以拟合效果最好的是模型1. 答案 A4.(2019·焦作模拟)已知变量x 和y 的统计数据如下表:x 3 4 5 6 7 y2.5344.56根据上表可得回归直线方程为y =bx -0.25,据此可以预测当x =8时,y =( ) A.6.4B.6.25C.6.55D.6.45解析 由题意知x =3+4+5+6+75=5,y =2.5+3+4+4.5+65=4,将点(5,4)代入y =bx -0.25,解得b =0.85, 则y =0.85x -0.25,所以当x =8时,y =0.85×8-0.25=6.55,故选C. 答案 C5.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案 D6.(2019·丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算χ2=6.705,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系”()A.95%B.99%C.1%D.5%解析因为6.705>6.635,因此有99%的把握认为“学生性别与支持该活动有关系”,故选B.答案 B考点一相关关系的判断【例1】(1)观察下列各图形,其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁R 0.820.780.690.85M 106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析(1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关系数r越大,相关性越强.若r>0,则正相关;r<0时,则负相关.3.线性回归直线方程中:b>0时,正相关;b<0时,负相关.【训练1】(1)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关系数为r1,用y=bx+a拟合时的相关系数为r2,则r1> r2;③x,y之间不能建立线性回归方程.解析(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z 正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x 与z负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y=bx+a拟合效果要好,则r1>r2,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案(1)C(2)①②考点二线性回归方程及应用【例2】(2018·西安调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:表1为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5得到下表2:表2(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程y=bx+a,其中b =∑ni =1x i y i -nx -·y -∑ni =1x 2i -nx -2,a =y --bx -)解 (1)t -=3,z -=2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b =45-5×3×2.255-5×9=1.2,a =z --bt -=2.2-3×1.2=-1.4, 所以z =1.2t -1.4.(2)将t =x -2 012,z =y -5,代入z =1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y =1.2x -2 410.8. (3)因为y =1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.规律方法 1.(1)正确理解计算b ,a 的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y =bx +a 必过样本点中心(x -,y -).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程.【训练2】 (2018·全国Ⅱ卷)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2, (17)建立模型①:y=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.考点三独立性检验【例3】(2019·湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:空气质优良轻度污染中度污染重度污染严重污染量等级某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:空气质量优良轻度污染中度污染重度污染严重污染天数11271173 1根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良空气质量污染总计限行前限行后总计解(1)因为限行分单双号,王先生的车被限行的概率为0.05,所以空气重度污染和严重污染的概率应为0.05×2=0.1,由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1, 按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A 1,A 2,A 3,A 4,空气中度污染的天气被抽取的有2天,记作B 1,B 2,从这6天中随机抽取2天,所包含的基本事件有(A 1,A 2),(A 1,A 3),(A 1,A 4),(A 1,B 1),(A 1,B 2),(A 2,A 3),(A 2,A 4),(A 2,B 1),(A 2,B 2),(A 3,A 4),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共15个,记事件A 为“至少有一天空气质量是中度污染”,则事件A 所包含的事件有(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(A 4,B 1),(A 4,B 2),(B 1,B 2),共9个,故P (A )=915=35,即至少有一天空气质量是中度污染的概率为35. (3)2×2列联表如下:由表中数据可得,χ2=240×(90×22-90×38)2180×60×128×112≈3.214>2.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表: (2)根据公式χ2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算χ2的值;(3)比较χ2的值与临界值的大小关系,作统计推断.【训练3】为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则有________的把握认为是否选修文科与性别有关系.解析χ2≈4.844>3.841,则有95%的把握认为是否选修文科与性别有关系.答案95%[思维升华]1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.独立性检验是根据χ2的值判断两个分类变量有关的可信程度.[易错防范]1.求回归方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.独立性检验中统计量χ2的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.基础巩固题组(建议用时:40分钟)一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2<r4<0<r3<r1,故选A.答案 A2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关系数r来刻画回归的效果,r值越接近于1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是()A.①②B.②③C.①③D.①②③答案 D3.在一次对性别与说谎是否相关的调查中,得到如下数据:说谎不说谎总计根据表中数据,得到如下结论正确的一项是( ) A.在此次调查中有95%的把握认为是否说谎与性别有关 B.在此次调查中有99%的把握认为是否说谎与性别有关 C.在此次调查中有90%的把握认为是否说谎与性别有关 D.在此调查中没有充分的证据显示说谎与性别有关解析 由已知得χ2=30×(6×9-7×8)213×17×14×16≈0.002<2.706,所以,在此调查中没有充分的证据显示说谎与性别有关. 答案 D4.(2019·衡水中学调研)已知变量x ,y 之间的线性回归方程为y =-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误..的是( )A.变量x ,y 之间呈负相关关系B.可以预测,当x =20时,y =-3.7C.m =4D.该回归直线必过点(9,4)解析 由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y =-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x -=14×(6+8+10+12)=9,y -=14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C错;由m =5,得y -=6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C. 答案 C5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,χ2=110×(40×30-20×20)260×50×60×50≈7.8.得到的正确结论是( )A.有99%的把握认为“爱好该项运动与性别有关”B.有99%的把握认为“爱好该项运动与性别无关”C.有95%的把握认为“爱好该项运动与性别有关”D.有95%以上的把握认为“爱好该项运动与性别无关”解析 根据独立性检验的定义,由χ2≈7.8>6.635,可知我们有99%的把握认为“爱好该项运动与性别有关”. 答案 A 二、填空题6.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =bx +a 中的b =-2,预测当气温为-4 ℃时,用电量约为________度.解析 根据题意知x -=18+13+10+(-1)4=10,y -=24+34+38+644=40.所以a=40-(-2)×10=60,y =-2x +60.所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度.答案 687.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计302050根据上述数据,有________的把握可推断视觉和空间想象能力与性别有关系. 解析 由列联表计算χ2=50(22×12-8×8)230×20×20×30≈5.556>3.841,所以,有95%的把握可推断视觉和空间想象能力与性别有关系. 答案 95%8.(2019·广东深中、华附、省实、广雅四校联考)如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y =bx +1,则b =________.解析 由题图知x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y =bx +1中,解得b =0.8. 答案 0.8 三、解答题9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.解(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.故所求的概率为P=610=0.6.(2)由题意,得χ2=80×(30×20-20×10)2(30+20)×(10+20)×(30+10)×(20+20)=163≈5.333>3.841.故有95%的把握认为“产品用户是否满意与性别有关”.10.调查某公司的五名推销员,其工作年限与年推销金额如下表:(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程; (3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额. 附:b =∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2,a =y --bx -. 解 (1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此, 工作年限与年推销金额正相关,即工作年限越长,年推销金额越大. (2)由表中数据可得:x -=15×(2+3+5+7+8)=5, y -=15×(3+3.5+4+6.5+8)=5,b =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=(-3)×(-2)+(-2)×(-1.5)+0+2×1.5+3×39+4+0+4+9=2126,a =y --bx -=5-2126×5=2526,∴年推销金额关于工作年限的回归直线方程为y =2126x +2526.(3)当x =10时,y =2126×10+2526=23526,∴预测工作年限为10年的推销员的年推销金额为23526万元.能力提升题组 (建议用时:20分钟)11.(2019·黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A.若χ2=6.678,则有99%的把握认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在有99%的把握认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出有99%的把握认为吸烟与患肺癌有关系,是指有99%的可能性使得判断正确D.以上三种说法都不正确解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出有99%的把握认为吸烟与患肺癌有关系,是指有99%的可能性使得判断正确.故选C. 答案 C12.(2019·承德期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是( )A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 ℃的月份有4个解析 在A 中,最低气温与最高气温为正相关,故A 正确; 在B 中,10月的最高气温不低于5月的最高气温,故B 正确;在C 中,月温差(最高气温减最低气温)的最大值出现在1月,故C 正确; 在D 中,最低气温低于0 ℃的月份有3个,故D 错误.故选D. 答案 D13.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:价格x 9 9.5 m 10.5 11 销售量y11n865由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y =-3.2x +40,且m +n =20,则其中的n =________. 解析 x -=9+9.5+m +10.5+115=8+m 5,y -=11+n +8+6+55=6+n5.回归直线一定经过样本中心(x -,y -), 即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案 1014.(2018·山东、湖北部分重点中学模拟)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加有n %,一般困难的学生中有3n %会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n %转为一般困难,特别困难的学生中有n %转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y (万元)近似满足关系式y =C 1·2C 2x ,其中C 1,C 2为常数(2013年至2019年该市中学生人数大致保持不变).y -k -∑5i =1(k i -k -)2∑5i =1(y i -y -)2∑5i =1(x i -x -)(y i -y -)∑5i =1(x i -x -)(k i -k -)2.31.23.14.621其中k i =log 2 y i ,k -=15∑5i =1k i . (1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程v =βu +α的斜率和截距的最小二乘估计分别为β=∑ni =1(u i -u -)(v i -v -)∑ni =1 (u i -u -)2,α=v --βu -.②解 (1)因为x -=15×(13+14+15+16+17)=15,所以∑5i =1(x i -x -)2=(-2)2+(-1)2+02+12+22=10.由k =log 2 y 得k =log 2 C 1+C 2x , 所以C 2=∑5i =1(x i -x -)(k i -k -)∑5i =1(x i -x -)2=110, log 2 C 1=k --C 2x -=1.2-110×15=-0.3,所以C 1=2-0.3=0.8,所以y =0.8×2x10.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元). 即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=14 000人,一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长0.8×21.8-0.8×21.70.8×21.7=20.1-1=0.1=10%,所以2018年该市特别困难的中学生有2 800×(1-10%)=2 520人. 很困难的的学生有4 200×(1-20%)+2 800×10%=3 640人, 一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).。
北师大版高三数学(理)一轮复习10.3《相关性、最小二乘估计与统计案例》ppt课件
-12-
12345
4.高三年级267位学生参加期末考试,某班37位学生的语文成绩、 数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙 为该班三位学生.
关闭
(1)由题图可知,甲的语文成绩排名比总成绩排名靠后;而乙的语文成绩排
名比从总这成次绩考排试名成靠绩前看.故, 填乙. (2)(由1)题在图甲可、知乙,比两丙人的中数,其学语成绩文排成名绩还名靠次后比的其人总比成较绩多;名而次总靠成绩前的的排学名生 是 中比丙排名靠后; 的人数比较少,所以丙的数学成绩的排名更靠前.故填数 关闭 学(1).(乙2)在(2语)数文学和数学两个科目中,丙同学的成绩名次更靠前的科目
得样本数据的点到回归直线的距离的平方和最小.
知识梳理
-5-
r= 5.相关系数:
������
������=∑1������������������������-������������ ������ ������=∑������1���������2��� -������������2 ������=∑������1���������2��� -������������2
10.3 相关性、最小二乘估计 与统计案例
考纲要求
-2-
考纲要求:1.会做两个有关联变量的数据的散点图,会利用散点图认 识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线 性回归方程系数公式建立线性回归方程(线性回归方程系数公式不 要求记忆). 3.了解回归分析的思想、方法及其简单应用. 4.了解 独立性检验的思想、方法及其初步应用.
①y与x负相关,且y=2.347x-6.423;
②y与x负相关,且y=-3.476x+5.648;
③y与x正相关,且y=5.437x+8.493;
北师大版高三数学一轮复习课件:第3讲 相关性、最小二乘估计与统计案例
Contents Page
第3讲 相关性、 最小二乘估计与统 计案例
考点精讲
基础诊断
判断正误
1.判断正误(在括号内打“√”或“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关 系.( ) ) (2)通过回归直线方程^ y =^ bx+^ a可以估计预报变量的取值和变化趋势.( 相关性检验.( ) )
相关系数的绝对值越接近于 1,相关性越强, 在四个选项中只有丁的相关系数最大; 残差平方和越小,相关性越强, 只有丁的残差平方和最小, 综上可知丁的试验结果体现了 A,B 两变量有更强的线性相关性. 答案 (1)C (2)D
考点一
相关关系的判 断
规律 方法 (1) 利用散点图判断两个变量是否有相关关系是比较直观简便的方
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行 (4)事件 X, Y 关系越密切, 则由观测数据计算得到的 K2 的观测值越大. (
考点突 破
考点一
[例 1] (1)(2015· 湖北卷)已知变量 x 和 y 满足关系 y=-0.1x+1,
相关关系的判 断
变量 y 与 z 正相关.下列结论中正确的是( A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关
解析 (1)由 y=-0.1x+1,知 x 与 y 负相关,
)
简答
即 y 随 x 的增大而减小,
又 y 与 z 正相关,所以 z 随 y 的增大而增大,减小而减小,
所以 z 随 x 的增大而减小,x 与 z 负相关,故选 C.
考点一
高考数学一轮复习第十一章统计与统计案例第三节相关性最玄乘估计回归分析与独立性检验课件文北师大版
①当χ2_≤__2_._7_0_6_时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没
有关联的;
②当χ2 _>_2_._7_0_6_时,有90%的把握判定变量A,B有关联;
③当χ2 _>_3_._8_4_1_时,有95%的把握判定变量A,B有关联;
④当χ2 _>_6_._6_3_5_时,有99%的把握判定变量A,B有关联.
2.线性回归方程与相关系数 (1)最小二乘法: 如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与 直线y=a+bx的接近程度: _[_y_1_-_(_a_+_b_x_1)_]_2_+_[_y_2_-_(_a_+_b_x_2)_]_2_+_…__+_[_y_n_-_(_a_+_b_x_n)_]_2_.使得 上式达到_最__小__值__的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.
看看远处,要保护好眼睛哦~站起来动一动,久坐对身 体不好哦~
结束语
同学们,你们要相信梦想是价值的源泉,相信成 功的信念比成功本身更重要,相信人生有挫折没 有失败,相信生命的质量来自决不妥协的信念, 考试加油。
复习课件
高考数学一轮复习第十一章统计与统计案例第三节相关性最玄乘估计回归分析与独立性检验课件文 北师大版
2021/4/17
高考数学一轮复习第十一章统计与统计案例第三节相关性最玄乘
1
估计回归分析与独立性检验课件文北师大版
第三节 相关性、最小二乘估计、 回归分析与独立性检验
内容索引
必备知识·自主学习 核心考点·精准研析 核心素养测评
【教材·知识梳理】 1.相关性 (1)散点图:在考虑两个量的关系时,为了对_变__量__之间的关系有一个大致的了解, 人们通常将_变__量__所__对__应__的点描出来,这些点就组成了变量之间的一个图,通常称 这种图为变量之间的散点图. (2)曲线拟合:从散点图上可以看出,如果变量之间_存__在__着__某__种__关__系__,这些点会有 一个_集__中__的大致趋势,这种趋势通常可以用一条_光__滑__的__曲__线__来近似,这样近似的 过程称为曲线拟合.
北师大版高三理科数学课后习题(含答案)课时规范练54相关性、最小二乘估计与统计案例
课时规范练54相关性、最小二乘估计与统计案例基础巩固组1.(2019湖南长郡中学一模,6)相关变量的样本数据如下表经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为y=0.5x+2.3,下列说法正确的是()A.x增加1时,y一定增加2.3B.变量x与y负相关C.当y为6.3时,x一定是8D.a=5.2x增加1时,y可能增加0.5,当y为6.3时,x可能为8,变量x与y正相关,x=1+2+3+4+5+6+77=4,y=2.9+3.3+3.6+4.4+4.8+a+5.97=24.9+a7,4×0.5+2.3=24.9+a7⇒a=5.2,故选D.2.(2019山东临沂三模,6)某产品近期销售情况如下表:根据上表可得回归方程为y=bx+13.8,据此估计,该公司8月份该产品的销售额为()A.19.05B.19.25C.19.5D.19.8=4,=2+3+4+5+65y=15.1+16.3+17.0+17.2+18.4=16.8,5∴16.8=4b+13.8,解得b=0.75,∴y=0.75x+13.8,取x=8,得y=0.75×8+13.8=19.8,故选D.3.某工厂为了对新研发的一种产物举行公道订价,将该产品按事先制定的代价举行试销,得到如下数据.由表中数据求得线性回归方程y=-4x+a,则x=10元时预测销量为件.由已知得x =16×(4+5+6+7+8+9)=132,y =16×(90+84+83+80+75+68)=80,∴a=80+4×132=106,∴x=10时,y=106-40=66,故答案为66.综合提升组4.已知具有线性相关的变量x ,y ,设其样本点为A i (x i ,y i )(i=1,2,…,8),回归直线方程为y=12x+a ,若OA 1⃗⃗⃗⃗⃗⃗⃗⃗ +OA 2⃗⃗⃗⃗⃗⃗⃗⃗ +…+OA 8⃗⃗⃗⃗⃗⃗⃗⃗ =(6,2)(O 为原点),则a=( ) A .18B.-18C .14D.-14OA 1⃗⃗⃗⃗⃗⃗⃗⃗ +OA 2⃗⃗⃗⃗⃗⃗⃗⃗ +…+OA ⃗⃗⃗⃗⃗ 8=(x 1+x 2+…+x 8,y 1+y 2+…+y 8)=(8x ,8y )=(6,2),所以8x =6,8y =2⇒x =34,y =14,因此14=12×34+a ,即a=-18,故选B .5.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关干系,设其回归直线方程为y=bx+a.已知xi=225,yi=1 600,b=4.该班某学生的脚长为24厘米,据此估计其身高为 厘米.∑i=110x i =225,∑i=110y i =1 600,利用平均值公式求得x =22.5,y =160,∵b=4,∴a=160-4×22.5=70,∴当x=24时,y=4×24+70=166,故答案为166.6.(2019山东德州高三一模,19)改革开放以来,我国经济连续高速增长.如图给出了我国2003年至2012年第二产业增加值与第一产业增加值的差值(以下简称为:产业差值)的折线图,记产业差值为y(单位:万亿元).注:年份代码1—10分别对应年份2003—2012 (1)求出y 关于年份代码t 的线性回归方程;(2)利用(1)中的回归方程,分析2003年至2012年我国财产差值的变革环境,并预测我国产业差值在哪一年约为34万亿元; (3)联合折线图,试求出除去2007年产业差值后剩余的9年产业差值的平均值及方差(结果精确到0.1).附:回归直线的斜率和截距的最小二乘估计公式分别为:b=∑i=1n(t i -t )(y i -y )∑i=1n(t i-t )2,a=y -b t.样本方差公式:s 2=1n∑i=1n(y i -y )2.参考数据:y =110∑i=110y i =10.8,∑i=110(t i -t )(y i -y )=132,∑i=110(y i -y )2=211.6.(1)t =110(1+2+3+…+9+10)=5.5,∑i=1n(t i -t )2=(t 1-t )2+…+(t 10-t )2=2×(4.52+3.52+2.52+1.52+0.52)=82.5.b ^=13282.5=1.6,a ^=y −b ^t =10.8-1.6×5.5=2,故回归方程是y=1.6t+2.(2)由(1)知,b=1.6>0,故2003年至2012年我国财产差值逐年增长,平均每年增加1.6万亿元.令1.6t+2=34,解得t=20,故预测在2022年我国产业差值为34万亿元.(3)联合折线图,2007年产业差值为10.8万亿元,除去2007年(t=5时)产业差值外的9年的产业差值平均值为(10×10.8-10.8)=10.8.又因为(yi-)2=211.6,故除去2007年(t=5时)产业差值外的9年的产业差值的方差为[211.6-(10.8-10.8)2]≈23.5.创新应用组7.(2019河北衡水质检(四),7)某研究机构在对具有线性相关的两个变量x 和y 举行统计分析时,得到如下数据:由表中数据求得y关于x的回归方程为y=0.8x+a,则在这些样本点中任取一点,该点落在回归直线上方的概率为( )A.14B.12C.34D.45x=1+2+3+44=52,y=12+32+2+34=74,∴74=0.8×52+a,∴a=-14,因此点(4,3),(2,32)在回归直线y=0.8x-0.25上方,概率为24=12,故选B.。
高考数学一轮复习第10章统计统计案例及算法初步第3讲相关性与最玄乘估计统计案例知能训练轻松闯关理北师大
第3讲 相关性与最小二乘估计、统计案例1.已知变量x ,y 呈线性相关关系,线性回归方程为y =0.5+2x ,则变量x ,y 是( )A .线性正相关关系B .由回归方程无法判断其正负相关C .线性负相关关系D .不存在线性相关关系 解析:选A .随着变量x 增大,变量y 有增大的趋势,则x ,y 称为正相关.2.(2016·衡水调研)某产品的广告费用x 与销售额y 的统计数据如下表.根据下表可得回归方程y =bx +a 中的b =10.6,据此模型预报广告费用为10万元时销售额为( )A.112.1万元 C .111.9万元 D .113.9万元解析:选C .因为(x ,y)在回归直线y =bx +a 上,且x =14(4+2+3+5)=72,y =14(49+26+39+58)=43,将⎝ ⎛⎭⎪⎫72,43代入y =10.6x +a 中得a =5.9,所以y =10.6x +5.9,当x =10时,y =106+5.9=111.9.所以广告费用为10万元时销售额为111.9万元.3.(2016·济南模拟)某餐厅的原料费支出x 与销售额y(单位:万元)之间有如下数据,根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y =8.5x +7.5,则表中m 的值为( )A.50 C .60 D .65解析:选C .x =15(2+4+5+6+8)=5,y =15(25+35+m +55+75)=38+15m.又回归直线必经过样本中心点,于是有8.5×5+7.5=38+15m ,解得m =60. 4.通过随机询问110由χ2=n (ad -(a +b )(c +d )(a +c )(b +d ), 算得χ2=110×(40×30-20×20)260×50×60×50≈7.8. 附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析:选C .根据独立性检验的定义,由χ2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C .5.(2016·嘉兴联考)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2已知P(χ2≥3.841)≈0.05,P(χ根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为______.解析:因为χ2≈4.844,根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%6.春节期间,某销售公司每天销售某种取暖商品的销售额y(单位:万元)与当天的平均气温x(单位:℃)有关.现收集了春节期间这个销售公司4天的x 与y 的数据列于下表:bx +a 的系数b =-125,则a =________. 解析:由表中数据可得x -=-4,y -=25,所以线性回归方程y =-125x +a 过点(-4,25),代入方程得25=-125×(-4)+a ,解得a =775. 答案:7757.(2016·山西省四校联考)近几年出现各种食品安全问题,食品添加剂会引起血脂增高、血压增高、血糖增高等疾病.为了解三高疾病是否与性别有关,医院随机对入院的60人进(1)9人,其中女性抽取多少人?(2)为了研究三高疾病是否与性别有关,请计算出统计量χ2,并说明你有多大的把握认为患三高疾病与性别有关?下面的临界值表供参考:(参考公式χ2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d) 解:(1)。
2018一轮北师大版理数学教案:第9章 第4节 相关性、最小二乘估计与统计案例 含解析 精品
第四节相关性、最小二乘估计与统计案例[考纲传真] 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及其简单应用.1.相关性(1)线性相关若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的.(2)非线性相关若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关的.(3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.2.最小二乘估计(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(x n,y n)可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[y n-(a +bx n)]2.使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.(2)线性回归方程方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的线性回归方程,其中a,b是待定参数.3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,(x,y)称为样本点的中心.(3)相关系数r①r=∑i=1nx i y i-n x y∑i=1nx2i-n x2∑i=1ny2i-n y2;②当r>0时,称两个变量正相关.当r<0时,称两个变量负相关.当r=0时,称两个变量线性不相关.4.独立性检验若一个2×2列联表为:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).(1)当χ2≤2.706时,可以认为变量A,B是没有关联的;(2)当χ2>2.706时,有90%的把握判定变量A,B有关联;(3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联.1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )(4)若事件A ,B 关系越密切,则由观测数据计算得到的χ2的值越小.( ) [答案] (1)√ (2)× (3)× (4)×2.(2017·南昌一模)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A .y =0.4x +2.3B .y =2x -2.4C .y =-2x +9.5D .y =-0.3x +4.4A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5)在回归直线上,排除B ,选项A 满足.]3.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图9-4-1A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关D[对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是()A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系D[只有χ2>6.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”,而即使χ2>6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D正确.] 5.(教材改编)若8名学生的身高和体重数据如下表:第3名学生的体重漏填,但线性回归方程是y=0.849x-85.712,则第3名学生的体重估计为________kg.50[设第3名学生的体重为a,则18(48+57+a+54+64+61+43+59)=0.849×18(165+165+157+170+175+165+155+170)-85.712.解得a≈50.]与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关(2)x和y的散点图如图9-4-2所示,则下列说法中所有正确命题的序号为________.图9-4-2①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关系数的平方为r21,用y=bx +a拟合时的相关系数的平方为r22,则r21>r22;③x,y之间不能建立线性回归方程.(1)C(2)①②[(1)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z 负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y=bx+a拟合效果要好,则r21>r22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.] [规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.若所有点看上去都在一条直线附近波动,则称变量间是线性相关的.2.判断两个变量正相关还是负相关,有三种方法:(1)利用散点图.(2)利用相关系数r的符号.当r>0时,正相关;r<0时,负相关.(3)在已知两变量线性相关时,也可以利用回归方程y=a+bx.当b>0时,两变量是正相关,当b<0时,两变量是负相关.[变式训练1]某公司利润y与销售总额x(单位:千万元)之间有如下对应数据:[解]散点图如下:由散点图可以看出各点在一条直线附近且利润随销售总额的增加而增大,它们之间不仅具有相关关系,而且呈正相关.量(单位:亿吨)的折线图.图9-4-3注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =∑ni =1 (t i -t )(y i -y )∑ni =1(t i -t )2∑ni =1 (y i -y )2,回归方程y =a +bt中斜率和截距的最小二乘估计公式分别为b =∑ni =1(t i -t )(y i -y )∑ni =1(t i -t )2,a =y --b t .[解] (1)由折线图中的数据和附注中的参考数据得t =4,∑7i =1(t i -t )2=28,∑7i =1 (y i -y )2=0.55, 2分∑7i =1(t i -t )(y i -y )=∑7i =1t i y i -t ∑7i =1y i =40.17-4×9.32=2.89,所以r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.5分(2)由y =9.327≈1.331及(1)得b =∑7i =1(t i -t )(y i -y )∑7i =1(t i -t )2=2.8928≈0.103.8分a =y -b t ≈1.331-0.103×4≈0.92.所以y 关于t 的回归方程为y =0.92+0.10t . 10分将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.12分[规律方法] 1.在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.2.(1)正确运用计算b ,a 的公式和准确的计算,是求线性回归方程的关键.(2)回归直线y =bx +a 必过样本点的中心(x ,y ).[变式训练2] (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为: b =∑ni =1 (t i -t -)(y i -y -)∑ni =1 (t i -t -)2,a =y --b t -. [解] (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4, y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, ∑7i =1(t i -t -)2=9+4+1+0+1+4+9=28, 3分∑7i =1(t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b =∑7i =1(t i -t -)(y i -y -)∑7i =1 (t i -t -)2=1428=0,5, a =y --b t -=4.3-0.5×4=2.3,所求回归方程为y=0.5t+2.3. 6分(2)由(1)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 9分将2015年的年份代号t=9代入(1)中的回归方程,得y=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元. 12分生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图9-4-4所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12).估计该校学生每周平均体育运动时间超过4小时的概率;图9-4-4(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:χ2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).[解](1)利用分层抽样,300×4 50015 000=90,所以应收集90位女生的样本数据. 4分(2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75. 8分(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.10分又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表χ2=300×(45×60-165×30)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.12分[规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表;(2)根据公式χ2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算χ2的值;(3)比较χ2与临界值的大小关系,作统计推断.[变式训练3] (2017·济南联考)某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:χ2=(a +b )(c +d )(a +c )(a +d ).[解] (1)x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为 x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).5分(2)根据条件可得2×2列联表如下:χ2=≈6.27<6.635,10×40×18×32∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”. 12分[思想与方法]1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.根据χ2的值可以判断两个分类变量有关的可信程度.[易错与防范]1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量χ2的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.。
2020版高考数学(理科)北师大版一轮复习课时规范练54 相关性、最小二乘估计与统计案例Word版含解析
课时规范练54相关性、最小二乘估计与统计案例基础巩固组1.(2018福建莆田模拟,3)设一个线性回归方程y=3+1.2x,当变量x每增加一个单位时,则y的变化情况正确的是()A.y平均增加约1.2个单位B.y平均增加约3个单位C.y平均减少约1.2个单位D.y平均减少约3个单位2.(2018黑龙江模拟十,6)下列表格所示的五个散点,原本数据完整,且利用最小二乘法求得这五个散点的线性回归直线方程为y=0.8x-155,后因某未知原因使第5组数据的y值模糊不清,此位置数据记为m(如下表所示),则利用回归方程可求得实数m的值为()A.8.3B.8.2C.8.1D.83.(2018广东佛山二模,5)某同学用收集到的6组数据对(x i,y i)(i=1,2,3,4,5,6)制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线l的方程为y=bx+a,相关系数为r.现给出以下3个结论:①r>0;②直线l恰好过点D;③b>1.其中正确结论是()A.①②B.①③C.②③D.①②③4.(2018辽南协作校一模,3)根据如下样本数据得到回归直线方程y=bx+a,其中a=10.5,则当x=6时,y 的估计值是()A.57.5B.61.5C.64.5D.67.55.(2018黑龙江仿真模拟十一,5)某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:使用智能手机不使用智能手机总计附表:经计算χ2=10,则下列选项正确的是()A.有99%的把握认为使用智能手机对学习有影响B.有99%的把握认为使用智能手机对学习无影响C.有95%的把握认为使用智能手机对学习有影响D.有95%的把握认为使用智能手机对学习无影响6.(2018河南洛阳质检,13)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟订的价格进行试销,得到如下数据.由表中数据求得线性回归方程y=-4x+a,则x=10元时预测销量为件.7.(2018河南商丘模拟,19)已知具有线性相关关系的两个变量x,y之间的几组数据如下表所示:(1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a,并估计当x=20时,y 的值;(2)将表格中的数据看作五个点的坐标,则从这五个点中随机抽取2个点,求恰有1个点落在直线2x-y-4=0右下方的概率.参考公式:b=,a=-b.综合提升组8.(2018河北保定一模,3)已知具有线性相关的变量x,y,设其样本点为A i(x i,y i)(i=1,2,…,8),回归直线方程为y=x+a,若+…+=(6,2),(O为原点),则a=()A. B.- C. D.-9.(2018安徽合肥一中最后1卷,文13)为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y=bx+a.已知x i=225,y i=1 600,b=4.该班某学生的脚长为24 cm,据此估计其身高为cm.10.(2018安徽蚌埠一模,文19)某图书公司有一款图书的历史收益率(收益率=利润÷每本收入)的频率分布直方图如图所示:(1)试估计平均收益率;(用区间中点值代替每一组的数值)(2)根据经验,若每本图书的收入在20元的基础上每增加x元,对应的销量y(万本)与x(元)有较强线性相关关系,从历史销售记录中抽样得到如下5组x与y的对应数据:据此计算出的回归方程为y=10.0-bx.①求参数b的估计值;②若把回归方程y=10.0-bx当作y与x的线性关系,x取何值时,此产品获得最大收益?求出该最大收益.11.(2018山东日照5月校际联考,19)为了缓解日益拥堵的交通状况,不少城市实施车牌竞价策略,以控制车辆数量.某地车牌竞价的基本规则是:①“盲拍”,即所有参与竞拍的人都要网络报价一次,每个人不知晓其他人的报价,也不知道参与当期竞拍的总人数;②竞价时间截止后,系统根据当期车牌配额,按照竞拍人的出价从高到低分配名额.某人拟参加2018年5月份的车牌竞拍,他为了预测最低成交价,根据竞拍网站的数据,统计了最近5个月参与竞拍的人数(见下表):(1)由收集数据的散点图发现,可用线性回归模型拟合竞拍人数y(万人)与月份编号t之间的相关关系.请用最小二乘法求出y关于t的线性回归方程:y=bt+a,并预测2018年5月份参与竞拍的人数.(2)某市场调研机构从拟参加2018年5月份车牌竞拍人员中,随机抽取了200人,对他们的拟报价价格进行了调查,得到如下频数分布表和频率分布直方图:①求a,b的值及这200位竞拍人员中报价大于5万元的人数;②若2018年5月份车牌配额数量为3 000,假设竞拍报价在各区间分布是均匀的,请你根据以上抽样的数据信息,预测(需说明理由)竞拍的最低成交价.参考公式及数据:①y=bx+a,其中b=,a=-b;②=55,t i y i=18.8.创新应用组12.(2018黑龙江哈尔滨三中一模,10)千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,哈三中积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计:根据上表可得回归方程y=bx+a中的b为1.35,我校2018届同学在学科竞赛中获省级一等奖以上学生人数为63人,据此模型预报我校今年被清华、北大等世界名校录取的学生人数为()A.111B.115C.117D.12313.(2018湖北七校联盟2月联考,19)已知鸡的产蛋量与鸡舍的温度有关,为了确定下一个时段鸡舍的控制温度,某企业需要了解鸡舍的温度x(单位:℃),对某种鸡的时段产蛋量y(单位:t)和时段投入成本z(单位:万元)的影响,为此,该企业收集了7个鸡舍的时段控制温度x i和产蛋量y i(i=1,2,…,7)的数据,对数据初步处理后得到了如图所示的散点图和表中的统计量的值.(x i-)(y i-)(x i-)(k i-)其中k i=ln y i,k i.(1)根据散点图判断,y=bx+a与y=c 1哪一个更适宜作为该种鸡的时段产蛋量y关于鸡舍时段控制温度x的回归方程类型?(给判断即可,不必说明理由)(2)若用y=c 1作为回归方程模型,根据表中数据,建立y关于x的回归方程;(3)已知时段投入成本z与x,y的关系为z=e-2.5y-0.1x+10,当时段控制温度为28 ℃时,鸡的时段产蛋量及时段投入成本的预报值分别是多少?附:①对于一组具有有线性相关关系的数据(μi,v i)(i=1,2,3,…,n),其回归直线v=βu+α的斜率和截距的最小二乘估计分别为β=,α=-β②。
新教材北师大版高中数学选择性必修第一册第七章统计案例 知识点考点重点难点解题规律归纳总结
第七章 统计案例1 一元线性回归............................................................................................................ - 1 -2 成对数据的线性相关性 ............................................................................................ - 5 -3 独立性检验.............................................................................................................. - 10 -1 一元线性回归1.变量之间的相关关系(1)变量之间有一定的联系,但不能完全用函数来表达.如人的体重y 与身高x .一般来说,身高越高,体重越重,但不能用一个函数来严格地表示身高与体重之间的关系.相关关系是非确定性关系,因变量的取值具有一定的随机性.(2)在考虑两个变量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将成对数据(x i ,y i )所对应的点描出来,这些点构成的图称为散点图.(3)在两个变量X 和Y 的散点图中,若所有点看上去都在一条光滑的曲线附近波动,此时就可以用这条曲线近似地描述这两种变量之间的关系,该过程称之为曲线拟合;若所有点看上去都在一条直线附近波动,此时就可以用这条直线近似地描述这两种变量之间的关系,该过程称之为直线拟合.2.最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用∑ni =1 [y i -(a +bx i )]2来刻画这些点与直线Y =a +bX 的接近程度,使得上式达到最小值的直线Y =a +bX 就是要求的直线,这种方法称为最小二乘法.3.线性回归方程假设成对数据为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归方程为Y =a +bX ,则b ^=∑ni =1 (x i -x )(y i -y )∑n i =1(x i -x )2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x2,a ^=y -b ^x . 在线性回归方程Y =a +bX 中,当一次项系数b 为正数时,其散点图有什么特征?[提示]在散点图上自左向右看这些点呈上升趋势.疑难问题类型1散点图及其应用【例1】5个学生的数学和物理成绩如下表:学生A B C D E学科数学8075706560物理7066686462画出散点图,并判断它们是否有相关关系.[思路点拨]可以以数学成绩为自变量,考查因变量物理成绩的变化趋势.[解]以x轴表示数学成绩,y轴表示物理成绩,可得相应的散点图.由散点图可见,两者之间具有相关关系.判断变量之间有无相关关系,一种常用的方法是绘制散点图,散点图是分析研究两个变量相关关系的重要手段.从散点图中,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量是线性相关的,否则不是线性相关.类型2求线性回归方程【例2】某研究机构对高三学生的记忆力X和判断力Y进行统计分析,得下表数据:X 681012Y 2356(2)请根据上表提供的数据,用最小二乘法求出Y关于X的线性回归方程Y=bX+a.[解] (1)散点图如图.(2)因为x =6+8+10+124=9,y =2+3+5+64=4, Σ4i =1x i y i =6×2+8×3+10×5+12×6=158, Σ4i =1x 2i =62+82+102+122=344,所以b ^=Σ4i =1x i y i -4x -y-Σ4i =1x 2i -4x 2=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为Y =0.7X -2.3.类型3 线性回归分析的应用【例3】 某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价X (X 取整数)(元)与日销售量Y (台)之间有如下关系:X 35 40 45 50 Y56412811(1)画出散点图,并判断Y 与X 是否具有线性相关关系; (2)求日销售量Y 对销售单价X 的线性回归方程;(b 取整数)(3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于X 的函数关系式,并预测当销售单价X 为多少元时,才能获得最大日销售利润.[解] (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.(2)因为x =14×(35+40+45+50)=42.5,y =14×(56+41+28+11)=34.Σ4i =1x i y i =35×56+40×41+45×28+50×11=5 410. Σ4i =1x 2i =352+402+452+502=7 350.所以b ^=Σ4i =1x i y i -4x -y-Σ4i =1x 2i -4x 2=5 410-4×42.5×347 350-4×42.52=-370125≈-3. a ^=y -b ^x =34-(-3)×42.5=161.5. 所以线性回归方程为Y =161.5-3X .(3)依题意,有P =(161.5-3X )(X -30)=-3X 2+251.5X -4 845=-3⎝ ⎛⎭⎪⎫X -251.562+251.5212-4 845.所以当X =251.56≈42时,P 有最大值,约为426元.即预测当销售单价为42元时,能获得最大日销售利润.对两个变量进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a、b的计算公式,算出a、b.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误.归纳总结1.判断变量之间有无相关关系,简便可行的方法就是绘制散点图.根据散点图,可看出两个变量是否具有相关关系,是否线性相关.2.求回归直线的方程时应注意的问题(1)应首先进行相关性检验.如果两个变量之间不具有线性相关关系,或者说它们之间的线性相关关系不显著,即使求出回归直线的方程也是毫无意义的,用其估计和预测的值也是不可信的.(2)用公式计算a,b的值时,要先算出b,然后才能算出a.3.利用回归方程,我们可以进行估计和预测.若回归方程为Y=bX+a,则X =x0处的估计值为y0=bx0+a.2成对数据的线性相关性1.相关系数r的计算一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),…,(x n,y n),则变量间线性相关系数r=Σni=1(x i-x)(y i-y)Σni=1(x i-x)2Σni=1(y i-y)2=Σni=1x i y i-n x-y-Σni=1x2i-n x2Σni=1y2i-y22.相关系数r与线性相关程度的关系(1)r的取值范围为[-1,1];(2)|r|值越接近1,随机变量之间的线性相关程度越强;(3)|r|值越接近0,随机变量之间的线性相关程度越弱.3.相关性的分类(1)当r>0时,两个变量正相关;(2)当r<0时,两个变量负相关;(3)当r=0时,两个变量线性不相关.假设两个随机变量的相关系数r=0,这是否说明这两个随机变量不相关?[提示]只能说明这两个随机变量不线性相关,而不能说明这两个随机变量不相关.疑难问题类型1正、负相关的判断【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()(1)(2)(3)(4)A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3A[由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2<r4<0<r3<r1,故选A.]判断正、负相关的方法(1)利用散点图来判断;(2)利用线性回归系数b的正负来判断;(3)利用线性相关系数r的正负来判断.类型2线性相关系数及应用【例2】维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”Y来衡量,这个指标越高,耐热水性能就越好,而甲醛浓度是影响“缩醛化度”的重要因素,在生产中常用甲醛浓度X(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批试验,获得如下表数据.甲醛浓度(克/升)18202224262830缩醛化度(克分子%)26.8628.3528.7528.8729.7530.0030.36求相关系数r.[思路点拨]利用相关系数r的公式计算.[解]列表如下:i x i y i x2i x i y i y2i11826.86324483.48721.459 622028.35400567803.722 532228.75484632.5826.562 542428.87576692.88833.476 952629.75676773.5885.062 562830.0078484090073030.36900910.80921.729 6∑168202.94 4 144 4 900.16 5 892.013 6x=24,y=28.99,r=Σ7i=1x i y i-7x-y-Σ7i=1x2i-7x2Σ7i=1y2i-7y2=4 900.16-7×24×28.994 144-7×242×5 892.013 6-7×28.992≈0.94.当相关系数|r |越接近1时,两个变量的线性相关程度越高,当相关系数|r |越接近0时,两个变量的线性相关程度越低.类型3 非线性回归方程及应用【例3】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y ω∑8i =1(x i -x )2∑8i =1(ωi -ω)2∑8i =1(x i -x ) ·(y i -y ) ∑8i =1(ωi -ω) ·(y i -y ) 46.6 563 6.8 289.8 1.61 469108.8表中ωi =x i ,ω=18∑8i =1ωi .(1)根据散点图判断,Y =a +bX 与Y =c +d X 哪一个适宜作为年销售量Y 关于年宣传费X 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立Y 关于X 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -βu . [解] (1)由散点图可以判断,Y =c +d X 适宜作为年销售量Y 关于年宣传费X 的回归方程类型.(2)令ω=x ,先建立Y 关于ω的线性回归方程,由于d ^=∑8i =1(ωi -ω)·(y i -y )∑8i =1(ωi -ω)2=108.81.6=68, c ^=y -d ∧ω=563-68×6.8=100.6,所以Y 关于ω的线性回归方程为Y =100.6+68ω,因此Y 关于X 的回归方程为Y =100.6+68X .(3)①由(2)知,当x =49时,年销售量y 的预报值 y =100.6+6849=576.6,年利润z 的预报值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z =0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z 取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.1.对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程.2.回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.归纳总结1.判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用线性相关系数来判断.2.相关系数r可以定量地反映出变量间的相关程度,从量上给出了有无必要建立两变量间的线性回归方程.3独立性检验1.与列联表相关的概念(1)分类变量:变量的不同“值”,表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①列出的两个分类变量的频数表,称为列联表.②一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:(1)定义:利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验.(2)公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断.①当χ2≤2.706时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;②当χ2>2.706时,有90%的把握判断变量A,B有关联;③当χ2>3.841时,有95%的把握判断变量A,B有关联;④当χ2>6.635时,有99%的把握判断变量A ,B 有关联.设n =a +b +c +d ,用an 估计P (A 1B 1),用a +b n 估计P (A 1),用a +c n 估计P (B 1),在什么情况下,A 1与B 1独立?[提示] 当a n =a +b n ·a +cn 时,A 1与B 1独立.疑难问题类型1 2×2列联表及应用 【例1】 下面是2×2列联表.BAB 1 B 2 总计 A 1 33 21 54 A 2 a 13 46 总计b34100(1)表中a ,b 处的值应为多少?(2)若用频率估计概率,则P (A 1)、P (B 1)、P (A 1B 1)分别是多少? (3)表中的数据能说明A 1与B 1相互独立吗? [解] (1)a =46-13=33,b =33+a =33+33=66. (2)P (A 1)=54100,P (B 1)=66100,P (A 1B 1)=33100.(3)因为P (A 1)×P (B 1)=54100×66100≈33100=P (A 1B 1),所以表中的数据能说明A 1与B 1相互独立.若a n =a +b n ·a +cn 成立,则可以认为A 1与B 1相互独立. 若b n =a +b n ·b +dn 成立,则可以认为A 1与B 2相互独立. 若c n =a +c n ·c +dn 成立,则可以认为A 2与B 1相互独立. 若d n =b +d n ·c +dn 成立,则可以认为A 2与B 2相互独立.由于频率不同于概率,即使变量A 与B 相互独立,式子两边也不一定相等.类型2 两个变量的独立性检验【例2】 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试判断“学生选报文、理科与对外语的兴趣是否有关”?[解] 根据题目所给的数据得到如下列联表:理科 文科 总计 有兴趣 138 73 211 无兴趣 98 52 150 总计236125361根据列联表中数据由公式计算得随机变量χ2的观测值 χ2=361×(138×52-73×98)2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有充分的证据判断变量A ,B 有关联,不能认为“学生选报文、理科与对外语的兴趣有关”.独立性检验的步骤(1)确定分类变量,获取样本频数,得到列联表.(2)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k 0.(3)利用公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算随机变量χ2的观测值k .(4)作出判断.如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 的关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.类型3独立性检验的综合应用【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时.请完成每周平均体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).P(χ2≥k0)0.100.050.0100.005 k0 2.706 3.841 6.6357.879[解](1)300×4 50015 000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得2×(0.150+0.125+0.075+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4个小时,75人的每周平均体育运动时间不超过4个小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别的列联表如下:平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过4个小时453075每周平均体育运动时间超过4个小时16560225总计21090300结合列联表可算得χ2的观测值χ2=300×2 250275×225×210×90≈4.762>3.841.有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.(1)独立性检验问题是常与统计、概率相结合,解题时一定要认真审题,找出各数据的联系.(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.归纳总结1.熟记公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).2.熟悉临界值与相关程度的关系,一般情况下,当χ2>2.706时,说明“变量A与B有关联”的可信程度为90%;当χ2>3.841时,说明“变量A与B有关联”的可信程度为95%;当χ2>6.635时,说明“变量A与B有关联”的可信程度为99%;当χ2≤2.706时,可认为变量A与B无关联.。
高考数学大一轮复习 第十一章 统计与统计案例 第3讲 相关性、最小二乘估计与统计案例练习 理 北师大版
第3讲相关性、最小二乘估计与统计案例一、选择题1.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解析相关指数R2越大,拟合效果越好,因此模型1拟合效果最好.答案 A2.已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是( )A.y=0.4x+2.3B. y=2x-2.4C. y=-2x+9.5D. y=-0.3x+4.4解析因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标代入检验,A满足.答案 A3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是( )A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析∵0.85>0,∴y与x正相关,∴A正确;∵回归直线经过样本点的中心(x,y),∴B正确;∵Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85,∴C正确.答案 D4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:由χ2=(a +b )(c +d )(a +c )(b +d )算得,χ2=110×(40×30-20×20)260×50×60×50≈7.8.参照附表,得到的正确结论是( )A.有99%的把握认为“爱好该项运动与性别有关”B.有99%的把握认为“爱好该项运动与性别无关”C.有95%的把握认为“爱好该项运动与性别有关”D. 有95%的把握认为认为“爱好该项运动与性别无关”解析 根据独立性检验的定义,由χ2≈7.8>6.635,可知有99%以上的把握认为“爱好该项运动与性别有关”. 答案 A5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:一户年收入为15万元家庭的年支出为( ) A.11.4万元 B.11.8万元 C.12.0万元D.12.2万元解析 由题意知,x =8.2+8.6+10.0+11.3+11.95=10,y =6.2+7.5+8.0+8.5+9.85=8,∴a =8-0.76×10=0.4,∴当x =15时,y =0.76×15+0.4=11.8(万元). 答案 B 二、填空题6.若8名学生的身高和体重数据如下表:第3名学生的体重漏填,但线性回归方程是y ^=0.849x -85.712,则第3名学生的体重估计为________.解析 设第3名学生的体重为a ,则18(48+57+a +54+64+61+43+59)=0.849×18(165+165+157+170+175+165+155+170)-85.712.解之得a ≈50. 答案 507.(2017·南昌模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:根据表中数据,得到χ2=23×27×20×30≈4.844,则认为选修文理科与性别有关系有________的把握.解析 由χ2=4.844>3.841.故有95%的把握认为选修文理科与性别有关系. 答案 95%8.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得回归直线方程y =bx +a 中的b =-2,预测当气温为-4 ℃时,用电量约为________度. 解析 根据题意知x =18+13+10+(-1)4=10,y =24+34+38+644=40,因为回归直线过样本点的中心,所以a =40-(-2)×10=60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度. 答案 68 三、解答题9.(2017·郑州调研)某地区2009年至2015年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2017年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为: b =∑ni =1 (t i -t -)(y i -y -)∑ni =1(t i -t -)2,a =y --b t -. 解 (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4,y -=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i =1(t i -t -)2=9+4+1+0+1+4+9=28, ∑7i =1(t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+ (-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14, b =∑7i =1 (t i -t -)(y i -y -)∑7i =1(t i -t -)2=1428=0.5, a =y -b t -=4.3-0.5×4=2.3,所求回归方程为y =0.5t +2.3.(2)由(1)知,b =0.5>0,故2009至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年约增加0.5千元.将2017年的年份代号t =9代入(1)中的回归方程,得y =0.5×9+2.3=6.8,故预测该地区2017年农村居民家庭人均纯收入为6.8千元.10.(2017·西安质检)某省会城市地铁将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:χ2=10×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”. 11.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x (单位:元)和销售量y (单位:件)之间的四组数据如下表:x 之间的线性回归方程为y =-1.4x +a ,那么方程中的a 值为( )A.17B.17.5C.18D.18.5解析 x =4+4.5+5.5+64=5,y =12+11+10+94=10.5,∵回归直线过样本点的中心, ∴a =10.5+1.4×5=17.5. 答案 B 12.根据如下样本数据A.a >0,b >0B.a >0,b <0C.a <0,b >0D.a <0,b <0解析 作出散点图如下:观察图像可知,回归直线y =bx +a 的斜率b <0,当x =0时,y =a >0.故a >0,b <0. 答案 B13.(2017·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人). 解析 由列联表计算χ2的观测值 χ2=50(22×12-8×8)230×20×20×30≈5.556>3.841.∴可以有95%的把握推断视觉和空间想象能力与性别有关系. 答案 95%14.(2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β=∑n i =1(u i -u )(v i -v )∑n i =1(u i -u )2,a =v -βu .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程,由于d =∑8i =1(w i -w )·(y i -y )∑8i =1(w i -w )2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w ,因此y 关于x 的回归方程为y =100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6,年利润z 的预报值z =576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z =0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课时规范练54 相关性、最小二乘估计与统计案例基础巩固组1.(2018福建莆田模拟,3)设一个线性回归方程y=3+1.2x,当变量x每增加一个单位时,则y的变化情况正确的是()A.y平均增加约1.2个单位B.y平均增加约3个单位C.y平均减少约1.2个单位D.y平均减少约3个单位2.(2018黑龙江模拟十,6)下列表格所示的五个散点,原本数据完整,且利用最小二乘法求得这五个散点的线性回归直线方程为y=0.8x-155,后因某未知原因使第5组数据的y值模糊不清,此位置数据记为m(如下表所示),则利用回归方程可求得实数m的值为()A.8.3B.8.2C.8.1D.83.(2018广东佛山二模,5)某同学用收集到的6组数据对(x i,y i)(i=1,2,3,4,5,6)制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线l的方程为y=bx+a,相关系数为r.现给出以下3个结论:①r>0;②直线l恰好过点D;③b>1.其中正确结论是()A.①②B.①③C.②③D.①②③4.(2018辽南协作校一模,3)根据如下样本数据得到回归直线方程y=bx+a,其中a=10.5,则当x=6时,y的估计值是()A.57.5B.61.5C.64.5D.67.55.(2018黑龙江仿真模拟十一,5)某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:附表:经计算χ2=10,则下列选项正确的是()A.有99%的把握认为使用智能手机对学习有影响B.有99%的把握认为使用智能手机对学习无影响C.有95%的把握认为使用智能手机对学习有影响D.有95%的把握认为使用智能手机对学习无影响6.(2018河南洛阳质检,13)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟订的价格进行试销,得到如下数据.由表中数据求得线性回归方程y=-4x+a,则x=10元时预测销量为件.7.(2018河南商丘模拟,19)已知具有线性相关关系的两个变量x,y之间的几组数据如下表所示:(1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a,并估计当x=20时,y的值;(2)将表格中的数据看作五个点的坐标,则从这五个点中随机抽取2个点,求恰有1个点落在直线2x-y-4=0右下方的概率.参考公式:b=,a=-b.综合提升组8.(2018河北保定一模,3)已知具有线性相关的变量x,y,设其样本点为A i(x i,y i)(i=1,2,…,8),回归直线方程为y=x+a,若+…+=(6,2),(O为原点),则a=()A. B.- C. D.-9.(2018安徽合肥一中最后1卷,文13)为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y=bx+a.已知x i=225,y i=1 600,b=4.该班某学生的脚长为24 cm,据此估计其身高为 cm.10.(2018安徽蚌埠一模,文19)某图书公司有一款图书的历史收益率(收益率=利润÷每本收入)的频率分布直方图如图所示:(1)试估计平均收益率;(用区间中点值代替每一组的数值)(2)根据经验,若每本图书的收入在20元的基础上每增加x元,对应的销量y(万本)与x(元)有较强线性相关关系,从历史销售记录中抽样得到如下5组x与y的对应数据:据此计算出的回归方程为y=10.0-bx.①求参数b的估计值;②若把回归方程y=10.0-bx当作y与x的线性关系,x取何值时,此产品获得最大收益?求出该最大收益.11.(2018山东日照5月校际联考,19)为了缓解日益拥堵的交通状况,不少城市实施车牌竞价策略,以控制车辆数量.某地车牌竞价的基本规则是:①“盲拍”,即所有参与竞拍的人都要网络报价一次,每个人不知晓其他人的报价,也不知道参与当期竞拍的总人数;②竞价时间截止后,系统根据当期车牌配额,按照竞拍人的出价从高到低分配名额.某人拟参加2018年5月份的车牌竞拍,他为了预测最低成交价,根据竞拍网站的数据,统计了最近5个月参与竞拍的人数(见下表):竞拍人数y(万人) 0.5 0.6 1 1.4 1.7(1)由收集数据的散点图发现,可用线性回归模型拟合竞拍人数y(万人)与月份编号t之间的相关关系.请用最小二乘法求出y关于t的线性回归方程:y=bt+a,并预测2018年5月份参与竞拍的人数.(2)某市场调研机构从拟参加2018年5月份车牌竞拍人员中,随机抽取了200人,对他们的拟报价价格进行了调查,得到如下频数分布表和频率分布直方图:①求a,b的值及这200位竞拍人员中报价大于5万元的人数;②若2018年5月份车牌配额数量为3 000,假设竞拍报价在各区间分布是均匀的,请你根据以上抽样的数据信息,预测(需说明理由)竞拍的最低成交价.参考公式及数据:①y=bx+a,其中b=,a=-b;②=55,t i y i=18.8.创新应用组12.(2018黑龙江哈尔滨三中一模,10)千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,哈三中积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计:根据上表可得回归方程y=bx+a中的b为1.35,我校2018届同学在学科竞赛中获省级一等奖以上学生人数为63人,据此模型预报我校今年被清华、北大等世界名校录取的学生人数为()A.111B.115C.117D.12313.(2018湖北七校联盟2月联考,19)已知鸡的产蛋量与鸡舍的温度有关,为了确定下一个时段鸡舍的控制温度,某企业需要了解鸡舍的温度x (单位:℃),对某种鸡的时段产蛋量y (单位:t)和时段投入成本z (单位:万元)的影响,为此,该企业收集了7个鸡舍的时段控制温度x i 和产蛋量y i (i=1,2,…,7)的数据,对数据初步处理后得到了如图所示的散点图和表中的统计量的值.其中k i =ln y i ,k i .(1)根据散点图判断,y=bx+a 与y=c 1哪一个更适宜作为该种鸡的时段产蛋量y 关于鸡舍时段控制温度x 的回归方程类型?(给判断即可,不必说明理由)(2)若用y=c 1作为回归方程模型,根据表中数据,建立y 关于x 的回归方程;(3)已知时段投入成本z 与x ,y 的关系为z=e -2.5y-0.1x+10,当时段控制温度为28 ℃时,鸡的时段产蛋量及时段投入成本的预报值分别是多少?附:①对于一组具有有线性相关关系的数据(μi ,v i )(i=1,2,3,…,n ),其回归直线v=βu+α的斜率和截距的最小二乘估计分别为β=,α=-β②参考答案课时规范练54 相关性、最小二乘估计与统计案例1.A令x=a,y=3+1.2a,令x=a+1,则y=3+1.2(a+1)=4.2+1.2a,所以当变量x每增加一个单位时,则y平均增加约1.2个单位,故选A.2.D由题意可得:==200,==,回归方程过样本中心点,则:=0.8×200-155,解得m=8,故选D.3.A由题图可知这些点分布在一条斜率大于零的直线附近,所以为正相关,即相关系数r>0;因为==3,==3,所以回归直线l的方程必过点(3,3),即直线l恰好过点D.因为直线l斜率接近于AD斜率,而k AD==<1,所以③错误,综上正确结论是①②,故选A.4.C自变量x的平均数==3.5,自变量y的平均数==42.∵线性回归直线方程y=bx+a过样本中心点(,),其中a=10.5,∴42=b×3.5+10.5,即b=9.∴当x=6时,y=9×6+10.5=64.5,故选C.5.A由于χ2=10>6. 635,据此结合独立性检验的思想可知:有99%的把握认为使用智能手机对学习有影响,故选A.6.66由已知得= (4+5+6+7+8+9)=,= (90+84+83+80+75+68)=80,∴a=80+4×=106,∴当x=10时,y=106-40=66,故答案为66.7.解 (1)= (2+4+6+8+10)=6,= (3+6+7+10+12)=7.6,=4+16+36+64+100=220,x i y i=6+24+42+80+120=272,b====1.1,∴a=7.6-6×1.1=1,∴回归直线方程为y=1.1x+1,故当x=20时,y=23.(2)可以判断,落在直线2x-y-4=0右下方的点满足2x-y-4>0,故符合条件的点的坐标为(6,7),(8,10),(10,12),共有10种取法,满足条件的有6种,所以P==.8.B因为++…+=(x1+x2+…+x8,y1+y2+…+y8)=(8,8)=(6,2),所以8=6,8=2⇒=,=,因此=×+a,即a=-,故选B.9.166由x i=225,y i=1 600,利用平均值公式求得=22.5,=160,∵b=4,∴a=160-4×22.5=70,从而当x=24时,y=4×24+70=166,故答案为166.10.解 (1)区间中值依次为:0.05,0.15,0.25,0.35,0.45,0.55,取值的估计概率依次为:0.1,0.2,0.25,0.3,0.1,0.05,故平均收益率为0.05×0.10+0.15×0.20+0.25×0.25+0.35×0.30+0.45×0.10+0.55×0.05=0.275.(2)①===38,===6.2,将(38,6.2)代入y=10-bx,得b==0.10.②设每本图书的收入是20+x元,则销量为y=10-0.1x,则图书总收入为f(x)=(20+x)(10-0.1x)=200+8x-0.1x2=360-0.1(x-40)2(万元),当x=40时,图书公司总收入最大为360万元,预计获利为360×0.275=99万元.11.解 (1)易知==3,==1.04,b===0.32,a=-b=1.04-0.32×3=0.08,则y关于t的线性回归方程为y=0.32t+0.08,当t=6时,y=2.00,即2018年5月份参与竞拍的人数估计为2万人.(2)①由=0.20解得a=40.由频率和为1,得(0.05×2+0.10+2b+0.20+0.30)×1=1,解得b=0.15,200位竞拍人员报价大于5万元的人数为(0.05+0.10+0.15)×200=60人.②2018年5月份实际发放车牌数量为3 000,根据竞价规则,报价在最低成交价以上人数占总人数比例为×100%=15%;又由频率分布直方图知竞拍报价大于6万元的频率为0.05+0.10=0.15, 所以,根据统计思想(样本估计总体)可预测2018年5月份竞拍的最低成交价为6万元.12.C由题意得==53,==103.5.∵数据的样本中心点在线性回归直线上,y=bx+a中的b为1.35,∴103.5=1.35×53+a,即a=31.95,∴线性回归方程是y=1.35x+31.95.∵2018届同学在学科竞赛中获省级一等奖以上学生人数为63人,∴今年被清华、北大等世界名校录取的学生人数为1.35×63+31.95=117,故选C.13.解 (1)y=c1适宜.(2)由y=c1得ln y=c2x+ln c1,令ln y=k,c2=β,α=ln c1,由图表中的数据可知β==,α=-,∴k=x-,∴y关于x的回归方程为y==0.47.(3)当x=28时,由回归方程得y=0.47×1 096.63=515.4,z=0.08×515. 4-2.8+10=48.432.即鸡舍的温度为28 ℃时,鸡的时段产量的预报值为515.4,投入成本的预报值为48.432.。