回归分析及独立性检验的基本知识点及习题集锦

合集下载

考点5,回归分析与独立性检验

考点5,回归分析与独立性检验

考点五 回归分析与独立性检验考点要揽◆会做两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系。

◆了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。

◆了解独立性检验(只要求22⨯列联表)的基本思想、方法及其简单应用。

◆了解回归分析的基本思想、方法及其简单应用。

命题趋向◆以选择题和填空题的形式考查线性回归系数或利用线性回归方程进行预测,在给出临界值的情况下判断两个变量是否有关。

◆在解答题中与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用。

备考策略◆系统掌握有关概念◆能熟练的运用公式求线性回归系数一、回归分析(一)回归直线方程: a x b yˆˆˆ+=,其中()()()∑∑∑∑====--=---=ni ini ii ni ini i ix n xyx n yx x xy y x xb 1221121ˆx b y aˆˆ-=,()y x ,称为样本中心点,因而回归直线过样本中心点. (二)样本相关系数()r用来衡量两个变量之间线性相关关系的方法.()()()()∑∑∑===----=ni ni iini i iy yx xy y x xr 11221当0>r 时,表明两变量正相关;当0<r ,表明两变量负相关. r 越接近1,表明两变量的线性相关性越强; r 越接近0,表明两变量的线性相关关系几乎不存在,通常当75.0>r 时,认为两个变量有很强的线性相关关系.理解总结(一)线性回归分析一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程.回归分析的一般步骤为:1.从一组数据出发,画出散点图,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义;2.如果具有线性相关关系,求出回归方程a x b yˆˆˆ+=,其中a ˆ是常数项, b ˆ是回归系数;3.根据回归方程,由一个变量的值,预测或控制另一个变量的值.(二)估计线性回归模型中的未知参数aˆ和b ˆ时,一般利用最小二乘法.其计算公式为:()()()⎪⎪⎩⎪⎪⎨⎧-=--=---=∑∑∑∑====x b y ax n x yx n yx x x y y x xb ni i ni ii ni i ni i iˆˆˆˆ1221121其中∑==n i i x n x 11,∑==ni i y n y 11.对此公式不要求记忆,但要会用.高考导航例 1 假设关于某设备使用年限x 和所支出的维修费用y (万元)有如下的统计资若由资料知y 对x 呈线性相关关系.试求:(1)线性回归方程a x b yˆˆˆ+=的回归系数b a ˆ,ˆ; (2)估计使用年限为10时,维修费用是多少?解题思路求回归直线方程的计算量较大,需要细心、谨慎地计算.可以通过列表,计算出∑=ni i i y x 1,∑=ni i x 12,x ,y ,后将这些量代入公式计算.于是23.14590ˆ2=⨯-=b,08.0423.15ˆˆˆ=⨯-=-=x b y a . (2)回归直线方程为38.1208.023.1ˆ=+=x y. 当10=x 时, 38.12ˆ=y,即估计使用10年时,维修费用是12.38万元.二、独立性检验(一)独立性检验的概念一般地,假设有两个分类变量X 和Y ,它们的值域分别为{}21,x x 和{}21,y y ,我们利用随机变量()()()()()d b c a d c b a bc ad n K ++++-=22来确定在多大程度上可以认为“两个分类变量有关系”,这种方法称为两个分类变量的独立性检验. (二)独立性检验的基本思想独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下我们构造的随机变量2K 应该很小,如果由观测数据计算得到的2K 的观测值k 很大,则在一定程度上说明假设不合理. 具体比较如下表:假设1H :“X 与Y 有关系”,可按如下步骤判断结论1H 成立的可能性:1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体做法是:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a ,然后通过下表确定临界值0k .(2)由公式()()()()()d b c a d c b a bc ad n K ++++-=22,计算2K 的观测值k .(3)如果0k k ≥,就推断“X 与Y 有关系”.这种推断犯错误的概率不超过a ;否则,就认为在犯错误的概率不超过a 的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有足够证据支持结论“X 与Y 有关系”. 理解总结根据独立性检验的基本思想,可知对于2K 的观测值k ,存在一个正数0k 为判断规则的临界值,当0k k ≥,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量没有关系”.在实际应用中,我们把0k k ≥解释为有()()%100102⨯≥-k KP 的把握认为“两个分类变量之间有关系”;把0k k <解释为不能以()()%100102⨯≥-k K P 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据. 高考导航例1 (1)下列关系中不是相关关系的是 ( )(A)产品投入的广告费与产品的销售量.(B)数轴上的点与实数x.(C)人的身高与体重的大小.(D)一天中的湿度与气温的高低.(2)对分类变量X与Y的随机变量2K的值,下列说法正确的是 ( )(A)2K越大,“X与Y有关系”可信度越小.(B)2K越小,“X与Y有关系”可信度越小.(C)2K越接近于0,“X与Y无关”程度越小.(D)2K越大,“X与Y无关”程度越大.解题思路(1)观察给出的两个量之间是否是函数关系、是否具备一定的联系,是否没有关系,从而可以判断出各种关系.(2)2K是反映变量X与Y是否有相关关系的一个重要参数.解析:(1)A项产品投入的广告费与产品的销售量、C项的人的身高与体重的大小、D项的一天中的湿度与气温的高低之间都是有一定的联系但是是不确定性的关系,故为相关关系.B项数轴上的点与实数x之间为确定的函数关系.例2 为了比较注射A、B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;(2)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:2mm);②完成下面22⨯列联表,并回答能否有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后疱疹面积有差异”.表3疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A =a =b 注射药物B =c=d合计=n附: ()()()()()d b c a d c b a bc ad n K ++++-=22()02k K P ≥0.10 0.05 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.828解题思路(1)将甲、乙两只家兔分在不同组,可在剩余的198只中选99只,也就是将剩余的分为两组,然后再将甲乙两只分在两个组中即可;(2)第①问画频率分布直方图时,应该首先计算出相应的频率,要注意其纵轴为频率与组距的比值;在频率分布直方图中,中位数将小矩形的面积分为相等的两部分,据此可以估计中位数所在的范围;第②问可以根据给出的频数分布表得到22⨯列联表,然后利用给定的公式和对应表来确定其可信程度.【解析】(1)甲、乙两只家兔分在不同组的概率为: 1991001002009919812==C C C P . (2)①在频率分布直方图中,中位数两边对应的小长方形的面积相等,都等于0.5,可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药 物B 后疱疹面积的中位数. ②表3:疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A 70=a 30=b 100 注射药物B 35=c65=d100合计10595 200=n()56.24951051001006530657020022≈⨯⨯⨯⨯-⨯=K 由于828.102>K ,所以有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 迁移应用1、(2009宁夏海南卷理科)对变量x ,y 有观测数据()i i y x ,()10,,2,1 =i ,得散点图1;对变量v u ,有观测数据()i i v u ,()10,,2,1 =i ,得散点图2. 由这两个散点图可以判断。

回归分析及独立性检验的基本知识点及习题集锦

回归分析及独立性检验的基本知识点及习题集锦

回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。

本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。

建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。

4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。

可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。

高中选修1-2回归分析和独立性检验知识总结与联系

高中选修1-2回归分析和独立性检验知识总结与联系

高中选修1-2回归分析和独立性检验知识总结与联系-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN1122211()()()n n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑选修1-2第一部分 变量间的相关关系与统计案例【基础知识】一、回归分析1.两个变量的线性相关:判断是否线性相关 ①用散点图(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ②用相关系数r(3)除用散点图外,还可用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,ni ix y nx yr -•=∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系. 2.回归方程:两个变量具有线性相关关系,数据收集如下:可用最小二乘法得到回归方程ˆy bx a =+,其中3.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心.样本点中心一定落在回归直线上。

4、回归效果的刻画:用相关指数2R来刻画回归的效果,公式是2 2121()1()ni iiniiy yRy y==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好二.独立性检验的基本思想及其初步应用题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()A.r2<r4<0<r3<r1B. r4<r2<0<r 1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).题型二 线性回归方程【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一价格x 9 9.5 10 10.5 11销售量y11 10 8 6 5 y 关于商品的价格x 的线性回归方程为________.(参考公式:b ^= ,a ^=y -b ^x )【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x /cm 174 176 176 176 178儿子身高y /cm175 175 176 177 177则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1C .y =88+12x D .y =176题型三 独立性检验【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线由K 2=n (ad -dc )(a +b )(c +d)(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分附 K 2巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是( )A. 0B. 1C. 2D. 32.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( ) A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^=0.08x +1.23 3.从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.804.根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A. 70.09 kgB. 70.12 kgC. 70.55 kgD. 71.05 kg5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x的回归直线方程:y ^=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A 和B 有关系,则具体计算出的数据应该是( )A .k≥6.635B .k <6.635C .k≥7.879D .k <7.8797.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:非统计专业统计专业男13 10女7 20为了判断主修统计专业是否与性别有关系,根据表中数据得到,k=50(13×20-10×7)220×30×23×27≈4.844,因为k>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.与销售额(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为百万元时,销售额多大?9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤(参考数值:)9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生60 20 80北方学生10 10 20合计70 30 100(1)甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和优秀率都相同,勤奋程度和自觉性都一样)。

2018 高考 回归分析和独立性检验专题复习(学生版)

2018 高考 回归分析和独立性检验专题复习(学生版)

回归分析与独立性检验(一)变量间的相关关系、回归分析的基本思想及初步运用一、相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系. 二、散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图. 三、回归分析:对具有相关关系的两个变量进行统计分析的方法叫回归分析. 1、回归直线方程设所求的直线方程为y b x a ∧=+,其中121()(),()ni i i ni i x x y y b a y b x x x ==--==--∑∑,1111,,nni i i i x x y y nn====∑∑(,)x y 称为样本点的中心,回归直线过样本点的中心.回归方程的截距a 和斜率b 是用最小二乘法计算出来的. 2、相关系数:两个变量之间线性相关关系的强弱用相关系数r 来衡量.相关系数:()()ni i x x y y r --=∑0r >,表示两个变量正相关;0r <,表示两个变量负相关;r的绝对值越接近1,表明两个变量的线性相关性越强.r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,r 的绝对值大于0.75时,表明两个变量的线性相关性很强. (二)独立性检验的基本思想及其初步运用一、用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例:是否吸烟,是否患肺癌等 二、独立性检验的方法:列出两个分类变量的频数表(列联表),直观判断.一般步骤: (1)2*2列联表(2)提出假设:设p 与q 没有关系 (3)根据列联表中的数据2K 计算的值22()()()()()()n a d b c Kn a b c d a b c d a c b d -==+++++++其中为样本容量(4)根据计算得到的随机变量2K 的观测值作出判断如:24.232K =因为4.232介于临界值3.841和5.024之间,2( 3.841)p K ≥=0.05,所以两个分类变量没有关系的概率是5%,即两个分类变量有关系的概率为95%.【例1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅. (1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小). (2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. (ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数()()ni i x x y y r --=∑0.09≈.【反馈检测1】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32i i y ==∑,7140.17i i i t y ==∑0.55=2.646≈.参考公式:相关系数()()ni i t t y y r --=∑回归方程y a b t =+ 中斜率和截距的最小二乘估计公式分别为:121()()()ni i i ni i t t y y b t t ==--=-∑∑,=.a yb t -【例2】全国人大常委会会议于 2015年12月27日通过了关于修改人口与计划生育法的决定, “全面二孩”从2016年元旦起开始实施,A市妇联为了解该市市民对“全面二孩”政策的态度,随机抽取了男性市民30人、女性市民70人进行调查, 得到以下的22⨯列联表:(1)根椐以上数据,能否有090的把握认为A市市民“支持全面二孩”与“性别”有关?(2)现从持“支持”态度的市民中再按分层抽样的方法选出15名发放礼品,分别求所抽取的15人中男性市民和女性市民的人数;(3)将上述调查所得到的频率视为概率,.现在从A市所有市民中,采用随机抽样的方法抽取3位市民进行长期跟踪调查, 记被抽取的3位市民中持“支持”态度人数为X.①求X的分布列;②求X的数学期望()E X和方差()D X.参考公式:()()()()()22n a d b cKa b a d a c b d-=++++,其中n a b c d=+++【反馈检测3】【2017课标II ,理18】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:22()()()()()n a d b c K a b c d a c b d -=++++。

回归分析的基本知识点及习题

回归分析的基本知识点及习题
值。
模型评估:线性 回归模型的评估 通常使用R方值、 调整R方值、残 差图等指标进行
评估。
参数估计与求解
最小二乘法:通过最小化误差的平 方和来估计线性回归模型的参数
梯度下降法:通过迭代更新参数, 使得损失函数最小化,从而得到最 优解
添加标题
添加标题
添加标题
添加标题
最大似然估计法:基于似然函数的 最大值来估计参数,使得观测到的 数据出现的概率最大
原理:通过引入 一个小的正则化 项来改进最小二 乘法的估计,以 减少过拟合和增 加模型的稳定性。
目的:在回归分析 中,岭回归分析用 于处理自变量之间 高度相关的情况, 通过加入正则化项 来减少过拟合,提 高模型的预测精度。
应用场景:岭回 归分析广泛应用 于统计学、机器 学习和数据分析 等领域,尤其在 处理共线性数据 问题时表现出色。
感谢您的观看
汇报人:
梯度下降法:通过 迭代更新参数来最 小化损失函数
牛顿-拉夫森方法 :利用泰勒级数展 开来求解参数
模型评估与优化
模型的准确性评估:通过比较实际值与预测值来评估模型的预测能力。
模型的可靠性评估:检查模型是否具有足够的稳定性和可靠性。
模型的优化方法:通过调整模型参数或改变模型结构来提高模型的预测能力和可 靠性。
假设:满足线性关系、误差项独立同分布、误差项无偏、误差项无自相关等假设。 模型建立:基于历史数据,通过最小二乘法等估计方法确定自变量和因变量的关系。 模型评估:通过残差分析、决定系数、调整决定系数等方法评估模型的拟合优度。
参数估计与求解
最小二乘法:通过 最小化误差的平方 和来估计参数
最大似然估计法: 基于似然函数的最 大值来估计参数
模型的适用性:确定模型是否适用于特定的数据集和问题类型。

考点11 回归分析与独立性检验(学生版)

考点11  回归分析与独立性检验(学生版)

考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。

例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。

〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。

2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。

3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。

4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。

〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。

2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。

回归直线方程与独立性检验【题集】-讲义(学生版)

回归直线方程与独立性检验【题集】-讲义(学生版)

回归直线方程与独立性检验【题集】1. 回归直线方程12(1)(2)1.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:(年龄岁)(脂肪含量)根据上表的数据得到如下的散点图.脂肪含量年龄岁)根据上表中的样本数据及其散点图.求.计算样本相关系数(精确到),并刻画它们的相关程度.若关于的线性回归方程为,求的值(精确到),并根据回归方程估计年龄为岁时人体的脂肪含量.附:参考数据:,,,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.(1)12(2)2.我市南澳县是广东唯一的海岛县,海区面积广阔,发展太平洋牡蛎养殖业具有得天独厚的优势,所产的“南澳牡蛎”是中国国家地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境下服从正态分布.购买只该基地的“南澳牡蛎”,会买到质量小于的牡蛎的可能性有多大?年该基地考虑增加人工投入,现有以往的人工投入增量(人)与年收益增量(万元)的数据如下:人工投入增量(人)年收益增量(万元)该基地为了预测人工投入增量为人时的年收益增量,建立了与的两个回归模型:模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由散点图的样本点分布,可以认为样本点集中在曲线:的附近,对人工投入增量做变换,令,则,且有,,,.年收益增量(万元)人工投入增量(万人)根据所给的统计量,求模型②中关于的回归方程(精确到).根据下列表格中的数据,比较两种模型的相关指数,并选择拟合精度更高、更可靠的模型,预测人工投入增量为人时的年收益增量.回归模型模型①模型②回归方程附:若随机变量,则,;样本的最小二乘估计分式为:,,另,刻画回归效果的相关指数.(1)(2)3.某购物商场分别推出支付宝和微信“扫码支付”购物活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用“扫码支付”,现统计了活动刚推出一周内每天使用扫码支付的人次,用表示活动推出的天数,表示每天使用扫码支付的人次,统计数据如下表所示:参考数据:设,,,.参考公式:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.根据散点图判断,在推广期内,扫码支付的人次关于活动推出天数的回归方程适合用来表示,求出该回归方程,并预测活动推出第天使用扫码支付的人次.推广期结束后,商场对顾客的支付方式进行统计,结果如下表:支付方式现金会员卡扫码比例商场规定:使用现金支付的顾客无优惠,使用会员卡支付的顾客享受折优惠,扫码支付的顾客随机优惠,根据统计结果得知,使用扫码支付的顾客,享受折优惠的概率为,享受折优惠的概率为,享受折优惠的概率为,现有一名顾客购买了元的商品,根据所给数据用事件发生的频率来估计相应事件发生的概率,估计该顾客支付的平均费用是多少.(1)4.一个工厂在某年里连续个月每月产品的总成本(万元)与该月产量(万件)之间有如下一组数据:通过画散点图,发现可用线性回归模型拟合与的关系,请用相关系数加以说明.12(2)解答下列各题:建立月总成本与月产量之间的回归方程.通过建立的关于的回归方程,估计某月产量为万件时,此时产品的总成本为多少万元?(均精确到)附注:①参考数据:,,,,.②参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.(1)(2)(3)5.某单位共有名员工,他们某年的收入如下表:员工编号年薪(万元)求该单位员工当年年薪的平均值和中位数.从该单位中任取人,此人中年薪收入高于万的人数记为,求的分布列和期望.已知员工年薪收入与工作年限成正相关关系,某员工工作第一年至第四年的年薪分别为万元,万元,万元,万元,预测该员工第五年的年薪为多少?附:线性回归方程中系数计算公式分别为:,,其中,为样本均值.6.全民健身倡导全民做到每天参加一次以上的体育健身活动,旨在全面提高国民体质和健康水平.某部门在该市年发布的全民健身指数中,其中的“运动参与”的评分值进行了统计,制成如图所示的散点图:运动参与评分值年份代码:注:年份代码分别对应年份(1)(2)根据散点图,建立关于的回归方程.从该市的市民中随机抽取了容量为的样本,其中经常参加体育锻炼的人数为,以频率为概率,若从这名市民中随机抽取人,记其中“经常参加体育锻炼”的人数为,求的分布列和数学期望.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.(1)(2)7.某项科研活动共进行了次试验,其数据如表所示:特征量第次第次第次第次第次从次特征量的试验数据中随机地抽取两个数据,求至少有一个大于的概率.求特征量关于的线性回归方程;并预测当特征量为时特征量的值.(附:回归直线的斜率和截距的最小二乘法估计公式分别为,).8.某地区某农产品近几年的产量统计如表:年份年份代码年产量(万吨)(1)12(2)附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.根据表中数据,建立关于的线性回归方程.若近几年该农产品每千克的价格(单位:元)与年产量满足的函数关系式为,且每年该农产品都能售完.根据中所建立的回归方程预测该地区年该农产品的产量.当为何值时,销售额最大?(1)(2)9.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精确到).若莫斯科某餐厅销售的中国小龙虾的等级代码数值为,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对一组数据,,,,其回归直线的斜率和截距最小二乘估计分别为:,.参考数据:,.(1)(2)(3)10.某食品店为了了解气温对销售量的影响,随机记录了该店月份中天的日销售量(单位:千克)与该地当日最低气温(单位:)的数据,如表:求出与的回归方程.判断与之间是正相关还是负相关;若该地月份某天的最低气温为,请用所求回归方程预测该店当日的销售量.设该地月份的日最低气温,其中近似为样本平均数,近似为样本方差,求.附:①回归方程中,,.②,.若,则,.2. 独立性检验(1)(2)11.我市为改善空气环境质量,控制大气污染,政府相应出台了多项改善环境的措施,其中一项是为了减少燃油汽车对大气环境污染,从年起大力推广使用新能源汽车,鼓励市民如果需要购车,可优先考虑选用新能源汽车,政府对购买使用新能源汽车进行购物补贴,同时为了地方经济发展,对购买本市企业生产的新能源汽车比购买外地企业生产的新能源汽车补贴高,所以市民对购买使用本市企业生产的新能源汽车的满意度也相应有所提高,有关部门随机抽取本市本年度内购买新能源汽车的户,其中有户购买使用本市企业生产的新能源汽车,对购买使用新能源汽车的满意度进行调研,满意度以打分的形式进行,满分分,将分数按照,,,,分成组,得如下频率分布直方图.得分频数组距若本次随机抽取的样本数据中购买使用本市企业生产的新能源汽车的用户中有户满意度得分不少于分,得分不少于分为满意,根据提供的条件数据,完成下面的列联表,并判断是否有的把握认为购买使用新能源汽车的满意度与产地有关?满意不满意总计购买本市企业生产的新能源汽车户数 购买外地企业生产的新能源汽车户数总计以频率作为概率,政府对购买使用新能源汽车的补贴标准是:购买本市企业生产的每台补贴万元,购买外地企业生产的每台补贴万元,但本市本年度所有购买新能源汽车的补贴每台的期望值不超过万元,则购买外地产的新能源汽车每台最多补贴多少万元?附:,其中.(1)1(2)12.大学先修课程,是在高中开设的具有大学水平的课程,旨在让学有余力的高中生早接受大学思维方式、学习方法的训练,为大学学习乃至未来的职业生涯做好准备.某高中成功开设大学先修课程已有两年,共有人参与学习先修课程,这两年学习先修课程的学生都参加了高校的自主招生考试(满分分),结果如下表所示:分数人数参加自主招生获得通过的概率这两年学校共培养出优等生人,根据如图等高条形图,填写相应列联表,并根据列联表检验能否在犯错误的概率不超过的前提下认为学习先修课程与优等生有关系?非优等生优等生学习大学先修课程没有学习大学先修课程优等生非优等生总计学习大学先修课程 没有学习大学先修课程总计已知今年全校有名学生报名学习大学先修课程,并都参加了高校的自主招生考试,以前两年参加大学先修课程学习成绩的频率作为今年参加大学先修课程学习成绩的概率.在今年参与大学先修课程学习的学生中任取一人,求他获得高校自主招生通过的概率.2某班有名学生参加了大学先修课程的学习,设获得高校自主招生通过的人数为,求的分布列,试估计今年全校参加大学先修课程学习的学生获得高校自主招生通过的人数.参考数据:参考公式:,其中.(1)(2)13.某企业原有甲、乙两条生产线,为了分析两条生产线的效果,先从两条生产线生产的大量产品中各抽取了件产品作为样本.检测一项质量指标值,该项指标值落在内的产品视为合格品,否则为不合格品.乙生产线样本的频数分布表质量指标合计频数质量指标值频率组距甲生产线样本的频率分布直方图根据甲生产线样本的频率分布直方图,以从样本中任意抽取一件产品且为合格品的频率近似代替从甲生产线生产的产品中任意抽取一件产品且为合格品的概率,估计从甲生产线生产的产品中任取件恰有件为合格品的概率.现在该企业为提高合格率欲只保留其中一条生产线.根据上述图表所提供的数据,完成下面的列联表,并判断是否有的把握认为该企业生产的这种产品的质量指标值与生产线有关.若有的把握,请从合格率的角度分析保留哪条生产线较好.甲生产线乙生产线合计合格品不合格品合计附:,.12(1)(2)14.某共享单车经营企业欲向甲市投放单车,为制定适宜的经营策略,该企业首先在已投放单车的乙市进行单车使用情况调查.调查过程分随机问卷,整理分析及开座谈会三个阶段.在随机问卷阶段,,两个调查小组分赴全市不同区域发放问卷并及时收回;在整理分析阶段,两个调查小组从所获取的有效问卷中,针对至岁的人群,按比例随机抽取了份,进行了数据统计,具体情况如下表:组别年龄组统计结果组统计结果经常使用单车偶尔使用单车经常使用单车偶尔使用单车人人人人人人人人人人人人先用分层抽样的方法从上述人中按“年龄是否达到岁”抽出一个容量为人的样本,再用分层抽样的方法将“年龄达到岁”的被抽个体数分配到“经常使用单车”和“偶尔使用单车”中去.求这人中“年龄达到岁且偶尔使用单车”的人数.为听取对发展共享单车的建议,调查组专门组织所抽取的“年龄达到岁且偶尔使用单车”的人员召开座谈会,会后共有份礼品赠送给其中人,每人份(其余人员仅赠送骑行优惠券).已知参加座谈会的人员中有且只有人来自组,求组这人中得到礼品的人数的分布列和数学期望.从统计数据可直观得出“是否经常使用共享单车与年龄(记作岁)有关”的结论.在用独立性检验的方法说明该结论成立时,为使犯错误的概率尽可能小,年龄应取还是?请通过比较的观测值的大小加以说明.参考公式:,其中.15.年,依托用户碎片化时间的娱乐需求,分享需求以及视频态的信息负载力,短视频快速崛起,与此同时,移动阅读方兴未艾,从侧面反应了人们对精神富足的一种追求,在习惯了大众娱乐所带来的短暂愉悦后,部分用户依旧对有着传统文学底蕴的严肃阅读青睐有加.某读书抽样调查了非一线城市和一线城市各名用户的日使用时长(单位:分钟),绘制成频率分布直方图如下,其中日使用时长不低于分钟的用户记为“活跃用户”.(1)(2)(3)频率组距日使用时长分钟频率组距日使用时长分钟城市城市请填写以下列联表,并判断是否有的把握认为用户活跃与否与所在城市有关.活跃用户不活跃用户合计城市 城市合计以频率估计概率,从城市中任选名用户,从城市中任选名用户,设这名用户中活跃用户人数为,求的分布列和数学期望.该读书还统计了年个季度的用户使用时长(单位:百万小时),发现与季度()线性相关,得到回归直线为,已知这个季度的用户平均使用时长为百万小时,试以此回归方程估计年第一季度该读书用户使用时长约为多少百万小时.附:,其中.(1)16.在中国移动的赞助下,某大学就业部从该大学年已就业的、两个专业的大学本科毕业生中随机抽取了人进行月薪情况的问卷调查,经统计发现,他们的月薪收入在元到元之间,具体统计数据如下表:月薪(百元)人数将月薪不低于元的毕业生视为“高薪收入群体”,并将样本的频率视为总体的概率,已知该校届大学本科毕业生李阳参与了本次调查问卷,其月薪为元.请根据上述表格中的统计数据填写下面的列联表,并通过计算判断,是否能在犯错误的概率不超过的前提下认为“高薪收入群体”与所学专业有关?12(2) 非高薪收入群体高薪收入群体合计专业专业 合计经统计发现,该大学届的大学本科毕业生月薪(单位:百元)近似地服从正态分布,其中近似为样本平均数(每组数据取区间的中点值).若落在区间的左侧,则可认为该大学本科生属“就业不理想”的学生,学校将联系本人,咨询月薪过低的原因,为以后的毕业生就业提供更好的指导.试判断李阳是否属于“就业不理想”的学生.中国移动为这次参与调查大学本科毕业生制定了赠送话费的活动,赠送方式为:月薪低于的获赠两次随机话费,月薪不低于的获赠一次随机话费,每次赠送的话费及对应的概率分别为:赠送话费(单位:元)概率则李阳预期获得的话费为多少元?附:,其中,.(1)(2)17.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中,随机抽取了人,从美国某城市的高中生中随机抽取了人进行答题.中国高中生答题情况是:选择家的占、朋友聚集的地方占、个人空间占.美国高中生答题情况是:家占、朋友聚集的地方占、个人空间占.为了考察高中生的“恋家(在家里感到最幸福)”是否与国别有关,构建了如下列联表.在家里最幸福在其它场所幸福合计中国高中生美国高中生合计请将列联表补充完整;试判断能否有的把握认为“恋家”与否与国别有关.从中国高中生的学生中以“是否恋家”为标准采用分层抽样的方法,随机抽取了人,再从这人中随机抽取人.若所选名学生中的“恋家”人数为,求随机变量的分布列及期望.附:,其中.视力频率组距(1)不做操做操近视不近视是否做操是否近视(2)(3)18.眼保健操是一种眼睛的保健体操,主要是通过按摩眼部穴位,调整眼及头部的血液循环,调节肌肉,改善眼的疲劳,达到预防近视等眼部疾病的目的.某学校为了调查推广眼保健操对改善学生视力的效果,在应届高三的全体名学生中随机抽取了名学生进行视力检查,并得到如图的频率分布直方图.附:,若直方图中后三组的频数成等差数列,试估计全年级视力在以上的人数.为了研究学生的视力与眼保健操是否有关系,对年纪不做眼保健操和坚持做眼保健操的学生进行了调查,得到下表中数据,根据表中的数据,能否在犯错的概率不超过的前提下认为视力与眼保健操有关系?在中调查的名学生中,按照分层抽样在不近视的学生中抽取人,进一步调查他们良好的护眼习惯,在这人中任取人,记坚持做眼保健操的学生人数为,求的分布列和数学期望.19.为调查某地人群年龄与高血压的关系,用简单随机抽样方法从该地区年龄在岁的人群中抽取人测量血压,结果如下:高血压非高血压总计年龄到岁(1)(2)年龄到岁总计附参考公式及参考数据:计算表中的、、值;是否有的把握认为高血压与年龄有关?并说明理由.现从这名高血压患者中按年龄采用分层抽样的方法抽取人,再从这人中随机抽取人,求恰好一名患者年龄在到岁的概率.(1)(2)20.随着移动支付的普及,中国人的生活方式正悄然巨变,带智能手机,不带钱包出门还渐成为中国人的新习惯. 年我国移动支付增长迅猛,据统计,某支付平台年移动支付的笔数占总支付笔数的.从该支付平台 年的所有支付中任取笔,求移动支付笔数的期望和方差.现有名使用该支付平台的用户,其中 名是城市用户,名是农村用户,调查他们年个人移动支付的比例是否达到了,得到列联表如下:个人移动支付达到了个人移动支付达到了合计城市用户农村用户合计根据上表数据,问是否有的把握认为年个人移动支付比例达到了与该用户是城市用户还是农村用户有关?附:.(1)21.学校为了了解高三学生每天自主学习中国古典文学的时间,随机抽取了高三男生和女生各名进行问卷调查,其中每天自主学习中国古典文学的时间超过小时的学生称为“古文迷”,否则为“非古文迷”,调查结果如表:古文迷非古文迷合计男生女生合计根据表中数据能否判断有的把握认为“古文迷”与性别有关?(2)(3)现从调查的女生中按分层抽样的方法抽出人进行调查,求所抽取的人中“古文迷”和“非古文迷”的人数.现从()中所抽取的人中再随机抽取人进行调查,记这人中“古文迷”的人数为,求随机变量的分布列与数学期望.参考公式:,其中.参考数据:(1)(2)(3)22.每年的月日为世界读书日,为调查某高校学生(学生很多)的读书情况,随机抽取了男生,女生各人组成的一个样本,对他们的年阅读量(单位:本)进行了统计,分析得到了男生年阅读量的频率分布表和女生阅读量的频率分布直方图.男生年阅读量的频率分布表(年阅读量均在区间内):本/年频数根据女生的频率分布直方图估计该校女生年阅读量的中位数.在样本中,利用分层抽样的方法,从男生年与度量在,的两组里抽取人,再从这人中随机抽取人,求这一组中至少有人被抽中的概率.若年阅读量不小于本为阅读丰富,否则为阅读不丰富,依据上述样本研究阅读丰富与性别的关系,完成下列列联表,并判断是否有的把握认为月底丰富与性别有关.性别 阅读量丰富不丰富合计男 女 合计附:,其中.频率组距分数(1)(2)(3)23.为了调查学生数学学习的质量情况,某校从高二年级学生(其中男生与女生的人数之比为)中,采用分层抽样的方法抽取名学生依期中考试的数学成绩进行统计.根据数学的分数取得了这名同学的数据,按照以下区间分为八组:①,②,③,④,⑤,⑥,⑦,⑧得到频率分布直方图如图.已知抽取的学生中数学成绩少于分的人数为人.求的值及频率分布直方图中第④组矩形条的高度;如果把“学生数学成绩不低于分”作为是否达标的标准,对抽取的名学生,完成下列列联表:达标未达标合计男生女生合计据此资料,你是否认为“学生性别”与“数学成绩达标与否”有关?若从该校的高二年级学生中随机抽取人,记这人中成绩不低于分的学生人数为,求的分布列、数学期望和方差.附1:“ 列联表”的卡方统计量公式:附2:卡方 统计量的概率分布表:…………(1)12(2)24.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”遍布了一二线城市的大街小巷.为了解共享单车在.市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了人进行抽样分析,得到下表(单位:人):经常使用偶尔或不用合计岁及以下岁以上合计根据以上数据,能否在犯错误的概率不超过的前提认为市使用共享单车情况与年龄有关?请回答下列问题:现从所抽取的岁以上的网民中,按“经常使用”与“偶尔或不用”这两种类型进行分层抽样抽取人,然后,再从这人中随机选出人赠送优惠券,求选出的人中至少有人经常使用共享单车的概率.将频率视为概率,从市所有参与调查的网民中随机抽取人赠送礼品,记其中经常使用共享单车的人数为,求的数学期望和方差.参考公式:,其中.参考数据:(1)(2)25.某调查机构对某校学生做了一个是否同意生“二孩”抽样调查,该调查机构从该校随机抽查了名不同性别的学生,调查统计他们是同意父母生“二孩”还是反对父母生“二孩”,现已得知人中同意父母生“二孩”占,统计情况如表:同意不同意合计男生 女生合计求,的值,根据以上数据,能否有的把握认为是否同意父母生“二孩”与性别有关?请说明理由.。

高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。

回归直线方程与独立性检验-讲义(学生版)

回归直线方程与独立性检验-讲义(学生版)

回归直线方程与独立性检验一、课堂目标1、明确建立回归模型的基本步骤、熟练运用线性回归模型解决非线性相关问题.2、能够运用独立性检验对两个分类变量是否线性相关作出判断.二、直击高考知识模块知识内容全国卷常见题型回归分析一元线性回归模型2020年全国三卷18题解答题回归直线方程独立性检验分类变量2020年全国二卷18题解答题三、知识讲解1. 回归分析知识回顾方法提升考点一:回归直线方程的求解对于一组具有线性相关关系的数据:,,,,,我们知道其回归直线的斜率和截距的最小二乘法估计分别为:其中,,称为样本点的中心,位于回归直线上.【思想方法与技巧】利用线性相关回归分析处理非线性问题:研究两个变量的关系是,我们常常根据样本生成点坐标在平面直角坐标系中作出散点图,观察散点图中样本点的分布.从整体看,如果样本点并没有分布在某一条直线附近,这两个变量之间不具有线性相关关系,也就是非线性相关关系.考点二:相关系数的求解对于变量与随机抽到的对数据,,,,,可以利用相关系数来衡量两个变量之间线性相关关系,样本相关系数的计算公式为:.【思想方法与技巧】利用相关系数评判结果如下:(1)时,表示两个变量正相关;(2)时,表示两个变量负相关;(3)越接近于,表明两个变量的线性相关程度越强;(4)越接近于,表明两个变量的线性相关程度越弱.高考链接1.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的个地块,从这些地块中用简单随机抽样的方法抽取个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单(1)(2)(3)位:公顷)和这种野生动物的数量,并计算得,,,,.附:相关系数,.求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数).求样本的相关系数(精确到).根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.(1)(2)2.下图是某地区年至年环境基础设施投资额(单位:亿元)的折线图.为了预测该地区年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据年至年的数据(时间变量的值依次为)建立模型①:.根据年至年的数据(时间变量的值依次为)建立模型②:.年份投资额分别利用这两个模型,求该地区年的环境基础设施投资额的预测值.你认为用哪个模型得到的预测值更可靠?并说明理由.3.下图是我国年至年生活垃圾无害化处理量(单位:亿吨)的折线图(1)(2)年份代码年生活垃圾无害化处理量注:年份代码分别对应年亿吨参考数据:,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明.建立关于的回归方程(系数精确到),预测年我国生活垃圾无害化处理量.方法应用4.随着互联网的兴起,越来越多的人选择网上购物.某购物平台为了吸引顾客提升销售额,每年双十一都会进行某种商品的促销活动,该商品促销活动规则如下:①“价由客定”,即所有参与该商品促销活动的人进行网络报价,每个人并不知晓其他人的报价也不知道参与该商品促销活动的总人数;②报价时间截止后,系统根据当年双十一该商品数量配额,按照参与该商品促销活动人员的报价从高到低分配名额;③每人限购一件,且参与人员分配到名额时必须购买,某位顾客拟参加年双十一该商品促销活动,他为了预测该商品最低成交价,根据该购物平台的公告统计了最近年双十一参与该商品促销活动的人数(见表):年份年份编号参与人数(百万人)12(2)由收集数据的散点图发现,可用线性回归模拟拟合参与人数(百万人)与年份编号之间的相关关系.请用最小二乘法求关于的线性回归方程:,并预测年双十一参与该商品促销活动的人数.该购物平台调研部门对位拟参与年双十一该商品促销活动人员的报价价格进行了一个抽样调查,得到如下的一份频数表:报价区间(千元)频数求这位参与人员报价的平均值和样本方差(同一区间的报价可用该价格区间的中点值代替).假设所有参与该商品促销活动人员的报价可视为服从正态分布且与可分别由①中所求的样本平均值和样本方差估值,若预计年双十一该商品最终销售量为,请你合理预测(需说明理由)该商品的最低成交价.参考公式及数据()回归方程:,其中,.(),,.()若随机变量服从正态分布,则,,.5.我国全面二孩政策已于年月日起正式实施,国家统计局发布的数据显示,从年到年,中国的人口自然增长率变化始终不大,在上下波动(如图).中国内地总人口和自然增长率总人口自然增长率出生率(万人)为了了解年龄介于岁至岁之间的适孕夫妻对生育二孩的态度如何,统计部门按年龄分为组,每组选取对夫妻进行调查,统计有生育二孩意愿的夫妻数,得到下表:‰(1)(2)有意愿数(参考数据和公式:,,,,,)设每个年龄区间的中间值为 ,有意愿数为,求样本数据的线性回归直线方程,并求该模型的相关系数(结果保留两位小数).从,,,,这五个年龄段中各选出一对夫妻(能代表该年龄段超过半数夫妻的意愿)进一步调研,再从这对夫妻中任选对夫妻,设其中不愿意生育二孩的夫妻数为,求的分布列和数学期望.(1)(2)6.某小区为了调查居民的生活水平,随机从小区住户中抽取个家庭,得到数据如下:家庭编号月收入(千元)月支出(千元)参考公式:回归直线的方程是:,其中,,.据题中数据,求月支出(千元)关于月收入(千元)的线性回归方程(保留一位小数);从这个家庭中随机抽取个,记月支出超过千家庭个数为,求的分布列与数学期望.7.如表中的数据是一次阶段性考试某班的数学、物理原始成绩:学号数学物理学号数学(1)(2)(3)理用这人的两科成绩制作如下散点图:物理数学学号为号的同学由于严重感冒导致物理考试发挥失常,学号为号的同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将、两同学的成绩(对应于图中、两点)剔除后,用剩下的个同学的数据作分析,计算得到下列统计指标:数学学科平均分为,标准差为,物理学科的平均分为,标准差为,数学成绩与物理成绩的相关系数为,回归直线(如图所示)的方程为.若不剔除、两同学的数据,用全部的成绩作回归分析,设数学成绩与物理成绩的相关系数为,回归直线为,试分析与的大小关系,并在图中画出回归直线的大致位置.如果同学参加了这次物理考试,估计同学的物理分数(精确到个位).就这次考试而言,学号为号的同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平可按公式统一化成标准分再进行比较,其中为学科原始分,为学科平均分,为学科标准差).(1)(2)8.已知某校个学生的数学和物理成绩如下表:学生的编号数学物理若在本次考试中,规定数学在分以上(包括分)且物理在分以上(包括分)的学生为理科小能手.从这个学生中抽出个学生,设表示理科小能手的人数,求的分布列和数学期望.通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用表示数学成绩,用表示物理成绩,求与的回归方程.参考公式:,其中,.(1)(2)某调查机构为了了解某产品年产量(吨)对价格(千元/吨)和利润的影响,对近五年该产品的年产量和价格统计如下表:求关于的线性回归方程若每吨该产品的成本为千元,假设该产品可全部卖出,预测当年产量为多少时,年利润取到最大值?参考公式:,.(1)(2)10.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间进行分析研究,他们分别记录了月日至月日的每天昼夜温差与实验室每天每棵种子中的发芽数,得到如下资料:日期月日月日月日月日月日温差摄氏度发芽颗该农科所确定的研究方案是:先从这组数据中选取组数据求线性回归方程,再用剩下的组数据进行检验.若选取的组数据恰好是连续天的数据(表示数据来自互不相邻的三天),求的分布列及期望.根据月日至日数据,求出发芽数关于温差的线性回归方程.由所求得线性回归方程得到的估计数据与剩下的检验数据的误差均不超过颗,则认为得到的线性回归方程是可靠的,试问所得的线性回归方程是否可靠?附:参考公式:,.(1)11.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精(2)若莫斯科某个餐厅打算从上表的种等级的中国小龙虾中随机选种进行促销,记被选中的种等级代码数值在以下(不含)的数量为,求的分布列及数学期望.参考公式:对一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.(1)(2)12.某动漫影视制作公司长期坚持文化自信,不断挖掘中华优秀传统文化中的动漫题材,创作出一批又一批的优秀动漫影视作品,获得市场和广大观众的一致好评,同时也为公司赢得丰厚的利润.该公司年至年的年利润关于年份代号的统计数据如下表(已知该公司的年利润与年份代号线性相关):年份年份代号年利润(单位:亿元)求关于的线性回归方程,并预测该公司年(年份代号记为)的年利润.当统计表中某年年利润的实际值大于由()中线性回归方程计算出该年利润的估计值时,称该年为级利润年,否则称为级利润年.将()中预测的该公司年的年利润视作该年利润的实际值,现从年至年这年中随机抽取年,求恰有年为级利润年的概率.参考公式:,.2. 独立性检验知识回顾方法提升考点:独立性检验求解步骤(1)准确作出列联表;(2)统计假设成立;(3)计算;(4)将上一步计算得到的观测值与临界值比较,从而接收或拒绝假设.【思想方法与技巧】1、在列联表中,越小,说明两个分类变量之间关系越弱;越大,说明两个分类变量之间关系越强.2、(1)制作列联表时要注意表中相关数据的位置及对应,避免出错;(2)作的列联表的独立性检验时,要求表中的个数据都要大于,因此,在选取样本容量时一定要注意.高考链接13.某学生兴趣小组随机调查了某市天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)(2)(3)锻炼人次空气质量等级(优)(良)(轻度污染)(中度污染)分别估计该市一天的空气质量等级为,,,的概率.求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表).若某天的空气质量等级为或,则称这天“空气质量好”;若某天的空气质量等级为或,则称这天“空气质量不好”.根据所给数据,完成下面的列联表;并根据列联表,判断是否有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次人次空气质量好空气质量不好附:.第一种生产方式第二种生产方式14.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取名工人,将他们随机分成两组,每组人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:)绘制了如下茎叶图:(1)(2)(3)根据茎叶图判断哪种生产方式的效率更高?并说明理由.求名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:超过不超过第一种生产方式第二种生产方式根据()中的列联表,能否有的把握认为两种生产方式的效率有差异?附:,(1)(2)(3)15.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取个网箱,测量各箱水产品的产量(单位:),其频率直方图如下:频率组距箱产量旧养殖法频率组距箱产量新养殖法附:.设两种养殖方法的箱产量相互独立,记表示事件:旧养殖法的箱产量低于, 新养殖法的箱产量不低于,估计的概率.填写下面列联表,并根据列联表判断是否有的把握认为箱产量与养殖方法有关.箱产量箱产量旧养殖法新养殖法根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到).方法应用(1)(2)(3)16.在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区名患者的相关信息,得到如下表格:潜伏期(单位:天)人数求这名患者的潜伏期的样本平均数(同一组中的数据用该组区间的中点值作代表).该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过天为标准进行分层抽样,从上述名患者中抽取人,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者年龄有关.潜伏期天潜伏期天总计岁以上(含岁)岁以下总计附:,其中.以这名患者的潜伏期超过天的频率,代替该地区名患者潜伏期超过天发生的概率,每名患者的潜伏期是否超过天相互独立.为了深入研究,该研究团队随机调查了名患者,其中潜伏期超过天的人数最有可能(即概率最大)是多少?17.为了提高生产效益,某企业引进了一批新的生产设备,为了解设备生产产品的质量情况,分别从新、旧设备所生产的产品中,各随机抽取件产品进行质量检测,所有产品质量指标值均在以内,规定质量指标值大于的产品为优质品,质量指标值在的产品为合格品.旧设备所生产的产品质量指标值如频率分布直方图所示,新设备所生产的产品质量指标值如频数分布表所示.(1)(2)(3)频率组距质量指标值质量指标值频数合计请分别估计新、旧设备所生产的产品的优质品率.优质品率是衡量一台设备性能高低的重要指标,优质品率越高说明设备的性能越高.根据已知图表数据填写下面列联表(单位:件),并判断是否有的把握认为“产品质量高与新设备有关”.非优质品优质品合计新设备产品旧设备产品合计附:,其中.用频率代替概率,从新设备所生产的产品中随机抽取件产品,其中优质品数为件,求的分布列及数学期望.18.冬天的北方室外温度极低,若轻薄保暖的石墨烯发热膜能用在衣服上,可爱的医务工作者行动会更方便,石墨烯发热膜的制作:从石墨中分离出石墨烯,制成石墨烯发热膜,从石墨分离石墨烯的一(1)(2)种方法是化学气相沉积法,使石墨升华后附着在材料上再结晶,现在有材料,材料供选择,研究人员对附着在材料,材料上再结晶各做了次试验,得到如下等高条形图.材料试验结果材料试验结果石墨烯再结晶试验试验成功试验失败根据上面的等高条形图,填写如下列联表,判断是否有的把握认为试验成功与材料有关.材料材料合计成功不成功合计研究人员得到石墨烯后,再制作石墨烯发热膜有三个环节:①透明基底及胶层,②石墨烯层,③表面封装层,第一,二环节生产合格的概率均为,第三个环节生产合格的概率为,且各生产环节相互独立,已知生产吨的石墨烯发热膜的固定成本为万元,若生产不合格还需进行修复,第三个环节的修复费用为元,其余环节修复费用均为元.如何定价,才能实现每生产吨石墨烯发热膜获利可达万元以上的目标.附:参考公式:,其中.19.由团中央学校部、全国学联秘书处、中国青年报社共同举办的年度全国“最美中学生”寻访活动结果出炉啦,此项活动于年月启动,面向全国中学在校学生,通过投票方式寻访一批在热爱祖国、勤奋学习、热心助人、见义勇为等方面表现突出、自觉树立和践行社会主义核心价值观的“最美中学生”.现随机抽取了名学生的票数,绘成如图所示的茎叶图,若规定票数在票以上(包括票)定义为风华组.票数在票以下(不包括票)的学生定义为青春组.(1)(2)(3)在这名学生中,青春组学生中有男生人,风华组学生中有女生人,试问有没有的把握认为票数分在青春组或风华组与性别有关.如果用分层抽样的方法从青春组和风华组中抽取人,再从这人中随机抽取人,那么至少有人在青春组的概率是多少?用样本估计总体,把频率作为概率,若从该地区所有的中学(人数很多)中随机选取人,用表示所选人中青春组的人数,试写出的分布列,并求出的数学期望.附:;其中,独立性检验临界表:(1)(2)(3)20.为了保障全国第四次经济普查顺利进行,国家统计局从东部选择江苏,从中部选择河北、湖北,从西部选择宁夏,从直辖市中选择重庆作为国家综合试点地区,然后再逐级确定普查区域,直到基层的普查小区.在普查过程中首先要进行宣传培训,然后确定对象,最后入户登记.由于种种情况可能会导致入户登记不够顺利,这为正式普查提供了宝贵的试点经验.在某普查小区,共有家企事业单位,家个体经营户,普查情况如下表所示:普查对象类型顺利不顺利合计企事业单位个体经营户合计写出选择个国家综合试点地区采用的抽样方法.根据列联表判断是否有的把握认为“此普查小区的入户登记是否顺利与普查对象的类别有关”.以频率作为概率,某普查小组从该小区随机选择家企事业单位,家个体经营户作为普查对象,入户登记顺利的对象数记为,写出的分布列,并求的期望值.附:.(1)(2)(3)21.黄冈市有很多名优土特产,黄冈市的蕲春县就有闻名于世的“蕲春四宝”(蕲竹、蕲艾、蕲蛇、蕲龟),很多人慕名而来旅游,通过随机询问名不同性别的游客在购买“蕲春四宝”时是否在来蕲春县之前就知道“蕲春四宝”,得到如下列联表:男女总计事先知道“蕲春四宝”事先不知道“蕲春四宝”总计附:.写出列联表中各字母代表的数字.由以上列联表判断,能否在犯错误的概率不超过的前提下认为购买“蕲春四宝”和是否“事先知道’蕲春四宝’有关系”?从被询问的名事先知道“蕲春四宝”的顾客中随机选取名顾客,求抽到的女顾客人数的分布列及其数学期望.(1)22.在一次爱心捐款活动中,小李为了了解捐款数额是否和居民自身的经济收入有关,随机调查了某地区的个捐款居民每月平均的经济收入.在捐款超过元的居民中,每月平均的经济收入没有达到元的有个,达到元的有个;在捐款不超过元的居民中,每月平均的经济收入没有达到元的有个.参考数据当时,无充分证据判定变量,有关联,可以认为两变量无关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联.附:,其中.在下图表格空白处填写正确数字,并说明是否有以上的把握认为捐款数额是否超过元和居民每月平均的经济收入是否达到元有关?每月平均经济收入达到元每月平均经济收入没有达到元合计捐款超过元 捐款不超过元(2)合计将上述调查所得到的频率视为概率.现在从该地区大量居民中,采用随机抽样方法每次抽取个居民,共抽取次,记被抽取的个居民中经济收入达到元的人数为,求和期望的值.(1)(2)23.2016年月日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在岁之间的人进行调查,某机构随机抽取了在之间的人进行调查,经统计“青少年”与“中老年”的人数之比为.根据已知条件完成下面的列联表,并判断能否有的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.关注不关注合计青少年中老年合计现从抽取的青少年中采取分层抽样的办法选取人进行问卷调查,在这人中再选取人进行面对面询问,记选取的人中关注“国际教育信息化大会”的人数为,求的分布列及数学期望.附:参考公式:,其中.临界值表:(1)(2)24.为了研究家用轿车在高速公路上的车速情况,交通部门对名家用轿车驾驶员进行调查,得到其在高速公路上行驶时的平均车速情况为:在名男性驾驶员中,平均车速超过的有人,不超过的有人.在名女性驾驶员中,平均车速超过的有人,不超过的有人.完成下面的列联表,并判断是否有的把握认为平均车速超过的人与性别有关.平均车速超过人数平均车速不超过人数合计男性驾驶员人数 女性驾驶员人数合计以上述数据样本来估计总体,现从高速公路上行驶的大量家用轿车中随机抽取辆,记这辆车中驾驶员为男性且车速超过的车辆数为,若每次抽取的结果是相互独立的,求的分布列和数学期望.参考公式与数据:,其中,对服务满意对服务不满意合计对商品满意 对商品不满意合计(1)(2)25.近年来,我国电子商务蓬勃发展.年“”期间,某网购平台的销售业绩高达亿元人民币,与此同时,相关管理部门推出了针对该网购平台的商品和服务的评价系统.从该评价系统中选出次成功交易,并对其评价进行统计,网购者对商品的满意率为,对服务的满意率为,其中对商品和服务都满意的交易为次.根据已知条件完成下面的列联表,并回答能否有的把握认为“网购者对商品满意与对服务满意之间有关系”?若将频率视为概率,某人在该网购平台上进行的次购物中,设对商品和服务都满意的次数为随机变量,求的分布列和数学期望.附:(其中为样本容量)26.万众瞩目的第届全国冬季运动运会(简称“十四冬”)于年月日在呼伦贝尔市盛大开幕,期间正值我市学校放寒假,寒假结束后,某校工会对全校名教职工在“十四冬”期间每天收看比赛转播的时间作了一次调查,得到如图频数分布直方图:。

回归分析与独立性检验练习

回归分析与独立性检验练习

回归分析与独立性检验综合训练回归分析: 热身练习1. 在画两个变量的散点图时,下面哪个叙述是正确的( )(A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上 (C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上 2. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) A.身高一定是145.83cm; B.身高在145.83cm 以上; C.身高在145.83cm 以下; D.身高在145.83cm 左右.3. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( )A.模型1的相关指数2R 为0.98 B.模型2的相关指数2R 为0.80 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.254. 若有一组数据的总偏差平方和为100,相关指数为0.5,则期残差平方和为_______ 回归平方和为____________5.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090yx =+,下列判断正确的是() A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90 独立性检验: 热身练习1.下面是一个2×2列联表:则表中a 、b 处的值分别为( )A .94、96B .52、50C .52、60D .54、52 2.下列关于等高条形图的叙述正确的是( ).A .从等高条形图中可以精确地判断两个分类变量是否有关系B .从等高条形图中可以看出两个变量频数的相对大小C .从等高条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对3.关于分类变量x 与y 的随机变量K 2的观测值k ,下列说法正确的是( ).A .k 的值越大,“X 和Y 有关系”可信程度越小B .k 的值越小,“X 和Y 有关系”可信程度越小C .k 的值越接近于0,“X 和Y 无关”程度越小D .k 的值越大,“X 和Y 无关”程度越大 4.若由一个2×2列联表中的数据计算得k =4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到k =50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为________.6.第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招幕了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.(1)根据以上数据完成以下2×2列联表:喜爱运动 不喜爱运动 总计 男 10 16 女 614 总计30(2) 基础练习1.下列变量间的关系,不是函数关系的是( ) A .角度和它的余弦值 B .正方形的边长和面积C .正多边形的边数和顶点的角度之和D .人的年龄和身高2. “回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他提出的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆya bx =+中,b ( )A .在(-1,0)内B .等于0C .在(0,1)内D .在[1,)+∞内 3.已知回归直线斜率的估计值为1.23,样本的中心点为(4,5),则回归直线方程为( )A .ˆ 1.234yx =+ B .ˆ 1.235y x =+ C .ˆ 1.230.08y x =+ D .ˆ0.08 1.23y x =+ 4.对于回归直线方程ˆ 4.67 2.85yx =+,当21x =时,y 的估计值为 5.一所大学图书馆有6台复印机供学生使用管理人员发现,每台机器的维修费用与其使用的时间有一定的关系,根据去年一年的记录,得到每周使用时间(单位:小时)与年维修费用(单位:元)的数据如下:时间 33 21 31 37 46 42 费用 16 14 25 29 38 34则使用时间与维修费用之间的相关系数为6.某种产品的广告支出与销售额(单位:百万元)之间有如下的对应关系x 2 4 5 6 8 y3040605070(1)假定x 与y 之间具有线性相关关系,求回归直线方程.(2)若实际销售额不少于60百万元,则广告支出应该不少于多少?7.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:32.5435464.566.5⨯+⨯+⨯+⨯=) 8.下表为收集到的一组数据:(1)作出x 与y 的散点图,猜测(2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报x =40时y 的值.综合练习:一、选择题1.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( ) Ay ∧=1.23x +4 By ∧=1.23x+5 C y ∧=1.23x+0.08 D y ∧=0.08x+1.232.回归分析中,相关指数R 2的值越大,说明残差平方和( )A 越小B 越大C 可能大也可能小D 以上都不对3.为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线方程1l 和2l ,两人计算知x 相同,y 也相同,下列正确的是()A 1l 与2l 一定平行B 1l 与2l 相交于点),(y xC 1l 与2l 重合D 无法判断1l 和2l 是否相交 4.变量x 与y 具有线性相关关系,当x 取值16,14,12,8时,通过观测得到y 的值分别为11,9,8,5,若在实际问题中,y 的预报最大取值是10,则x 的最大取值不能超过( )A 16B 17C 15D 12二、填空题5.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是____________6.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定断言“X 和Y 有关系”的可信度。

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
(2)相关关系:这是一种非确定性关系,①两个变量中一个为可控制变量,另一个为 随机变量,例如施肥量是可控制变量,而农作物的产量是随机变量。②两个变量均为随机变
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1

回归分析和独立性检验(教师版)

回归分析和独立性检验(教师版)

回归分析即独立性检验一、回归分析1、两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2、散点图:将样本中的n 个数据点()(12)i i x y i n =L ,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3、如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4、回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.5、最小二乘法:记回归直线方程为:ˆˆˆy bx a =+,称为变量y 对变量x 的回归直线方程,其中a b ,叫做回归系数.用最小二乘法求回归系数ˆˆab ,有如下的公式: 1122211()()ˆ()ˆˆnni i i ii i n ni ii i x x y y x ynxyb x x xnx ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的(样本中心点(,)x y 必定落在回归直线上)例1、已知回归直线方程中斜率的估计值为1.23,样本点的中心(4,5),则回归直线方程为 A . ˆy=1.23x +0.08 B . ˆy =0.08x +1.23 C . ˆy =1.23x +4 D . ˆy =1.23x +5 解析 回归直线方程过样本点的中心,把点(4,5)代入A 项成立. 答案 A例2、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的(2) 请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程$y bxa =+$; (3) 已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?【解析】(1)如下图(2)y x ini i ∑=1=3⨯2.5+4⨯3+5⨯4+6⨯4.5=66.5 x =46543+++=4.5y =45.4435.2+++=3.5 ∑=n i x i 12=32+42+52+62=86 266.54 4.5 3.566.563ˆ0.7864 4.58681b -⨯⨯-===-⨯- ˆˆ 3.50.7 4.50.35a Y bX =-=-⨯= 故线性回归方程为y=0.7x+0.35(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7⨯100+0.35=70.35故耗能减少了90-70.35=19.65(吨)练习1、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)(2)求出y 关于x 的线性回归方程ˆˆˆybx a =+,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?解 (1)散点图如图所示.(2)由表中数据得1ni i i x y =∑=52.5,x =3.5,y =3.5,21ni i x =∑=54,∴ˆb=0.7. ∴ˆa =1.05. ∴ˆy=0.7x +1.05. 回归直线如图中所示.(3)将x =10代入回归直线方程,得y =0.7×10+1.05=8.05(小时), ∴预测加工10个零件需要8.05小时. 二、独立性检验1、22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据a b c d ,,,,并希望根据这样的4个数据来检验上述的两种状态x 与y 是否有关,就称之为22⨯联表的独立性检验.2、独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2K 统计量;查对临界值表,作出判断.3、几个临界值:.4、统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设.5、2K (读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22()()()()()n ad bc K a b c d a c b d -=++++,用它的大小可以用来决定是否拒绝原来的统计假设0H6、2K 统计量的临界值的作用:比如:当2 3.841K ≥时,有95%的把握说事件A 与B 有关;当2 6.635K ≥时,有99%的把握说事件A 与B 有关;当2 3.841K <时,有5%的把握说事件A 与B 是无关的.7、独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立 例、甲、乙两所学校高三年级分别有1200人、1000人,为了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下: 分组 [70,80) [80,90) [90,100) [100,110) 频数 3 4 8 15 分组 [110,120) [120,130) [130,140) [140,150] 频数 15 x 3 2 分组 [70,80) [80,90) [90,100) [100,110) 频数 1 2 8 9 分组 [110,120) [120,130) [130,140) [140,150] 频数 10 10 y 3 (2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率; (3)由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.甲校 乙校 总计 优秀 非优秀 总计解:(1)甲校抽取110×12002200=60(人),乙校抽取110×10002200=50(人),故x =10,y =7.(2)估计甲校优秀率为1560=25%,乙校优秀率为2050=40%.(3) 表格填写如下:甲校 乙校 总计 优秀 15 20 35 非优秀 45 30 75 总计 60 50 110K 2=110(15×30-20×45)260×50×35×75≈2.83>2.706,又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.练习1、某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与支持活动有关系”.( C )A .0.1%B .1%C .99%D .99.9% 2、某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A 、B 两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下.记成绩不低于90分者为“成绩优秀”.由以上统计数据填写下面列联表,并判断是否有90%的把握认为:“成绩优秀”与教学方式有关.甲班(A 方式)乙班(B 方式)总计 成绩优秀 成绩不优秀 总计[ 甲班(A 方式)乙班(B 方式)总计 成绩优秀 1 5 6 成绩不优秀 19 15 34 总计202040根据列联表中数据,χ2=6×34×20×20≈3.137,由于3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.回归分析和独立性检验练习题1、一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为ˆy=7.19x +73.93,用这个模型预测这孩子10岁时的身高,则正确的叙述是( D )A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 以下D .身高在145.83 cm 左右2、某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y 与x 具有相关关系,回归方程为ˆy=0.66x +1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( A )A .83%B .72%C .67%D .66%解析 将y =7.675代入回归方程,可计算得x ≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.3、若施化肥量x 与水稻产量y 的回归直线方程为ˆy=5x +250,当施化肥量为80kg 时,预报水稻产量为_____________________.解析 当x =80 kg 时,ˆy=5×80+250=650 kg . 答案 650 kg4根据上表可得回归直线方程y =0.56x +a ,据此模型预报身高为172cm 的高三男生的体重为( B )A .70.09kgB .70.12kgC .70.55kgD .71.05kg5、下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (t)与相应的生产能耗y (t)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为( A )A .3B .3.15C .3.5D .4.56、有甲、乙两个班级进行数学考试,按照大于等于85分的优秀,85分以下为非优秀统计已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( C )A.列联表中c 的值为30,b 的值为35 B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 7、某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程ˆˆybx a =+,其中20b =-,ˆˆa y bx =-; (2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,所以ˆˆay bx =-=80+20×8.5=250. 从而回归直线方程为ˆy =-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x(-20x +250)-4(-20x +250)=-20x 2+330x -1000=-20⎝⎛⎭⎫x -3342+361.25, 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.8、考察黄烟经过药物处理跟发生青花病的关系,得到如下数据,在试验的470珠黄烟中,经过药物处理的黄烟有25珠发生青花病,60株没有发生青花病.未经过药物处理的有185株发生青花病,200株没有发生青花病,试推断药物处理跟发生青花病是否有关系.[根据公式k 2=470×(25×200-185×60)210×260×85×385≈9.788.由于9.788>7.879,所以我们有99.5%的把握认为经过药物处理跟发生青花病是有关系的.。

回归分析知识及习题.doc

回归分析知识及习题.doc

A.(0,0 )点C・(0,D.(xJ) 归分析的基本知识点及习题1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

2.线性回归方程y = hx^a中系数计算公式:-无)(月-顼)一亦顼/;= ---------- = -------- , a = y-bx9其中元,"表示样本均值.支3-元)2 力;-济/=! /=!3.回归直线必过样本点中心(% ,顼)A卷一、选择题:1 .炼钢时钢水的含碳量与冶炼时间有()A.确定性关系B.相关关系C.函数关系D.无任何关系2.对相关性的描述正确的是()A.相关性是一种因果关系B.相关性是一种函数关系C.相关性是变量与变量之间带有随机性的关系D.以上都不正确3.£时等于()/=!+X2y2+••・ D.X1- +工2>2 +••・+ "”4.设有-一个回归方程为y =2--2.5% ,则变量x增加一个单位时()A. y平均增加2.5个单位B. y平均增加2个单位C.y平均减少2.5个单位D.y平均减少2个单位A.3| +x2+••• + ◎'B.()\ +)Z +•.. + )'〃)5. y^jx之间的线性回归方程y =bx +a必定过()A.y = 11.47+ 2.62] C.y = 11.47x + 2.62 y = —11.47 +2.62工D. y = 11.47 -2.62x则系数的值为()£(玉—元)3,.-力/=!T)()f C. ----------------/=!已知x、y之间的一组数据:ZST)()',7)B. -----------------------n/=!£(气-玲26.某化工厂为预测某产品的问收率y,需要研究它和原料有效成分含量x之间8 8的相关关系,现取了8对观测值,计算得£兀=52, £乂=228,/=1 /=18 8£对二478,£易力=1849,则y与x的回归方程是()/=! /=!7•线性回归方程y = bx + a有一组独立的观测数据(为必),(方况),…,"〃,)%),贝,J y -W x的线性回归方程y = bx-\-a必过点()A.(2, 2)B.( 1.5,0)C. (1,2)D.(1.5,4)二、填空题:9.线性回归方程y = hx +a中,/?的意义是.10.有下列关系:⑴人的年龄与他(她)拥有的财富之间的关系;⑵曲线上的点写该点的坐标之间的关系;(3)苹果的产量与气候之间的关系;(4)森林中的同一种树木,其断面直径与高度之间的关系;(5)学生与他(她)的学号之间的关系.其中有相关关系的是.11.若施化肥量尤与水稻产量y的回归直线方程为y = 5x + 250 ,当施化肥量为SO kg时,预计的水稻产量为E(.v; - .y)2 i=l12.己知线性回归方程y = 1.5、+ 45(券{1,5,7,13,19}),则亍=.13.对于线性回归方程y = 4.75x + 257,当x = 28时,y的估计值是.三、解答题:14.为了研究三月下旬的平均气温(x°C)与四月二十号前棉花害虫化蛹高峰日(),)的关系,某地区观察了1996年至2001年的情况,得到下面的数据:(1)据气象预测,该地区在2002年三刀下旬平均气温为27°C,试估计2002年四月化蛹高峰日为哪天?(2)对变量心y进行相关性判断.•、选择题:1 .变量y与工之间的回归方程()A.表示y与工之间的函数关系B.表示y与尤之间的不确定性关系C.反映y与x之间真实关系的形式D.反映y-^x之间的真实关系达到最大限度的吻合3.由一组样本数据(羽,)\), (了2, ),2),…,(%)%)得到的回归直线方程y = bx + a , 那么下面说法不正确的是()A.直线y = bx + a必经过点(克力B.直线y=bx +a至少经过点(叫,)、),(^,/,…,(知)'〃)中的一个点Z也月—亦》C.直线y^bx + a的斜率为----------〃 2 -2Xj 一心D.直线)>= bx + a和各点(%], y)), (x2, ),•••, (x n, )的偏差[y y - (bx f +。

回归方程和独立性检验知识点

回归方程和独立性检验知识点

回归方程和独立性检验知识点(总3页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=ni ini i ix xy y x xb121)())((ˆ=∑∑==--ni ini ii x n xyx n yx 1221(由最小二乘法得出,考试时给出此公式中的一个)x b y aˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。

) 2、几条结论:(1)回归直线过样本的中心点)(y x ,。

(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。

(3)斜率b 的含义(举例):如果回归方程为y=+2, 说明x 增加1个单位时,y 平均增加个单位; 如果回归方程为y=-+2,说明x 增加1个单位时,y 平均减少个单位。

(4)相关系数r 表示变量的相关程度。

范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.。

0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。

(5)相关指数2R 表示模型的拟合效果。

范围:]10[2,∈R2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀,带状区域宽度越窄,拟合精度越高)。

2R 表示解释变量x 对于预报变量y 变化的贡献率。

例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。

(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。

(y 是由x 和e 共同确定的。

) 二、独立性检验1、原理:假设性检验(类似反证法原理)。

一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P ,发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P),也就是“X 和Y 有关系”。

《统计、回归分析、独立性检验》知识点及典例(详解)—精品文档

《统计、回归分析、独立性检验》知识点及典例(详解)—精品文档

统计、回归分析、独立性检验一、考点系统归纳 1.简单随机抽样简单随机抽样是不放回抽样,被抽取样本的个体数有限,从总体中逐个地进行抽取,使抽样便于在实践中操作,每次抽样时,每个个体等可能地被抽到,保证了抽样的公平性,实施方法主要有抽签法和随机数法。

2.系统抽样(1)定义:当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样,也称作等距抽样。

(2)系统抽样的步骤:①编号:采用随机的方式将总体中的个体编号 ②分段:先确定分段的间隔k ,当n N (N 为总体中的个体数,n 为样本容量)是整数时,nN k =;当n N 不是整数时,通过从整体中随机剔除一些个体使剩下的总体中个体总数`N 能被n 整除,这时nN k `=③确定起始个体编号。

在第1段用简单随机抽样确定起始的个体编号S④按照事先确定的规则抽取样本.通常是将S 加上间隔k ,得到第2个个体编号S +k ,再将(S +k )加上k ,得到第3个个体编号S +2k ,这样继续下去,获得容量为n 的样本.其样本编号依次是:S ,S +k ,S +2k ,…,S +(n -1)k .3.分层抽样(1)定义:当总体由有明显差别的几部分组成时,按某种特征在抽样时将总体中的各个个体分成互不交叉的层,然后按照各层在总体中所占的比例,从各层独立地抽取一定数量的个体合在一起作为样本。

这种抽样的方法叫做分层抽样。

分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体中所占的比例抽取。

分层抽样要求对总体的内容有一定的了解,明确分层的界限和数目,分层要恰当。

(2)分层抽样的步骤①分层;②按比例确定每层抽取个体的个数;③各层抽样(方法可以不同)④汇合成样本 (3)分层抽样的优点分层抽样充分利用了已知信息,充分考虑了保持样本结构与总体结构的一致性。

高二 回归分析与独立性检验

高二 回归分析与独立性检验

回归分析与独立性检验知识点1:变量的相关性:正相关.负相关.相关系数r :知识点2 线性回归方程:方程y ^=b ^x +a ^称为线性回归方程,其中1221()ni i i ni i x y nx y b x n x a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑,.(x -,y -)称为样本中心点. 知识点3 独立性检验:(1)确定2*2列联表.(2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作正确结论.例1.(2014·安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间 的频率分布直方图(如图8-3所示),其中样本数据的分组区间为: [0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平 均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P (K 2≥k 0)0.10 0.05 0.010 0.005 k 02.7063.8416.6357.879附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).例2. (2016·河南省名校期中)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下:(1)根据以上数据,能否有60%的把握认为“微信控”与“性别”有关?(2)现从调查的女性用户中按分层抽样的方法选出5人赠送营养面膜1份,求所抽取5人中“微信控”和“非微信控”的人数;(3)从(2)中抽取的5人中再随机抽取2人赠送200元的护肤品套装,求这2人中至少有1人为“非微信控”的概率. 参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:微信控 非微信控 总计 男性 26 24 50 女性 30 20 50 总计5644100P (K 2≥k 0)0.50 0.40 0.25 0.05 0.025 0.010 k 00.4550.7081.3233.8415.0246.635例3.(2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:x 1 2 3 4 5 y7.06.55.53.82.2(1)求y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)例4.(2016·全国3卷)如图,是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(注:年份代码1~ 7分别对应年份2008~2014.)(1)由折线图看出,可用线性回归模型拟合y 与t 的关系, 请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016 年我国生活垃圾无害化处理量.例5.(2018年新课标2,12分)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.20002001200220032004200520062007200820092010201120122013201420152016年份20040608014192535374242475356122129148171184209220为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,,17)建立模型①:ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,,7)建立模型②:ˆ9917.5yt =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.极坐标与参数方程知识点一:极坐标,极坐标与直角坐标相互转化 知识点二:参数方程1.化极坐标方程2cos 0ρθρ-=为直角坐标方程为( )A .201y y +==2x 或 B .1x = C .201y +==2x 或x D .1y =2.点M 的直角坐标是(-,则点M 的极坐标为( )A .(2,)3πB .(2,)3π-C .2(2,)3πD .(2,2),()3k k Z ππ+∈3.极坐标方程cos 2sin 2ρθθ=表示的曲线为( )A .一条射线和一个圆B .两条直线C .一条直线和一个圆D .一个圆4.直线cos sin 0x y αα+=的极坐标方程为____________________。

高考数学三轮冲刺专题回归分析及独立性检验练习(含解析)(2021年整理)

高考数学三轮冲刺专题回归分析及独立性检验练习(含解析)(2021年整理)

回归分析及独立性检验一、选择题(本大题共12小题,共60分)1。

设某中学的高中女生体重单位:与身高单位:具有线性相关关系,根据一组样本数据2,3,,,用最小二乘法近似得到回归直线方程为,则下列结论中不正确的是A。

y与x具有正线性相关关系B。

回归直线过样本的中心点C. 若该中学某高中女生身高增加1cm,则其体重约增加D。

若该中学某高中女生身高为160cm,则可断定其体重必为(正确答案)D【分析】本题考查了回归分析与线性回归方程的应用问题,是基础题目根据回归分析与线性回归方程的意义,对选项中的命题进行分析、判断正误即可.【解答】解:由于线性回归方程中x的系数为,因此y与x具有正的线性相关关系,A正确;由线性回归方程必过样本中心点,因此B正确;由线性回归方程中系数的意义知,x每增加1cm,其体重约增加,C正确;当某女生的身高为160cm时,其体重估计值是,而不是具体值,因此D错误.故选:D.2. 为了研究某班学生的脚长单位:厘米和身高单位:厘米的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24,据此估计其身高为A。

160 B. 163 C。

166 D. 170(正确答案)C解:由线性回归方程为,则,,则数据的样本中心点,由回归直线方程样本中心点,则,回归直线方程为,当时,,则估计其身高为166,故选C.由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得,将代入回归直线方程即可估计其身高.本题考查回归直线方程的求法及回归直线方程的应用,考查计算能力,属于基础题.3. 为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下收入x 万元支出y 万元据上表得回归直线方程,其中,,据此估计,该社区一户收入为15万元家庭年支出为A. 万元B. 万元C. 万元 D。

万元(正确答案)B解:由题意可得,,代入回归方程可得,回归方程为,把代入方程可得,故选:B.由题意可得和,可得回归方程,把代入方程求得y值即可.本题考查线性回归方程,涉及平均值的计算,属基础题.4. 下列说法错误的是A。

回归分析+独立性检验大题答案版

回归分析+独立性检验大题答案版

1.某公司为了增加销售额,经过了一系列的宣传方案,经统计广告费用x 万元与销售额y 万(2)若广告费用投入8万元,请预测销售额会达到多少万元?参考公式bx y a xn x y x n y xb i n i i ni i-=-⋅-⋅=∑∑==,2211【答案】(1)4.04.1+=x y (2)11.6【解析】 试题分析: (1)求出x,y 的平均数,得到回归系数,即可求销售额y 关于广告费用x 的线性回归方程; (2)把x=8代入,能广告费用投入8万元预测销售额 试题解析:(1)4.0,4.16474=-==-=x b y a b所以销售额y 关于广告费用x 的线性回归方程是4.04.1+=x y (2)广告费用投入8万元,销售额约为6.114.04.1=+=x y 万元考点:线性回归方程已知在全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35. (1)请将上表补充完整(不用写计算过程);(2)能否有99.5﹪的把握认为喜爱打篮球与性别有关?说明你的理由. 下面的临界值表供参考:(参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【答案】(1)详见解析;(2)有99.5﹪的把握认为喜爱打篮球与性别有关. 【解析】试题分析:(1)首先通过全班50人中随机抽取1人,抽到喜爱打篮球的学生的概率为35,得出喜爱打篮球的共有30人,进而完善此表;(2)通过列联表代入计算公式,得到2K 的值,再查对临界值表,据此回答能否有99.5﹪的把握认为喜爱打篮球与性别有关.(2)Q 22()()()()()n ad bc K a b c d a c b d -=++++50(2015105)7.87930202525⨯⨯-⨯=≈⨯⨯⨯ ∴有99.5﹪的把握认为喜爱打篮球与性别有关.考点:独立性检验.3.某车间为了制定工时定额,需要确定加工零件抽用时间,为此做了四次试验,得到的数(2)求出回归方程;(3)根据回归方程估计加工10个零件需要多少个小时。

高考数学 一轮 第九章 概率与统计 第10讲 回归分析与独立性检验 理

高考数学 一轮 第九章 概率与统计 第10讲 回归分析与独立性检验 理
称为独立性检验.
1.下面是 2×2 列联表:
项目
y1
x1
a
x2
22
合计
b
y2
合计
21
73
25
47
46
120
则表中 a,b 的值分别为( C )
A.94,72
B.52,50
C.52,74
D.74,52
解析:∵a+21=73,∴a=52.又 a+22=b,∴b=74.
3.通过随机询问 110 名性别不同的大学生是否爱好某项运 动,得到如下的列联表:
(xi,yi)(i=1,2,…,n)都在直线
y=
1 2
x+1上,则这组样本数据
的样本相关系数为( D )
A.-1
B.0
C.12
D.1
解析:由题设知,这组样本数据完全正相关,故其相关系 数为 1.故选 D.
考点 1 线性回归分析
例 1:已知 x 与 y 之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为^y=b^x+a^.若
某同学根据上表中前两组数据(1,0)和(2,2)求得的线性回归直线
方程为 y=b′x+a′,则以下结论正确的是( )
A.b^>b′,a^>a′
B.b^>b′,a^<a′
C.b^<b′,a^>a′
D.b^<b′,a^<a′
解析:由表格知,-x =261=72,-y =163. 则b^=1×0+2×122++232×+13+2+4×42+3+525+×632+-66××472-2 6×72×163 =57, a^=-y -b^-x =163-57×72=-13.
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归分析及独立性检验的基本知识点及习题集锦回归分析的基本知识点及习题本周题目:回归分析的基本思想及其初步应用本周重点:(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。

本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;本周内容:一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。

建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。

4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。

可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。

这种由于模型近似所引起的误差包含在中。

(2)忽略了某些因素的影响。

影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。

(3)观测误差。

由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在中。

上面三项误差越小,说明我们的回归模型的拟合效果越好。

二、例题选讲例1:研究某灌溉渠道水的流速与水深之间的关系,测得一组数据如下:水深流速(1)求对的回归直线方程;(2)预测水深为1.95时水的流速是多少?分析:本题考查如何求回归直线的方程,可先把有关数据用散点图表示出来,若这些点大致分布在通过散点图中心的一条直线附近,说明这两个变量线性相关,从而可利用我们学过的最小二乘估计思想及计算公式求得线性回归直线方程。

解:1)由于问题中要求根据水深预报水的流速,因此选取水深为解释变量,流速为预报变量,作散点图:由图容易看出,与之间有近似的线性关系,或者说,可以用一个回归直线方程来反映这种关系。

由计算器求得。

对的回归直线方程为。

(2)由(1)中求出的回归直线方程,把代入,易得。

计算结果表示,当水深为时可以预测渠水的流速为。

评注:建立回归模型的一般步骤:(1)确定研究对象,明确两个变量即解释变量和预报变量;(2)画出散点图,观察它们之间的关系;(3)由经验确定回归方程类型(若呈线性关系,选用线性回归方程);(4)按一定规则估计回归方程中的参数(如最小二乘法);(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差出现不随机的规律性,等等),若存在异常,则检查数据是否有误,或模型是否合适等。

例2:1993年到2002年中国的国内生产总值(GDP)的数据如下:(1)作GDP和年份的散点图,根据该图猜想它们之间的关系应是什么。

(2)建立年份为解释变量,GDP为预报变量的回归模型,并计算残差。

(3)根据你得到的模型,预报2003年的GDP,并查阅资料,看看你的预报与实际GDP的误差是多少。

(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由。

解:(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近线呈线性关系;(2)用y t表示GDP值,t表示年份,根据截距和斜率的最小二乘计算公式,得:从而得线性回归方程:(3)2003年的GDP预报值为112976.360,根据国家统计局2004年统计,2003年实际GDP值为117251.9,所以预报与实际相-4275.540;(4)上面建立的回归方程的R2=0.974,说明年份能够解释约97%的GDP值变化,因此所建立的模型能够很好地刻画GDP和年份的关系。

说明:关于2003年的GDP的值来源,不同的渠道可能会有所不同。

例3:如下表所示,某地区一段时间内观察到的大于或等于某震级x的地震个数为N,试建立回归方程表述二者之间的关系。

解:由表中数据得散点图如下:从散点图中可以看出,震级x与大于该震级的地震次数N之间不呈线性相关关系,随着x的减少,所考察的地震数N近似地以指数形式增长.做变换y=lgN,得到的数据如下表所示:x和y的散点图如下:从这个散点图中可以看出x和y之间有很强的线性相差性,因此可以用线性回归模型拟合它们之间的关系。

根据截距和斜率的最小二乘计算公式,得:故线性回归方程为:相关指数R2≈0.997,说明x可以解释y的99.7%的变化。

因此,可以用回归方程描述x和y之间的关系。

例4:电容器充电后,电压达到,然后开始放电,由经验知道,此后电压随时间变化的规律公式表示,观测得时间时的电压如下表所示:0 1 2 3 4 5 6 7 8 9 10100 75 55 40 30 20 15 10 10 5 5试求电压对时间的回归方程。

分析:由于两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系,我们可通过对数变换把指数关系变为线性关系,通过线性回归模型来建立与之间的非线性回归方程。

解:对两边取自然对数得,令,即。

由所给数据可得其散点图为:由散点图可知与具有线性相关关系,可用来表示。

经计算得:(最小二乘法),,即。

所以,。

评注:一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系:(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;(2)如果散点图中的点的分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模。

本周练习:1.对具有相关关系的两个变量统计分析的一种常用的方法是()A.回归分析 B.相关系数分析 C.残差分析 D.相关指数分析2.在画两个变量的散点图时,下面叙述正确的是()A.预报变量在轴上,解释变量在轴上B.解释变量在轴上,预报变量在轴上C.可以选择两个变量中任意一个变量在轴上D.可以选择两个变量中任意一个变量在轴上3.两个变量相关性越强,相关系数()A.越接近于0 B.越接近于1 C.越接近于-1 D.绝对值越接近14.若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为()A.0 B.1 C.-1 D.-1或15.一位母亲记录了她儿子3到9岁的身高,数据如下表:身高(由此她建立了身高与年龄的回归模型,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是()A.她儿子10岁时的身高一定是145.83B.她儿子10岁时的身高在145.83以上C.她儿子10岁时的身高在145.83左右D.她儿子10岁时的身高在145.83以下6.两个变量有线性相关关系且正相关,则回归直线方程中,的系数()A. B. C. D.7.两个变量有线性相关关系且残差的平方和等于0,则()A.样本点都在回归直线上B.样本点都集中在回归直线附近C.样本点比较分散D.不存在规律8.在建立两个变量与的回归模型中,分别选择了4个不同的模型,它们的相关指数如下,其中拟合最好的模型是()A.模型1的相关指数为0.98B.模型2的相关指数为0.80C.模型3的相关指数为0.50D.模型4的相关指数为0.259.相关指数=。

10.某农场对单位面积化肥用量和水稻相应产量的关系作了统计,得到数据如下:15 20 25 30 35 40 45330 345 365 405 445 450 455如果与之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为时水稻的产量大约是多少?(精确到)11.假设美国10家最大的工业公司提供了以下数据:(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;(2)建立销售总额为解释变量,利润为预报变量的回归模型,并计算残差;(3)你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由。

参考答案:A B D B C A A A9.10.由于问题中要求根据单位面积化肥用量预报水稻相应的产量,因此选取单位面积的化肥用量为解释变量,相应水稻的产量为预报变量,作散点图:由图容易看出,与之间有近似的线性关系,或者说,可以用一个回归直线方程来反映这种关系。

由计算器求得。

对的回归直线方程为(*)。

由(*)中求出的回归直线方程,把代入,易得。

计算结果表示,当单位面积化肥用量为时水稻的产量大约是.11.(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域分布,猜想销售总额与利润之间呈现线性相关关系;(2)由最小二乘法的计算公式,得:则线性回归方程为:其残差值计算结果见下表:(3)对于(2)中所建立的线性回归方程,相关指数为R2≈0.457,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系。

说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确。

独立性检验的基本知识点及习题本周题目:独立性检验的基本思想及其初步应用本周重点:(1)通过对实际问题的分析探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.;了解独立性检验的常用方法:三维柱形图和二维条形图,及其K²(或R²)的大小关系.(2)通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.(3)理解独立性检验的基本思想及实施步骤,能运用自己所学的知识对具体案例进行检验.本周难点:(1)了解独立性检验的基本思想;(2)了解随机变量的含义,太大认为两个分类变量是有关系的;(3)能运用自己所学的知识对具体案例进行检验与说明.本周内容:一、基础知识梳理1.独立性检验利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。

相关文档
最新文档