回归案例辨析及参考答案
(完整word版)应用回归分析,第9章课后习题参考答案
第9章 含定性变量的回归模型思考与练习参考答案9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0—1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。
出现这种情况的原因是什么?答:假如这个含有季节定性自变量的回归模型为:t t t t kt k t t D D D X X Y μαααβββ++++++=332211110其中含有k 个定量变量,记为x i 。
对春夏秋冬四个季节引入4个0—1型自变量,记为D i ,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样本设计矩阵为:⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=000110010110001010010010100011)(616515414313212111k k k k k k X X X X X X X X X X X XD X,显然,(X ,D)中的第1列可表示成后4列的线性组合,从而(X ,D)不满秩,参数无法唯一求出。
这就是所谓的“虚拟变量陷井",应避免。
当某自变量x j 对其余p —1个自变量的复判定系数2j R 超过一定界限时,SPSS 软件将拒绝这个自变量x j 进入回归模型.称Tol j =1—2j R 为自变量x j 的容忍度(Tolerance ),SPSS 软件的默认容忍度为0。
0001。
也就是说,当2j R >0.9999时,自变量x j 将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。
而在这个模型中出现了完全共线性,所以SPSS 软件计算的结果中总是自动删除了其中的一个定性自变量。
⎪⎪⎪⎪⎪⎭⎫⎝⎛=k βββ 10β⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=4321ααααα9。
2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?答:原因有两个,以例9.1说明。
一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差的自由度更多。
回归分析练习题(有标准答案)
回归分析练习题(有答案)作者:日期:1.1回归分析的基本思想及其初步应用一、选择题1.某同学由x 与y 之间的一组数据求得两个变量间的线性回归方程为均值为2,数据y 的平均值为3,则()A .回归直线必过点(2,3)C 点(2,3)在回归直线上方B.回归直线一定不过点(2,3)D 点(2,3)在回归直线下方y bx a ,已知:数据x 的平2.在一次试验中,测得(x, y)的四组值分别是A (1,2),B(2,3),C(3,4),D(4,5),则丫与X 之间的回归直线方程为()A.$x1B .$ x 2C$2x1D.$ x 13.在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;③求线性回归方程;④求未知参数;②收集数据(X j 、y i ),i 1,2,…,n ;⑤根据所搜集的数据绘制散点图)如果根据可行性要求能够作岀变量A.①②⑤③④Bx, y 具有线性相关结论,则在下列操作中正确的是(C.②④③①⑤D .②⑤④③①.③②④⑤①4.下列说法中正确的是()B人的知识与其年龄具有相关关系D 根据散点图求得的回归直线方程都是有意义的A.任何两个变量都具有相关关系C.散点图中的各点是分散的没有规律5.给出下列结论:2 2(1)在回归分析中,可用指数系数R 的值判断模型的拟合效果,R 越大,模型的拟合效果越好;(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r 的值判断模型的拟合效果,较合适带状区域的宽度越窄,说明模型的拟合精度越高.A.y 平均增加1.5个单位B.A. 1B )个..2r 越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比y 平均增加2个单位C.y 平均减少1.5个单位C.3DD.y 平均减少2个单位.4以上结论中,正确的有(6.已知直线回归方程为y7.2 1.5x ,则变量x 增加一个单位时()下面的各图中,散点图与相关系数r 不符合的是()\ 1V ||一1,— 1 < r<(>■r?■* ■■■■* ■..* .**打4X(7UV1)D.'8.一位母亲记录了儿子39岁的身高,由此建立的身高与年龄的回归直线方程为据此可以预测这个孩子10岁时的身高,则正确的叙述是(A.身高一定是145.83cm C.身高低于145.00cm BD)7.19x 73.93,.身高超过146.00cm身高在145.83cm左右9.(A)预报变量在x轴上,解释变量在y轴上(B)解释变量在x轴上,预报变量在y轴上(C)(D)在画两个变量的散点图时,下面哪个叙述是正确的()可以选择两个变量中任意一个变量在x轴上可以选择两个变量中任意一个变量在y轴上10.两个变量y与x的回归模型中,通常用R2来刻画回归的效果,则正确的叙述是(22)A.R越小,残差平方和小2B.R越大,残差平方和大2c.R于残差平方和无关D.R越小,残差平方和大211.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.802 2C.模型3的相关指数R为0.50 D.模型4的相关指数R为0.2512.回归直线上相应位置的差异的是A.总偏差平方和B.C.回归平方和13.回归直线方程为残差平方和D.相关指数R2在回归分析中,代表了数据点和它在()工人月工资(元)依劳动生产率(千元)变化的60 90x,下列判断正确的是()A.劳动生产率为1000元时,工资为50元B.劳动生产率提高1000元时,工资提高150元C.劳动生产率提高1000元时,工资提高90元D.劳动生产率为1000元时,工资为90元14.下列结论正确的是()①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①② E.①②③ C.①②④ D.①②③④15.已知回归直线的斜率的估计值为中心为(4,5),则回归直线方程为()1.23,样本点的A.$ 1.23x 4B.$ 1.23x 5C.$ 1.23x 0.08D.y 0.08x 1.2316.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数果好的模型是 __________.17.在回归分析中残差的计算公式为 ____________.18.线性回归模型y bx a e(a和b为模型的未知参数)中,e称为_________________.19.若一组观测值(X1,yJ(X2,y2)…(Xn,y“)之间满足yi=bXi+a+e(i=1、2.…n)若恒为0,则氏为______________R2的值分别约为0.96和0.85,则拟合效20.调查某市出租车使用年限x 和该年支出维修费用y (万元),得到数据如下:使用年限x 维修费用y(求线性回归方程;n22.233.845.556. 567.0(2)由(1)中结论预测第10年所支出的维修费用.i 1(X i x) (y iy).n(X ii 1x)2bx21.以下是某地搜集到的新房屋的销售价格闵屋面积Ey 和房屋的面积x 的数据:11524.Q1102 1. CIB-413G29.21口丘22t 肖年愉梧(1)画岀数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为150m2时的销售价格(4)求第2个点的残差。
回归分析中的案例分析解读(Ⅲ)
回归分析是一种统计学方法,用于研究自变量和因变量之间的关系。
它可以帮助我们理解和预测变量之间的关联性,对于数据分析和预测具有重要的作用。
在实际应用中,回归分析可以帮助我们解决许多实际问题,比如市场营销、经济预测、医疗研究等领域。
在本文中,我将通过一些案例分析来解读回归分析在实际问题中的应用。
案例一:市场营销假设我们是一家电商平台,我们希望了解用户购买行为与广告投放之间的关系。
我们收集了每位用户的购买金额作为因变量,广告投放金额作为自变量,以及其他可能影响购买行为的因素,比如用户年龄、性别、地理位置等作为控制变量。
通过回归分析,我们可以建立一个模型来预测用户购买金额与广告投放之间的关系。
通过这个模型,我们可以确定投放多少广告才能最大化用户购买金额,以及哪些因素对购买行为有显著的影响。
案例二:经济预测假设我们是一家投资公司,我们希望预测股票价格与宏观经济指标之间的关系。
我们收集了股票价格作为因变量,以及国内生产总值(GDP)、失业率、通货膨胀率等宏观经济指标作为自变量。
通过回归分析,我们可以建立一个模型来预测股票价格与宏观经济指标之间的关系。
通过这个模型,我们可以了解哪些经济指标对股票价格有显著的影响,从而更好地进行投资决策。
案例三:医疗研究假设我们是一家医药公司,我们希望了解药物剂量与治疗效果之间的关系。
我们收集了药物剂量作为自变量,治疗效果作为因变量,以及患者的年龄、性别、疾病严重程度等因素作为控制变量。
通过回归分析,我们可以建立一个模型来预测药物剂量与治疗效果之间的关系。
通过这个模型,我们可以确定最佳的药物剂量,从而更好地指导临床实践。
通过以上案例分析,我们可以看到回归分析在实际问题中的广泛应用。
它不仅可以帮助我们理解变量之间的关系,还可以帮助我们预测未来趋势和制定决策。
当然,回归分析也有一些局限性,比如对数据的假设要求较高,需要充分考虑自变量和因变量之间的因果关系等。
因此,在实际应用中,我们需要结合具体情况,慎重选择合适的回归模型,并进行充分的检验和验证。
课件4:3.2 回归分析
n
xi- x yi- y
i=1
r=
n
n
xi- x 2 yi- y 2
i=1
i=1
n
xiyi-n x y
i=1
=
n
n
x2i -n x 2y2i -n y 2
i=1
i=1
(2)r具有以下性质:|r|≤1,并且|r|越接近1,线性相关程 度 越强 ;|r|越接近0,线性相关程度 越弱 .
(3)检验的步骤如下: ①作统计假设:x与Y不具有 线性相关 关系. ②根据 小概率0.05 与n-2在附表中查出r的一个临界值r0.05. ③根据 样本相关系数 计算公式算出r的值. ④作统计推断,如果|r|>r0.05,表明有 95% 的把握认为x与Y 之间具有线性相关关系.如果|r|≤r0.05,我们没有理由拒绝 原来的假设 ,这时寻找回归直线方程是毫无意义的.
解析 因为 b=0 时,则 r=0,这时不具有线性相关关系, 但 b 可以大于 0 也可以小于 0.
答案 A
3.设有一个回归方程∧y=2+1.5x,则变量x增加一个单位时
A.y平均增加1.5个单位
()
B.y平均增加2个单位
C.y平均减少1.5个单位
D.y平均减少2个单位
解析 由方程易知 x 增加 1 个单位,y 增加 1.5 个单位.
解 (1)∵ x =15×(88+76+73+66+63)=73.2, y =15×(78+65+71+64+61) =67.8,
5
x2i =882+762+732+662+632
i=1
=27 174,
5
y2i =782+652+712+642+x iyi = 88×78 + 76×65 + 73×71 + 66×64 + 63×61 = 25
第10章 简单线性回归分析案例辨析及参考答案
,=0.698。经检验,贫血患者治疗后的血红蛋白增加量与治疗有 关。
正常人均数:=20.21+7.78×0=20.21 患 者均数:=20.21+7.78×1=27.99 截距与两样本均数的差值相等。分别进行回归方程的方差分析与回 归系数的t检验,得F=17.112,t=4.137。回归系数的t检验结果与两样 本均数的t检验结果完全一致。以上结果说明,t检验的结果可以转化为
Quadratic .9941206.902 2 14.000 60.78810.805-.292
Cubic
.9982575.942 3 13.000 81.857 3.490 .447-.023
Growth .924 182.200 1 15.000 4.539 .034
The independent variable is 年龄。
上述曲线类型依次为线性、二次、三次多项式曲线和生长曲线,由 拟合结果可知,曲线拟合效果较好,进一步得到曲线图(案例图101):
(3)选择合理的模型,列出回归方程。以女孩身高二次曲线为
例,方程如下: 多项式曲线: (4)统计预测:预测19岁女孩身高为60.788+10.805×18-
0.292×182=160.7,与实际趋势相符。其他预测方法相同。
案例10-2 贫血患者的血清转铁蛋白研究。第6章例6-1中,为研究 某种新药治疗贫血患者的效果,将20名贫血患者随机分成两组,一组用 新药,另一组用常规药物治疗,测得血红蛋白增加量(g/L)见表6-1。 问新药与常规药治疗贫血患者后的血红蛋白增加量有无差别?
张医生用检验比较新药与常规药治疗贫血患者后的血红蛋白增加 量,计算得:
回归分析习题及答案.doc
1.1回归分析的基本思想及其初步应用例题:1.在画两个变量的散点图时,下面哪个叙述是正确的()(A)预报变量在x轴上,解释变量在y轴上(B)解释变量在X轴上,预报变量在y轴上(0可以选择两个变量中任意一个变量在x轴上(D)可以选择两个变量中任意一个变量在y轴上解析:通常把自变量X称为解析变量,因变量y称为预报变量.选B2,若一组观测值(xi, yi) (x2, y2) ••- (x…, y n)之间满足 y-bxi+a+e;(i=l> 2. •••!!)若巳恒为0,则仁为_____________解析:e』亘为0,说明随机误差对方贡献为0.答案:1.3.假设关于某设备的使用年限x和所支出的维修费用y (万兀),有如下的统计资料:X 2 3 4 5 6y 22 38 55 65 70若由资料可知y对x呈线性相关关系试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?解:(1)列表如下:i 1 2 3 4 5X] 2 3 4 5 622 38 55 65 70时•44 114 220 325 420X; 4 9 16 25 36_ _ 5 5x = 4, y = 5,»;=9o, »,北=112.3z'=l z'=l5 ___况一5xy干旱,仃112.3-5x4x5 …c十正方= ------------- = ------------ -- = 1.23,S,厂2 90 —5x42小「- 5x<=|a = y -bx = 5-1.23x4 = 0.08线性回归方程为:y =bx + a = 1.23x + Q.QS ( 2 )当 x=10 时,y = 1.23x10 + 0.08 = 12.38 (万兀)即估计使用10年时维修费用是1238万元课后练习:1.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7. 19x+73.93 用这个模型预测这个孩子10岁时的身高,则正确的叙述是()A.身高一定是145. 83cm;B.身高在145. 83cm以上;C.身高在145. 83cm以下;D.身I W J在 145. 83cm 左右.2.两个变量y与x的回归模型中,分别选择了 4个不同模型,它们的相关指数人2如下,其中拟合效果最好的模型是()A.模型1的相关指数人2为0. 98B.模型2的相关指数R2为。
应用回归分析 第四章 部分答案
第4章 违背基本假设的情况4.1答:例4.1:截面资料下研究居民家庭的储蓄行为 i 01i Y =+X +ββε其中:Y i 表示第i 个家庭的储蓄额,X i 表示第i 个家庭的可支配收入。
由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi 的方差呈现单调递增型变化。
例4.2:以某一行业的企业为样本建立企业生产函数模型123i i i i i Y =A K L eβββε 被解释变量:产出量Y ,解释变量:资本K 、劳动L 、技术A ,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。
这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
4.2答:回归模型一旦出现异方差性,如果仍采用OLS 估计模型参数,会产生下列不良后果:1、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数OLS 估计值的变异程度增大,从而造成对Y 的预测误差变大,降低预测精度,预测功能失效。
4.3答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。
其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。
在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。
由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。
所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。
这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:20111110122222ˆˆ()()()ˆ()ˆ1=1()1Ni i ii Niiwi w i wNiwi w w w w i i ii i Q w y x w x xy y x xy x w k kx x βββββσσ===----=-=-===∑∑∑2i (kx ) 因为比例系数在参数估计中可以消去4.4答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。
回归分析习题及答案
回归分析习题及答案回归分析习题及答案回归分析是统计学中一种常用的分析方法,用于研究变量之间的关系。
它可以帮助我们了解变量之间的相关性,并预测未来的趋势。
在本文中,我们将提供一些回归分析的习题及其详细解答,帮助读者更好地理解和应用这一方法。
习题一:某公司想要了解其销售额与广告投入之间的关系。
公司收集了过去12个月的数据,包括每个月的广告投入(单位:万元)和当月的销售额(单位:万元)。
请利用这些数据进行回归分析,并给出相关的统计结果。
解答一:首先,我们需要将数据导入统计软件,比如SPSS或Excel。
然后,我们可以使用线性回归模型来分析销售额与广告投入之间的关系。
在SPSS中,可以选择“回归”分析,将销售额作为因变量,广告投入作为自变量,进行线性回归分析。
回归分析的结果包括回归方程、相关系数、显著性检验等。
回归方程可以用来描述销售额与广告投入之间的关系。
相关系数可以告诉我们这两个变量之间的相关程度,取值范围为-1到1,越接近1表示相关性越强。
显著性检验可以告诉我们回归方程是否显著,即广告投入是否对销售额有显著影响。
习题二:某研究人员想要了解学生的考试成绩与他们的学习时间之间的关系。
研究人员随机选择了100名学生,记录了他们的学习时间(单位:小时)和考试成绩(百分制)。
请利用这些数据进行回归分析,并给出相关的统计结果。
解答二:同样地,我们需要将数据导入统计软件,然后进行回归分析。
这次,我们将考试成绩作为因变量,学习时间作为自变量。
除了之前提到的回归方程、相关系数和显著性检验之外,我们还可以通过回归分析的结果来进行预测。
例如,我们可以利用回归方程来预测一个学生在给定学习时间下的考试成绩。
习题三:某研究人员想要了解一个人的身高与体重之间的关系。
研究人员随机选择了200名成年人,记录了他们的身高(单位:厘米)和体重(单位:千克)。
请利用这些数据进行回归分析,并给出相关的统计结果。
解答三:同样地,我们将数据导入统计软件,然后进行回归分析。
回归分析习题答案
回归分析习题答案回归分析习题答案回归分析作为一种常用的统计方法,被广泛应用于各个领域。
它能够帮助研究者理解变量之间的关系,并预测未来的趋势。
在回归分析的学习过程中,习题是不可或缺的一部分,通过解答习题,我们可以更好地掌握回归分析的原理和应用。
本文将回答一些常见的回归分析习题,帮助读者更好地理解回归分析的概念和方法。
1. 问题:某公司想要预测销售额与广告投入之间的关系,他们收集了过去12个月的数据,包括每个月的广告投入和销售额。
请用简单线性回归模型拟合数据,并预测下个月的销售额。
答案:简单线性回归模型可以表示为:销售额= β0 + β1 * 广告投入。
通过最小二乘法估计参数,可以得到回归方程。
使用软件或计算器进行计算,得到β0和β1的估计值。
然后,将下个月的广告投入代入回归方程,即可得到预测的销售额。
2. 问题:某研究人员想要研究学生的考试成绩与学习时间之间的关系。
他们随机选择了100名学生,记录了他们的学习时间和考试成绩。
请用多元线性回归模型拟合数据,并解释模型中的系数。
答案:多元线性回归模型可以表示为:考试成绩= β0 + β1 * 学习时间+ β2 *年级+ ε。
其中,学习时间和年级是自变量,考试成绩是因变量。
通过最小二乘法估计参数,可以得到回归方程。
系数β1表示学习时间对考试成绩的影响,系数β2表示年级对考试成绩的影响。
如果β1和β2的估计值显著不为零,说明学习时间和年级对考试成绩有显著影响。
3. 问题:某研究人员想要研究气温对冰淇淋销量的影响。
他们收集了每天的气温和冰淇淋销量数据,发现两者呈现正相关关系。
请用非线性回归模型拟合数据,并解释模型中的参数。
答案:非线性回归模型可以表示为:冰淇淋销量= β0 + β1 * 气温+ β2 * 气温^2 + ε。
其中,气温是自变量,冰淇淋销量是因变量。
通过最小二乘法估计参数,可以得到回归方程。
系数β1表示气温对冰淇淋销量的线性影响,系数β2表示气温对冰淇淋销量的非线性影响。
专题07 回归分析(解析版)
概率与统计专题07 回归分析常见考点考点一 线性回归典例1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)求年推销金额y 关于工作年限x 的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.附:回归直线的斜率和截距的最小二乘法估计公式分别为()()()121ˆ,ni i i nii tty y ba y bt tt==--==--∑∑.【答案】(1)0.50.4y x =+;(2)5.9万元. 【解析】 【分析】(1)根据表中的数据求出x ,y ,再利用公式可求出b ,a ,从而可求出推销金额y 关于工作年限x 的线性回归方程;(2)将11x =化入回归方程中求解即可 【详解】解(1)设所求的线性回归方程为y bx a =+,1(35679)65x =++++=,1(23345) 3.45y =++++=, 所以()()()5152110ˆ0.520iii i i xxy y bx x==--===-∑∑,0.4a y bx =-=.所以年推销金额y 关于工作年限x 的线性回归方程为0.50.4y x =+. (2)当11x =时,0.50.40.5110.4 5.9y x =+=⨯+=(万元). 所以可以估计第6名推销员的年推销金额为5.9万元变式1-1.某科技公司研发了一项新产品A ,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价x (千元)和销售量y (千件)之间的一组数据如下表所示:(1)试根据1至5月份的数据,建立y 关于x 的回归直线方程;(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过065.千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?参考公式:回归直线方程ˆˆˆybx a =+,其中i ii 122ii 1ˆnnx y n x yb xnx==-⋅⋅=-∑∑.参考数据:5i i i 1392x y ==∑,52i i 1502.5x ==∑.【答案】(1)ˆ3240y x =-+.;(2)是.【解析】 【分析】(1)先由表中的数据求出,x y ,再利用已知的数据和公式求出,b a ,从而可求出y 关于x 的回归直线方程;(2)当8x =时,求出y 的值,再与15比较即可得结论 【详解】(1)因为()199.51010.511105x =++++=,()1111086585y =++++=,所以23925108ˆ 3.2502.5510b-⨯⨯==--⨯,得()ˆ8 3.21040a=--⨯=, 于是y 关于x 的回归直线方程为 3.240ˆyx =-+; (2)当8x =时,ˆ 3.284014.4y=-⨯+=, 则ˆ14.4150.60.65yy -=-=<, 故可以认为所得到的回归直线方程是理想的.变式1-2.如图是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.注:年份代码1~7分别对应年份2014~2020.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以证明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量. 附注:参考数据:719.32i i y ==∑,7140.17i i i t y ==∑0.55= 2.646≈.参考公式:相关系数()()niit t y y r --=∑,回归方程ˆˆˆya bt =+中斜率和截距的最小二乘法估计公式分别为()()()121ˆnii i nii tty y btt==--=-∑∑,ˆˆay bt =-. 【答案】(1)存在较强的正相关关系,理由见解析(2)ˆ0.100.92yt =+,1.82万吨【解析】 【分析】(1)、结合参考数据及参考公式()()niit t y y r --∑(2)、根据参考公式求出回归直线方程,进而可以根据回归直线方程进行数据统计. (1)由折线图看出,y 与t 之间存在较强的正相关关系,理由如下:719.32ii y==∑,7140.17i i i t y ==∑0.55=,123456747t ++++++==,()()7770.993ii i itty y t ytyr ---∴==≈≈∑∑.0.9930.75>,故y 与t 之间存在较强的正相关关系.(2)由(1)结合题中数据可得()()()771177222117 2.89ˆ0.103287ii i i i i iii i tty y t y tybtttt ====---==≈≈--∑∑∑∑, ˆˆ 1.3310.10340.92ay bt =-≈-⨯≈, y ∴关于t 的回归方程ˆ0.100.92y t =+,2022年对应的t 值为9,故0.1090.9.ˆ2182y=⨯+=, 预测2022年该地生活垃圾无害化处理量为1.82万吨.变式1-3.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:根据最小二乘法公式求得经验回归方程为ˆ321518yx =-...(1)求m 的值,并利用已知的经验回归方程求出8月份对应的残差值8ˆe; (2)请先求出线性回归模型ˆ321518yx =-..的决定系数2R (精确到0.0001),若根据非线性模型267.76ln 1069.2y x =-求得解释变量(物流成本)对于响应变量(利润)的决定系数200.9057R =,请说明以上两种模型哪种模型拟合效果更好.参考公式及数据:22121ˆ()1()niii nii y yR y y ==-=--∑∑,84x =,()821904i i y y =-=∑.【答案】(1)100,7;(2)284.8R =,ˆ321518yx =-..拟合程度更好. 【解析】 【分析】(1)根据线性回归方程横过定点(,x y )可求m ,由ˆˆi i i ey y =-求得8ˆe ; (2)根据2R 的计算公式计算2R 的值,再与20R 比较大小即可得解. (1)∵ˆ321518yx =-..,84x =, ∴ 3.284151.8117y =⨯-=.则1141161061221321141321178m +++++++=⨯,解得100m =;8月份对应的残差值()8ˆ132 3.286.5151.87e=-⨯-=. (2)()()()()()82222222221ˆ0.20.6 1.831 4.61784.8i i i y y=-=+++-+-+-+-+=∑,则()()822210218ˆ84.8110.9062904iii i i y yR R y y==-==-=->-∑∑, ∴线性回归模型ˆ321518yx =-..拟合程度更好.考点二 非线性回归典例2.新冠肺炎疫情发生以来,我国某科研机构开展应急科研攻关,研制了一种新型冠状病毒疫苗,并已进入二期临床试验.根据普遍规律,志愿者接种疫苗后体内会产生抗体,人体中检测到抗体,说明有抵御病毒的能力.通过检测,用x 表示注射疫苗后的天数,y 表示人体中抗体含量水平(单位:miu/mL ,即:百万国际单位/毫升),现测得某志愿者的相关数据如下表所示.根据以上数据,绘制了散点图.(1)根据散点图判断,e dx y c =与y a bx =+(a ,b ,c ,d 均为大于0的实数)哪一个更适宜作为描述y 与x 关系的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果求出y 关于x 的回归方程,并预测该志愿者在注射疫苗后的第10天的抗体含量水平值;(3)从这位志愿者的前6天的检测数据中随机抽取4天的数据作进一步的分析,求其中的y 值大于50的天数为1的概率. 参考数据:其中ln w y =.参考公式:用最小二乘法求经过点()11,u v ,()22,u v ,()33,u v ,⋅⋅⋅,(),i i u v 的线性回归方程v bu a =+的系数公式,()()()1122211n niii i i i nniii i u u v v u v nuvb u u unu====---==--∑∑∑∑;a v bu =-.【答案】(1)e dx y c =更适合(2)0.740.90e x y +=,4023.87miu/mL (3)815【解析】 【分析】(1)根据散点图这些点的分布情况结合所学函数图象特点即可求解;(2)由(1)知该问题为变量之间的关系为非线性,先将非线性转化为线性关系,结合题目给出数据求出回归直线的相关系数,进而求出回归直线方程,在代入换 为y 关于x 的回归方程,将10x =代入方程中即可求出预报值. (3)根据古典概型的计算公式即可求解. (1)根据散点图可知这些点分布在一条曲线的附近,所以dx y ce =更适合作为描述y 与x 关系的回归方程类型. (2)设ln w y =,变换后可得ln w c dx =+,设ln p c =,建立ω关于x 的回归方程w p dx =+,()()()1621612.950.7417.50iii i i x w d xx w x ==--===-∑∑,所以 3.490.74 3.500.90p w d x =-=-⨯= 所以ω关于x 的回归方程为0.740.90w x =+,所以0.740.90e x y +=, 当10x =时,0.74100.908.3e e 4023.87y ⨯+==≈,即该志愿者在注射疫苗后的第10天的抗体含量水平值约为4023.87miu/mL. (3)由表格数据可知,第5,6天的y 值大于50,天数为1的概率314246815C C P C == 变式2-1.区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式,2015年至2019年五年期间,中国的区块链企业数量逐年增长,居世界前列现收集我国近5年区块链企业总数量相关数据,如表注:参考数据5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =).附:样本()(),1,2,,i i x y i n =⋅⋅⋅的最小二乘法估计公式为1221ni ii nii x y nxyb xnx==-=-∑∑,a y bx =-(1)根据表中数据判断,y a bx =+与e dx y c =(其中e 2.71828=⋅⋅⋅,为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由) (2)根据(1)的结果,求y 关于x 的回归方程;(3)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司就获得此次信息化比赛的“优胜公司”,已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,则求甲公司获得“优胜公司”的概率.【答案】(1)dx y ce = (2)0.75170.0591x y e -= (3)310【解析】 【分析】(1)根据表中数据判断y 关于x 的回归方程为非线性方程;(2)令ln z y =,将y 关于x 的非线性关系,转化为z 关于x 的线性关系,利用最小二乘法求解; (3)利用相互独立事件的概率相乘求求解; (1)根据表中数据e dx y c =适宜预测未来几年我国区块链企业总数量. (2)e dx y c =,ln ln y dx c ∴=+,令ln z y =,则ln z dx c =+,5110.980 2.19655ii zz ====∑,5112345355ii xx =++++===∑ 由公式计算可知122140.457310.980.7517,5545ni ii n i i x znxzb x nx==-⨯==--=-∑∑ˆln 2.1960.751730.0591c z dx =-=-⨯=- ln 0.75170.0591y x ∴=-,即ln 0.75170.0591y x ∴=-,即0.75170.0591x y e -=所以y 关于x 的回归方程为0.75170.0591x y e -= (3)设甲公司获得“优胜公司”为A 事件. 则11123112113232352253210()P A ⨯+⨯⨯⨯+⨯⨯⨯== 所以甲公司获得“优胜公司”的概率为310. 变式2-2.2021年11月4日,第四届中国国际进口博览会在上海开幕,共计2900多家参展商参展,420多项新产品,新技术,新服务在本届进博会上亮相.某投资公司现从中选出20种新产品进行投资.为给下一年度投资提供决策依据,需了解年研发经费对年销售额的影响,该公司甲、乙两部门分别从这20种新产品中随机地选取10种产品,每种产品被甲、乙两部门是否选中相互独立.(1)求20种新产品中产品A 被甲部门或乙部门选中的概率;(2)甲部门对选取的10种产品的年研发经费i x (单位:万元)和年销售额()1,2,,10i y i =(单位:十万元)数据作了初步处理,得到下面的散点图及一些统计量的值.根据散点图现拟定y 关于x 的回归方程为()23y b x a =-+.求a 、b 的值(结果精确到0.1);(3)甲、乙两部门同时选中了新产品A ,现用掷骰子的方式确定投资金额.若每次掷骰子点数大于2,则甲部门增加投资1万元,乙部门不增加投资;若点数小于3,则乙部门增加投资2万元,甲部门不增加投资,求两部门投资资金总和恰好为100万元的概率.附:对于一组数据()11,v u 、()22,v u 、、(),n n v u ,其回归直线u v αβ=+的斜率和截距的最小二乘估计分别为()()()121niii ni i v v u u v vβ==--=-∑∑,u v αβ=-,20162057.529877320520.5277-⨯=-⨯,2016657.51019877365 6.55567-⨯=-⨯. 【答案】(1)34; (2)0.1b =, 5.4a =;(3)100311443⎛⎫+⨯ ⎪⎝⎭.【解析】 【分析】(1)利用组合计数原理、古典概型的概率公式以及对立事件的概率公式可求得所求事件的概率; (2)令()23t x =-,计算出t 、y 的值,利用最小二乘法公式结合表格中的数据可求得a 、b 的值; (3)设投资资金总和恰好为n 万元的概率为n P ,则投资资金总和恰好为()1n +万元的概率为()1121233n n n P P P n +-=+≥,推导出数列{}1n n P P +-是首项为19,公比为13-的等比数列,利用累加法可求得100P 的值., (1)解:20种新产品中产品A 没有被甲部门和乙部门同时选中的概率1010191910102020C C 111C C 224P =⋅=⋅=,所以产品A 被甲部门或乙部门选中的概率为13144-=. (2)解:令()23t x =-,由题中数据得()10211320.510i i t x ==-=∑,10117.510i i y y ===∑,()101021132016i iii i i t y x y ===-=∑∑,()1010421138773i i i i t x ===-=∑∑,101102211020162057.5290.1877320520.527710i ii i i t y t yb t t==--⨯===≈-⨯-∑∑,297.520.5 5.4277a y bx =-=-⨯≈.(3)解:由题意知,掷骰子时甲部门增加投资1万元发生的概率为23,乙部门增加投资2万元发生的概率为13.设投资资金总和恰好为n 万元的概率为n P ,则投资资金总和恰好为()1n +万元的概率为()1121233n n n P P P n +-=+≥. 所以()()1112112333n n n n n n n P P P P P P P n +---=+-=--≥,因为123P =,212273339P =+⋅=,21721939P P -=-=, 所以数列{}1n n P P +-是首项为19,公比为13-的等比数列,所以111193n n n P P -+⎛⎫-=⨯- ⎪⎝⎭,所以()()()()10012132999810099P P P P P P P P P P =+-+-++-+-2982111111139939393⎛⎫⎛⎫⎛⎫=++⨯-+⨯-++⨯- ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭991001119323111344313⎡⎤⎛⎫⨯--⎢⎥ ⎪⎝⎭⎢⎥⎛⎫⎣⎦=+=+⨯ ⎪⎛⎫⎝⎭-- ⎪⎝⎭,所以投资资金总和恰好为100万元的概率是100311443⎛⎫+⨯ ⎪⎝⎭.变式2-3.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:根据以上数据绘制了散点图观察散点图,两个变量间关系考虑用反比例函数模型b y a x=+和指数函数模型dx y ce =分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为0.19548.376x y e -=,ln y 与x 的相关系数10.929r =-.(1)用反比例函数模型求y 关于x 的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.001),并用其估计产量为10千件时每件产品的非原料成本;(3)根据企业长期研究表明,非原料成本y 服从正态分布()2,N μσ,用样本平均数y 作为μ的估计值μ,用样本标准差s 作为σ的估计值σ,若非原料成本y 在(,)μσμσ-+之外,说明该成本异常,并称落在(,)μσμσ-+之外的成本为异样成本,此时需寻找出现异样成本的原因.利用估计值判断上述非原料成本数据是否需要寻找出现异样成本的原因? 参考数据(其中1iu x =):参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ⋯,其回归直线ˆˆˆya bx =+的斜率和截距的最小二乘估计公式分别为:1221ˆni ii nii x ynx y bxnx==-⋅=-∑∑,ˆˆay bx =-,相关系数()()niix x y y r --=∑【答案】(1)506y x=+(2)反比例函数模型拟合效果更好,产量为10千件时每件产品的非原料成本约为11元, (3)见解析【解析】 【分析】(1)令1u x =,则b y a x=+可转化为y a bu =+,求出样本中心,回归方程的斜率,转化求回归方程即可,(2)求出y 与1x的相关系数2r ,通过比较12,r r ,可得用反比例函数模型拟合效果更好,然后将10x =代入回归方程中可求结果(3)利用已知数据求出样本标准差s ,从而可得非原料成本y 服从正态分布()223,13.9N ,再计算(,)μσμσ-+,然后各个数据是否在此范围内,从而可得结论(1)令1u x=,则b y a x=+可转化为y a bu =+, 因为184238y ==, 所以8228121893.0680.3423ˆ501.5380.348i ii ii u y u ybuu==-⋅-⨯⨯===-⨯-∑∑,所以ˆˆ23500.346ay bu =-=-⨯=,所以650y u =+, 所以y 关于x 的回归方程为506y x=+ (2)y 与1x的相关系数为()()82iiu u y y r --=∑88i iu y u y-=∑30.50.99330.705==≈ 因为12r r <,所以用反比例函数模型拟合效果更好,把10x =代入回归方程得5061110y =+=(元), 所以产量为10千件时每件产品的非原料成本约为11元 (3) 因为184238y ==,所以23μ=,因为样本标准差为13.9s ===,所以13.9σ=,所以非原料成本y 服从正态分布()223,13.9N ,所以()()(,)2313.9,2313.99.1,36.9μσμσ-+=-+=因为56.5在(,)μσμσ-+之外,所以需要此非原料成本数据寻找出现异样成本的原因巩固练习练习一 线性回归1.为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y (千克)与某种液体肥料每亩使用量x (千克)之间的对应数据如下.(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请计算相关系数r 并加以说明(若0.75r >,则线性相关程度很高,可用线性回归模型拟合);(2)求r 关于x 的回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?附:相关系数公式()()niix x y y r --=∑ 3.16≈.回归方程y bx a =+中斜率和截距的最小二乘估计公式分别为()()()121nii i nii xx y yb xx==--=-∑∑,a y bx =-.【答案】(1)0.95,答案见解析;(2)700千克. 【解析】 【分析】(1)根据表中的数据先求出,x y ,再求()()51i i i x x y y =--∑求出相关系,再作判断即可,(2)根据线性回归方程公式求出回归方程,然后将15x =代入回归方程中可求得西红柿亩产量的增加量 【详解】解:(1)由已知数据可得2456855x ++++==,3004004004005004005y ++++==,所以()()()()()5131001000103100600i i i x x y y =--=-⨯-+-⨯+⨯+⨯+⨯=∑,====所以相关系数()()50.95iix x y y r --===≈∑.因为0.75r >,所以可用线性回归模型拟合y 与x 的关系.(2)()()()515216003020iii ii x x y y b x x ==--===-∑∑,400530250a =-⨯=, 所以回归方程为30250y x =+. 当15x =时,3015250700y =⨯+=,即当液体肥料每亩使用量为15千克时,西红柿由产量的增加量约为700千克. 2.下表是某公司从2014年至2020年某种产品的宣传费用的近似值(单位:千元)以x 为解释变量,y 为预报变量,若以11y b x a =+为回归方程,则相关指数210.9808R ≈;若以22ln y a b x =+为回归方程,则相关指数220.8457R ≈.(1)判断11y b x a =+与22ln y a b x =+,哪一个更适合作为该种产品的宣传费用的近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程(系数精确到0.1).参考数据:7711537.4,2334.1i i i i i y x y ====∑∑.参考公式:1221ˆˆˆ,ni ii nii x y nxybay bx xnx ==-==--∑∑. 【答案】(1)11y b x a =+更适合,理由见解析;(2)ˆ 6.650.4yx =+. 【解析】 【分析】(1)根据相关系数的绝对值越接近1,拟合效果越好即可得出答案. (2)利用最小二乘法即可求解. 【详解】(1)11y b x a =+更适合作为该种产品的宣传费用的近似值 y 关于年份代号x 的回归方程.因为20.98080.8457,R >越大,说明模型的拟合效果越好. (2)由表格中数据有123456747x ++++++==,72222222211234567140i i x==++++++=∑7172217ˆ7i ii ii x yxy bxx ==-==-∑∑537.42334.174537.47ˆ6.6, 6.6450.41401127a -⨯⨯≈=-⨯≈-,则ˆ 6.650.4yx =+. 3.某服装企业采用服装个性化设计为客户提供服务,即由客户提供身材的基本数据用于个人服装设计.该企业为了设计所用的数据更精准,随机地抽取了10位男子的身高和臂长的数据,数据如下表所示:(1)根据表中的数据,求男子的身高预报臂长的线性回归方程ˆˆˆybx a =+,并预报身高为170cm 的男子的臂长(男子臂长计算结果精确到0.01);(2)统计学认为,两个变量x 、y 的相关系数r 的大小可表明两变量间的相关性强弱.一般地,如果|r |∈[0.75,1],那么相关性很强;如果|r |∈[0.30,0.75),那么相关性一般;如果|r |∈[0,0.30),那么没有相关性.求出r 的值,并判断变量x 、y 的相关性强弱(结果精确到0.01).附:线性回归方程ˆˆˆy bx a =+其中ˆˆa y bx =-, 1.022b ∧≈,1011750i i x ==∑,101y 1730i i ==∑,()()niix x y y r --=∑101()()648i i i x x y y =--=∑715≈720≈【答案】(1) 1.02255ˆ.8y x =-;167.89cm;(2)0.91r ≈;变量,x y 间的相关性很强.【解析】 【分析】(1)根据表中的数据求出,x y,从而利用ˆˆa y bx =-可求出ˆa ,进而可得回归方程,然后当170x =时,代入回归方程可求出身高为170cm 的男子的臂长;(2)直接利用公式和已知的数据求解相关系数,再根据所给数据判断强弱 【详解】 (1)解:10117510ii xx ===∑,101y17310ii y ===∑由 1.022b ∧≈,得173 1.022ˆˆ175 5.85ay bx =-=-⨯=- 所以所求线性回归方程为 1.02255ˆ.8yx =- 当170x =时, 1.022170 5.85167.89ˆy=⨯-= 所以身高为170cm 的男性臂长约为167.89cm (2==10()()0.91iix x y y r --==≈∑因为r ∈[0.75,1],所以变量,x y 间的相关性很强.4.某汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入x (亿元)与科技改造直接收益y (亿元)的数据统计如下:当016x <≤时,建立了y 与x 的两个回归模型:模型①: 4.111.8y x =+;模型②:21.314.4y x =;当16x >时,确定y 与x 满足的经验回归方程为:0.7y x a =-+.(1)根据下列表格中的数据,比较当016x <≤时模型①、②的相关指数2R ,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为16亿元时的直接收益.(附:刻画回归效果的相关指数()()22121ˆ1n i i i nii y yR y y ==-=--∑∑)(2)为鼓励科技创新,当科技改造的投入不少于20亿元时,国家给予公司补贴收益10亿元,以回归方程为预测依据,比较科技改造投入16亿元与20亿元时公司实际收益的大小.(附:用最小二乘法求经验回归方程ˆˆˆybx a =+的系数公式()()()1122211ˆˆˆ;n ni iiii i nniii i x y nx y x x y y bay bx xnx x x ====-⋅--===---∑∑∑∑) 【答案】(1)回归模型②刻画的拟合效果更好,70.8(亿元);(2)科技改造投入20亿元时,公司的实际收益更大. 【解析】【分析】(1)根据表中数据比较21R 和22R 可判断拟合效果,进而求出预测值;(2)求出,x y ,进而求出a ,得出回归方程,然后比较投入16亿元和20亿元时的收益即可求出结果. 【详解】由表格中的数据,有182.479.2>,即()()772211182.479.2iii i y y y y ==>--∑∑,()()772211182.479.211iit t y y y y ==∴-<---∑∑可见模型①的相关指数21R 小于模型②的相关指数22R . 说明回归模型②刻画的拟合效果更好.所以当16x =亿元时,科技改造直接收益的预测值为:ˆ21.314.470.8y ==(亿元).由已知可得:12345203,235x x ++++-==∴=,8.587.568607.6,67.65y y ++++-==∴=0.767.60.72383.7a y x ∴=+=+⨯=,∴当16x >亿元时,y 与x 满足的经验回归方程为:ˆ0.783.7yx +=-, ∴当20x 亿元时,科技改造直接收益的预测值y 0.72083.769.7=-⨯+=,∴当20x亿元时,实际收益的预测值为69.71079.7+=亿元70.8>亿元,∴科技改造投入20亿元时,公司的实际收益更大.练习二 非线性回归5.如图是某市2011年至2020年当年在售二手房均价(单位:千元/平方米)的散点图(图中年份代码1~10分别对应2011年~2020年).现根据散点图选择用y a bx =+和e c dx y +=两个模型对年份代码x 和房价y 的关系进行拟合,经过数据处理得到两个模型对应回归方程的相关指数2R 和一些统计量的值,如下表:表中ln i i w y =,101110i i w w ==∑.(1)请利用相关指数2R 判断:哪个模型的拟合效果更好;并求出该模型对应的回归方程(参数估计值精确到0.01);(2)根据(1)得到的方程预计;到哪一年,该市的当年在售二手房均价能超过10.5千元/平方米. 参考公式:对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为:()()()121ˆnii i nii uu v v uu β==--=-∑∑,ˆˆv u αβ=-.参考数据: 2.35e 10.49≈, 2.36e 10.59≈. 【答案】(1)模型e c dx y +=的拟合效果更好, 1.450.08ˆe x y+= (2)到2022年,该市的当年在售二手房均价能超过10.5千元/平方米 【解析】【分析】(1)根据相关指数的数值可知模型e c dx y +=的拟合效果更好,从而可得ln y c dx =+,利用最小二乘法即可求解.(2)由(1)将11,12x x ==代入即可求解. (1)由相关指数2R :0.90460.8821>,知模型e c dx y +=的拟合效果更好. ∵e c dx y +=,∴ln y c dx =+,令ln w y =,可知w 与x 满足线性模型回归方程ˆˆˆw c dx =+, ()11210 5.510x =++⋅⋅⋅+=, 则()()()10110216.60ˆ0.0882.5iii i i x x w w dx x ==--===-∑∑, ˆˆ 1.890.08 5.5 1.45cw dx =-=-⨯=, 所以回归方程为ˆ 1.450.08wx =+,即 1.450.08ˆe x y +=. (2)将11x =代入,可得 2.33 2.35ˆe e 10.5y=<<, 将12x =代入,可得 2.41 2.36ˆe e 10.5y=>>, 所以,根据方程预计:到2022年,该市的当年在售二手房均价能超过10.5千元/平方米. 6.某投资公司2012年至2021年每年的投资金额x (单位:万元)与年利润增量y (单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了y 关于x的两个回归模型;模型①:由最小二乘公式可求得y 与x 的线性回归方程: 2.5020ˆ.5y x =-;模型②:由图中样本点的分布,可以认为样本点集中在由线:ln y b x a =+的附近,对投资金额x 做换元,令ln t x =,则y b t a =⋅+,且有101010102111122.00,230,569.00,50.92i i i i i i i i i t y t y t ========∑∑∑∑,(1)根据所给的统计量,求模型②中y 关于x 的回归方程;(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);附:样本()()1,1,2,,i t y i n =⋯的最小乘估计公式为()()()121ˆˆˆ,nii i ni i tty y bay bt t t ==--==--∑∑;参考数据:ln20.6931,ln5 1.6094≈≈.【答案】(1)25l 32ˆn yx =- (2)模型①的年利润增量的预测值为47.50(万元),模型②的年利润增量的预测值为42.89(万元) 【解析】 【分析】(1)结合已知数据和公式求出ˆˆ,ab 这两个系数即可得回归方程; (2)把20x 代入模型①、②的回归方程,算出ˆy即可. (1)由题意,知10101122.00,230i i i i t y ====∑∑,可得 2.20,23t y ==,又由()()()10101110102221110569.0010 2.2023ˆ2550.9210 2.20 2.2010ii i i i i iii i tty y t y t ybtttt ====---⋅-⨯⨯====-⨯⨯--∑∑∑∑,则23252ˆ.2032ˆay bt =-=-⨯=- 所以,模型②中y 关于x 的回归方程25l 32ˆn yx =-. (2) 当20x 时,模型①的年利润增量的预测值为 2.5020 2.5047.5ˆ0y =⨯-=(万元),当20x时,模型②的年利润增量的预测值为()()ˆ25ln2032252ln2ln5322520.6931 1.60943242.89(y=⨯-=⨯+-≈⨯⨯+-=万元) 7.近年来,由于耕地面积的紧张,化肥的施用量呈增加趋势.一方面,化肥的施用对粮食增产增收起到了关键作用,另一方面,也成为环境污染、空气污染、土壤污染的重要来源之一如何合理地施用化肥,使其最大程度地促进粮食增产,减少对周围环境的污染成为需要解决的重要问题研究粮食产量与化肥施用量的关系,成为解决上述问题的前提某研究团队收集了10组化肥施用量和粮食亩产量的数据并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值化肥施用量为x (单位:公斤),粮食亩产量为y (单位:百公斤).参考数据:表中ln ,ln (1,2,,10)i i i i t x z y i ===.(1)根据散点图判断,y a bx =+与d y cx =,哪一个适宜作为粮食亩产量y 关于化肥施用量x 的回归方程类型(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)根据(2)的回归方程,并预测化肥施用量为27公斤时,粮食亩产量y 的值;附:①对于一组数据(),(1,2,3,,)i i u v i n =,其回归直线ˆˆˆvu βα=+的斜率和截距的最小二乘估计分别为1221,ˆˆˆni i i ni i u v nuvav u unu ββ==-==--∑∑;②取 2.7e ≈.【答案】(1)d y cx =更适合作为y 关于x 的回归方程类型; (2)13y ex =; (3)810公斤. 【解析】 【分析】(1)根据散点图即可判断,d y cx =更适合作为y 关于x 的回归方程类型;(2)对d y cx =两边取对数,得ln ln ln y c d x =+,即ln z c dt =+,根据表中数据求出 1.5t z ==,再根据最小二乘法求出d 和c 的值,从而得出y 关于x 的回归方程; (3)由(2)得13y ex =,当27x =时,即可预测粮食亩产量y 的值. (1)解:根据散点图可判断,d y cx =更适合作为y 关于x 的回归方程类型. (2)解:对d y cx =两边取对数,得ln ln ln y c d x =+,即ln z c dt =+,由表中数据得:101115 1.51010i i t t ====∑,1011151.51010i i z z ====∑,101102211030.510 1.5 1.5146.510 1.5 1.5310i i i i i t z tzd tt ==--⨯⨯===-⨯⨯-∑∑,1ln 1.5 1.513c z dt =-=-⨯=,所以c e =,所以y 关于x 的回归方程为13y ex =. (3)解:由(2)得13y ex =,当27x =时,1327 2.738.1y e =⨯=⨯=,所以当化肥施用量为27公斤时,粮食亩产量约为810公斤. 8.某保险公司根据官方公布的历年营业收入,制成表格如下: 表1由表1,得到下面的散点图:根据已有的函数知识,某同学选用二次函数模型2y bx a =+(b 和a 是待定参数)来拟合y 和x 的关系.这时,可以对年份序号做变换,即令2t x =,得y bt a =+,由表1可得变换后的数据见表2.表2 (1)根据表中数据,建立y 关于t 的回归方程(系数精确到个位数);(2)根据(1)中得到的回归方程估计2021年的营业收入,以及营业收入首次超过4000亿元的年份.附:对于一组数据()()()1122,,,,,,n n u v u v uv ,其回归直线ˆˆv u βα=+的斜率和截距的最小二乘估计分别为()()()121ˆ nii i nii uu v vuuβ==--=-∑∑,ˆˆv u αβ=-. 参考数据:()()()10102451138.5,703.45, 1.05110, 2.32710i i i i i t y t t t t y y ===≈-≈⨯--≈⨯∑∑.【答案】(1)ˆ22144y t =-;(2)估计2021年的营业收入约为2518亿元,估计营业收入首次超过4000亿元的年份为2024年. 【解析】 【分析】(1)根据ˆ,ba 的公式,将题干中的数据代入,即得解;(2)代入121t =,可估计2021年的营业收入;令221444000t ->,可求解t 的范围,继而得到x 的范围,即得解 【详解】(1)()()()1051104212.32710ˆ221.05110iii i i t t y y bt t ==--⨯==≈⨯-∑∑, 703.452238.5144ˆˆay bt =-=-⨯≈-, 故回归方程为ˆ22144yt =-. (2)2021年对应的t 的值为121,营业收入ˆ221211442518y=⨯-=, 所以估计2021年的营业收入约为2518亿元. 依题意有221444000t ->,解得188.4t >,故2188.4x >.因为1314<<,所以估计营业收入首次超过4000亿元的年份序号为14,即2024年.。
2018版高中数学选修2-⒊学案:第三章 统计案例 3.2 回
学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解非线性回归分析.知识点一线性回归模型思考某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么?梳理 线性回归模型 (1)随机误差具有线性相关关系的两个变量的取值x 、y ,y 的值不能由x 完全确定,可将x ,y 之间的关系表示为y =a +bx +ε,其中________是确定性函数,________称为随机误差. (2)随机误差产生的主要原因①所用的______________不恰当引起的误差; ②忽略了________________; ③存在________误差.(3)线性回归模型中a ,b 值的求法 y =__________称为线性回归模型.a ,b 的估计值为a ^,b ^,则⎩⎨⎧b ^= ,o(a = .)(4)回归直线和线性回归方程直线y ^=a ^+b ^x 称为回归直线,此直线方程即为线性回归方程,a ^称为____________,b ^称为____________,y ^称为__________. 知识点二 样本相关系数r具有相关关系的两个变量的线性回归方程y ^=b ^x +a ^.思考1 变量y ^与真实值y 一样吗?思考2 变量y ^与真实值y 之间误差大了好还是小了好?梳理 样本相关系数r 及其性质(1)r =________________________________. (2)r 具有以下性质: ①|r |≤________;②|r |越接近于________,x ,y 的线性相关程度越强; ③|r |越接近于________,x ,y 的线性相关程度越弱. 知识点三 对相对关系数r 进行显著性检验的基本步骤 1.________________:变量x ,y 不具有线性相关关系;2.如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n -2在教材附录2中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平); 3.计算__________________;4.作出统计推断:若|r |>________,则否定H 0,表明有________的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则________________原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.类型一 求线性回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.(相关公式:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x )反思与感悟 (1)求线性回归方程的基本步骤①列出散点图,从直观上分析数据间是否存在线性相关关系. ②计算:x ,y,∑i =1nx 2i ,∑i =1n x i y i . ③代入公式求出y ^=b ^x +a ^中参数b ^,a ^的值. ④写出线性回归方程并对实际问题作出估计.(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.跟踪训练1 某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,试预测他的物理成绩.类型二线性回归分析例2现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x)与入学后第一次考试的数学成绩(y)如下:请问:这10名学生的两次数学成绩是否具有线性关系?反思与感悟相关关系的两种判定方法及流程(1)利用散点图判定的流程(2)利用相关系数判定的流程计算r―→结合r与相关关系的关系判断跟踪训练2一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少,随机器运转的速度而变化,下表为抽样试验的结果:对变量y与x类型三非线性回归分析例3下表为收集到的一组数据:(1)作出x与y(2)建立x与y的关系;(3)利用所得模型,估计当x=40时y的值.反思与感悟 非线性回归问题的处理方法 (1)指数函数型y =e bx +a①函数y =e bx+a的图象②处理方法:两边取对数,得ln y =ln e bx +a ,即ln y =bx +a .令z =ln y ,把原始数据(x ,y )转化为(x ,z ),再根据线性回归模型的方法求出a ,b . (2)对数函数型y =b ln x +a ①函数y =b ln x +a 的图象:②处理方法:设x ′=ln x ,原方程可化为y =bx ′+a , 再根据线性回归模型的方法求出a ,b . (3)y =bx 2+a 型处理方法:设x ′=x 2,原方程可化为y =bx ′+a ,再根据线性回归模型的方法求出a ,b . 跟踪训练3 已知某种食品每千克的生产成本y (元)与生产该食品的重量x (千克)有关,经生产统计得到以下数据:通过以上数据,判断该食品的生产成本y (元)与生产的重量x (千克)的倒数1x 之间是否具有线性相关关系.若有,求出y 关于1x 的回归方程,并估计一下生产该食品500千克时每千克的生产成本是多少.(精确到0.01)1.设有一个线性回归方程y ^=2-1.5x ,当变量x 增加1个单位时,y 平均________个单位. 2.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是________.(填序号)3.某厂节能降耗技术改造后,在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据如表:根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,则上表中的t =________. 4.下表是x 和y 之间的一组数据,则y 关于x 的回归直线必过点________.5.已知x 、y 之间的一组数据如下表:(1)分别计算:x 、y 、x 1y 1+x 2y 2+x 3y 3+x 4y 4、x 21+x 22+x 23+x 24;(2)已知变量x 与y 线性相关,求出回归方程.回归分析的步骤(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量;(2)画出确定好的自变量和因变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y ^=b ^x +a ^); (4)按一定规则估计回归方程中的参数.答案精析问题导学 知识点一思考 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y )∑i =15(x i -x )2=1020=0.5, a ^=y -b ^x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4. 梳理 (1)a +bx ε (2)①确定性函数 ②某些因素的影响 ③观测(3)a +bx +ε∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2y -b ^x(4)回归截距 回归系数 回归值 知识点二 思考1 不一定. 思考2 越小越好.梳理 (1)∑i =1nx i y i -n x y(∑i =1nx 2i -n (x )2)(∑i =1ny 2i -n (y )2)(2)①1 ②1 ③0 知识点三1.提出统计假设H 0 3.样本相关系数r 4.r 0.05 95% 没有理由拒绝 题型探究例1 解 (1)如图:(2)∑i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4,∑i =14x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程可知,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.跟踪训练1 解 (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174.所以b ^=∑i =15x i y i -5x y ∑i =15x 2i -5(x )2=25 054-5×73.2×67.827 174-5×73.22≈0.625.a ^=y -b ^x ≈67.8-0.625×73.2=22.05.所以y 对x 的线性回归方程是y ^=0.625x +22.05.(3)当x =96时,y ^=0.625×96+22.05≈82,即可以预测他的物理成绩是82. 例2 解 x =110(120+108+…+99+108)=107.8,y =110(84+64+…+57+71)=68.∑i =110x 2i =1202+1082+…+992+1082=116 584.∑i =110y 2i =842+642+…+572+712=47 384. ∑i =110x i y i =120×84+108×64+…+99×57+108×71=73 796.所以相关系数为 r =73 796-10×107.8×68(116 584-10×107.82)(47 384-10×682)≈0.751.由检验水平0.05及n -2=8, 在附录2中查得r 0.05=0.632. 因为0.751>0.632,由此可看出这10名学生的两次数学成绩具有较强的线性相关关系. 跟踪训练2 解 由题中数据可得x =12.5,y =8.25,∑i =14x i y i =438,4x y=412.5,∑i =14x 2i =660,∑i =14y 2i =291,所以r =∑i =14x i y i -4x y(∑i =14x 2i -4(x )2)(∑i =14y 2i -4(y )2)=438-412.5(660-625)×(291-272.25)=25.5656.25≈0.995. 由检验水平0.05及n-2=2,在教材附录表2中查得r 0.05=0.950,因为r >r 0.05,所以y 与x 具有线性相关关系.例3 解 (1)作出散点图如图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线y =c 1e c 2x 的周围,其中c 1、c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a ,a =ln c 1,b =c 2的周围,这样就可以利用线性回归模型来建立y 与x 之间的非线性回归方程,数据可以转化为求得线性回归方程为z ^=0.272x -3.849, ∴y ^=e 0.272x-3.849.(3)当x =40时,y ^=e 0.272x-3.849≈1 131.跟踪训练3 解 设u =1x,通过已知数据得到y 与u 的相应数据为r =∑i =110u i ·y i -10u ·y (∑i =110u 2i -10·u 2)(∑i =110y 2i -10·y 2)≈0.999 8,于是有很大的把握认为y 与1x具有线性相关关系.而b ^=∑i =110u i ·y i -10u ·y ∑i =110u 2i -10u2≈8.973,a ^=y -b ^·u ≈1.126,于是y 与1x 的回归方程为y ^=8.973x+1.126.当x =500时,y ^=8.973500+1.126≈1.14.所以估计生产该食品500千克时每千克的生产成本是1.14元. 当堂训练1.减少1.5 2.①③ 3.3 4.(2.5,4)5.解 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+x 2y 2+x 3y 3+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+x 23+x 24=02+12+22+32=14. (2)b ^=34-4×1.5×414-4×1.52=2,a ^=y -b ^x =4-2×1.5=1,故y ^=2x +1.。
回归分析经典例析
回归分析经典例析1. 命题预测回归分析的基本思想及初步应用是新课标中的新增内容,主要是通过案例体会运用统计方法解决实际问题的思想和方法。
但由于运算复杂,出解答题的可能性不大,出现选择题或填空题形式的题目可能性较大。
2. 经典例析2.1概念理解客观题例 1.对有线性相关关系的两个变量建立的回归直线方程∧y= bxa+中,回归系数b()A.可以小于0 B.大于0 C.能等于0 D.只能小于0 简析:∵b= 0 时,则相关指数r= 0 ,此时不具有线性相关关系,但b可以大于0也可以小于0 .故答案选A例2.已知x、y之间的数据如下表所示,则y与x之间的线性的回归方程过点A.(0 ,0)B.(x,0)C.(0 ,y)D.(x,y)简析:回归直线一定过样本点的中心(x,y),故答案选D例3.工人月工资y(元)依劳动生产率x(千元)变化的回归方程∧y= 50+80x,下列判断正确的个数是()①劳动生产率为1000元时,工资为130元;②劳动生产率提高1000元,则工资提高80元;③劳动生产率提高1000元,则工资提高130元;④当月工资为210元时,劳动生产率为2000元。
A.1 B.2 C.3 D.4简析:本题考查线性回归直线方程,根据线性回归直线方程可获得对于两个变量之间整体关系的了解,根据线性回归直线方程,可以求出相应于x的估计值∧y;本题回归直线的斜率为80,故x每增加1 ,∧y增加80,即劳动生产率提高1000元时,工资提高80元。
由此可得①②④正确,故答案选C.还应注意回归直线方程∧y= bxa+中b的正负,请看例4:例4.设有一个回归方程为∧y= 2 - 2.5x,则变量x增加一个单位时,则A.y平均增加2.5个单位;B.y平均增加2个单位;C.y平均减少2.5个单位;D.y平均减少2个单位简析:斜率的估计值是- 2.5 ,即变量x每增加一个单位时,y平均减少2.5个单位,故答案为C.例5.对于一组具有线性相关关系的数据(1x ,1y ),(2x ,2y ),… ,(n x ,n y ),其回归方程中的截距为( )A.a = y -b x B. a = y - ∧b x C. ∧a = y - -b x D.∧a = y - ∧b x简析:本题考查回归方程中的截距公式∧a = y - ∧b x ,∴选D. 2.2回归分析客观题例6.若施化肥量x 与小麦产量y 之间的回归直线方程为∧y = 250 + 4x ,当施化肥量50kg 时,预计小麦产量为__________.简析:把x = 50kg 代入∧y = 250 + 4x ,即可求得∧y = 450 ,∴预计小麦产量为450 kg. 例7.用身高(cm )预报体重(kg )满足y = 0.849x - 85.712,若要找到41.638 kg 的人,__________是在150cm 中(填“一定”或“不一定”)。
回归分析中的案例分析解读(Ⅱ)
回归分析是统计学中一种常用的分析方法,它可以用来研究变量之间的相互关系。
在实际应用中,回归分析通常被用来预测一个变量的值,或者研究不同变量之间的因果关系。
在本文中,我们将通过几个实际案例来解读回归分析的应用,以及如何正确地理解和解释回归分析的结果。
案例一:销售量与广告投入的关系假设我们想要研究公司的销售量与广告投入之间的关系。
我们收集了过去一年的销售数据以及每个月的广告投入情况,然后进行了回归分析。
结果显示广告投入与销售量之间有显著的正相关关系,即广告投入的增加会导致销售量的增加。
但是在解释结果时,我们需要注意到回归分析只能表明两个变量之间的相关性,而不能证明因果关系。
因此,我们不能简单地说是广告投入导致了销售量的增加,可能还有其他因素的影响。
案例二:工资水平与工作经验的关系另一个常见的案例是研究工资水平与工作经验之间的关系。
我们收集了一组员工的工资水平和工作经验数据,进行了回归分析。
结果显示工资水平与工作经验之间存在着正相关关系,即工作经验的增加会导致工资水平的增加。
但是在解释结果时,我们需要考虑到可能存在其他影响工资水平的因素,比如教育水平、职位等级等。
因此,在进行回归分析时,需要尽可能地控制其他可能的影响因素,以确保结果的可靠性。
案例三:股票价格与市场指数的关系最后一个案例是研究股票价格与市场指数之间的关系。
我们收集了一组股票的价格数据以及市场指数的数据,进行了回归分析。
结果显示股票价格与市场指数之间存在着正相关关系,即市场指数的增加会导致股票价格的增加。
在解释结果时,我们需要注意到股票价格受到多种因素的影响,比如公司业绩、行业发展等。
因此,我们不能简单地认为市场指数的增加就会导致股票价格的增加,还需要综合考虑其他可能的影响因素。
综上所述,回归分析是一种强大的工具,可以用来研究变量之间的关系。
但是在进行回归分析时,需要注意到结果只能表明相关性,不能证明因果关系。
因此,在解释和应用回归分析的结果时,需要谨慎思考,综合考虑可能的影响因素,以确保结果的可靠性。
回归分析案例
身高 0.75 0.85 0.95 1.08 1.12 1.16 1.35 1.51 1.55 1.6 1.63 1.67 1.71 1.78 1.85 体重 101215172022354148505154596675Matlab 实现:h=[0.75 0.85 0.95 1.08 1.12 1.16 1.35 1.51 1.55 1.6 1.63 1.67 1.71 1.78 1.85]; m=[10 12 15 17 20 22 35 41 48 50 51 54 59 66 75]; plot(x,y,'*')可令:adh m =,求系数可用p=polyfit(x,y,n), 其中h x m y ln ,ln ==,n=1,结果:p=[2.3,2.823]由此得d=16.8,a=2.3,即有经验公式:3..28.16h m =。
也直接利用Matlab 统计工具箱中的命令regress 求解,使用格式:[b,bint,r,rint,stats]=regress(y,x,alpha) alpha 为置信水平,r 为残差向量βˆx y -,stats 为回归模型的检验统计量,有3个值,第一个是回归方程的决定系数2R ,第二个是F 统计量值,第三个是与F 统计量对应的概率值p 。
上例可如下操作:y=log(m)';x=[ones(length(y),1),log(h)'];[b,bint,r,rint,stat]=regress(y,x)b =2.82282.3000 stat =1 1024 0.0000残差分析:rcoplot(r,rint)----------------------------------------------------------------------------------------------------------------------------------例2:施肥效果分析(1992建模赛题)磷肥施用量 0244973 98 147 196 245 294 342 土豆产量 33.46 32.47 36.06 37.96 41.04 40.09 41.26 42.17 40.36 42.73 磷肥施用量 0244973 98 147 196 245 294 342 土豆产量33.46 34.76 36.0637.9641.0440.0941.2642.1740.3642.73氮肥施用量 0244973 98 147 196 245 294 342 土豆产量33.46 34.76 36.0637.9641.0440.0941.2642.1740.3642.73对于磷肥-----土豆:可选择函数xbea y -+=1 或威布尔函数 0,≥-=-x Be A y cx对于氮肥-----土豆:可选择函数0,2210≥++=x x b x b b y2)模型的参数估计:可如下操作:x=[0 34 67 101 135 202 259 336 404 471]';y=[15.18 21.36 25.72 32.29 34.03 39.45 43.15 43.46 40.83 30.75]';X=[ones(length(y),1),x,x.^2];[b,bint,r,rint,stat]=regress(y,X)b =14.74160.1971-0.0003stat =0.9863 251.7971 0.0000 即20003.01971.07416.14x x y -+=拟合曲线图:3) 显著性检验: (仅以氮肥-----土豆模型为例说明)A):回归方程的显著性检验:检验的概率p=0,说明方程是高度显著的.B):回归系数的的显著性检验:对1β: 0:110=βH 检验统计量 =T 对2β: 0:220=βH检验统计量 =T -1004341.84343142都有 8945.1)7(05.0=>t T ,所以,均应拒绝原假设,认为系数)2,1(=i i β显著地不为0.4)残差诊断:标准化残差图如下12345678910标准化残差基本上均匀分布于-2至2之间,可以认为模型拟合是合理的.------------------------------------------------------------------------------------------------------------------------------ 案例:牙膏的销售量某牙膏制造企业要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。
第11章多重线性回归分析案例辨析及参考答案
第11章多重线性回归分析案例辨析及参考答案案例11-1预测人体吸入氧气的效率。
为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料。
一共调查了 7个指标,分别是吸氧效率(Y , %)、年龄(X1,岁)、体重(X2, kg )、跑1.5 km所需时间(X3, min )、休息时的心跳频率(X4,次/min )、跑步时的心跳频率(X5,次/min)和最高心跳频率(X6,次/min )(教材表11-9)。
试用多重线性回归方法建立预测人体吸氧效率的模型。
教材表11 -9 吸氧效率调查数据Y X1 X2X3 X4 X5 X6 Y X1 X2X3 X4 X5 X644.609 44 89.47 11.37 62 178 182 40.836 51 69.63 10.95 57 168 17245.313 40 75.07 10.07 62 185 185 46.672 51 77.91 10.00 48 162 16854.297 44 85.84 8.65 45 156 168 46.774 48 91.63 10.25 48 162 16459.571 42 68.15 8.17 40 166 172 50.388 49 73.37 10.08 67 168 16849.874 38 89.02 9.22 55 178 180 39.407 57 73.37 12.63 58 174 17644.811 47 77.45 11.63 58 176 176 46.080 54 79.38 11.17 62 156 16545.681 40 75.98 11.95 70 176 180 45.441 56 76.32 9.63 48 164 16649.091 43 81.19 10.85 64 162 170 54.625 50 70.87 8.92 48 146 15539.442 44 81.42 13.08 63 174 176 45.118 51 67.25 11.08 48 172 17260.055 38 81.87 8.63 48 170 186 39.203 54 91.63 12.88 44 168 17250.541 44 73.03 10.13 45 168 168 45.790 51 73.71 10.47 59 186 18837.388 45 87.66 14.03 56 186 192 50.545 57 59.08 9.93 49 148 15544.754 45 66.45 11.12 51 176 176 48.673 49 76.32 9.40 56 186 18847.273 47 79.15 10.60 47 162 164 47.920 48 61.24 11.50 52 170 17651.855 54 83.12 10.33 50 166 170 47.467 52 82.78 10.50 53 170 17249.156 49 81.42 8.95 44 180 185资料来自:张家放主编•医用多元统计方法•武汉:华中科技大学出版社,2002。
回归分析练习题及参考答案
求:(1)人均GDP 作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP 为5000元,预测其人均消费水平。
(7)求人均GDP 为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
模型摘要模型R R 方调整的R 方估计的标准差1 .998(a) 0.996 0.996 247.303a. 预测变量:(常量), 人均GDP(元)。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(5)F 检验:回归系数的检验:t 检验注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型 非标准化系数标准化系数t 显著性B 标准误 Beta1(常量) 734.693 139.540 5.2650.003 人均GDP (元)0.3090.0080.99836.4920.000a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(6)某地区的人均GDP 为5000元,预测其人均消费水平为 734.6930.30950002278.693y =+⨯=(元)。
专题20 回归分析(解析版)
专题20 回归分析1.(2022·全国·高考真题(文))某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:2m)和材积量(单位:3m),得到如下数据:并计算得22i i i ii=1i=1i=10.038, 1.6158,0.2474x y x y===∑∑∑.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为2186m.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数i i(1.377)()nx x y yr--=∑.【答案】(1)20.06m;30.39m(2)0.97(3)31209m【解析】【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)代入题给相关系数公式去计算即可求得样本的相关系数值;(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.(1)样本中10棵这种树木的根部横截面积的平均值0.60.0610x==样本中10棵这种树木的材积量的平均值3.90.3910y==据此可估计该林区这种树木平均一棵的根部横截面积为20.06m,平均一棵的材积量为30.39m(2)()()1010iii i10x x y y x y xyr ---==∑∑0.01340.970.01377=≈≈ 则0.97r ≈ (3)设该林区这种树木的总材积量的估计值为3m Y , 又已知树木的材积量与其根部横截面积近似成正比, 可得0.06186=0.39Y,解之得3=1209m Y . 则该林区这种树木的总材积量估计为31209m2.(2022·山东聊城·三模)为迎接2022年北京冬奥会,践行“更快更高更强”的奥林匹克格言,落实全民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.(1)为了解活动效果,该年级对开展活动以来近6个月体重超重的人数进行了调查,调查结果统计如上图,根据上面的散点图可以认为散点集中在曲线e bx a y +=的附近,请根据下表中的数据求出该年级体重超重人数y 与月份x 之间的经验回归方程(系数a 和b 的最终结果精确到0.01),并预测从开展活动以来第几个月份开始该年级体重超标的人数降至10人以下?员控球时传给其他队员的概率如下表所示:B 附:经验回归方程:y bx a =+中,1221ˆni ii nii x y nx ybxnx==-⋅=-∑∑,ˆa y bx=-; 参考数据:6123.52i i z ==∑,6177.72i i i x z ==∑,62191i i x ==∑,ln10 2.30≈.【答案】(1)0.26 4.83e x y -+=,第十个月 (2)分布列见解析,()1918E X = 【解析】 【分析】(1)令ln z y bx a ==+,求出x 、z 的值,将参考数据代入最小二乘法公式,求出b 、a 的值,即可得出y 关于x 的经验回归方程,然后解不等式10y <,即可得解;(2)分析可知随机变量X 的可能取值有0、1、2,可得出随机变量X 的分布列,进而可求得()E X . (1)解:由e bx a y +=得ln z y bx a ==+.由题意得()1123456 3.56x =+++++=,11123.52 3.9266n i i z z ===⨯=∑,所以6162221677.726 3.5 3.92ˆ0.26916 3.56i ii i i x zxzbx x==--⨯⨯==≈--⨯-∑∑,()3 3.920.26 3.5 4.83a z bx =-==--⨯=.所以ln 0.26 4.83z y x ==-+,即y 关于x 的经验回归方程为0.26 4.83e x y -+=. 令0.26 4.83ln10 2.3e 10e e x -+<=≈,所以0.26 4.83 2.3x -+<,解得9.73x >. 由于N x ∈,所以10x ≥,所以从第十个月开始,该年级体重超标的人数降至10人以下. (2)解:由题意得X 的可能取值为0、1、2,()121102326P X ==⨯⨯=,()121111222322339P X ==⨯⨯+⨯⨯=,()1211116918P X ==--=,所以X 的分布列为所以,()012618918E X =⨯+⨯+⨯=.3.(2022·辽宁·沈阳二中模拟预测)某公司为了确定下一年度投入某种产品的宣传费用,需了解年宣传费x (单位:万元)对年销量y (单位:吨)和年利润(单位:万元)的影响,对近6年宜传费i x 和年销售量i y ()1,2,3,4,5,6i =的数据做了初步统计,得到如下数据:经电脑模拟,发现年宣传费(万元)与年销售量(吨)之间近似满足关系式(),0by a x a b =⋅>,即ln ln ln y b x a =+,对上述数据作了初步处理,得到相关的值如下表:于20吨的概率;(2)根据所给数据,求y 关于x 的回归方程.附:对于一组数据()11,u v 、()22.u v 、(),n n u v ,其回归直线v u βα=⋅+中的斜率和截距的最小二乘估计分别为1221ni i i nii u v nuvunuβ==-=-∑∑,v u αβ=-.【答案】(1)1415(2)e y =【解析】 【分析】(1)列举出所有的基本事件,并确定所求事件所包含的基本事件,利用古典概型的概率公式可求得所求事件的概率;(2)令ln v y =,ln u x =,则ln v bu a =+,计算出u 、v 的值,将参考数据代入最小二乘法公式,计算出b 、ln a 的值,即可得出y 关于x 的回归方程.(1)解:从表中所给出的6年年销售量数据中任选2年做年销售量的调研,所有的基本事件有:()16.8,18.8、()16.8,20.7、()16.8,22.4、()16.8,24.0、()16.8,25.5、()18.8,20.7、()18.8,22.4、()18.8,24.0、()18.8,25.5、()20.7,22.4、()20.7,24.0、()20.7,25.5、()22.4,24.0、()22.4,25.5、()24.0,25.5,共15种,其中,事件“所选数据中至多有一年年销售量低于20吨”所包含的基本事件有:()16.8,20.7、()16.8,22.4、()16.8,24.0、()16.8,25.5、()18.8,20.7、()18.8,22.4、 ()18.8,24.0、()18.8,25.5、()20.7,22.4、()20.7,24.0、()20.7,25.5、()22.4,24.0、 ()22.4,25.5、()24.0,25.5,共14种,故所求概率为1415P =. (2)解:令ln v y =,ln u x =,则ln v bu a =+, 则()61ln 4.16ii x u ===∑,()61ln 3.056ii y v ===∑,()()6611ln ln 75.3i i i i i i u v x y ===⋅=∑∑,()662211ln 101.4iii i u x ====∑∑,所以,2621612675.36 4.1 3.050.5101.46 4.16i i i i i u v uvb u u==--⨯⨯===-⨯-∑∑,ln 3.050.5 4.11a v bu =-=-⨯=,e a ∴=,故y 关于x的回归方程为e y =4.(2022·全国·模拟预测)在某生态系统中,有甲、乙两个种群,两种群之间为竞争关系.设t 时刻甲、乙种群的数量分别为()f t ,()g t (起始时刻为0t =).由数学家Lotka 和Volterra 提出的模型是函数()f t ,()g t 满足方程()()()()f t af t bf t g t '=-,()()()()g t cg t df t g t '=-,其中a ,b ,c ,d 均为非负实数. (1)下图为没有乙种群时,一段时间内甲种群数量与时间的关系折线图.为预测甲种群的数量变化趋势,研究人员提出了两种可能的数学模型:①()f t n =;②()tf t m n =⋅,其中m ,n 均为大于1的正数.根据折线图判断,应选用哪种模型进行预测,并说明理由.(2)设0.08a c ==,20.008d b ==. ①函数()()()0.08e2tF t f t g t -⎡⎤=-⎣⎦的单调性;②根据①中的结论说明:在绝大多数情况下,经过充分长的时间后,或者甲种群灭绝,或者乙种群灭绝. 注:在题设条件下,各种群数量均有上限值.【答案】(1)应选用模型②预测甲种群数量的变化趋势;理由见解析 (2)①()F t 为常函数;②答案见解析 【解析】 【分析】(1)根据图像特点即可判断答案(2)第一小问可先求出()F t ',根据()F t '值的正负情况判断()F t 的单调性;第二小问由(i )知()(0)F t F = 为常数,0.082()()[2(0)(0)]e t f t g t f g -=-,通过对种群初始数量和t 时刻数量的分类讨论来确定种群的变化趋势,从而得出结论 (1)由折线图知,甲种群数量的增长速度随着时间的推移而加快.而增长速度大致对应种群数量对时间的导数. 如选用模型①,()f t '=()f t '是关于时间的减函数,不符合折线图; 如选用模型②,()ln t f t mn n '=,()f t '是关于时间的增函数,符合折线图. 所以应选用模型②预测甲种群数量的变化趋势 (2)由题设知()0.08()0.004()()f t f t f t g t '=-,()0.08()0.008()()g t g t f t g t '=-. (i )0.08()e [2()()]t F t f t g t -=-,[]0.08()e0.16()0.08()2()()tF t f t g t f t g t -'''=-++-.消去条件中的()()f t g t 得[]()0.08()2()0.08()g t g t f t f t ''-=-,所以()0F t '=. 所以()F t 为常函数.(ii )由(i ),()(0)2(0)(0)F t F f g ==-,0.082()()[2(0)(0)]e t f t g t f g -=-. 由于各种群数量均有上限值,不妨设甲乙种群数量的上限值分别为1M ,2M . ①若()()020g f >,()()2g t f t >.则当2225ln 2(0)2(0)M t g f ->-时,0.081()()(2(0)(0))e 12t f t g t f g ⎡⎤=--<⎣⎦,此时可以近似认为甲种群灭绝; ②若()()020g f <,()()2g t f t <. 则当1225ln 22(0)(0)M t f g >-时,0.08()2()(2(0)(0))e 1t g t f t f g =--<,此时可以近似认为乙种群灭绝; ③若()()020g f =,()()2g t f t =,甲乙种群数量之比保持恒定,可能不出现灭绝的情况. 综上所述,对所有(0)2(0)g f ≠的情况,经过充分长的时间后,或者甲种群灭绝,或者乙种群灭绝 5.(2022·山东烟台·三模)当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:计算得到一些统计量的值为:1128.5,106.05i i i i i u x u ====∑∑,其中,ln i i u y =.(1)若用模型e bx y a =拟合y 与x 的关系,根据提供的数据,求出y 与x 的经验回归方程;(2)制定游戏规则如下:玩家在每关的平均过关时间内通过可获得积分2分并进入下一关,否则获得1-分且该轮游戏结束.甲通过练习,前3关都能在平均时间内过关,后面3关能在平均时间内通过的概率均为45,若甲玩一轮此款益脑游戏,求“甲获得的积分X ”的分布列和数学期望.参考公式:对于一组数据(),i i x y (1,2,3,,i n =⋅⋅⋅),其经验回归直线ˆˆˆybx a =+的斜率和截距的最小二乘估计分别为1221ˆni ii nii x y nxybxnx =-=-=-∑∑,ˆˆay bx =-. 【答案】(1)0.36 3.49e x y +=(2)分布列答案见解析,数学期望:1177125【解析】 【分析】(1)对e bx y a =两边取对数可得ln ln y a bx =+,即ln u bx a =+,再根据最小二乘法求出ˆb,ln a ,即可得解;(2)依题意X 的所有可能取值为5,7,9,12,求出所对应的概率,即可得到分布列,从而求出数学期望; (1)解:因为e bx y a =两边取对数可得()ln ln eln ln ebxbxy a a ==+,即ln ln y a bx =+,令ln i i u y =,所以ln u bx a =+,由611 4.756i i u u ===∑,()1123456 3.56x =+++++=,2222222112345691i i nx ==+++++=∑.所以12221106.056 3.5 4.75ˆ0.36916 3.5ni i i nii x u nxubxnx ==--⨯⨯===-⨯-∑∑,又ln ˆu bxa =+,即4.750.36 3.5ln a =⨯+, 所以ln 3.49a =,所以 3.49e a =.所以y 关于x 的经验回归方程为0.36 3.49e x y +=. (2)解:由题知,甲获得的积分X 的所有可能取值为5,7,9,12, 所以()155P X ==,()41475525P X ==⨯=, ()24116955125P X ⎛⎫==⨯=⎪⎝⎭,()3464125125P X ⎛⎫=== ⎪⎝⎭, 所以X 的分布列为所以()1664117757912525125125125E X =⨯+⨯+⨯+⨯= 6.(2022·辽宁实验中学模拟预测)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的“自主学习”,包括预习,复习,归纳整理等等,现在人们普遍认为课后花的时间越多越好,某研究机构抽查了部分高中学生,对学生花在课后的学习时间(设为x 分钟)和他们的数学平均成绩(设为y )做出了以下统计数据,请根据表格回答问题:(1)请根据所给数据绘制散点图,并且从以下三个函数从①;②)0>:③2y cx dx e =++三个函数中选择一个作为学习时间x 和平均y 的回归类型,判断哪个类型更加符合,不必说明理由;(2)根据(1)中选择的回归类型,求出y 与x 的回归方程; (3)请根据此回归方程,阐述你对学习时长和成绩之间关系的看法. 参考公式:回归方程ˆˆy abt =+中斜率和截距的最小二乘估计公式分别为1221ˆˆˆ,ni i nii x y nx yb ay bx xnx ==-⋅==--∑∑.参考数据:8823.2511ln 4.52,ln 4.74,ln 164.18,ln ln 171.64,e 25.79i i i i i x y x x y ==≈≈≈≈≈∑∑【答案】(1)散点图见解析,(0,0)k y m x m k =⋅>>最合适 (2)0.3325.79ˆyx =⋅ (3)答案见解析 【解析】 【分析】(1)根据所给数据可得散点图,根据散点图可得函数模型;(2)由(1)中模型可得ln ln ln y k x m =+,设ln u x =,ln v y =,则ˆˆˆv ku m =+,利用公式可求后者,从而得到前者;(3)根据回归方程可得相应的看法. (1)散点图如图所示:由图象可知(0,0)k y m x m k =⋅>>最合适. (2)对(0,0)k y m x m k =⋅>>两边取以e 为底的对数可得ln ln ln y k x m =+, 设ln u x =,ln v y =,则ˆˆˆv ku m =+, 81822218171.648 4.52 4.74ˆ0.3280.33164.188 4.52i i i ii u v u vkunu==-⋅-⨯⨯==≈≈-⨯-∑∑,ln 4.740.33 4.52 3.25m v ku =-=-⨯≈,0.33 3.25v u ∴=+,故ln 0.33ln 3.25y x =+即 3.250.330.33e 25.79y x x =⋅=, 0.3325.79ˆyx ∴=⋅.(3)此回归方程为关于时间的增函数,说明随着学习时间的增加,学习成绩是提高的,但是函数的增速先快后慢,说明如果原来成绩较低,通过增加学习时间可以有效提高成绩,但是当成绩提高到120分左右时,想要通过延长学习时间来提高学习成绩就比较困难了,需要想别的办法.7.(2022·甘肃·高台县第一中学模拟预测(文))应对严重威胁人类生存与发展的气候变化,其关键在于“控碳”,其必由之路是先实现“碳达峰”,而后实现“碳中和”,2020年第七十五届联合田大会上,我国向世界郑重承诺:争在2030年前实现“碳达峰”,努力争取在2060年前实现“碳中和”,近年来,国家积极发展新能源汽车,某品牌的新能源汽车某区域销售在2021年11月至2022年3月这5个月的销售量y (单位:百辆)的数据如下表:较高的线性相关程度?(参考:若0.300.75r <<,则线性相关程度一般,若0.75r ≥,则线性相关程度较高,计算r 时精确度为0.01.(2)求销售量y 与月份代码x 之间的线性回归方程,并预测2022年4月份该区域的销售量(单位:百辆) 参考数据:()215460i i y y=-=∑,()()5166i ii x xy y =--=∑ 6.78≈,参考公式:相关系数()()niix x y y r --=∑线性回归方程y bx a =+中,()()()1122211n ni iiii i nniii i x y nxy x x y y b xnxx x ====---==--∑∑∑∑,a y bx =-,其中x ,y 为样本平均值.【答案】(1)月份代码x 与销售量y (单位:百辆)具有较高的线性相关程度,可用线性回归模型拟合销售量y 与月份代码x 之间的关系.(2)ˆ 6.641.2y x =+,预测2022年4月该品牌的新能源汽车该区域的销售量为 80.8百辆 【解析】 【分析】(1)根据所给数据算出相关系数r 即可;(2)根据所给数据和公式算出答案即可. (1)由表中数据可得 1234545566468723,6155x y ++++++++====,所以()52110i i x x =-=∑ ,又()521460i i y y =-=∑,()()5166i i i x x y y =--=∑ ,所以()()50.970.75iix x y y r --==≈>∑.所以月份代码x 与销售量y (单位: 百辆)具有较高的线性相关程度,可用线性回归模型拟合销售量y 与月份代码x 之间的关系. (2)由表中数据可得 ()()()5152166ˆ 6.610iii ii x x y y bx x ==--===-∑∑ , 则ˆˆ61 6.6341.2ay bx =-=-⨯=,所以ˆ 6.641.2y x =+ , 令6x =,可得ˆ 6.6641.280.8y=⨯+= (百辆), 故可预测2022年4月该品牌的新能源汽车该区域的销售量为80.8百辆.8.(2022·贵州·贵阳一中模拟预测(文))“十四五”规划纲要提出,全面推动长江经济带发展,协同推动生态环境保护和经济发展长江水资源约占全国总量的36%,长江流域河湖、水库、湿地面积约占全国的20%,珍稀濒危植物占全国的39.7%,淡水鱼类占全国的33%.长江经济带在我国生态文明建设中占据重要位置.长江流域某地区经过治理,生态系统得到很大改善,水生动物数量有所增加.为调查该地区某种水生动物的数量,将其分成面积相近的100个水域,从这些水域中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据()(),1,2,,20,i i x y i =其中i x 和i y 分别表示第i 个样区的水草覆盖面积(单位:公顷)和这种水生动物的数量,并计算得20160i i x ==∑,2011200i i y ==∑,2021-)120,i i x x ==∑(2021-)9000,i i y ==∑(y 201-)-)1000.i iix x y ==∑((y (1)求该地区这种水生动物数量的估计值(这种水生动物数量的估计值等于样区这种水生动物数量的平均数乘以地块数); (2)求样本()(),1,2,,20i i x y i =的相关系数(精确到0.01);(3)根据现有统计资料,各地块间水草覆盖面积差异很大.为提高样本的代表性以获得该地区这种水生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数-)-) 1.732.niix y x r =≈∑((y【答案】(1)6000 (2)0.96(3)采用分层抽样的方法,理由见解析 【解析】 【分析】(1)根据该地区这种水生动物数量的估计值的计算方法求解即可; (2)根据相关系数的公式求解即可;(3)根据(2)中的结论各样区的这种水生动物的数量与水草覆盖面积有很强的正相关性考虑即可 (1)样区水生动物平均数为201111200602020i i y ==⨯=∑, 地块数为100,该地区这种水生动物的估计值为100606000⨯=. (2)样本()(),1,2,,20i i x y i =⋯的相关系数为()()20,0.96.iix x y y r -===≈∑ (3)由(2)知各样区的这种水生动物的数量与水草覆盖面积有很强的正相关性,由于各地块间水草覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,所以采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该地区这种水生动物数量更准确的估计. 9.(2022·广西·南宁三中二模(文))随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:(2)若用e nx y m =模型拟合y 与x 的关系,可得回归方程为0.3337.71e x y =,经计算该模型和第(1)问中模型的2R (2R 为相关指数)分别为0.87和0.71,请分别利用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;(3)你认为(2)中用哪个模型得到的预测值更可靠?只需要判断,不用说明理由. 参考数据:设ln u y =,其中ln i i u y =. 参考公式:对于一组具有线性相关关系的数据123i i x y i n =⋅⋅⋅,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【答案】(1)4824y x =-;(2)(1)中模型预测值是312万辆,模型0.3337.71e x y =的预测值是380万辆; (3)模型0.3337.71e x y =更可靠. 【解析】 【分析】(1)根据表中数据得出,x y ,()()61i ii x xy y =--∑,()621ii x x =-∑,根据最小二乘法得出回归直线方程;(2)根据回归方程代入x 的值即得预测值;(3)由相关指数越接近于1,两个变量间的关系越强,相应的拟合度越好可得. (1)123456 3.56x +++++==,144y =,()()61841i ii x xy y =--=∑,()622222221(1 3.5)(2 3.5)(3 3.5)(4 3.5)(5 3.5)(6 3.5)17.5i i x x=-=-+-+-+-+-+-=∑,所以()()()61621841ˆ4817.5iii ii x x y y bx x ==--==≈-∑∑,14448 3.524a y bx =-=-⨯=-, 所以y 关于x 的线性回归方程为4824y x =-; (2)由(1)y 关于x 的线性回归方程为4824y x =-,当7x =时,2022年我国新能源乘用车的年销售量的预测值:48724312y =⨯-=(万辆), 对于回归方程0.3337.71e x y =,当7x =时,2022年我国新能源乘用车的年销售量的预测值:0.337 3.63 2.31 5.9437.71e e e e 380y ⨯=⨯=⨯==(万辆); (3)依题意模型0.3337.71e x y =和第(1)问中模型的2R (2R 为相关指数)分别为0.87和0.71,由于相关指数越接近于1,两个变量间的关系越强,相应的拟合度越好, 所以0.3337.71e x y =模型得到的预测值更可靠.10.(2022·山东临沂·三模)在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的前提下有序恢复生产,生活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文旅产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格x (单位:元)与购买人数y (单位:万人)的数据如下表:在分析数据、描点绘图中,发现散点()(),16i i v i ω≤≤集中在一条直线附近,其中ln ,ln i i i i v x y ω== (1)根据所给数据,求y 关于x 的回归方程;(2)按照文旅部门的指标测定,当购买数量y 与套票价格x 的比在区间e e ,97⎡⎤⎢⎥⎣⎦上时,该套票受消费者的欢迎程度更高,可以被认定为“热门套票”,现有三位同学从以上六款旅游套票中,购买不同的三款各自旅游.记三人中购买“热门套票”的人数为X ,求随机变量X 的分布列和期望.附:①可能用到的数据;66662111175.3,24.6,18.3,101.4i i i i i i i i i v v v ωω========∑∑∑∑.②对于一组数据()()()1122,,,,,,n n v v v ωωω⋅⋅⋅,其回归直线ˆˆˆbv a ω=+的斜率和截距的最小二乘估计值分别为1221ˆˆˆ,ni nii ii v nv babv vnv ωωω==-==--∑∑ 【答案】(1)12e y x = (2)分布列见解析,()2E X = 【解析】 【分析】(1)设回归直线方程为ˆˆˆbv a ω=+,由最小二乘法得出变量ω关于v 的回归方程,再由ln ,ln i i i i v x y ω==得出y 关于x 的回归方程; (2)由1212e e e e ,97y x x x x ⎡⎤==∈⎢⎥⎣⎦求出x ,得出乡村特色游,齐鲁红色游,登山套票,游园套票为“热门套票”,再结合超几何分布求出随机变量X 的分布列和期望. (1)散点()(),16i i v i ω≤≤集中在一条直线附近,设回归直线方程为ˆˆˆbv a ω=+ 由6611114.1, 3.0566i i i i v v ωω======∑∑,则1222175.36 4.1 3.051ˆ101.46 4.12ni ii nii v nv bvnv ωω==--⨯⨯===-⨯-∑∑1ˆˆ 3.05 4.112abv ω=-=-⨯= ∴变量ω关于v 的回归方程为112v ω=+121ln ,ln ,ln ln 1,e 2i i i i v x y y x y x ω==∴=+∴=综上,y 关于x 的回归方程为12e y x = (2) 由1212e e e e ,97y x x x x ⎡⎤==∈⎢⎥⎣⎦,解得4981x ,49,58,67,77x ∴= ∴乡村特色游,齐鲁红色游,登山套票,游园套票为“热门套票”则三人中购买“热门套票”的人数X 服从超几何分布,X 的可能取值为1,2,31221342424333666C C C C C 131(1),(2)(3)C 5C 55,C P X P X P X =========∴X 的分布列为:()1232555E X =⨯+⨯+⨯=11.(2022·湖南师大附中三模)魔方,又叫鲁比克方块,通常意义下的魔方,即指三阶魔方,为333⨯⨯的正方体结构,由26个色块组成.魔方竞速是一项手部极限运动,常规竞速玩法是将魔方打乱,然后在最短的时间内复原.(1)某魔方爱好者进行一段时间的魔方还原训练,每天魔方还原的平均速度y (秒)与训练天数x (天)有关,经统计得到如下数据:现用y a x=+作为回归方程类型,请利用表中数据,求出该回归方程,并预测该魔方爱好者经过长期训练后最终每天魔方还原的平均速度y 约为多少秒(精确到1)?参考数据:(其中1i iz x =)对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归直线ˆˆˆva u β=+的斜率和截距的最小二乘估计公式分别为:1221ˆni i i nii u vnuvunu β==-=-∑∑,ˆˆav u β=-. (2)现有一个复原好的三阶魔方,白面朝上,现规定只可以扭动最外层的六个表面.某人按规定将魔方随机扭动两次,每次均顺时针转动90︒,记顶面白色色块的个数为X ,求X 的分布列及数学期望E (X ). 【答案】(1)100ˆ13yx=+,13秒 (2)分布列见解析,509【解析】 【分析】(1)根据回归方程计算公式求得回归方程,进而求得预测值. (2)结合古典概型的概率计算公式,求得分布列并求得数学期望. (1)由题意,根据表格中的数据, 可得99994532302421507y ++++++==,可得7172217184.570.375055ˆ1000.550.557i ii iiz y z ybzz ==-⋅-⨯⨯====-∑∑,所以ˆˆ501000.3713ay b z =-⋅=-⨯=, 因此y 关于x 的回归方程为100ˆ13yx=+,当x →+∞时,ˆ13y→,所以魔方爱好者经过长期训练后最终每天还原的平均速度y 约为13秒. (2)由题可得随机变量X 的取值为3,4,6,9,()14A 13669P X ===⨯,1422(4)669A P X ⨯===⨯,()()11114224A 1A A A 205666369P X ++====⨯,()1122A A 19669P X ⨯===⨯.所以X 的分布列为:所以()346999999E X =⨯+⨯+⨯+⨯=.12.(2022·宁夏·石嘴山市第三中学模拟预测(文))新型冠状病毒肺炎COVID -19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长.下表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数.为了分析该国累计感染人数的变化趋势,小王同学分别用两杆模型:①2ˆybx a =+,②ˆy dx c =+对变量x 和y 的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差e ˆi i i y y=-):经过计算得81()()728i i i x x y y =--=∑,821()42i i x x =-=∑,81()()6868i i i z z y y =--=∑,821()3570i i z z =-=∑,其中2i i Z x =,8118i i z z ==∑.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由; (2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少?附:回归直线的斜率和截距的最小二乘估计公式分别为:121()()ˆ()siii nii x x yy bx x ==--=-∑∑,ˆˆay bx =-. 【答案】(1)选择模型①,理由见解析 (2)2ˆ 1.92 1.04yx =+ (3)157 【解析】 【分析】(1)选择模型①.根据残差的意义直接判断;(2)套公式求出系数,即可得到y 关于x 的回归方程;(3)将9x =代入,即可求得. (1)选择模型①.理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对较大一些,所以模型①的拟合效果相对较好 (2)由(1),知y 关于x 的回归方程为2ˆybx a =+,令2z x =,则ˆy bz a =+. 由所给数据得:1(1491625364964)25.58z =+++++++=,1(481631517197122)508y =+++++++=,8121()()6868ˆ 1.923570()ii i nii zz y y b zz ==--==≈-∑∑. ˆˆ50 1.9225.5 1.04ay bz =-≈-⨯=,∴y 关于x 的回归方程为2ˆ 1.92 1.04y x =+, (3)将9x =代入上式,得2ˆ 1.929 1.04156.56157y=⨯+=≈(人), 所以预测该地区第9天新型冠状病毒感染确诊的累计人数为157人.13.(2022·河南开封·三模(文))根据统计,某蔬菜基地西红柿亩产量的增加量y (百千克)与某种液体肥料每亩使用量x (千克)之间对应数据的散点图,如图所示.(1)请从相关系数r (精确到0.01)的角度分析,能否用线性回归模型拟合y 与x 的关系(若0.75r ≥,则线性相关程度很强,可用线性回归模型拟合);(2)建立y 关于x 的线性回归方程,并用其估计当该种液体肥料每亩使用量为9千克时,该蔬菜基地西红柿亩产量的增加量约为多少百千克? 参考公式:对于一组数据()(),1,2,3,,i i x y i n =,其回归直线y bx a =+的斜率和截距的最小二乘估计分别为:()()()121ˆˆˆni i i nii x x y y b x x ay bx ==⎧--⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑,相关系数()()niix x yyr--=∑ 3.16【答案】(1)能,理由见解析;(2)回归方程为0.3 2.5y x =+,该蔬菜基地西红柿亩产量的增加量约为5.2百千克. 【解析】 【分析】(1)计算出x 、y 的值,将样本数据代入相关系数公式,可求得r 的值,结合题意可判断x 与y 的线性关系的强弱,即可得出结论;(2)将样本数据代入最小二乘法公式,求出b 、a 的值,可得出线性回归直线方程,将9x =代入回归直线方程,可得出结论. (1)解:由已知数据可得2456855x ++++==,3444545y ++++==, 所以()()()()()5131100010316i ii x xy y =--=-⨯-+-⨯+⨯+⨯+⨯=∑,=相关系数()()50.95iix x y y r --===≈∑. 因为0.75r >,所以线性相关程度很强,可用线性回归模型拟合y 与x 的关系. (2)解:由于()()()5152160.320iii ii x x y y b x x ==--===-∑∑,4ˆ0.35 2.5a y bx=-=-⨯=, 所以y 关于x 的线性回归方程为0.3 2.5y x =+.当9x =时,0.39 2.5 5.2y =⨯+=,所以西红柿亩产量的增加量约为5.2百千克.14.(2022·广东汕头·三模)目前,新冠病毒引起的疫情仍在全球肆虐,在党中央的正确领导下,全国人民团结一心,使我国疫情得到了有效的控制.其中,各大药物企业积极投身到新药的研发中.汕头某药企为评估一款新药的药效和安全性,组织一批志愿者进行临床用药实验,结果显示临床疗效评价指标A 的数量y 与连续用药天数x 具有相关关系.刚开始用药时,指标A 的数量y 变化明显,随着天数增加,y 的变化趋缓.根据志愿者的临床试验情况,得到了一组数据(),i i x y ,1i =,2,3,4,5,…,10,i x 表示连续用药i 天,i y 表示相应的临床疗效评价指标A 的数值.该药企为了进一步研究药物的临床效果,建立了y 关于x 的两个回归模型:模型①:由最小二乘公式可求得y 与x 的线性回归方程: 2.50 2.50y x =-;模型②:由图中样本点的分布,可以认为样本点集中在曲线:ln b a y x =+的附近,令ln t x =,则有10122.00ii t==∑,101230i i y ==∑,101569.00i i i t y ==∑,102150.92i i t ==∑.(1)根据所给的统计量,求模型②中y 关于x 的回归方程;(2)根据下列表格中的数据,说明哪个模型的预测值精度更高、更可靠.(3)根据(2)中精确度更高的模型,预测用药一个月后,疗效评价指标相对于用药半个月的变化情况(一个月以30天计,结果保留两位小数).附:样本(),i i t y (1i =,2,…,n )的最小二乘估计公式为()()()121niii nii tty y b tt==--=-∑∑,a y bt =-;相关指数()()221211ni i n ii y yR y y ==-=--∑∑,参考数据:ln 20.6931≈.【答案】(1)25ln 32y x =- (2)回归模型②刻画的拟合效果更好 (3)17.33 【解析】 【分析】(1)直接由参考公式及参考数据直接计算即可; (2)直接由参考数据比较两个模型的相关指数即可; (3)直接将15和30代入模型②,再作差计算即可.(1)由题意,知10122.00i i t ==∑,101230i i y ==∑,可得 2.20t =,23y =,又由()()()112221110569.0010 2.20232550.9210ˆ 2.20 2.2010n nii ii i nni it i t t y y t y t ybt t tt ====---⋅-⨯⨯===-⨯⨯--∑∑∑∑,则2325 2.2032a y bt =-=-⨯=-,所以,模型②中y 关于x 的回归方程25ln 32y x =-;(2)由表格中的数据,可得102.2836.19>,即()()21010211102.2836.19i ii i y yy y ==>--∑∑,所以模型①的2R 小于模型②,说明回归模型②刻画的拟合效果更好;(3)根据模型②,当连续用药30天后,3025ln3032y =-,连续用药15天后,1525ln1532y =-,∵301525ln 217.327517.33y y -==≈,∴用药一个月后,疗效评价指标相对于用药半个月提高17.33. 15.(2022·四川省内江市第六中学模拟预测(文))【阅读材料】2022年4月16日9时56分,神州十三号载人飞船返回舱在东风着陆场成功着陆,航天员翟志刚、王亚平、叶光富身体状态良好,神州十三号载人飞行任务取得圆满成功,标志着空间站关键技术验证阶段任务圆满完成,中国空间站即将进入建造阶段.某公司负责生产的A 型材料是神舟十三号的重要零件,该材料应用前景十分广泛,该公司为了将A 型材料更好地投入商用,拟对A 型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x (亿元)与产品的直接收益y (亿元)的数据统计如下:。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第18章Logistic回归
案例辨析及参考答案
案例18-1一项前瞻性队列研究中,欲研究某疾病与甲、乙两因素的关系,数据见教材表18-13。
教材表18-13 某前瞻性队列研究中疾病与甲、乙两因素的关系
乙因素甲因素发病未发病
合计
()()(=1)(=0)
暴露(=1)
暴露(=1)150 250 400 未暴露(=0)250 150 400
未暴露(=0)
暴露(=1)400 150 550 未暴露(=0)200 450 650
疾病发病与否是因变量(发病赋值1,未发病赋值0),甲、乙两个因素为两个自变量和,采用logistic回归研究疾病与甲、乙两个因素的关系。
(1)单变量模型分析结果提示:疾病与甲因素有联系(回归系数Wald检验=44.766,<0.001);疾病与乙因素没有联系(回归系数Wald检验=0.000,=1.000)。
(2)主效应模型将甲、乙两个因素同时纳入模型,拟合结果见教材表18-14。
提示疾病与甲因素有联系,与乙因素的联系仍然没有统计学意义。
与单变量拟合结果比较,纳入乙因素后,甲因素的优势比只有微小改变。
研究者据此得出结论:疾病与甲因素有联系,疾病与乙因素没有联系,乙因素也不是混杂因素。
教材表18-14 按照模型拟合结果
变量 b SE Wald df exp(b)
0.607 0.091 44.838 1 <0.001 1.835
-0.026 0.092 0.077 1 0.781 0.975 Constant -0.278 0.072 15.076 1 <0.001 0.757
(3)有交互效应的模型根据专业知识判断,甲、乙两因素间可能存在交互效应,选用有交互效应的全模型,拟合结果见教材表18-15。
结果提示:疾病与甲因素有联系,疾病与乙因素也有联系,甲、乙两因素间还有交互效应。
甲、乙因素及其交互项的标准化回归系数分别为=0.229,=0.177,=0.546,因此,交互效应对疾病发生与否的影响程度最强。
教材表18-15 按照模型拟合结果
变量 b SE Wald df exp(b)
1.792 0.128 195.889 1 <0.001 6.000
1.322 0.134 97.661 1 <0.001 3.750
-2.813 0.194 209.831 1 <0.001 0.060 Constant -0.811 0.085 91.053 1 <0.001 0.444
上述3种拟合模型,得出不完全一致的结论,你认为何者更合理?
案例辨析三种做法所得结果不完全一致,这是很正常的,不能根据研究者的主观愿望
去选择结果,应根据资料的实际情况、统计分析的结果及其与实际情况的吻合程度来决定应
选取哪一种统计分析方法。
正确做法欲研究某疾病与甲、乙两因素的关系,可以采用Logistic回归研究疾病的发生与否与甲、乙两个因素的关系。
单变量模型分别将甲因素与乙因素引入Logistic回归模型,由于可能存在其他混杂因素,单变量模型分析的结果并不可靠。
将甲、乙两个因素同时纳入模型,若根据专业知识判断,甲、乙两因素间不存在交互效应,则建立主效应模型;若甲、乙两因素间可能存在交互效应,则应选用有交互效应的全模型,但不宜用标准化回归系数比较主效应与交互效应对疾病发生的影响程度,因为交互效应除依赖于乘积项的系数外,还依赖于两个变量的乘积。
案例18-2某感冒颗粒治疗小儿急性上呼吸道感染风热证的三期临床试验研究中,选择东中西5家三级甲等医院儿科为试验中心,根据试验方案,PP数据集样本共428例。
因变量为疗效(有效赋值1,无效赋值0),影响疗效的可能因素有药物(服用某感冒颗粒赋值=1,服用对照药赋值=0)以及5个临床试验中心(),原始记录数据经汇总整理,试验组322例,对照组106例,5个分中心治疗病例数及治疗结局见教材表18-16。
教材表18-16 某感冒颗粒多中心临床治疗试验汇总结果
分中心试验组对照组
编号有效无效有效无效
1 35 27 10 10
2 47 18 15 7
3 63 21 18 9
4 26 22 9 6
5 4
6 1
7 14 8
药物上市前多中心临床试验中,特别关注中心变量与药物间是否存在交互效应,结合教材表18-16中数据,5个分中心变量为无序分类变量,按照哑变量设置方法,共设置4个哑变量,,,,以中心1为参照。
运用SPSS软件计算时,将药物变量、中心变量以及中心与药物交互项均纳入SPSS软件Logistic回归界面的变量框,采用多种逐步法自动筛选变量并
建立Logistic回归模型,回归分析最后一步结果见教材表18-17。
研究者认为:药物变量、中心变量与药物变量的交互项均被剔除,模型最后只保留了中心变量。
所以,交互效应不存在。
教材表18-17 SPSS软件自动逐步回归最后一步的分析结果
b S.E. Wald df exp(b)
--11.688 4 0.020 -
0.713 0.325 4.818 1 0.028 2.039
0.798 0.308 6.700 1 0.010 2.220
0.027 0.337 0.007 1 0.935 1.028
0.680 0.325 4.362 1 0.037 1.973
Constant 0.196 0.222 0.778 1 0.378 1.216
试问,上述建模变量筛选方法以及中心变量与药物间无交互效应的解释是否恰当?
案例辨析盲目运用变量筛选方法进行变量筛选是不妥当的。
正确做法该研究关注中心变量与药物间是否存在交互效应。
分析两变量的交互效应时,模型中必须包含相应两变量的主效应,运用SPSS软件计算时,将药物变量、中心变量以及中心与药物交互项均纳入SPSS软件logistic回归界面的变量框,而且三个变量均需作为强制引入变量,因此不能采用SPSS软件提供的逐步法自动筛选变量。
案例18-3某医师研究某市成年人(≥18岁)抑郁症发生的危险因素。
从该市成年人随机抽取294人的一个样本,其中有抑郁症50人,无抑郁症244人。
3个可疑影响因素分别为性别(0为男,1为女)、年龄(年龄/10)、健康状况(1为很好,2为好,3为良,4为差)。
该医师作了抑郁症发生和3个因素的logistic回归分析,结果见教材表18-18。
教材表18-18 成年人抑郁症危险因素分析
变量*标准化常数0.405 7 0.125 5 10.450 <0.001 1.500 4 -
2.068 3 0.447 5 21.362 <0.001 7.911 4 1.045 7
-1.389 0 0.326 4 18.109 <0.001 0.249 3 -1.720 0
1.379 1 0.273 6 25.407 <0.001 3.971 3 1.463 4
*=exp(b)。
请问:
(1)该医师认为抑郁症的发生与性别、年龄和健康状况有关,其中女性、低年龄和健康状况差为抑郁症发生的危险因素,由可知,性别对抑郁症发生的作用最大,健康状况的作用次之,年龄的作用最小。
该结论是否正确?为什么?
(2)该医师又认为,年龄每增加10岁,抑郁症发生的可能性降低约25%;年龄每增
加20岁,抑郁症发生的可能性降低约50%。
该结论是否正确?为什么?
案例辨析
(1)“女性、低年龄和健康状况差”分别是“性别、年龄和健康状况”这三个因素的一个水平,混淆了因素与水平的概念;当logistic回归方程中自变量单位不同时,不能直接通过回归系数或相应的值比较各自变量对因变量的影响程度。
(2)计算结果不正确。
正确做法
(1)需比较标准化回归系数。
由标准化回归系数可知,年龄对抑郁症发生的作用最大,健康状况的作用次之,性别的作用最小。
(2)年龄每增加10岁,抑郁症发生的优势比为0.249 3,表示其他两因素取值固定,年龄每增加10岁,抑郁症发生的优势是增加前的24.93%,降低约75%;年龄每增加20岁,抑郁症发生的优势比为=0.062 2,表示其他两因素取值固定,年龄每增加20岁,抑郁症发生的优势是增加前的6.22%,降低约94%。