应用回归分析作业例题
回归分析练习题(有标准答案)
回归分析练习题(有答案)作者:日期:1.1回归分析的基本思想及其初步应用一、选择题1.某同学由x 与y 之间的一组数据求得两个变量间的线性回归方程为均值为2,数据y 的平均值为3,则()A .回归直线必过点(2,3)C 点(2,3)在回归直线上方B.回归直线一定不过点(2,3)D 点(2,3)在回归直线下方y bx a ,已知:数据x 的平2.在一次试验中,测得(x, y)的四组值分别是A (1,2),B(2,3),C(3,4),D(4,5),则丫与X 之间的回归直线方程为()A.$x1B .$ x 2C$2x1D.$ x 13.在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释;③求线性回归方程;④求未知参数;②收集数据(X j 、y i ),i 1,2,…,n ;⑤根据所搜集的数据绘制散点图)如果根据可行性要求能够作岀变量A.①②⑤③④Bx, y 具有线性相关结论,则在下列操作中正确的是(C.②④③①⑤D .②⑤④③①.③②④⑤①4.下列说法中正确的是()B人的知识与其年龄具有相关关系D 根据散点图求得的回归直线方程都是有意义的A.任何两个变量都具有相关关系C.散点图中的各点是分散的没有规律5.给出下列结论:2 2(1)在回归分析中,可用指数系数R 的值判断模型的拟合效果,R 越大,模型的拟合效果越好;(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r 的值判断模型的拟合效果,较合适带状区域的宽度越窄,说明模型的拟合精度越高.A.y 平均增加1.5个单位B.A. 1B )个..2r 越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比y 平均增加2个单位C.y 平均减少1.5个单位C.3DD.y 平均减少2个单位.4以上结论中,正确的有(6.已知直线回归方程为y7.2 1.5x ,则变量x 增加一个单位时()下面的各图中,散点图与相关系数r 不符合的是()\ 1V ||一1,— 1 < r<(>■r?■* ■■■■* ■..* .**打4X(7UV1)D.'8.一位母亲记录了儿子39岁的身高,由此建立的身高与年龄的回归直线方程为据此可以预测这个孩子10岁时的身高,则正确的叙述是(A.身高一定是145.83cm C.身高低于145.00cm BD)7.19x 73.93,.身高超过146.00cm身高在145.83cm左右9.(A)预报变量在x轴上,解释变量在y轴上(B)解释变量在x轴上,预报变量在y轴上(C)(D)在画两个变量的散点图时,下面哪个叙述是正确的()可以选择两个变量中任意一个变量在x轴上可以选择两个变量中任意一个变量在y轴上10.两个变量y与x的回归模型中,通常用R2来刻画回归的效果,则正确的叙述是(22)A.R越小,残差平方和小2B.R越大,残差平方和大2c.R于残差平方和无关D.R越小,残差平方和大211.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.802 2C.模型3的相关指数R为0.50 D.模型4的相关指数R为0.2512.回归直线上相应位置的差异的是A.总偏差平方和B.C.回归平方和13.回归直线方程为残差平方和D.相关指数R2在回归分析中,代表了数据点和它在()工人月工资(元)依劳动生产率(千元)变化的60 90x,下列判断正确的是()A.劳动生产率为1000元时,工资为50元B.劳动生产率提高1000元时,工资提高150元C.劳动生产率提高1000元时,工资提高90元D.劳动生产率为1000元时,工资为90元14.下列结论正确的是()①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①② E.①②③ C.①②④ D.①②③④15.已知回归直线的斜率的估计值为中心为(4,5),则回归直线方程为()1.23,样本点的A.$ 1.23x 4B.$ 1.23x 5C.$ 1.23x 0.08D.y 0.08x 1.2316.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数果好的模型是 __________.17.在回归分析中残差的计算公式为 ____________.18.线性回归模型y bx a e(a和b为模型的未知参数)中,e称为_________________.19.若一组观测值(X1,yJ(X2,y2)…(Xn,y“)之间满足yi=bXi+a+e(i=1、2.…n)若恒为0,则氏为______________R2的值分别约为0.96和0.85,则拟合效20.调查某市出租车使用年限x 和该年支出维修费用y (万元),得到数据如下:使用年限x 维修费用y(求线性回归方程;n22.233.845.556. 567.0(2)由(1)中结论预测第10年所支出的维修费用.i 1(X i x) (y iy).n(X ii 1x)2bx21.以下是某地搜集到的新房屋的销售价格闵屋面积Ey 和房屋的面积x 的数据:11524.Q1102 1. CIB-413G29.21口丘22t 肖年愉梧(1)画岀数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为150m2时的销售价格(4)求第2个点的残差。
专题05 回归分析(解析版)
专题5 回归分析例1.已知回归方程y=5x+1,则该方程在样本(1,4)处的残差为()A.﹣2B.1C.2D.5【解析】解:当x=1时,y=5x+1=6,∴方程在样本(1,4)处的残差是4﹣6=﹣2.故选:A.例2.研究变量x,y得到一组样本数据,进行回归分析,有以下结论①残差平方和越小的模型,拟合的效果越好;②用相关指数R2来刻画回归效果,R2越小说明拟合效果越好;③在回归直线方程y=−0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y平均减少0.2个单位;④若变量y和x之间的相关系数为r=﹣0.9462,则变量y和x之间的负相关很强.以上正确说法的是①③④.【解析】解:①可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故①正确;②用相关指数R2来刻画回归效果,R2越大说明拟合效果越好,故②错误;③在回归直线方程y=−0.2x+0.8中中,当解释变量x每增加1个单位时,预报变量y平均减少0.2个单位,故③正确;④若变量y和x之间的相关系数为r=﹣0.9462,r的绝对值趋向于1,则变量y和x之间的负相关很强,故④正确.故答案为:①③④.例3.下列命题中,正确的命题有②③.①回归直线y=b x+a恒过样本点中心(x,y),且至少过一个样本点;②用相关指数R2来刻画回归效果,表示预报变量对解释变量变化的贡献率,R2越接近于1说明模型的拟合效果越好;③残差图中残差点比较均匀的落在水平的带状区域中,说明选用的模型比较合适;④两个模型中残差平方和越大的模型的拟合效果越好.【解析】解:①回归直线y=b x+a恒过样本点中心(x,y),不一定过样本点,故①正确;②用相关指数R2来刻画回归效果,表示预报变量对解释变量变化的贡献率,R2越接近于1说明模型的拟合效果越好,正确;③残差图中残差点比较均匀的落在水平的带状区域中,说明选用的模型比较合适,正确;④两个模型中残差平方和越大的模型的拟合效果越差.故④错误,故正确的是②③,故答案为:②③例4.下列命题:①相关指数R2越小,则残差平方和越大,模型的拟合效果越好.②对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”可信程度越大.③残差点比较均匀地落在水平带状区域内,带状区域越宽,说明模型拟合精度越高.④两个随机变量相关性越强,则相关系数的绝对值越接近0.其中错误命题的个数为4.【解析】解:对于①,相关指数R2越小,则残差平方和越大,此时模型的拟合效果越差,所以①错误;对于②,对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”可信程度越小,所以②错误;对于③,残差点比较均匀地落在水平带状区域内,带状区域越宽,说明模型拟合精度越低,所以③错误;对于④,两个随机变量相关性越强,则相关系数的绝对值越接近1,所以④错误.综上知,错误命题的序号是①②③④,共4个.故答案为:4.例5.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调査产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据(x i,y i)(i=1,2,……,20),其中x i和y i分别表示第i个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得∑20i=1x i=80,∑20i=1y i=4000,∑20i=1(x i−x)2=80,∑20i=1(y i−y)2=8000,∑20i=1(x i−x)(y i−y)=7000.(1)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合;(2)求y关于x的线性回归方程;(3)某科研机构研发了两款垃圾处理机器,如表是以往两款垃圾处理机器的使用年限(整年)统计表:1年2年3年4年5年使用年限台数款式甲款520151050乙款152010550某环保机构若考虑购买其中一款垃圾处理器,以使用年限的频率估计概率.根据以往经验估计,该机构选择购买哪一款垃圾处理机器,才能使用更长久?参考公式:相关系数r=∑n i=1i−x)(y i−y)√∑i=1(x i−x)∑i=1(y i−y)2.对于一组具有线性相关关系的数据(x i,y i)(i=1,2,……,n),其回归直线y=b x+a的斜率和截距的最小二乘估计分别为:b=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2,a=y−b x.【解析】解:(1)由题意知相关系数r=∑20i=1i−x)(y i−y)√∑i=1(x i−x)2∑i=1(y i−y)2=√80×8000=78=0.875,因为y与x的相关系数接近1,所以y与x之间具有较强的线性相关关系,可用线性回归模型进行拟合.(2)由题意可得,b=∑20i=1(x i−x)(y i−y)∑20i=1(x i−x)2=70080=8.75,a=y−b x=400020−8.75×8020=200−8.75×4=165,所以y=8.75x+165.(3)以频率估计概率,购买一台甲款垃圾处理机器节约政府支持的垃圾处理费用X(单位:万元)的分布列为X﹣50050100P0.10.40.30.2E(X)=﹣50×0.1+0×0.4+50×0.3+100×0.2=30(万元)购买一台乙款垃圾处理机器节约政府支持的垃圾处理费用Y(单位:万元)的分布列为:Y﹣302070120P0.30.40.20.1E(Y)=﹣30×0.3+20×0.4+70×0.2+120×0.1=25(万元)因为E(X)>E(Y),所以该县城选择购买一台甲款垃圾处理机器更划算.例6.某基地蔬菜大棚采用水培、无土栽培方式种植各类蔬菜.据统计该基地的西红柿增加量y(百斤)与使用某种液体肥料x(千克)之间对应数据为如图所示的折线图.(1)依据数据的折线图,请计算相关系数r(精确到0.01),并以此判定是否可用线性回归模型拟合y 与x的关系?若是请求出回归直线方程,若不是请说明理由;(2)过去50周的资料显示,该地周光照量X(小时)都在30小时以上,其中不足50小时的周数有5周,不低于50小时且不超过70小时的周数有35周,超过70小时的周数有10周.蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪最多可运行台数受周光照量X限制,并有如表关系:周光照量X(单位:小时)30<X<5050≤X≤70n≥2光照控制仪最多可运行台数542若某台光照控制仪运行,则该台光照控制仪周利润为3000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1000元.若商家安装了5台光照控制仪,求商家在过去50周每周利润的平均值.附:对于一组数据(x1,y1),(x2,y2),……,(x n,y n),其相关系数公式r=∑n i=1i−x)(y i−y)√∑i=1i−x)2∑i=1i−y)2,回归直线y=b x+a的斜率和截距的最小二乘估计分别为:b=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2=∑ni=1x i y i−nxy∑n i=1(x i−x)2,a=y−b x,参考数据√0.3≈0.55,√0.9≈0.95.【解析】解:(1)由已知数据可得x=2+4+5+6+85=5,y=3+4+4+4+55=4,因为∑5i=1(x i−x)(y i−y)=(−3)×(−1)+0+0+0+3×1=6,√∑5i=1(x i−x)2=√(−3)2+(−1)2+02+12+32=2√5,√∑5i=1(y i−y)2=√(−1)2+02+02+02+12=√2.所以相关系数r=∑n i=1i−x)(y i−y)√∑i=1i −x)2√∑i=1i−y)2=2√5⋅√2=√910≈0.95,因为r>0.75,所以可用线性回归模型拟合y与x的关系,因为b=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2=620=0.3,a=y−b x=2.5,所以回归直线方程y=0.3x+2.5.(2)记商家周总利润为Y元,由条件可得在过去50周里:X>70时,共有10周,只有2台光照控制仪运行,周总利润Y=2×3000﹣3×1000=3000元,当50≤X≤70时,共有35周,有4台光照控制仪运行,周总利润Y=4×3000﹣1×1000=11000元,当X<50时,共有5周,5台光照控制仪都运行,周总利润Y=5×3000=15000元,所以过去50周每周利润的平均值Y=3000×10+11000×35+15000×550=9800元,所以商家在过去50周每周利润的平均值为9800元.例7.湖南省从2021年开始将全面推行“3+1+2”的新高考模式,新高考对化学、生物、地理和政治等四门选考科目,制定了计算转换T分(即记入高考总分的分数)的“等级转换赋分规则”(详见附1和附2),具体的转换步骤为:①原始分Y等级转换;②原始分等级内等比例转换赋分.某校的一次年级统考中,政治、生物两选考科目的原始分分布如表:等级A B C D E比例约15%约35%约35%约13%约2%政治学科各等级对应的原始分区间[81,98][72,80][66,71][63,65][60,62]生物学科各等级对应的原始分区间[90,100][77,89][69,76][66,68][63,65]现从政治、生物两学科中分别随机抽取了20个原始分成绩数据,作出茎叶图:(1)根据茎叶图,分别求出政治成绩的中位数和生物成绩的众数;(2)该校的甲同学选考政治学科,其原始分为82分,乙同学选考生物学科,其原始分为91分,根据赋分转换公式,分别求出这两位同学的转化分;(3)根据生物成绩在等级B的6个原始分和对应的6个转化分,得到样本数据(Y i,T i),请计算生物原始分Y i与生物转换分T i之间的相关系数,并根据这两个变量的相关系数谈谈你对新高考这种“等级转换赋分法”的看法.附1:等级转换的等级人数占比与各等级的转换分赋分区间等级A B C D E原始分从高到低排序的等级人数占比约15% 约35% 约35% 约13% 约2%转换分T 的赋分区间[86,100] [71,85][56,70] [41,55] [30,40]附2:计算转换分T 的等比例转换赋分公式:Y 2−Y Y−Y 1=T 2−T T−T 1.(其中:Y 1,Y 2别表示原始分Y 对应等级的原始分区间下限和上限;T 1,T 2分别表示原始分对应等级的转换分赋分区间下限和上限.T 的计算结果按四舍五入取整).附3:∑ 6i=1(Y i −Y )(T i −T )=74,√∑ 6i=1(Yi −Y)2∑ 6i=1(T i −T)2=√5494≈74.12,r =∑n i=1i −Y)(T i −T)√∑i=1i −Y)2∑i=1i −T)2.【解析】解:(1)根据茎叶图知,政治成绩的中位数为72,生物成绩的众数为73; (2)甲同学选考政治学科的等级为A ,由转换赋分公式:98−8282−81=100−T T−86,解得T =87;乙同学选考生物学科的等级为A ,由赋分转换公式:100−9191−90=100−T T−86,解得T =87;所以甲、乙两位同学的转换分都是87分. (3)由题意知,r =∑n i=1i −Y)(T i −T)√∑ i=1(Y i −Y)2∑ i=1(T i −T)2=7474.12≈0.998, 说法1:等级转换赋分公平,因为相关系数十分接近1,接近函数关系,因此高考这种“等级转换赋分”具有公平性与合理性.说法2:等级转换赋分法不公平,在同一等级内,原始分与转化分是确定的函数关系,理论上原始分与转化分的相关系数为1,在实际赋分过程中由于数据的四舍五入,使得实际的转化分与应得的转化分有一定的误差,极小部分同学赋分后会出现偏高或偏低的现象. (只要说法有道理,都可以得分).例8.某市房管局为了了解该市市民2018年1月至2019年1月期间买二手房情况,首先随机抽样其中200名购房者,并对其购房面积m (单位:平方米,60≤m ≤130)进行了一次调查统计,制成了如图1所示的频率分布直方图,接着调查了该市2018年1月至2019年1月期间当月在售二手房均价y (单位:万元/平方米),制成了如图2所示的散点图(图中月份代码1﹣13分别对应2018年1月至2019年1月).(Ⅰ)试估计该市市民的购房面积的中位数m0;(Ⅱ)现采用分层抽样的方法从购房面积位于[110,130]的40位市民中随机抽取4人,再从这4人中随机抽取2人,求这2人的购房面积恰好有一人在[120,130]的概率;(Ⅲ)根据散点图选择y=a+b√x和y=c+d lnx两个模型进行拟合,经过数据处理得到两个回归方程,分别为y=0.9369+0.0285√x和y=0.9554+0.0306lnx,并得到一些统计量的值如表所示:y=0.9369+0.0285√x y=0.9554+0.0306lnx ∑13i=1(y i−y i)20.0005910.000164∑13i=1(y i−y)20.006050请利用相关指数R2判断哪个模型的拟合效果更好,并用拟合效果更好的模型预测出2019年12月份的二手房购房均价(精确到0.001).【参考数据】ln2≈0.69,ln3≈1.10,ln23≈3.14,ln25≈3.22,√2≈141,√3≈1.73,√23≈4.80.【参考公式】R2=1−∑ni=1(y i−y i)2∑n i=1(y i−y)2.【解析】解:(I)由频率分布直方图,可得,前三组频率和为0.05+0.1+0.2=0.35,前四组频率和为0.05+0.1+0.2+025=0.6,故中位数出现在第四组,且m0=90+10×0.150.25=96.(Ⅱ)设从位于[110,120)的市民中抽取x人,从位于[120,130]的市民中抽取y人,由分层抽样可知:440=x30=y10,则x=3,y=1,在抽取的4人中,记3名位于[11,120)的市民为A1,A2,A3,位于[120,130]的市民为B则所有抽样情况为:(A1,A2),(A1,A3),(A1,B),(A2,A3),(A2,B),(A3,B)共6种.而其中恰有一人在位于购房面积[120,130]的情况共有3种,故所求概率P=36=12,(III)设模型y=0.9369+0.0285√x和y=0.955+0.0306lnx的相关指数分别为R12,R22,则R12=1−0.0005910.006050,R22=1−0.0001640.006050,显然R12<R22,故模型y=0.9554+0.0306lnx的拟合效果更好.由2019年12月份对应的代码为24,则y=0.9554+0.0306ln24=0.9554+0.0306(3ln2+ln3)≈1.052万元/平方米.例9.某汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入x(亿元)与科技改造直接收益y(亿元)的数据统计如表:x2346810132122232425y1322314250565868.56867.56666当0<x≤16时,建立了y与x的两个回归模型:模型①:y=4.1x+11.8;模型②:y=21.3√x−14.4;当x>16时,确定y与x满足的线性回归方程为:y=−0.7x+a.(Ⅰ)根据下列表格中的数据,比较当0<x≤16时模型①、②的相关指数R2,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为16亿元时的直接收益.回归模型模型①模型②回归方程y=4.1x+11.8y=21.3√x−14.4∑7i=1(y i−y i)2182.479.2(附:刻画回归效果的相关指数R2=1−∑n i=1(y i−y i)2∑n i=1(y i−y)2.)(Ⅱ)为鼓励科技创新,当科技改造的投入不少于20亿元时,国家给予公司补贴收益10亿元,以回归方程为预测依据,比较科技改造投入16元与20亿元时公司实际收益的大小;(附:用最小二乘法求线性回归方程y=b x+a的系数公式b=∑ni=1x i y i−nx⋅y∑n i=1x i2−nx2=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2;a=y−b x)(Ⅲ)科技改造后,“东方红”款汽车发动机的热效率X大幅提高,X服从正态分布N(0.52,0.012),公司对科技改造团队的奖励方案如下:若发动机的热效率不超过50%但不超过53%,不予奖励;若发动机的热效率超过50%但不超过53%,每台发动机奖励2万元;若发动机的热效率超过53%,每台发动机奖励4万元.求每台发动机获得奖励的数学期望.(附:随机变量ξ服从正态分布N(μ,σ2),则P(μ﹣σ<ξ<μ+σ)=0.6827,P(μ﹣2σ<ξ<μ+2σ)=0.9545.)【解析】解:(Ⅰ)由表格中的数据,有182.4>79.2,即182.4∑7i=1(y i−y)2>79.2∑7i=1(y i−y)2,∴模型①的R2小于模型②的R2,说明模型②的刻画效果更好.∴当x=16亿元时,科技改造直接收益的预测值为y=21.3×√16−14.4=70.8(亿元);(Ⅱ)由已知可得,x−20=0.5+2+3.5+4+55=3,则x=23,y−60=8.5+8+7.5+6+65=7.2,则y=67.2,∴a=y−0.7x=67.2+0.7×23=83.3,∴当x>16亿元时,y与x满足线性回归方程y=−0.7x+83.3,当x=20亿元时,科技改造直接收益的预测值为y=−0.7×20+83.3=69.3.∴当x=20亿元时,实际收益的预测值为69.3+10=79.3亿元>70.8亿元.∴科技改造投入20亿元时,公司的实际收益更大;(Ⅲ)∵P(0.52﹣0.02<X<0.52+0.02)=0.9545,∴P(X>0.50)=1+0.95452=0.97725,P(X≤0.50)=1−0.95452=0.02275,∵P(0.52﹣0.01<X<0.52+0.01)=0.6827,∴P(X>0.53)=1−0.68272=0.15865,∴P(0.50<X≤0.53)=0.97725﹣0.15865=0.8186.设每台发动机获得的奖励为Y(万元),则Y的分布列为:Y024P0.022750.81860.15865∴每台发动机获得的奖励的数学期望为:E(Y)=0×0.02275+2×0.8186+4×0.15865=2.2718(万元).例10.某高中数学建模兴趣小组的同学为了研究所在地区男高中生的身高与体重的关系,从若干个高中男学生中抽取了1000个样本,得到如下数据.数据一:身高在[170,180)(单位:cm)的体重频数统计体重(kg)[50,55)[55,60)[60,65)[65,70)[70,75)[75,80)[80,85)[85,90)人数206010010080201010数据二:身高所在的区间含样本的个数及部分数据身高x(cm)[140,150)[150,160)[160﹣170)[170﹣180)[180﹣190)平均体重y(kg)4553.66075(Ⅰ)依据数据一将下面男高中生身高在[170﹣180)(单位:cm)体重的频率分布直方图补充完整,并利用频率分布直方图估计身高在[170﹣180)(单位:cm)的中学生的平均体重;(保留小数点后一位)(Ⅱ)依据数据一、二,计算身高(取值为区间中点)和体重的相关系数约为0.99,能否用线性回归直线来刻画中学生身高与体重的相关关系,请说明理由;若能,求出该回归直线方程;(Ⅲ)说明残差平方和或相关指数R2与线性回归模型拟合效果之间关系.(只需写出结论,不需要计算)参考公式:b=∑ni=1(x i−x)(y i−y)∑n i=1(x i−x)2=∑ni=1x i y i−nx⋅y∑n i=1x i2−nx2,a=y−b x.参考数据:(1)145×45+155×53.6+165×60+185×75=38608;(2)1452+1552+1652+1752+1852﹣5×1652=1000.(3)663×175=116025,664×175=116200,665×175=116375.(4)728×165=120120.【解析】解:(1)身高在[170,180)的总人数为:20+60+100+100+80+20+10+10=400,体重在[55﹣60)的频率为:60400=0.15,体重在[70﹣75)的 频率为:80400=0.2,平均体重为:52.5×0.05+57.5×0.15+62.5×0.25+67.5×0.25+72.5×0.2 +77.5×0.05+82.5×0.025+87.5×0.025≈66.4,(2)因为 r =0.99→1,线性相关很强,故可以用线性回归直线来 刻画中学生身高与体重的相关, x =145+155+165+175+1855=165,y =45+75+60+53.6+66.45=60,b =∑ 8i=1x i y i −8x⋅y ∑ 8i=1x i 2−8x2=38608+175×66.4−5×165×601000=0.728, a =y −b x =60−0.728×165=−60.12, 所以回归直线方程为:y =0.728x −60.12,(3)残差平方和越小或相关指数 R 2 越接近于1,线性回归模型拟合效果越好.例11.2019年的“金九银十”变成“铜九铁十”,国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.如图是该地某小区2018年11月至2019年1月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2018年11月~2019年11月)根据散点图选择y =a +b √x 和y =c +dlnx 两个模型进行拟合,经过数据处理得到两个回归方程分别为y ^=0.9369+0.0285√x和y^=0.9554+0.0306lnx,并得到以下一些统计量的值:y^=0.9369+0.0285√x y^=0.9554+0.0306lnx ∑13i=1(y i−y^i)20.0005910.000164∑13i=1(y i−y)20.006050(1)请利用相关指数R2判断哪个模型的拟合效果更好;(2)某位购房者拟于2020年4月购买这个小区m(70≤m≤160)平方米的二手房(欲购房为其家庭首套房).若购房时该小区所有住房的房产证均已满2但未满5年,请你利用(1)中拟合效果更好的模型解决以下问题:(i)估算该购房者应支付的购房金额;(购房金额=房款+税费,房屋均价精确到0.001万元/平方米)(ii)若该购房者拟用不超过100万元的资金购买该小区一套二手房,试估算其可购买的最大面积.(精确到1平方米)附注:根据有关规定,二手房交易需要缴纳若干项税费,税费是按房屋的计税价格(计税价格=房款)进行征收的.房产证满2年但未满5年的征收方式如下:首套面积90平方米以内(含90平方米)为1%;首套面积90平方米以上且140平方米以内(含140平方米)1.5%;首套面积140平方米以上或非首套为3%.参考数据:ln2≈0.69,ln3≈1.10,ln17≈2.83,ln19≈2.94,√2≈1.41,√3≈1.73,√17≈4.12,√19≈4.36.参考公式:相关指数R2=1−∑ni=1(y i−y^i)2∑n i=1(y i−y)2.【解析】解:(1)模型一中,y=0.9369+0.0285√x的残差平方和为0.000591,相关指数为R21−0.0005910.006050≈0.923,模型二中,y=0.9554+0.0306lnx的残差平方和为0.000164,相关指数为 R 21−0.0001640.006050≈0.973,∴ 相关指数较大的模型二拟合效果好些. (2)通过散点图确定2020年4月对应的 x =18, 代入(1)中拟合效果更好的模型二,代入计算 y =0.9554+0.0306ln18 =0.9554+0.0306×(ln 2+2ln 3) =0.9554+0.0306×(0.69+2×1.10) ≈1.044 (万元/平方米),则2020年4月份二手房均价的预测值为1.044(万元/平方米).(i )设该购房者应支付的购房金额 h 万元,因为税费中淵方只需缴纳契税, ①当70⩽m ⩽90 时,契税为计税价格的 1%, 故h =m ×1.044×(1%+1)=1.05444m ; ②当90<m ⩽144 时,契税为计税价格的 1.5%, 故h =m ×1.044×(1.5%+1)=1.05966m ; ③当144<m ⩽160 时,契税为计税价格的 3%, 故h =m ×1.044×(3%+1)=1.07532m ;∴ℎ={1.05444m ,70⩽m ⩽901.05966m ,90<m ⩽1441.07532m ,144<m ⩽160;∴ 当 70⩽m ⩽90 时购房金额为 1.05444m 万元, 当 90<m ⩽144 时购房金额为 1.05966m 万元, 当 144<m ⩽160 时购房金额为 1.07532m 万元.(ii )设该购房者可购买该小区二手房的最大面积为 t 平方米,由(i ) 知,当70⩽m ⩽90时,应支付的购房金额为 1.05444t ,又1.05444t ⩽1.05444×90<100, 又因为房屋均价约为1.044万元/平方米,所以 t <100,所以90⩽t <100, 由1.05966t ⩽100,解得 t ⩽1001.05966,且1001.05966≈94.4,所以该购房者可购买该小区二手房的最大面积为94平方米.例12.某新兴科技公司为了确定新研发的产品下一季度的营销计划,需了解月宣传费x (单位:万元)对月销售量y(单位:千件)的影响,收集了2020年3月至2020年8月共6个月的月宣传费x和月销售量y的数据如表:月份345678宣传费x5678910月销售量y0.4 3.5 5.27.08.610.7现分别用模型①y=b x+a和模型②y=e m x+n对以上数据进行拟合,得到回归模型,并计算出模型的残差如表:(模型①和模型②的残差分别为e1和e2,残差=实际值﹣预报值)x5678910y0.4 3.5 5.37.08.610.7e1﹣0.60.540.280.12﹣0.24﹣0.1e2﹣0.63 1.71 2.10 1.63﹣0.7﹣5.42(1)根据上表的残差数据,应选择哪个模型来拟合月宣传费x与月销售量y的关系较为合适,简要说明理由;(2)为了优化模型,将(1)中选择的模型残差绝对值最大所对应的一组数据(x,y)剔除,根据剩余的5组数据,求该模型的回归方程,并预测月宣传费为12万元时,该公司的月销售量.(剔除数据前的参考数据:x=7.5,y=5.9,∑6i=1x i y i=299.8,∑6i=1x i2=355,z=lny.z≈−1.41,∑6i=1x i y i=−73.10,ln10.7≈2.37,e4.034≈56.49.)参考公式:b=∑ni=1x i y i−nxy∑n i=1x i2−nx2,a=y−b x.【解析】解:(1)应选择模型①,因为模型①每组数据对应的残差绝对值都比模型②的小,残差波动小,残差点比较均匀地落在水平的带状区域内,说明拟合精度高.(2)由(1)知,需剔除第一组数据,则剔除后的x=7.5×6−55=8,y=5.9×6−0.45=7,5xy=280,5x2=320,∑5i=1x i y i=299.8−5×0.4=297.8,∑5i=1x i2=355−25=330.∴b=∑5i=1x i y i−5xy∑5i=1x i2−5x2=297.8−280330−320=1.78,a=y−b x=7−1.78×8=−7.24.得①的回归方程为y=1.78x−7.24,则当x=12时,y=1.78×12−7.24=14.12.故月宣传费为12万元时,该公司的月销售量为14.12千件.例13.新型冠状病毒肺炎COVID﹣19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长.如表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数.日期代码x12345678累计确诊人数y481632517197122为了分析该国累计感染人数的变化趋势,小王同学分别用两种模型:①y=bx2+a,②y=dx+c对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差e î=y i−y î):经过计算得它∑8i=1(x i−x)(y i−y)=728,∑8i=1(x i−x)2=42,∑8i=1(z i−z)(y i−y)=6868,∑8i=1(z i−z)2=3570,其中z i=x i2,z=18∑8i=1z i.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少?附:回归直线的斜率和截距的最小二乘估计公式分别为:b=∑8i=1(x i−x)(y i−y)∑8i=1(x i−x)2,a=y−b x.【解析】解:(1)选择模型①,理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对比较大,所以模型①的拟合效果相对较好;(2)由(1)可知y关于x的回归方程为y=bx2+a,令z=x2,则y=bz+a,由所给的数据可得:z=18(1+4+9+16+25+36+49+64)=25.5,y=18(4+8+16+31+51+71+97+122)=50,b=∑8i=1(z i−z)(y i−y)∑8i=1(z i−z)2=68683570≈1.92,则a=y−b z≈50﹣1.92×25.5=1.04,所以y关于x的回归方程为y=1.92x2+1.04;(3)将x=9代入回归方程,可得y=1.92×92+1.04=156.56≈157(人),所以预测该地区第9天新型冠状病毒感染确诊的累计人数约为157人.例14.H市某企业坚持以市场需求为导向,合理配置生产资源,不断改革、探索销售模式.下表是该企业每月生产的一种核心产品的产量x(吨)与相应的生产总成本y(万元)的五组对照数据.产量x(件)12345生产总成本y(万元)3781012(Ⅰ)根据上达数据,若用最小二乘法进行线性模拟,试求y关于x的线性回归方程y=b x+a;参考公式:b=∑ni=1x i y i−nxy∑n i=1x i2−nx2,a=y−b x.(Ⅱ)记第(Ⅰ)问中所求y与x的线性回归方程y=b x+a为模型①,同时该企业科研人员利用计算机根据数据又建立了y与x的回归模型②:y=12x2+1.其中模型②的残差图(残差=实际值﹣预报值)如图所示:请完成模型①的残差表与残差图,并根据残差图,判断哪一个模型更适宜作为y关于x的回归方程?并说明理由;(Ⅲ)根据模型①中y与x的线性回归方程,预测产量为6吨时生产总成本为多少万元?【解析】解:(Ⅰ)计算x=15(1+2+3+4+5)=3,y=15(3+7+8+10+12)=8,∑5i=1x i2=12+22+32+42+52=55,∑5i=1x i y i=1⋅3+2⋅7+3⋅8+4⋅10+5⋅12=141,b=∑5i=1x i y i−nxy∑5i=1x i2−nx2=141−5×3×855−5×9=2.1,a=y−b x=8−2.1×3=1.7,因此,回归直线方程为y=2.1x+1.7.(Ⅱ)模型①的残差表为:x12345y3781012 y 3.8 5.9810.112.2 e﹣0.8 1.10﹣0.1﹣0.2画出残差图,如图所示;结论:模型①更适宜作为y关于x的回归方程,因为:理由1:模型①的4个样本点的残差点落在的带状区域比模型②的带状区域更窄;理由2:模型①的4个样本点的残差点比模型②的残差点更贴近进x轴..(不列残差表不扣分,写出一个理由即可得分.)(Ⅲ)根据模型①中y与x的回归直线方程,计算x=6时,y=2.1×6+1.7=14.3,所以预测产量为6吨时生产总成本为14.3万元.例15.为了解某企业生产的某产品的年利润与年广告投入的关系,该企业对最近一些相关数据进行了调查统计,得出相关数据见表:23456年广告投入x(万元)346811年利润y(十万元)根据以上数据,研究人员分别借助甲.乙两种不同的回归模型,得到两个回归方程,方程甲:方程甲:y(1)=b(x﹣1)2+2.75,方程乙:y(2)=c x﹣1.6.(1)求b(结果精确到0.01)与c的值.(2)为了评价两种模型的拟合效果,完成以下任务.①完成下表(备注:e î=y i−y î,e î称为相应于点(x i,y i)的残差;年广告投入x(万元)23456年利润y(十万元)346811模型甲估计值y î(1)残差e î(1)模型乙估计值y î(2)残差e î(2)②分别计算模型甲与模型乙的残差平方和Q1及Q2,并通过比较Q1,Q2的大小,判断哪个模型拟合效果更好.【解析】解:(1)设t=(x﹣1)2,则t=15(1+4+9+16+25)=11.∵y=6.4,∴6.4=b×11+2.75,解得b≈0.33.又x=4,∴6.4=c×4−1.6,即c=2.(2)①经计算,可得下表:年广告投入x(万元)23456年利润y(十万元)346811模型甲估计值y î(1) 3.08 4.07 5.728.0311残差e î(1)﹣0.08﹣0.070.28﹣0.030模型乙估计值y î(2) 2.4 4.4 6.48.410.4残差e î(2)0.6﹣0.4﹣0.4﹣0.40.6②Q1=(−0.08)2+(−0.07)2+0.282+(−0.03)2=0.0906.Q2=0.62×2+(−0.4)2×3=1.2.∵Q1<Q2,∴模型甲的拟合效果更好.。
回归分析作业
一、假设检验:1.某药厂最近研制出一种新的降压药,为了验证其疗效,选择15个高血压病人进行实验。
数据表是服药前后的血压值。
选用适当的统计方法验证该药是否有效。
patient 1 2 3 4 5 6 7 8 before 115 135 127 130 103 90 101 104 after 109 120 125 130 105 94 90 100patient 9 10 11 12 13 14 15before 109 89 120 113 118 130 120after 90 90 110 103 100 121 108解:设血压值总体分布服从X~N(μ,S2)假设检验问题:μ1 为服药前血压值样本均值,μ2为服药后血压值样本均值: μ1=μ2 即服药前后血压值相等。
原假设H备择假设H:μ1≠μ2 即服药前后血压值不相等。
1然后采用双边检验的方法,使用Minitab进行检验,得到以下数据:Paired T-Test and CI: X(服药之前), Y(服药之后)Paired T for X(服药之前)- Y(服药之后)N Mean StDev SE MeanX(服药之前)15 113.60 14.21 3.67Y(服药之后)15 106.33 13.04 3.37Difference 15 7.27 7.27 1.8895% lower bound for mean difference: 3.96T-Test of mean difference = 0 (vs > 0): T-Value = 3.87 P-Value = 0.001由以上数据可以得出:p值=0.001<α=0.05,拒绝原假设,服用新的降压药后血压值有显著的差异,即该降压药有效。
二、方差分析:1、对于硅酸盐水泥的抗折强度,用四种不同的配方方法收集了以下数据:配方法抗折强度1 3129 3000 2865 28902 3200 3300 2975 31503 2800 2900 2985 30504 2600 2700 2600 2765(1)检验配方法影响水泥砂浆强度的假设。
高中数学回归分析精选题
回归分析精选题20道一.选择题(共12小题)1.设某大学的女生体重y (单位:)k g 与身高x (单位:)cm 具有线性相关关系,根据一组样本数据(i x ,)(1i y i=,2,⋯,)n ,用最小二乘法建立的回归方程为ˆ0.8585.71y x =-,则下列结论中不正确的是()A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,)yC .若该大学某女生身高增加1c m ,则其体重约增加0.85k gD .若该大学某女生身高为170c m ,则可断定其体重必为58.79k g2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是()A .ˆ10200yx =-+ B .ˆ10200yx =+ C .ˆ10200yx =-- D .ˆ10200yx =-3.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数2R 变小D .解释变量x 与预报变量y 的相关性变弱4.在线性回归模型中,分别选择了4个不同的模型,它们的相关指数2R 依次为0.36、0.95、0.74、0.81,其中回归效果最好的模型的相关指数2R 为( )A .0.95B .0.81C .0.74D .0.365.已知四个命题:①在回归分析中,2R 可以用来刻画回归效果,2R 的值越大,模型的拟合效果越好; ②在独立性检验中,随机变量2K 的值越大,说明两个分类变量有关系的可能性越大;③在回归方程ˆ0.212yx =+中,当解释变量x 每增加1个单位时,预报变量ˆy平均增加1个单位;④两个随机变量相关性越弱,则相关系数的绝对值越接近于1; 其中真命题是( )A .①④B .②④C .①②D .②③6.某地区植被被破坏,土地沙化越来越严重,最近三年测得沙漠面积增加值分别为0.2万公顷、0.39万公顷和0.78万公顷,则沙漠面积增加数y (万公顷)关于年数x (年)的函数关系较为接近的是( )A .0.2yx= B .20.10.1y x x=+ C .40.2lo g yx=+ D .210xy=7.对于给定的样本点所建立的模型A 和模型B ,它们的残差平方和分别是212,,a a R 的值分别为1b ,2b ,下列说法正确的是( )A .若12a a <,则12b b <,A 的拟合效果更好 B .若12a a <,则12b b <,B 的拟合效果更好 C .若12a a <,则12b b >,A 的拟合效果更好 D .若12a a <,则12b b >,B 的拟合效果更好8.下列结论正确的是( )①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①②B .①②③C .①②④D .①②③④9.某车间加工零件的数量x 与加工时间y 的统计数据如表:现已求得上表数据的回归方程ˆˆˆy bx a =+中的ˆb 值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( )A .84分钟B .94分钟C .102分钟D .112分钟10.两个变量y与x的回归模型中,分别选择了4个不同模型,它们对应的22121()1()ni i i ni i y y Ry y ==-=--∑∑的值如下,其中拟合效果最好的模型是()A .模型1对应的20.48R =B .模型3对应的20.15R =C .模型2对应的20.96R =D .模型4对应的20.30R =11.对于回归分析,下列说法错误的是( )A .在残差图中,纵坐标表示残差B .若散点图中的一组点全部位于直线ˆ32yx =-+的图象上,则相关系数1r =C .若残差平方和越小,则相关指数2R 越大D .在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 12.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )A .总偏差平方和B .残差平方和C .回归平方和D .相关指数二.多选题(共1小题)13.下列有关回归分析的结论中,正确的有()A .运用最小二乘法求得的回归直线一定经过样本点的中心(x ,)yB .若相关系数r 的绝对值越接近于1,则相关性越强C .若相关指数2R 的值越接近于0,表示回归模型的拟合效果越好D .在残差图中,残差点分布的带状区域的宽度越窄,说明模型拟合的精度越高 三.填空题(共4小题)14.某商店统计了最近6个月某商品的进价x 与售价y (单位:元)的对应数据如表:假设得到的关于x 和y 之间的回归直线方程是ˆˆˆy bx a =+,那么该直线必过的定点是 .15.对具有线性相关关系的变量x ,y ,测得一组数据如表:根据上表,利用最小二乘法得它们的回归直线方程为ˆˆ10.5y x a=+,据此模型预测,当10x=时,y 的估计值是16.已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程ˆ 2.10.85y x =+,则m 的值为 .17.对某城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查后知,y 与x 具有线性相关关系,满足回归方程0.6 1.5yx =+,若该城市居民人均消费水平为7.5(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为 . 四.解答题(共3小题)18.某同学在生物研究性学习中想对春季昼夜温差大小与黄豆种子发芽多少之间的关系进行研究,于是他在4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天每100颗种子浸泡后的发芽数,得到如下资料:(1)从这5天中任选2天,记发芽的种子数分别为m ,n ,求事件“m ,n 均不小于25的概率.(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另三天的数据,求出y 关于x 的线性回归方程ˆˆˆybx a =+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?(参考公式:1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-19.随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y(万元)有如下的数据资料:(1)在给出的坐标系中做出散点图;(2)求线性回归方程ˆˆˆybx a =+中的ˆa、ˆb ; (3)估计使用年限为10年时,车的使用总费用是多少?(最小二乘法求线性回归方程系数公式1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-.20.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)画散点图;(2)如果y对x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为89个,那么机器的运转速度应控制在什么范围内?(参考数值:511380 i iix y==∑,521145)iix==∑回归分析精选题20道参考答案与试题解析一.选择题(共12小题)1.设某大学的女生体重y (单位:)k g 与身高x (单位:)cm 具有线性相关关系,根据一组样本数据(i x ,)(1i y i=,2,⋯,)n ,用最小二乘法建立的回归方程为ˆ0.8585.71y x =-,则下列结论中不正确的是()A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,)yC .若该大学某女生身高增加1c m ,则其体重约增加0.85k gD .若该大学某女生身高为170c m ,则可断定其体重必为58.79k g【分析】根据回归方程为ˆ0.8585.71yx =-,0.85>,可知A ,B ,C 均正确,对于D 回归方程只能进行预测,但不可断定. 【解答】解:对于A ,0.85>,所以y 与x 具有正的线性相关关系,故正确;对于B ,回归直线过样本点的中心(x ,)y ,故正确;对于C ,回归方程为ˆ0.8585.71yx =-,∴该大学某女生身高增加1c m ,则其体重约增加0.85k g,故正确;对于D ,170xc m=时,ˆ0.8517085.7158.79y =⨯-=,但这是预测值,不可断定其体重为58.79k g,故不正确故选:D .【点评】本题考查线性回归方程,考查学生对线性回归方程的理解,属于中档题. 2.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是()A .ˆ10200yx =-+ B .ˆ10200yx =+ C .ˆ10200yx =-- D .ˆ10200yx =-【分析】本题考查的知识点是回归分析的基本概念,根据某商品销售量y (件)与销售价格x(元/件)负相关,故回归系数应为负,再结合实际进行分析,即可得到答案.【解答】解:由x 与y 负相关, 可排除B 、D 两项,而C 项中的ˆ102000yx =--<不符合题意.故选:A .【点评】两个相关变量之间的关系为正相关关系,则他们的回归直线方程中回归系数为正;两个相关变量之间的关系为负相关关系,则他们的回归直线方程中回归系数为负.3.有一散点图如图所示,在5个(,)D后,下列说法正确的是()x y数据中去掉(3,10)A.残差平方和变小B.相关系数r变小C.相关指数2R变小D.解释变量x与预报变量y的相关性变弱【分析】利用散点图分析数据,判断相关系数,相关指数,残差的平方和,的变化情况.【解答】解:从散点图可分析得出:只有D点偏离直线远,去掉D点,变量x与变量y的线性相关性变强,相关系数变大,相关指数变大,残差的平方和变小,故选:A.【点评】本题考查了利用散点图分析数据,判断变量的相关性问题,属于运用图形解决问题的能力,属于容易出错的题目.4.在线性回归模型中,分别选择了4个不同的模型,它们的相关指数2R依次为0.36、0.95、0.74、0.81,其中回归效果最好的模型的相关指数2R为()A.0.95B.0.81C.0.74D.0.36【分析】根据两个变量y与x的回归模型中,它们的相关指数2R越接近于1,这个模型的拟合效果就越好,由此选出选项中的答案.【解答】解:两个变量y与x的回归模型中,它们的相关指数2R越接近于1,这个模型的拟合效果就越好,在所给的四个选项中0.95是相关指数最大的值,∴其拟合效果也最好.故选:A.【点评】本题考查了相关指数,这里不用求相关指数,而是根据所给的相关指数判断模型的拟合效果,解题的关键是理解相关指数越大拟合效果越好.5.已知四个命题:①在回归分析中,2R可以用来刻画回归效果,2R的值越大,模型的拟合效果越好;②在独立性检验中,随机变量2K的值越大,说明两个分类变量有关系的可能性越大;③在回归方程ˆ0.212y x=+中,当解释变量x每增加1个单位时,预报变量ˆy平均增加1个单位;④两个随机变量相关性越弱,则相关系数的绝对值越接近于1;其中真命题是()A.①④B.②④C.①②D.②③【分析】对4个选项分别进行判断,即可得出结论.【解答】解:①相关指数2R是用来刻画回归效果的,2R表示解释变量对预报变量的贡献率,2R越接近于1,表示解释变量和预报变量的线性相关关系越强,越趋近0,关系越弱,故2R的值越大,说明回归模型的拟合效果越好,故①正确.②由2K的计算公式可知,对分类变量X与Y的随机变量2K的观测值k来说,k越小,判断“X与Y有关系”的把握越小,随机变量2K的值越大,说明两个分类变量有关系的可能性越大,故②正确;③在回归直线方程ˆ0.212=+中,当解释变量x每增加一个单位时,预报变量ˆy平均增加y x0.2个单位,故③错误.④两个随机变量相关性越强,则相关系数的绝对值越接近于1;两个随机变量相关性越弱,则相关系数的绝对值越接近于0,故④不正确.故选:C.【点评】本题以命题的真假判断为载体,考查了抽样方法,相关系数,回归分析,独立性检验等知识点,难度不大,属于基础题.6.某地区植被被破坏,土地沙化越来越严重,最近三年测得沙漠面积增加值分别为0.2万公顷、0.39万公顷和0.78万公顷,则沙漠面积增加数y (万公顷)关于年数x (年)的函数关系较为接近的是( )A .0.2yx= B .20.10.1y x x=+ C .40.2lo g yx=+D .210xy=【分析】将(1,0.2),(2,0.39),(3,0.78)分别代入0.2y x=,20.10.1yx x=+,40.2lo g yx=+和210xy=中,验证即可.【解答】解:将(1,0.2),(2,0.39),(3,0.78)代入0.2y x=,当3x=时,0.6y=,和0.78相差较大;将(1,0.2),(2,0.39),(3,0.78)代入20.10.1y x x=+,当2x=时,0.6y=,和0.39相差较大;将(1,0.2),(2,0.39),(3,0.78)代入40.2lo g y x=+,当2x=时,0.7y=,和0.39相差较大;将(1,0.2),(2,0.39),(3,0.78)代入210xy =,当1x =时,0.2y =,当2x =时,0.4y =,与0.39相差0.01, 当3x=时,0.8y=,和0.78相差0.02;综合以上分析,选用函数关系210xy =较为近似.故选:D .【点评】本题考查了函数模型的应用问题,也考查了运算求解能力,是基础题.7.对于给定的样本点所建立的模型A 和模型B ,它们的残差平方和分别是212,,a a R 的值分别为1b ,2b ,下列说法正确的是( )A .若12a a <,则12b b <,A 的拟合效果更好 B .若12a a <,则12b b <,B 的拟合效果更好 C .若12a a <,则12b b >,A 的拟合效果更好D .若12a a <,则12b b >,B 的拟合效果更好【分析】比较两个模型的拟合效果时,如果模型残差平方和越小,则相应的相关指数2R 越大,该模型拟合的效果越好,即可得出结论.【解答】解:比较两个模型的拟合效果时,如果模型残差平方和越小, 则相应的相关指数2R 越大,该模型拟合的效果越好. 故选:C .【点评】本题是基础题.考查残差平方和、相关指数. 8.下列结论正确的是()①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①②B .①②③C .①②④D .①②③④【分析】本题是一个对概念进行考查的内容,根据相关关系的定义与回归分析的统计意义进行判断.【解答】解:①函数关系是一种确定性关系,这是一个正确的结论. ②相关关系是一种非确定性关系,是一个正确的结论.③回归分析是对具有相关关系的两个变量进行统计分析的一种方法,所以③不对. 与③对比,依据定义知④是正确的, 故选:C .【点评】本题的考点是相关关系,对本题的正确判断需要对相关概念的熟练掌握. 9.某车间加工零件的数量x 与加工时间y 的统计数据如表:现已求得上表数据的回归方程ˆˆˆy bx a =+中的ˆb 值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为( )A .84分钟B .94分钟C .102分钟D .112分钟【分析】根据表中所给的数据,做出横标和纵标的平均数,得到样本中心点,代入样本中心点求出a 的值,写出线性回归方程.将100x=代入回归直线方程,得y ,可以预测加工100个零件需要102分钟,这是一个预报值,不是生产100个零件的准确的时间数. 【解答】解:由表中数据得:20x =,30y=,又ˆb 值为0.9,故300.92012a=-⨯=,0.912y x ∴=+.将100x=代入回归直线方程,得0.910012102y =⨯+=(分钟).∴预测加工100个零件需要102分钟.故选:C .【点评】本题考查线性回归方程的求法和应用,解题的关键是正确应用最小二乘法求出线性回归方程的系数的运算,再一点就是代入样本中心点可以求出字母a 的值,是一个中档题目. 10.两个变量y与x的回归模型中,分别选择了4个不同模型,它们对应的22121()1()ni i i ni i y y Ry y ==-=--∑∑的值如下,其中拟合效果最好的模型是()A .模型1对应的20.48R =B .模型3对应的20.15R =C .模型2对应的20.96R =D .模型4对应的20.30R =【分析】根据回归分析中相关指数2R 越接近于1,拟合效果越好,即可得出答案. 【解答】解:回归分析中,相关指数2R 越接近于1,拟合效果越好; 越接近0,拟合效果越差,由模型2对应的2R 最大,其拟合效果最好. 故选:C .【点评】本题考查了利用相关指数判断模型拟合效果的应用问题,是基础题. 11.对于回归分析,下列说法错误的是( )A .在残差图中,纵坐标表示残差B .若散点图中的一组点全部位于直线ˆ32y x =-+的图象上,则相关系数1r =C .若残差平方和越小,则相关指数2R 越大D .在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 【分析】根据题意,对选项种的命题分析判断正误即可.【解答】解:对于A ,在残差图中,纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,所以A 正确;对于B,散点图中的一组点全部位于直线ˆ32=-+的图象上,则x,y成负相关,且相关y x关系最强,此时相关系数1r=-,所以B错误;对于C,若残差平方和越小,则残差点分布的带状区域的宽度越窄,其相关性越强,相关指数2R越大,所以C正确;对于D,回归分析中,变量间的关系若是非确定关系,即变量间的关系不是函数关系,因变量不能由自变量唯一确定,所以D正确.故选:B.【点评】本题考查了统计知识的概念与应用问题,掌握相关概念的含义是解题的关键,是基础题.12.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是() A.总偏差平方和B.残差平方和C.回归平方和D.相关指数【分析】本题考查的回归分析的基本概念,根据拟合效果好坏的判断方法我们可得,数据点和它在回归直线上相应位置的差异是通过残差的平方和来体现的.【解答】解:拟合效果好坏的是由残差的平方和来体现的,而拟合效果即数据点和它在回归直线上相应位置的差异故据点和它在回归直线上相应位置的差异是通过残差的平方和来体现的.故选:B.【点评】拟合效果好坏的是由残差的平方和来体现的,也可以理解为拟合效果即数据点和它在回归直线上相应位置的差异,故据点和它在回归直线上相应位置的差异是通过残差的平方和来体现的.二.多选题(共1小题)13.下列有关回归分析的结论中,正确的有()A.运用最小二乘法求得的回归直线一定经过样本点的中心(x,)yB.若相关系数r的绝对值越接近于1,则相关性越强C.若相关指数2R的值越接近于0,表示回归模型的拟合效果越好D.在残差图中,残差点分布的带状区域的宽度越窄,说明模型拟合的精度越高【分析】利用回归分析中的相关知识对四个选项逐一分析判断即可.【解答】解:对于A,回归方程必定经过样本中心(x,)y,故选项A正确;对于B,由相关系数的意义可知,相关系数r的绝对值越接近于1,则相关性越强,故选项B正确;对于C ,若相关指数2R 的值越接近于1,表示回归模型的拟合效果越好,故选项C 错误; 对于D ,在残差图中,残差点分布的带状区域的宽度越窄,说明模型拟合的精度越高,故选项D 正确. 故选:A B D .【点评】本题考查了回归分析的理解,主要考查了回归方程的性质,相关系数的意义等,属于基础题.三.填空题(共4小题)14.某商店统计了最近6个月某商品的进价x 与售价y (单位:元)的对应数据如表:假设得到的关于x 和y 之间的回归直线方程是ˆˆˆy bx a =+,那么该直线必过的定点是13(2,8).【分析】根据回归方程必过点(,)x y ,计算出,x y 即可求得答案. 【解答】解:35289121362x+++++==,4639121486y+++++==,回归方程必过点(,)x y ,∴该直线必过的定点是13(2,8).故答案为:13(2,8).【点评】本题考查了回归方程,线性回归方程必过样本中心点(,)x y ,这是线性回归中最常考的知识点,希望大家熟练掌握.属于基础题.15.对具有线性相关关系的变量x ,y ,测得一组数据如表:根据上表,利用最小二乘法得它们的回归直线方程为ˆˆ10.5y x a=+,据此模型预测,当10x=时,y 的估计值是 106.5【分析】根据表中数据计算x 、y ,代入回归直线方程求得ˆa的值, 写出回归直线方程,利用方程求出10x =时ˆy的值即可. 【解答】解:根据表中数据,计算1(24568)55x=⨯++++=,1(2040607080)545y =⨯++++=,代入回归直线方程ˆˆ10.5y x a=+中,求得ˆ5410.55 1.5a =-⨯=,∴回归直线方程为ˆ10.5 1.5yx =+,据此模型预测,10x=时,ˆ10.510 1.5106.5y=⨯+=,即y 的估计值是106.5. 故答案为:106.5.【点评】本题考查了线性回归方程的应用问题,是基础题. 16.已知x 与y 之间的一组数据:已求得关于y 与x 的线性回归方程ˆ 2.10.85y x =+,则m 的值为 0.5 .【分析】首先求出这组数据的横标和纵标的平均数,写出这组数据的样本中心点,把样本中心点代入线性回归方程求出m 的值. 【解答】解:0123342x +++==,3 5.5715.544m m y++++==,∴这组数据的样本中心点是3(2,15.5)4m +, 关于y 与x 的线性回归方程ˆ 2.10.85y x =+,∴15.532.10.8542m +=⨯+,解得0.5m =,m∴的值为0.5.故答案为:0.5.【点评】本题考查回归分析,考查样本中心点满足回归直线的方程,考查求一组数据的平均数,是一个运算量比较小的题目,并且题目所用的原理不复杂,是一个好题.17.对某城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查后知,y 与x 具有线性相关关系,满足回归方程0.6 1.5yx =+,若该城市居民人均消费水平为7.5(千元),则可以估计该城市人均消费额占人均工资收入的百分比约为 75%.【分析】根据y 与x 具有线性相关关系,且满足回归方程,和该城市居民人均消费水平为,把消费水平的值代入线性回归方程,可以估计该市的职工均工资水平,做出人均消费额占人均工资收入的百分比. 【解答】解:y与x 具有线性相关关系,满足回归方程0.6 1.5yx =+,该城市居民人均消费水平为7.5y=,∴可以估计该市的职工均工资水平7.50.6 1.5x =+,10x ∴=,∴可以估计该城市人均消费额占人均工资收入的百分比约为7.5100%75%10⨯=,故答案为:75%【点评】本题考查线性回归方程的应用,考查用线性回归方程估计方程中的一个变量,利用线性回归的知识点解决实际问题. 四.解答题(共3小题)18.某同学在生物研究性学习中想对春季昼夜温差大小与黄豆种子发芽多少之间的关系进行研究,于是他在4月份的30天中随机挑选了5天进行研究,且分别记录了每天昼夜温差与每天每100颗种子浸泡后的发芽数,得到如下资料:(1)从这5天中任选2天,记发芽的种子数分别为m ,n ,求事件“m ,n 均不小于25的概率.(2)从这5天中任选2天,若选取的是4月1日与4月30日的两组数据,请根据这5天中的另三天的数据,求出y 关于x 的线性回归方程ˆˆˆybx a =+;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?(参考公式:1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-【分析】(1)用数组(,)m n 表示选出2天的发芽情况,用列举法可得m ,n 的所有取值情况,分析可得m ,n 均不小于25的情况数目,由古典概型公式,计算可得答案;(2)根据所给的数据,先做出x ,y 的平均数,即做出本组数据的样本中心点,根据最小二乘法求出线性回归方程的系数,写出线性回归方程.(3)根据估计数据与所选出的检验数据的误差均不超过2颗,就认为得到的线性回归方程是可靠的,根据求得的结果和所给的数据进行比较,得到所求的方程是可靠的.【解答】解:(1)用数组(,)m n 表示选出2天的发芽情况,m,n 的所有取值情况有(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(30,26),共有10个设“m ,n 均不小于25”为事件A ,则包含的基本事件有(25,30),(25,26),(30,26) 所以3()10P A =,故事件A 的概率为310(2)由数据得12,27xy ==,3972x y=,31977i i i x y ==∑,321434i i x ==∑,23432x =由公式,得9779725ˆ4344322b -==-,5ˆ271232a=-⨯=-所以y 关于x 的线性回归方程为5ˆ32yx =-(3)当10x =时,ˆ22y=,|2223|2-<,当8x=时,ˆ17y=,|1716|2-<所以得到的线性回归方程是可靠的.【点评】本题考查回归直线方程的计算与应用,涉及古典概型的计算,是基础题,在计算线性回归方程时计算量较大,注意正确计算.19.随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y(万元)有如下的数据资料:(1)在给出的坐标系中做出散点图;(2)求线性回归方程ˆˆˆybx a =+中的ˆa、ˆb ; (3)估计使用年限为10年时,车的使用总费用是多少?(最小二乘法求线性回归方程系数公式1221ˆni i i ni i x y n x yb x n x==-=-∑∑,ˆˆ)ay bx =-.【分析】(1)利用描点法作出散点图;(2)把数据代入公式,利用最小二乘法求回归方程的系数,可得回归直线方程; (3)把10x=代入回归方程得y 值,即为预报变量.【解答】解:(1)散点图如图,由图知y 与x 间有线性相关关系.(2)4x=,5y=,52190i i x ==∑,51112.3i i i x y ==∑,∴112.354512.3ˆ 1.239054210a-⨯⨯===-⨯;ˆˆ5 1.2340.08a y b x =-=-⨯=.(3)线性回归直线方程是ˆ 1.230.08y x =+,当10x=(年)时,ˆ 1.23100.0812.38y=⨯+=(万元),即估计使用10年时,支出总费用是12.38万元.【点评】本题考查了线性回归直线方程的求法及利用回归方程估计预报变量,解答此类问题的关键是利用公式求回归方程的系数,计算要细心.20.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:(1)画散点图;(2)如果y 对x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为89个,那么机器的运转速度应控制在什么范围内?(参考数值:511380i i i x y ==∑,521145)i i x ==∑【分析】(1)根据表格数据,可得散点图;(2)先求出横标和纵标的平均数,代入求系数b 的公式,利用最小二乘法得到系数,再根据公式求出a 的值,写出线性回归方程,得到结果.(3)允许每小时的产品中有缺点的零件最多为89个,即线性回归方程的预报值不大于89,写出不等式,解关于x 的一次不等式,得到要求的机器允许的转数. 【解答】解:(1)散点图如图;(2)5x =,50y=,511380i i i x y ==∑,521145i i x ==∑∴13805550ˆ 6.5145555b-⨯⨯==-⨯⨯,ˆˆ17.5ay b x =-=∴回归直线方程为:ˆ 6.517.5yx =+;(3)由89y …得6.517.589x+…,解得11x …∴机器的运转速度应控制11转/秒内【点评】本题考查线性回归分析,考查线性回归方程,考查线性回归方程的应用,考查不等式的解法,是一个综合题目.。
应用回归分析 第四章 部分答案
第4章 违背基本假设的情况4.1答:例4.1:截面资料下研究居民家庭的储蓄行为 i 01i Y =+X +ββε其中:Y i 表示第i 个家庭的储蓄额,X i 表示第i 个家庭的可支配收入。
由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi 的方差呈现单调递增型变化。
例4.2:以某一行业的企业为样本建立企业生产函数模型123i i i i i Y =A K L eβββε 被解释变量:产出量Y ,解释变量:资本K 、劳动L 、技术A ,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。
这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
4.2答:回归模型一旦出现异方差性,如果仍采用OLS 估计模型参数,会产生下列不良后果:1、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数OLS 估计值的变异程度增大,从而造成对Y 的预测误差变大,降低预测精度,预测功能失效。
4.3答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。
其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。
在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。
由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。
所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。
这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:20111110122222ˆˆ()()()ˆ()ˆ1=1()1Ni i ii Niiwi w i wNiwi w w w w i i ii i Q w y x w x xy y x xy x w k kx x βββββσσ===----=-=-===∑∑∑2i (kx ) 因为比例系数在参数估计中可以消去4.4答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。
回归分析习题及答案
回归分析习题及答案回归分析习题及答案回归分析是统计学中一种常用的分析方法,用于研究变量之间的关系。
它可以帮助我们了解变量之间的相关性,并预测未来的趋势。
在本文中,我们将提供一些回归分析的习题及其详细解答,帮助读者更好地理解和应用这一方法。
习题一:某公司想要了解其销售额与广告投入之间的关系。
公司收集了过去12个月的数据,包括每个月的广告投入(单位:万元)和当月的销售额(单位:万元)。
请利用这些数据进行回归分析,并给出相关的统计结果。
解答一:首先,我们需要将数据导入统计软件,比如SPSS或Excel。
然后,我们可以使用线性回归模型来分析销售额与广告投入之间的关系。
在SPSS中,可以选择“回归”分析,将销售额作为因变量,广告投入作为自变量,进行线性回归分析。
回归分析的结果包括回归方程、相关系数、显著性检验等。
回归方程可以用来描述销售额与广告投入之间的关系。
相关系数可以告诉我们这两个变量之间的相关程度,取值范围为-1到1,越接近1表示相关性越强。
显著性检验可以告诉我们回归方程是否显著,即广告投入是否对销售额有显著影响。
习题二:某研究人员想要了解学生的考试成绩与他们的学习时间之间的关系。
研究人员随机选择了100名学生,记录了他们的学习时间(单位:小时)和考试成绩(百分制)。
请利用这些数据进行回归分析,并给出相关的统计结果。
解答二:同样地,我们需要将数据导入统计软件,然后进行回归分析。
这次,我们将考试成绩作为因变量,学习时间作为自变量。
除了之前提到的回归方程、相关系数和显著性检验之外,我们还可以通过回归分析的结果来进行预测。
例如,我们可以利用回归方程来预测一个学生在给定学习时间下的考试成绩。
习题三:某研究人员想要了解一个人的身高与体重之间的关系。
研究人员随机选择了200名成年人,记录了他们的身高(单位:厘米)和体重(单位:千克)。
请利用这些数据进行回归分析,并给出相关的统计结果。
解答三:同样地,我们将数据导入统计软件,然后进行回归分析。
回归分析大作业
用回归方法分析浙江省地区生产总值1 引言:地区生产总值是指本地区所有常住单位在一定时期内生产活动的最终成果。
地区生产总值等于各产业增加值之和。
分析地区生产总值时,一般考虑其可能的影响因素,包括有第一产业、第二产业、工业、建筑业、金融业、户籍人口等。
对于一个预测量,建立若干个都能通过检验的模型是可能的,这就需要根据实际情况进行挑选。
在线形回归模型的建立和应用的过程中,选择合适的自变量是十分重要的。
如果从数学上来说,对于一个有n-1个自变量的线形回归问题,其可能的回归模型为2n-1-1 ,若对这么多的回归模型逐一进行分析、检验其所包含的自变量是否显著且无遗漏,是很不容易的。
从方法上而言,有“全部比较法”、“只出不进法”、“只进不出法”及“逐步回归法”。
在这些方法中,逐步回归法是最为重要也是应用最为广泛的一种。
逐步回归分析的基本思想是,先对全部自变量按其对因变量的影响程度大小进行排队,从大到小变量一个一个引入,引入变量的条件是其偏回归平方和经检验是显著的。
同时,每引入一个新变量,为保证所得的自变量子集中的每个变量都是显著的,随时进行检查,及时将由于引入新自变量而变得不显著者剔除[1]。
此过程经过若干步直到不能再引入新变量为止。
所以,利用逐步回归法所得到的回归方程中的所有自变量对因变量都是显著的,而不在回归方程中的变量对因变量都是检验不显著的。
由此可见,逐步回归方法选择变量的过程包含两个基本步骤:一是从回归方程中剔除经检验不显著的自变量;二是引入新的自变量到回归方程中。
2 数据的采集与模型的建立2.1解决方法与模型建立影响地区生产总值的可能因素有:第一产业、第二产业、工业、建筑业、金融业、户籍人口等。
因而本次选取了这6个影响财政收入的变量,利用逐步回归的方法建立浙江地区生产总值的回归模型。
多元线性回归模型一般形式:Y=β0+β1X1+β2X2+…+βkXk+ε其中,X1,X2,……,Xk代表影响因素,通常是可以控制或预先给定的,称为解释变量或自变量;Y是所研究的对象,即预测目标,称为被解释变量或因变量;ε代表各种随机因素对y的影响的总和,称为随机误差项[2],且服从正态分布,即ε~N(0,σ2);βi称为多元线性回归模型的回归系数;k为多元线性回归模型中解释变量的个数。
应用回归分析证明题及答案
应用回归分析证明题及答案第一篇:应用回归分析证明题及答案应用回归分析证明题及答案nn一.证明残差满足的约束条件:∑ei=0,∑xiei=0。
i=1i=1证明:由偏导方程即得该结论:∂Q=-2nˆ0β0=βˆ0∑(yi=1i-β0-βˆ1xi)=0∂Q=-2n(y-βˆ-βˆx)x1β1=βˆ1∑i=1i01ii=0证毕.二.证明平方和分解式:SST=SSR+SSE。
证明:nSST=∑(y2n(yˆ2i-)=∑i-yi+yˆi-)i=1i=1nˆ2nn=∑(yi-)+i=1∑(yi-yˆi)2+2i=1∑(yi-yˆi)(yˆi-)i=1上式第三项=2⎛n ⎝∑eiyˆn⎫ni-∑ei⎪=2∑ei(βˆ0+βˆ1xi)-0i=1i=1⎭i=1n=2⎛⎝βˆ0∑ei+βˆn1xe⎫i=1∑iii=1⎪⎭=0nˆn即SST=∑(y2i-)+i=1∑(yi-yˆi)i=1=SSR+SSE证毕.三.证明三种检验的关系:(1)SSR/1βˆ2L;(2)F=SSE/(n-2)=1xxσˆ2=t2证明:由于r=L=ˆ=SSR =⎡⎣β2=r2SST,σˆ2=e2in-2=SST-SSRn-2所以t==;F=SSR/1SSE/(n-2)=βˆ21Lxxσˆ2.证毕.)=⎡⎢1(x2四.证明:Var(ei-)⎤i⎢1-σ2 。
⎣n-(x)2⎥i-⎦⎥证明:由于ei=yi-yˆi=yi-(βˆ0+βˆ1xi)=yi--βˆ1(xi-)=y1ni-(xi-)yin∑yi-(xi-)i=1Lxx于是Var(e⎡1ni)=Var⎢y⎣i-n∑yi-(xi-)yi(xi-)⎤⎥i=1Lxx⎦=Var(y)+1⎛n⎫⎡(xi-)yi⎤in2Var ⎝∑yi⎪+Var⎢(xi-)⎥i=1⎭⎣Lxx⎦-2Cov⎡⎡⎢⎣y1n⎤(xi-)yi⎤i,n∑yii=1⎥⎦-2Cov⎢y⎣i,L(xi-)⎥xx⎦+2Cov⎡⎢1n(xi-)yi(x⎣n∑yi,i=1Li-)⎤⎥xx⎦=σ2+1(x22i-)2nσ+(xi-)2212Lσ-2σ-2σxxnLxx=⎡⎢1⎣1-n-(xi-)2⎤L⎥σ2xx⎦证毕.五.证明:在一元回归中,Cov(βˆ0,βˆ1)=-Lσ2。
回归分析应用实例讲解
影响成品钢材量的多元回归分析故当原油产量为16225.86万吨,生铁产量为12044.54万吨,原煤产量为13.87万吨以及发电量为12334.89亿千瓦时时,成品钢材量预测值为10727.33875万吨;当原油产量为17453万吨,生铁产量为12445.96万吨,原煤产量为14.54万吨以及发电量为13457亿千瓦时时,成品钢材量预测值为10727.33875万吨。
钢材的需求量设为y,作为被解释变量,而原油产量治、生铁产量X2、原煤产量X3、发电量X4作为解释变量,通过建立这些经济变量的线性模型来研究影响成品钢材需求量的原因。
能源转换技术等因素。
在此,收集的数据选择与其相关的四个因素:原油产量、生铁产量、原煤产量、发电量,1980—1997的有关数据如下表。
理论上成品钢材的需求量的影响因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、原始数据(中国统计年鉴)将中国成品模型的设定设因变量y与自变量X i、X2、X3、X4的一般线性回归模型为y = -0 + i X i 2X2 3X3 4X4 ;;是随机变量,通常满足;;Var()= -2二参数估计aa.因变量成品钢材(万吨)再用spss做回归线性,根据系数表得出回归方程为:y =1 70.2 87 O X 0 4 1 X°「554 X 1 7.8 *8 0.389 再做回归预测,得出如下截图:y 1x1| x4 |PRE」RES 12716 2010595.003802.40 6.203006.2D2899.08766-182.887662670.1010122.003416.60 6.203092.702738.53110-68.431102902 0010212 003551.00B6G3277.002372.8151429.104063072.0010E07 00373BOO7 153514 003O43.G244328.375573372.0011461.304001.007.893770003240 51584131.484163693.0012489.504384.008.7241107.003526.63541166.364594050.0013068.805064.008.944495.004026.5661931.433814356.0013414 005503 009 284973004435.52677-79.526774689.0013704 605704.009 805452.004712.05819-23.058194859.0013754.105820 0010545848 004914.01371-56.013716163.0013330.606238.0010.806212.005280.70360-127.703605635.0014009.206765.0010.076775.005703.19465■145.194656697.00114209.707589 0011.167539 00G623.64790173.352107716.0014523.008739 0011.518395007474.80431241 195698482 0014608.209741.0012.409281.008355 43425126.565758979.8015004.9410529.2713.6110070.309061.44200-81.64200933S0215733,3910722.5013.9710813.109421 11147-83.091479978,9316074.141151141137311355.5310069.53741-30.6074116225 8612044.54138712334 8910727.33875--17453.0012445.9614.5413457.0011323.87164故当原油产量为16225.86万吨,生铁产量为12044.54万吨,原煤产量为13.87万吨以及发电量为12334.89亿千瓦时时,成品钢材量预测值为10727.33875万吨;当原油产量为17453万吨,生铁产量为12445.96万吨,原煤产量为14.54万吨以及发电量为13457亿千瓦时时,成品钢材量预测值为10727.33875万吨。
回归分析典型例题
下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 参考数据:646.27,55.0)(,17.40,32.97127171≈=-==∑∑∑===i ii ii i iy y yt y参考公式:相关系数:.)()())((11221∑∑∑===----=ni ni iini i iy yt ty y t tr回归方程中斜率和截距的最小二乘估计公式:.ˆˆ,)())((ˆ121t b y at ty y t tbni ini i i-=---=∑∑==某互联网公司为了确定下一季的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:月份 1 2 3 4 5 6 广告投入量 2 4 6 8 10 12 收益14.2120.3131.831.1837.8344.67他们分别用两种模型① y =bx +a ,② y =a e bx 分别进行拟合,得到相应回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值。
xy∑=61i ii yx∑=612i ix730 1464.24 364(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除: (i )剔除异常数据后求出(1)中所选模型的回归方程; (ii )若广告投入量x =18时,该模型收益的预报值时多少?附:对于一组数据(x 1 , y 1),(x 2 , y 2), … ,(x n , y n ),其回归直线a x b yˆˆˆ+=的斜率和截距的最小二乘估计分别为:.ˆˆ,)())((ˆ1221121x b y a x n xyx n yx x xy y x xbni ini i i ni ini i i-=--=---=∑∑∑∑====某公司为确定下一年度投人某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响. 对近8年的年宣传费x i 和年销售量y i (i =1,2,..,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑=-812)(i ix x∑=-812)(i iw w∑=--81))((i i iy y x x∑=--81))((i iiy yw w46.6 563 6.8289.8 1.61469108.8其中:i i x w =,.8181∑==i iw w(1)根据散点图判断,bx a y +=与x d c y +=哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3) 已知这种产品的年利润z 与y x ,的关系为x y z -=2.0.根据(2)的结果回答下列问题: (i)年宣传费49=x 时,年销售量及年利润的预报值是多少? (ii)年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据),(,,),(,),(2211n n v u v u v u ,其回归直线u v βα+=的斜率和截距的最小二乘估计分别为.ˆ,)())((ˆ121u v u uv v u uni ini i iβαβ-=---=∑∑==为了预测2018年双十一购物狂欢节成交额,建立了y 与时间变量t 的两个回归模型。
数学建模-回归分析例题
10.4.2 银行是否批准抵押贷款申请?
有一对夫妇用所拥有的一套面积为1800 平方尺、每年房屋税为1500美元且配有游泳 池的住房 ,向杰弗逊山谷银行提出抵押19万 美元的申请 ,该银行搜集的房屋销售资料如 下 ,试以此判断该银行能否接受这对夫妇的 申请?
居住面积 15 38 23 16 16 13 20 24 19 21 17
在社会经济现象中,变量与变量之间的关系是错 综复杂的 ,既可以是线性相关关系,又可以是非线性 相关关系。究竟如何来确定变量间是什么关系呢?最 直观的办法就是绘制变量与变量之间的散点图,由图 形进行判断并选择配合适当的预测模型 ,如:直线模 型、二次曲线模型、双曲线模型、S型曲线模型等等, 再利用模型作进一步的统计分析。SPSS 中的曲线配 合过程就实现了这一功能.下面就居民储蓄与居民收 入模型为例作介绍,由1997年《中国统计年鉴》可得 中国城镇居民家庭人均生活费收入(x)和城镇储蓄 (y)两个变量(1984年至1996年)数据如下:
LG:该门课程考试成绩。其取值为1(LG=A) 或 0(LG=B或C)
现分析GAP、PSI、TUCH对LG的影响。
10.4.5 家庭摄录机需求分析
当因变量具有相反的两种属性分类(如买 与不买,合格与不合格)或者因变量被分成几 组在不同竞争压力下产生不同的反应效果,以 上所有情况有一共同要求就是必须掌握全部观 察数及竞争压力的反应效果数据总数,这时可 用Analyze中的Probit回归过程进行分析。
10.4.7 电话线缆销售量分析
本例将采用加权最小平方法来估计多 元线性回归方程中的参数,因此必须确定 一合适的权数,利用Weight Estimation 权数估计过程来做。
下表所示,其中:Y=年销售量(百万线 对英尺),X1=GNP(十亿元),X2=新迁住宅 (千户),X3=失业率(%),X4=半年期最低 利率,X5=话费收益率(%)
线性回归分析法例题
线性回归分析法例题一、单选题1.相关分析研究的是()A、变量间相互关系的紧密程度B、变量之间因果关系C、变量之间严苛的相依关系D、变量之间的线性关系2.若变量X的值减少时,变量Y的值也减少,那么变量X和变量Y之间存有着()。
A、正相关关系B、负相关关系C、直线有关关系D、曲线有关关系3.若变量X的值增加时,变量Y的值随之下降,那么变量X和变量Y之间存在着()。
A、正有关关系B、负相关关系C、直线相关关系D、曲线相关关系4.相关系数等于零说明两变量()。
A.是严格的函数关系B.不存在相关关系C.不存有线性相关关系D.存在曲线线性相关关系5.有关关系的主要特征就是()。
A、某一现象的标志与另外的标志之间的关系是不确定的B、某一现象的标志与另外的`标志之间存有着一定的依存关系,但它们不是确认的关系C、某一现象的标志与另外的标志之间存在着严格的依存关系D、某一现象的标志与另外的标志之间存有着不确认的直线关系6.时间数列自身相关是指()。
A、两变量在相同时间上的依存关系B、两变量静态的依存关系C、一个变量随其时间相同其前后期变量值之间的依存关系D、一个变量的数值与时间之间的依存关系7.如果变量X和变量Y之间的相关系数为负1,表明两个变量之间()。
A、不存在相关关系B、相关程度很低C、有关程度很高D、全然负相关8.若物价上涨,商品的需求量愈小,则物价与商品需求量之间()。
A、并无有关B、存有正有关C、存在负相关D、无法判断是否相关9.有关分析对资料的建议就是()。
A.两变量均为随机的B.两变量均不是随机的C、自变量就是随机的,因变量不是随机的D、自变量不是随机的,因变量是随机的10.重回分析中直观重回就是指()。
A.时间数列自身回归B.两个变量之间的回归C.变量之间的线性重回D.两个变量之间的线性重回11.已知某工厂甲产品产量和生产成本有直线关系,在这条直线上,当产量为时,其生产成本为元,其中不随产量变化的成本为元,则成本总额对产量的回归方程为()A. y=+24xB. y=6+0.24xC. y=+6xD. y=24+x12.直线回归方程中,若回归系数为负,则()A.表明现象正相关B.表明现象负相关C.说明有关程度较弱D.无法表明有关方向和程度二、多项选择题1.以下属有关关系的存有()。
应用回归分析试题(2套)
1、对于一元线性回归01(1,2,...,)i i i y x i n ββε=++=,()0i E ε=,2var()i εσ=,cov(,)0()i j i j εε=≠,下列说法错误的是(A)0β,1β的最小二乘估计0ˆβ,1ˆβ 都是无偏估计; (B)0β,1β的最小二乘估计0ˆβ,1ˆβ对1y ,2y ,...,n y 是线性的;2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换. 如果误差方差与因变量y 的期望成正比,则可通过下列哪种变换将方差常数化 (A) 1y;(C) ln(1)y +;(D)ln y .3、下列说法错误的是(A)强影响点不一定是异常值;(B)在多元回归中,回归系数显著性的t 检验与回归方程显著性的F 检验是等价的; (C)一般情况下,一个定性变量有k 类可能的取值时,需要引入k-1个0-1型自变量; (D)异常值的识别与特定的模型有关.4、下面给出了4个残差图,哪个图形表示误差序列是自相关的应用回归分析试题(一)一、选择题.(每题3分,共15分)(C)0β,1β的最小二乘估计0ˆβ,1ˆβ之间是相关的; (D)若误差服从正态分布,0β,1β的最小二乘估计和极大似然估计是不一样的.(A)(C) (D)5、下列哪个岭迹图表示在某一具体实例中最小二乘估计是适用的(A) (B)(C) (D)二、填空题(每空2分,共20分)1、考虑模型y Xβε=+,2var()nIεσ=,其中:X n p'⨯,秩为p',20σ>不一定已知,则ˆβ=__________________,ˆvar()β=___________,若ε服从正态分布,则22ˆ()n p σσ'-:___________,其中2ˆσ是2σ的无偏估计. 2、下表给出了四变量模型的回归结果:则残差平方和=_________,总的观察值个数=_________,回归平方和的自由度=________. 3、已知因变量y 与自变量1x ,2x ,3x ,4x ,下表给出了所有可能回归模型的AIC 值,则最优子集是_____________________.4、在诊断自相关现象时,若0.66DW =,则误差序列的自相关系数ρ的估计值=_____ ,若存在自相关现象,常用的处理方法有迭代法、_____________、科克伦-奥克特迭代法.5、设因变量y 与自变量x 的观察值分别为12,,...,n y y y 和12,,...,n x x x ,则以*x 为折点的折线模型可表示为_____________________.三、(共45分)研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的线性回归关系.观察数据及残差值i e 、学生化残差i SRE 、删除学生化残差()i SRE 、库克距离i D 、杠杆值ii ch 见表一表一表二 参数估计表已知0.025(6) 2.447t =,0.025(7) 2.365t =,0.05(3,6) 4.76F =,0.05(4,7) 4.12F =,根据上述结果,解答如下问题:1、计算误差方差2σ的无偏估计及判定系数2R .(8分)2、对1x ,2x ,3x 的回归系数进行显著性检验.(显著性水平0.05α=)(12分)3、对回归方程进行显著性检验.(显著性水平0.05α=)(8分)4、诊断数据是否存在异常值,若存在,是关于自变量还是关于因变量的异常值?(10分)5、写出y 关于1x ,2x ,3x 的回归方程,并结合实际对问题作一些基本分析(7分)四、(共8分)某种合金中的主要成分为金属A 与金属B ,研究者经过13次试验,发现这两种金属成分之和x 与膨胀系数y 之间有一定的数量关系,但对这两种金属成分之和x 是否对膨胀系数y 有二次效应没有把握,经计算得y 与x 的回归的残差平方和为3.7,y 与x 、2x 的回归的残差平方和为0.252,试在0.05的显著性水平下检验x 对y 是否有二次效应?(参考数据0.050.05(1,10) 4.96,(2,10) 4.1F F ==)五、(共12分)(1)简单描述一下自变量12,,...,p x x x 之间存在多重共线性的定义;(2分) (2)多重共线性的诊断方法主要有哪两种?(4分) (3)消除多重共线性的方法主要有哪几种?(6分)应用回归分析试题(二)一、选择题 1. 某同学由x 与y 之间的一组数据求得两个变量间的线性回归方程为y bx a =+,已知:数据x 的平均值为2,数据y 的平均值为3,则 ( A )A .回归直线必过点(2,3)B .回归直线一定不过点(2,3)C .点(2,3)在回归直线上方D .点(2,3)在回归直线下方2. 在一次试验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则Y 与X 之间的回归直线方程为( A )A .$yx 1=+B .$y x 2=+C .$y 2x 1=+ D.$yx 1=-3. 在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释; ②收集数据(i x 、i y ),1,2i =,…,n ;③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量,x y 具有线性相关结论,则在下列操作中正确的是( D ) A .①②⑤③④ B .③②④⑤① C .②④③①⑤ D .②⑤④③①4. 下列说法中正确的是(B )A .任何两个变量都具有相关关系B .人的知识与其年龄具有相关关系C .散点图中的各点是分散的没有规律D .根据散点图求得的回归直线方程都是有意义的5. 给出下列结论:(1)在回归分析中,可用指数系数2R 的值判断模型的拟合效果,2R 越大,模型的拟合效果越好; (2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好; (3)在回归分析中,可用相关系数r 的值判断模型的拟合效果,r 越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 以上结论中,正确的有(B )个.A .1B .2C .3D .4 6. 已知直线回归方程为2 1.5y x =-,则变量x 增加一个单位时(C)A.y 平均增加1.5个单位B.y 平均增加2个单位C.y 平均减少1.5个单位D.y 平均减少2个单位7. 下面的各图中,散点图与相关系数r 不符合的是(B )8. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为ˆ7.1973.93yx =+,据此可以预测这个孩子10岁时的身高,则正确的叙述是( D )A .身高一定是145.83cmB .身高超过146.00cmC .身高低于145.00cmD .身高在145.83cm 左右9. 在画两个变量的散点图时,下面哪个叙述是正确的( B )(A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上 (C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上10. 两个变量y 与x 的回归模型中,通常用2R 来刻画回归的效果,则正确的叙述是( D )A. 2R 越小,残差平方和小B. 2R 越大,残差平方和大C. 2R 于残差平方和无关 D. 2R 越小,残差平方和大 11. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( A )A.模型1的相关指数2R 为0.98B.模型2的相关指数2R 为0.80C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.2512. 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( B ) A.总偏差平方和 B.残差平方和 C.回归平方和 D.相关指数R 213.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090y x =+,下列判断正确的是(C ) A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90元14. 下列结论正确的是(C )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A.①② B.①②③C.①②④D.①②③④15. 已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为( C )A.$ 1.234y x =+B.$1.235y x =+ C.$1.230.08y x =+ D.$0.08 1.23y x =+ 二、填空题16. 在比较两个模型的拟合效果时,甲、乙两个模型的相关指数2R 的值分别约为0.96和0.85,则拟合效果好的模型是 甲 . 17. 在回归分析中残差的计算公式为列联表、三维柱形图、二维条形图.18. 线性回归模型y bx a e =++(a 和b 为模型的未知参数)中,e 称为 随机误差 .19. 若一组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满足y i =bx i +a+e i (i=1、2.…n)若e i 恒为0,则R 2为___ e i恒为0,说明随机误差对y i 贡献为0.三、解答题20. 调查某市出租车使用年限x 和该年支出维修费用y (万元),得到数据如下: 使用年限x 2 3 4 56 维修费用y2.23.85.56.57.0(2)由(1)中结论预测第10年所支出的维修费用.(121()()()ni i i ni i x x y y b x x a y bx==⎧-⋅-⎪⎪=⎨-⎪⎪=-⎪⎩∑∑) 20. 解析: (1)列表如下:i1 2 3 4 5 i x2 3 4 5 6 i y 2238556570i i y x441142203254202i x4 91625 364=x , 5=y , 90512=∑=i ix , 3.11251=∑=i i i y x于是23.145905453.112552251251=⨯-⨯⨯-=--=∑∑==xx yx yx b i i i ii , 08.0423.15=⨯-=-=bx y a∴线性回归方程为:08.023.1^+=+=x a bx y (2)当x=10时,38.1208.01023.1^=+⨯=y (万元)即估计使用10年时维修费用是1238万元 回归方程为: 1.230.08y x =+(2) 预计第10年需要支出维修费用12.38 万元.21. 以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为2150m 时的销售价格. (4)求第2个点的残差。
应用回归分析作业例题
数093 刘海婷 200911503025 第一题1.输入变量、数据后,运用spss 软件分析得表得y 关于x1,x2,x3的相关系数矩阵⎪⎪⎪⎭⎫⎝⎛=000.1547.0398.0547.0000.1113.0398.0113.0000.1x 2. y 关于x1,x2,x3的三元线性回归方程可根据下表得y=-384.280+3.754x1+7.101x2+12.447x33.对所求方程做拟合优度检验R^2=0.806 比较接近1,拟合优度较好4. 对回归方程做显著性检验根据表F(3,6)=4.76<8.283,回归方程效果显著,拒绝假设。
05.01.178,t(6)=1.943<2.46505.0故x3未通过显著性检验6.由上题知x3未通过显著性检验,剔除x3重新建立回归方程,再做回归F=11.117>4.76 故回归方程显著t-检验值都大于t=1.943 故回归系数显著.005常量的置信水平为95%的置信区间(-780.060 , 83.500)X1的置信水平为95%的置信区间(-0.977 , 8.485 )X2的置信水平为95%的置信区间(0.053 , 14.149 )X3的置信水平为95%的置信区间(-13.415 , 38.310 )8.求标准化回归方程把各变量转化为标准变量后重新建立回归方程,再做回归方程分析得回归方程y=-4.837E-16+0.385x1+0.53x2+0.277x39.当95%,计算其置信区间。
预测值为270.08966置信水平为95%的置信区间为(206.05895,334.12038)10 做异常值检验。
则异常值为220.00 68.0045.001.50和 -1.220390.50110.第二题1 用普通最小二乘法建立y 对x 的回归方程由表回归方程为y=-1.435+0.176x查表:L d =1.2;U d =1.41 又D-W 值为0.663<L d =1.2由D-W 值和残差图可知序列为正相关。
回归分析方法应用实例
4、回归分析方法应用实例在制定运动员选材标准时,理论上要求先对不同年龄的运动员,各测试一个较大的样本,然后,计算出各年龄的平均数、标准差,再来制定标准。
但是,在实际工作中,有时某些年龄组不能测到较大的样本。
这时能不能使用统计的方法,进行处理呢?我们遇到一个实例。
测得45名11至18岁男田径运动员的立定三级跳远数据。
其各年龄组人数分布如表一。
由于受到许多客观因素的限制,一时无法再扩大样本,因此决定使用统计方法进行处理。
第一步,首先用原始数据做散点图,并通过添加趋势线,看数据的变化趋势是否符合随年龄增长而变化的趋势,决定能否使用回归方程制定标准。
如果趋势线不符合随年龄增长而变化的趋势,或者相关程度很差就不能用了。
本例作出的散点图如图1,图上用一元回归方法添加趋势线,并计算出年龄和立定三级跳远的:一元回归方程:Y=2.5836+0.3392 X相关系数 r=0.7945(P<0.01)由于从趋势线可以看出,立定三级跳远的成绩是随年龄增加而逐渐增加,符合青少年的发育特点。
而且, 相关系数r=0.7945,呈高度相关。
因此,可以认为计算出的一元回归方程,反映了11至18岁男运动员年龄和立定三级跳远成绩的线性关系。
决定用一元回归方程来制定各年龄组的标准。
第二步,用一元回归方程:Y=2.5836+0.3392 X 推算出各年龄的立定三级跳远回归值,作为各年龄组的第2等标准。
第三步,用45人的立定三级跳远数据计算出标准差为:0.8271。
由于在正态分布下,如把平均数作为标准约有50%的人可达到标准,用平均数-0.25标准差制定标准则约有60%的人可达到,用平均数+0.25、+0.52、+0.84标准差制定标准约有40%、30%、20%的人可达到标准。
本例用各年龄组回归值-0.25标准差、+0.25标准差、+0.52标准差、+0.84标准差计算出1至5等标准如表2、图2。
2、应用方差分析方法进行数据统计分析的研究。
Logistic_回归分析作业答案[3页]
第六章 Logistic回归练习题 (操作部分:部分参考答案)1. 下面问题的数据来自“ch6-logistic_exercise”,数据包含受访者的人口学特征、劳动经济特征、流动身份。
数据的变量及其定义如下:变量名变量的定义age 年龄,连续测量degree 受教育程度:1=未上过学;2=小学;3=初中;4=高中;5=大专;6=大学;7=研究生girl 性别:1=女性;0=男性hanzu 民族:1=汉族;0=少数民族hetong 劳动合同:1=固定合同;2=非固定合同;3=无合同income 月收入ldhour 每周劳动时间married 婚姻状态:1=在婚;0=其他(未婚、离异、再婚、丧偶,等)migtype4 流动身份:1=本地市民;2=城-城流动人口;3=乡-城流动人口pid IDss_jobloss 失业保险:1=有;0=无ss_yanglao 养老保险:1=有;1=无这里的研究问题是,流动人口与流入地居民在社会保障、劳动保护和居住环境等方面是否存在显著差别。
流动人口被区分为城-城流动人口(即具有城镇户籍、但离开户籍地半年以上之人)和乡-城流动人口(即具有农村户籍、且离开户籍地半年以上之人)。
因此,样本包含三类人群:本地市民、城-城流动人口、乡-城流动人口及相应特征。
说明:(1)你需要对数据进行一些必要的处理,才能正确回答研究问题;(2)将变量hetong的缺失数据作为一个类别;(3)将degree合并为四类:<=小学,初中、高中、>高中. use "D:\course\integration of theory andmethod\8_ordered\chapter8-logistic_exercise.dta", clear*重新三个社会保障变量. gen ss_jobl=ss_jobloss==1. gen ss_ylao=ss_yanglao==1. gen ss_yili=ss_yiliao ==1*重新code受教育程度. recode degree (1/2=1) (3=2) (4=3)(5/7=4)*将劳动合同的缺失作为一个分类. recode hetong (.=4)请基于该数据,完成以下练习,输出odds ratio的分析结果:其一,运用二分类Logistic模型,探讨流动人口的社会保障机会。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数093 刘海婷 200911503025 第一题
1.输入变量、数据后,运用spss 软件分析得表
得y 关于x1,x2,x3的相关系数矩阵⎪⎪⎪⎭
⎫
⎝
⎛=000.1547
.0398.0547.0000.1113
.0398.0113.0000.1x 2. y 关于x1,x2,x3的三元线性回归方程可根据下表得
y=-384.280+3.754x1+7.101x2+12.447x3
3.对所求方程做拟合优度检验
R^2=0.806 比较接近1,拟合优度较好
4. 对回归方程做显著性检验
根据表
F(3,6)=4.76<8.283,回归方程效果显著,拒绝假设。
05
.0
1.178,
t(6)=1.943<2.465
05
.0
故x3未通过显著性检验
6.由上题知x3未通过显著性检验,剔除x3重新建立回归方程,再做回归
F=11.117>4.76 故回归方程显著
t-检验值都大于
t=1.943 故回归系数显著
.0
05
常量的置信水平为95%的置信区间(-780.060 , 83.500)
X1的置信水平为95%的置信区间(-0.977 , 8.485 )
X2的置信水平为95%的置信区间(0.053 , 14.149 )
X3的置信水平为95%的置信区间(-13.415 , 38.310 )
8.求标准化回归方程
把各变量转化为标准变量后重新建立回归方程,
再做回归方程分析
得回归方程
y=-4.837E-16+0.385x1+0.53x2+0.277x3
9.当95%,计算其置信区间。
预测值为270.08966
置信水平为95%的置信区间为(206.05895,334.12038)
10 做异常值检验。
则异常值为220.00 68.00
45.00
1.50和 -1.22039
0.50110.
第二题
1 用普通最小二乘法建立y 对x 的回归方程
由表
回归方程为y=-1.435+0.176x
查表:L d =1.2;U d =1.41 又D-W 值为0.663<L d =1.2
由D-W 值和残差图可知序列为正相关。
(3) 用迭代法处理序列相关,并建立回归方程 r=1-0.3315=0.6685
查表可知L d =1.18;U d =1.4又D-W 值为1.36故而无法判断是否相关 (4) 用差分法处理序列相关,并建立回归方程
查表可知L d =1.18;U d =1.4又D-W 值为1.48故而不相关 预测模型方程为:+i y =i y +0.033+0.161(1+i x -i x )。