2[1].回归方程复习题
《计量经济学》二元线性回归综合练习题例题
计量经济学综合练习题(二元回归)设某商品的需求量Y(百件)、消费者平均收入X1(百元)、该商品价格X2(元)的统计数据如下:∑Y =800 ∑X1 = 80 ∑X2 = 60 n = 10 ∑X1X2 =439∑Y2 = 67450 ∑X12= 740 ∑X22 = 390 ∑YX1 = 6920 ∑YX2 = 4500经TSP计算,部分结果如下(表一、表二、表三中被解释变量均为Y, n = 10):表一VARIABLE COEFFICIENT STD.ERROR T-STAT 2-TAILSIGC 99. 13. 7. 0.000X1 2. 0. 3. 0.013X2 - 6. 1. - 4. 0.002R-squared 0. Mean of dependent var 80.00000Adjusted R- squared 0. S.D. of dependent var 19.57890S.E of regression 4. Sum of squared resid 174.7915Durbin-Watson stat 1. F – statistics 65.58230表二VARIABLE COEFFICIENT STD.ERROR T-STAT 2-TAILSIGC 38.40000 8. 4. 0.002X1 5. 0. 5. 0.001R-squared 0. Mean of dependent var 80.00000Adjusted R- squared 0. S.D. of dependent var 19.57890S.E of regression 9. Sum of squared resid 746.0000Durbin-Watson stat 1. F – statistics 28.99732表三VARIABLE COEFFICIENT STD.ERROR T-STAT 2-TAILSIGC 140.0000 8. 16. 0.000X2 -10.00000 1. -7. 0.000R-squared 0. Mean of dependent var 80.00000Adjusted R- squared 0. S.D. of dependent var 19.57890S.E of regression 7. Sum of squared resid 450.0000Durbin-Watson stat 0. F – statistics 53.33333要求:完成以下任务,并对结果进行简要的统计意义和经济意义解释(要求列出公式、代入数据及计算结果,计算结果可以从上面直接引用)。
高考数学专题复习:一元线性回归模型及其应用
高考数学专题复习:一元线性回归模型及其应用一、单选题1.下表是某产品1~4月份销量(单位:百件)的一组数据,分析后可知,销量y 与月份)(17x x <<之间有较好的线性相关关系,其线性回归方程是0.6ˆˆ=-+yx a ,则预测5月份的销量是( )A .2B .1.5C .2.5D .1.62.某工厂为节能降耗,经过技术改造后,生产某种产品的产量x (单位:吨)与相应的生产能耗y (单位:吨)的对应数据如下表:根据上表提供的数据,求得y 关于x 的线性回归方程为0.35y bx =+,则b 的值为( ) A .0.3B .0.7C .3D .73.某种产品的投入x (单位:万元)与收入y (单位:万元)之间的关系如表:若已知y 与x 的线性回归方程为 6.517.5y x =+,那么当投入为4万元时,收入的随机误差为( )万元.(随机误差=真实值-预测值)A .-4.5B .4.5C .3.5D .-3.5 4.已知两个变量x 和y 之间的一组数据:则y 关于x 的线性回归方程一定经过点( )A .(3,6)B .(4,6.6)C .(4,7)D .(6,8.5)5.如果发现散点图中所有的样本点都落在一条斜率为非0实数的直线上,则下列说法错误的是( )A .解释变量和预报变量是一次函数关系B .相关指数21R =C .残差平方和为0D .相关系数1r =6.下表是某厂1-4月份用水量(单位:百吨)的一组数据:经分析可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是ˆˆ0.7yx a =-+,则ˆa等于( ) A .5.1B .5.25C .5.3D .5.47.两个变量有线性相关关系且正相关,则回归直线方程中,ˆˆˆybx a =+的系数ˆb ( ) A .ˆ0b > B .ˆ0b < C .ˆ0b = D .ˆ1b=- 8.某单位做了一项统计,了解办公楼用电量y (度)与气温x (C )之间的关系,随机统计了四个工作日用电量与当天平均气温,并制作了对照表: C ) 用电量(度)由表中数据得到回归方程2y x a ∧∧=-+,则当平均气温气温为3-(C )时,预测用电量为( ) A .64度B .66度C .68度D .70度9.某校课题小组为了研究高一学生数学成绩和物理成绩的线性相关关系,在高一第二学期期中考试后随机抽取了5名同学(记为1,2,3,4,5)数学成绩和物理成绩(满分均为100分)如表所示:则y 关于x 的线性回归方程为( )A .1y x =-B .1y x =+ B .C .1382y x =+D .78y =10.已知两个线性相关变量x 与y 的统计数据如下表:由最小二乘法得到的回归直线方程是ˆ0.70.35y x =+,则表中实数m 的值为( ) A .4B .4.5C .4.55D .5.511.某同学为了了解自己的数学成绩与物理成绩的关系,列出了过去五次考试的数学与物理成绩,并作出了对照表:根据上表,利用最小二乘法得到它们的回归方程为 1.8y x a =+,据此模型预测,当该同学的数学成绩为95时,该同学物理成绩的估计值为( ) A .92B .95C .97D .10012.变量x ,y 之间有如下对应数据:已知变量y 对x 呈线性相关关系,且回归方程为ˆˆ1.4yx a =-+,则ˆa 的值是( ) A .3 B .3.5 C .17 D .17.5二、填空题13.具有线性相关关系的变量x ,y ,满足一组数据如表所示:若y 与x 的回归直线方程为3ˆ32yx =-,则m 的值是________. 14.已知关于x ,y 的一组数据:根据表中这五组数据得到的线性回归直线方程为ˆ0.280.16yx =+,则0.28n m -的值为________.15.已知经验回归方程ˆ21yx =-,则该方程在样本(3,4)处的残差为________. 16.对两个变量x ,y 进行回归分析. ①残差的平方和越小,模型的拟合效果越好;②相关系数r 的绝对值接近于0,两个随机变量的线性相关性越强;③在经验回归方程ˆ0.30.8yx =+中,当解释变量x 每增加1个单位时,相应变量y 平均增加0.3个单位;④某人研究儿子身高()cm y 与父亲身高()cm x 的关系,得到经验回归方程ˆ0.83928.957yx =+,当176cm x =时,ˆ177cm y ≈,即:如果一个父亲的身高为176cm ,则儿子的升高一定为177cm . 则以上结论中正确的序号为__________. 三、解答题17.某农场对单位面积化肥用量x (kg )和水稻相应产量Y (kg )的关系作了统计,得到数据如下:如果x 与Y 之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为32kg 时水稻的产量大约是多少?(精确到0.01kg )18.一商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格:其中1i =,2,3,4,5,6,7(参考数据:13245i i i x y ==∑,25x =,15.43y =,215075i i x ==∑)(1)求线性回归方程;(结果保留到小数点后两位)参考公式:1221ˆni ii nii x y nxybxnx==-=-∑∑,ˆay bx =- (2)预测进店人数为80人时,商品销售的件数.(结果保留整数)19.某个体服装店经营某种服装,在某周内每天获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系如下表所示.已知21280ii x ==∑,2145309ii y ==∑,13487i i i x y ==∑.(1)求x ,y ; (2)画出散点图;(3)求纯利y 与每天销售件数x 之间的回归直线方程(结果保留两位小数); (4)若该周内某天销售服装20件,估计可获纯利多少元.(精确到1元)注:1221ni ii nii x y nx yb xnx==-=-∑∑,a y bx =-.20.某公司生产的一款新产品在2021年前5个月的销售情况如下表所示: (1)利用所给数据求月销售额y (万元)和月份x 之间的回归直线方程; (2)利用(1)中所求的方程预测该公司这款产品上半年的总销售额.参考公式:回归直线方程ˆˆˆybx a =+中,1221ˆˆˆ,ni ii nii x y nxyb a y bx xnx ==-==--∑∑,ˆˆa y bx=-. 参考数据:51772i i i x y ==∑,52155i i x ==∑.参考答案1.A 【分析】由数表求出月份x 与销量y 的平均数即得样本点的中心,进而求出ˆa,再经计算而得. 【详解】 由数表得1234 4.543 2.52.5,3.544x y ++++++====, 由此得样本点的中心(2.5,3.5),并且该点在回归直线0.6ˆˆ=-+yx a 上, 则有ˆ3.50.6 2.5a=-⨯+,解得ˆ5a =,即回归直线方程为0.65ˆy x =-+, 当5x =时,0.6552ˆy=-⨯+=, 所以预测5月份的销量是2. 故选:A 2.B【分析】先求出x ,y ,由线性回归方程为0.35y bx =+必过点(),x y 求解即可 【详解】34564.54x +++==, 2.534 4.53.54y +++==,由线性回归方程为0.35y bx =+必过点(),x y , 则3.5 4.50.35b =⨯+,解得0.7b =, 故选:B 3.D【分析】直接利用线性回归方程求出4x =时的估计值,再求误差即可 【详解】取4x =,得 6.517.543.5y x =+=,∴当投入为4万元时,随机误差4043.5 3.5=-=-, 故选:D . 4.B【分析】利用回归直线过样本中心点(),x y 即可求解 【详解】 因为1345745x ++++==,45789 6.65y ++++==, 所以线性回归方程一定经过数据的样本中心(4,6.6). 故选:B . 5.C【分析】根据散点图得这两个变量线性相关,由此可判断各选项. 【详解】样本点都落在一条斜率为非0实数的直线上,这条直线就是回归直线,它们的相关关系是一次函数,相关指数21R =,相关系数r 满足1r =,残差的平方和为0. 故选:C . 6.B【分析】先求出样本中心点(),x y ,将该点的坐标代入回归方程可求得ˆa的值 【详解】 由题意得()()111234 2.5, 4.543 2.5 3.544x y =+++==+++=. ∴样本中心为()2.5,3.5. ∵回归直线过样本中心,∴ˆ3.50.7 2.5a=-⨯+, 解得ˆ 5.25a=. 故选:B . 7.A【分析】直接利用回归直线方程的相关性,通过直线的斜率即可判断 【详解】由回归直线方程的相关性可知, 当ˆ0b>时,回归直线方程是正相关, 当ˆ0b<时,回归直线方程是负相关, 故选:A. 8.B【分析】解出样本中心点,代入回归方程解出a ∧确定回归方程,再将-3代入即可解得. 【详解】 1813101104x ++-==,24343864404y +++==,代入回归方程得:402060a a ∧∧=-+⇒=,∴x =-3时,预测电量为ˆ66y=. 故选:B. 9.C 【分析】根据表格中的数据求得数据的样本中心,结合选项和回归直线必过样本中心,即可求解. 【详解】由表格中的数据,可得7476767678765x ++++==,7575767777765y ++++==, 即数据的样本中心()76,76,因为()76,76满足回归直线方程,结合选项可得1ˆ382y x =+, 即y 关于x 的线性回归方程为:1ˆ382y x =+, 故选:C . 10.B【分析】根据题意,结合回归直线方程一定经过样本中心点(),x y ,即可求解. 【详解】由题意得, 4.5x =,9.54my +=, 因回归直线方程是ˆ0.70.35yx =+,所以回归直线方程是9.50.7 4.50.354m+=⨯+, 计算得 4.5m =. 故选:B. 11.C 【分析】求出样本中心点的坐标,代入回归直线方程,可求得a 的值,然后将95x =代入回归直线方程即可得解. 【详解】由表格中的数据可得8891899092905x ++++==,8286908993885y ++++==,回归直线经过样本点中心()90,88,代入回归直线方程可得1.89088a ⨯+=,可得74a =-,当数学成绩95x =时,物理成绩的估计值为 1.8957497y =⨯-=. 故选:C. 12.D【分析】根据回归方程过点(),x y ,代入回归方程,求ˆa的值. 【详解】5x =,10.5y =,样本中心点)(5,10.5代入回归方程ˆˆ1.4y x a =-+, 得ˆ 1.410.5 1.4517.5ay x =+=+⨯=. 故选:D 13.4【分析】根据题中数据计算变量的平均值,代入方程求解出参数. 【详解】 根据题意,0123311884244m m x y +++-++++====, 代入回归直线方程得:83334422m m +=⨯-∴= 故答案为:4. 14.0.44【分析】根据表格中的数据求得样本中心,把样本中心点代入回归直线方程,即可求解. 【详解】由题意,根据表格中的数据,可得13451355m mx +++++==,0.50.6 1.4 1.5455n n y +++++==,即样本中心为134(,)55m n++, 则4130.280.1655n m ++=⨯+,即40.28(13)0.8n m +=⨯++, 解得0.280.44n m -=. 故答案为:0.44 15.-1【分析】先求出3x =时,y 的值,即得解. 【详解】因为当x =3时,y =2×3-1=5, 所以方程在样本(3,4)处的残差是4-5=-1. 故答案为:1- 16.①③【分析】根据残差和相关系数的意义判定①②;根据线性回归方程的意义判定③④. 【详解】根据残差的定义,可知①正确;相关系数绝对值越接近于1,线性相关性越强,故②错误;由回归方程的意义,根据回归方程的解释变量的系数为0.3, 变量y 平均增加0.3个单位, 故③正确;回归方程是表示一种统计规律,具有随机的不确定性,不能说一定是,故④错误; 故答案为:①③.17. 4.75256.79Y x =+,408.79kg .【分析】作出散点图,可知x 与Y 之间具有线性相关关系,然后根据表中的数据结合公式求出回归直线方程,再把32x =代入回归方程可求得答案【详解】由于问题中要求根据单位面积化肥用量预报水稻相应的产量,因此选取单位面积的化肥用量为解释变量,相应水稻的产量为预报变量,作散点图:由图容易看出,x 与Y 之间有近似的线性关系,或者说,可以用一个回归直线方程Y bx a =+来反映这种关系,由计算器求得ˆ 4.75b≈、2579ˆ 6.a ≈, Y 对x 的回归直线方程为,把32x =代入,得 4.7532256.79408.79Y =⨯+=.计算结果表示,当单位面积化肥用量为32kg 时水稻的产量大约是408.79kg .18.(1)ˆ0.78 4.07y x =-;(2)58件.【分析】(1)根据已知数据求出回归方程的系数,得回归方程;(2)80x =代入回归方程计算可预测值.【详解】(1)由题意1221ˆn i ii n i i x y nxy b xnx ==-=-∑∑2324572515.430.785075725-⨯⨯=≈-⨯, ˆ15.430.7825 4.07ay bx =-=-⨯=, 所以线性回归方程是ˆ0.78 4.07yx =-; (2)在(1)的方程中令80x =,则0.7880 4.0758.3358y =⨯-=≈.19.(1)6x =,5597y =;(2)作图见解析;(3) 4.7551.36y x =+;(4)146元. 【分析】(1)由表格数据计算平均值即可;(2)坐标系中将表格数据作为点坐标,描点即可;(3)利用最小二乘法公式求回归方程系数,写出回归直线方程;(4)由(3)所得回归方程估计周内某天销售服装20件的获利值.【详解】(1)345678967x ++++++==,6669738189909155977y ++++++==; (2)散点图如图所示.(3)由散点图知y 与x 具有线性相关关系,设回归直线方程为y bx a =+. ∵721280i i x ==∑,72145309i i y ==∑,713487i i i x y ==∑,6x =,5597y =,∴25593487761337 4.752807628b -⨯⨯===-⨯,5596 4.7551.367a =-⨯≈, ∴回归直线方程为 4.7551.36y x =+;(4)当20x 时, 4.752051.36146y =⨯+≈.∴该周内某天的销售量为20件时,估计这天可获纯利146元.20.(1)ˆ14.8 2.8y x =-;(2)294(万元).【分析】(1)首先求,x y ,根据参考公式,结合数据,求ˆb ,ˆa ,即可求得回归直线方程;(2)代入6x =,即可得到上半年的总销售额的预报值.【详解】解析(1)依题意,()11234535x =++++=,1(1625375575)41.65y =++++=. 故27725341.6ˆ14.85553b -⨯⨯==-⨯,ˆˆ41.614.83 2.8a y bx =-=-⨯=-,故月销售额y (万元)和月份x 之间的回归直线方程为ˆ14.8 2.8yx =-. (2)当6x =时,代入回归方程中得ˆ86y=(万元).因此可预测上半年的总销售额为162537557586294+++++=(万元).。
高二线性回归方程试题及答案
回归直线方程1、某公司为了解广告投入对销售收益的影响,在若干地区各投入万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从开始计数的. [附:回归直线的斜率和截距的最小二乘估计公式分别为.] (1)根据频率分布直方图计算图中各小长方形的宽度;(2)试估计该公司投入万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入(单位:万元) 1 2 3 4 5 销售收益(单位:万元)2 3 27由表中的数据显示,与之间存在着线性相关关系,请将(2)的结果填入空白栏,并求出关于的回归直线方程.401221ˆˆˆ,ni ii nii x y nx ybay bx xnx ==-==--∑∑4x y x y y x2、某校在规划课程设置方案的调研中,随机抽取160名理科学生,想调查男生、女生对“坐标系与参数方程”与“不等式选讲”这两道题的选择倾向性,调研中发现选择“坐标系与参数方程”的男生人数与选择“不等式选讲”的总人数相等,且选择“坐标系与参数方程”的女生人数比选择“不等式选讲”的女生人数多25人,根据调()完成列联表,并判断在犯错误的概率不超过的前提下,能否认为选题与性 别有关.(Ⅰ)按照分层抽样的方法,从选择“坐标系与参数方程”与选择“不等式选讲”的学生中共抽取8人进行问卷.若从这8人中任选3人,记选择“坐标系与参数方程”与选择“不等式选讲”的人数的差为,求的分布列及数学期望. 附: ,其中.ξξE ξ()()()()()22n ad bc K a b c d a c b d -=++++n a b c d =+++3、面向全市招聘事业编工作人员,由人事、劳动、纪检等部门联合组织招聘考试,招聘考试分为两个阶段:笔试和面试.现将所有参赛选手参加笔试的成绩(得分均为整数,满分为100分)进行统计,制成如下频率分布表.(Ⅰ)求出上表中的x,y,z,s,p的值;(Ⅱ)按规定,笔试成绩不低于90分的应聘人员可以参加面试,且面试的方式采用单循环,以参加面试人员胜出的场数决定是否录用(即参加面试的所有人员中每两人必需进行一个场次的PK比赛).已知松山区有两名应聘人员取得面试资格,在所有的比赛中,求有松山区选手参加比赛的概率.答案1、某公司为了解广告投入对销售收益的影响,在若干地区各投入万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从开始计数的. [附:回归直线的斜率和截距的最小二乘估计公式分别为.] (1)根据频率分布直方图计算图中各小长方形的宽度;(2)试估计该公司投入万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入(单位:万元) 1 2 3 4 5 销售收益(单位:万元)2 3 27由表中的数据显示,与之间存在着线性相关关系,请将(2)的结果填入空白栏,并求出关于的回归直线方程.解:(1)设各小长方形的宽度为,由频率分布直方图中各小长方形的面积总和为1,可知,故,即图中各小长方形的宽度为2. …3分(2)由(1)知各小组依次是, 其中点分别为,对应的频率分别为,故可估计平均值为.7分 (3)由(2)可知空白栏中填5.由题意可知, ,401221ˆˆˆ,ni ii nii x y nx ybay bx xnx ==-==--∑∑4x y x y y x m (0.080.10.140.120.040.02)0.51m m +++++⋅==2m =[0,2),[2,4),[4,6),[6,8),[8,10),[10,12]1,3,5,7,9,110.16,0.20,0.28,0.24,0.08,0.0410.1630.250.2870.2490.08110.045⨯+⨯+⨯+⨯+⨯+⨯=12345232573, 3.855x y ++++++++====,,根据公式,可求得 ………………10分, ………………11分 所以所求的回归直线方程为. ………………12分2、某校在规划课程设置方案的调研中,随机抽取160名理科学生,想调查男生、女生对“坐标系与参数方程”与“不等式选讲”这两道题的选择倾向性,调研中发现选择“坐标系与参数方程”的男生人数与选择“不等式选讲”的总人数相等,且选择“坐标系与参数方程”的女生人数比选择“不等式选讲”的女生人数多25人,根据调()完成列联表,并判断在犯错误的概率不超过的前提下,能否认为选题与性别有关.(Ⅰ)按照分层抽样的方法,从选择“坐标系与参数方程”与选择“不等式选讲”的学生中共抽取8人进行问卷.若从这8人中任选3人,记选择“坐标系与参数方程”与选择“不等式选讲”的人数的差为,求的分布列及数学期望. 附: ,其中.【解析】(Ⅰ)51122332455769i ii x y=⨯+⨯+⨯+⨯+⨯==∑522222211234555ii x==++++=∑26953 3.8121.2,555ˆ310b-⨯⨯===-⨯3.8 1.230ˆ.2a=-⨯= 1.20.2y x =+ξξE ξ()()()()()22n ad bc K a b c d a c b d -=++++n a b c d =+++,故不能认为选题与性别有关.…………………5分(Ⅱ)选择“坐标系与参数方程”与选择“不等式选讲”的人数比例为100:60=5:3, 所以抽取的8人中倾向“坐标系与参数方程”的人数为5,倾向“不等式选讲”的人 数为3.依题意,得,,,, . …………………9分 故的分布列如下:所以. …………………12分 3、面向全市招聘事业编工作人员 ,由人事、劳动、纪检等部门联合组织招聘考试,招聘考试分为两个阶段:笔试和面试.现将所有参赛选手参加笔试的成绩(得分均为整数,满分为100分)进行统计,制成如下频率分布表.(Ⅰ)求出上表中的x ,y ,z ,s ,p 的值;(Ⅱ)按规定,笔试成绩不低于90分的应聘人员可以参加面试,且面试的方式采用单循环,以参加面试人员胜出的场数决定是否录用(即参加面试的所有人员中每两人必需进行一个场次的 PK 比赛).已知松山区有两名应聘人员取得面试资格,在所有的比赛中,求有松山区选手参加比赛的概率. 解:(1)由题意知,参加招聘考试的人员共有p == 50人, ∴x == 0.18, 22160(9001800) 3.74 5.0241055510060K -=≈<⨯⨯⨯3,1,1,3=--ξ33381(3)56C P C =-==ξ12533815(1)56C C P C =-==ξ21533830(1)56C C P C ===ξ30533810(3)56C C P C ===ξξ115301033(1)135********E =-⨯+-⨯+⨯+⨯=ξ160.32950y = 50×0.38 = 19, Z = 50﹣9﹣19﹣16 = 6, S = = 0.12 ----------------------------------------------------------6分(Ⅱ)由(Ⅱ)知,参加面试的应聘人员共6人.若参加面试的6人分别记为:S 1 , S 2 , a , b , c , d .( 其中S 1 , S 2 表示松山区的参赛选手,a , b , c , d 表示其他旗、县的选手)则所有的比赛为: (S 1 , S 2 ) (S 1 , a ) (S 1 ,b ) (S 1 ,c ) (S 1 , d ) (S 2 , a ) (S 2 , b ) (S 2 , c ) (S 2 ,d ) (a , b ) ( a , c ) ( a , d ) ( b , c ) (b , d ) (c , d ) 共十五个场次的比赛,有松山区选手出现的比赛有9场. 若有松山区选手参加比赛的事件为:A 则P (A ) =-------------------------------12分65035。
2020年高考数学一轮复习专题6.5相关系数及回归方程练习(含解析)
6.5 相关系数及回归方程两个变量间的相关关系:①有关概念:相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.如果一个变量的值由小变大时另一个变量的值由小变大,这种相关称为正相关;如果一个变量的值由小变大时另一个变量的值由大变小,这种相关称为负相关;如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系.②回归方程: 是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数. 的计算公式.考向一 样本中心【例1-1】某种产品的广告费支出与销售额之间有如下对应数据(单位:百万元),根据下表求出关于的线性回归方程为,则表中的值为( )A. B. C. D.y bx a =+1122()()()n n x y x y x y ,,,,,,a b 、a b 、1122211()()()()nni i i ii i nni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑x y y x 6.5175ˆ.yx =+a 505456.564【答案】B【解析】根据规律知道回归直线一定过样本中心,故得到,将坐标代入方程得到的值为.故答案为:B. 【例1-2】已知表中数据y 与x 有较好的线性关系,通过计算得到y 关于x 的线性回归方程为ˆˆ1.05yx a =+,则相应于下列各点的残差中绝对值最小的是( )A .(2,4)B .(4,6)C .(8,10)D .(10,12.5)【答案】D【解析】ˆˆˆ6,8.3,8.3 1.056,2, 1.052x y aa y x ==∴=⨯+∴=∴=+, 相应于点(2,4),(4,6),(8,10),(10,12.5)的残差分别为0.1,0.2,0.4,0---,故选D.【举一反三】1.“关注夕阳、爱老敬老”—某马拉松协会从2013年开始每年向敬老院捐赠物资和现金.下表记录了第x 年(2013年是第一年)与捐赠的现金y (万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程.ˆ035ymx =+,则预测2019年捐赠的现金大约是( ) A .5万元B .5.2万元C .5.25万元D .5.5万元【答案】C5,196x y a ==+6.5175ˆ.yx =+a 54【解析】由已知得,29t =, 所以样本点的中心点的坐标为(4.5,3.5),代入.ˆ035ymx =+, 得3.5 4.50.35m =+,即0.7m =,所以0.7035ˆ.x y=+, 取7x =,得ˆ0.770.35 5.25y=⨯+=, 预测2019年捐赠的现金大约是5.25万元.2.某同学将收集到的6组数据对,制作成如图所示的散点图(各点旁的数据为该点坐标),并由这6组数据计算得到回归直线l :y bx a =+$$$和相关系数r .现给出以下3个结论:①0r >;②直线l 恰过点D ;③1b >. 其中正确结论的序号是( )A .①②B .①③C .②③D .①②③【答案】A【解析】由图像可得,从左到右各点是上升排列的,变量具有正相关性,所以0r >,①正确; 由题中数据可得: 1.5 2.4 3.54 5.8 6.846x +++++==, 2.1 2.8 3.3 3.5 4.35 3.56y +++++==,所以回归直线过点(4,3.5)D ,②正确;又61621()()10.360.514120.14()iii ii x x yy b x x ==--==≈<-∑∑,③错误.故选A 3.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数2R 变小D .解释变量x 与预报变量y 的相关性变弱【答案】A【解析】∵从散点图可分析得出:只有D 点偏离直线远,去掉D 点,变量x 与变量y 的线性相关性变强, ∴相关系数变大,相关指数变大,残差的平方和变小,故选:A.考向二回归方程【例2】某人经营淡水池塘养草鱼,根据过去40期的养殖档案,该池塘的养殖重量X (百斤)都在20百斤以上,其中不足40百斤的有8期,不低于40百斤且不超过60百斤的有20期,超过60百斤的有12期.根据统计,该池塘的草鱼重量的增加量y (百斤)与使用某种饵料的质量x (百斤)之间的关系如图所示.(1)根据数据可知y 与x 具有线性相关关系,请建立y 关于x 的回归方程ˆˆˆybx a =+;如果此人设想使用某种饵料10百斤时,草鱼重量的增加量须多于5百斤,请根据回归方程计算,确定此方案是否可行?并说明理由.(2)养鱼的池塘对水质含氧量与新鲜度要求较高,某商家为该养殖户提供收费服务,即提供不超过3台增氧冲水机,每期养殖使用的冲水机运行台数与鱼塘的鱼重量X 有如下关系:若某台增氧冲水机运行,则商家每期可获利5千元;若某台冲水机未运行,则商家每期亏损2千元.视频率为概率,商家欲使每期冲水机总利润的均值达到最大,应提供几台增氧冲水机? 附:对于一组数据()()()1122,,,,n n x y x y x y ,其回归方程ˆˆˆybx a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i x y nxy bx nx ==-=-∑∑()()()121,niii ni i x x y y x x ==--=-∑∑ˆˆay bx =- 【答案】(1)337y 1313x =+$当10x =时,此方案可行.(2)应提供2台增氧冲水机 【解析】(1)依题意,5,4,x y ==()()5126iii x x y x =--=∑()()()515213ˆ,13iii i i x x y y bx x ==--∴==-∑∑337ˆ451313a y bx =-=-⨯=$所以3371313y x =+$当10x =时,67ˆ513y=>,故此方案可行. (2)设盈利为Y ,安装1台时,盈利5000Y =, 安装2台时,12040,3000,5X Y p <<==;440,10000,5X Y p ==…. 14()300010000860055E Y ∴=⨯+⨯=安装3台时,12040,1000,5X Y p <<==; 4060,8000,X Y =剟3;5P =160,15000,5X Y P >==. 13()1000800055E Y ∴=⨯+⨯11500080005+⨯=.86008000>,故应提供2台增氧冲水机.【举一反三】1.李克强总理在2018年政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力.某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌.为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据(),(1,2,,6)i i x y i =,如表所示:已知611606i i y y ===∑.(1)若变量,x y 具有线性相关关系,求产品销量y (百件)关于试销单价x (千元)的线性回归方程ˆˆˆy bx a =+;(2)用(1)中所求的线性回归方程得到与i x 对应的产品销量的估计值i y .当销售数据(),i i x y 对应的残差的绝对值ˆ1i i y y -≤时,则将销售数据(),i i x y 称为一个“好数据”.现从6个销售数据中任取3个子,求“好数据”个数ξ的分布列和数学期望()E ξ.(参考公式:线性回归方程中ˆˆ,ba 的估计值分别为1221ˆˆˆ,)ni ii nii x y nxyb ay bx xnx =-=-==--∑∑. 【答案】(1) ˆ482yx =-+ (2)见解析 【解析】(1)由611606i i y y ===∑,可求得48t =,故11910ni ii x y==∑,=1980nx y ,21199ni i x ==∑,2=181.5nx ,代入可得122119101980704199181.517.5ni ii ni i x y nx yb x nx==---====---∑∑,ˆˆ604 5.582ay bx =-=+⨯=, 所以所求的线性回归方程为ˆ482yx =-+. (2)利用(1)中所求的线性回归方程ˆ482yx =-+可得,当13x =时,170y =;当24x = 时,266y =;当35x =时,362y =;当46x =时,458y =;当57x =时,554y =;当68x =时,650y =.与销售数据对比可知满足||1(1,2,,6)i i y y i -≤=的共有4个“好数据”:(3,70)、(4,65)、(5,62)、(6,59) 于是ξ的所有可能取值为1,2,31242361(1)5C C P C ξ===,2142363(2)5C C P C ξ===,3042361(3)5C C P C ξ===, ∴ξ 的分布列为:所以1232555E ξ=⨯+⨯+⨯=.考向三 非线性回归【例3】近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:根据以上数据,绘制了如图所示的散点图.(1)根据散点图判断,在推广期内,y a bx =+与(,xy c d c d =⋅均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表l 中的数据,求y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如表所示:已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客,享受7折优惠的概率为16,享受8折优惠的概率为13,享受9折优惠的概率为12.根据所给数据以事件发生的频率作为相应事件发生的概率,估计一名乘客一次乘车的平均费用. 参考数据:其中lg i i u y =,7117i i u u ==∑.【答案】(1)xy c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)y 关于x 的回归方程式为:0.25ˆ 3.4710xy=⨯,第8天使用扫码支付的人次为347人次;(3)1.66元.【解析】(1)根据散点图判断,x y c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)由(1)知回归方程为x y c d =⋅,两边同时取常用对数得:()lg lg lg lg xy c dc d x =⋅=+⋅,设lg y u =,lg lg u c d x ∴=+⋅,又4x =, 1.54u =,721140i i x ==∑,7172221750.1274 1.547lg 0.2514074287i ii i i x u xu d x x==--⨯⨯∴====-⨯-∑∑,把样本中心点()4,1.54代入lg lg u c d x =+⋅,即1.54lg 0.254c =+∙,解得:4ˆl 0.5gc=, 0.5405ˆ.2ux ∴=+, lg 0.540.25y x ∴=+,y ∴关于x 的回归方程式为:()0.540.250.540.250.2510101040ˆ 3.71xx x y +==⨯=⨯,把8x =代入上式得,23.4734ˆ107y=⨯=, 活动推出第8天使用扫码支付的人次为347人次;(3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4, 则()20.1P Z==,()11.80.30.152P Z ==⨯=, ()11.60.60.30.73P Z ==+⨯=,()11.40.30.056P Z ==⨯=; 分布列为:所以,一名乘客一次乘车的平均费用为:20.1 1.80.15 1.60.7 1.40.05 1.66⨯+⨯+⨯+⨯=(元). 【举一反三】1.为方便市民出行,倡导低碳出行.某市公交公司推出利用支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,在推广期内采用随机优惠鼓励市民扫码支付乘车.该公司某线路公交车队统计了活动推广期第一周内使用扫码支付的情况,其中 (单位:天)表示活动推出的天次, (单位:十人次)表示当天使用扫码支付的人次,整理后得到如图所示的统计表1和散点图. 表1:(1)由散点图分析后,可用作为该线路公交车在活动推广期使用扫码支付的人次关于活动推出天次的回归方程,根据表2的数据,求此回归方程,并预报第8天使用扫码支付的人次(精确到整数).表2:表中,.(2)推广期结束后,该车队对此期间乘客的支付情况进行统计,结果如表3.表3:统计结果显示,扫码支付中享受5折支付的频率为,享受7折支付的频率为,享受9折支付的频率为.已知该线路公交车票价为1元,将上述频率作为相应事件发生的概率,记随机变量为在活动期间该线路公交车搭载乘客一次的收入(单位:元),求的分布列和期望.参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为参考数据:,,.【答案】(1) ,人次为2447 (2)见解析【解析】(1)由题意得,,,关于的线性回归方程为,关于的回归方程为,当时,,第8天使用扫码支付的人次为2447;(2)由题意得的所有取值为0.5,0.7,0.9,1,,,,,的分布列为:1.有下列说法:①若某商品的销售量y (件)关于销售价格x (元/件)的线性回归方程为5350y x =-+,当销售价格为10元时,销售量一定为300件;②线性回归直线y bx a =+$$$一定过样本点中心(,)x y ;③若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1;④在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关;⑤在线性回归模型中,相关指数2R 表示解释变量对于预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好;其中正确的结论有几个( ) A .1 B .2C .3D .4【答案】B【解析】①当销售价格为10时,销售量的预估值为300件,但预估值与实际值未必相同,①错误; ②由最小二乘法可知,回归直线必过(),x y ,②正确;③若两个随机变量为负相关,若线性相关性越强,相关系数r 越接近1-,③错误; ④残差图中,带状区域越窄,模型拟合度越高,④错误;⑤相关指数2R 越接近1,拟合度越高,则在线性回归模型中,回归效果越好,⑤正确. 可知正确的结论为:②⑤,共2个本题正确选项:B2.已知下表为x 与y 之间的一组数据,若y 与x 线性相关,则y 与x 的回归直线y bx a =+必过点( )A .(2,2)B .(1.5,0)C .(1,2)D .(1.5,4)【答案】D【解析】由题可得32x =,4y =, 22223333(0)(14)(1)(34)(2)(54)(3)(74)102222ˆ233335(0)(1)(2)(3)2222b --+--+--+--===-+-+-+-,3ˆ4212a=-⨯=,则回归方程为ˆ21yx =+,将A ,B ,C ,D 四项分别代入方程,只有(1.5,4)这个点在直线上,故选D 。
高考数学二轮复习 第1部分 重点强化专题 专题3 概率与统计 专题限时集训7 回归分析、独立性检验
专题限时集训(七) 回归分析、独立性检验(对应学生用书第91页)(限时:40分钟)1.(2017·某某一模)下列说法错误的是( )【导学号:07804050】A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^就增加0.2个单位C [根据相关定义知选项A ,B ,D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]2.(2017·某某名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为C .99.5%D .95%D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.]3.(2017·某某七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):广告费x 2 3 4 5 6 销售额y2941505971由上表可得回归方程为y ^=10.2x +a ^,据此模型,预测广告费为10万元时销售额约为( )【导学号:07804051】A .101.2万元B .108.8万元C .111.2万元D .118.2万元C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.]4.(2017·某某二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图77所示的两个等高堆积条形图.图77根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量B .样本中有理科意愿的学生数量多于有文科意愿的学生数量C .样本中的男生偏爱理科D .样本中的女生偏爱文科D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.] 5.(2016·某某模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数进行比较,下列结论中正确的是( )图78(1)图78(2)图78(3)图78(4)A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.] 6.(2017·某某一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kgD .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kgD [因为回归直线方程y ^=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加 1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )ABCDC[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图对应的带状区域的宽度越窄.故选C.]8.(2017·某某南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线一线合计愿生452065不愿生132235合计5842100由K2=n ad-bc2a+b c+d a+c b+d,得K2=100×45×22-20×13265×35×58×42≈9.616.参照下表,P(K2≥k)0.0500.0100.001k 3.841 6.63510.828A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”C[K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.]二、填空题9.(2017·某某二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.【导学号:07804052】6 [x =5=5,y =5=5,代入回归直线方程,得14+c5=0.85×5-0.25,解得c =6.]10.(2017·某某百校联盟二模)已知x 、y 的取值为:从散点图可知y 与x 呈线性相关关系,且回归直线方程为y =1.2x +a ,则当x =20时,y 的取值为________.27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]11.(2017·某某某某五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,∴a ^=40-(-20)×3.5=110, ∴回归直线方程为:y ^=-20x +110,利润L =(x -2)(-20x +110)=-20x 2+150x -220, ∴x =15040=3.75元时,利润最大,故答案为3.75.]12.(2017·某某三中二模)以模型y =c e kx(e 为自然对数的底)去拟合一组数据时,为了求出回归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2[∵y =c e kx,∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2.] 三、解答题13.(2017·某某一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图79所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.图79(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系? (2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .P (K 2≥k 0)0.025 0.010 0.005 k 05.0246.6357.879正常 偏高 合计 男性 16 4 20 女性 12 8 20 合计281240K 2=n ad -bc 2a +bc +d a +cb +d =40×16×8-4×12220×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=⎝⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫1-352=4625, P (X =1)=C 1245⎝⎛⎭⎪⎫1-45⎝⎛⎭⎪⎫1-352+⎝ ⎛⎭⎪⎫1-452C 1235·⎝ ⎛⎭⎪⎫1-35=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45·C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝⎛⎭⎪⎫1-35=264625, P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352=144625,所以X 的分布列为X 0 1 2 3 4 P462544625169625264625144625所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8.14.(2017·某某三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.温度x /℃ 20 22 24 26 28 30 32 产卵数y /个6 10 21 24 64 113 322 t =x 2 400 484 576 676 784 900 1024 z =ln y1.792.303.043.184.164.735.77xtyz26692803.57错误! 错误! 错误! 错误!1157.540.430.32 0.00012其中t i =x 2i ,t =∑ni =1t i ,z i =ln y i ,z =∑ni =1z i ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .图710(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).图711(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算得分分别为R 21=0.82,R 22=0.96,请根据相关指数判断哪个模型的拟合效果更好.【导学号:07804053】[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.图1 图2根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2,则y =C 1x 2+C 2=C 1t +C 2,其中C ^1=∑7i =1t i -ty i -y∑7i =1t i -t2=0.43,C ^2=y -C ^1t =80-0.43×692=-217.56,所以y =0.43x 2-217.56,当x =30时,估计温度为y 1=0.43×302-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,word 其中C ^3=∑7i =1 z i -z x i -x∑7i =1x i -x2=0.32,C ^4=z -C ^3x =3.57-0.32×26=-4.75.所以y =e 0.32x -4.75,当x =30时,估计温度为y 2=e0.32×30-4.75=e 4.85≈127.74. (3)因为R 21<R 22,所以模型②的拟合效果更好.。
第八章-相关与回归分析练习题
第八章-相关与回归分析练习题第八章相关与回归分析一、单选题1.相关分析研究的是()A、变量间相互关系的密切程度B、变量之间因果关系C、变量之间严格的相依关系D、变量之间的线性关系2.若变量X的值增加时,变量Y的值也增加,那么变量X和变量Y之间存在着()。
A、正相关关系 B、负相关关系 C、直线相关关系 D、曲线相关关系3.若变量X的值增加时,变量Y的值随之下降,那么变量X和变量Y之间存在着()。
A、正相关关系 B、负相关关系 C、直线相关关系 D、曲线相关关系4.相关系数等于零表明两变量()。
A.是严格的函数关系B.不存在相关关系C.不存在线性相关关系D.存在曲线线性相关关系5.相关关系的主要特征是()。
A、某一现象的标志与另外的标志之间的关系是不确定的B、某一现象的标志与另外的标志之间存在着一定的依存关系,但它们不是确定的关系C、某一现象的标志与另外的标志之间存在着严格的依存关系D、某一现象的标志与另外的标志之间存在着不确定的直线关系 6.时间数列自身相关是指()。
A、两变量在不同时间上的依存关系 B、两变量静态的依存关系C、一个变量随时间不同其前后期变量值之间的依存关系D、一个变量的数值与时间之间的依存关系7.如果变量X和变量Y之间的相关系数为负1,说明两个变量之间()。
A、不存在相关关系 B、相关程度很低 C、相关程度很高 D、完全负相关8.若物价上涨,商品的需求量愈小,则物价与商品需求量之间()。
A、无相关 B、存在正相关 C、存在负相关 D、无法判断是否相关 9.相关分析对资料的要求是()。
A.两变量均为随机的 B.两变量均不是随机的 C、自变量是随机的,因变量不是随机的 D、自变量不是随机的,因变量是随机的 10.回归分析中简单回归是指()。
A.时间数列自身回归 B.两个变量之间的回归 C.变量之间的线性回归 D.两个变量之间的线性回归11.已知某工厂甲产品产量和生产成本有直线关系,在这条直线上,当产量为1000时,其生产成本为30000元,其中不随产量变化的成本为6000元,则成本总额对产量的回归方程为()A. y=6000+24xB. y=6+0.24xC. y=24000+6xD. y=24+6000x12.直线回归方程中,若回归系数为负,则() A.表明现象正相关 B.表明现象负相关C.表明相关程度很弱D.不能说明相关方向和程度二、多项选择题1.下列属于相关关系的有()。
2[1].回归方程复习题
第二、三章 回归方程复习题一、 单项选择题1、将内生变量的前期值作解释变量,这样的变量称为( D )。
A .虚拟变量 B. 控制变量C .政策变量 D. 滞后变量2、把反映某一总体特征的同一指标的数据,按一定的时间顺序和时间间隔排列起来,这样的数据称为( B )。
A .横截面数据 B. 时间序列数据C .修匀数据 D. 原始数据3、在简单线性回归模型中,认为具有一定概率分布的随机数量是( A )。
A .内生变量 B. 外生变量C .虚拟变量 D. 前定变量4、回归分析中定义的( B ) 。
A .解释变量和被解释变量都是随机变量B .解释变量为非随机变量,被解释变量为随机变量C .解释变量和被解释变量都为非随机变量D .解释变量为随机变量,被解释变量为非随机变量5、双对数模型μββ++=X Y ln ln ln 10中,参数β1的含义是( C )。
A .Y 关于X 的增长率 B. Y 关于X 的发展速度C .Y 关于X 的弹性 D. Y 关于X 的边际变化6、半对数模型i i i X Y μββ++=ln 10中,参数β1的含义是( D )。
A .Y 关于X 的弹性 B. X 的绝对量变动,引起Y 的绝对量变动C .Y 关于X 的边际变动 D. X 的相对变动,引起Y 的期望值绝对量变动7、在一元线性回归模型中,样本回归方程可表示为:( C )。
A .t t t X Y μββ++=10 B. t t t t X Y E Y μ+=)|(C .t t X Y 10ˆˆˆββ+= D. t t t X X Y E 10)|(ββ+= (其中t=1,2,…,n )8、设OLS 法得到的样本回归直线为i i i e X Y ++=10ˆˆββ,以下说法不正确的是( D )。
A .0=∑i e B. ),(Y X 在回归直线上C .Y Y =ˆ D. 0),(≠i i e X COV9、同一时间,不同单位相同指标组成的观测数据称为( B )。
2015级硕士研究生计量经济学复习题及参考答案
t n t n
(ut ut 1 )2
1 2 X 2i 3 X 3i ... k X ki 0, i 1, 2,..., n
则称解释变量 X 2 , X 3 ,..., X k 之间存在着完全的多重共线性。 (参考课件) 5. 异方差: 当误差向量的方差协方差矩阵主对角线上的元素不相等时, 称该随机误差系列存在异方 差。 异方差包括递增型异方差和递减型异方差, 递增型异方差的来源主要是因为随着解 释变量值的增大, 被解释变量取值的差异性增大; 递减型异方差的来源主要是因为随着 解释变量值的增大,被解释变量取值的差异性减小。 (真正考试时的解答还需参考教材 或参考书具体发挥) 6.广义最小二乘法: 先将原始变量转换成满足经典模型假设的转换变量,然后对它们使用 OLS 程序估计,叫 做广义最小二乘法。 (真正考试时的解答还需参考教材或参考书具体发挥) 7.白噪声序列: 若一个随机过程误差项的均值为 0,不变方差为 2 ,而且不存在序列相关,我们就称 这个随机序列过程为白噪声序列。 (真正考试时的解答还需参考教材或参考书具体发挥)
证明: d
t2
tn
2 t
u
t 2
2 t
t n
u t 1 2 ut ut 1
t2 t 2 t n
2
t n
u
t 1
u
t 1
t n
2 t
,
t n
《应用回归分析》课后题答案[整理版]
《应用回归分析》课后题答案[整理版] 《应用回归分析》部分课后习题答案第一章回归分析概述 1.1 变量间统计关系和函数关系的区别是什么, 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1.2 回归分析与相关分析的联系与区别是什么, 答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x 对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3 回归模型中随机误差项ε的意义是什么, 答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么,答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2….Cov(εi,εj)=,σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.1.5 回归变量的设置理论根据是什么,在回归变量设置时应注意哪些问题,答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
社会统计学复习题
社会统计学复习题一、名词解释1、社会统计学2、中位数3、众数4、点估计:所谓点估计,就是根据样本数据算出一个单一的估计值,用它来估计总体的参数值。
5、区间估计:所谓区间估计,就是计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。
6、置信区间:置信区间就是我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。
7、消减误差比例:变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关系时预测Y 的误差1E ,再将其化为比例来度量。
将削减误差比例记为PRE 。
8、因果关系:变量之间的关系满足三个条件,才能断定是因果关系。
1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
9、正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。
10、散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X 与Y 的相互关系,即得相关图,又称散点图。
11、同序对:在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y Y <,则称这一配对是同序对。
12、异序对:在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y >Y ,则称这一配对是异序对。
13、大数定理:当我们的观察次数n 趋向无限时,随机事件可能转换为不可能事件或必然事件。
即,在大量观察的前提下,观察结果具有稳定性。
二、选择题6.下面能进行除法运算的测量尺度是()A 定比尺度B 定类尺度C 定距尺度D 定序尺度7.教育程度是()的测量。
A 定比尺度B 定类尺度C 定距尺度D 定序尺度8.智商是()的测量。
计量经济学复习习题
计量经济学复习习题第二章回归模型习题一、填空题:1.在Eviews 软件中,估计线性模型的命令是__LS_____。
2.在Eviews 软件中,估计非线性模型的命令是_____NLS_____。
3.被解释变量的观测值i Y 与其回归理论值)(Y E 之间的偏差,称为__随机扰动项__;被解释变量的观测值i Y 与其回归估计值i Y ?之间的偏差,称为____残差____。
4.对线性回归模型μββ++=X Y 10进行最小二乘估计,最小二乘准则是残差平方和最小。
5.高斯—马尔可夫定理证明在总体参数的各种无偏估计中,普通最小二乘估计量具有方差最小的特性,并由此才使最小二乘法在数理统计学和计量经济学中获得了最广泛的应用。
6.普通最小二乘法得到的参数估计量具有无偏性、有效性、一致性统计性质。
9.对计量经济学模型作统计检验包括 R 平方检验、F 检验、 T 检验。
10.判定系数R 2可以判定回归直线拟合的优劣,又称为可决系数。
11.可以利用线性回归模型的系数直接进行边际分析,利用双对数模型的回归系数进行弹性分析。
12.动态模型是在方程中引入滞后变量。
二、单选题:1.回归分析中定义的( B )A.解释变量和被解释变量都是随机变量B.解释变量为非随机变量,被解释变量为随机变量C.解释变量和被解释变量都为非随机变量D.解释变量为随机变量,被解释变量为非随机变量2.最小二乘准则是指使(D )达到最小值的原则确定样本回归方程。
A.()∑=-n t tt Y Y 1? B.∑=-n t t t Y Y 1? C.t t Y Y ?max - D.()21?∑=-n t t t Y Y3.双对数模型μββ++=X Y ln ln 10中,参数1β的含义是( D )。
A.X 的相对变化,引起Y 的期望值绝对量变化B.Y 关于X 的边际变化C.X 的绝对量发生一定变动时,引起因变量Y 的相对变化率D.Y 关于X 的弹性4.在多元回归中,调整后的判定系数与判定系数的关系有 ( B)A .< B . > C . = D .与的关系不确定 5.根据样本资料已估计得出人均消费支出Y 对人均收入X 的回归方程为X Y ln 75.000.2ln +=),这表明人均收入每增加1%,人均消费支出将增加(C )。
北师大版高中数学选修1-2 同步练习:第1章 1 第2课时 可线性化的回归分析
第一章 §1 第2课时A 级 基础巩固一、选择题1.由一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程y ^=b ^x +a ^,则下列说法不正确的是( B )A .直线y ^=b ^x +a ^必过点(x ,y )B .直线y ^=b ^x +a ^至少经过点(x 1,y 1)(x 2,y 2)…(x n ,y n )中的一个点C .直线y ^=b ^x +a ^的斜率为∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2D .直线y ^=b ^x +a ^和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的偏差是该坐标平面上所有直线与这些点的偏差中最小的直线2.对于指数曲线y =ae bx,令u =lny,c =lna,经过非线性化回归分析之后,可以转化成的形式为( A ) A .u =c +bx B .u =b +cx C .y =b +cxD .y =c +bx[解析] 对方程y =ae bx 两边同时取对数,然后将u =lny,c =lna 代入,不难得出u =c +bx. 3.某学校开展研究性学习活动,某同学获得一组实验数据如下表:x 1.99 3 4 5.1 6.12 y1.54.047.51218.01对于表中数据,A .y =2x -2 B .y =(12)xC .y =log 2xD .y =12(x 2-1)[解析] 代入检验,当x 取相应的值时,所得y 值与已知数据差的平方和最小的便是拟合程度最高的. 4.下列数据符合的函数模型为( D )x 1 2 3 4 5 6 7 8 9 10 y22.6933.383.63.844.084.24.3A .y =2+3xB .y =2e xC .y =2e 1xD .y =2+lnx[解析] 分别将x 的值代入解析式判断知满足y =2+lnx. 二、填空题5.在两个变量的回归分析中,作散点图的目的是__从散点图中看出数据的大致规律,再根据这个规律选择适当的函数进行拟合__;相关系数是度量__两个变量之间线性相关程度__的量.6.若回归直线方程中的回归系数b =0时,则相关系数r 的值为__0__.[解析] 若b =0,则∑i =1nx i y i -n x y =0,∴r =0.三、解答题7.某工厂今年1~4月份生产某种产品的数量分别是1万件、1.2万件、1.3万件、1.37万件.为了估测以后每个月的产量,可用函数y =ae bx来模拟该产品的月产量y(万件)与月份x 的关系,求模拟函数.[解析] 设μ=lny,c =lna,则μ=c +bx.∑i =14x i =10,∑i =14μi =0.759 5,∑i =14x 2i=30,∑i =14μ2i ≈0.201 2, ∑i =14x i μi =2.411,x =2.5,μ≈0.189 9,相关系数r =∑i =14x i μi -4xμ∑i =14x 2i -4(x)2∑i =14μ2i -4(μ)2≈2.411-4×2.5×0.189 930-4×2.52×0.201 2-4×0.189 92≈0.959 7,相关程度较强.b =∑i =14x i μi -4xμ∑i =14x 2i -4(x )2≈2.411-4×2.5×0.189 930-4×2.52=0.102 4,c =μ-b x ≈0.189 9-0.102 4×2.5=-0.066 1,所以μ=-0.066 1+0.102 4x,y =e-0.066 1+0.0102 4x.B 级 素养提升一、选择题1.我国1990—2000年的国内生产总值如下表所示:A .y =ae kxB .y =a +bxC .y =ax bD .y =ae bx[解析] 画出散点图,观察可用y =a +bx 刻画国内生产总值发展变化的趋势.2.设由线性相关的样本点(x 1,y 1),(x 2,y 2),(x 3,y 3),…,(x n ,y n ),求得的回归直线方程为y ^=bx +a,定义残差e i =y i -y ^i =y i -bx i -a,i =1,2,…,n,残差平方和m =e 21+e 22+…+e 2n .已知甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:则哪位同学的试验结果体现A .甲 B .乙 C .丙D .丁[解析] r 越接近1,相关性越强,残差平方和m 越小,相关性越强,故选D . 二、填空题3.若一函数模型为y =ax 2+bx +c(a≠0),则作变换t =__(x +b 2a )2 才能转为y 是t 的线性回归方程.[解析] ∵y =ax 2+bx +c =a(x +b 2a )2+4ac -b 24a ,∴令t =(x +b 2a )2,则y =at +4ac -b24a,此时y 为t 的线性回归方程.4.若x 、y 满足则可用来描述__y =2e __. [解析] 画出散点图,形如y =a·e bx,其中a≈2,b≈1. ∴y =2e x. 5.若x 、y 满足x 0.1 0.2 0.3 0.5 1 2 3 4 5 y2096420.940.650.510.45则可用来描述x 与y 之间关系的函数解析式为__y =2x.[解析] 画出散点图,观察图像形如y =b x ,通过计算知b≈2,∴y =2x .三、解答题6.如下表所示,某地区一段时间内观察到的大于或等于某震级x 的地震次数为N,试建立N 对x 的回归方程,并表述二者之间的关系.震级 3 3.2 3.4 3.6 3.8 4 4.2 4.4 地震数 28 381 20 380 14 795 10 695 7 641 5 502 3 842 2 698 震级 4.6 4.8 5.0 5.2 5.4 5.6 5.8 6 地震数 1 919 1 356 973 746 604 435 274 206 震级 6.2 6.4 6.6 6.8 7 地震数14898574125[解析] 由表中数据得散点图如图1.从散点图中可以看出,震级x 与大于或等于该震级的地震次数N 之间呈现出一种非线性的相关性,随着x 的减少,所考察的地震数N 近似地以指数形式增长.于是令y =lgN.得到的数据如下表所示.图1x 3 3.2 3.4 3.6 3.8 4 4.2 4.4 y 4.453 4.309 4.170 4.029 3.883 3.741 3.585 3.431 x 4.6 4.8 5.0 5.2 5.4 5.6 5.8 6 y 3.283 3.132 2.988 2.873 2.781 2.638 2.438 2.314 x 6.2 6.4 6.6 6.8 7 y2.1701.9911.7561.6131.398x图2从散点图2中可以看出x 和y 之间有很强的线性相关性,因此由最小二乘法得a≈6.704,b≈-0.741,故线性回归方程为y =-0.741x +6.704.因此,所求的回归方程为:lgN =-0.741x +6.704,故N ^=10-0.741x +6.704.7.下表所示是一组试验数据:x 0.5 0.25 16 0.125 0.1 y64138205285360(1)作出散点图,并猜测y 与x 之间的关系; (2)利用所得的函数模型,预测x =10时y 的值.[解析] (1)散点图如图所示,从散点图可以看出y 与x 不具有线性相关关系.根据已有知识发现样本点分布在函数y =b x +a 的图像的周围,其中a,b 为待定参数.令x′=1x ,y′=y,由已知数据制成下表:序号i x i ′ y i ′ x′2i y′2i x′i y′i 1 2 64 4 4 096 128 2 4 138 16 19 044 552 3 6 205 36 42 025 1 230 4 8 285 64 81 225 2 280 5 10 360 100 129 600 3 600 ∑301 052220275 9907 790x ′=6,y ′=210.4,故∑i =15x ′2i-5(x ′)2=40,∑i =15y ′2i -5y ′2=54 649.2,r =779 0-5×6×210.440×54 649.2≈0.999 7,由于r 非常接近于1,∴x′与y′具有很强的线性关系,计算知b≈36.95,a =210.4-36.95×6=-11.3, ∴y′=-11.3+36.95x′,∴y 对x 的回归曲线方程为y =36.95x -11.3.(2)当x =10时,y =36.9510-11.3=-7.605.C 级 能力提高1.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:房屋面积(m 2) 115 110 80 135 105 销售价格(万元)24.821.618.429.222(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为150m 2时的销售价格. [解析] (1)数据对应的散点图如下图所示:(2)x =15∑5 i =1x i =109,l xx =∑5i =1 (x i -x )2=1 570,y =23.2,l xy =∑5i =1 (x i -x )(y i -y )=308. 设所求回归直线方程为y ^=b ^x +a ^,则b ^=l xy l xx =3081 570≈0.196 2,a ^=y -b ^x =1.816 6.故所求回归直线方程为y ^=0.196 2x +1.816 6. (3)据(2),当x =150 m 2时,销售价格的估计值为 y ^=0.196 2×150+1.816 6=31.246 6(万元).2.某商店各个时期的商品流通率y(%)和商品零售额x(万元)资料如下:散点图显示出x 与y ,流通率y 决定于商品的零售额x,体现着经营规模效益,假定它们之间存在关系式:y =a +bx .试根据上表数据,求出a 与b 的估计值,并估计商品零售额为30万元时的商品流通率.[解析] 设u =1x,则y≈a+bu,得下表数据:进而可得n =10,u ≈0.060 4,y =3.21,∑i =110u 2i -10u 2≈0.004 557 3, ∑i =110u i y i -10uy ≈0.256 35,b≈0.256 350.004 557 3≈56.25, a =y -b·u ≈-0.187 5,所求的回归方程为y ^=-0.187 5+56.25x .当x =30时,y =1.687 5,即商品零售额为30万元时,商品流通率为1.687 5%.。
回归分析试题答案
诚信应考 考出水平 考出风格浙江大学城市学院2011 — 2012 学年第一学期期末考试卷《 回归分析 》开课单位: 计算分院 ;考试形式:开卷(A4纸一张);考试时间:2011年01月6日; 所需时间: 120 分钟一.计算题(10分。
)1,考虑过原点的线性回归模型1,1,2,...,i i i y x i n βε=+=误差1,...,n εε仍满足基本假定。
求1β的最小二乘估计。
并求出1β 的期望和方差,写出1β的分布。
1221111111121,1,2,...,ˆ()()2()0ˆi i i nni i i i i i ni i i i ni ii nii y x i n Q y yy x Qy x x x yxβεββββ======+==-=-∂=--=∂=∑∑∑∑∑解:第1页共 6 页二. 证明题(本大题共2小题,每小题7分,共14分。
)1,证明:(1)22()1var()[1]i i xxx x e n L σ-=--(2)2211ˆˆ()2n i ii y y n σ==--∑是2σ的无偏估计。
011111122ˆˆˆ()()1()()1var()var[()()]()1var()var((()))()12cov[,(())](1(i i i i i nn i i j j jj j xx ni i i j j j xx ni i j j j xx ni i j j j xxe y y y x x x x y y x x y n L x x e y x x y n L x x y x x y n L x x y x x y n L x n ββσσ======-=----=----=-+--=++---+-=++∑∑∑∑∑解(1):222122222221212211)()1())2()()()11(12()]()1[1]1ˆˆ(2)()(())21ˆ[()]2()111var()[1]2212n i i j j xx xxi i xx xxi xx ni i i ni i i n n i i i i xx x x x x x L n L x x x x n L n L x x n L E E y y n E y y n x x e n n n L n σσσσσ=====----+--=++-+-=--=--=---==----=-∑∑∑∑∑22(11)n σσ--=三.填空题.(每空2分,共46分)1.为了研究家庭收入和家庭消费的关系,通过调查得到数据如下:6.22893,29.12349,43008,97.29,5422=====∑∑∑xy yxy x1)用最小二乘估计求出线性回归方程的参数估计值0ˆβ= 。
线性回归方程(高中数学)
线性回归方程(高中数学)篇一:高中数学《线性回归方程》教案(2)线性回归方程教学目标:(1)了解非确定性关系中两个变量的统计方法;(2)掌握散点图的画法及在统计中的作用;(3)掌握回归直线方程的实际应用。
教学重点: 线性回归方程的求解。
教学难点: 回归直线方程在现实生活与生产中的应用。
教学过程:一、复习练习1.下例说法不正确的是( B )A.在线性回归分析中,x和y都是变量;B.变量之间的关系若是非确定关系,那么x不能由y唯一确定;C.由两个变量所对应的散点图,可判断变量之间有无相关关系;D.相关关系是一种非确定性关系.2.已知回归方程y??0.5x?0.81,则x=25时, y的估计值为__11.69____.,24)的线性回归方程是(D )3.三点(3,10),(7,20),(11 1.75?1.75x By??1.75?5.75x Ay1.75?5.75x Dy??1.75?1.75x C y4.我们考虑两个表示变量x与y之间的关系的模型,?为误差项,模型如下:模型1:y?6?4x:;模型2:y?6?4x?e.(1)如果x?3,e?1,分别求两个模型中y的值;(2)分别说明以上两个模型是确定性模型还是随机模型.解(1)模型1:y=6+4x=6+4×3=18;模型2:y=6+4x+e=6+4×3+1=19.(2)模型1中相同的x值一定得到相同的y值.所以是确定性模型;模型2中相同的x值,因?不同,且?为误差项是随机的,所以模型2是随机性模型。
二、典例分析例1、一个车间为了规定工时定额,需要确定加工零件所花费的时间.为此进行了10次试验,测得数据如下:程.解:在直角坐标系中画出数据的散点图,直观判断散点在一条直线附近,故具有线性相关关系.由测得的数据表可知: x?55,y?91.7,?xi?38500,?yi?87777,?xiyi?55950 22i?1i?1i?1101010bxy10xyiii?11010?xi2?10xi?12?55950?10?55?91.7?0.668 238500?10?55a?y?bx?91.7?0.668?55?54.96因此,所求线性回归方程为y?bx?a?0.668x?54.96例2、已知10只狗的血球体积及红血球数的测量值如下:(1)画出上表的散点图;(2)求出回归直线方程并画出图形.解:x?1(45?42?46?48?42?35?58?40?39?50)?44.50 10y?1(6.53?6.30?9.52?7.50?6.99?5.90?9.49?6.20?6.55?8.72)=7.37 10设回归直线方程为y?bx?a则b??xy?10xyiii?11010?xi?12i?10x2?0.175a?y?bx= -0.418所以所求回归直线的方程为y?0.175x?0.148例3、以下是收集到的新房屋销售价格y与房屋的大小x 的数据:上回归直线;(3)计算此时Q(a,b)和Q(2,0.2)的值,并作比较.解:(1)(2) n?5,?xi?15i?545,?109,?yi?116,?23.2, i?155?xi?152i?60952,?xiyi?12952 i?1b?5?12952?545?116?0.1962,a?23.2?0.1962?109?1.8166 25?60952?545所以,线性回归方程为y?0.1962x?1.8166(3) Q(1.8166,0.1962)?5.171,Q(2,0.2)?7.0由此可知,求得的a?1.8166,b?0.9162是函数Q(a,b)取最小值的a,b值.三、课堂练习1.为了考察两个变量x和y之间的线性相关性,甲乙两位同学各自独立做了10次和15次实验,并且利用线性回归直线分别为l1,l2,已知两人获得的实验数据中,变量x和y的数据平均值都相等,且分别为s,t那么下例说话正确的是() A.直线l1和l2一定有公共点(s,t)B.直线l1和l2相交,但交点不一定是(s,t)C.必有l1// l2 D.l1和l2与必定重合2.已知关于某设备的使用年限x与所支出的维修费用y (万元),有如下统计资料:设y对x程线性相关关系.试求:(1)线性回归方程y?bx?a的回归系数a,b;(2)估计使用年限为10年时,维修费用多少?四、回顾小结:求线性回归方程的步骤:?(1)、(2)计算xi与yi的积,求?xiyi,2(3)计算?x2,y?i,i(4)将上述有关结果代入公式,求b,a写出回归直线方程.五、课外作业:课本第82页第9题.篇二:高中数学线性回归方程讲解练习题1审阅人:2篇三:线性回归方程[高考数学总复习][高中数学课时训] 线性回归方程基础自测①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.1.下列关系中,是相关关系的为(填序号).答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x 的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号). ①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t) ③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案① 3.下列有关线性回归的说法,正确的是(填序号). ①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③ 4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;?x+a?,可以估计和预测变量的取值和变化趋势. ?=b?及回归系数b③通过回归直线y其中正确命题的序号是. 答案①②③=0.50x-0.81,则x=25时,y?的估计值为 . 5.已知回归方程为y答案11.69例 1 下面是水稻产量与施化肥量的一组观测数据:施化肥量水稻产量15 20 25 30 35 40 45 320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.例2 (14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程. 解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. (2)=110n7分110(0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,=(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分 =bxyi?1nii?n?≈0.813 6,2ixi?1n2a=1.42-1.74×0.813 6≈0.004 3,13分=0.813 6x+0.004 3. ∴回归方程y14分例 3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;x+a=b;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解(1)散点图如下图:(2)=43?4?5?64=4.5,=2.5?3?4?4.54=3.5xi?14iyi=3×2.5+4×3+4×5+6×4.5=66.5. xi?12i=32+42+52+62=864=∴bxyii?14i4=2i66.5?4?3.5?4.586?4?4.52=0.7xi?142=3.5-0.7×4.5=0.35. =-b=0.7x+0.35. ∴所求的线性回归方程为y(3)现在生产100吨甲产品用煤y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解(1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y与x呈线性相关,试求回归方程. 解=30,= 566.7?76.0?85.0?112.3?128.05=93.6.=bi?15i?1iyi?5?≈0.880 9.2ixa52=93.6-0.880 9×30=67.173. =-b=0.880 9x+67.173. ∴回归方程为y3.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少?(3)假定产量为6 000件时,单位成本为多少元? 66i解(1)n=6,xi?1=21,yi?1i=426,=3.5,=71, 662xii?1=79,xyii?1i=1 481,6=bxi?16i?1iyi?6?=2i1481?6?3.5?7179?6?3.52=-1.82.xa62=71+1.82×3.5=77.37. =-bx=77.37-1.82x. =a+b回归方程为y?=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有: (2)因为单位成本平均变动b产量每增加一个单位即 1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x=6,代入回归方程:y=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是.答案a,c,b=1.5x-15,则下列说法正确的有个. 2.回归方程y①=1.5-15 ②15是回归系数a ③1.5是回归系数a ④x=10时,y=0 答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为y=8.25x+60.13,下列叙述正确的是.①该地区一个10岁儿童的身高为142.63 cm ②该地区2~9岁的儿童每年身高约增加8.25 cm。
高中数学选修2-3统计案例之线性回归方程习题课
1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则b^,a^其中,b是回归方程的斜率,a是在y轴上的截距.4.样本相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.5.线性回归模型(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.(2)相关指数用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.规律(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.注意(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.考向一相关关系的判断例1.下列选项中,两个变量具有相关关系的是( )A.正方形的面积与周长B.匀速行驶车辆的行驶路程与时间C.人的身高与体重D.人的身高与视力答案:C例2.对变量x、y有观测数据(x i,y i)(i =1,2,…,10),得散点图1;对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由题图1可知,各点整体呈递减趋势,x与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关.例3.下面哪些变量是相关关系().A.出租车车费与行驶的里程B.房屋面积与房屋价格C.身高与体重D.铁块的大小与质量解析A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.答案 C例4.如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据的线性相关性最大.解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远.答案:D例5.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.答案 C例6.下列关系属于线性负相关的是( )A.父母的身高与子女身高的关系B.球的体积与半径之间的关系C.汽车的重量与汽车每消耗1 L汽油所行驶的平均路程D.一个家庭的收入与支出解析:选C.A、D中的两个变量属于线性正相关,B中两个变量是函数关系.例7.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):(1)画出散点图;(2)判断是否具有相关关系.[审题视点] (1)用x 轴表示化肥施用量,y 轴表示棉花产量,逐一画点.(2)根据散点图,分析两个变量是否存在相关关系.解 (1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.例8. 根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案否考向二线性回归方程例9.对有线性相关关系的两个变量建立的回归直线方程y^=a+bx中,回归系数b( )A.不能小于0 B.不能大于0C.不能等于0 D.只能小于0解析:选C.∵b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0.例10.已知回归方程y^=4.4x+838.19,则可估计x与y的增长速度之比约为________.解析:x与y的增长速度之比即为回归方程的斜率的倒数14.4=1044=522.答案:5 22例11.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是().A.y^=-10x+200 B.y^=10x+200 C.y^=-10x-200 D.y^=10x-200 解析因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.答案 A例12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[审题视点] (2)问利用公式求a ^、b ^,即可求出线性回归方程.(3)问将x =100代入回归直线方程即可. 解 (1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:i =14x 2i =86,x =3+4+5+64= 4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y ∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.例13.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y对x的线性回归方程为().A.y=x-1 B.y=x+1C.y=88+12x D.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案 C例14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y^=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:对预处理后的数据,容易算得,x=0,y=3.2,b=26040=6.5,a=y-b x=3.2.由上述计算结果,知所求回归直线方程为y -257=b(x-2 006)+a=6.5(x-2 006)+3.2,即y^=6.5(x-2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).例15.下列有关回归直线方程y^=bx+a 的叙述正确的是( )①反映y^与x之间的函数关系;②反映y与x之间的函数关系;③表示y^与x之间的不确定关系;④表示最接近y与x之间真实关系的一条直线.A.①② B.②③C.③④ D.①④解析:选D.y^=bx+a表示y^与x之间的函数关系,而不是y与x之间的函数关系;但它反映的关系最接近y与x之间的真实关系,故选D.例16.设有一个回归方程y^=3-5x,变量x增加一个单位时( )A.y平均增加3个单位B.y平均减少5个单位C.y平均增加5个单位D.y平均减少3个单位解析:选B.∵-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.例17.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不.正确的是( ) A.由样本数据得到的回归方程y^=b^x+a^必过样本中心(x,y)B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r =-0.9362,则变量y和x之间具有线性相关关系解析:选C.C中应为R2越大拟合效果越好.例18.已知回归方程y^=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )A .0.01B .0.02C .0.03D .0.04解析:选C.当x =2时,y ^=5, 当x =3时,y ^=7,当x =4时,y ^=9.∴e ^1=4.9-5=-0.1,e ^2=7.1-7=0.1, e ^3=9.1-9=0.1.∴ i =13e ^i 2=(-0.1)2+(0.1)2+(0.1)2=0.03.例19.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②回归方程y ^=bx +a 必过点(x ,y ); ③曲线上的点与该点的坐标之间具有相关关系;④在一个2×2列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是 90%.其中错误的是________.解析:①正确.由回归方程的定义及最小二乘法思想,知②正确.③④不正确.答案:③④例20.在2009年十一国庆8天黄金周期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:9通过分析,发现销售量对商品的价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为________.解析:由数据表可得x=10,y=8,离差x-x:-1,-0.5,0,0.5,1;离差y-y:3,2,0,-2,-3.∴b^=-1×3-0.5×2-0.5×2-1×3 1+0.25+0+0.25+1=-3.2,a ^=y -b ^x =40,∴回归直线方程为y ^=-3.2x +40. 答案:y ^=-3.2x +40例21.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.解:以x 轴表示身高,y 轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y^=b^ x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P(A)=1-410=35.(2)由数据求得,x=12,y=27,由公式求得.b^=52,a^=y-b^x=-3.所以y关于x的线性回归方程为y^=5 2 x-3.(3)当x=10时,y^=52×10-3=22,|22-23|<2;当x=8时,y^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的.。
高考数学总复习考点知识讲解与提升练习70 一元线性回归模型及其应用
高考数学总复习考点知识讲解与提升练习专题70 一元线性回归模型及其应用考点知识1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.知识梳理1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.2.样本相关系数(1)r=i=1n(x i-x)(y i-y)i=1n(x i-x)2i=1n(y i-y)2.(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,其中⎩⎪⎨⎪⎧b ^=i =1n(x i -x )(y i -y )i =1n(x i-x )2,a ^=y -b ^x .(2)残差:观测值减去预测值称为残差. 常用结论1.经验回归直线过点(x ,y ).2.求b ^时,常用公式b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2.3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误. 思考辨析判断下列结论是否正确(请在括号中打“√”或“×”) (1)相关关系是一种非确定性关系.(√)(2)散点图是判断两个变量相关关系的一种重要方法和手段.(√)(3)经验回归直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.(×) (4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(√) 教材改编题1.在对两个变量x ,y 进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(x i ,y i ),i =1,2,…,n ;③求经验回归方程;④根据所收集的数据绘制散点图. 则下列操作顺序正确的是() A .①②④③B.③②④① C .②③①④D.②④③① 答案D解析根据回归分析的思想,可知对两个变量x ,y 进行回归分析时,应先收集数据(x i ,y i ),然后绘制散点图,再求经验回归方程,最后对所求的经验回归方程作出解释. 2.对于x ,y 两变量,有四组成对样本数据,分别算出它们的样本相关系数r 如下,则线性相关性最强的是()A .-0.82B .0.78C .-0.69D .0.87 答案D解析由样本相关系数的绝对值|r |越大,变量间的线性相关性越强知,各选项中r =0.87的绝对值最大.3.某单位为了了解办公楼用电量y (度)与气温x (℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:由表中数据得到经验回归方程y ^=-2x +a ^,当气温为-4℃时,预测用电量约为() A .68度B .52度C .12度D .28度 答案A解析由表格可知x =10,y =40,根据经验回归直线必过(x ,y )得a ^=40+20=60,∴经验回归方程为y ^=-2x +60,因此当x =-4时,y ^=68.题型一成对数据的相关性例1(1)(2023·保定模拟)已知两个变量x 和y 之间有线性相关关系,经调查得到如下样本数据:根据表格中的数据求得经验回归方程为y ^=b ^x +a ^,则下列说法中正确的是()A.a ^>0,b ^>0 B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0 答案B解析由已知数据可知y 随着x 的增大而减小,则变量x 和y 之间存在负相关关系,所以b ^<0.又x =15×(3+4+5+6+7)=5,y =15×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5b ^+a ^,所以a ^=1.1-5b ^>0.(2)(2022·大同模拟)如图是相关变量x ,y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到经验回归方程y ^=b ^1x +a ^1,样本相关系数为r 1;方案二:剔除点(10,21),根据剩下的数据得到经验回归方程y ^=b ^2x +a ^2,样本相关系数为r 2.则()A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0 答案D解析根据相关变量x ,y 的散点图知,变量x ,y 具有负线性相关关系,且点(10,21)是离群值;方案一中,没剔除离群值,线性相关性弱些; 方案二中,剔除离群值,线性相关性强些; 所以样本相关系数-1<r 2<r 1<0. 思维升华 判定两个变量相关性的方法(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.(2)样本相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近1,相关性越强.(3)经验回归方程:当b ^>0时,正相关;当b ^<0时,负相关.跟踪训练1(1)某公司2017~2022年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如表所示:根据统计资料,则利润中位数() A.是16,x与y有正相关关系B.是17,x与y有正相关关系C.是17,x与y有负相关关系D.是18,x与y有负相关关系答案B解析由题意知,利润中位数是16+182=17,而且随着年利润x的增加,广告支出y也在增加,故x与y有正相关关系.(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2则比较r1,r2的大小结果为()A.r1>r2B.r1=r2C.r1<r2D.不确定答案C解析由散点图可知,用y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;又因为x ,y 负相关,所以-r 1>-r 2,即r 1<r 2. 题型二回归模型命题点1一元线性回归模型例2(2023·蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:(1)在给出的坐标系中画出上表数据的散点图;(2)根据上表提供的数据,用最小二乘法求出y 关于x 的经验回归方程y ^=b ^x +a ^; (3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?参考公式及数据:①b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x ,②∑i =15x i y i =0.9,∑i =15x 2i =0.55.解(1)如图所示.(2)由表格数据可得x =15×(0.1+0.2+0.3+0.4+0.5)=0.3,y =15×(0.2+0.35+0.5+0.65+0.8)=0.5,所以b ^=∑5i =1x i y i -5x y∑5i =1x 2i -5x2=0.9-5×0.3×0.50.55-5×0.3×0.3=1.5, a ^=y -b ^x =0.5-1.5×0.3=0.05,故y ^=1.5x +0.05.(3)设利率需上升x 个百分点,由(2)得,0.625×2=1.5x +0.05,解得x =0.8, 所以预测利率需上升0.8个百分点. 命题点2非线性回归模型例3(2023·保山模拟)某印刷企业为了研究某种图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的关系,收集了一些数据并进行了初步整理,得到了如图所示的散点图及一些统计量的值.表中u i =1x i ,u =17∑i =17u i .(1)根据散点图判断y =a +bx 与y =c +dx哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的经验回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据求出y 关于x 的经验回归方程;(3)若该图书每册的售价为9元,则预测至少应该印刷多少册,才能使销售利润不低于80000元(假设能够全部售出).附:对于一组数据(ω1,v 1),(ω2,v 2),…,(ωn ,v n ),其经验回归方程v ^=β^ω+α^的斜率和截距的最小二乘估计分别为β^=i =1n (ωi -ω)(v i -v )i =1n(ωi -ω)2,α^=v -β^ω.解(1)由散点图判断y =c +d x更适合作为该图书每册的成本费y 与印刷数量x 的经验回归方程.(2)先建立y 关于u 的经验回归方程得y ^=c ^+d ^u ,由于d ^=i =17(u i -u )(y i -y )i =17(u i -u )2=70.7=10,故c ^=y -d ^u =3.5-10×0.2=1.5,所以预测y 关于u 的经验回归方程为y ^=1.5+10u ,从而y 关于x 的经验回归方程为y ^=1.5+10x.(3)假设印刷x 千册,依据题意得9x -⎝ ⎛⎭⎪⎫1.5+10x x ≥80,解得x ≥12,所以预测至少应该印刷12 000册图书,才能使销售利润不低于80 000元. 思维升华 求经验回归方程的步骤跟踪训练2(2022·南充模拟)某特色餐馆开通了某APP 的外卖服务,在一周内的某特色菜外卖份数x (单位:份)与收入y (单位:元)之间有如下的对应数据:(1)在给出的坐标系中画出数据散点图;(2)请根据以上数据用最小二乘法求出收入y 关于份数x 的经验回归方程; (3)据此估计外卖份数为12时,收入为多少元.参考数据公式:∑i =15x 2i =145,∑i =15x i y i =1380,b ^=i =1n(x i -x )(y i -y )i =1n(x i -x )2=∑i =1nx i y i -n xy∑i =1nx 2i -n x2,a ^=y -b ^x .解(1)作出散点图如图所示.(2)由表格数据得,x =2+4+5+6+85=5,y =30+40+60+50+705=50,则b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=1 380-5×5×50145-5×52=6.5,a ^=y -b ^x =50-6.5×5=17.5,因此,所求经验回归方程为y ^=6.5x +17.5.(3)当x =12时,y ^=12×6.5+17.5=95.5,即外卖份数为12时,预测收入为95.5元. 题型三残差分析例4(1)(多选)下列说法正确的是()A .在经验回归方程y ^=-0.85x +2.3中,当解释变量x 每增加1个单位时,响应变量y ^平均减少2.3个单位B .在经验回归方程y ^=-0.85x +2.3中,相对于样本点(1,1.2)的残差为-0.25 C .在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好 D .若两个变量的决定系数R 2越大,表示残差平方和越小,即模型的拟合效果越好 答案BCD解析对于A ,根据经验回归方程,当解释变量x 每增加1个单位时,响应变量y ^平均减少0.85个单位,故A 错误;对于B ,当解释变量x =1时,响应变量y ^=1.45,则样本点(1,1.2)的残差为-0.25,故B 正确;对于C ,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C 正确;对于D ,由决定系数R 2的意义可知,R 2越大,表示残差平方和越小,即模型的拟合效果越好,故D 正确.(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:根据表中数据,得出y 关于x 的经验回归方程为y ^=0.28x +a ^,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m =________. 答案1.4解析由题设,1.5-y ^=1.5-(0.28×5+a ^)=-0.06,可得a ^=0.16.又x =1+2+3+4+55=3,y =0.5+0.6+1+m +1.55=3.6+m 5,所以0.28×3+0.16=3.6+m5, 可得m =1.4.思维升华 检验回归模型的拟合效果的两种方法(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果. (2)R 2分析:通过公式计算R 2,R 2越大,残差平方和越小,模型的拟合效果越好;R 2越小,残差平方和越大,模型的拟合效果越差. 跟踪训练3(1)下列命题是真命题的为()A .经验回归方程y ^=b ^x +a ^一定不过样本点B .可以用样本相关系数r 来刻画两个变量x 和y 线性相关程度的强弱,r 的值越小,说明两个变量线性相关程度越弱C .在回归分析中,决定系数R 2=0.80的模型比决定系数R 2=0.98的模型拟合的效果要D .残差平方和越小的模型,拟合的效果越好 答案D解析对于A ,经验回归方程不一定经过其样本点,但一定经过(x ,y ),所以A 是假命题;对于B ,由样本相关系数的意义,当|r |越接近0时,表示变量y 与x 之间的线性相关程度越弱,所以B 是假命题;对于C ,用决定系数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好,所以C 是假命题;对于D ,由残差的统计学意义知,D 是真命题. (2)两个线性相关变量x 与y 的统计数据如表:其经验回归方程是y ^=b ^x +40,则相应于点(9,11)的残差为________. 答案-0.2解析因为x =15×(9+9.5+10+10.5+11)=10,y =15×(11+10+8+6+5)=8,所以8=10b ^+40,解得b ^=-3.2,所以y ^=-3.2x +40,当x =9时,y ^=11.2, 所以残差为11-11.2=-0.2.课时精练1.下列有关线性回归的说法,不正确的是()A.具有相关关系的两个变量不是因果关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.任一组数据都有经验回归方程答案D解析根据两个变量具有相关关系的概念,可知A正确;散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以B,C正确;具有相关关系的成对样本数据才有经验回归方程,所以D不正确.2.对于样本相关系数,下列说法错误的是()A.样本相关系数可以用来判断成对样本数据相关的正负性B.样本相关系数可以是正的,也可以是负的C.样本相关系数r∈[-1,1]D.样本相关系数越大,成对样本数据的线性相关程度也越强答案D解析样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强,故D错误.3.(2023·运城模拟)在线性回归模型中,变量x 与y 的一组样本数据对应的点均在直线y =12x +1上,R 2=1-i =1n(y i -y ^i )2i =1n (y i -y )2,则R 2等于() A.14 B.12 C .1 D.52 答案C解析因为样本数据对应的点均在一条直线上, 所以R 2=1.4.(多选)某工厂研究某种产品的产量x (单位:吨)与所需某种材料y (单位:吨)之间的相关关系,在生产过程中收集4组数据如表所示.根据表中数据可得经验回归方程为y ^=0.7x +a ^,则下列四个说法中正确的为()A.变量x 与y 正相关 B .y 与x 的样本相关系数r <0C.a ^=0.35D .当产量为8吨时,预测所需材料约为5.95吨 答案ACD解析因为经验回归方程y ^=0.7x +a ^, 所以变量x 与y 呈正相关,所以样本相关系数r >0,故A 正确,B 错误; 由表格可得x =3+4+6+74=5,y =2.5+3+4+5.94=3.85, 则0.7×5+a ^=3.85,解得a ^=0.35,故C 正确;所以经验回归方程为y ^=0.7x +0.35,当x =8时,y ^=0.7×8+0.35=5.95,即产量为8吨时,预测所需材料约为5.95吨,故D 正确.5.(多选)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的平均值为176 cm ,根据这10名志愿者的数据求得臂展u 关于身高v 的经验回归方程为u ^=1.2v -34,则下列结论正确的是()A .这10名志愿者身高的极差小于臂展的极差B .这10名志愿者的身高和臂展呈负相关C .这10名志愿者臂展的平均值为176.2 cmD .根据经验回归方程可估计身高为160 cm 的人的臂展为158 cm 答案AD解析对于选项A ,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A 正确; 对于选项B ,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B 错误;对于选项C ,因为这10名志愿者身高的平均值为176cm ,所以这10名志愿者臂展的平均值为1.2×176-34=177.2(cm),故C 错误;对于选项D ,若一个人的身高为160 cm ,则由经验回归方程u ^=1.2v -34,可得这个人的臂展的估计值为158 cm ,故D 正确.6.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y 和色差x 之间满足线性相关关系,且y ^=0.8x +a ^,现有一对测量数据为(30,23.6),则该数据的残差为()A.-0.96B .-0.8C .0.8D .0.96 答案C解析由题意可知,x =21+23+25+274=24,y =15+18+19+204=18,将(24,18)代入y ^=0.8x +a ^,即18=0.8×24+a ^,解得a ^=-1.2,所以y ^=0.8x -1.2,当x =30时,y ^=0.8×30-1.2=22.8, 所以该数据的残差为23.6-22.8=0.8.7.某智能机器人的广告费用x (万元)与销售额y (万元)的统计数据如表所示:根据此表可得经验回归方程为y ^=5x +a ^,据此模型预测广告费用为8万元时销售额为________万元. 答案57解析由表格,得x =2+3+5+64=4,y =28+31+41+484=37, 所以37=5×4+a ^,即a ^=17,所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).8.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y =2e 2x +1的图象附近,设z =ln y ,将其变换后得到经验回归方程为z =mx +n ,则mn =________. 答案2ln2+2解析由z =ln y ,则ln y =ln2e 2x +1,即z =ln2+lne 2x +1=ln2+2x +1,则z =2x +ln2+1,故m =2,n =ln2+1,所以mn =2ln2+2.9.假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:已知∑i =15x 2i =90,∑i =15y 2i ≈140.8,∑i =15x i y i =112.3,79≈8.9,2≈1.4.(1)求x ,y ;(2)计算y 与x 的样本相关系数r (精确到0.001),并判断该设备的使用年限与所支出的维修费用的相关程度.附:样本相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2=∑ni =1x i y i -n x y (∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2).解(1)x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5.0.(2)∑i =15x i y i -5x y =112.3-5×4×5=12.3,∑i =15x 2i -5x 2=90-5×42=10,∑i =15y 2i -5y2≈140.8-5×52=15.8,所以r =∑i =15x i y i -5x y∑i =15x 2i -5x2∑i =15y 2i -5y2≈12.310×15.8=12.32×79≈12.31.4×8.9≈0.987,r 接近1,说明该设备的使用年限与所支出的维修费用之间具有很高的相关性. 10.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:m 3),得到如下数据:并计算得∑10i =1x 2i =0.038,∑10i =1y 2i =1.6158,∑10i =1x i y i =0.2474. (1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量; (2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01); (3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m 2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:样本相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2=∑ni =1x i y i -n x y (∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2),1.896≈1.377.解(1)样本中10棵这种树木的根部横截面积的平均值x =0.610=0.06(m 2),样本中10棵这种树木的材积量的平均值y =3.910=0.39(m 3), 据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m 2,平均一棵的材积量为0.39 m 3.(2)r=∑i=110xiyi-10x y(∑i=110x2i-10x2)(∑i=110y2i-10y2)=0.2474-10×0.06×0.39 (0.038-10×0.062)×(1.6158-10×0.392)=0.01340.0001896≈0.01340.01377≈0.97.(3)设该林区这种树木的总材积量的估计值为Y m3,又已知树木的材积量与其根部横截面积近似成正比,可得0.060.39=186Y,解得Y=1209.则该林区这种树木的总材积量的估计值为1209m3.11.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y 关于x的经验回归方程为y^=6x2+a^,则下列说法正确的是()A.a^=4B.a^=-8C .此回归模型第4周的残差为5D .估计第6周治愈人数为220 答案BC解析设t =x 2,则y ^=6t +a ^,由已知得t =15×(1+4+9+16+25)=11,y =15×(2+17+36+93+142)=58,所以a ^=58-6×11=-8,故A 错误,B 正确; 在y ^=6x 2-8中,令x =4, 得y ^4=6×42-8=88,所以此回归模型第4周的残差为y 4-y ^4=93-88=5,故C 正确; 在y ^=6x 2-8中,令x =6, 得y ^6=6×62-8=208,故D 错误.12.2020年,全球开展了某疫苗研发竞赛,我国处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2500人,分成5组,各组感染人数如下:并求得y 与x 的经验回归方程为y ^=0.011x +a ^,同期,在人数为10000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为N ;注射疫苗后仍被感染的人数记为n ,则估计该疫苗的有效率为________.(疫苗的有效率为1-n N,结果保留3位有效数字) 答案0.818解析 由表格中的数据可得x =500,y =5,故a ^=5-0.011×500=-0.5,故N =0.011×10 000-0.5=110-0.5=109.5≈110,而n =20,故疫苗的有效率为1-20110≈0.818.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 7,y 7)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,7)都在曲线y =a ln(x -1895)+12.15附近波动,经计算i =17(x i -1895)=210.77,i =17y i =73.50,i =17ln(x i -1895)=23.10,则实数a 等于()A .-0.5B .0.5C .-1D .1 答案A解析因为17i =17ln(x i -1895)=23.107=3.3,17i =17y i =73.507=10.5,所以10.5=3.3a +12.15,解得a =-0.5.14.(多选)已知由样本数据(x i ,y i )(i =1,2,3,…,10)组成的一个样本,得到经验回归方程为y ^=2x -0.4,且x =2,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为3.则下列说法正确的是() A .相关变量x ,y 具有正相关关系B .去除两个歧义点后,新样本中变量x j (j =1,2,…,8)的平均值变大C .去除两个歧义点后的经验回归方程为y ^1=3x -3 D .去除两个歧义点后,样本数据(4,8.9)的残差为0.1 答案ABC解析对于A ,因为经验回归直线的斜率大于0,所以相关变量x ,y 具有正相关关系,故A 正确;对于B ,将x =2代入y ^=2x -0.4得y =3.6,则去除两个歧义点后,得到新的相关变量的平均值分别为X =2×10-(-2+2)8=52,Y =3.6×10-(1-1)8=92,故B 正确;对于C ,a ^=92-3×52=-3,新的经验回归方程为y ^1=3x -3,故C 正确;对于D ,当x =4时,y ^1=3×4-3=9,残差为8.9-9=-0.1,故D 错误.。
回归分析练习题及参考答案
1 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:地区人均GDP/元人均消费水平/元北京辽宁上海江西河南贵州陕西 224601122634547485154442662454973264490115462396220816082035求:(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(0.05α=)。
(6)如果某地区的人均GDP为5000元,预测其人均消费水平。
(7)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
解:(1)可能存在线性关系。
(2)相关系数:(3)回归方程:734.6930.309y x=+回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
系数(a)模型非标准化系数标准化系数t 显著性B 标准误Beta1 (常量)734.693 139.540 5.265 0.003人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%(4)模型汇总模型R R 方调整 R 方标准估计的误差1 .998a.996 .996 247.303a. 预测变量: (常量), 人均GDP。
人均GDP对人均消费的影响达到99.6%。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%注意:图标不要原封不动的完全复制软件中的图标,要按规范排版。
计量经济学复习资料——概论一元和多元线性回归习题
计量经济学复习资料——概论⼀元和多元线性回归习题概论、⼀元线性回归、多元线性回归习题⼀、单项选择题1. 总体回归线是指( ) A )样本观测值拟合的最好的曲线 B )使残差平⽅和最⼩的曲线C )解释变量X 取给定值时,被解释变量Y 的样本均值的轨迹D )解释变量X 取给定值时,被解释变量Y 的条件均值或期望值的轨迹2. 指出下列哪⼀变量关系是确定函数关系⽽不是相关关系? () A. 商品销售额与销售价格 B. 学习成绩总分与各门课程成绩分数 C. 物价⽔平与商品需求量 D. ⼩麦亩产量与施肥量3. 经济计量分析⼯作的基本⼯作步骤是-() A .设定理论模型→收集样本资料→估计模型参数→检验模型B .设定模型→估计参数→检验模型→应⽤模型C .理论分析→数据收集→计算模拟→修正模型D .确定模型导向→确定变量及⽅程式→应⽤模型4. 若⼀元线性回归模型Y=β1+β2X +u 满⾜经典假定,那么参数β1、β2的普通最⼩⼆乘估计量β^1、β^2是所有线性估计量中( )A )⽆偏且⽅差最⼤的B )⽆偏且⽅差最⼩的C )有偏且⽅差最⼤的D )有偏且⽅差最⼩的5. 在⼀元线性回归模型Y=β1+β2X +u 中,若回归系数β2通过了t 检验,则表⽰( ) A )β^2≠0 B )β2≠0 C )β2=0 D )β^=06. 在多元线性回归模型Y=β1+β2X 2+β3X 3 +β4X 4+u 中,对回归系数βj (j=2,3,4)进⾏显著性检验时,t 统计量为( )A )()jjSe ββ?? B )()j j Se ββ C )()j j Var ββ D )()j j Var ββ??7. 在⼆元线性回归模型中,回归系数的显著性t 检验的⾃由度为( )。
A. n B. n-1 C. n-2 D. n-38. 普通最⼩⼆乘法要求模型误差项u i 满⾜某些基本假定,下列结论中错误的是( )。
A. E(u i )=0 B. E(2i u )=2i σC. E(u i u j )=0D. u i ~N(0.σ2)9. 对模型Yi=β0+β1X1i+β2X2i+µi 进⾏总体显著性F 检验,检验的零假设是( ) A. β1=β2=0 B. β1=0 C. β2=0 D. β0=0或β1=010. 在多元线性回归中,判定系数R 2随着解释变量数⽬的增加⽽() A.减少 B .增加 C .不变 D .变化不定11. 已知三元线性回归模型估计的残差平⽅和为8002=∑te,估计⽤样本容量为24=n ,则随机误差项t u 的⽅差估计量2S 为( )。
统计学一元线性回归课后习题答案
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形 态 (2)计算线性相关系数,说明两个变量之间的关系强度。 (3)利用最小二乘法求出估计的回归方程,并解释回归系数的实 际意义。
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态
6.0 5.0
运送时间(天)
4.0 3.0 2.0 1.0 0.0 0 200 400 600 800 1000 运送距离(公里) 1200 1400 1600
确定显著性水平=0.05,并根据分子自由度1和分母自 由度7-2找出临界值F =6.61 作出决策:若F>F ,拒绝H0,线性关系显著
(6)如果某地区的人均GDP为5 000元,预测其人均消费水平。
y = 734.6928+ 0.308683 x
y = 734.6928+ 0.308683 *5000=2278.1078
2
8*(202 162 ... 222 ) 20 16 ... 22 8*(64 2 612 ... 77 2 ) (64 61 ... 77)
r=0.8621
11.3、根据一组数据建立的线性回归方程 要求: ˆ 的意义。 1)解释截距 0 ˆ 1)解释斜率 1的意义。 2)当=6时的E(y)
系列
二者之间为负的线性相关关系
2)用航班正点率作自变量,建立估计的回归方程,并解释 回归系数的意义
Coefficient s Intercept 429.8986352
标准误差 74.97337331
t Stat 5.734018
P-value 0.000437
航班正点率
-4.7011299
0.985891202
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二、三章 回归方程复习题一、 单项选择题1、将内生变量的前期值作解释变量,这样的变量称为( D )。
A .虚拟变量 B. 控制变量C .政策变量 D. 滞后变量2、把反映某一总体特征的同一指标的数据,按一定的时间顺序和时间间隔排列起来,这样的数据称为( B )。
A .横截面数据 B. 时间序列数据C .修匀数据 D. 原始数据3、在简单线性回归模型中,认为具有一定概率分布的随机数量是( A )。
A .内生变量 B. 外生变量C .虚拟变量 D. 前定变量4、回归分析中定义的( B ) 。
A .解释变量和被解释变量都是随机变量B .解释变量为非随机变量,被解释变量为随机变量C .解释变量和被解释变量都为非随机变量D .解释变量为随机变量,被解释变量为非随机变量5、双对数模型μββ++=X Y ln ln ln 10中,参数β1的含义是( C )。
A .Y 关于X 的增长率 B. Y 关于X 的发展速度C .Y 关于X 的弹性 D. Y 关于X 的边际变化6、半对数模型i i i X Y μββ++=ln 10中,参数β1的含义是( D )。
A .Y 关于X 的弹性 B. X 的绝对量变动,引起Y 的绝对量变动C .Y 关于X 的边际变动 D. X 的相对变动,引起Y 的期望值绝对量变动7、在一元线性回归模型中,样本回归方程可表示为:( C )。
A .t t t X Y μββ++=10 B. t t t t X Y E Y μ+=)|(C .t t X Y 10ˆˆˆββ+= D. t t t X X Y E 10)|(ββ+= (其中t=1,2,…,n )8、设OLS 法得到的样本回归直线为i i i e X Y ++=10ˆˆββ,以下说法不正确的是( D )。
A .0=∑i e B. ),(Y X 在回归直线上C .Y Y =ˆ D. 0),(≠i i e X COV9、同一时间,不同单位相同指标组成的观测数据称为( B )。
A .原始数据 B. 横截面数据C .时间序列数据 D. 修匀数据10、在模型t t t t X X Y μβββ+++=22110的回归分析结果报告中,有F=263489.23,F 的p 值=0.000000,则表明( C )。
A .解释变量X 1t 对Y t 的影响是显著的B .解释变量X 2t 对Y t 的影响是显著的C .解释变量X 1t 和X 2t 对Y t 的联合影响是显著的D .解释变量X 1t 和X 2t 对Y t 的影响是均不显著11、经典一元线性回归分析中的回归平方和ESS 的自由度是( D )。
A .n B. n-1 C. n-k-1 D. 112、对经典多元线性回归方程的显著性检验,所用的F 统计量可表示为( B )。
A .kRSS k n ESS /)1/(-- B. )1/(/--k n RSS k ESS C .k R k n R /)1()1/(22--- D. )1/(--k n RSS ESS 13、设OLS 法得到的样本回归直线为ii i e X Y ++=10ˆˆββ,则点),(Y X ( B ) 。
A . 一定不在回归直线上 B. 一定在回归直线上C .不一定在回归直线上 D. 在回归直线上方14、用模型描述现实经济系统的原则是( B )。
A .以理论分析作先导,解释变量应包括所有解释变量B .以理论分析作先导,模型规模大小要适度C .模型规模越大越好;这样更切合实际情况D .模型规模大小要适度,结构尽可能复杂15、根据样本资料估计得出人均消费支出Y 对人均收入X 的回归模型为ii X Y ln 75.000.2ˆln +=,这表明人均收入每增加1%,人均消费支出将平均增加( B )。
A .0.2% B. 0.75%C .2% D. 7.5%16、回归分析中使用的距离是点到直线的垂直坐标距离。
最小二乘准则是指( D )。
A .使|)ˆ(|1t n t t Y Y -∑=达到最小值 B. 使|ˆ|1tnt t Y Y -∑=达到最小值 C .使t t Y Y |ˆ|max -达到最小值 D. 使21)ˆ(tn t t Y Y -∑=达到最小值 17、已知三元线性回归模型估计的残差平方和为8002=∑t e ,估计用样本容量为n=24,则随机误差项μt 的方差估计量s 2为( B )。
A. 33.33B. 40C. 38.09D. 36.3618、设k 为经典多元回归模型中的解释变量个数,n 为样本容量,则对总体回归模型进行显著性检验(F 检验)时构造的F 统计量为( A )。
A. )1/(/--=k n RSS k ESS F B. )1/(/1---=k n RSS k ESS F C. RSS ESS F = D. ESSRSS F = 19、在多元回归中,调整后的判定系数2R 与判定系数2R 的关系为( A )。
A .2R <2RB .2R >2RC .2R =2RD .2R 与2R 的关系不能确定20、多元线性回归分析中的 RSS 反映了( C )。
A .应变量观测值总变差的大小B .应变量回归估计值总变差的大小C .应变量观测值与估计值之间的总变差D .Y 关于X 的边际变化21、计量经济模型中的内生变量( C )。
A .可以分为政策变量和非政策变量B .和外生变量没有区别C .其数值由模型所决定,是模型求解的结果D .是可以加以控制的独立变量22、在经典回归分析中,下列有关解释变量和被解释变量的说法正确的有( C )。
A .被解释变量和解释变量均为非随机变量B. 被解释变量和解释变量均为随机变量C .被解释变量为随机变量,解释变量为非随机变量D. 被解释变量为非随机变量,解释变量为随机变量23、在下列各种数据中,( C )不应作为经济计量分析所用的数据。
A .时间序列数据 B. 横截面数据C .计算机随机生成的数据 D. 虚拟变量数据24、经典一元线性回归分析中的 ESS 的自由度是( B )A .nB .1C .n-2D .n-125、在基本假设成立的条件下用OLS 方法估计线性回归模型参数,则参数估计量具有( C )的统计性质。
A .有偏特性 B. 非线性特性C .最小方差特性 D. 非一致性特性26、以下选项中,正确表达了序列相关的是( A )。
A .j i COV j i ≠≠,0),(μμ,B .j i COV j i ≠=,0),(μμC .j i Y X COV j i ≠≠,0),(D .j i X COV j i ≠≠,0),(μ27、利用OLS 估计得到的样本回归直线ii X Y 10ˆˆˆββ+=必然通过点( A )。
A .),(Y X B. )0,(X C. ),0(Y D. )0,0(28、二元回归模型中,经计算有相关系数9985.021=X X R ,则表明( B )。
A .X 1和X 2间存在完全共线性 B. X 1和X 2间存在不完全共线性C .X 1对X 2的拟合优度等于0.9985 D. 不能说明X 1和X 2间存在多重共线性29、关于可决系数R 2,以下说法中错误的是( D )。
A .可决系数R 2的定义为被回归方程已经解释的变差与总变差之比;B .]1,0[2∈R ;C .可决系数R 2反映了样本回归线对样本观测值拟合优劣程度的一种描述;D .可决系数R 2的大小不受到回归模型中所包含的解释变量个数的影响。
30、一元线性回归分析中TSS=RSS+ESS 。
则RSS 的自由度为( D )。
A .n B. n-1 C. 1 D. n-231、计量经济学的研究方法一般分为以下四个步骤( B )。
A .确定科学的理论依据、模型设定、模型修定、模型应用B .模型设定、估计参数、模型检验、模型应用C .搜集数据、模型设定、估计参数、预测检验D .模型设定、模型修定、结构分析、模型应用32、下列说法正确的有( C )。
A .时序数据和横截面数据没有差异B. 对总体回归模型的显著性检验没有必要C. 总体回归方程与样本回归方程是有区别的D. 判定系数R 2不可以用于衡量拟合优度33、对样本的相关系数γ,以下结论错误的是( B )。
A .|γ| 越接近1,X 与Y 之间线性相关程度越高B .|γ| 越接近0,X 与Y 之间线性相关程度越高C .-1≤γ≤1D .γ=0 ,在正态假设下,X 与Y 相互独立二、多项选择题1、下列哪些变量一定属于先决变量( CD )。
A. 内生变量B. 随机变量C. 滞后变量D. 外生变量E. 工具变量2、经典线性回归模型的普通最小二乘估计量的特性有( ABCD )。
A .无偏性 B. 线性性 C. 最小方差性D .一致性 E. 有偏性3. 利用普通最小二乘法求得的样本回归直线ii X Y 10ˆˆˆββ+=的特点是( ACD )。
A. 必然通过点),(Y XB. 可能通过点),(Y XC. 残差e i 的均值为常数D. i Y ˆ的平均值与Y i 的平均值相等E. 残差e i 与解释变量X i 之间有一定的相关性4、计量经济模型的检验一般包括的内容有( ABCD )。
A .经济意义的检验 B. 统计推断的检验C .计量经济学的检验 D. 预测的检验 E. 对比检验5、以下变量中可以作为解释变量的有( ABCDE )。
A .外生变量 B. 滞后内生变量 C. 虚拟变量D .前定变量 E. 内生变量6、可决系数的公式为( BCD )。
A .TSS RSS B. TSS ESS C. TSS RSS-1D .RSS ESS ESS + E. RSS ESS7、调整后的判定系数2R 的正确表达式有( BC )。
A .∑∑==----n i i n i i n e k n y 1212)1/()1/(1 B. ∑∑==----ni i n i i n y k n e 1212)1/()1/(1C .11)1(12-----k n n R D. 11)1(12---+-k n n RE .i n kn R ----)1(128、进行总体经典回归模型的显著性检验时所用的F 统计量可表示为( DE)。
A .k RSS k n ESS /)1/(-- B. )1/(/-n RSS k ESS C .)1)(1()1/(22-----k n R k n R D. )1/()1(/22---k n R k R E .)1/(/--k n RSS kESS9、有关调整后的判定系数2R 与判定系数2R 之间的关系叙述正确的有( BC )。
A .2R 与2R 均非负B .模型中包含的解释变量个数越多,2R 与2R 就相差越大C .只要模型中包括截距项在内的参数的个数大于1,则2R <2RD .2R 有可能大于2RE .2R 有可能小于0,但2R 却始终是非负10、对于二元样本回归模型ii i i e X X Y +++=22110ˆˆˆβββ,下列各式成立的有( ABC )。