线性回归练习题资料
一元线性回归模型练习题
一元线性回归模型练习题P55 3.1实验问题:实验步骤与内容:1、导入数据资料2、定义样本区间3、建立一元线性回归模型4、根据一元线性回归模型解释斜率系数的经济意义以及相关系数r5、对参数进行检验6、通过计算预测2010年财政收入问题解释与结论:(1):建立深圳地方预算内财政收入对GDP的一元线性回归模型。
通过对数据的运用,可以得出一元线性回归方程为Y=26.020961+0.08882X 其中,可以得到散点图为:一元线性回归拟合图为:(2)估计所建立模型的参数,解释斜率系数的经济意义;斜率系数和简单相关系数r的正负号相同吗?=26.02096是样本回归方程的截距,它表示不受国内生产总值影响的地方预算β=0.08882表示国内生产总值每增加一个单位的地方预财政收入为26.0296,β1算财政收入平均增加0.8882个单位,从回归模型不难看出,随着变量X的增大,Y变量的值也在增大。
根据简单相关系数的概念,且从第一题所求出来的回归结果可知,r>0,两个变量之间是正相关,即斜率系数和简单相关系数r的正负号相同。
(3)对回归参数进行t检验。
由此得到t=4.081 p=0.0006808,给定显著性水平 =0.05,查表得t(19)=2.0930,由于t=4.081>2.0930,拒绝原假设,说明斜率在5%的显著性0.05/2水平下显著不为0,这表明,国内生产总值对深圳市地方预算内财政收入有显著影响。
(4)拟合优度R2是多少?由第一题求出的线性回归可得:由上图中数据分析结果可以看出R2=0.9607,说明GDP解释了地方预算内财政收入的96%,模型拟合程度较好。
(6)若2010年的国内生产总值为11000亿元,试预测2010年的财政收入。
由一元线性回归模型可知,当2010年国内生产总值为11000亿元时,地方财政收入为:Y=26.020961+0.08882X=26.020961+0.08882*11000=1003.040961(亿元)3.6实验问题题表3.6是64个国家的儿童死亡率与人均GNP 数据,请用合适的模型作儿童死亡率对人均GNP 的一元线性回归,解释回归结果的含义,画出儿童死亡率对人均GNP 倒数的散点图,并与回归结果对应解释。
计量经济学复习资料——概论一元和多元线性回归习题
计量经济学复习资料——概论⼀元和多元线性回归习题概论、⼀元线性回归、多元线性回归习题⼀、单项选择题1. 总体回归线是指( ) A )样本观测值拟合的最好的曲线 B )使残差平⽅和最⼩的曲线C )解释变量X 取给定值时,被解释变量Y 的样本均值的轨迹D )解释变量X 取给定值时,被解释变量Y 的条件均值或期望值的轨迹2. 指出下列哪⼀变量关系是确定函数关系⽽不是相关关系? () A. 商品销售额与销售价格 B. 学习成绩总分与各门课程成绩分数 C. 物价⽔平与商品需求量 D. ⼩麦亩产量与施肥量3. 经济计量分析⼯作的基本⼯作步骤是-() A .设定理论模型→收集样本资料→估计模型参数→检验模型B .设定模型→估计参数→检验模型→应⽤模型C .理论分析→数据收集→计算模拟→修正模型D .确定模型导向→确定变量及⽅程式→应⽤模型4. 若⼀元线性回归模型Y=β1+β2X +u 满⾜经典假定,那么参数β1、β2的普通最⼩⼆乘估计量β^1、β^2是所有线性估计量中( )A )⽆偏且⽅差最⼤的B )⽆偏且⽅差最⼩的C )有偏且⽅差最⼤的D )有偏且⽅差最⼩的5. 在⼀元线性回归模型Y=β1+β2X +u 中,若回归系数β2通过了t 检验,则表⽰( ) A )β^2≠0 B )β2≠0 C )β2=0 D )β^=06. 在多元线性回归模型Y=β1+β2X 2+β3X 3 +β4X 4+u 中,对回归系数βj (j=2,3,4)进⾏显著性检验时,t 统计量为( )A )()jjSe ββ?? B )()j j Se ββ C )()j j Var ββ D )()j j Var ββ??7. 在⼆元线性回归模型中,回归系数的显著性t 检验的⾃由度为( )。
A. n B. n-1 C. n-2 D. n-38. 普通最⼩⼆乘法要求模型误差项u i 满⾜某些基本假定,下列结论中错误的是( )。
A. E(u i )=0 B. E(2i u )=2i σC. E(u i u j )=0D. u i ~N(0.σ2)9. 对模型Yi=β0+β1X1i+β2X2i+µi 进⾏总体显著性F 检验,检验的零假设是( ) A. β1=β2=0 B. β1=0 C. β2=0 D. β0=0或β1=010. 在多元线性回归中,判定系数R 2随着解释变量数⽬的增加⽽() A.减少 B .增加 C .不变 D .变化不定11. 已知三元线性回归模型估计的残差平⽅和为8002=∑te,估计⽤样本容量为24=n ,则随机误差项t u 的⽅差估计量2S 为( )。
回归分析练习题
1. 从20的样本中得到的有关回归结果是:SSR=60,SSE=40。
要检验x 与y 之间的线性关系是否显著,即检验假设:01:0H β=。
(1)线性关系检验的统计量F 值是多少? (2)给定显著性水平a =0.05,F a 是多少? (3)是拒绝原假设还是不拒绝原假设?(4)假定x 与y 之间是负相关,计算相关系数r 。
(5)检验x 与y 之间的线性关系是否显著?解:(1)SSR 的自由度为k=1;SSE 的自由度为n-k-1=18;因此:F=1SSR k SSE n k --=6014018=27 (2)()1,18F α=()0.051,18F =4.41 (3)拒绝原假设,线性关系显著。
(4),由于是负相关,因此r=-0.7746(5)从F 检验看线性关系显著。
2. 某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。
通过计算得到下面的有关结果:(1)完成上面的方差分析表。
(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?(3)销售量与广告费用之间的相关系数是多少?(4)写出估计的回归方程并解释回归系数的实际意义。
(5)检验线性关系的显著性(a=0.05)。
(2)R2=0.9756,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。
(3)r=0.9877。
(4)回归系数的意义:广告费用每增加一个单位,汽车销量就增加1.42个单位。
(5)回归系数的检验:p=2.17E—09<α,回归系数不等于0,显著。
回归直线的检验:p=2.17E—09<α,回归直线显著。
3. 根据两个自变量得到的多元回归方程为12ˆ18.4 2.014.74yx x =-++,并且已知n =10,SST =6 724.125,SSR =6 216.375,1ˆ0.0813s β=,2ˆs β=0.056 7。
要求:(1)在a=0.05的显著性水平下,12,x x 与y 的线性关系是否显著? (2)在a =0.05的显著性水平下,1β是否显著?(3)在a =0.05的显著性水平下,2β是否显著?解(1)回归方程的显著性检验:假设:H 0:1β=2β=0 H 1:1β,2β不全等于0 SSE=SST-SSR=6 724.125-6 216.375=507.75 F=1SSR p SSE n p --=6724.1252507.751021--=42.85()2,7F α=4.74,F>()2,7F α,认为线性关系显著。
线性回归方程.附答案docx
线性回归方程一、考点、热点回顾一、相关关系:1、⎩⎨⎧<=1||1||r r 不确定关系:相关关系确定关系:函数关系2、相关系数:∑∑∑===-⋅---=ni ini ini iiy y x x y y x x r 12121)()())((,其中:(1)⎩⎨⎧<>负相关正相关00r r ;(2)相关性很弱;相关性很强;3.0||75.0||<>r r3、散点图:初步判断两个变量的相关关系。
二、线性回归方程:1、回归方程:a x b yˆˆˆ+= 其中2121121)())((ˆxn x yx n yx x x y yx x bn i i ni ii n i i ni ii--=---=∑∑∑∑====,x b y aˆˆ-=(代入样本点的中心) 2、残差:(1)残差图:横坐标为样本编号,纵坐标为每个编号样本对应的残差。
(2)残差图呈带状分布在横轴附近,越窄模型拟合精度越高。
(3)残差平方和∑=-ni i iyy12)ˆ(越小,模型拟合精度越高。
3、相关指数:∑∑==---=n i ini i iy yyyR 12122)()ˆ(1(1)其中:∑=-ni i iyy12)ˆ(为残差平方和;∑=-ni i y y 12)(为总偏差平方和。
(2))1,0(2∈R ,越大模型拟合精度越高。
二、典型例题+拓展训练典型例题1:在一组样本数据),,,2)(,(),,(),,(212211不全相等n n n x x x n y x y x y x ≥的散点图中,若所有样本点),2,1)(,(n i y x i i =都在直线121+-=x y 上,则样本相关系数为( ) 21.21.1.1.--D C B A典型例题2:设某大学的女生体重)(kg y 与身高)(cm x 具有线性相关关系,根据一组样本数据)2,1)(,(n i y x i i =,用最小二乘法建立的回归方程为71.8585.0ˆ-=x y ,则不正确的是( )A.y 与x 具有正的线性相关关系;B.回归直线过样本点的中心),(y xC.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg扩展2.一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?典型例题3.为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.52211521()155110.8451000()i i i ii y y R yy ==-=-=-=-∑∑,221R =-521521()18010.821000()ii i ii yy y y ==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.扩展1.下列说法正确的是( )(1)残差平方和越小,相关指数2R 越小,模型拟合效果越差; (2)残差平方和越大,相关指数2R 越大,模型拟合效果越好; (3)残差平方和越小,相关指数2R 越大,模型拟合效果越好; (4)残差平方和越大,相关指数2R 越小,模型拟合效果越差;A.(1)(2)B.(3)(4)C.(1)(4)D.(2)(3)扩展2.关于某设备的使用年限x (年)和所支出的维修费用y (万元)有下表所示的资料:若由资料知,y 对x 呈线性相关关系,求:(1)线性回归方程a x b yˆˆˆ+=中的回归系数b a ˆ,ˆ; (2)残差平方和与相关指数2R ,作出残差图,并对该回归模型的拟合精度作出适当判断; (3)使用年限为10年时,维修费用大约是多少?三、典型例题4.非线性回归模型:某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费和年销售量(i=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值。
计量经济学一元线性回归模型习题及答案(完整资料)
一元线性回归模型一、单项选择题1、变量之间的关系可以分为两大类__________。
A 函数关系与相关关系B 线性相关关系和非线性相关关系C 正相关关系和负相关关系D 简单相关关系和复杂相关关系2、相关关系是指__________。
A 变量间的非独立关系B 变量间的因果关系C 变量间的函数关系D 变量间不确定性的依存关系3、进行相关分析时的两个变量__________。
A 都是随机变量B 都不是随机变量C 一个是随机变量,一个不是随机变量D 随机的或非随机都可以4、表示x 和y 之间真实线性关系的是__________。
A 01ˆˆˆt tY X ββ=+ B 01()t t E Y X ββ=+ C 01t t t Y X u ββ=++ D 01t t Y X ββ=+5、参数β的估计量ˆβ具备有效性是指__________。
A ˆvar ()=0βB ˆvar ()β为最小C ˆ()0ββ-= D ˆ()ββ-为最小 6、对于01ˆˆi i iY X e ββ=++,以σˆ表示估计标准误差,Y ˆ表示回归值,则__________。
A i i ˆˆ0Y Y 0σ∑=时,(-)=B 2i i ˆˆ0Y Y σ∑=时,(-)=0C i i ˆˆ0Y Y σ∑=时,(-)为最小D 2i i ˆˆ0Y Y σ∑=时,(-)为最小7、设样本回归模型为i 01i iˆˆY =X +e ββ+,则普通最小二乘法确定的iˆβ的公式中,错误的是__________。
A ()()()i i 12i X X Y -Y ˆX X β--∑∑= B ()i iii122iin X Y -X Y ˆn X -X β∑∑∑∑∑=C ii122X Y -nXY ˆX -nX β∑∑= i 01i iY =X +e ββ+,以ˆσ表示估计标准误差,r 表示相关系数,则有__________。
A ˆ0r=1σ=时, B ˆ0r=-1σ=时, C ˆ0r=0σ=时, D ˆ0r=1r=-1σ=时,或 9、产量(X ,台)与单位产品成本(Y ,元/台)之间的回归方程为ˆY356 1.5X -=,这说明__________。
高中数学选择性必修三 精讲精炼 8 一元线性回归模型及其应用(精练)(含答案)
8.2 一元线性回归模型及其应用(精练)【题组一 样本中心求参数】1.(2021·全国·高二单元测试)某公司生产某种婴幼儿纸尿裤的产量x 与相应的生产能耗y 有如下样本数据:已知这组样本数据具有线性相关关系,由表中数据,求得回归直线的斜率为0.72,则这组样本数据的回归直线方程是( )A .ˆ0.72 2.05yx =+ B .ˆ0.720.35yx =+ C .ˆ0.720.26yx =+ D .ˆ0.350.72yx =+ 【答案】C【解析】设回归直线方程为ˆˆ0.72yx a =+,由样本数据,可得 4.5x =, 3.5y =, 因为回归直线经过点(),x y ,所以ˆ3.50.72 4.5a=⨯+,解得ˆ0.26a =, 所以回归直线方程为ˆ0.720.26yx =+. 故选:C .2.(2021·江西·吉安一中高二开学考试 )已知x 与y 之间的一组数据:()()()()13253749,,,,,,,,则y 与x 的线性回归方程为y bx a =+必过( )A .()26,B .()38,C .()2.56,D .()3.58,【答案】C【解析】由题意可知:1234 2.54x +++==,357964y +++==, ∴y 与x 的线性回归方程必过点()2.5,6.故选:C.3(2021·河南·孟津县第一高级中学 )为了庆祝建党100周年,某网站从7月1日开始推出党史类书籍免费下载活动,已知活动推出时间x (单位:天)与累计下载量y (单位:万次)的统计数据如表所示:根据上表,利用最小二乘法得到回归直线方程 1.4ˆˆyx a =+,据此模型预测,活动推出11天的累计下载量约A .13.8万次B .14.6万次C .16万次D .18万次【答案】C【解析】由表格数据知4567868910126,955x y ++++++++====,由回归直线方程的性质,得ˆ1.469a⨯+=,所以ˆ0.6a =,故ˆ 1.40.6y x =+, 所以当11x =时, 1.4110.616y =⨯+=(万次), 故选:C.4.(2021·河北·藁城新冀明中学高二月考)(多选)随着养生观念的深入,国民对餐饮卫生条件和健康营养的要求逐渐提高.据了解,烧烤食品含有强致癌物,因此吃烧烤的人数日益减少,烧烤店也随之减少.某市对2014年至2018年这五年间全市烧烤店盈利店铺的个数进行了统计,具体统计数据如下表所示:根据所给数据,得出y 关于t 的回归直线方程为273y bt =+,则下列说法正确的是( ) A .该市2014年至2018年全市烧烤店盈利店铺个数的平均数219y = B .y 关于t 的回归直线方程为18273y t =-+ C .估计该市2020年烧烤店盈利店铺的个数为147D .预测从2025年起,该市烧烤店盈利店铺的个数将不超过100 【答案】ABC【解析】由已知数据得3t =,219y =,故A 正确;因为y 关于t 的回归直线过点()3,219,所以2193273b =+,所以18b =-, 所以y 关于t 的回归直线方程为18273y t =-+.故B 正确;2020年的年份代码为7,故2020年该市烧烤店盈利店铺的个数约为187273147y =-⨯+=.故C 正确; 令18273100t -+≤,由*t N ∈,得10t ≥,故从2023年起,该市烧烤店盈利店铺的个数将不超过100.故D 不正确,故选:ABC.5.(2021·广东惠州 )(多选)某种产品的价格x (单位:元/kg )与需求量y (单位:kg )之间的对应数据如根据表中的数据可得回归直线方程为14.4y bx =+,则以下结论正确的是( ) A .y 与x 正相关 B .y 与x 负相关C .样本中心为()20,8D .该产品价格为35元/kg 时,日需求量大约为3.4kg【答案】BC【解析】由表格数据,随着价格x 的增加,需求量y 随之减少,所以y 与x 负相关. 因为1015202530205x ++++==,111086585y ++++==,故样本中心为()20,8由回归直线14.4y bx =+必过样本点的中心()20,8, 所以有82014.4b =⨯+,解得0.32b =-,所以当35x =时,0.323514.4 3.2y =-⨯+=,日需求量不为最大 故选:BC6.(2021·重庆市秀山高级中学校 )(多选)已知变量x ,y 之间的线性回归方程为0.710.3y x =-+,且变量x ,y 之间的一组相关数据如表所示,则下列说法正确的是( )A .变量x ,y 之间呈负相关关系B .可以预测,当20x 时, 3.7y =-C .4m =D .该回归直线必过点()9,4 【答案】ABD【解析】对于A :由线性回归方程为0.710.3y x =-+可知:0.70-<,所以变量x ,y 之间呈负相关关系,故对于B :当20x 时,0.72010.3 3.7y =-⨯+=-,故选项B 正确;对于C :68101294x +++==,6321144m m y ++++==,因为回归直线过样本中心点,所以110.7910.34m+=-⨯+,解得:5m =,故选项C 不正确; 对于D :由C 可知5m =,所以11544y +==,所以该回归直线必过样本中心点()9,4,故选项D 正确; 故选:ABD.7.(2021·贵州·贵阳一中 )某产品的广告费用x 与销售额y 的统计数据如下表:根据上表已得回归方程为8.6.8ˆ5yx =-,表中一数据模糊不清,请推算该数据的值为___________. 【答案】12【解析】由题中数据可得3,8.63 5.820x y ==⨯-=,故空白数据为12. 故答案为:128.(2021·全国·高二课时练习)已知x ,y 的取值如下表所示,由散点图分析可知y 与x 线性相关,且回归直线方程为ˆ0.95 2.6yx =+,那么表格中的数据m 的值为______.【答案】6.7 【解析】013424x +++==, 2.2 4.3 4.811.344m m y ++++==, 把(),x y 的坐标代入回归直线方程得11.30.952 2.64m+=⨯+, 解得 6.7m =. 故答案为:6.79.(2021·全国·高二课时练习)蟋蟀鸣叫的频率P (每分钟鸣叫的次数)与气温T (单位:℃)有着很大的关系.某观测人员根据下表中的观测数据计算出P 关于T 的线性回归方程ˆ 5.2168PT =-,则下表中k 的值为______.【答案】51【解析】计算()138414239404T =⨯+++=,()110929443644k P k +=⨯+++=, 将点10940,4k +⎛⎫ ⎪⎝⎭的坐标代入P 与T 的线性回归方程ˆ 5.2168P T =-中,得109 5.2401684k +=⨯-, 解得51k =. 故答案为:51.10.(2021·福建宁德·高三期中)某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:由最小二乘法得到回归方程ˆ0.6754.9yx =+,则a =___________. 【答案】75 【解析】1020304050305x ++++==,62688189600.25a y a ++++==+,因为线性回归方程过样本中心点,所以600.20.673054.975a a +=⨯+⇒=,故答案为:75 【题组二 线性回归方程】1.(2021·河北·藁城新冀明中学高二月考)假定产品产量x (千件)与单位成本y (元/件)之间存在相关关系.数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归直线方程,对于单位成本70元/件时,预报产量为多少; (3)计算各组残差,并计算残差平方和;【答案】(1)散点图见解析;(2)ˆ 1.8277.37yx =-+,4.050千件;(3)各组残差见解析,残差平方和为3.8182. 【解析】(1)解:散点图如下:(2)解:因为2343453.56x +++++==,737271736968716y +++++==,61279ii x==∑,611481i ii x y==∑,所以6162221614816 3.571ˆ 1.82796 3.56i i i i ix yx ybx x==-⋅-⨯⨯==≈--⨯-∑∑,ˆˆ71 1.82 3.577.37ay bx =-=+⨯=, 所以回归直线方程为ˆ 1.8277.37yx =-+,令70y =,则70 1.8277.37x =-+,解得 4.050x ≈, 所以单位成本70元/件时,预报产量约为4.050千件. (3)解:各组残差分别为:()11173 1.822ˆ77.370.73ˆey y =--⨯+=-=-, ()22272 1.82377.370.0ˆˆ9ey y =--⨯+==-, ()33371 1.82477.370.9ˆˆ1ey y =--⨯+==-, ()44473 1.82377.37 1.0ˆˆ9ey y =--⨯+==-, ()55569 1.824ˆ77.37 1.09ˆey y =--⨯+=-=-, ()66668 1.825ˆ77.370.27ˆey y =--⨯+=-=-, 残差的平方和为()()()2222621220.730.090.91 1.09 1.090.27 3.2ˆ818i i i y y=--+++--==++∑. 2.(2021·甘肃张掖)某家庭2015~2019年的年收入和年支出情况统计如表:(1)已知y 与x 具有线性相关关系,求y 关于x 的线性回归方程(系数精确到0.01);(2)假设受新冠肺炎疫情影响,该家庭2021年的年收入为9.5万元,请根据(1)中的线性回归方程预测该家庭2021年的年支出金额.附:回归方程ˆˆˆybx a =+中的斜率的最小二乘估计公式为()()()1122211ˆnni iiii i nniii i x ynx y xxy y b xnxxx====---==--∑∑∑∑.【答案】(1)ˆ0.780.24yx =+;(2)7.65万元. 【解析】(1)依题意,1(99.61010.411)105x =++++=,1(7.37.588.58.7)85y =++++=,则()5212.32i i x x=-=∑,()()511.8i ii x xy y =--=∑,则有()()()125151.8ˆ0.782.32iii ii x x y y bx x ==--==≈-∑∑,则ˆˆ0.24a y bx =-≈, 所以y 关于x 的线性回归方程为ˆ0.780.24yx =+; (2)当2021年的年收入为9.5万元时,即9.5x =,ˆ0.789.50.247.65y=⨯+=, 所以预测该家庭2021年的年支出金额为7.65万元.3.(2021·云南师大附中)大气污染物PM 2.5的浓度超过一定的限度会影响人的健康.为了研究PM 2.5的浓度是否受到汽车流量的影响,研究人员选择了24个社会经济发展水平相近的城市,在每个城市选择一个交通点统计24小时内过往的汽车流量x (单位:千辆),同时在低空相同的高度测定该时间段空气中的PM 2.5的平均浓度y(单位:μg/m 3),制作了如图所示的散点图:(1)由散点图看出,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明(精确到0.01); (2)建立y 关于x 的回归方程;(3)我国规定空气中的PM 2.5浓度的安全标准为24小时平均依度75μg/m 3,某城市为使24小时的PM 2.5浓度的平均值在60~130μg/m 3,根据上述回归方程预测汽车的24小时流量应该控制在什么范围内?附:参考数据: 1.4x =,95y =,2421() 2.1i i x x =-=∑,2421()60343i i y y =-=∑,241()()294i i i x x y y =--=∑,357.参考公式:相关系数()()nii xx y y r --∑,回归方程ˆˆˆya bx =+中斜率和截距的最小二乘估计公式分别为:121()()ˆ()niii nii x x yy b x x ==--=-∑∑,ˆˆay bx =-. 【答案】(1)答案见解析;(2)140101y x =-;(3)24小时的车流量应该控制在1150~1650辆. 【解析】1)由题得2940.82357r =≈, 因为y 与x 的相关系数近似为0.82,说明y 与x 具有很强的相关性, 从而可以用线性回归模型拟合y 与x 的关系.(2)由95y =得2412421()()ˆ()iii ii x x y y bx x ==--=-∑∑2941402.1==,95140 1.4101a y bx =-=-⨯=-, 所以y 关于x 的回归方程为140101y x =-. (3)当60y =时,由14010160x -=得 1.15x =; 当130y =时,由140101130x -=得 1.65x =. 所以24小时的车流量应该控制在1150~1650辆.4.(2021·全国·高三专题练习)实施新规后,某商场2020年1月份至10月份的收入情况如表.并计算得101890i i i x y ==∑,1021385i i x ==∑,101150i i y ==∑75.99.(1)是否可用线性回归模型拟合y 与x 的关系?请用相关系数r 加以说明;(当0.751r ≤≤时,那么变量x ,y 有较强的线性相关关系)(2)建立y 关于x 的回归方程ˆˆˆybx a =+(结果保留1位小数),并预测该商场12月份的收入情况.(结果保留整数)附:()()()1122211ˆn niii ii i nniii i x x y y x y nx ybx x xnx====---==--∑∑∑∑,ˆˆay bx =-. 【答案】(1)y 与x 有较强的线性相关关系,可用线性回归模型拟合,说明答案见解析;(2)ˆ0.810.7yx =+,预测该商场12月份的收入为20万元.【解析】(1)由题中数据得1011155 5.51010i i x x ===⨯=∑,10111150151010i i y y ===⨯=∑,1010 5.515825x y =⨯⨯=,于是得1010111()()1089082565i i i i i x x y y x y y x ==--=-=-=∑∑,75.99,从而10()()650.8675.99iix x y y r --==≈∑,0.75||1r ≤≤, 所以y 与x 有较强的线性相关关系,可用线性回归模型拟合;(2)由(1)知1011065i i i x y x y =-=∑,而1021385i i x ==∑,221010 5.5302.5x =⨯=,从而得10122110106565ˆ0.8385302.582.510i ii i i x y ybx xx ==-===≈--∑∑,65ˆˆ15 5.510.782.5ay bx =-=-⨯=, 所以y 关于x 的线性回归方程为ˆ0.810.7yx =+,当12x =时,ˆ0.81210.720y =⨯+≈, 从而预测该商场12月份的收入为20万元.5(2021·河南许昌 )某新型外贸出口公司对2021年过去9个月的出口销售数据进行整理,得到了今年第x 个月份与截止该月底的销售额y (单位:万元)之间的关系,如下表:(1)若y 与x 满足线性关系,求出y 关于x 的回归方程;(ˆa,ˆb 精确到整数位) (2)预测该公司10月份的销售额附:参考数据:913087i i y ==∑;9117524i i i x y ==∑;921285i i x ==∑;参考公式:()()()1122211n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1)ˆ35169yx =+;(2)答案见解析. 【解析】(1)5x =,343y =,919175249534317524154352089i i i x y xy =∴-=-⨯⨯=-=∑92221952859560ii x=-⨯=-⨯=∑,2089ˆ3560b ∴=≈, 2089ˆ343516960a=-⨯≈, ˆ35169yx ∴=+ (2)当10x =时,ˆ3510169519y=⨯+=, 所以预测该公司10月份销售额为519万元.6.(2021·福建·莆田第二十五中学高三月考)2021年东京奥运会,中国举重选手8人参赛,7金1银,在全世界面前展现了真正的中国力量;举重比赛根据体重进行分级,某次举重比赛中,男子举重按运动员体重分为下列十级:每个级别的比赛分为抓举与挺举两个部分,最后综合两部分的成绩得出总成绩,所举重量最大者获胜,在该次举重比赛中,获得金牌的运动员的体重以及举重成绩如下表 (1)根据表中的数据,求出运动员举重成绩y 与运动员的体重x 的回归直线方程(保留1位小数); (2)某金牌运动员抓举成绩为170公斤,挺举成绩为204公斤,则该运动员最有可能是参加的哪个级别的举重?参考数据:()()()992112620,7076i i i i i x x x x y y ==-=--=∑∑;参考公式:()()()121ˆˆˆ,niii nii x x yy bay bx xx ==--==--∑∑. 【答案】(1) 2.7155.4y x =+;(2)83公斤级举重. 【解析】(1)依题意,5459647076839199106789x ++++++++==,2913043373533633894064214303669y ++++++++==,()()()1217076ˆ 2.702620nii i nii xx y y bxx ==--===-∑∑, 则366 2.778155.4a y bx =-=-⨯=, 故回归方程为: 2.7155.4y x =+.(2)该运动员的抓举和挺举的总成绩为374公斤,根据回归方程可知:374 2.7155.4x =+, 解得81x ≈,即该运动员的体重应该在81公斤左右,即参加的应该是83公斤级举重.7.(2021·西藏·拉萨中学高二月考)珠海国际赛车场(简称ZIC)位于珠海经济特区金鼎镇.创建于1996年,是中国国内第一座符合国际汽车联盟一级方程式标准的国际级赛车场.目前该赛事已打造成集赛车竞技运动、汽车文化极致体验、主题休闲度假为一体的超级汽车文化赛事娱乐综合体.为了减少对环境的污染,某环保部门租用了特制环保车清洁现场垃圾.通过查阅近5年参会人数(万人)与所需环保车辆数量(辆),得到如下统计表:(1)根据统计表所给5组数据,求出关于,x y 的线性回归方程ˆˆy bxa =+. (2)已知租用的环保车平均每辆的使用成本费用C (元)与数量(辆)的关系为3000200035,N 2900t t 35,N t t t C t +<<∈⎧=⎨≥∈⎩,主办方根据实际参会人数投入所需环保车,租车每辆支付费用6000元,超出实际需要的车辆,主办方不支付任何费用.预计本次赛车会大约有14万人参加,根据(1)中求出的线性回归方程,预测环保部门在确保清洁任务完成的前提下,应租用多少辆环保车?获得的利润是多少? (注:利润L =主办方支付费用-使用成本费用C ).参考公式:()()()1122211ˆ,ˆˆn niii ii i nniii i x x y y x y nxybay bx x x xnx ====---===---∑∑∑∑ 【答案】(1) 2.32y x =+;(2)为确保完成任务,需要租用35辆环保车,获得的利润108500元. 【解析】(1)11981012105x ++++==2823202529255y ++++== ()()()()()()()()()22222131******** 2.310111091081010101210ˆb ⨯+-⨯-+-⨯-++⨯===-+-+-+-+- ˆˆ2ay bx =-= 关于,x y 的线性回归方程 2.32y x =+ (2)将14x =代入 2.32y x =+得34.2y =为确保完成任务,需要租用35辆环保车, 所以290035101500C =⨯=获得的利润600035101500108500L =⨯-=元8.(2021·江西·新余市第一中学高二月考)某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月1日至3月5日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:(1)从3月1日至3月5日中任选2天,记发芽的种子数分别为m ,n ,求事件“m ,n 中至少有一个数小于25”的概率;(2)请根据3月2日至3月4日的数据,求出y 关于x 的线性回归方程y bx a =+.(参考公式:回归直线方程为y bx a =+,其中()1221ni ii nii x y nxyb xn x==-=-∑∑,a y bx =-)【答案】(1)710(2)532y x =-【解析】(1)从3月1日至3月5日中任选2天,m ,n 构成的基本事件(m ,n )有:(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(26,16),共有10个.记“m ,n 至少有一个数小于25”为事件A ,包括:(23,25),(23,30),(23,26),(23,16),(25,16),30,16),(26,16),共有7个基本事件 由古典概型概率公式:7()10P A = (2)11131225302612,27,33x y ++++==== 22221125133012263122751113123122b ⨯+⨯+⨯-⨯⨯==++-⨯. 于是,5271232a =-⨯=-故所求线性回归方程为532y x =- 9.(2021·全国·高二单元测试)某地区2013年至2019年居民纯收入y (单位:千元)的部分数据如表所示:2018和2019年的居民纯收入y (单位:千元)数据采用随机抽样的方式获得,用样本的均值来代替当年的居民人均纯收入,其数据如下:2018年抽取的居民纯收入(单位:千元)数据:5.2 4.8 6.5 5.6 6.0 7.1 6.1 7.3 5.9 7.5 2019年抽取的居民纯收入(单位:千元)数据:6.2 7.8 6.6 5.8 7.1 6.8 7.2 7.9 5.9 7.7 (1)求y 关于t 的线性回归方程;(2)当地政府为了提高居民收入水平,现从2018和2019年居民纯收入(单位:千元)高于7.0千元的样本中随机选择3人进行座谈,了解其工作行业及主要收入来源.设X 为选出的3人中2018年纯收入高于7.0千元的人数,求随机变量X 的分布列和数学期望.附:回归直线的斜率和截距的最小二乘法估计公式分别为:121()()()niii nii t t y y b tt ==--=-∑∑,a y bt =-.【答案】(1)ˆ0.5 3.3yt =+;(2)分布列见解析;期望为98. 【解析】(1)根据2018年的抽样数据可得2018年的人均纯收入为1(5.2 4.8 6.5 5.6 6.07.1 6.17.3 5.97.5) 6.210+++++++++= 千元,根据2019年的抽样数据可得2019年的人均纯收入为1(6.27.8 6.6 5.87.1 6.87.27.9 5.97.75) 6.910+++++++++=千元,由所给的数据得1(1234567)47t =++++++=,1(3.9 4.3 4.6 5.4 5.8 6.2 6.9) 5.37y =++++++=, ∴721()941014928i i t t =-=++++++=∑,71()()(3)( 1.4)(2)(1)(1)(0.7)00.110.520.93 1.614ii i tt y y =--=-⨯-+-⨯-+-⨯-+⨯+⨯+⨯+⨯=∑,∴71721()()14ˆ0.528()ii i ii tt y y btt ==--===-∑∑, 则ˆˆ 5.30.54 3.3ay bt =-=-⨯=, 则所求y 关于t 的线性回归方程为ˆ0.5 3.3yt =+; (2)由2018年和2019年的抽样数据可知,2018年居民纯收入高于7.0千元的有3人,2019年居民纯收入高于7.0千元的有5人,由题意可得,随机变量X 的可能取值为0,1,2,3,则35385(0)28C P X C ===,12353815(1)28C C P X C ===,21353815(2)56C C P X C ===,33381(1)56C P X C ===,∴随机变量X 的分布列为则X 的分布列为:则5151519()0123282856568E X =⨯+⨯+⨯+⨯= 【题组三 非线性回归方程】1.(2021·福建·泉州科技中学 )数独是源自18世纪瑞士的一种数学游戏,玩家需要根据99⨯盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(33⨯)内的数字均含1﹣9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.(1)赛前小明在某数独APP 上进行一段时间的训练,每天的解题平均速度y (秒)与训练天数x (天)有关,经统计得到如表的数据:现用by a x=+作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过100天训练后,每天解题的平均速度y约为多少秒?(2)小明和小红在数独APP 上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,两人约定先胜4局者赢得比赛.若小明每局获胜的概率为34,已知在前3局中小明胜2局,小红胜1局.若不存在平局,请你估计小明最终赢得比赛的概率.参考数据(其中1i t x =)参考公式:对于一组数据()11,u v ,()22,u v ,…,(),n n u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计公式分别为:1221ni i i nii u v nu vunuβ==-⋅=-∑∑,v u αβ=-⋅.【答案】(1)1000130y x=+,经过100天训练后,每天解题的平均速度y 约为140秒;(2)243256.【解析】(1)由题意,1(990990450320300240210)5007y =++++++=,令1t x=,设y 关于t 的线性回归方程为y bt a =+,则 717221184570.3750010000.5577i ii i i t y t yb t t==-⨯-⨯-===⋅∑∑,则50010000.37130a =-⨯=. ∴1000130y t =+,又1t x=,∴y 关于x 的回归方程为1000130y x=+, 故100x =时,140y =.∴经过100天训练后,每天解题的平均速度y 约为140秒.(2)设比赛再继续进行X 局小明最终赢得比赛,则最后一局一定是小明获胜, 由题意知,最多再进行4局就有胜负.当2X =时,小明4:1胜,∴339(2)4416P X ==⨯=;当3X =时,小明4:2胜,∴123339(3)144432P X C ⎛⎫==⨯⨯-⨯= ⎪⎝⎭;当4X =时,小明4:3胜,∴21333327(4)1444256P X C ⎛⎫==⨯⨯-⨯= ⎪⎝⎭.∴小明最终赢得比赛的概率为99272431632256256++=. 2.(2021·云南大理 )2021年6月17日9时22分,我国酒泉卫星发射中心用长征2F 遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A 型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A 型材料更好地投入商用,拟对A 型材料进行应用改造、根据市场调研与模拟,得到应用改造投入x (亿元)与产品的直接收益y (亿元)的数据统计如下:当017x <≤时,建立了y 与x 的两个回归模型:模型①: 4.1109ˆ.y x =+,模型②:ˆ14.4y =;当17x >时,确定y 与x 满足的线性回归方程为ˆˆ0.7yx a =-+. (1)根据下列表格中的数据,比较当017x <≤时模型①,②的相关指数2R 的大小,并选择拟合精度更高、更可靠的模型,预测对A 型材料进行应用改造的投入为17亿元时的直接收益;(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.附:刻画回归效果的相关指数()()22121ˆ1ni i i nii y yR y y ==-=--∑∑,且当2R 越大时,4.1≈.用最小二乘法求线性回归方程ˆˆˆybx a =+的截距:ˆˆa y bx =-. 【答案】(1)模型②拟合精度更高、更可靠,72.93亿;(2)投入17亿元比投入20亿元时收益小. 【解析】(1)对于模型①, 对应的15222740485460=387y ++++++=,故对应的()12222111271750i i i i y y y y ==-=-=∑∑,故对应的相关指数2179.1310.9551750R =-≈, 对于模型②,同理对应的相关指数2220.210.9881750R =-≈, 故模型②拟合精度更高、更可靠.故对A 型材料进行应用改造的投入为17亿元时的直接收益为ˆ14.472.93=≈y. (2)当17x >时, 后五组的2122232425235x ++++==,68.56867.5+66+65675y ++==,由最小二乘法可得()ˆ670.72383.1a=--⨯=, 故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:0.72083.1+574.172.93-⨯+=>,故投入17亿元比投入20亿元时收益小.3.(2021·全国·高二单元测试)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成,每件产品的非原料成本y (元)与生产的产品数量x (千件)有关,经统计得到如下数据:根据以上数据,绘制了如下散点图.参考数据:(其中1iu x =) (1)观察散点图判断,by a x=+与y c dx =+哪一个适宜作为非原料成本y 与生产的产品数量x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程; (3)试预测生产该产品10千件时,每件产品的非原料成本为多少元? 【答案】(1)b y a x =+;(2)100ˆ11y x=+;(3)21元.【解析】(1)由题意,根据题设中的散点图,可得这些点分布在b y a x =+的两侧,所以选择函数by a x=+作为非原料成本y 与生产的产品数量x 的回归方程类型. (2)令1u x =,则by a x=+可转化为y a bu =+,则y 与u 的关系可看成线性相关关系. 因为360458y ==,所以8182218183.480.344561ˆ1001.5380.1150.618i ii ii u yu y b uu==-⋅-⨯⨯====-⨯-∑∑,则ˆˆ451000.3411a y bu =-=-⨯=,所以ˆ11100y u =+,代入1u x =,得100ˆ11y x=+.(3)当10x =时,100ˆ112110y=+=,所以预测生产该产品10千件时,每件产品的非原料成本为21元. 4.(2021·全国·高三课时练习)某芯片公司为制订下一年的研发投入计划,需了解年研发资金投入量x (单位:亿元)对年销售额y (单位:亿元)的影响,该公司对历史数据进行对比分析,建立了两个函数模型:①2y x αβ=+,②e x t y λ+=,其中α,β,λ,t 均为常数,e 为自然对数的底数.现该公司对收集的近12年的年研发资金投入量i x 和年销售额i y (1,2,,12i =⋅⋅⋅)的数据作了初步处理,令2u x =,ln v y =,经计算得到如下数据:(1)设u 和y 的样本相关系数为1r ,x 和v 的样本相关系数为2r ,请从样本相关系数(精确到0.01)的角度判断,哪个模型拟合效果更好;(2)(i)根据(1)的选择及表中数据,建立y 关于x 的非线性经验回归方程;(ii)若下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 约为多少亿元? 参考数据为308477=⨯9.4868, 4.4998e 90≈.【答案】(1)模型e x t y λ+=的拟合效果更好;(2)(i)0.018 3.84ˆe x y+=;(ii)36.66亿元. 【解析】(1)()()121215000.8625000iiu u y y r --====∑,()()12214100.91770.211iix x v v r --====≈⨯∑,因为12r r <,所以从样本相关系数的角度判断,模型e x t y λ+=的拟合效果更好. (2)(i)先建立v 关于x 的经验回归方程. 由e x t y λ+=,得ln y x t λ=+,即v λx t =+.()()()121122114ˆ0.018770iii ii x x v v x x λ==--==≈-∑∑, ˆˆ 4.20.01820 3.84tv x λ=-=-⨯=, 所以v 关于x 的经验回归方程为0.01838ˆ.4vx +=, 所以0.0134ˆln 8.8x y=+,即0.018 3.84ˆe x y +=.(ii)若下一年销售额y 需达到90亿元,则由0.018 3.84ˆe x y+=,得0.018 3.8490e x +=, 又 4.4998e 90≈,所以4.49980.018 3.84x ≈+, 所以 4.4998 3.8436.660.018x -≈≈,所以预测下一年的研发资金投入量约为36.66亿元.5.(2021·全国·高二课时练习)噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了解声音强度D (单位:dB )与声音能量I (单位:2W cm -⋅)之间的关系,将测量得到的声音强度D 和声音能量I 的数据作了初步处理,得到如图所示的散点图:参考数据:111.0410I -⨯=,45.7D =,11.5W =-,()1022111.5610i i I I-=-=⨯∑,()10210.51i i W W=-=∑,()()101116.8810iii IID D -=--=⨯∑,()()1015.1i i i W W D D =-⋅-=∑,其中lg i i W I =,101110i i W W ==∑.(1)根据散点图判断,11D a b I =+与22lg D a b I =+哪一个适宜作为声音强度D 关于声音能量I 的回归模型?(给出判断即可,不必说明理由)(2)求声音强度D 关于声音能量I 的非线性经验回归方程.(3)假定当声音强度大于60dB 时,会产生噪声污染.城市中某点P 处共受到两个声源的影响,这两个声源的声音能量分别是a I 和b I ,且101410a bI I +=.已知点P 处的声音能量等于a I 与b I 之和.请根据(2)中的非线性经验回归方程,判断点P 处是否受到噪声污染,并说明理由.【答案】(1)22lg D a b I =+更适合;(2)ˆ10lg 160.7DI =+;(3)P 会受到噪声污染,理由见解析. 【解析】(1)22lg D a b I =+更适合. (2)设ˆˆD bW a =+,则 ∵()()()10110215.1ˆ100.51iii i i W W D D bW W==--===-∑∑, ∴ˆˆ160.7a D bW=-=, ∴D 关于W 的经验回归方程是ˆ10160.7DW =+,则D 关于I 的非线性经验回归方程是ˆ10lg 160.7DI =+. (3)设点P 处的声音能量为1I ,则1a b I I I =+. ∵101410a bI I +=, ∴()101010141410105910b a a b a b a b a b I I I I I I I I I I I ---=+=++=++≥⎛⎫⎛⎫ ⎪⎝⨯ ⎪⎝⎭⎭(当且仅当10310a I =,93510bI =⨯时等号成立) 根据(2)中非线性经验回归方程,知点P 处的声音强度D 的预报值的最小值,()10min 10lg 910160.710lg960.760D -=⨯+=+>,∴点P 会受到噪声污染.6.(2021·福建·福州三中高二期中)某地从2月20日开始的连续7天的某传染病累计确诊人数如下表:由上述表格得到如下散点图.(1)根据散点图判断lg =+y a b x 与x y c d =⋅(,c d 均为大于0的常数)哪一个更适合作为累计确诊人数y 与天数x 的回归方程类型(给出判断即可,不必说明理由),并求出y 关于x 的回归方程;(2)3月20日,该地的疾控中心接受了1000份血液样本,假设每份样本的检验结果是阳性还是阴性是相互独立的,且每份样本是阳性的概率是0.6,试剂把阳性样本检测出阳性结果的概率是0.99(试剂存在阳性样本检测不出来的情况,但不会把阴性样本检测呈阳性样本),求这1000份样本中检测出呈阳性的份数的期望.参考数据:其中11lg ,7i i i i v y v v ===∑参考公式:对于一组数据()()()1122,,,,,,n n u v u v u v ⋯,其回归直线ˆvu αβ=+的斜率和截距的最小二乘估计公式分别为1221,ni i i ni i u v nuvv u unuβαβ==-==--∑∑,v u αβ=-.【答案】(1)0.253.4710x x y c d y =⋅=⨯; (2)594【解析】(1)由散点图可知,x y c d =⋅更适合作为累计确诊人数y 与天数x 的回归方程类型. 把x y c d =⋅两边取对数,得lg lg lg y c x d =+, 令lg v y =,则lg lg v c x d =+,1(1234567)47x =++++++=,7211.54140i i v x ===∑,, 7172221750.1274 1.54lg 0.25140747i i i i i x v xvd x x==--⨯⨯===-⨯-∑∑,所以lg 1.540.2540.54c =-⨯=,则0.540.25v x =+, 所以y 关于x 的回归方程为0.253.4710x y =⨯; (2)设这1000份样本中检测出呈阳性的份数为X , 每份样本检测出阳性的概率为0.60.990.594P =⨯=, 由题意可知,(10000.594)XB ,,所以()10000.594594E X =⨯=份.故这1000份样本中检测出呈阳性的份数的期望为594.7.(2021·山西太原·高二期中(文))为了更好的指导青少年健康饮食,某机构调查了本地区不同身高的未成年男性,得到他们的体重的平均值,并对数据作了初步处理,得到下面的散点图及一些统计量的值.表中ln i i w y =(1)根据散点图判断,可采用x y a b =⋅作为这个地区未成年男性体重y 千克与身高x 厘米的回归方程.利用表中数据建立y 关于x 的回归方程;(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么该地区一名身高为175厘米,体重为78千克的在校男生的体重是否正常? 参考数据:0.020.71751.02,2,1.0231.99e e ===. 参考公式:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为()()()121ˆˆˆ,nii i nii uu v v v u uu βαβ==--==--∑∑.【答案】(1)2 1.02x y =⨯;(2)体重偏胖. 【解析】(1)由x y a b =⋅,得ln ln ln y a x b =+⋅, 设ˆˆˆw cx d=+,由表格中数据,得801ˆ0.02400050c ===, ˆ 3.40.021350.7d=-⨯=, 则0.70.02ln 0.7,ln 0.02,2, 1.02a b a e b e ======, 则y 关于x 的回归方程为2 1.02x y =⨯.(2)当175x =时,1752 1.02231.9963.98y =⨯=⨯=,因为63.98 1.276.77678⨯=<,所以该名在校男生的体重偏胖.。
回归分析例题[整理]
例题:利用我国原煤产量和铁路总货运量,建立一元线性回归预测方程。
解:第一步,准备和整理资料数据、搜集的资料要具有权威性和准确性。
1950~1990年我国煤炭产量与铁路货运量的实际数字见表3—8的X i和Y i两列。
第二步,确定自变量(原煤产量)和因变量(铁路货运量)。
第三步,作散点图。
根据数据资料作出的散点图见图3—10。
从该散点图看出,铁路货运量与煤产量的关系是一种正相关关系,特别在1980年以前,这种关系接近于线性。
第四步,确定预测模型的形式。
根据第三步选择线性回归模型:第五步,计算模型参数b0和b1。
首先把l 950年~1979年的数据代入计算,得到b0=34.499,b1=1.727,于是有回归方程:第六步.计算估计误差和相关系数。
经计算,估计标准误差:相关系数:r=0.9852。
第七步,初步经验检验。
从经验知道,铁路运量一般是应该随煤产量增加而增加的,就是说经验要求回归系数b1为正值,如果计算得到的是负值,就要检查原因。
在这里,b1为正值,说明回归方程并不违反经验常识,这一级检验通过。
第八步,统计检验。
统计检验包括以下几个方面的内容:a.离散系数检验。
要求小于10~15%。
b.相关系数检验。
一般认为相关系数r的绝对值若大于0.7,x和y就具有较高的相关程度。
本例中r=0.9852,两变量高度相关,c.判定系数检验。
r2=0.9726,说明因变量各实际值与估计值离差的97%以上已被回归方程解释,未被解释的只占不到3%。
d.t检验。
本例中t=30.4>t0.025(28)=2.084,模型通过了t检验。
e.D—W检验。
样本期间数n=30,自变量个数K’=1,显著性水平α=0.05的情况下,查D —W分布表得dL=1.35,du=1.49。
因为D—W=0.5492<dL=1.35,由判断标准可知,随机误差u i之间存在正的自相关问题。
也就是说,由于模型的随机误差存在正的自相关问题,用它进行预测可能会导致估计值过高。
回归分析习题及答案.doc
1.1回归分析的基本思想及其初步应用例题:1.在画两个变量的散点图时,下面哪个叙述是正确的()(A)预报变量在x轴上,解释变量在y轴上(B)解释变量在X轴上,预报变量在y轴上(0可以选择两个变量中任意一个变量在x轴上(D)可以选择两个变量中任意一个变量在y轴上解析:通常把自变量X称为解析变量,因变量y称为预报变量.选B2,若一组观测值(xi, yi) (x2, y2) ••- (x…, y n)之间满足 y-bxi+a+e;(i=l> 2. •••!!)若巳恒为0,则仁为_____________解析:e』亘为0,说明随机误差对方贡献为0.答案:1.3.假设关于某设备的使用年限x和所支出的维修费用y (万兀),有如下的统计资料:X 2 3 4 5 6y 22 38 55 65 70若由资料可知y对x呈线性相关关系试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?解:(1)列表如下:i 1 2 3 4 5X] 2 3 4 5 622 38 55 65 70时•44 114 220 325 420X; 4 9 16 25 36_ _ 5 5x = 4, y = 5,»;=9o, »,北=112.3z'=l z'=l5 ___况一5xy干旱,仃112.3-5x4x5 …c十正方= ------------- = ------------ -- = 1.23,S,厂2 90 —5x42小「- 5x<=|a = y -bx = 5-1.23x4 = 0.08线性回归方程为:y =bx + a = 1.23x + Q.QS ( 2 )当 x=10 时,y = 1.23x10 + 0.08 = 12.38 (万兀)即估计使用10年时维修费用是1238万元课后练习:1.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7. 19x+73.93 用这个模型预测这个孩子10岁时的身高,则正确的叙述是()A.身高一定是145. 83cm;B.身高在145. 83cm以上;C.身高在145. 83cm以下;D.身I W J在 145. 83cm 左右.2.两个变量y与x的回归模型中,分别选择了 4个不同模型,它们的相关指数人2如下,其中拟合效果最好的模型是()A.模型1的相关指数人2为0. 98B.模型2的相关指数R2为。
一元线性回归模型(习题与解答)
要求: ,即条件期望值; (1)对每一收入水平,计算平均的消费支出,E(Y︱Xi)
5
(2)以收入为横轴、消费支出为纵轴作散点图; (3)在散点图中,做出(1)中的条件均值点; (4)你认为 X 与 Y 之间、X 与 Y 的均值之间的关系如何? (5)写出其总体回归函数及样本回归函数;总体回归函数是线性的还是非线性的? 2-24.根据上题中给出的数据,对每一个 X 值,随机抽取一个 Y 值,结果如下:
•
∧
∑ ( n − xW ) y
i =1 i
n
Байду номын сангаас
1
i
这
里 Wi =
xi
∑ xi
•
2
,i=1,2,…,n。 2-15.已知两个量 X 和 Y 的一组观察值(xi,yi) 证明:Y 的真实值和拟合值有共同的均值。 因为散点图上的点 ( Ci , Yi ) 2-16. 一个消费分析者论证了消费函数 C i = a + bYi 是无用的, 不在直线 C i = a + bYi 上。他还注意到,有时 Yi 上升但 Ci 下降。因此他下结论:Ci 不是 Yi 的函数。请你评价他的论据(这里 Ci 是消费,Yi 是收入) 。 2-17.证明:仅当 R2=1 时,y 对 x 的线性回归的斜率估计量等于 x 对 y 的线性回归的斜率 估计量的倒数。 2-18.证明:相关系数的另一个表达式是: r = 系数的估计值,Sx、Sy 分别为样本标准差。 2-19.对于经济计量模型: Yi = b0 + b1 X i + u i ,其 OLS 估计参数 b1 的特性在下列情况下 会受到什么影响: (1)观测值数目 n 增加; (2)Xi 各观测值差额增加; (3)Xi 各观测值近 似相等; (4)E(u2)=0 。 2-20.假定有如下的回归结果: Yt = 2.6911 − 0.4795 X t ,其中,Y 表示美国的咖啡的消费 量(每天每人消费的杯数) ,X 表示咖啡的零售价格(美元/杯) ,t 表示时间。
(完整版)第十二章相关和回归分析练习试题
第十二章相关与回归分析一、填空1. 如果两变量的相关系数为0,说明这两变量之间__ 。
2.相关关系按方向不同,可分为_____ 和________ 。
3. 相关关系按相关变量的多少,分为和复相关。
4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。
自变量是作为(变化根据)的变量,因变量是随(自变量)的变化而发生相应变化的变量。
5.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,因变量则一般是(随机性)变量。
6.变量间的相关程度,可以用不知Y与 X有关系时预测 Y的全部误差 E1,减去知道 Y与 X有关系时预测Y的联系误差E2,再将其化为比例来度量,这就是(削减误差比例)。
7.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个1)实际观察值 Y 围绕每个估计值 Y c是服假定:从();(2)分布中围绕每个可能的 Y c 值的()是相同的。
7. 已知:工资(元)倚劳动生产率(千元)的回归方程为yc 10 80x,因此,当劳动生产率每增长 1 千元,工资就平均增加 80 元。
8.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为(回归方程),并据以进行估计和预测。
这种分析方法,通常又称为(回归分析)。
9.积差系数 r 是(协方差)与 X 和 Y 的标准差的乘积之比。
二、单项选择1.欲以图形显示两变量 X 和 Y 的关系,最好创建( D )。
A 直方图 B 圆形图 C 柱形图 D 散点图2.在相关分析中,对两个变量的要求是(A )。
A 都是随机变量B 都不是随机变量C 其中一个是随机变量,一个是常数D 都是常数3.相关关系的种类按其涉及变量多少可分为()。
A. 正相关和负相关B. 单相关和复相关C. 线性相关和非线性相关D. 不相关、不完全相关、完全相关4.关于相关系数,下面不正确的描述是(B )。
计量经济学 实验一 一元线性回归 完成版
实验一一元线性回归方程1.下表是中国2007年各地区税收Y和国内生产总值GDP的统计资料。
单位:亿元地区Y GDP 地区Y GDP北京1435.7 9353.3 湖北434.0 9230.7 天津438.4 5050.4 湖南410.7 9200.0 河北618.3 13709.5 广东2415.5 31084.4 山西430.5 5733.4 广西282.7 5955.7 内蒙古347.9 6091.1 海南88.0 1223.3 辽宁815.7 11023.5 重庆294.5 4122.5 吉林237.4 5284.7 四川629.0 10505.3 黑龙江335.0 7065.0 贵州211.9 2741.9 上海1975.5 12188.9 云南378.6 4741.3 江苏1894.8 25741.2 西藏11.7 342.2 浙江1535.4 18780.4 陕西355.5 5465.8 安徽401.9 7364.2 甘肃142.1 2702.4 福建594.0 9249.1 青海43.3 783.6 江西281.9 5500.3 宁夏58.8 889.2 山东1308.4 25965.9 新疆220.6 3523.2 河南625.0 15012.5要求,运用Eviews软件:(1)作出散点图,建立税收随国内生产总值GDP变化的一元线性回归方程,并解释斜率的经济意义;解:散点图如下:得到估计方程为:ˆ0.07104710.62963=-y x这个估计结果表明,GDP 每增长1亿元,各地区税收将增加0.071047亿元。
(2) 对所建立的回归方程进行检验;解:从回归的估计的结果来看,模型拟合得较好。
可决系数20.7603R =,表明各地区税收变化的76.03%可由GDP 的变化来解释。
从斜率项的t 检验值看,大于5%显著性水平下自由度为229n -=的临界值0.025(29) 2.05t =,且该斜率满足0<0.071047<1,表明2007年,GDP 每增长1亿元,各地区税收将增加0.071047亿元。
第十二章 简单回归分析
第十二章简单回归分析选择题A1型每一道题下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。
1、线性回归分析可用于下列()的依存关系的研究A、性别与身高B、年龄与体重C、职业与工龄D、民族语血型E、国籍与智商2、对变量X和Y同时进行线性相关分析和线性回归分析,其结果一定是()A、r>0,b<0B、r<0,b>0C、r b≥0D、r=bE、r与b的符号无关3、已知相关系数r=1,则一定有()A、SS总=SS残B、SS总=SS回C、SS残=SS回D、a=1E、b=14、线性回归分析中,对总体回归系数B是否为0做t检验,其自由度是()A、nB、n-1C、n-2D、2n-1E、2n-25、如果对线性回归模型进行假设检验,结果是没能拒绝H0,这就意味着()A、该模型有应用价值B、该模型无应用价值C、该模型求解错误D、X与Y之间无关系E、尚无充分证据说明X与Y之间有线性关系6、求得X与Y的线性回归方程后,对回归系数作假设检验的目的是:对()作出统计推断A、样本截距B、总体截距C、样本斜率D、总体斜率E、决定系数7、在求出Y关于X变化的线性回归方程后发现,将原始数据中的某一点(X k,Y k)的横坐标值X k代入方程所得的Y k≠Y k,则可以认为()A此现象正常B、此现象无法解释C、计算有错误D、X与Y之间呈非线性关系E、X与Y之间呈线性关系8、对含有两个随机变量的同一批资料,既作线性相关,有作线性回归分析。
对相关系数检验的t值记为t r,对回归系数检验的t值记为t b,则二者之间的关系是()A、t r>t bB、t r<t bC、t r≥t bD、t r≤t bE、t r=t b9、对以X为自变量,Y为因变量作线性回归分析时,下列正确的说法是()A、只要求X服从正态分布B、只要求Y服从正态分布C、只要求X与Y是定量变量D、要求X与Y都服从正态分布E、要求X与Y服从双变量正态分布10、利用最小二乘原则确定回归方程的要求是:使得各数据点()A、距回归直线纵向距离的平方和最小B、距回归直线横向距离的平方和最小C、距回归直线距离的平方和最小D、距回归直线垂直距离的平方和最小E、距回归直线平行距离的平方和最小11、线性回归分析中,当()时,回归方程拟合的效果越佳A、截距越大B、斜率越大C、回归系数越大D、相关系数越大E、决定系数越大12、线性回归分析中,若对总体回归系数B是否为0作方差分析,得到F>F a(v1,v2),则可认为()A、两变量之间存在回归关系B、两变量之间不存在回归关系C、两变量之间存在线性回归关系D、两变量之间不存在线性回归关系E、两变量之间存在因果关系【参考答案】(一)1、B 2、C 3、B 4、C 5、E 6、D 7、A 8、E 9、D 10、A 11、E 12、C。
线性回归方程(高中数学)
线性回归方程(高中数学)篇一:高中数学《线性回归方程》教案(2)线性回归方程教学目标:(1)了解非确定性关系中两个变量的统计方法;(2)掌握散点图的画法及在统计中的作用;(3)掌握回归直线方程的实际应用。
教学重点: 线性回归方程的求解。
教学难点: 回归直线方程在现实生活与生产中的应用。
教学过程:一、复习练习1.下例说法不正确的是( B )A.在线性回归分析中,x和y都是变量;B.变量之间的关系若是非确定关系,那么x不能由y唯一确定;C.由两个变量所对应的散点图,可判断变量之间有无相关关系;D.相关关系是一种非确定性关系.2.已知回归方程y??0.5x?0.81,则x=25时, y的估计值为__11.69____.,24)的线性回归方程是(D )3.三点(3,10),(7,20),(11 1.75?1.75x By??1.75?5.75x Ay1.75?5.75x Dy??1.75?1.75x C y4.我们考虑两个表示变量x与y之间的关系的模型,?为误差项,模型如下:模型1:y?6?4x:;模型2:y?6?4x?e.(1)如果x?3,e?1,分别求两个模型中y的值;(2)分别说明以上两个模型是确定性模型还是随机模型.解(1)模型1:y=6+4x=6+4×3=18;模型2:y=6+4x+e=6+4×3+1=19.(2)模型1中相同的x值一定得到相同的y值.所以是确定性模型;模型2中相同的x值,因?不同,且?为误差项是随机的,所以模型2是随机性模型。
二、典例分析例1、一个车间为了规定工时定额,需要确定加工零件所花费的时间.为此进行了10次试验,测得数据如下:程.解:在直角坐标系中画出数据的散点图,直观判断散点在一条直线附近,故具有线性相关关系.由测得的数据表可知: x?55,y?91.7,?xi?38500,?yi?87777,?xiyi?55950 22i?1i?1i?1101010bxy10xyiii?11010?xi2?10xi?12?55950?10?55?91.7?0.668 238500?10?55a?y?bx?91.7?0.668?55?54.96因此,所求线性回归方程为y?bx?a?0.668x?54.96例2、已知10只狗的血球体积及红血球数的测量值如下:(1)画出上表的散点图;(2)求出回归直线方程并画出图形.解:x?1(45?42?46?48?42?35?58?40?39?50)?44.50 10y?1(6.53?6.30?9.52?7.50?6.99?5.90?9.49?6.20?6.55?8.72)=7.37 10设回归直线方程为y?bx?a则b??xy?10xyiii?11010?xi?12i?10x2?0.175a?y?bx= -0.418所以所求回归直线的方程为y?0.175x?0.148例3、以下是收集到的新房屋销售价格y与房屋的大小x 的数据:上回归直线;(3)计算此时Q(a,b)和Q(2,0.2)的值,并作比较.解:(1)(2) n?5,?xi?15i?545,?109,?yi?116,?23.2, i?155?xi?152i?60952,?xiyi?12952 i?1b?5?12952?545?116?0.1962,a?23.2?0.1962?109?1.8166 25?60952?545所以,线性回归方程为y?0.1962x?1.8166(3) Q(1.8166,0.1962)?5.171,Q(2,0.2)?7.0由此可知,求得的a?1.8166,b?0.9162是函数Q(a,b)取最小值的a,b值.三、课堂练习1.为了考察两个变量x和y之间的线性相关性,甲乙两位同学各自独立做了10次和15次实验,并且利用线性回归直线分别为l1,l2,已知两人获得的实验数据中,变量x和y的数据平均值都相等,且分别为s,t那么下例说话正确的是() A.直线l1和l2一定有公共点(s,t)B.直线l1和l2相交,但交点不一定是(s,t)C.必有l1// l2 D.l1和l2与必定重合2.已知关于某设备的使用年限x与所支出的维修费用y (万元),有如下统计资料:设y对x程线性相关关系.试求:(1)线性回归方程y?bx?a的回归系数a,b;(2)估计使用年限为10年时,维修费用多少?四、回顾小结:求线性回归方程的步骤:?(1)、(2)计算xi与yi的积,求?xiyi,2(3)计算?x2,y?i,i(4)将上述有关结果代入公式,求b,a写出回归直线方程.五、课外作业:课本第82页第9题.篇二:高中数学线性回归方程讲解练习题1审阅人:2篇三:线性回归方程[高考数学总复习][高中数学课时训] 线性回归方程基础自测①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.1.下列关系中,是相关关系的为(填序号).答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x 的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号). ①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t) ③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案① 3.下列有关线性回归的说法,正确的是(填序号). ①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③ 4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;?x+a?,可以估计和预测变量的取值和变化趋势. ?=b?及回归系数b③通过回归直线y其中正确命题的序号是. 答案①②③=0.50x-0.81,则x=25时,y?的估计值为 . 5.已知回归方程为y答案11.69例 1 下面是水稻产量与施化肥量的一组观测数据:施化肥量水稻产量15 20 25 30 35 40 45 320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.例2 (14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程. 解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. (2)=110n7分110(0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,=(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分 =bxyi?1nii?n?≈0.813 6,2ixi?1n2a=1.42-1.74×0.813 6≈0.004 3,13分=0.813 6x+0.004 3. ∴回归方程y14分例 3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;x+a=b;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解(1)散点图如下图:(2)=43?4?5?64=4.5,=2.5?3?4?4.54=3.5xi?14iyi=3×2.5+4×3+4×5+6×4.5=66.5. xi?12i=32+42+52+62=864=∴bxyii?14i4=2i66.5?4?3.5?4.586?4?4.52=0.7xi?142=3.5-0.7×4.5=0.35. =-b=0.7x+0.35. ∴所求的线性回归方程为y(3)现在生产100吨甲产品用煤y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解(1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y与x呈线性相关,试求回归方程. 解=30,= 566.7?76.0?85.0?112.3?128.05=93.6.=bi?15i?1iyi?5?≈0.880 9.2ixa52=93.6-0.880 9×30=67.173. =-b=0.880 9x+67.173. ∴回归方程为y3.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少?(3)假定产量为6 000件时,单位成本为多少元? 66i解(1)n=6,xi?1=21,yi?1i=426,=3.5,=71, 662xii?1=79,xyii?1i=1 481,6=bxi?16i?1iyi?6?=2i1481?6?3.5?7179?6?3.52=-1.82.xa62=71+1.82×3.5=77.37. =-bx=77.37-1.82x. =a+b回归方程为y?=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有: (2)因为单位成本平均变动b产量每增加一个单位即 1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x=6,代入回归方程:y=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是.答案a,c,b=1.5x-15,则下列说法正确的有个. 2.回归方程y①=1.5-15 ②15是回归系数a ③1.5是回归系数a ④x=10时,y=0 答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为y=8.25x+60.13,下列叙述正确的是.①该地区一个10岁儿童的身高为142.63 cm ②该地区2~9岁的儿童每年身高约增加8.25 cm。
第十三章 多重线性回归分析
第十三章多重线性回归分析习题一、是非题1.当一组资料的自变量为分类变量时,对这组资料不能做多重线性回归分析. ( )2.若多重线性方程模型有意义.则各个偏回归系数也均有统计学意义. 〔)3.回归模型变量的正确选择在根本上依赖于所研究问题本身的专业知识.()4.从各自变量偏回归系数的大小.可以反映出各自变量对应变量单位变化贡献的大小. ( )5.在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数不变. ( )二、选择题1. 多重线性回归分析中,共线性是指(),导致的某一自变量对Y的作用可以由其他自变量的线性函数表示.A. 自变量相互之间存在高度相关关系B. 因变量与各个自变量的相关系数相同C. 因变量与自变量间有较高的复相关关系D. 因变量与各个自变量之间的回归系数相同2. 多重线性回归和Logistic 回归都可应用于().A. 预测自变量B. 预测因变量Y 取某个值的概率πC. 预测风险函数hD. 筛选影响因素(自变量)3.在多重回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数:A.不变B.增加相同的常数C.减少相同的常数D.增加但数值不定4.在多元回归中,若对某个自变量的值都乘以一个相同的常数k,则:A.该偏回归系数不变B.该偏回归系数变为原来的 1/k倍C.所有偏回归系数均发生改变D.该偏回归系数改变,但数值不定5.作多重线性回归分析时,若降低进入的F 界值,则进入方程的变量一般会:A.增多 B.减少 C.不变 D.可增多也可减少三、筒答题1.为什么要做多重线性回归分析?2.多重线性模型中,标准化偏回归系数的解释意义是什么?3.简述确定系数的定义及意义.4.多重线性回归中自变量的筛选共有哪几种方法.请比较它们的优缺点?5.何谓多重共线性,多重共线性对资料分析有何影响?。
11线性回归与相关
SS 剩余= SS 总-SS 回归
这三个平方和的自由度依次为:
总=n-1,
回归=1,
剩余=n-2
MS回归
SS回归 回归
MS剩余
SS剩余 剩余
MS回归 F MS剩余
对例题回归方程用方差分析进行假设检验
(1)建立假设检验 H0:β =0 H1:β ≠0 α =0.05 (2)计算统计量
则
归关系进行检验。
回归系数的假设检验可用下面简化公式计算
SS总 (Y Y ) 2 Y 2 ( Y ) 2 n
ˆ Y )2 (Y b( X X ) Y ) 2 b2 ( X X )2 SS回归 (Y
LXY L2 XY b LXX bLXY LXX LXX
linear correlation
相关系数r没有度量衡单位,其数值为 1 r 1。
r 0 表示正相关; r 0 表示负相关;r 0 表示
无相关,即无直线关系。当 | r | 1 时称为完全相 关。
相关系数的绝对值愈接近1,表示相关愈密切;相
关系数愈接近0,表示相关愈不密切。
1 9
1020.23 9.81
103.97
< 0.01
对例题的回归方程用t 检验进行假设检验 (1)建立假设检验 β =0 β ≠0 α =0.05 (2)计算统计量
细心的读者可以发现统计量 F 与 t 之间存在着关系 F t 。 本例 103.97 10.22 。
88.31 sY X 3.13 9 1.523 0 t 10.22 0.149
r r0.005/2,9 , 界值表 r0.005 / 2 ,9 0.776 , P 0.005
高考数学总复习考点知识讲解与提升练习70 一元线性回归模型及其应用
高考数学总复习考点知识讲解与提升练习专题70 一元线性回归模型及其应用考点知识1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.知识梳理1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.2.样本相关系数(1)r=i=1n(x i-x)(y i-y)i=1n(x i-x)2i=1n(y i-y)2.(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将y ^=b ^x +a ^称为Y 关于x 的经验回归方程,其中⎩⎪⎨⎪⎧b ^=i =1n(x i -x )(y i -y )i =1n(x i-x )2,a ^=y -b ^x .(2)残差:观测值减去预测值称为残差. 常用结论1.经验回归直线过点(x ,y ).2.求b ^时,常用公式b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2.3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误. 思考辨析判断下列结论是否正确(请在括号中打“√”或“×”) (1)相关关系是一种非确定性关系.(√)(2)散点图是判断两个变量相关关系的一种重要方法和手段.(√)(3)经验回归直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.(×) (4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(√) 教材改编题1.在对两个变量x ,y 进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(x i ,y i ),i =1,2,…,n ;③求经验回归方程;④根据所收集的数据绘制散点图. 则下列操作顺序正确的是() A .①②④③B.③②④① C .②③①④D.②④③① 答案D解析根据回归分析的思想,可知对两个变量x ,y 进行回归分析时,应先收集数据(x i ,y i ),然后绘制散点图,再求经验回归方程,最后对所求的经验回归方程作出解释. 2.对于x ,y 两变量,有四组成对样本数据,分别算出它们的样本相关系数r 如下,则线性相关性最强的是()A .-0.82B .0.78C .-0.69D .0.87 答案D解析由样本相关系数的绝对值|r |越大,变量间的线性相关性越强知,各选项中r =0.87的绝对值最大.3.某单位为了了解办公楼用电量y (度)与气温x (℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:由表中数据得到经验回归方程y ^=-2x +a ^,当气温为-4℃时,预测用电量约为() A .68度B .52度C .12度D .28度 答案A解析由表格可知x =10,y =40,根据经验回归直线必过(x ,y )得a ^=40+20=60,∴经验回归方程为y ^=-2x +60,因此当x =-4时,y ^=68.题型一成对数据的相关性例1(1)(2023·保定模拟)已知两个变量x 和y 之间有线性相关关系,经调查得到如下样本数据:根据表格中的数据求得经验回归方程为y ^=b ^x +a ^,则下列说法中正确的是()A.a ^>0,b ^>0 B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0 答案B解析由已知数据可知y 随着x 的增大而减小,则变量x 和y 之间存在负相关关系,所以b ^<0.又x =15×(3+4+5+6+7)=5,y =15×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5b ^+a ^,所以a ^=1.1-5b ^>0.(2)(2022·大同模拟)如图是相关变量x ,y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到经验回归方程y ^=b ^1x +a ^1,样本相关系数为r 1;方案二:剔除点(10,21),根据剩下的数据得到经验回归方程y ^=b ^2x +a ^2,样本相关系数为r 2.则()A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0 答案D解析根据相关变量x ,y 的散点图知,变量x ,y 具有负线性相关关系,且点(10,21)是离群值;方案一中,没剔除离群值,线性相关性弱些; 方案二中,剔除离群值,线性相关性强些; 所以样本相关系数-1<r 2<r 1<0. 思维升华 判定两个变量相关性的方法(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.(2)样本相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近1,相关性越强.(3)经验回归方程:当b ^>0时,正相关;当b ^<0时,负相关.跟踪训练1(1)某公司2017~2022年的年利润x (单位:百万元)与年广告支出y (单位:百万元)的统计资料如表所示:根据统计资料,则利润中位数() A.是16,x与y有正相关关系B.是17,x与y有正相关关系C.是17,x与y有负相关关系D.是18,x与y有负相关关系答案B解析由题意知,利润中位数是16+182=17,而且随着年利润x的增加,广告支出y也在增加,故x与y有正相关关系.(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2则比较r1,r2的大小结果为()A.r1>r2B.r1=r2C.r1<r2D.不确定答案C解析由散点图可知,用y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;又因为x ,y 负相关,所以-r 1>-r 2,即r 1<r 2. 题型二回归模型命题点1一元线性回归模型例2(2023·蚌埠模拟)某商业银行对存款利率与日存款总量的关系进行调研,发现存款利率每上升一定的百分点,日均存款总额就会发生一定的变化,经过统计得到下表:(1)在给出的坐标系中画出上表数据的散点图;(2)根据上表提供的数据,用最小二乘法求出y 关于x 的经验回归方程y ^=b ^x +a ^; (3)已知现行利率下的日均存款总额为0.625亿元,试根据(2)中的经验回归方程,预测日均存款总额为现行利率下的2倍时,利率需上升多少个百分点?参考公式及数据:①b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x ,②∑i =15x i y i =0.9,∑i =15x 2i =0.55.解(1)如图所示.(2)由表格数据可得x =15×(0.1+0.2+0.3+0.4+0.5)=0.3,y =15×(0.2+0.35+0.5+0.65+0.8)=0.5,所以b ^=∑5i =1x i y i -5x y∑5i =1x 2i -5x2=0.9-5×0.3×0.50.55-5×0.3×0.3=1.5, a ^=y -b ^x =0.5-1.5×0.3=0.05,故y ^=1.5x +0.05.(3)设利率需上升x 个百分点,由(2)得,0.625×2=1.5x +0.05,解得x =0.8, 所以预测利率需上升0.8个百分点. 命题点2非线性回归模型例3(2023·保山模拟)某印刷企业为了研究某种图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的关系,收集了一些数据并进行了初步整理,得到了如图所示的散点图及一些统计量的值.表中u i =1x i ,u =17∑i =17u i .(1)根据散点图判断y =a +bx 与y =c +dx哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的经验回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据求出y 关于x 的经验回归方程;(3)若该图书每册的售价为9元,则预测至少应该印刷多少册,才能使销售利润不低于80000元(假设能够全部售出).附:对于一组数据(ω1,v 1),(ω2,v 2),…,(ωn ,v n ),其经验回归方程v ^=β^ω+α^的斜率和截距的最小二乘估计分别为β^=i =1n (ωi -ω)(v i -v )i =1n(ωi -ω)2,α^=v -β^ω.解(1)由散点图判断y =c +d x更适合作为该图书每册的成本费y 与印刷数量x 的经验回归方程.(2)先建立y 关于u 的经验回归方程得y ^=c ^+d ^u ,由于d ^=i =17(u i -u )(y i -y )i =17(u i -u )2=70.7=10,故c ^=y -d ^u =3.5-10×0.2=1.5,所以预测y 关于u 的经验回归方程为y ^=1.5+10u ,从而y 关于x 的经验回归方程为y ^=1.5+10x.(3)假设印刷x 千册,依据题意得9x -⎝ ⎛⎭⎪⎫1.5+10x x ≥80,解得x ≥12,所以预测至少应该印刷12 000册图书,才能使销售利润不低于80 000元. 思维升华 求经验回归方程的步骤跟踪训练2(2022·南充模拟)某特色餐馆开通了某APP 的外卖服务,在一周内的某特色菜外卖份数x (单位:份)与收入y (单位:元)之间有如下的对应数据:(1)在给出的坐标系中画出数据散点图;(2)请根据以上数据用最小二乘法求出收入y 关于份数x 的经验回归方程; (3)据此估计外卖份数为12时,收入为多少元.参考数据公式:∑i =15x 2i =145,∑i =15x i y i =1380,b ^=i =1n(x i -x )(y i -y )i =1n(x i -x )2=∑i =1nx i y i -n xy∑i =1nx 2i -n x2,a ^=y -b ^x .解(1)作出散点图如图所示.(2)由表格数据得,x =2+4+5+6+85=5,y =30+40+60+50+705=50,则b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=1 380-5×5×50145-5×52=6.5,a ^=y -b ^x =50-6.5×5=17.5,因此,所求经验回归方程为y ^=6.5x +17.5.(3)当x =12时,y ^=12×6.5+17.5=95.5,即外卖份数为12时,预测收入为95.5元. 题型三残差分析例4(1)(多选)下列说法正确的是()A .在经验回归方程y ^=-0.85x +2.3中,当解释变量x 每增加1个单位时,响应变量y ^平均减少2.3个单位B .在经验回归方程y ^=-0.85x +2.3中,相对于样本点(1,1.2)的残差为-0.25 C .在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好 D .若两个变量的决定系数R 2越大,表示残差平方和越小,即模型的拟合效果越好 答案BCD解析对于A ,根据经验回归方程,当解释变量x 每增加1个单位时,响应变量y ^平均减少0.85个单位,故A 错误;对于B ,当解释变量x =1时,响应变量y ^=1.45,则样本点(1,1.2)的残差为-0.25,故B 正确;对于C ,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C 正确;对于D ,由决定系数R 2的意义可知,R 2越大,表示残差平方和越小,即模型的拟合效果越好,故D 正确.(2)新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,如表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:根据表中数据,得出y 关于x 的经验回归方程为y ^=0.28x +a ^,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m =________. 答案1.4解析由题设,1.5-y ^=1.5-(0.28×5+a ^)=-0.06,可得a ^=0.16.又x =1+2+3+4+55=3,y =0.5+0.6+1+m +1.55=3.6+m 5,所以0.28×3+0.16=3.6+m5, 可得m =1.4.思维升华 检验回归模型的拟合效果的两种方法(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果. (2)R 2分析:通过公式计算R 2,R 2越大,残差平方和越小,模型的拟合效果越好;R 2越小,残差平方和越大,模型的拟合效果越差. 跟踪训练3(1)下列命题是真命题的为()A .经验回归方程y ^=b ^x +a ^一定不过样本点B .可以用样本相关系数r 来刻画两个变量x 和y 线性相关程度的强弱,r 的值越小,说明两个变量线性相关程度越弱C .在回归分析中,决定系数R 2=0.80的模型比决定系数R 2=0.98的模型拟合的效果要D .残差平方和越小的模型,拟合的效果越好 答案D解析对于A ,经验回归方程不一定经过其样本点,但一定经过(x ,y ),所以A 是假命题;对于B ,由样本相关系数的意义,当|r |越接近0时,表示变量y 与x 之间的线性相关程度越弱,所以B 是假命题;对于C ,用决定系数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好,所以C 是假命题;对于D ,由残差的统计学意义知,D 是真命题. (2)两个线性相关变量x 与y 的统计数据如表:其经验回归方程是y ^=b ^x +40,则相应于点(9,11)的残差为________. 答案-0.2解析因为x =15×(9+9.5+10+10.5+11)=10,y =15×(11+10+8+6+5)=8,所以8=10b ^+40,解得b ^=-3.2,所以y ^=-3.2x +40,当x =9时,y ^=11.2, 所以残差为11-11.2=-0.2.课时精练1.下列有关线性回归的说法,不正确的是()A.具有相关关系的两个变量不是因果关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.任一组数据都有经验回归方程答案D解析根据两个变量具有相关关系的概念,可知A正确;散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以B,C正确;具有相关关系的成对样本数据才有经验回归方程,所以D不正确.2.对于样本相关系数,下列说法错误的是()A.样本相关系数可以用来判断成对样本数据相关的正负性B.样本相关系数可以是正的,也可以是负的C.样本相关系数r∈[-1,1]D.样本相关系数越大,成对样本数据的线性相关程度也越强答案D解析样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强,故D错误.3.(2023·运城模拟)在线性回归模型中,变量x 与y 的一组样本数据对应的点均在直线y =12x +1上,R 2=1-i =1n(y i -y ^i )2i =1n (y i -y )2,则R 2等于() A.14 B.12 C .1 D.52 答案C解析因为样本数据对应的点均在一条直线上, 所以R 2=1.4.(多选)某工厂研究某种产品的产量x (单位:吨)与所需某种材料y (单位:吨)之间的相关关系,在生产过程中收集4组数据如表所示.根据表中数据可得经验回归方程为y ^=0.7x +a ^,则下列四个说法中正确的为()A.变量x 与y 正相关 B .y 与x 的样本相关系数r <0C.a ^=0.35D .当产量为8吨时,预测所需材料约为5.95吨 答案ACD解析因为经验回归方程y ^=0.7x +a ^, 所以变量x 与y 呈正相关,所以样本相关系数r >0,故A 正确,B 错误; 由表格可得x =3+4+6+74=5,y =2.5+3+4+5.94=3.85, 则0.7×5+a ^=3.85,解得a ^=0.35,故C 正确;所以经验回归方程为y ^=0.7x +0.35,当x =8时,y ^=0.7×8+0.35=5.95,即产量为8吨时,预测所需材料约为5.95吨,故D 正确.5.(多选)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的平均值为176 cm ,根据这10名志愿者的数据求得臂展u 关于身高v 的经验回归方程为u ^=1.2v -34,则下列结论正确的是()A .这10名志愿者身高的极差小于臂展的极差B .这10名志愿者的身高和臂展呈负相关C .这10名志愿者臂展的平均值为176.2 cmD .根据经验回归方程可估计身高为160 cm 的人的臂展为158 cm 答案AD解析对于选项A ,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A 正确; 对于选项B ,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B 错误;对于选项C ,因为这10名志愿者身高的平均值为176cm ,所以这10名志愿者臂展的平均值为1.2×176-34=177.2(cm),故C 错误;对于选项D ,若一个人的身高为160 cm ,则由经验回归方程u ^=1.2v -34,可得这个人的臂展的估计值为158 cm ,故D 正确.6.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y 和色差x 之间满足线性相关关系,且y ^=0.8x +a ^,现有一对测量数据为(30,23.6),则该数据的残差为()A.-0.96B .-0.8C .0.8D .0.96 答案C解析由题意可知,x =21+23+25+274=24,y =15+18+19+204=18,将(24,18)代入y ^=0.8x +a ^,即18=0.8×24+a ^,解得a ^=-1.2,所以y ^=0.8x -1.2,当x =30时,y ^=0.8×30-1.2=22.8, 所以该数据的残差为23.6-22.8=0.8.7.某智能机器人的广告费用x (万元)与销售额y (万元)的统计数据如表所示:根据此表可得经验回归方程为y ^=5x +a ^,据此模型预测广告费用为8万元时销售额为________万元. 答案57解析由表格,得x =2+3+5+64=4,y =28+31+41+484=37, 所以37=5×4+a ^,即a ^=17,所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).8.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y =2e 2x +1的图象附近,设z =ln y ,将其变换后得到经验回归方程为z =mx +n ,则mn =________. 答案2ln2+2解析由z =ln y ,则ln y =ln2e 2x +1,即z =ln2+lne 2x +1=ln2+2x +1,则z =2x +ln2+1,故m =2,n =ln2+1,所以mn =2ln2+2.9.假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:已知∑i =15x 2i =90,∑i =15y 2i ≈140.8,∑i =15x i y i =112.3,79≈8.9,2≈1.4.(1)求x ,y ;(2)计算y 与x 的样本相关系数r (精确到0.001),并判断该设备的使用年限与所支出的维修费用的相关程度.附:样本相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2=∑ni =1x i y i -n x y (∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2).解(1)x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5.0.(2)∑i =15x i y i -5x y =112.3-5×4×5=12.3,∑i =15x 2i -5x 2=90-5×42=10,∑i =15y 2i -5y2≈140.8-5×52=15.8,所以r =∑i =15x i y i -5x y∑i =15x 2i -5x2∑i =15y 2i -5y2≈12.310×15.8=12.32×79≈12.31.4×8.9≈0.987,r 接近1,说明该设备的使用年限与所支出的维修费用之间具有很高的相关性. 10.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:m 3),得到如下数据:并计算得∑10i =1x 2i =0.038,∑10i =1y 2i =1.6158,∑10i =1x i y i =0.2474. (1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量; (2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01); (3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m 2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:样本相关系数r =∑ni =1(x i -x )(y i -y )∑ni =1 (x i -x )2∑ni =1(y i -y )2=∑ni =1x i y i -n x y (∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2),1.896≈1.377.解(1)样本中10棵这种树木的根部横截面积的平均值x =0.610=0.06(m 2),样本中10棵这种树木的材积量的平均值y =3.910=0.39(m 3), 据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m 2,平均一棵的材积量为0.39 m 3.(2)r=∑i=110xiyi-10x y(∑i=110x2i-10x2)(∑i=110y2i-10y2)=0.2474-10×0.06×0.39 (0.038-10×0.062)×(1.6158-10×0.392)=0.01340.0001896≈0.01340.01377≈0.97.(3)设该林区这种树木的总材积量的估计值为Y m3,又已知树木的材积量与其根部横截面积近似成正比,可得0.060.39=186Y,解得Y=1209.则该林区这种树木的总材积量的估计值为1209m3.11.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y 关于x的经验回归方程为y^=6x2+a^,则下列说法正确的是()A.a^=4B.a^=-8C .此回归模型第4周的残差为5D .估计第6周治愈人数为220 答案BC解析设t =x 2,则y ^=6t +a ^,由已知得t =15×(1+4+9+16+25)=11,y =15×(2+17+36+93+142)=58,所以a ^=58-6×11=-8,故A 错误,B 正确; 在y ^=6x 2-8中,令x =4, 得y ^4=6×42-8=88,所以此回归模型第4周的残差为y 4-y ^4=93-88=5,故C 正确; 在y ^=6x 2-8中,令x =6, 得y ^6=6×62-8=208,故D 错误.12.2020年,全球开展了某疫苗研发竞赛,我国处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2500人,分成5组,各组感染人数如下:并求得y 与x 的经验回归方程为y ^=0.011x +a ^,同期,在人数为10000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为N ;注射疫苗后仍被感染的人数记为n ,则估计该疫苗的有效率为________.(疫苗的有效率为1-n N,结果保留3位有效数字) 答案0.818解析 由表格中的数据可得x =500,y =5,故a ^=5-0.011×500=-0.5,故N =0.011×10 000-0.5=110-0.5=109.5≈110,而n =20,故疫苗的有效率为1-20110≈0.818.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 7,y 7)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,7)都在曲线y =a ln(x -1895)+12.15附近波动,经计算i =17(x i -1895)=210.77,i =17y i =73.50,i =17ln(x i -1895)=23.10,则实数a 等于()A .-0.5B .0.5C .-1D .1 答案A解析因为17i =17ln(x i -1895)=23.107=3.3,17i =17y i =73.507=10.5,所以10.5=3.3a +12.15,解得a =-0.5.14.(多选)已知由样本数据(x i ,y i )(i =1,2,3,…,10)组成的一个样本,得到经验回归方程为y ^=2x -0.4,且x =2,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为3.则下列说法正确的是() A .相关变量x ,y 具有正相关关系B .去除两个歧义点后,新样本中变量x j (j =1,2,…,8)的平均值变大C .去除两个歧义点后的经验回归方程为y ^1=3x -3 D .去除两个歧义点后,样本数据(4,8.9)的残差为0.1 答案ABC解析对于A ,因为经验回归直线的斜率大于0,所以相关变量x ,y 具有正相关关系,故A 正确;对于B ,将x =2代入y ^=2x -0.4得y =3.6,则去除两个歧义点后,得到新的相关变量的平均值分别为X =2×10-(-2+2)8=52,Y =3.6×10-(1-1)8=92,故B 正确;对于C ,a ^=92-3×52=-3,新的经验回归方程为y ^1=3x -3,故C 正确;对于D ,当x =4时,y ^1=3×4-3=9,残差为8.9-9=-0.1,故D 错误.。
一元线性回归方程案例数据
一元线性回归方程案例数据一元线性回归方程案例数据8. 一个工厂在某年里每月产品的总成本(单位:万元)与月产量(单位:万件)之间有如下一组数据:则月总成本与月产量之间的线性回归方程为________.收藏 加入试题篮 题目有误 查看详解9. 某中学高一期中考试后,对成绩进行分析,从13班中选出5名学生的总成绩和外语成绩如下表:则外语成绩对总成绩的回归直线方程是_______________________. 收藏 加入试题篮 题目有误 查看详解 三. 解答题 (本大题共5小题,共0分)10. 在国民经济中,社会生产与货运之间有着密切关系,下面列出1991—2000年中某地区货运量与工业总产值的统计资料:利用上述资料:(1)画出散点图;(2)计算这两组变量的相关系数; (3)在显著水平0.05的条件下,对变量与进行相关性检验;(4)如果变量与之间具有线性相关关系,求出回归直线方程. 收藏 加入试题篮 题目有误 查看详解 11. 随机选取15家销售公司,由营业报告中查出其上年度的广告费(占总费用的百分比)及盈利额(占销售总额的百分比)列表如下:试根据上述资料:(1)画出散点图;(2)计算出这两组变量的相关系数;(3)在显著水平O.01的条件下,对变量x与y进行相关性检验;(4)如果变量x与y之间具有线性相关关系,求出回归直线方程;(5)已知某销售公司的广告费占其总费用的1.7%,试估计其盈利净额占销售总额的百分比.收藏 加入试题篮 题目有误 查看详解12. 商品零售商要了解每周的广告费及消费额(单位:万元)之间的关系,记录如下:利用上述资料:(1)画出散点图;(2)求销售额对广告费的一元线性回归方程;(3)求出两个变量的相关系数.收藏 加入试题篮 题目有误 查看详解13. 某城区为研究城镇居民月家庭人均生活费支出和月收入的相关关系,随机抽取10户进行调查,其结果如下:利用上述资料:(1)画出散点图;(2)计算这两组变量的相关系数;(3)在显著水平0.05的条件下,对变量与进行相关性检验;(4)如果变量与之间具有线性相关关系,求出回归直线方程;(5)测算人均收入为280元时,人均生活费支出应为多少元?收藏 加入试题篮 题目有误 查看详解14. 要分析学生初中升学的数学成绩对高一年级数学学习有什么影响,在高一年级学生中随机抽选10名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩(如下表):(1)画出散点图;(2)计算入学成绩与高一期末考试成绩的相关关系;(3)对变量与进行相关性检验,如果与之间具有线性相关关系,求出一元线性回归方程;(4)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性回归练习
一、选择题
1.下列两个变量之间的关系中,哪个是函数关系 ( ) A.学生的性别与他的数学成绩 B.人的工作环境与健康状况 C.女儿的身高与父亲的身高 D. 正三角形的边长与面积
2.从某大学随机选取8名女大学生,其身高x (cm)和体重y (kg)的回归方程为 ˆ0.84985.712y
x =-,则身高172cm 的女大学生,由回归方程可以预报其体重 ( )
A.为6 0.316kg
B. 约为6 0.316kg
C.大于6 0.316kg
D.小于6 0.316kg
3. 工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ160180y
x =+,下列判断正确的是 ( )
A .劳动生产率为1000元时,工资为340元
B .劳动生产率提高1000元时,工资提高180元
C .劳动生产率提高1000元时,工资平均提高180元 D.工资为520元时,劳动生产率为2000元 4.由右表可计算出变量,x y 的线性回归方程为( ) A. ˆ0.350.15y x =-+ B. ˆ0.350.25y x =-+ C. ˆ0.350.15y x =+ D. ˆ0.350.25y x =+ 二、填空题
5.下列说法中正确的是
(填序号)
①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数r ;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法. 6.三点
()3,10,(7,20),(11,24)的线性回归方程是
三、解答
[2016高考新课标Ⅲ文数]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图
x 5 4 3 2 1
y 2 1.5 1 1 0.5
(I )由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;
(II )建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:
7
1
9.32i
i y
==∑,7
1
40.17i i i t y ==∑,
7
2
1
()
0.55i
i
y y =-=∑,7≈2.646.
参考公式:相关系数1
22
1
1
)()
()(y y)n
i
i i n
n
i
i i i t y r t
t ===--=
--∑∑∑,
回归方程$$y a
b =+$中斜率和截距的最小二乘估计公式分别为: 1
2
1
()()
()n
i
i i n
i
i t
t y y b
t
t ==--=-∑∑$,
$a
y bt =-$
【2015高考重庆,文17】随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表: 年份 2010 2011 2012 2013 2014 时间代号t
1
2 3 4 5 储蓄存款y (千亿元) 5 6
7
8
10
(Ⅰ)求y 关于t 的回归方程
^
^
^
t y b a =+
(Ⅱ)用所求回归方程预测该地区2015年(6t =)的人民币储蓄存款. 附:回归方程
^
^^
t y
b a
=+中
1
1
2
2
21
1
()(),
()
.
n
n
i
i
i i
i i n
n
i
i
i i x x y y x y nx y
b x x x
nx
a y bx ====⎧---⎪⎪==
⎪⎨--⎪⎪=-⎪⎩
∑∑∑∑。