应用回归分析 总复习
应用回归分析试题
应用回归分析试题(一)一、选择题1. 两个变量与x 的回归模型中,通常用2R 来刻画回归的效果,则正确的叙述是( D )A. 2R 越小,残差平方和越小B. 2R 越大,残差平方和越大C. 2R 与残差平方和无关D. 2R 越小,残差平方和越大 2.下面给出了4个残差图,哪个图形表示误差序列是自相关的(B )(A ) (B)(C ) (D )3.在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释; ②收集数据(i x ,i y ),1,2i ,…,n ;③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量,x y 具有线性相关结论,则在下列操作中正确的是( D )A .①②⑤③④B .③②④⑤①C .②④③①⑤D .②⑤④③①4.下列说法中正确的是(B )A.任何两个变量都具有相关关系B.人的知识与其年龄具有相关关系 C .散点图中的各点是分散的没有规律 D .根据散点图求得的回归直12345678xey线方程都是有意义的5. 下面的各图中,散点图与相关系数r 不符合的是(B )二、填空题1. OLSE 估计量的性质线性、无偏、最小方差。
2. 学习回归分析的目的是对实际问题进行预测和控制。
3. 检验统计量t 值与P 值的关系是P(|t |>|t 值|)=P 值,P 值越小,|t 值| 越大 ,回归方程越显著。
4. 在一元线性回归中,SST 自由度为n-1, SSE 自由度为n-2, SSR 自由度为1。
5. 在多元线性回归中,样本决定系数2R = 1SSR SSESSTSST =-。
三、叙述题1. 叙述一元线性回归模型中回归方程系数的求解过程及结果(OLSE 法)答案:定义离差平方和2^1)()(i ni i y y Q ∑=-=β最小二乘思想找出参数10,ββ的估计值^1^0,ββ。
使得离差平方和最小,使^1^0,ββ满足下述条件:∑∑==--=-=ni i i ni i i x y x y Q 1210,121^^010)(min ),(),(1ββββββββ根据微分中值定理可得:0)(2|0)(2|^11^01^11^11^00^00=---=∂∂=---=∂∂∑∑====i i n i i i n i i x x y Qx y Qββββββββββ求解正规方程组得到:⎪⎪⎪⎩⎪⎪⎪⎨⎧---=-=∑∑=-=----n i i n i i i x x y y x x xy 121^11^^0)())((βββ 令 --=-=--==--=--=-=-=∑∑∑∑y x n y x y y x x L xn x x x L ni i i i ni i xy ni ini i xx 1121212)()()(则一元线性回归模型中回归方程系数可表示为⎪⎪⎩⎪⎪⎨⎧=-=--xx xy L L x y ^1^1^0βββ2. 叙述多元线性回归模型的基本假设 答案:假设1.解释变量12,,,K X X X L 是非随机的 假设(i ε)=0;假设(i ε)=2σ,i =1,2,……ncov(,i j εε)=0,i j ≠, ,i j =1,2,……n; 假设4.解释变量12,,,K X X X L 线性无关;假设5.2(0,)i N εσ:3. 回归模型中随机误差项ε的意义是什么答案:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y 与12,,px x x L 的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
应用回归分析期末试题
应用回归分析期末试题一元线性回归分析1.讨论家庭收入x 影响家庭消费支出y 的问题。
现已建立εββ++=x y o 1的数学模型,已知5400=x ,2997=y ,3490800002=∑x ,1234929002=∑y,193836000=∑xy ,求回归方程。
答:∧0β,∧1β的表达式如下:⎪⎪⎩⎪⎪⎨⎧=-=∧∧∧xx xyl l x y 110βββ 得:⎪⎩⎪⎨⎧==∧∧4845.053.38010ββ则回归方程为x y 4845.053.380+=∧。
2.在给定样本(){}n i y x i i ,...,1,,=后,一元线性回归模型为i i i x y εββ++=10(已经符合一元线性回归模型的假设),求0β,1β的最小二乘估计∧0β,∧1β。
答:要求0β,1β的最小二乘估计∧0β,∧1β,即求使得离差平方和()10,ββQ 达到最小时的10,ββ,满足),(min ),(10,1010ββββββQ Q =∧∧由于()10,ββQ 是一个非负二次型,对10,ββ的偏导存在,下求偏导⎪⎪⎩⎪⎪⎨⎧=---=∂∂=---=∂∂∑∑==ni ii i ni i i x x y Q x y Q110111000)(20)(2ββββββ 求解得⎪⎪⎩⎪⎪⎨⎧=-=∧∧∧xx xyl l x y 110βββ 其中∑==ni i x n x 11,∑==n i i y n y 11,2)(∑-=x x l i xx ,)()(y y x x l i i xy --=∑。
3.证明:最小二乘法的参数估计1ββ和o 具有线性性和无偏性。
答(1)线性性:估计量0β和1β为随机变量i y 的线性函数 1β:由0)(=-∑x x i ,有∑=∧-==ni i xxi xxxy y l xx l l 11)(β,所以1β是i y 的线性组合。
0β:i ni xx iy x l xx n x y ∑=∧∧--=-=110)1(ββ,可见0β也是i y 的线性组合。
《应用回归分析》试卷
《应用回归分析》试卷★要求将答案做在答题纸上,做在别处无分。
一、(50分)单项选择题(每题1分)1.回归分析的建模依据为()A.统计理论B.预测理论C.经济理论D.数学理论2.随机方程式构造依据为()A.经济恒等式 B.政策法规 C.变量间的技术关系 D.经济行为3. 回归模型的被解释变量一定是()A.控制变量 B.政策变量 C.内生变量 D.外生变量4.在同一时点或时期上,不同统计单位的相同统计指标组成的数据是()A.时期数据 B.时点数据 C.时序数据 D.截面数据5.回归分析的目的为()A.研究解释变量对被解释变量的依赖关系 B.研究解释变量和被解释变量的相关关系C.研究被解释变量对解释变量的依赖关系D.以上说法都不对6.在回归分析中,有关被解释变量Y和解释变量X的说法正确的为()A.Y为随机变量,X为非随机变量 B. Y为非随机变量,X为随机变量C.X、Y均为随机变量D. X、Y均为非随机变量7.在X与Y的相关分析中()A.X是随机变量,Y是非随机变量 B. Y是随机变量,X是非随机变量C.X和Y都是随机变量D. X和Y均为非随机变量8.总体回归线是指()A.解释变量X取给定值时,被解释变量Y的样本均值的轨迹。
B.样本观测值拟合的最好的曲线。
C.使残差平方和最小的曲线D.解释变量X取给定值时,被解释变量Y的条件均值或期望值的轨迹。
9.最小二乘准则是指()A.随机误差项ε的平方和最小 B. Y与它的期望值E(Y/X)的离差平方和最小C. X与它均值E(X)的离差的平方和最小D.残差e的平方和最小10.按照经典假设,线性回归模型中的解释变量应为非随机变量,且( )A.与被解释变量Y不相关B.与随机误差项ε不相关C. 与回归值ˆY不相关D.以上说法均不对11.有效估计量是指( )A.在所有线性无偏估计中方差最大B.在所有线性无偏估计量中变异系数最小C.在所有线性无偏估计量中方差最小D.在所有线性无偏估计量中变异系数最大12.在一元线性回归模型中, 2σ的无偏估计量2ˆσ为( )A.21niien=∑B.211niien=-∑C.212niien=-∑D.213niien=-∑13判定系数2R的取值范围为( )A.202R ≤≤ B. 201R ≤≤C. 204R ≤≤D. 214R ≤≤14.回归系数1β通过了t 检验,表示( )A.10β≠B.1ˆ0β≠ C.11ˆ0,0ββ≠= D.11ˆ0,0ββ=≠ 15.个值区间预测就是给出( )A.预测值0ˆY 的一个置值区间 B.实际值0Y 的一个置值区间 C.实际值0Y 的期望值的一个置值区间 D.实际值0X 的一个置值区间16.一元线性回归模型01Y X ββε=++中, 0β的最小二乘估计是( )A.01ˆˆY X ββ=+B. 01ˆˆY X ββ=+ C. 01ˆˆY X ββ=- D. 01ˆˆY X ββ=+ 17.回归分析中简单回归指的是_____A.两个变量之间的回归B.三个以上变量的回归C.两个变量之间的线性回归D.变量之间的线性回归 18.运用OLSE ,模型及相关变量的基本假定不包括_____A.E(εi)=0B.cov(εi, εj)=0 i ≠j,i,j=1,2,3,……,nC.var(εi)=0 i=1,2……,nD.解释变量是非随机的 19. R 2(调整R 2)的计算公式是_____ A.R 2= 1-11n n p ---.SSE SST B. R 2=1-11n p n ---.SSE SST C. R 2=1-12n n p ---.SSE SST D. R 2=1-21n p n ---.SSE SST20.下列选项哪个是用来检验模型是否存在异方差问题_____A.方差扩大化因子VIFB.DW 检验C.等级相关系数D.连贯检验 21.在多元线性回归模型中,调整后的判定系数2R 与判定系数2R 的关系为()A.22R R <B. 22R R <C. 22R R ≤D. 22R R ≤ 22.下列哪种情况说明存在异方差( )A.()0i E ε=B.()0,i j E i j εε=≠C.22()i E εσ=(常数)D. 22()i i E εσ=23.当模型存在异方差时,使用普通最小二乘法得到的估计量是( )A.有偏估计量B.有效估计量C.无偏估计量D.渐进有效估计量24.下列哪种方法不是检验异方差的方法( )A.残差图分析法B.等级相关系数法C.样本分段比检验D.DW 检验法 25.异方差情形下,常用的估计方法是( )A.一阶差分法 B 广义差分法 C. 工具变量法 D.加权最小二乘法 26.下列那种情况属于存在序列相关( )A.(,)0,i j Cov i j εε=≠B. (,)0,i j Cov i j εε≠≠C. 2(,),i j Cov i j εεσ== D. 2(,),i j i Cov i j εεσ==27.若线性回归模型的随机误差项存在序列相关时,直接用普通最小二乘法估计参数,则参数估计量为( )A.有偏估计量B.有效估计量C.无效估计量D.渐进有效估计量28.下列哪种方法不是检验序列有效的方法( )A.残差图分析法B.自相关系数法C.方差扩大因子法D. DW 检验法29. DW 检验适用于检验( )A.异方差B.序列相关C.多重共线性D.设定误差 30.若计算的DW 的统计量为2,则表明该模型( ) A.不存在序列相关 B.存在一阶正序列相关 C.存在一阶负序列相关 D.存在高阶相关 31.DW 检验的原假设为( )A. DW=0B. 0ρ=C. DW=1D. 1ρ= 32.DW 统计量的取范围是()A. 10DW -≤≤B. 11DW -≤≤C. 22DW -≤≤D. 04DW ≤≤33.根据20个观测值估计的一元线性回归模型的 DW=2.3,在样本容量 n =20,解释变量个数 k =1(不包含常数项),显著型水平α=0.05时,查得dL=1.201,dU=1.411,则可以判断该模型( )A.不存在一阶自相关B.有正的一阶自相关C.有负的一阶自相关D.无法确定 34.当模型存在一阶自相关情况下,常用的估计方法是( )A.加权最小二乘法B.广义差分法C.工具变量法D.普通最小二乘法 35.采用一阶差分法估计一阶自相关模型,适合于( ) A. 1ρ≈ B. 0ρ≈ C. 10ρ-<< D. 01ρ<<36.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近1,则表明模型中存在( )A.异方差B.自相关C.多重共线性D.设定误差37.在线性回归模型中,若解释变量1X 和2X 的观测值成比例,即有12i i X kX =,其中k 为非零常数,则表明模型中存在( ) A.异方差 B.严格共线性 D 序列相关 D.高度共线性38.经验认为,某个解释变量与其他解释变量间多重共线性很严重的判别标准是这个解释变量的方差扩大化因子( ) A.大于零 B 小于1 C 大于10 D 小于5 39.若查表得到dL 和dU ,则不存在序列相关的区间为( )A.0DW dL ≤≤B. 4dU DW dU ≤≤-C. 44dU DW dL -≤≤-D. 44dU DW -≤≤ 40.设01Y X ββε=++,Y 表示居民消费支出,X 表示居民收入,D=1代表城镇居民,D=0代表农村居民,则截距变动模型为( )A. 012Y X D βββε=+++B. 021()Y X βββε=+++C. 012()Y X βββε=+++D. 012(*)Y X D X βββε=+++41.设01Y X ββε=++,Y 表示居民消费支出,X 表示居民收入,D=1代表城镇居民,D=0代表农村居民,则斜率变动模型为( )A. 012Y X D βββε=+++B. 021()Y X βββε=+++C. 012()Y X βββε=+++D. 012(*)Y X D X βββε=+++42.设虚拟变量D 影响线性回归模型中X 的斜率,如何引进虚拟变量,使模型成为斜率变动模型( )A.直接引进DB.按新变量D*X 引进C.按新变量(D+X)引进D.无法引进43.虚拟变量的赋值原则是( )A.给定某一质量变量的某属性出现为1,未出现为0B.不用赋值C.按照某一质量变量属性种类编号赋值D. 以上说法都不正确44.有关虚拟变量的表述正确的是( )A.用来代表质的因素,有时候也可以代表数量因素B.只能用来代表质的因素C.只能用来代表数量因素D.以上说法都不正确45.如果一个回归模型包含截距项,对一个具有M 个特征的质的因素需要引入的虚拟变量的个数为( )A.MB.(M-1)C.(M-2)D.(M+1)46.设个人消费函数01Y X ββε=++中,消费支出Y 不仅与收入X 有关,而且与消费者的性别、年龄构成有关,年龄构成可以分为老,中,青三个层次,假定边际消费倾向不变,该消费函数引入虚拟变量的个数为( )A.1个B.2个C.3个D.4个47.在一个包含截距项的回归模型01Y X ββε=++中,如果将一个具有M 个特征的质的因素设定M 个虚拟变量,则会产生的问题是( )A.异方差B.序列相关C.不完全多重线性相关D.完全多重线性相关48.设消费函数为012Y X D βββε=+++,式中Y 表示某年居民的消费水平,X 表示同年居民的收入水平,D 为虚拟变量,D=1表示正常年份,D=0表示非正常年份,则( )A.该模型为截距、斜率同时变动模型B.该模型为截距变动模型C.该模型为斜率变动模型D.该模型为时间序列模型49.设截距和斜率同时变动模型为0123(*)Y X D D X ββββε=++++,对模型做t 检验,下面哪种情况成立时,该模型为截距变动模型( )A.230,0ββ≠≠B. 230,0ββ==C. 230,0ββ≠=D. 230,0ββ=≠50.根据样本资料建立的消费函数如下:ˆ110.5650.5t tC D X =++,其中,C 为消费,X 为收入,虚拟变量D=1表示城镇家庭,D=0表示农村家庭,所有参数均检验显著,则城镇家庭的消费函数为( )A. ˆ110.50.5t t C X =+B. ˆ175.50.5t t C X =+C. ˆ110.565.5t t C X =+D. ˆ1300.5t tC X =+ 二、(10分)判断题(每题1分,做出判断即可)1. 最小二乘估计量具有最小方差。
应用回归分析整理课后习题参考答案
第二章 一元线性回归分析思考与练习参考答案2.1 一元线性回归有哪些基本假定?答: 假设1、解释变量X 是确定性变量,Y 是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=σ2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, σ2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n误差εi (i=1,2, …,n )仍满足基本假定。
求β1的最小二乘估计 解: 得:2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。
证明:∑∑+-=-=nii i ni X Y Y Y Q 121021))ˆˆ(()ˆ(ββ其中:即: ∑e i =0 ,∑e i X i =021112)ˆ()ˆ(ini i ni i i e X Y Y Y Q β∑∑==-=-=0)ˆ(2ˆ111=--=∂∂∑=ii ni i eX X Y Q ββ)()(ˆ1211∑∑===ni i ni ii X Y X β01ˆˆˆˆi ii i iY X e Y Y ββ=+=-0100ˆˆQQββ∂∂==∂∂2.4回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。
答:由于εi ~N(0, σ2 ) i=1,2, …,n所以Y i =β0 + β1X i + εi ~N (β0+β1X i , σ2 ) 最大似然函数:使得Ln (L )最大的0ˆβ,1ˆβ就是β0,β1的最大似然估计值。
同时发现使得Ln (L )最大就是使得下式最小,∑∑+-=-=nii i n i X Y Y Y Q 121021))ˆˆ(()ˆ(ββ上式恰好就是最小二乘估计的目标函数相同。
应用回归分析试题
1、对于一元线性回归01(1,2,...,)i i i y x i n ββε=++=,()0i E ε=,2var()i εσ=,cov(,)0()i j i j εε=≠,下列说法错误的是(A)0β,1β的最小二乘估计0ˆβ,1ˆβ 都是无偏估计; (B)0β,1β的最小二乘估计0ˆβ,1ˆβ对1y ,2y ,...,n y 是线性的; 2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换. 如果误差方差与因变量y 的期望成正比,则可通过下列哪种变换将方差常数化 (A)1y;(B) (C) ln(1)y +;(D)ln y .3、下列说法错误的是 (A)强影响点不一定是异常值;(B)在多元回归中,回归系数显着性的t 检验与回归方程显着性的F 检验是等价的; (C)一般情况下,一个定性变量有k 类可能的取值时,需要引入k-1个0-1型自变量; (D)异常值的识别与特定的模型有关.4、下面给出了4个残差图,哪个图形表示误差序列是自相关的(A)(B)(C) (D)5、下列哪个岭迹图表示在某一具体实例中最小二乘估计是适用的应用回归分析试题(一)一、选择题.(每题3分,共15分)(C)0β,1β的最小二乘估计0ˆβ,1ˆβ之间是相关的; (D)若误差服从正态分布,0β,1β的最小二乘估计和极大似然估计是不一样的.(A) (B) (C) (D)二、填空题(每空2分,共20分)1、考虑模型y X βε=+,2var()n I εσ=,其中:X n p '⨯,秩为p ',20σ>不一定已知,则ˆβ=__________________, ˆvar()β=___________,若ε服从正态分布,则 22ˆ()n p σσ'-:___________,其中2ˆσ是2σ的无偏估计. 2、下表给出了四变量模型的回归结果:则残差平方和=_________,总的观察值个数=_________,回归平方和的自由度=________. 3、已知因变量y 与自变量1x ,2x ,3x ,4x ,下表给出了所有可能回归模型的AIC 值,则最优子集是_____________________.4、在诊断自相关现象时,若0.66DW =,则误差序列的自相关系数ρ的估计值=_____ ,若存在自相关现象,常用的处理方法有迭代法、_____________、科克伦-奥克特迭代法.5、设因变量y 与自变量x 的观察值分别为12,,...,n y y y 和12,,...,n x x x ,则以*x 为折点的折线模型可表示为_____________________.三、(共45分)研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的线性回归关系.观察数据及残差值i e 、学生化残差i SRE 、删除学生化残差()i SRE 、库克距离i D 、杠杆值ii ch 见表一表一表二 参数估计表已知0.025(6) 2.447t =,0.025(7) 2.365t =,0.05(3,6) 4.76F =,0.05(4,7) 4.12F =,根据上述结果,解答如下问题:1、计算误差方差2σ的无偏估计及判定系数2R .(8分)2、对1x ,2x ,3x 的回归系数进行显着性检验.(显着性水平0.05α=)(12分)3、对回归方程进行显着性检验.(显着性水平0.05α=)(8分)4、诊断数据是否存在异常值,若存在,是关于自变量还是关于因变量的异常值(10分)5、写出y 关于1x ,2x ,3x 的回归方程,并结合实际对问题作一些基本分析(7分) 四、(共8分)某种合金中的主要成分为金属A 与金属B ,研究者经过13次试验,发现这两种金属成分之和x 与膨胀系数y 之间有一定的数量关系,但对这两种金属成分之和x 是否对膨胀系数y 有二次效应没有把握,经计算得y 与x 的回归的残差平方和为,y 与x 、2x 的回归的残差平方和为,试在的显着性水平下检验x 对y 是否有二次效应 (参考数据0.050.05(1,10) 4.96,(2,10) 4.1F F ==)五、(共12分)(1)简单描述一下自变量12,,...,p x x x 之间存在多重共线性的定义;(2分) (2)多重共线性的诊断方法主要有哪两种(4分) (3)消除多重共线性的方法主要有哪几种(6分)应用回归分析试题(二)一、选择题1. 某同学由x 与y 之间的一组数据求得两个变量间的线性回归方程为y bx a =+,已知:数据x 的平均值为2,数据y 的平均值为3,则 ( A )A .回归直线必过点(2,3)B .回归直线一定不过点(2,3)C .点(2,3)在回归直线上方D .点(2,3)在回归直线下方2. 在一次试验中,测得的四组值分别是,则Y 与X 之间的回归直线方程为( A )A . B . C . D.3. 在对两个变量x ,y 进行线性回归分析时,有下列步骤:①对所求出的回归直线方程作出解释; ②收集数据(i x 、i y ),1,2i =,…,n ;③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量,x y 具有线性相关结论,则在下列操作中正确的是( D ) A .①②⑤③④ B .③②④⑤① C .②④③①⑤ D .②⑤④③① 4. 下列说法中正确的是(B )A .任何两个变量都具有相关关系B .人的知识与其年龄具有相关关系C .散点图中的各点是分散的没有规律D .根据散点图求得的回归直线方程都是有意义的 5. 给出下列结论:(1)在回归分析中,可用指数系数2R 的值判断模型的拟合效果,2R 越大,模型的拟合效果越好; (2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好; (3)在回归分析中,可用相关系数r 的值判断模型的拟合效果,r 越小,模型的拟合效果越好; (4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 以上结论中,正确的有(B )个.A .1B .2C .3D .4 6. 已知直线回归方程为2 1.5y x =-,则变量x 增加一个单位时(C)A.y 平均增加1.5个单位 B.y 平均增加2个单位C.y 平均减少1.5个单位 D.y 平均减少2个单位7. 下面的各图中,散点图与相关系数r 不符合的是(B )8. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为ˆ7.1973.93yx =+,据此可以预测这个孩子10岁时的身高,则正确的叙述是( D )A .身高一定是B .身高超过C .身高低于D .身高在左右 9. 在画两个变量的散点图时,下面哪个叙述是正确的( B ) (A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上(C)可以选择两个变量中任意一个变量在x 轴上 (D)可以选择两个变量中任意一个变量在y 轴上10. 两个变量y 与x 的回归模型中,通常用2R 来刻画回归的效果,则正确的叙述是( D )A. 2R 越小,残差平方和小B. 2R 越大,残差平方和大C.2R 于残差平方和无关 D. 2R 越小,残差平方和大11. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( A )A.模型1的相关指数2R 为 B.模型2的相关指数2R 为 C.模型3的相关指数2R 为 D.模型4的相关指数2R 为12. 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( B ) A.总偏差平方和 B.残差平方和C.回归平方和D.相关指数R 213.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ6090y x =+,下列判断正确的是(C ) A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90元 14. 下列结论正确的是(C )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A.①②B.①②③C.①②④D.①②③④15. 已知回归直线的斜率的估计值为,样本点的中心为(4,5),则回归直线方程为( C ) A.B. C.D.二、填空题 16. 在比较两个模型的拟合效果时,甲、乙两个模型的相关指数的值分别约为和,则拟合效果好的模型是甲 .17. 在回归分析中残差的计算公式为列联表、三维柱形图、二维条形图.18. 线性回归模型(和为模型的未知参数)中,称为 随机误差 .19. 若一组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满足y i =bx i +a+e i (i=1、2.…n)若e i 恒为0,则R 2为___e i 恒为0,说明随机误差对y i 贡献为0.三、解答题20. 调查某市出租车使用年限x 和该年支出维修费用y (万元),得到数据如下:(2)由(1)中结论预测第10年所支出的维修费用.(121()()()ni i i ni i x x y y b x x a y bx==⎧-⋅-⎪⎪=⎨-⎪⎪=-⎪⎩∑∑) 20. 解析: (1)列表如下:于是23.145905453.112552251251=⨯-⨯⨯-=--=∑∑==xx yx yx b i i i ii ,∴线性回归方程为:08.023.1^+=+=x a bx y (2)当x=10时,38.1208.01023.1^=+⨯=y (万元)即估计使用10年时维修费用是1238万元 回归方程为: 1.230.08y x =+ (2) 预计第10年需要支出维修费用12.38 万元.21. 以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为2150m 时的销售价格. (4)求第2个点的残差。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
应用回归分析知识点总结
U4 违背基本假设的情况一、异方差产生的原因在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同的方差。
即:)var()var(j i εε≠,当j i ≠时。
样本数据为截面数据时容易出现异方差性。
二、异方差性带来的问题1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。
2、参数的显著性检验失效。
3、回归方程的应用效果极不理想。
三、异方差性的检验1、残差图分析法残差图分析法是一种只管、方便的分析方法。
它以残差i e 为纵坐标,以其他适宜的变量为横坐标画散点图。
常用的横坐标有三种选择:(1)以拟合值yˆ为横坐标;(2)以i x (p i ,,2,1 =)为横坐标;(3)以观测时间或序号为横坐标。
(a)线性关系成立;(b)x 加入二次方项;(c)存在异方差,需要改变x 形式 (d)残差与时间t 有关。
可能遗漏变量或者存在序列相关,需要引入变量。
2、等级相关系数法等级相关系数又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。
这种检验方法既可用于大样本,也可以用于小样本。
进行等级相关系数检验通常有三个步骤:第一步,做y 关于x 的普通最小二乘回归,求出i ε的估计值,即i e 的值 第二步,取i e 的绝对值,即|i e |,把i x 和|i e |按递增或递减的次序排列后分成等级,按下式计算出等级相关系数:∑=--=n i i s d n n r 122)1(61,其中,n 为样本容量,i d 为对应于i x 和|i e |的等级的差数。
第三步,做等级相关系数的显著性检验。
在n>8的情况下,用下式对样本等级相关系数s r 进行t 检验,检验统计量为:212s sr r n t --=,如果)2(-≤n t t α可以认为异方差性问题不存在,如果)2(2->n t t α,说明i x 与|i e |之间存在系统关系,异方差性问题存在。
《应用回归分析》课后题答案解析
(8) t
1
2
/ Lxx
1
Lxx
2
其中
1 n2
n i1
ei 2
1 n2
n i1
( yi
2
yi )
0.0036 1297860 8.542 0.04801
t /2 1.895
t 8.542 t /2
接受原假设 H 0: 1 0, 认为 1 显著不为 0,因变量 y 对自变量 x 的一元线性回归成立。
( yi
2
yi )
1 n-2
n i=1
( yi
( 0 1
2
x))
=
1 3
( 10-(-1+71))2 (10-(-1+7 (20-(-1+7 4))2 (40-(-1+7
2))2 (20-(-1+7 5))2
3))2
1 16 9 0 49 36
3
110 / 3
1
330 6.1
《应用回归分析》部分课后习题答案
第一章 回归分析概述
变量间统计关系和函数关系的区别是什么 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量 唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另 外一个变量的确定关系。
回归分析与相关分析的联系与区别是什么 答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有 a. 在回归分析中,变量 y 称为因变量,处在被解释的特殊地位。在相关分析中,变 量 x 和变量 y 处于平等的地位,即研究变量 y 与变量 x 的密切程度与研究变量 x 与变量 y 的密切程度是一回事。b.相关分析中所涉及的变量 y 与变量 x 全是随机 变量。而在回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量也可以 是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的 密切程度。而回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归 方程进行预测和控制。
《应用回归分析》试卷
《应用回归分析》试卷★要求将答案做在答题纸上,做在别处无分。
一、(50分)单项选择题(每题1分)1.回归分析的建模依据为()A.统计理论B.预测理论C.经济理论D.数学理论2.随机方程式构造依据为()A.经济恒等式 B.政策法规 C.变量间的技术关系 D.经济行为3. 回归模型的被解释变量一定是()A.控制变量 B.政策变量 C.内生变量 D.外生变量4.在同一时点或时期上,不同统计单位的相同统计指标组成的数据是()A.时期数据 B.时点数据 C.时序数据 D.截面数据5.回归分析的目的为()A.研究解释变量对被解释变量的依赖关系 B.研究解释变量和被解释变量的相关关系C.研究被解释变量对解释变量的依赖关系D.以上说法都不对6.在回归分析中,有关被解释变量Y和解释变量X的说法正确的为()A.Y为随机变量,X为非随机变量 B. Y为非随机变量,X为随机变量C.X、Y均为随机变量D. X、Y均为非随机变量7.在X与Y的相关分析中()A.X是随机变量,Y是非随机变量 B. Y是随机变量,X是非随机变量C.X和Y都是随机变量D. X和Y均为非随机变量8.总体回归线是指()A.解释变量X取给定值时,被解释变量Y的样本均值的轨迹。
B.样本观测值拟合的最好的曲线。
C.使残差平方和最小的曲线D.解释变量X取给定值时,被解释变量Y的条件均值或期望值的轨迹。
9.最小二乘准则是指()A.随机误差项ε的平方和最小 B. Y与它的期望值E(Y/X)的离差平方和最小C. X与它均值E(X)的离差的平方和最小D.残差e的平方和最小10.按照经典假设,线性回归模型中的解释变量应为非随机变量,且( )A.与被解释变量Y不相关B.与随机误差项ε不相关C. 与回归值ˆY不相关D.以上说法均不对11.有效估计量是指( )A.在所有线性无偏估计中方差最大B.在所有线性无偏估计量中变异系数最小C.在所有线性无偏估计量中方差最小D.在所有线性无偏估计量中变异系数最大12.在一元线性回归模型中, 2σ的无偏估计量2ˆσ为( )A.21niien=∑B.211niien=-∑C.212niien=-∑D.213niien=-∑13判定系数2R的取值范围为( )A.202R ≤≤ B. 201R ≤≤C. 204R ≤≤D. 214R ≤≤14.回归系数1β通过了t 检验,表示( )A.10β≠B.1ˆ0β≠ C.11ˆ0,0ββ≠= D.11ˆ0,0ββ=≠ 15.个值区间预测就是给出( )A.预测值0ˆY 的一个置值区间 B.实际值0Y 的一个置值区间 C.实际值0Y 的期望值的一个置值区间 D.实际值0X 的一个置值区间16.一元线性回归模型01Y X ββε=++中, 0β的最小二乘估计是( )A.01ˆˆY X ββ=+B. 01ˆˆY X ββ=+ C. 01ˆˆY X ββ=- D. 01ˆˆY X ββ=+ 17.回归分析中简单回归指的是_____A.两个变量之间的回归B.三个以上变量的回归C.两个变量之间的线性回归D.变量之间的线性回归 18.运用OLSE ,模型及相关变量的基本假定不包括_____A.E(εi)=0B.cov(εi, εj)=0 i ≠j,i,j=1,2,3,……,nC.var(εi)=0 i=1,2……,nD.解释变量是非随机的 19. R 2(调整R 2)的计算公式是_____ A.R 2= 1-11n n p ---.SSE SST B. R 2=1-11n p n ---.SSE SST C. R 2=1-12n n p ---.SSE SST D. R 2=1-21n p n ---.SSE SST20.下列选项哪个是用来检验模型是否存在异方差问题_____A.方差扩大化因子VIFB.DW 检验C.等级相关系数D.连贯检验 21.在多元线性回归模型中,调整后的判定系数2R 与判定系数2R 的关系为()A.22R R <B. 22R R <C. 22R R ≤D. 22R R ≤ 22.下列哪种情况说明存在异方差( )A.()0i E ε=B.()0,i j E i j εε=≠C.22()i E εσ=(常数)D. 22()i i E εσ=23.当模型存在异方差时,使用普通最小二乘法得到的估计量是( )A.有偏估计量B.有效估计量C.无偏估计量D.渐进有效估计量24.下列哪种方法不是检验异方差的方法( )A.残差图分析法B.等级相关系数法C.样本分段比检验D.DW 检验法 25.异方差情形下,常用的估计方法是( )A.一阶差分法 B 广义差分法 C. 工具变量法 D.加权最小二乘法 26.下列那种情况属于存在序列相关( )A.(,)0,i j Cov i j εε=≠B. (,)0,i j Cov i j εε≠≠C. 2(,),i j Cov i j εεσ== D. 2(,),i j i Cov i j εεσ==27.若线性回归模型的随机误差项存在序列相关时,直接用普通最小二乘法估计参数,则参数估计量为( )A.有偏估计量B.有效估计量C.无效估计量D.渐进有效估计量28.下列哪种方法不是检验序列有效的方法( )A.残差图分析法B.自相关系数法C.方差扩大因子法D. DW 检验法29. DW 检验适用于检验( )A.异方差B.序列相关C.多重共线性D.设定误差 30.若计算的DW 的统计量为2,则表明该模型( ) A.不存在序列相关 B.存在一阶正序列相关 C.存在一阶负序列相关 D.存在高阶相关 31.DW 检验的原假设为( )A. DW=0B. 0ρ=C. DW=1D. 1ρ= 32.DW 统计量的取范围是()A. 10DW -≤≤B. 11DW -≤≤C. 22DW -≤≤D. 04DW ≤≤33.根据20个观测值估计的一元线性回归模型的 DW=2.3,在样本容量 n =20,解释变量个数 k =1(不包含常数项),显著型水平α=0.05时,查得dL=1.201,dU=1.411,则可以判断该模型( )A.不存在一阶自相关B.有正的一阶自相关C.有负的一阶自相关D.无法确定 34.当模型存在一阶自相关情况下,常用的估计方法是( )A.加权最小二乘法B.广义差分法C.工具变量法D.普通最小二乘法 35.采用一阶差分法估计一阶自相关模型,适合于( ) A. 1ρ≈ B. 0ρ≈ C. 10ρ-<< D. 01ρ<<36.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近1,则表明模型中存在( )A.异方差B.自相关C.多重共线性D.设定误差37.在线性回归模型中,若解释变量1X 和2X 的观测值成比例,即有12i i X kX =,其中k 为非零常数,则表明模型中存在( ) A.异方差 B.严格共线性 D 序列相关 D.高度共线性38.经验认为,某个解释变量与其他解释变量间多重共线性很严重的判别标准是这个解释变量的方差扩大化因子( ) A.大于零 B 小于1 C 大于10 D 小于5 39.若查表得到dL 和dU ,则不存在序列相关的区间为( )A.0DW dL ≤≤B. 4dU DW dU ≤≤-C. 44dU DW dL -≤≤-D. 44dU DW -≤≤ 40.设01Y X ββε=++,Y 表示居民消费支出,X 表示居民收入,D=1代表城镇居民,D=0代表农村居民,则截距变动模型为( )A. 012Y X D βββε=+++B. 021()Y X βββε=+++C. 012()Y X βββε=+++D. 012(*)Y X D X βββε=+++41.设01Y X ββε=++,Y 表示居民消费支出,X 表示居民收入,D=1代表城镇居民,D=0代表农村居民,则斜率变动模型为( )A. 012Y X D βββε=+++B. 021()Y X βββε=+++C. 012()Y X βββε=+++D. 012(*)Y X D X βββε=+++42.设虚拟变量D 影响线性回归模型中X 的斜率,如何引进虚拟变量,使模型成为斜率变动模型( )A.直接引进DB.按新变量D*X 引进C.按新变量(D+X)引进D.无法引进43.虚拟变量的赋值原则是( )A.给定某一质量变量的某属性出现为1,未出现为0B.不用赋值C.按照某一质量变量属性种类编号赋值D. 以上说法都不正确44.有关虚拟变量的表述正确的是( )A.用来代表质的因素,有时候也可以代表数量因素B.只能用来代表质的因素C.只能用来代表数量因素D.以上说法都不正确45.如果一个回归模型包含截距项,对一个具有M 个特征的质的因素需要引入的虚拟变量的个数为( )A.MB.(M-1)C.(M-2)D.(M+1)46.设个人消费函数01Y X ββε=++中,消费支出Y 不仅与收入X 有关,而且与消费者的性别、年龄构成有关,年龄构成可以分为老,中,青三个层次,假定边际消费倾向不变,该消费函数引入虚拟变量的个数为( )A.1个B.2个C.3个D.4个47.在一个包含截距项的回归模型01Y X ββε=++中,如果将一个具有M 个特征的质的因素设定M 个虚拟变量,则会产生的问题是( )A.异方差B.序列相关C.不完全多重线性相关D.完全多重线性相关48.设消费函数为012Y X D βββε=+++,式中Y 表示某年居民的消费水平,X 表示同年居民的收入水平,D 为虚拟变量,D=1表示正常年份,D=0表示非正常年份,则( )A.该模型为截距、斜率同时变动模型B.该模型为截距变动模型C.该模型为斜率变动模型D.该模型为时间序列模型49.设截距和斜率同时变动模型为0123(*)Y X D D X ββββε=++++,对模型做t 检验,下面哪种情况成立时,该模型为截距变动模型( )A.230,0ββ≠≠B. 230,0ββ==C. 230,0ββ≠=D. 230,0ββ=≠50.根据样本资料建立的消费函数如下:ˆ110.5650.5t tC D X =++,其中,C 为消费,X 为收入,虚拟变量D=1表示城镇家庭,D=0表示农村家庭,所有参数均检验显著,则城镇家庭的消费函数为( )A. ˆ110.50.5t t C X =+B. ˆ175.50.5t t C X =+C. ˆ110.565.5t t C X =+D. ˆ1300.5t tC X =+ 二、(10分)判断题(每题1分,做出判断即可)1. 最小二乘估计量具有最小方差。
应用回归分析简答题
应用回归分析简答题1. 回归分析与相关分析的区别与联系是什么?答:相关分析与回归分析有密切的联系,它们都是对变量间相关关系的研究,二者可以相互补充。
相关分析可以表明变量间相关关系的性质和程度,只有当变量间存在一定程度的相关关系时,进行回归分析去寻求相关的具体数学形式才有实际的意义。
同时,在进行相关分析时如果要具体确定变量间相关的具体数学形式,又要依赖于回归分析,而且相关分析中相关系数的确定也是建立在回归分析基础上的。
二者的区别:(1)相关分析中,变量x 和变量y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化;(2)相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量; (3)相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制。
2. 线性回归模型的基本假设是什么?(1)Gauss-Markov 假设:a. 误差项εi 是一个期望值为0的随机变量,即()0ε=i E ;b. 对于自变量12,,, p x x x 的所有值,εi 的方差都相同,即2()εσ=i D ;c.误差项εi 是彼此相互无关的,即(,)0,εε=≠i j C ov i j(2)解释变量12,,, p x x x 是非随机变量,观测值12,,, i i ip x x x 是常数; (3)正态分布的假定:2(0,)εσ i N ; (4)为了便于数学上的处理,要求>n p 。
3. Gauss-Markov 假设中的三个条件的统计意义是什么?答:a. 误差项εi 是一个期望值为0的随机变量,即()0ε=i E ,其统计意义是表明误差项不包含任何系统的趋势,观测值i y 小于或大于均值()i E y 的波动完全是一种随机性;b. 对于自变量12,,, p x x x 的所有值,εi 的方差都相同,即2()εσ=i D ,表明要求不同次的观测i y 在其均值附近波动的程度是一样的;c.误差项εi 是彼此相互无关的,即(,)0,εε=≠i j C ov i j ,表明要求不同次的观 测i y 是互不相关的。
应用回归分析简答题及答案
应用回归分析简答题及答案4.为什么要对回归模型进行检验答:当模型的未知参数估计出来后,就初步建立了一个回归模型。
建立回归模型的目的是应用他来研究经济问题,但如果马上就用这个模型去做预测、控制和分析,显然是不够慎重的。
因为这个模型是否真正揭示了被解释变量与解释变量之间的关系,必须通过对模型的检验才能决定。
5.讨论样本容量n与自变量个数p的关系,他们对模型的参数估计有何影响答:在多元线性回归模型中,样本容量n与自变量个数p的关系是:n>p。
如果n<=p对模型的参数估计会带来严重的影响。
因为:(1)在多元线性回归模型中,有p+1个待估参数B,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。
(2)解释变量X 是确定性变量,要求rank(X)=p+1<n,表明设计矩阵X中的自变量列之间不相关,样本容量的个数应该大于解释变量的个数,X是一个满秩矩阵。
7.如何正确理解回归方程显着性检验拒绝Ho,接受Ho答:(1)一般情况下,当Ho:B1=0被接受时,表明y的取值倾向不随x的值按线性关系变化,这种状况的原因可能是变量y与x之间的相关关系不显着,也可能虽然变量y与x之间的相关关系显着,但这种相关关系不是线性的而是非线性的。
(2)当Ho:B1=0被拒绝时,没有其他信息,只能认为因变量y对自变量x是有效的,但并没有说明回归的有效程度,不能断言y与x之间就一定是线性相关关系,而不是曲线关系或其他的关系。
8.一个回归方程的复相关系数R=,样本决定系数R8=, 我们能断定这个回归方程就很理想吗答:1.在样本容量较少,变两个数较大时,决定系数的值容易接近1,而此时可能F检验或者关于回归系数的t检验,所建立的回归方程都没能通过。
2.样本决定系数和复相关系数接近1只能说明Y 与自变量XI,X2,…,Xp整体上的线性关系成立,而不能判断回归方程和每个自变量都是显着的,还需进行F检验和t检验。
3.在应用过程中发现,在样本量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得R。
《应用回归分析》课后题答案解析
《应用回归分析》部分课后习题答案第一章回归分析概述1.1 变量间统计关系和函数关系的区别是什么?答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1.2 回归分析与相关分析的联系与区别是什么?答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3 回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.1.5 回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题?答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。
应用回归分析试题
应用回归分析试题(一)一、选择题1. 两个变量与x的回归模型中,通常用2R来刻画回归的效果,则正确的叙述是( D )A. 2R越小,残差平方和越小B. 2R越大,残差平方和越大C. 2R与残差平方和无关D. 2R越小,残差平方和越大2.下面给出了4个残差图,哪个图形表示误差序列是自相关的(B)(A) (B)(C)(D)3.在对两个变量x,y进行线性回归分析时,有下列步骤:i ,…,①对所求出的回归直线方程作出解释; ②收集数据(i x,i y),1,2n;③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图如果根据可行性要求能够作出变量,x y具有线性相关结论,则在下列操作中正确的是( D )A.①②⑤③④ B.③②④⑤①C.②④③①⑤ D.②⑤④③①4.下列说法中正确的是(B )A.任何两个变量都具有相关关系B.人的知识与其年龄具有相关关系C.散点图中的各点是分散的没有规律 D.根据散点图求得的回归直线方程都是有意义的5. 下面的各图中,散点图与相关系数r不符合的是(B )二、填空题1. OLSE估计量的性质线性、无偏、最小方差。
2. 学习回归分析的目的是对实际问题进行预测和控制。
3. 检验统计量t 值与P 值的关系是P(|t |>|t 值|)=P 值,P 值越小,|t 值| 越大 ,回归方程越显著。
4. 在一元线性回归中,SST 自由度为n-1, SSE 自由度为n-2, SSR 自由度为1。
5. 在多元线性回归中,样本决定系数2R = 1SSR SSESSTSST =-。
三、叙述题1. 叙述一元线性回归模型中回归方程系数的求解过程及结果(OLSE 法)答案:定义离差平方和2^1)()(i ni i y y Q ∑=-=β最小二乘思想找出参数10,ββ的估计值^1^0,ββ。
使得离差平方和最小,使^1^0,ββ满足下述条件:∑∑==--=-=ni i i ni i i x y x y Q 1210,121^^010)(min ),(),(1ββββββββ根据微分中值定理可得:0)(2|0)(2|^11^01^11^11^00^00=---=∂∂=---=∂∂∑∑====i i n i i i n i i x x y Qx y Qββββββββββ求解正规方程组得到:⎪⎪⎪⎩⎪⎪⎪⎨⎧---=-=∑∑=-=----n i i n i i i x x y y x x xy 121^11^^0)())((βββ 令 --=-=--==--=--=-=-=∑∑∑∑y x n y x y y x x L xn x x x L ni i i i ni i xy ni ini i xx 1121212)()()(则一元线性回归模型中回归方程系数可表示为⎪⎪⎩⎪⎪⎨⎧=-=--xx xy L L x y ^1^1^0βββ2. 叙述多元线性回归模型的基本假设 答案:假设1.解释变量12,,,K X X X L 是非随机的 假设(i ε)=0;假设(i ε)=2σ,i =1,2,……ncov(,i j εε)=0,i j ≠, ,i j =1,2,……n; 假设4.解释变量12,,,K X X X L 线性无关;假设5.2(0,)i N εσ:3. 回归模型中随机误差项ε的意义是什么?答案:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y 与12,,px x x L 的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
新人教版必修1高考数学总复习回归分析的基本思想及其初步应用学案
高考数学总复习回归分析的基本思想及其初步应用学案【学习目标】:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 【学习重点】:利用散点图直观认识两个变量之间的线性关系,求线性回归直线方程。
【学习难点】:求线性回归直线方程。
【教学过程】:一:回顾预习案1、线性回归方程ax b y ˆ+= ,其中1221ˆni ii ni i x y nx yb x nx==-=-∑∑,x b y aˆˆ-= ●2、y 与x 之间的线性回归方程ax b y ˆ+=必定过(x ,y )点 3,练习(1)已知某车间加工零件的个数x 与所花费时间y (h )之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要__________h 。
A .6.5B .5.5C .3.5D .0.5(2)工人月工资y (元)依劳动生产率x (千元)变化的回归方程y ^=50+80x ,下列判断正确的是( )A .劳动生产率为1000元时,工资为130元;B .劳动生产率提高1000元时,则工资提高80元;C .劳动生产率提高1000元,则工资提高130元;D .当月工资为210元时,劳动生产率为2000元.(3)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-10x +200B.y ^=10x +200C.y ^=-10x -200D.y ^=10x -200 (4)已知x 与y 之间的一组数据:则y 与x 的线性回归方程y =b ^x +a ^必过( ) A .(2,2)点 B .(1.5,0)点 C .(1,2)点D .(1.5,4)点(5)在一次实验中,测得(),x y 的四组值分别是()1,2A ,()2,3B ,()3,4C ,()4,5D ,则y 与x 之间的回归直线方程为( )A .1y x =+B .2y x =+C .21y x =+D .1y x =-(6)已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是 A .423.1+=x y B .523.1+=x y C .08.023.1+=x y D .23.108.0+=x y(7)、某种产品的广告费支出x 和销售额y (单位:百万元)之间有如下一组数据;(2)求出线性回归方程;(3)预测若想要得到9千万的销售额,需投入广告费多少?4,新知学习:研究课本第2页的例1,回答下列问题:(1)________称为样本点的中心,b是回归直线的_____的估计值。
应用回归分析第五版第三章内容总结
应用回归分析第五版第三章内容总结
自变量选择对回归参数的估计有何影响
答:回归自变量的选择是建立回归模型得-一个极为重要的问题。
如果模型中丢掉了重要的自变量,出现模型的设定偏误,这样模型容易出现异方差或自相关性,影响回归的效果;如果模型中增加了不必要的自变量,或者数据质量很差的自变量,不仅使得建模计算量增大,自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。
自变量选择对回归预测有何影响
答:当全模型(m元)正确采用选模型(p元)时,我们舍弃了m-p个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差,所以全模型正确而误用选模型有利有弊。
当选模型(p元)正确采用全模型(m 元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大,所以回归自变量的选择应少而精。
如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣
答:如果所建模型主要用于预测,则应使用C ,统计量达到最小的准则来衡量回归方程的优劣。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
var( ˆ1 )
i 1
xi x
n
2
(
x
x
)
j
j 1
2
2
var( y )
i
n
2
(
x
x
)
j
2
1
2
(
x
)
ˆ
var( 0 )
2
n ( xi x )
x 2
ˆ
ˆ
cov( 0 , 1 )
L xx
Lyy
4 回归方程的显著性检验
五、三种检验的关系
H0: =0
H0: r=0
H0: 回归无效
ˆ1
ˆ1 Lxx
t
2
ˆ
ˆ Lxx
t
n2 r
1 r 2
SSR / 1
F
SSE /( n 2)
4 回归方程的显著性检验
六、样本决定系数
n
r2
SSR
SST
2
ˆ
(
y
y
)
i
构造t 统计量
ˆ1
ˆ1 Lxx
t
2
ˆ
ˆ Lxx
其中
1 n 2
1 n
2
ˆ
ˆ
e
y
y
i n2
i
i
n 2 i 1
i 1
2
4 回归方程的显著性检验
二、F检验
平方和分解式
n
n
n
i 1
i 1
2
2
ˆ
ˆ
( y i y ) ( y i y ) ( yi yi )
i 1
n
2
(
y
y
)
i
i 1
可以证明
L2xy
SSR
r
(r ) 2
SST Lxx Lyy
2
6 回归系数的区间估计
ˆ1 ~ N ( 1 ,
t
ˆ1 1
ˆ 2 / Lxx
2
Lxx
)
( ˆ1 1 ) Lxx
~ t ( n 2)
ˆ
( ˆ1 1 ) Lxx
Lxx
j 1
3 最小二乘估计的性质
三、ˆ0、ˆ1 的方差
2
1
(
x
)
ˆ0 ~ N ( 0 , (
) 2 )
n Lxx
ˆ1 ~ N ( 1 ,
2
Lxx
在正态假设下
)
E(εi ) 0, i 1, 2, , n
σ 2 , i j
cov (εi ,ε j ) 0 , i j
)
回归方程
E(y|x)=β0+β1x
经验回归方程
ŷ ˆ0 ˆ1x
2 参数β0、β1的估计
一、普通最小二乘估计
(Ordinary Least Square Estimation,简记为OLSE)
最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小
n
Q ( ˆ0 , ˆ1 ) ( yi ˆ0 ˆ1 xi ) 2
ˆ)
D(β
ˆ Eβ
ˆ )(β
ˆ Eβ
ˆ ) ) E((β
ˆ β)(β
ˆ β) )
E((β
1
1
E X X X y β XX Xy β
1
1
E X X X (Xβε)β X X X (Xβε) β
y yˆ
0
0
P
t / 2 (n 2) 1
1 h00 ˆ
y0的置信概率为1-α的置信区间为
yˆ 0 t / 2 (n 2) 1 h00 ˆ
y0的置信度为95%的置信区间近似为
yˆ 0 2 ̂
因变量平均值的区间估计
E(y0)=β0+β1x0是常数
i 1
n
min
0 , 1 , 2 ,, p
(y
i 1
ˆ (X X)-1 X y
β
i
0 1 xi1 2 xi 2 p xip ) 2
2 回归参数的估计
二、回归值与残差
e y yˆ y Hy (I - H)y
cov(e,e)=cov((I-H)Y,(I-H)Y)
1
1
E (β XX Xε-β)(β XX Xε-β)
E XX
1
1
1
1
X εε X X X X X X E(εε )XX X
XX XE( 2In )X XX 2 XX
i 1
Lxy ( xi x )( yi y ) xi yi n x y
2 参数β0、β1的估计
二、最大似然估计
在假设εi~N(0,σ2)时, 知yi服从正态分布:
yi ~ N ( 0 1 xi , )
2
ˆ0 y ˆ1 x
ˆ
1 Lxy / Lxx
二、无偏性
E ( ˆ )
1
xi x
n
i 1
n
2
(
x
x
)
j
其中用到
E ( yi )
xi x
i 1
n
2
(
x
x
)
j
j 1
1
i
i
j 1
n
(x x) 0
(x x)x (x
( 0 1 xi )
i
i
x )2
3 最小二乘估计的性质
自变量含定性变量的情况
含有定性变量的回归 因变量是定性变量的情况
一元线性回归
1
2
3
4
5
6
7
一元线性回归模型
参数β0、β1的估计
最小二乘估计的性质
回归方程的显著性检验
残差分析
回归系数的区间估计
预测
1 一元线性回归模型
一元线性回归模型 y=β0+β1x+ε
E ( ) 0
2
var(
(ee)
e
i
n p 1
n p 1
n p 1 i 1
2
是σ2的无偏估计
2 回归参数的估计
三 、回归参数的最大似然估计
y~N(Xβ,σ2In)
-1
ˆ
β (X X) X y
3 参数估计量的性质
性质1
β̂是随机向量y的一个线性变换。
-1
ˆ
β (X X ) X y
性质2
β̂是β的无偏估计。
ˆ ) E ((X X )-1 X y )
E(β
(X X )-1 X E(y )
(X X )-1 X E(Xβε)
(X X )-1 X Xββ
3 参数估计量的性质
性质 3 D(β̂)=σ2(X′X)-1
ˆ ) cov(β
ˆ ,β
Gauss
Markov条件
(i ,j 1, 2, ,n)
4 回归方程的显著性检验
一、t 检验
原假设: H0 :β1=0
对立假设: H1 :β1≠0
由
ˆ1 ~ N ( 1 ,
2
Lxx
)
当原假设H0 :β1=0成立时有:
ˆ1 ~ N (0 ,
2
Lxx
)
4 回归方程的显著性检验
一、t 检验
一元线性回归
线性回归
多元线性回归
讨论如何从数据推断回归模型基本假设的合理性
回归诊断
当基本假设不成立时如何对数据进行修正
自变量选择的准则
回归变量的选择
回归分析
逐步回归分析方法
参数估计方法的改进 岭回归
主成分回归
非线性回归 可化为线性回归的曲线回归
=(I-H)cov(Y,Y)(I-H)′
=σ2(I-H)In(I-H)′=σ2(I-H)
得 D(ei)=(1-hii)σ2,i=1,2,…,n
2 回归参数的估计
二、回归值与残差
n
n
i 1
i 1
得 E ( ei2 ) D(ei ) (n p 1) 2
n
1
1
1
2
ˆ
SSE
1 ( x0 x ) 2 2
yˆ 0 E ( y0 ) ~ N (0, (
) )
n
Lxx
得E(y0)的1-α的置信区间为
yˆ 0 t / 2 (n 2) h00 ˆ
多元线性回归
1
2
3
4
5
6
多元线性回归模型
回归参数的估计
参数估计量的性质
回归方程的显著性检验