何晓群版应用回归分析考试重点题型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一元,多元线形回归分析:

一. 请分别叙述变量间统计关系与函数关系的区别,以及相关分析与回归分析的联系与区别。 答:各自然现象或社会现象之间普遍存在着各种联系,根据这些联系的紧密程度不同,可将之分为函数关系与统计关系。 一种情况下某变量Y 能被其余的一类变量1,

,n X X 完全决定,这时

两者之间存在着完全的确定性关系,这种关系可以通过一个函数

1(,

,)n Y f X X = 表示。这样的确定性关系被称为函数关系。

另一种情况下变量之间虽然存在紧密的联系,但并不能互相唯一

确定,这种非确定性的紧密联系被称为统计关系。 相关分析与回归分析都是研究两边统计关系的方法,在实际问题的处理中往往结合使用两者。两者的区别主要在于:1.目标不同:相关分析主要用于刻画X,Y 两变量间的联系的密切程度,而回归分析除此之外,还关心对未观察Y 值的预测与控制。2.角度不同:相关分析中X ,Y 两变量地位相同,因此假设两者都是随机变量;而回归分析中只将变量Y 作为主要研究对象,因而往往假设Y 是随机变量,而X 是非随机变量。

二. 请叙述(一元)多元线性回归模型及其基本假设 答:1.一元线性模型的基本形式是:

i 01i i y =+x +ββε ,其中01ββ,称为回归系数,i ε称为随机误差。 其基本假设为:

G-M 假设:

i i j 2

E =00Cov =,i j i j

εεεσ≠⎧⎨=⎩,(,)

或者更强的正态性假设: i ε独立同分布,21

N εσ(0,) 。

2.多元线性模型的基本假设是:

0p y=X +=,

,T

βεβββ,其中()

称为回归系数阵,1=,,T

n εεε()称为随机

误差.

其基本假设为: a. G-M 假设:

i i j 2

E =00Cov =,i j i j

εεεσ≠⎧⎨=⎩,(,)

或者更强的正态性假设: i ε独立同分布,21N εσ(0,) 。

b.rank(X)=p+1

三. 请叙述最小二乘法(最大似然法)的基本思路、理论基础与性质,并对两者作比较。

答:

1. 最小二乘法的基本思路是通过最小化残差平方和

20p 011p 1

Q(,

,)=(y )=(y x )'(y x )n

i i ip i βββββββ=--∑--x -...-x

求得回归系数i β的估计值。其理论基础是函数极值理论。 2.最大似然法的基本思路是最大化似然函数

/22/221

(2)()exp{(y x )'(y x )}2n n L πσββσ

--=---

求得回归系数i β的估计值。其理论基础是函数极值理论。

3.两者对β的估计结论是一致的,且结果均具有线性,无偏性,稳定性(在G-M 假设下是最小方差线性无偏估计,在正态性假设下是最小方差无偏估计,具体参见问题四)。

4.相对来说,使用最大似然法需要的假设较强,需要正态性假设,而最小二乘法本身不需要任何假设。但是,最大似然法可以得到2σ的估计,而最小二乘法不行。

四. 假设通过最小二乘估计得到回归方程01122y ...+i i i p pi x x x ββββε=++++ 的

估计,请叙述估计量1ˆˆˆ=,,p βββ()以及残差1n e=e ,

,e ()的定义及其性质。

答:1.估计量具有线性,无偏性,稳定性,即:

a. ˆβ

是y 的线性变换1ˆ=x'x xy β-()

b. ˆβ

是无偏的。ˆE ββ= c .在G-M 假设下ˆβ

是最小方差线性无偏估计,在正态性假设下是最小方差无偏估计。21ˆD()=x'x βσ-()。

2. 残差ˆi i i e y

y =-,它具有以下性质 a. i i Ee =E =0ε

b. 21

D e =I-H),H=x x'x x',I σ-()(

其中()是单位阵,即2,h H i ii ii σD (e )=(1-h )是的主对角线元素。

c. x'e=0

d. ˆ(,)0Cov e β

=,且正态性假设下两者独立 e .

21

2

n

i

i e

σ

=∑服从自由度为n-p-1的开方分布,即

221

2

(n p 1)n

i

i e

χσ

=--∑

五、叙述多元线性回归中常见的显著性检验方法及其关系。

答:常见的显著性检验方法有t 检验,F 检验,偏F 检验三种。假设检验水平

为α。 1.F 检验

012i H ==...00p ββββ==⇔≠原假设:备择假设:存在 检验统计量:/F=

(p,n p 1)/1

SSR p F SSE n p ----

判断法则:(p,n p 1)F F α>--时拒绝原假设。 2.t 检验

0H 00j j j ββ=⇔≠原假设:备择假设:

检验统计量:1ˆ(n p 1),c x'x)jj t β---其中是矩阵(的主对角元素

判断法则:/2|t|t (n p 1)α≥--时拒绝原假设。

3.偏F 检验

0H 00j j j ββ=⇔≠原假设:备择假设: 检验统计量:

(j)(j)SSR F =

(1,n p 1),SSR x /1

j j SSR F SSE n p -----其中是剔除后的回归平方和。

判断法则:j (1,n p 1)F F α>--时拒绝原假设。

4.三者的关系。

t 检验与偏F 检验等价,F 检验与另两者不同(实质上是另两者的前提),

通常先做F 检验,再做t 检验或偏F 检验。

六、给出一元回归模型估计值的点估计与区间估计(置信度1-α)

答:1.在未观测点0x 处,y 的点估计为0010ˆˆˆ=+x y ββ。 2.在未观测点0x 处,0y 的区间估计为(预测区间)

2

00/200(x )1ˆˆt (n ,x y h n Lxx α-±-=+其中

n 相当大时(n>15),可以简化为0ˆˆ2y

σ±。 3. 在未观测点0x 处,0Ey 的区间估计为(置信区间)

2

00/200(x )1ˆt (n ,x y h n Lxx

α-±-=+其中。

3. 给定置信上界2T 与置信下界1T 时,0x 的取值范围为

1020101

1

1020101

1

ˆˆˆˆ22ˆ0ˆˆˆˆˆˆ22ˆ0ˆˆT T x T T x σβσββββ

σβσββββ

+---><<

+---<>>时,时,

七.叙述样本数据与回归系数标准化的意义与方法

答:多元线性回归模型中,由于自变量的数量级差异较大,因而舍入误差将对估计的精度造成较大的影响;同时自变量的单位不同也会造成回归方程的解释比较困难,因而通常需要对样本数据进行预处理,即数据的标准化。 数据的标准化通常这样进行:

相关文档
最新文档