完整word版,何晓群版应用回归分析考试重点题型

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一元，多元线形回归分析：

一. 请分别叙述变量间统计关系与函数关系的区别，以及相关分析与回归分析的联系与区别。答：各自然现象或社会现象之间普遍存在着各种联系，根据这些联系的紧密程度不同，可将之分为函数关系与统计关系。一种情况下某变量Y 能被其余的一类变量1,,n X X K 完全决定，这时两者之间存在着完全的确定性关系，这种关系可以通过一个函数

1(,,)n Y f X X =K 表示。这样的确定性关系被称为函数关系。

另一种情况下变量之间虽然存在紧密的联系，但并不能互相唯一确定，这种非确定性的紧密联系被称为统计关系。相关分析与回归分析都是研究两边统计关系的方法，在实际问题的处理中往往结合使用两者。两者的区别主要在于：1.目标不同：相关分析主要用于刻画X,Y 两变量间的联系的密切程度，而回归分析除此之外，还关心对未观察Y 值的预测与控制。2.角度不同：相关分析中X ，Y 两变量地位相同，因此假设两者都是随机变量；而回归分析中只将变量Y 作为主要研究对象，因而往往假设Y 是随机变量，而X 是非随机变量。

二. 请叙述（一元）多元线性回归模型及其基本假设答：1.一元线性模型的基本形式是：

i 01i i y =+x +ββε ，其中01ββ，称为回归系数，i ε称为随机误差。其基本假设为：

G-M 假设：

i i j 2

E =00Cov =,i j i j

εεεσ≠⎧⎨=⎩，（，）

或者更强的正态性假设：

i ε独立同分布，21N εσ:（0，）。

2.多元线性模型的基本假设是：

0p y=X +=,,T

βεβββK ，其中（）

称为回归系数阵，1=,,T n εεεK （）称为随机

误差.

其基本假设为： a. G-M 假设：

i i j 2

E =00Cov =,i j i j

εεεσ≠⎧⎨=⎩，（，）

或者更强的正态性假设：

i ε独立同分布，21N εσ:（0，）。 b.rank(X)=p+1

三．请叙述最小二乘法（最大似然法）的基本思路、理论基础与性质，并对两者作比较。

答：

1. 最小二乘法的基本思路是通过最小化残差平方和

20p 011p 1

Q(,,)=(y )=(y x )'(y x )n

i i ip i βββββββ=--∑K --x -...-x

求得回归系数i β的估计值。其理论基础是函数极值理论。 2．最大似然法的基本思路是最大化似然函数

/22/221

(2)()exp{(y x )'(y x )}2n n L πσββσ

--=---

求得回归系数i β的估计值。其理论基础是函数极值理论。

3.两者对β的估计结论是一致的，且结果均具有线性，无偏性，稳定性（在G-M 假设下是最小方差线性无偏估计，在正态性假设下是最小方差无偏估计，具体参见问题四）。

4.相对来说，使用最大似然法需要的假设较强，需要正态性假设，而最小二乘法本身不需要任何假设。但是，最大似然法可以得到2σ的估计，而最小二乘法不行。

四. 假设通过最小二乘估计得到回归方程01122y ...+i i i p pi x x x ββββε=++++ 的

估计，请叙述估计量1ˆˆˆ=,,p βββK （）以及残差1n e=e ,,e K （）的定义及其性质。答：1.估计量具有线性，无偏性，稳定性，即：

a. ˆβ

是y 的线性变换1ˆ=x'x xy β-（）

b. ˆβ

是无偏的。ˆE ββ= c ．在G-M 假设下ˆβ

是最小方差线性无偏估计，在正态性假设下是最小方差无偏估计。21ˆD()=x'x βσ-（）。

2. 残差ˆi i i e y

y =-，它具有以下性质 a. i i Ee =E =0ε

b. 21

D e =I-H),H=x x'x x',I σ-（）（

其中（）是单位阵，即2,h H i ii ii σD （e ）=(1-h )是的主对角线元素。

c. x'e=0

d. ˆ(,)0Cov e β

=,且正态性假设下两者独立 e ．

21

2

n

i

i e

σ

=∑服从自由度为n-p-1的开方分布，即

221

2

(n p 1)n

i

i e

χσ

=--∑:

五、叙述多元线性回归中常见的显著性检验方法及其关系。

答：常见的显著性检验方法有t 检验，F 检验，偏F 检验三种。假设检验水平

为α。 1.F 检验

012i H ==...00p ββββ==⇔≠原假设：备择假设：存在检验统计量：/F=

(p,n p 1)/1

SSR p

F SSE n p ----:

判断法则：(p,n p 1)F F α>--时拒绝原假设。 2.t 检验

0H 00j j j ββ=⇔≠原假设：备择假设：

检验统计量：1ˆ(n p 1),c x'x)jj t β---:其中是矩阵(的主对角元素

判断法则：/2|t|t (n p 1)α≥--时拒绝原假设。

3.偏F 检验

0H 00j j j ββ=⇔≠原假设：备择假设：检验统计量：

(j)(j)SSR F =

(1,n p 1),SSR x /1

j j SSR F SSE n p -----:其中是剔除后的回归平方和。

判断法则：j (1,n p 1)F F α>--时拒绝原假设。

4.三者的关系。

t 检验与偏F 检验等价，F 检验与另两者不同（实质上是另两者的前提），

通常先做F 检验，再做t 检验或偏F 检验。

六、给出一元回归模型估计值的点估计与区间估计（置信度1-α）

答：1.在未观测点0x 处，y 的点估计为0010ˆˆˆ=+x y ββ。 2.在未观测点0x 处，0y 的区间估计为（预测区间）

2

00/200(x )1ˆˆt (n ,x y h n Lxx α-±-=+其中

n 相当大时(n>15),可以简化为0ˆˆ2y

σ±。 3. 在未观测点0x 处，0Ey 的区间估计为（置信区间）

2

00/200(x )1ˆt (n ,x y h n Lxx

α-±-=+其中。

3. 给定置信上界2T 与置信下界1T 时，0x 的取值范围为

1020101

1

1020101

1

ˆˆˆˆ22ˆ0ˆˆˆˆˆˆ22ˆ0ˆˆT T x T T x σβσββββ

σβσββββ

+---><<

+---<>>时，时，

七.叙述样本数据与回归系数标准化的意义与方法

答：多元线性回归模型中，由于自变量的数量级差异较大，因而舍入误差将对估计的精度造成较大的影响；同时自变量的单位不同也会造成回归方程的解释比较困难，因而通常需要对样本数据进行预处理，即数据的标准化。数据的标准化通常这样进行：