何晓群版应用回归分析考试重点题型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一元,多元线形回归分析:
一. 请分别叙述变量间统计关系与函数关系的区别,以及相关分析与回归分析的联系与区别。 答:各自然现象或社会现象之间普遍存在着各种联系,根据这些联系的紧密程度不同,可将之分为函数关系与统计关系。 一种情况下某变量Y 能被其余的一类变量1,,n X X K 完全决定,这时两者之间存在着完全的确定性关系,这种关系可以通过一个函数
1(,,)n Y f X X =K 表示。这样的确定性关系被称为函数关系。
另一种情况下变量之间虽然存在紧密的联系,但并不能互相唯一确定,这种非确定性的紧密联系被称为统计关系。 相关分析与回归分析都是研究两边统计关系的方法,在实际问题的处理中往往结合使用两者。两者的区别主要在于:1.目标不同:相关分析主要用于刻画X,Y 两变量间的联系的密切程度,而回归分析除此之外,还关心对未观察Y 值的预测与控制。2.角度不同:相关分析中X ,Y 两变量地位相同,因此假设两者都是随机变量;而回归分析中只将变量Y 作为主要研究对象,因而往往假设Y 是随机变量,而X 是非随机变量。
二. 请叙述(一元)多元线性回归模型及其基本假设 答:1.一元线性模型的基本形式是:
i 01i i y =+x +ββε ,其中01ββ,称为回归系数,i ε称为随机误差。 其基本假设为:
G-M 假设:
i i j 2
E =00Cov =,i j i j
εεεσ≠⎧⎨=⎩,(,)
或者更强的正态性假设:
i ε独立同分布,21N εσ:(0,) 。
2.多元线性模型的基本假设是:
0p y=X +=,,T
βεβββK ,其中()
称为回归系数阵,1=,,T n εεεK ()称为随机
误差.
其基本假设为: a. G-M 假设:
i i j 2
E =00Cov =,i j i j
εεεσ≠⎧⎨=⎩,(,)
或者更强的正态性假设:
i ε独立同分布,21N εσ:(0,) 。 b.rank(X)=p+1 三. 请叙述最小二乘法(最大似然法)的基本思路、理论基础与性质,并对两者作比较。 答: 1. 最小二乘法的基本思路是通过最小化残差平方和 20p 011p 1 Q(,,)=(y )=(y x )'(y x )n i i ip i βββββββ=--∑K --x -...-x 求得回归系数i β的估计值。其理论基础是函数极值理论。 2.最大似然法的基本思路是最大化似然函数 /22/221 (2)()exp{(y x )'(y x )}2n n L πσββσ --=--- 求得回归系数i β的估计值。其理论基础是函数极值理论。 3.两者对β的估计结论是一致的,且结果均具有线性,无偏性,稳定性(在G-M 假设下是最小方差线性无偏估计,在正态性假设下是最小方差无偏估计,具体参见问题四)。 4.相对来说,使用最大似然法需要的假设较强,需要正态性假设,而最小二乘法本身不需要任何假设。但是,最大似然法可以得到2σ的估计,而最小二乘法不行。 四. 假设通过最小二乘估计得到回归方程01122y ...+i i i p pi x x x ββββε=++++ 的 估计,请叙述估计量1ˆˆˆ=,,p βββK ()以及残差1n e=e ,,e K ()的定义及其性质。 答:1.估计量具有线性,无偏性,稳定性,即: a. ˆβ 是y 的线性变换1ˆ=x'x xy β-() b. ˆβ 是无偏的。ˆE ββ= c .在G-M 假设下ˆβ是最小方差线性无偏估计,在正态性假设下是最小方差无 偏估计。21ˆD()=x'x βσ-()。 2. 残差ˆi i i e y y =-,它具有以下性质 a. i i Ee =E =0ε b. 21 D e =I-H),H=x x'x x',I σ-()( 其中()是单位阵,即2,h H i ii ii σD (e )=(1-h )是的主对角线元素。 c. x'e=0 d. ˆ(,)0Cov e β =,且正态性假设下两者独立 e . 21 2 n i i e σ =∑服从自由度为n-p-1的开方分布,即 221 2 (n p 1)n i i e χσ =--∑: 五、叙述多元线性回归中常见的显著性检验方法及其关系。 答:常见的显著性检验方法有t 检验,F 检验,偏F 检验三种。假设检验水平 为α。 1.F 检验 012i H ==...00p ββββ==⇔≠原假设:备择假设:存在 检验统计量:/F= (p,n p 1)/1 SSR p F SSE n p ----: 判断法则:(p,n p 1)F F α>--时拒绝原假设。 2.t 检验 0H 00j j j ββ=⇔≠原假设:备择假设: 检验统计量:1ˆ(n p 1),c x'x)jj t β---:其中是矩阵(的主对角元素 判断法则:/2|t|t (n p 1)α≥--时拒绝原假设。 3.偏F 检验 0H 00j j j ββ=⇔≠原假设:备择假设: 检验统计量: (j)(j)SSR F = (1,n p 1),SSR x /1 j j SSR F SSE n p -----:其中是剔除后的回归平方和。 判断法则:j (1,n p 1)F F α>--时拒绝原假设。 4.三者的关系。 t 检验与偏F 检验等价,F 检验与另两者不同(实质上是另两者的前提), 通常先做F 检验,再做t 检验或偏F 检验。 六、给出一元回归模型估计值的点估计与区间估计(置信度1-α) 答:1.在未观测点0x 处,y 的点估计为0010ˆˆˆ=+x y ββ。 2.在未观测点0x 处,0y 的区间估计为(预测区间) 2 00/200(x )1ˆˆt (n ,x y h n Lxx α-±-=+其中 n 相当大时(n>15),可以简化为0ˆˆ2y σ±。 3. 在未观测点0x 处,0Ey 的区间估计为(置信区间) 2 00/200(x )1ˆt (n ,x y h n Lxx α-±-=+其中。 3. 给定置信上界2T 与置信下界1T 时,0x 的取值范围为 1020101 1 1020101 1 ˆˆˆˆ22ˆ0ˆˆˆˆˆˆ22ˆ0ˆˆT T x T T x σβσββββ σβσββββ +---><< +---<>>时,时, 七.叙述样本数据与回归系数标准化的意义与方法 答:多元线性回归模型中,由于自变量的数量级差异较大,因而舍入误差将对估计的精度造成较大的影响;同时自变量的单位不同也会造成回归方程的解释比较困难,因而通常需要对样本数据进行预处理,即数据的标准化。 数据的标准化通常这样进行: