讲义3 多元线性回归模型_假设检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

讲义3 多元线性回归模型:推断

主要内容:

1、推断的数学知识复习

2、Size,power的含义

3、OLS估计量的样本分布

4、单约束检验-t检验

5、多约束检验—F检验

对应教材内容:chapter2.5

自由度的概念

“自由度”是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。

例:假设n 个独立变量Xi ~N(0,1),那么)(~)...(2

2

2

22

1n X X X n χ+++;

随机向量的分布与数字特征 ● 协方差矩阵

设Y 是一个由多个随机变量组成的向量,即'

21),...,,(n Y Y Y Y =,那么 Y 的期望为

⎥⎥⎥

⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==n n Y E Y E Y E μμμ...

)(...)()(11, Y 的协方差矩阵为

⎥⎥

⎤⎢⎢⎢⎣

⎡------=--=∑])[(...

)]

)([(.........

)])([(...])[(]

))([(211112

11'

n n n n n n Y E Y Y E Y Y E Y E Y Y E μμμμμμμμ

对于n 个随机变量的线性组合Y '

α,有

μ

αααα'

'11)()...(==++Y E Y Y E n n

α

αα∑='

'

)(Y Var

● 多变量的正态分布X ~N (μ,∑),其中X 为n 维列向量,常被称为正态向量;μ为期望向量,∑为协方差矩阵。X 的密度函数为'1

/2

1/2

11()exp[()()](2)

||

2

n f X x x μμπ-=-

-∑-∑.

● 正态向量的线性函数 若),(~∑μN X ,那么

),(~'

A A b A N b AX ∑++μ

● 标准正态向量的二次型

若~(0,)n X N I ,A 是幂矩阵,那么))((~2

'A rank AX X χ。

特别地,)1(~)(2

1

20

'--=

=n X X X M X n

i i χ。

● 幂矩阵二次型的独立性

设~(0,)n X N I ,A 和B 都是幂矩阵,那么如果0=AB 就有AX X '

和BX X '

就独立。

● 满秩二次型的分布 设

),(~∑μN X ,那么

),0(~)(2

/1I N X μ-∑

-,)(~)()(2

1

'n X X χμμ-∑

--。

● 线性函数与二次型的独立性

设~(0,)n X N I ,LX 是X 的线性函数,AX X '

是X 的二次型,那么如有LA=0必有LX 和

AX X '

独立。

临界值的概念

设X 的分布函数为F ,αx 满足(){},01F x P X x αααα=≤=<<,则称αx 为F 的α临界值或分位数(点)。

例1:对称分布~(0,1)U N 的临界值

例2:非对称分布2

2

~(1)n χχ-的临界值

区间估计

对于参数θ,如果有两个统计量),,,(ˆˆ2111n X X X θθ=,),,,(ˆˆ2122n X X X θθ=,满足对给定的)1,0(∈α,有

αθθθ-=≤≤1}ˆˆ{21P

则称区间[1ˆθ,2ˆθ]是θ的一个区间估计或置信区间,1ˆθ、2ˆθ分别称作置信下限、置信上限,

α-1称为置信水平。

置信水平为1-α,在实际上可以这样理解:如取%951=-α,就是说若对某一参数θ取100个容量为n 的样本,用相同方法做100个置信区间。[)(1ˆk θ,)(2ˆk θ],k =1,2,…,100,那么其中有95个区间包含了真参数θ.因此,当实际上只做一次区间估计时,我们有理由认为它包含了真参数。这样判断当然也可能犯错误,但犯错误的概率只有5%。

寻找置信区间的通常方法是从已知抽样分布的统计量,如上文提到的U ,X 和T 入手,由于分布和概率已知,只要确定临界值就可以了。

假设检验原理的复习

第一步,建立假设

0H 称为原假设,1H 称为备择假设。

注意:在假设检验中,原假设0H 与备选假设1H 的地位是不对等的。一般来说α是较小的,因而检验推断是“偏向”原假设,而“歧视”备选假设的。既然0H 是受保护的,则对于0H 的肯定相对来说是较缺乏说服力的,充其量不过是原假设与试验结果没有明显矛盾;反之,对于0H 的否定则是有力的,且α越小,小概率事件越难于发生,一旦发生了,这种否定就越有力,也就越能说明问题。在应用中,如果要用假设检验说明某个结论成立,那么最好设0H 为该结论不成立。

例3.1(单侧检验):

00:μμ=H ,01:μμ>H

第二步,构造统计量,求出统计量的样本分布以及由样本观察值算出其具体值。

统计量1

n S

X t 0--=

μ在0H 成立的条件下,)(~1n t t

-; 对应的具体值记为t ˆ。

第三步,根据备择假设构造出对0H 不利的小概率事件——在给定显著性水平α下,确定临界值,构造出拒绝域。

在一个问题中,通常指定一个正数α(01α<<),认为概率不超过α的事件是在一次试验

中几乎不会发生的事件,α称为显著性水平。

α

=0.05,算出临界值1(1)t n α--。

1{(1)}V t t n α-=>-,这里V 是拒绝域,它是使得这一小概率事件发生的样本空间的点的全体。

第四步,得出结论

方法1:根据计算出来的t 值,看样本是否落在V 内,若落在V 内,则拒绝0H ,否则,不能拒绝0H 。

如果>t ˆ)1(1--n t α,则称能以α的显著性水平拒绝零假设;否则,不能拒绝零假设;

方法2:比较p 值和α。

p 值定义为不能拒绝零假设的最大的显著性水平;

}ˆ{t t P >,也就是在t-分布中大于统计量t ˆ的概率。

比较p 值和预先设定的显著性水平。

如果p 值<α,则称能以α的显著性水平拒绝零假设;否则,不能拒绝零假设。

相关文档
最新文档