讲义3 多元线性回归模型_假设检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
讲义3 多元线性回归模型:推断
主要内容:
1、推断的数学知识复习
2、Size,power的含义
3、OLS估计量的样本分布
4、单约束检验-t检验
5、多约束检验—F检验
对应教材内容:chapter2.5
自由度的概念
“自由度”是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。
例:假设n 个独立变量Xi ~N(0,1),那么)(~)...(2
2
2
22
1n X X X n χ+++;
随机向量的分布与数字特征 ● 协方差矩阵
设Y 是一个由多个随机变量组成的向量,即'
21),...,,(n Y Y Y Y =,那么 Y 的期望为
⎥⎥⎥
⎦
⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==n n Y E Y E Y E μμμ...
)(...)()(11, Y 的协方差矩阵为
⎥⎥
⎥
⎦
⎤⎢⎢⎢⎣
⎡------=--=∑])[(...
)]
)([(.........
)])([(...])[(]
))([(211112
11'
n n n n n n Y E Y Y E Y Y E Y E Y Y E μμμμμμμμ
对于n 个随机变量的线性组合Y '
α,有
μ
αααα'
'11)()...(==++Y E Y Y E n n
α
αα∑='
'
)(Y Var
● 多变量的正态分布X ~N (μ,∑),其中X 为n 维列向量,常被称为正态向量;μ为期望向量,∑为协方差矩阵。X 的密度函数为'1
/2
1/2
11()exp[()()](2)
||
2
n f X x x μμπ-=-
-∑-∑.
● 正态向量的线性函数 若),(~∑μN X ,那么
),(~'
A A b A N b AX ∑++μ
● 标准正态向量的二次型
若~(0,)n X N I ,A 是幂矩阵,那么))((~2
'A rank AX X χ。
特别地,)1(~)(2
1
20
'--=
∑
=n X X X M X n
i i χ。
● 幂矩阵二次型的独立性
设~(0,)n X N I ,A 和B 都是幂矩阵,那么如果0=AB 就有AX X '
和BX X '
就独立。
● 满秩二次型的分布 设
),(~∑μN X ,那么
),0(~)(2
/1I N X μ-∑
-,)(~)()(2
1
'n X X χμμ-∑
--。
● 线性函数与二次型的独立性
设~(0,)n X N I ,LX 是X 的线性函数,AX X '
是X 的二次型,那么如有LA=0必有LX 和
AX X '
独立。
临界值的概念
设X 的分布函数为F ,αx 满足(){},01F x P X x αααα=≤=<<,则称αx 为F 的α临界值或分位数(点)。
例1:对称分布~(0,1)U N 的临界值
例2:非对称分布2
2
~(1)n χχ-的临界值
区间估计
对于参数θ,如果有两个统计量),,,(ˆˆ2111n X X X θθ=,),,,(ˆˆ2122n X X X θθ=,满足对给定的)1,0(∈α,有
αθθθ-=≤≤1}ˆˆ{21P
则称区间[1ˆθ,2ˆθ]是θ的一个区间估计或置信区间,1ˆθ、2ˆθ分别称作置信下限、置信上限,
α-1称为置信水平。
置信水平为1-α,在实际上可以这样理解:如取%951=-α,就是说若对某一参数θ取100个容量为n 的样本,用相同方法做100个置信区间。[)(1ˆk θ,)(2ˆk θ],k =1,2,…,100,那么其中有95个区间包含了真参数θ.因此,当实际上只做一次区间估计时,我们有理由认为它包含了真参数。这样判断当然也可能犯错误,但犯错误的概率只有5%。
寻找置信区间的通常方法是从已知抽样分布的统计量,如上文提到的U ,X 和T 入手,由于分布和概率已知,只要确定临界值就可以了。
假设检验原理的复习
第一步,建立假设
0H 称为原假设,1H 称为备择假设。
注意:在假设检验中,原假设0H 与备选假设1H 的地位是不对等的。一般来说α是较小的,因而检验推断是“偏向”原假设,而“歧视”备选假设的。既然0H 是受保护的,则对于0H 的肯定相对来说是较缺乏说服力的,充其量不过是原假设与试验结果没有明显矛盾;反之,对于0H 的否定则是有力的,且α越小,小概率事件越难于发生,一旦发生了,这种否定就越有力,也就越能说明问题。在应用中,如果要用假设检验说明某个结论成立,那么最好设0H 为该结论不成立。
例3.1(单侧检验):
00:μμ=H ,01:μμ>H
第二步,构造统计量,求出统计量的样本分布以及由样本观察值算出其具体值。
统计量1
n S
X t 0--=
μ在0H 成立的条件下,)(~1n t t
-; 对应的具体值记为t ˆ。
第三步,根据备择假设构造出对0H 不利的小概率事件——在给定显著性水平α下,确定临界值,构造出拒绝域。
在一个问题中,通常指定一个正数α(01α<<),认为概率不超过α的事件是在一次试验
中几乎不会发生的事件,α称为显著性水平。
α
=0.05,算出临界值1(1)t n α--。
1{(1)}V t t n α-=>-,这里V 是拒绝域,它是使得这一小概率事件发生的样本空间的点的全体。
第四步,得出结论
方法1:根据计算出来的t 值,看样本是否落在V 内,若落在V 内,则拒绝0H ,否则,不能拒绝0H 。
如果>t ˆ)1(1--n t α,则称能以α的显著性水平拒绝零假设;否则,不能拒绝零假设;
方法2:比较p 值和α。
p 值定义为不能拒绝零假设的最大的显著性水平;
}ˆ{t t P >,也就是在t-分布中大于统计量t ˆ的概率。
比较p 值和预先设定的显著性水平。
如果p 值<α,则称能以α的显著性水平拒绝零假设;否则,不能拒绝零假设。