最小二乘法小结分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最小二乘法原理
1. 介绍部分
最小二乘法是获得物理参数唯一值的标准方法,具体是通过这些参数或者在已知数学模型中与这些参数相关的参数的多余观测值来求得。
最小二乘法最早是由高斯提出,用来估计行星运行轨道的。
1.1 数理统计和最小二乘法
物理量总是不能被精确测定。
总是存在一个限定的测量精度,超过这个精度,相关的数学模型和测量仪器的分辨率这两者之一或者全部将会无能为力。
超出这个精度,多余观测值之间会产生差异。
我们常常希望获得超过该限定精度的测量值,在不知道真值的情况下我们只能估计真值。
一方面我们想要估计出唯一的值,另一方面,我们想要知道这个估计有多好。
最小二乘法就是这样一个估计,它基于最小化差值的平方和。
最小二乘法相比其他传统的方法有三个优点。
其一,它既可以应用在线性数学模型上也可以应用在非线性数学模型上;其二,它和统计量算术平均值有关;其三,最小二乘法在很多领域是通用的。
物理量的值的唯一统计估计称为点估计。
无论频率函数是否知道,我们都可以作物理量的点估计并且可以衡量它与真值趋近程度。
另外两种估计,区间估计以及假设检验,它们只能在相应的频率函数已经确定的情况下进行。
1.2 线性代数和最小二乘法
(nontrivial=nonzero,非平凡解就是指非零解)
现有线性方程组
A X= L (1-1)
X是未知数向量,L是常数向量,A是系数矩阵,[A:L]是增广矩阵。
该方程组有唯一非零解仅当
L ≠ 0 (非齐次方程组),(1-2a)
r (A) = X的维数,(1-2b)
r ([A:L]) = r (A)。
(1-2c )
当没有多余等式时,准则(1-2b )意味着A 是方阵且非奇异,它的逆矩阵是存在的,这样方程组的解就表达成
X = A 1- L (1-3)
当存在多余等式时,A 将不是方阵,但是A T A 是方阵且非奇异,这样方程组的解就表达成
X = (A T A) 1- A T
L 。
(1-4) L 的元素对应于物理量观测值,基于上述数学讨论,如果没有多余观测量(即没有多余的等式),则未知量将只有唯一的非零解。
如果存在多余观测量,它们之间将互相不一致,因为观测存在误差。
这样(1-2c )准则就无法满足,也就不存在唯一解。
我们只能对结果做一个唯一的估计。
从而引入了最小二乘准则。
因为观测误差的存在,使得方程组(1-1)左右矛盾,为此引入一个向量来抵消这个矛盾,从而使方程组成立。
于是有
A X - L = V (1-5)
V 称为残差向量。
引入^
X 作为X 的最优估值,这样最小二乘准则表达为 =--=)()(^
^^^L X A L X A V V T T min (1-6)
估值^X 称为最小二乘估值。
由式(1-4)可得 L A A A X T T 1^
)(-=, (1-7)
观测误差或残差的最优估值由下式得出 L X A V -=^
^ 。
(1-8)
这些估值称为简单最小二乘估值,或者称为等权最小二乘估值。
组成L 的物理量观测值不总是等精度的(比如采用了不同的观测仪器或者不同的观测条件),因此我们给每个观测量分配一个已知的权重,由这些元素构成的矩阵称为权阵P 。
这样,先前的最小二乘准则调整为 =^
^V P V T min 。
(1-9)
未知量估值调整为 PL A PA A X T T 1^
)(-= (1-10)
如果P作为观测值的估量协方差阵的逆阵,那么最小二乘估计就是最小方差估计;如果观测误差是正态分布,那么最小二乘方差估计就是最大似然估计。
考虑更一般的情形,此时观测量未知参数的非线性方程相关
-
)
F=
((1-11)
V
L
X
或者,观测量与未知参数的方程非线性相关
L
X
+V
F(1-12)
)
,
(=
1.3 数字计算机和最小二乘法
从实际出发,矩阵求逆以及矩阵乘法都要求海量的计算步骤。
在大型快速计算机发明以前,除非绝对必要,一般是不会去做这样的尝试。
然而测量网坐标的最小二乘估计就是这样的必要情况。
以前的大地测量学家在简化步骤创新方法上做出很多努力,计算机发明之后这项工作显得没原来那么重要了。
然而计算机也不能同时计算多达数千个方程,因此,如今大地测量学家把精力放在改进算法上,以便将一个大问题拆分成许多小问题,再逐一解决。
1.4 高斯和最小二乘法
以下是对高斯一段引文的翻译
“如果用于轨道计算的天文观测值和其他量是完全正确的,则轨道要素也是严格准确的,而无论是从三个或者四个观测值上推导出来(到目前为止轨道运动确实按照开普勒定律在进行),因此,如果使用其他观测值,则轨道要素可能被确定但不准确。
但是,因为我们的所有测量值和观测值都只是真值的近似,那么依赖于它们的所有计算也一定是正确的,关于具体现象的所有计算的最高目标一定是近似与真值的,只要接近到可实用的程度。
但这只能通过将多于确定未知量所必要的观测量进行适当组合来完成。
这个问题只有当轨道的大概知识已经获得的情况下才能处理,这个大概的知识之后将得到改正以便以尽可能最精确的方式满足所有的观测值。
”
从这段写于150年前的话可以总结出以下观点
a、数学模型可能不完整,
b、物理测量值存在矛盾,
c、从矛盾的物理测量值出发进行计算就是为了估计出真值,
d、多余测量值将会减小测量值矛盾的影响,
e、在最终估值前需要使用大概的初值,
f、通过一种方法最小化测量值之间的矛盾值,从而改正初值(高斯所指的最小二乘法)。
2. 统计学定义和概念
2.1 统计学术语
统计学,统计量,变量,连续变量,离散变量,常量。
一般的测量结果都是连续变量,计算结果是离散变量。
随机变量,包含一个值域(跟普通变量相同)和一个概率函数。
总体(population),个体(individual),样本,随机样本(通常样本指的都是随机样本)。
样本空间,样本点和事件在使用中分别代替总体,个体和随机样本。
分组(class),分组界限,组距,组频率,相对频率。
*没有哪一个关于概率的定义是被所有统计学家所接受的。
经典的定义是,等可能取自总体
Pr(A等于所有落入A的个体占总体的分数。
这是一个间接定的一个个体落入组A的概率)
义,因为等可能实际上就是等概率,因此是用概率自己定义了自己。
有两种办法来解决这个
Pr(A为从总体中选择一个个体,在n 问题,但都不是完全令人满意的。
第一种,定义概率)
次(当n趋于无穷)选择中,个体落入组A的相对频率。
第二种,接受“概率”是一个不可定义的概念,仍然称适用于概率的规定为公理。
2.2 频率函数(概率密度函数)
累积频率函数(分布函数,累积分布函数,累积概率函数),频率分布(p26)。
频率分布的两个重要特点:集中趋向,离中趋势(离散度)。
频率分布两个次重要特点:偏斜度,峰度。
集中趋向的度量方法包括:算术平均值,中位数,众数(mode),几何平均数以及调和平均数。
离散度的度量方法包括:标准差,平均偏差以及极差(range)。
期望值及其相关性质。
n 阶原点矩,以及n 阶平均值矩(我们习惯称为n 阶中心矩)的期望,其中二阶中心矩称为方差。
随机变量X 矩量母函数(moment generating function )定义
dx x e e E t M tx tx )(][)(ϕ⎰∞
∞-== , (2-10a ) 一个分布的任何矩都可以直接从矩量母函数中推导出来,例如,一阶原点矩μ
)0()(]['
0M dt t dM x E t ==
==μ , (2-10b ) 又如,方差(二阶中心矩)2σ 2'''222)]0([)0(][M M x E -=-=μσ , (2-10c )
2.3 多元随机变量频率函数(联合密度函数)
引入随机变量向量
⎥⎥⎥⎥
⎦
⎤⎢⎢⎢⎢⎣⎡⋅=n x x x X 21 多元随机变量频率函数定义
)()(00210dX X X X P dx dx dx X r n +≤≤=⋅⋅⋅ϕ , (2-11)
其中
⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎣⎡⋅=002010n x x x X , ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⋅=n dx dx dx dX 21 各个不等式同时成立。
多元变量累积频率函数(联合累积分布函数)定义
n x x dx dx dx X X n
⋅⋅⋅⋅⋅=⎰⎰∞-∞-210010)()(ϕφ 。
(2-12) )(0
X X P r ≤=
引入随机变量的统计独立。
多元随机变量函数的期望,以及多元随机变量分布的均值都与一元情况类似。
引入协方差阵∑X (也称方差-协方差阵),包括方差2
i σ及协方差ij σ的定义和计算方法。
引入相关系数j
i ij ij σσσρ= ,若i x 与j x 统计独立,则它们的相关系数ij ρ为0,因此协方差和相关系数是用来衡量两个随机变量是统计独立还是相关的。
2.4 协方差律
假定随机变量Y 与随机变量X 线性相关,即
CX Y =
则有
X Y CU U = ,
∑∑=Y X
T C C 。
上式即称为协方差律,或者协方差传播律。
如果Y 与X 非线性相关,即
)(X F Y =
将其运用泰勒级数展开,使原函数线性化,依然可以得到上述结论,只是此时的系数C 应该变成
0X X F C ∂∂=。
2.5 点估计
引入统计量(期望,方差)。
引入总体统计量(用希腊字母表示),样本统计量(用拉丁字母表示)。
统计估计是统计学方法的一个分支,通过从总体中所取样本的认识来推及总体的性质。
引入估计量(即点估计量),用样本统计量(即估计量)的值去推导总体统计量的值。
最常用的估计量是样本均值∑=i i x n x 1 和样本方差22)(11∑--=i
i x x n s 。
样本统计量本身也是随机变量,存在一个对应的分布(称样本分布),因此从同一个总体中
取出的不同样本的统计量的值通常是不等的。
样本均值的期望等于总体均值μ,样本均值的方差等于n
2
σ。
样本方差的期望等于2
σ,即等于总体的方差。
引入无偏估计量,表示该估计量的样本分布的均值等于它所估计的总体统计量,因此样本均值和样本方差都是无偏估计量。
引入最小方差估计量和最大似然估计量。
2.6 区间估计和假设检验
区间估计,若
αε=≤≤)(21e e P r
称区间[]21,e e 为ε的%100α置信区间,表示有%100α的时候可以认为ε落在[]21,e e 内是正确的。
假设检验,即先对总体做出某种假设,然后通过样本值来检验,以决定接受或者拒绝该假设。
引入显著性水平α,即犯第一类错误(假设正确但是被拒绝)的概率。
引入检验功效)-1(β,其中β是指犯第二类错误(假设错误但是被接受)的概率。
//小结三种统计估计,点估计不需要假定总体分布,区间估计和假设检验则需要假定或者确定总体分布。
3. 统计分布函数
引入一元随机变量,多元随机变量。
特殊的分布:正态分布(normal ),卡方分布(chi-square ),t 分布,F 分布。
3.1 正态分布
3.1.1 正态分布函数
累积分布函数,概率分布函数(略)。
3.1.2 矩量母函数
]2
exp[)(2
2t b at t M += (推导过程关键令bt b a x y --=) 由前章知
a M ==)0('μ
22'''2)]0([)0(b M M =-=σ
(文章缺失了P30-31)
)1,0(n 分布的图像的一些特征:
1)关于纵轴0=x 对称,
2)在0=x 处取得最大值
π
21, 3)x 轴是水平渐近线,
4)拐点在σ±=x 处。
3.1.5 关于正态分布的计算
引入正态分布计算表
使用)1,0(n 分布的表解来查找结果的基本公式
)()Pr(σu
c N c x -=≤
)()(
)Pr(1221σσu c N u c N c x c ---=≤≤
3.1.6 多元随机变量正态分布
m 维多元随机变量正态概率密度函数
]2)
()(exp[)(1∑----=X T U X U X C X ϕ
其中X 是随机变量向量,U 是相应的均值向量,∑X 是协方差阵。
常数
2/2/11)2(])[det(m X C π∑-=
3.2 卡方分布
3.2.1 分布函数
引入伽马函数
dy e y y -∞
-⎰=Γ01)(αα 其中0>α。
当1=α时,1)1(=Γ,当1>α时,!1-)1()1()()(αααα=
-Γ-=Γ。
上式令β/x y =,且0>β,则有
dx x x β
ββαα1)exp()()(10-=Γ-∞⎰ 从而
dx x x )exp()(1110β
βααα-Γ=-∞
⎰ 上式满足累积分布函数的要求,对应的概率密度函数(p.d.f )为
)0();exp()(1)(1∞<<-Γ=-x x x x β
βαϕαα 0= 其它
上式即为关于参数α和β的伽马分布的概率密度函数。
当2υα=
,且2=β,其中υ是正整数,此时该伽马分布就称为卡方分布,它的概率密度函
数为
)0();2
exp(2)2(1
)()12(2
∞<<-Γ=-x x x x υυυϕ 0= 其它
其中的υ称为自由度。
上述的服从卡方分布的连续随机变量缩写为)(2υχ。
3.2.2 矩量母函数
公式(推导过程略)
2
)21(1)(υt t M -=
则有 υμ==)0('M
υσ2)]0([)0(2'''2=-=M M
3.2.3 卡方分布的图像
性质:
a )0=x 时,值为0,
b )最大值在区间∞<<x 0内,
c )x 轴正方向是一条渐近线,
d )在最大值每边各有有一个拐点。
3.2.4 关于卡方分布的计算
引入卡方分布计算表。
基本公式
)0(;)2exp(2)2(1
)Pr(20)12(2
2
∞<<-Γ=≤⎰-x dx x x x P P χυυυχ
)Pr()Pr()Pr(2
2221
221P P P P x x x χχχχ≤-≤=≤≤
3.3 t 分布(学生氏分布)
3.3.1 分布函数
令随机变量ω服从标准正态分布)1,0(n ,以及随机变量ν服从卡方分布)(2v χ,规定它们是相互独立的,则它们的联合概率密度函数为
⎭
⎬⎫⎩⎨⎧∞<<∞<<∞-Γ-=-νωννυ
ωπ
νωϕυ
υ
0-)2exp(2)2
(1
)
2exp(21),()
12
(2
2,
0= 其它
令
2
/1)
/(υνω
=
t
引入变形等式
⎪⎩
⎪⎨⎧==u u t νυω 引入雅各比式
2/12/12/1)(1)(2
)
(υ
υυνω
νωu u t
u u
u t t J ==∂∂∂∂∂∂∂∂=- 则新的概率密度函数为
2
/12)12
(2
/2/1)
)](1(2exp[2)2
()2(1),(),(υ
υυ
πνωϕϕυ
υu t u u
J u t +-Γ=
=-
⎭
⎬⎫⎩⎨⎧∞<<∞<<∞-u t 0
0= 其它
将上式中的u 积分掉,可得
)(,)
1(1
)2
()(]
2/)1[()(2
/)1(22/1∞<<-∞+Γ+Γ=
+t t t υυ
πυυϕ 前提是令
2
/1)
/(υνω
=
t 可知t 分布是由自由度υ唯一确定的。
3.3.2 t 分布的图像
性质:
1))(t ϕ在区间∞<<∞t -上有值, 2))(t ϕ在0=t 处取得最大值, 3)t 轴是它的水平渐近线, 4)在最大值两侧分别有一个拐点。
3.3.3 关于t 分布的计算
引入t 分布计算表 基本公式
dt t t x P
t P ⎰∞
-=≤)()Pr(ϕ
3.4 F 分布
3.4.1 分布函数
设有两个随机变量u 和ν均服从卡方分布,自由度分别是1υ和2υ。
则它们的联合概率分布函数为
2/)()
12
)(
12
(
2
/)(2
1
21212)2
(
)2
(
1
),(νυυυυυυνϕ+---+ΓΓ=
u e u
u ⎭
⎬⎫
⎩⎨⎧∞<<∞<<ν00u
0= 其它
令
2
1
//υνυu f =
引入变形等式
⎪⎩
⎪
⎨⎧==z u u νυνυ21// 引入雅各比式
2
1212
11
)(0)(υυυυυυννz f z z
z
u
f f u J ==∂∂∂∂∂∂∂∂= 则新的概率密度函数为
2121)12()12(212
/)(2
1
)]1(2exp[)(2)2
(
)2
(
1
)det(),(),(2
1
2
1υυυυυυυυνϕϕυυυυz f z z zf J u z f +-ΓΓ=
=--+
将z 积分掉就能得到f 的边缘概率密度函数
)0(,)
/1()
2
(
)2
(
)/](2/)[()(2
/)(211
2/2
1
2
/21212111∞<<+ΓΓ+Γ=
+-f f f f υυυυυυυυυυυυϕ 0= 其它
随机变量2
1
//υνυu f =
服从F 分布,简写为),(21υυF 。
值得注意的是
),()
,(112121υυυυP P F F -=
3.4.2 F 分布的图像
性质类似于卡方分布。
3.4.3 关于F 分布的计算
引入F 分布计算表 基本公式
⎰=≤P
F P df f F x 0
)()Pr(ϕ
)Pr()Pr()Pr(1221P P P P F x F x F x F ≤-≤=≤≤
),()
,(112121υυυυP P F F -=
4. 随机变量函数的分布
统计量是含有一个或多个随机变量的函数,这些随机变量的参数都是已知的,前文提到的样本均值和样本方差都是统计量。
4.1 标准化的正态随机变量分布
给定随机样本1X ,2X ……n X ,这里的i X 相互独立,且),(2
σμn X d
i →,则有
)1,0(n X d
→-σ
μ
4.2 样本均值的分布
给定随机样本1X ,2X ……n X ,这里的i X 相互独立,且),(2
σμn X d
i →,则有
),
(2
n
n X d
σμ→
用矩量母函数证明。
4.3 标准正态化样本均值的分布
给定样本均值),
(2
n
n X d
σμ→,则有
)1,0(/n n
X d
→-σμ
4.4 标准正态化随机变量平方的分布
给定),(2
σμn X d
→,则有
)1()(
22
χσ
μ
d
X →-
用累积密度函数证明,附带证明出2
/1)2
1
(π=Γ。
4.5 若干卡方随机变量和的分布
给定随机样本1y ,2y ……n y ,i y 相互独立,且服从)(2
i d
i y υχ→,则有
)(212
1n d n
i y υυυχ⋅⋅⋅++−→−∑ 用矩量母函数进行证明。
4.6 若干标准正态化随机变量和的分布(p71)
给定随机样本1x ,2x ……n x ,i x 相互独立,且服从),(2
σμn x d
i →,则有
)()(
22
1
n x d
n
i χσ
μ
−→−-∑
4.7 样本方差函数的分布
给定样本方差∑--=n
i n x x s 1
22
1)(,其中),(2
σμn x d i →,则有
()()()1121
2
2
2
-−→−-=-∑
n x x s n d
n
i χσσ
证明的关键
()()()2
2
222
1
2
1σμσσμ-+-=-∑x n s n x n
i
然后运用矩量母函数。
4.8 正态化样本均值比值的分布
已知
a) ⎪⎪⎭
⎫
⎝⎛−→−n n x d
2,σμ,
b)
()1,0/n n
x d −→−-σμ,
c)
()()1122
2-−→−-n s n d
χσ.
则有
()1/-−→−-n t n
s x d μ
4.9 来自同一总体的两个样本方差比值的分布
已知
a)
()()111
22
211-−→−-n
s n d
χσ
b)
()()112
22
222-−→−-n
s n d χσ
则有
()1,12122
21--−→−n n F s s d
4.10 多元随机变量标准二次型的分布
已知二次型1
1
1⨯⨯-⨯∑
m T m
m X m
T
X X ,其中X 是一个由m 个零均值正态分布的随机变量组成的向量,
m
m X ⨯∑
是方差协方差阵。
则有
()m X X d
m T m
m X m
T
21
1
1χ−→−⨯⨯-⨯∑
(该证明过程有待琢磨)
4.11 随机变量函数分布总结
见表中(略)
5 单变量区间估计和假设检验
5.1 介绍
(前章回顾)
关于区间估计,通常需要做估计的统计量是包含在关于它的(有时还包括其它一些)统计量的函数中,不过其它的统计量的值都是可以计算出来的,因此可以通过对不等式的运算得到关于要求统计量的估计区间。
关于假设检验,引入“零假设”和“备择假设”的概念,置信区间用以确定零假设是否应该被拒绝,如果假设被拒绝,那么α就称为该检验的显著性水平;如果假设未被拒绝,那么就不能对该假设,假设检验以及显著性水平做出申明。
5.2 单一测量值i X 的检验(关于均值μ和方差2
σ)
已知单一测量值i X ,且()2
,σμn
X d
i −→−,当ασ
μ=⎪⎭
⎫
⎝⎛≤-≤-c X c i
Pr 时,则i
X 的置信
区间为
[]σμσμc X c i +≤≤-
这个置信区间用来检验假设
H i X X H =:0
5.3 均值μ的检验(关于一个观测值i X 和方差2
σ)
考虑一个观测值i X ,且()2
,σμn X d
i −→−,当ασ
μ=⎪⎭
⎫
⎝⎛≤-≤-c X c i
Pr 时,则μ的置信区间为
[]σμσc X c X i i +≤≤-
这个置信区间用来检验假设
H H μμ=:0
5.4 均值μ的检验(关于一个样本均值X 和方差n /2
σ)
当
ασμ=⎪⎪⎭
⎫ ⎝⎛≤-≤-c n X c /Pr 则μ的置信区间为
()()⎥⎦⎤⎢⎣
⎡+≤≤-2/12/1n c X n c X σμσ
这个置信区间用来检验假设
H H μμ=:0
5.5 样本均值X 的检验(关于均值μ和方差n /2
σ)
当
ασμ=⎪⎪⎭
⎫ ⎝⎛≤-≤-c n X c /Pr
则X 的置信区间为
()()⎥
⎦⎤
⎢⎣
⎡+≤≤-2/12/1n c X n c σμσμ 这个置信区间用来检验假设
H X X H =:0
5.6 均值μ的检验(关于一个样本均值X 和方差2
s )
当
αμ=⎪⎪⎭
⎫ ⎝⎛≤-≤-P P t n s X t /Pr
则μ的置信区间为
()()⎥
⎦⎤
⎢⎣
⎡+≤≤-2/12/1n t X n t X P P σμσ 这个置信区间用来检验假设
H H μμ=:0
5.7 样本均值X 的检验(关于均值μ和样本方差2
s )
当
αμ=⎪⎪⎭
⎫ ⎝⎛≤-≤-P P t n s X t /Pr 则X 的置信区间为
()()⎥⎦⎤⎢⎣
⎡+≤≤-2/12/1n t X n t P P σμσμ
这个置信区间用来检验假设
H X X H =:0
5.8 方差2
σ的检验(关于均值μ和若干测量值1X ,2X ,……n X )
当
αχσμχ=⎪⎪⎭
⎫ ⎝⎛≤⎪⎭⎫ ⎝⎛-≤∑212221Pr P n i P X 则2
σ的置信区间为
()()⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎣
⎡-≤≤-∑∑2
1
22
2
12
1
2P n
i P n i
X X χ
μσχμ
这个置信区间用来检验假设
H H 220:σσ=
5.9 方差2σ的检验(关于样本方差2
s )
当
()αχσχ=⎪⎪⎭
⎫ ⎝⎛≤-≤222221
1Pr P P s n 则2
σ的置信区间为
()()⎥⎥⎦
⎤⎢⎢⎣⎡-≤≤-2
22221211P P s n s n χσχ 这个置信区间用来检验假设
H H 220:σσ=
5.10 样本方差2s 的检验(关于方差2
σ)
当
()αχσχ=⎪⎪⎭
⎫ ⎝⎛≤-≤222221
1Pr P P s n
则2
s 的置信区间为
()
()⎥⎦⎤⎢⎣⎡-≤≤-1122
2222
1n s n P P σχσχ
这个置信区间用来检验假设
H s s H 220:=
5.11 两个方差比值()2
12
2/σσ的检验(关于样本方差2
1s 和2
2s )
当
ασσ=⎪⎪⎭
⎫ ⎝⎛≤≤212
2222
121//Pr P P F s s F 则
()212
2
/σσ
的置信区间为
⎥⎦⎤⎢⎣
⎡≤≤212
22
122212221s s F s s F P P σσ 这个置信区间用来检验假设
()(
)
H
H 2
12
221220//:σσσσ=
5.12 两个样本方差比值()
2
22
1
/s s
的检验(关于方差21σ和22σ)
当
ασσ=⎪⎪⎭
⎫ ⎝⎛≤≤212
2222
121//Pr P P F s s F 则(
)
2
221/s s 的置信区间为
⎥⎦⎤
⎢⎣⎡≤≤222122
21222121σσσσP P F s s F
这个置信区间用来检验假设
()()
H
s s s s H 2
2
2122210//:=
5.13 两个方差比值()212
2
/σσ
的检验(关于若干来自两个样本的测量
值)
当
()()
ασμσμ=⎪⎪⎪⎪⎪
⎪⎪⎭
⎫
⎝
⎛≤--≤∑∑22
1
12
221
2
21
211
2
1Pr P n i
n i P F n X
n X F
则()2122
/σσ
的置信区间为
()
()()()⎥⎥
⎥⎥⎦
⎤
⎢⎢⎢⎢⎣
⎡--≤≤--∑∑∑∑1
2
2
12
112112
22
121221
2
1
12
221n i n i P n i n i P X X n n F X X n n F μμσσμμ
这个置信区间用来检验假设
()()
H
H 2
12
221220//:σσσσ=
5.14 单一变量置信区间的总结
见表中(略)
6 最小二乘点估计:线性数学模型
线性数学模型
V L AX =-
其中,1L n 称为观测向量,它是一个列向量,元素是观测值;1V n 称为残差向量,它是一个列向量,元素未知的测量误差;1X u 称为解向量,是我们想要作点估计的对象,它的元素是未知参数;u n A 是已知的,称为设计矩阵。
注意这里有n 个观测值和u 个未知量。
只有当存在多余观测,即u n >时,才能进行最小二乘估计。
()u n -称为多余观测数,或者称为自由度。
此外,每一个观测值L 都有对应的权,这些权构成了权阵P 。
6.1 X 的最小二乘无偏估计
最小二乘准则
min ^
^=V P V T
将L X A V -=^
^
带入,得到
min ^
^=⎪⎭
⎫ ⎝⎛-⎪⎭⎫ ⎝⎛-=L X A P L X A T
φ
求极值
02^^
=⎪⎭⎫
⎝⎛-=∂∂PA L X A X
T
φ
通过移项和分离得到
0^
=-PL A X PA A T T
该式称为法方程。
如果(
)
PA A T
,称为法方程矩阵,是非奇异的,那么X 将会有一个唯一最小二乘估计值,即
()
PL A PA
A X T T 1
^
-=
如果
X X E =⎥⎦
⎤
⎢⎣⎡^ 那么称^
X 是X 的无偏估计量。
在这里,^
X 是X 的无偏估计量的条件是
[]0=V E
(由[]0=V E 可证得[]AX L E =,继而证得X X E =⎥⎦
⎤
⎢⎣⎡^)
6.2 权阵P 的选择
易证得观测值L 和观测误差真值V 具有相同的协方差阵,但并不意味着
∑∑
=^V
L。
(
∑
L
表示L 的协方差阵,
∑
^
V
表示^
V 的协方差阵)
因为方差越大表示对应的观测精度越低,而我们希望这样的观测值权重越小,所以,权阵可以定义为
∑-=1
L
P
在进行最小二乘估计之前,必须先定权,由上式可知需要知道协方差阵中的各个对应的方差和协方差,这些值我们可以从采用的测量仪器和测量方法获知。
但是我们常常只能得到一个相对值,所以协方差阵要带上一个比例因子,可令
Q L
2
σ∑=
相对协方差阵势我们知道的,但是方差因子2
0σ不知道。
因此,我们令
∑--==1
2
01L
Q P σ
将上式带入(
)
PL A PA
A X T T
1
^
-=中,可得
()
∑∑---=1
1
1^
L T L
T
A A A A X
由此未知量全部被消去。
6.3 X 的最小化方差点估计
若存在
BL X =^
则称^
X 为X 的一个线性估计。
^
X 是X 的最小化方差估计,它是一个线性无偏估计,其协方差阵为∑^X。
∑^X
比X 的任何其他线性无偏估计都要“小”。
衡量矩阵的大小我们需要某种准则,为此引入矩阵“迹”的概念,它适用于方阵,是一个标量,是该方阵对角元素的和。
这样,我们定义的最小化方差条件可以表示为
∑=^min )(X
Trace 接下来我们将寻找满足该条件的方阵B 。
由前文知,当[]0=V E 时,^
X 是无偏的,即有
X X E =⎥⎦
⎤
⎢⎣⎡^ 由方程线性条件BL X =^
可得
BAX L BE BL E X E ===][][][^
因此
I BA =
则
∑∑
=L
T X B B ^
所以问题变成
∑∑==^min )()(X L T B B Trace Trace
在约束条件0=-I BA 下,采用拉格朗日极值法,令
K I BA B B L T )(2-+=∑φ
其中K 为待定系数,然后有
0)
(=∂∂B
Tr φ 由矩阵迹的性质,我们可以得到
)(2)(2)()(k Tr BAK Tr B B Tr Tr T L -+∑=φ
L T L L T L B B B B B Tr ∑=∑+∑=∂∑∂2)()
(
T T A K B BAK Tr =∂∂)
(
0)
(=∂∂B
K Tr 因此有
022)
(=+∑=∂∂T T L A K B B
Tr φ 或者可以写成
1
-∑-=L T T A K B
进一步有
A A K I BA L T T 1-∑-==
1
1)(--∑-=A A K L T T 111)(---∑∑=L T L T A A A B
最后得到
L A A A BL X L
T L T 111)(ˆ---∑∑== 上式就是求解X 的最小方差估计。
对比前述,可知当1
-∑=L P 时,最小二乘估计就是最小方差估计。
6.4 最大似然点估计
当V 服从正态分布时,X 的最大似然估计等价于最小二乘估计。
6.5 X 的方差和协方差的无偏点估计
我们有 方差无偏估计
u
n V P V
T -=ˆˆˆ20
σ
协方差无偏估计
120ˆ)(ˆˆ-=∑PA A T X
σ X ˆ的协方差阵为 ()()
⎥⎦
⎤⎢⎣⎡--=∑T X X X X X E ˆˆˆ 当0)(=V E 时,X
ˆ是一个无偏估计量,亦即X X E =)ˆ(。
由前述知
PL A PA A X
T T 1)(ˆ-= 由协方差传播律可得
11ˆ)()(--∑=∑PA A PA P A PA
A T L T T
X 1
1201)()(---=PA A PA P P A PA A T T T σ
120)(-=PA A T σ
因此,当且仅当2
0ˆσ是2
0σ的无偏估计,则120ˆ)(ˆˆ-=∑PA A T X
σ是X ˆ∑的无偏估计。
从前述可知,只需证明
[]
202
ˆ1ˆ)ˆ(σσ=-=⎥⎦
⎤⎢⎣⎡-=PV V E u n u n PV V E E T T 已知法方程为
PL A X
PA A T T =ˆ 变形可得
0)ˆ(=-L X A P A T 0)ˆ(=-PA L X
A T 由法方程,又可得
PA A X
PA L T T T ˆ= 根据以上关系,可得
)ˆ()ˆ(ˆˆX X PA A X X V P V
PV V T T T T --=- 其中
L AX V -=
L X A V
-=ˆˆ (注:证明
)(A YY Trace AY Y T T =
因为AY Y T
是标量,所以AY Y AY Y Tr T T =)(,所以))(())((A Y Y Tr Y A Y Tr T
T =,所以
)(A YY Trace AY Y T T = )
所以,
))ˆ)(ˆ(()(ˆˆ1ˆ20120--∑---∑=X
T V T T X X X X Trace VV Trace V P V σσ 所以,
[]
[]
))ˆ)(ˆ(()()ˆˆ(1ˆ20120--∑---∑=X
T V T T X X X X Trace E VV Trace E V P V E σσ
[]
[]
))ˆ)(ˆ(()(1ˆ20120--∑---∑=X
T V T X X X X E Trace VV E Trace σσ [][]))ˆ)(ˆ(()(1ˆ20
12
--∑---∑=X
T
V
T
X X X X
E Trace VV E Trace σσ
因此,如果有n 个观测值和u 个未知量,则有
)()()ˆˆ(1ˆˆ20120--∑∑-∑∑=X
X V V T Trace Trace V P V E σσ )(2
0u n TraceI TraceI -=σ )(20u n -=σ
得证。
因此,本节我们分别定义了2
0σ的无偏估计2
0ˆσ,以及X ˆ∑的无偏估计X
ˆˆ∑。
7 最小二乘点估计:非线性数学模型
三个环节:线性化、法方程、最小二乘点估计。
7.1 非线性数学模型的线性化
数学模型的分类:参数法、条件法、组合法。
泰勒级数展开。
7.2 线性化举例
两个例子:直线拟合(组合法)、测角三角形(参数加条件)。
7.3 导出法方程
组合法模型
0ˆˆ=++W V B X
A 运用拉格朗日乘数法导出法方程。
7.4 导出法方程解的显式
过程类似带参数的条件平差,不详述。
7.5 导出协方差阵
过程类似带参数的条件平差,不详述。
8 多变量区间估计和假设检验
8.1 介绍
多变量的区间估计是对单变量区间估计的一个推广,令常见的分布函数带有多个随机变量。
多变量的假设检验将给出一些量的置信区间(假设观测量都服从正态分布)。
8.2 方差因子检验
在组合法模型中,自由度为u r -=υ;在参数法模型中,u n -=υ。
则有
)(ˆˆˆˆˆ212
2020υχσσσυ−→−∑==-d L T T V V V P V 上述卡方随机变量的概率为
αχσσυχ=≤≤)ˆ(2
20
2
022
1
P P P
则,关于2
0σ的置信区间为
⎥⎥⎦
⎤⎢⎢⎣⎡≤≤2202
022012ˆˆP P χσυσχσυ
⎥⎥⎦
⎤⎢⎢⎣⎡≤≤2
2
0212ˆˆˆˆP T P T V P V V P V χσχ 以上置信区间用于检验零假设
H H )(:20200σσ=
需要注意的是,拒绝零假设除了因为2
0σ的假设值不正确,还可能是由于: 1)数学模型缺陷;
2)残差向量中的随机变量不服从正态分布。
上述两条也可以作为零假设来进行检验,但要记住一次只能对一个量进行检验。
8.3 两个方差因子比值的检验
统计量为
),()/()ˆ()/()ˆ(/))()ˆ(/))()ˆ((212
2
022012
012022
2022021
1201
201υυσσσσυσσυυσσυF d −→−= 其中u n -=11υ或者u r -=11υ,u n -=22υ或者u r -=22υ。
则随机变量的概率
ασσσσ=≤≤))/()ˆ()/()ˆ((212
2
02201
2
0120P P F F P 关于12
0220)/()(σσ的置信区间为
⎥⎦⎤⎢⎣⎡≤≤12
022
01
20220120220)ˆ()ˆ()()()ˆ()ˆ(21σσσσσσP P F F 被检验的零假设为
H H ⎥
⎦⎤⎢⎣⎡=12022
01202200)()()()(:σσσσ
8.4 当方差因子20σ已知时检验参数X 与其估值X
ˆ的偏差 统计量为
)()ˆ()ˆ(21ˆu X X X X d X
T χ−→−-∑-- 其中
X X Q ˆ20ˆσ=∑
则随机变量的概率为
αχ=≤-∑-≤-))ˆ()ˆ(0(21ˆP X
T X X X X P 被检验的零假设为
H X X H =:0
也就是当计算值
21ˆ)ˆ()ˆ(P X
T X X X X χ>-∑-- 时,零假设被拒绝。
8.5 当方差因子20σ未知时检验参数X 与其估值X
ˆ的偏差 统计量为
),(/)(/)(/)ˆ()ˆ()ˆ(2220
2
01ˆυυυχχυ
σσυu F u u X X X X d d X
T −→−−→−-∑--
整理可得
),()ˆ(ˆ)ˆ(1ˆυu F u
X X X X d
X
T −→−-∑--
其中
X X
Q ˆ20ˆˆˆσ=∑ 则随机变量的概率为
α=≤-∑-≤
-))ˆ(ˆ)ˆ(0(1ˆP X
T F u
X X X X P
相关的置信区间为
⎥⎥
⎦⎤⎢⎢⎣⎡≤-∑-≤-P X
T F u X X X X )ˆ(ˆ)ˆ(01ˆ
这个置信区间的范围由超椭球面方程给出
P X
T uF X X X X =-∑--)ˆ(ˆ)ˆ(1ˆ 其中,P uF 为长椭球面方程常数。
将坐标系原点平移到向量X
ˆ描述的位置,则上述方程变为 P X
T uF X X =∑-1ˆˆ 考虑二维情形,即2=u ,则有
P X
T F X X 2ˆ1ˆ=∑- 或者
[]P F x x x x 2ˆˆˆˆ211
222
122212121
=⎥⎦
⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-σσσσ 这是一个椭圆方程。
类似的,在三维情形下
P X
T F X X 3ˆ1ˆ=∑- 或者
[]P F x x x x x x 3ˆˆˆˆˆˆˆˆˆ3211
2
3232223222
132122312212132
1
=⎥⎥⎦
⎤⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-σσσσσσσσσ 这是一个椭球方程。
注意在上述两个例子中,方程中含有交叉乘积项,这是因为主对角元以
外的元素并不为零。
可以通过将坐标系旋转θ角使得较差乘积项为零,这个θ角由X
ˆˆ∑的一个特征向量的元素计算得到。
这个特征向量给出了最大和最小方差的方向,后者就是特征值。
例如,在二维情形下,经过上述旋转变换,可以得到椭圆方程
[]P F y y y y 2ˆ00
ˆ211
2min 2
max
21
=⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-σσ 被检验的零假设为
H X X H =:0
也就是当计算值
21ˆ)ˆ(ˆ)ˆ(P X
T X X X X χ>-∑-- 时,零假设被拒绝。
9 分割数学模型
并非所有的最小二乘估计问题都能方便地用组合法模型来表达,需要对该模型做一些补充。
这里仅介绍四种分割模型的策略。
本章在阐述四种补充的使用时考虑它们在卫星定位中的应用。
我们假设观测值L 已经通过某些手段从一个或者多个地面站获得。
这些观测值跟地面站坐标以及卫星坐标都是相关的,它们共同构成了未知参数X 。
9.1 剔除“麻烦”的参数
卫星的坐标某种程度上来说是一个“麻烦”的参数,我们希望将它们从解中分离出来,因此我们将X 分割为地面站坐标,记为1X ,以及卫星坐标,记为2X 。
则组合法模型变为
0),,(21=L X X F
其中
1011X X X +=
20
22X X X +=
1011X X X +=
观测值L 的权阵为
120-∑=L P σ
运用泰勒级数展开将其线性化,得到
02211=+++BV X A X A W
或者
0=++BV AX W
其中[]21A A A
=,⎥⎦
⎤⎢⎣⎡=21X X X 。
在最小二乘原则下,导出法方程
)ˆˆˆ(ˆ2ˆˆ2211V B X A X A W K V P V T T ++++=φ
0ˆ2ˆ2ˆ=+=∂∂B K P V V
T T φ 0ˆˆ=+K B V
P T 0ˆ2ˆ11
==∂∂A K X T φ 0ˆ1=K
A T
0ˆ2ˆ22
==∂∂A K X T φ 0ˆ2=K A T
则法方程为
0000ˆˆˆˆ00
00000
00
121
2
12=⎥⎥⎥⎥⎦⎤
⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢
⎣⎡W X X K V A A A A B B P T T T 用第七章的方法消去上述方程中的V
ˆ,得 000ˆˆˆ00
001212121=⎥⎥⎥⎦⎤
⎢⎢⎢⎣⎡+⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦
⎤⎢⎢
⎢⎣
⎡--W X X K A A A A B BP T T
T
进一步消去方程中的K
ˆ,得 0)()(ˆˆ)()()()(1
1111212
11112
11111122112=⎥⎦
⎤⎢⎣⎡+⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡------------W B BP A W B BP A X X A B BP A A B BP A A B BP A A B BP A T T T T T T
上式可以简化写作
0ˆˆ1212
1112
2122
=⎥⎦
⎤⎢⎣⎡+⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡U U X X N N N N
消去2
ˆX ,可得 )()(ˆ2
12212112112212111U N N U N N N N X ------= 将1
ˆX 回代,可得 )ˆ(ˆ21211222U X N N X +-=-
进一步,可得
)ˆˆ()(ˆ112211W X A X A B BP K T ++=-- K B P V
T ˆˆ1--= 最终
1
011ˆˆX X X +=
2
022ˆˆX X X +=
9.2 附加观测值
假设有两组观测值,来自相同的地面站
0),(11=L X F 0),(22=L X F
其中
X X X +=0
111V L L += 222V L L +=
且,观测值1L 的权阵为1
2
011-∑=L P σ,观测值2L 的权阵为1
2
022-∑=L P σ。
将两个非线性函数线性化,效仿上一节,可得
01111=++V B X A W 02222=++V B X A W
合并
0=++BV AX W
其中
⎥⎦
⎤⎢⎣⎡=21A A A
⎥⎦
⎤⎢
⎣⎡=210
0B B B 同上一节,法方程为
0000ˆˆˆˆˆ00
0000000000000212121
2
122112211
=⎥⎥⎥⎥⎥
⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎣
⎡W W X K K V V A A A B A B B P B P T T
T T。