系统辨识--第6章-极大似然估计
最大似然估计详解
最⼤似然估计详解⼀、引⼊ 极⼤似然估计,我们也把它叫做最⼤似然估计(Maximum Likelihood Estimation),英⽂简称MLE。
它是机器学习中常⽤的⼀种参数估计⽅法。
它提供了⼀种给定观测数据来评估模型参数的⽅法。
也就是模型已知,参数未定。
在我们正式讲解极⼤似然估计之前,我们先简单回顾以下两个概念:概率密度函数(Probability Density function),英⽂简称pdf似然函数(Likelyhood function)1.1 概率密度函数 连续型随机变量的概率密度函数(pdf)是⼀个描述随机变量在某个确定的取值点附近的可能性的函数(也就是某个随机变量值的概率值,注意这是某个具体随机变量值的概率,不是⼀个区间的概率)。
给个最简单的概率密度函数的例⼦,均匀分布密度函数。
对于⼀个取值在区间[a,b]上的均匀分布函数\(I_{[a,b]}\),它的概率密度函数为:\[f_{I_{[a,b]}}(x) = \frac{1}{b-a}I_{[a,b]} \]其图像为:其中横轴为随机变量的取值,纵轴为概率密度函数的值。
也就是说,当\(x\)不在区间\([a,b]\)上的时候,函数值为0,在区间\([a,b]\)上的时候,函数值等于\(\frac{1}{b-a}\),函数值即当随机变量\(X=a\)的概率值。
这个函数虽然不是完全连续的函数,但是它可以积分。
⽽随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。
Tips:当概率密度函数存在的时候,累计分布函数是概率密度函数的积分。
对于离散型随机变量,我们把它的密度函数称为概率质量密度函数对概率密度函数作类似福利叶变换可以得到特征函数。
特征函数与概率密度函数有⼀对⼀的关系。
因此,知道⼀个分布的特征函数就等同于知道⼀个分布的概率密度函数。
(这⾥就是提⼀嘴,本⽂所讲的内容与特征函数关联不⼤,如果不懂可以暂时忽略。
)1.2 似然函数 官⽅⼀点解释似然函数是,它是⼀种关于统计模型中的参数的函数,表⽰模型参数的似然性(likelyhood)。
极大似然估计方法
极大似然估计方法
极大似然估计方法是一种常用的参数估计方法,它基于最大化观察到的样本数据出现的概率来选择最优的参数值。
具体来说,给定一个概率分布模型和一组观察到的样本数据,极大似然估计方法通过求解最大化似然函数的参数值来估计模型的参数。
似然函数是指,在给定参数值的情况下,观察到这组样本数据的概率密度函数。
假设样本数据为x_1,x_2,…,x_n,模型的概率密度函数为f(x \theta),其中\theta 是待估计的参数向量。
极大似然估计方法通过求解似然函数L(\theta
x_1,x_2,…,x_n)最大值的参数值来估计\theta,即:
\hat{\theta}=\arg \max _{\theta} L(\theta x_{1}, x_{2}, \ldots,
x_{n})=\arg \max _{\theta} \prod_{i=1}^{n} f\left(x_{i} \theta\right)
在实际应用中,通常使用对数似然函数来避免数值上的不稳定性,并使用优化算法求解最优参数值。
极大似然估计
6
第1章 极大似然估计
1.2.4
方差矩阵的估计方法
( = ∂ 2 LnL −E ′ ∂θ0 ∂θ0 [ [ ])−1
由渐进公式 [I (θ0 )]
−1
ˆ带入上式作为θ ˆ的方差估计量,即信息矩阵的逆, 可以将θ ( ˆ) = Var(θ 在线性回归模型中, [I (θ0 )]−1 = [ ∂ 2 LnL −E ∂θ∂θ′ ( −E ] = [ ])−1
n n i=1 i=1
梯度向量也称为得分向量(score vector) 。梯度向量g 为k × 1向量。将所有观测值对 应的gi 构成的矩阵G = [g1 , g2 , . . . , gN ]′ (N × k )称为梯度向量的贡献矩阵。梯度向量g 的每 个元素为矩阵G的各列的和。 似然函数的二阶导数称为海赛矩阵(Hessian Matrix) : ∂ 2 ln f (y |θ) ∑ ∂ 2 ln f (yi |θ) ∑ H= = = Hi ∂θ∂θ′ ∂θ∂θ′
i=1 i=1
(1.2)
λxi e−λ xi !
第2节
1.2.1 极大似然估计的原理
极大似然估计
极 大 似 然 估 计 是 指 使 得 似 然 函 数 极 大 化 的 参 数 估 计 方 法,即 估 计 那 些 使 得 样 本(x1 , x2 , . . . , xN )出现的概率最大的参数。 例1.3. 正态分布的ML估计 对于n个相互独立的随机变量x = (x1 , x2 , . . . , xn ), xi ∼ N (µ, σ 2 )(i = 1, 2, . . . , n)。 根 据前面推导的(x1 , x2 , . . . , xn )的联合似然函数: ∑n (xi − µ)2 n n LnL(µ, σ |x) = − ln(σ 2 ) − ln(2π ) − i=1 2 2 2σ 2
第六章 极大似然法辨识
i 1
i0
i 1
令 k n 1, n 2, , n N ,可得 e(k) 的N个方程式,把 这N个方程式写成向量-矩阵形式
eN YN N
式中
[a1 an b0 bn c1 cn ]T
y(n 1)
YN
y(n
2)
,
y(n
N
)
e(n 1)
eN
e(n 2)
e(n N )
u(1)
u(2)
u( N )
假定{ (k)}是均值为0的高斯分布不相关随机序列, 且与 {u(k )}不相关。由上式有
N YN N
系统的残差为
^
^
e(k) a(z1) y(k) b(z1)u(k)
由上式可建立系统的向量-矩阵方程
eN YN N
式中
e(n 1)
eN
e(n
2)
|)
N k 1
p(x(k) | )
2N
N k 1
x(k
)
exp
N k 1
x(k
)
对上式等号两边取对数,可得
N
N
ln L(xN | ) 2N ln ln x(k) x(k)
k 1
k 1
求上式对 的偏导数,并且令偏导数等于0,可得
ln L(xN | ) 2N N x(k) 0
则可建立向量-矩阵方程
YN N N
式中
y(n 1)
YN
y(n
2)
,
y(n
N
)
a1
a
n
,
b0
bn
(n 1)
N
(n 2)
(n N )
极大似然估计
§6.2 极大似然估计极大似然估计法是求估计的另一种方法。
它最早由高斯提出。
后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质。
极大似然估计这一名称也是费歇给的。
这是一种上前仍然得到广泛应用的方法。
它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A ,B ,C ,…。
若在一次试验中,结果A 出现,则一般认为试验条件对A 出现有利,也即A 出现的概率很大。
我们来看一个例子。
(例题略) 下面我们对连续型与离散型母体两种情形阐述极大似然估计。
设1ξ,2ξ,…,nξ为取自具有概率函数{}Θ∈θθ:);(x f 的母体ξ的一个子样。
子样1ξ,2ξ,…,n ξ的联合概率函数在iξ取已知观测值x i ,i =1,…n 时的值);(1θx f );(2θx f …);(θn x f 是θ的函数。
我们用L (θ)= L (θ;x 1,… ,x n )表示,称作这个子样的似然函数。
于是L (θ)= L (θ;x 1,… ,x n )=);(1θx f );(2θx f …);(θn x f (6.8)如果是离散型母体,L (θ;x 1,… ,x n )给出观测到(x 1,x 2,… ,x n )的概率。
因此,可以把L (θ;x 1,… ,x n )看成为了观测到(x 1,x 2,… ,x n )时出现什么样θ的可能性的一个测度。
所以我们只要寻找这样的观测值(x 1,x 2,… ,x n)的函数i θ =i θ (x 1,… ,x n ),以θ代θ使L (θ;x 1,… ,x n )=Θ∈θsup L (θ;x 1,… ,x n ) (6.9)成立。
满足(6.9)式的θ(x 1,… ,x n )就是最可能产生x 1,… ,x n的参数θ的值。
我们称θ(x 1,… ,x n)为参数θ的极大似然估计值,其相应的统计量),(1n ,ξξθ称作参数θ的极大似然估计量。
极大似然估计
1)矩法估计
EX0x1exdx
令 X 则 可 得 的 矩 法 估 计 量 为 : ˆ X .
代 入 具 体 数 值 可 得 的 估 计 值 为 :
1 ni n1xi 118 572 3 31(小 8 )时 .
17
X: p(x;)1ex, x0 (0)
2)极大似然估计
0 , other
出现的可能性应最大, 其概率为
29
px(1 p)1x, P(x;p)
0,
x0, 1; 其.它
L (x1,x2, .x .n .;p ,)
P {X 1x1,X 2x2, .X .n . ,xn}
nP {X ix i} npx i(-1 p )1 -x i
i 1
i 1
pi n1xi(-1p)n i n 1xi, (xi0, 1p;1 0)
节
章
极大似然估计
极大似然估计
1
极大似然法的基本思想
先看一个简单例子: 某位同学与一位猎人一 起外出打猎 . 一只野兔从前方窜过 . 只听一声枪响,野兔应声倒下 .
如果要你推测, 是谁打中的呢? 你会如何想呢?
2
基本思想:
若一试验有n个可能结果 A1, ,An,现做一试验,
若事件Ai 发生了, 则认为事件Ai在这n个可能结果 中出现的概率最大。
故似然函数为
n
L(p)
n
n
pxi
(1p)1xi
xi
n xi
pi1 (1p) i1 ,
而
i1 n
n
lnL(p)( xi)lnp(n xi)ln1 (p)
i1 n
in1
令
d ln L( p) dp
xi n xi i1 i1 0
千字讲解极大似然估计
千字讲解极大似然估计上周有读者私信我说,面试被问到了极大似然估计没回答出来,虽然网上有很多讲解,但是不大能看得懂,而且有一些疑问没有解释清楚。
经过一周的撰写,今天困哥就专门整理了一篇数千字的文章,来详细介绍一下极大似然估计,顺带介绍一下极大后验估计和贝叶斯估计。
在很多的机器学习问题种,输入x是一个向量,输出p(x)为某一个时间的概率(比如,x属于某个类别的概率)一观测的数据集D,其中x1,x2,x3……独立同分布。
我们将输入x所满足的概率分布建模为p(D,θ),则对新输入的预测为p(x|D,θ),其中θ是一个向量,表示待去顶的所有模型参数。
那么如何求解或者估计出θ的值呢?1. 频率学派VS贝叶斯学派对于θ的本质不同认识,可以分为两个大派别。
(1)频率学派:认为θ是确定的,有一个真实值,目标是找出或者逼近这个真实值。
(2)贝叶斯学派:认为θ是不确定的,不存在唯一的真实值,而是服从某一个概率分布。
基于不同学派对参数的不同认识,产生了不同的参数估计方法。
下面将讨论三种参数估计方法:(1)极大似然估计:MLE(Maximum Likelihood Estimation)【频率学派】(2)极大后验估计:MAP(Maximum A Posterior)【贝叶斯学派】(3)贝叶斯估计:BE(Bayesian Estimation)【贝叶斯学派】其中,涉及到先验、似然、后验、贝叶斯公式的知识。
先验:p(θ),指在见到数据集D之前,对参数θ的认识似然:p(D|θ),在给定参数θ下,数据集D被观测到的概率后验:p(θ|D),在见到数据集D之后,对参数θ的重新认识贝叶斯公式:2. 举例以抛硬币为例,假设我们有一枚硬币, 现在要估计其正面朝上的概率。
为了对进行估计, 我们进行了10次实验 (独立同分布, i.i.d.) , 这组实验记为, 其中正面朝上的次数为6次,反面朝上的次数为4次,结果为。
3. 极大似然估计MLE的逻辑是:真实的参数θ是唯一的,既然数据集D被观测到了,那么真实参数θ对应的概率分布一定是可以使D出现的概率最大。
极大似然估计
极大似然估计极大似然估计(Maximum Likelihood Estimation,MLE)是Fisher提出的一种点估计方法,在很多场合都有应用。
根据字面意思理解,极大似然估计就是最大可能的一个估计,我们获得了样本数据后,根据已知的样本结果反推找到一个估计值,使得出现这种样本结果的可能性最大,这就是极大似然估计的基本思想。
极大似然估计的实际计算比较复杂,本文简单介绍其基本原理。
1. 似然函数要理解极大似然估计的基本原理,先要理解似然函数的概念。
例1 一家公司每次从供应商送来的一个批次的零件中随机抽取20件进行检验,以确定是否接收这批零件。
假定这批零件的批量很大,我们希望推断这批零件的不良率p。
抽取20件产品,可能的不良品件数是0~20的整数。
由于样本量与批量相比很小,可以近似认为抽到x件不良品的概率服从二项分布,计算公式为:式中x是随机变量的取值,p是该批产品的不良品率,是未知的,我们希望估计这个数值。
如果抽取20件产品中2件不良品,则这批产品的不良率是多少呢?20件产品中有2件不良品,不良率为10%,这个不良率是样本不良率,我们关心的是整个这批产品的不良率。
假定总体不良率为p,则抽取20件产品,抽到2件不良品的概率用下式计算:当总体不良率p取不同数值时,抽到2件不良品的概率是变化的,现在我们以总体不良品率p为横轴,以P(X=2)为纵轴画出二者之间的关系图,图中的函数称为似然函数。
可以看出当总体不良品率为0.1时,P(X=2)的值最大,大约是0.285。
2. 对数似然函数例2 一条生产线生产瓷砖,每100块瓷砖的瑕疵点数服从均值为λ的Poisson分布,λ未知。
抽取了两个随机样本,经过检查发现分别有10个和12个瑕疵点,求平均瑕疵点数λ。
我们知道,Poisson分布的概率计算公式是:似然函数是P(10)和P(12)二者的乘积:上式可以通过取自然对数简化:同样画出对数似然函数如下图:可以看出,当λ=11时对数似然函数最大,所以可以确定λ=DPU=11。
6极大似然估计
第1章 极大似然估计极大似然估计是非线性模型中非常重要的一种估计方法。
最小二乘法是极大似然估计在线性模型中的特例。
1.1 似然函数假设随机变量x t 的概率密度函数为 f (x t ),其参数用θ= (θ1, θ2, …, θk ) 表示,则对于一组固定的参数 θ 来说,x t 的每一个值都与一定的概率相联系。
即给定参数θ,随机变量x t 的概率密度函数为f (x t )。
相反若参数 θ 未知,当得到观测值x t 后,把概率密度函数看作给定x t 的参数 θ 的函数,这即是似然函数。
L (θ | x t ) = f (x t | θ )似然函数L (θ | x t ) 与概率密度函数f (x t | θ ) 的表达形式相同。
所不同的是在f (x t | θ ) 中参数 θ 是已知的,x t 是未知的;而在L (θ | x t ) 中x t 是已知的观测值,参数 θ是未知的。
对于n 个独立的观测值x =(x 1, x 2, …, x n ),其联合概率密度函数为1(|)(|)ni i f f x ==∏x θθ其对应的似然函数为:11(|)(|)(|)nn i i i i LnL LnL x f x ====∑∏θx θθ经常使用的是对数似然函数,即对L (θ| x t )取自然对数:LnL (θ | x t ) =log[f (x t | θ )]例 1.1正态分布随机变量的似然函数设一组随机变量x i ,(i = 1, 2, …, n )是相互独立的,且服从正态分布N (μ,σ2)。
存在N 个独立的观测值x =(x 1, x 2, …, x n )。
x i 的似然函数为221/22()1(,|)(|,)exp (2)2i i i i x L x f x μμσμσπσσ⎛⎫-==-⎪⎝⎭=1i x μφσσ-⎛⎫- ⎪⎝⎭其中,φ表示标准正态分布的概率密度函数,2()2x x φ⎛⎫=- ⎪⎝⎭x i 的对数似然函数为:21(,|)ln()ln ()2i i i x LnL x μμσσφσ-⎛⎫=-+ ⎪⎝⎭其中,21ln ()ln(2)22x x φπ=--(x 1, x 2, …, x n )的联合似然函数为21(,|)ln()ln ()2n i i x n LnL μμσσφσ=-⎛⎫=-+ ⎪⎝⎭∑x=2221()ln()ln(2)222n i i x n n μσπσ=----∑ 例 1.2 泊松分布的对数似然函数假设每5分钟到达商店的顾客的数目服从Poisson 分布,有N 个样本观测值(x 1, x 2, …, x N )。
《极大似然估计法》PPT课件
x;
)
1
e
x
,
0 ,
x0 other
( 0)
今取得一组样本Xk数据如下,问如何估计θ?
16 29 50 68 100 130 140 270 280
340 410 450 520 620 190 210 800 1100
9
L( )
n i 1
1
e
xi
5
(1) 写出似然函数
n
L( p) pxi (1 p)1xi i 1
(2) 对似然函数取对数,得到对数似然函数:
n
l( p) [xi ln p (1 xi ) ln(1 p)] i 1
n
n ln(1 p) xi[ln p ln(1 p)] i 1
y(n)
y(n 1)
y(n N 1)
y(1) u(n 1) y(2) u(n 2)
y(N) u(n N)
u(1)
u(2)
u(N )
e Y
17
由于e(k)是均值为零的高斯不相关序列,且与{u(k)}
不相关,于是得到似然函数:
e n
1
n i1
xi
ln
L
n
ln
1
n
i 1
xi
d ln L
d
n
1
2
n
i 1
xi
0
ˆ
1 n
n
(整理)6极大似然估计.
第1章 极大似然估计极大似然估计是非线性模型中非常重要的一种估计方法。
最小二乘法是极大似然估计在线性模型中的特例。
1.1 似然函数假设随机变量x t 的概率密度函数为 f (x t ),其参数用θ= (θ1, θ2, …, θk ) 表示,则对于一组固定的参数 θ 来说,x t 的每一个值都与一定的概率相联系。
即给定参数θ,随机变量x t 的概率密度函数为f (x t )。
相反若参数 θ 未知,当得到观测值x t 后,把概率密度函数看作给定x t 的参数 θ 的函数,这即是似然函数。
L (θ | x t ) = f (x t | θ )似然函数L (θ | x t ) 与概率密度函数f (x t | θ ) 的表达形式相同。
所不同的是在f (x t | θ ) 中参数 θ 是已知的,x t 是未知的;而在L (θ | x t ) 中x t 是已知的观测值,参数 θ是未知的。
对于n 个独立的观测值x =(x 1, x 2, …, x n ),其联合概率密度函数为1(|)(|)ni i f f x ==∏x θθ其对应的似然函数为:11(|)(|)(|)nn i i i i LnL LnL x f x ====∑∏θx θθ经常使用的是对数似然函数,即对L (θ| x t )取自然对数:LnL (θ | x t ) =log[f (x t | θ )]例 1.1正态分布随机变量的似然函数设一组随机变量x i ,(i = 1, 2, …, n )是相互独立的,且服从正态分布N (μ,σ2)。
存在N 个独立的观测值x =(x 1, x 2, …, x n )。
x i 的似然函数为221/22()1(,|)(|,)exp (2)2i i i i x L x f x μμσμσπσσ⎛⎫-==-⎪⎝⎭=1i x μφσσ-⎛⎫- ⎪⎝⎭其中,φ表示标准正态分布的概率密度函数,2()2x x φ⎛⎫=- ⎪⎝⎭x i 的对数似然函数为:21(,|)ln()ln ()2i i i x LnL x μμσσφσ-⎛⎫=-+ ⎪⎝⎭其中,21ln ()ln(2)22x x φπ=--(x 1, x 2, …, x n )的联合似然函数为21(,|)ln()ln ()2n i i x n LnL μμσσφσ=-⎛⎫=-+ ⎪⎝⎭∑x=2221()ln()ln(2)222n i i x n n μσπσ=----∑ 例 1.2 泊松分布的对数似然函数假设每5分钟到达商店的顾客的数目服从Poisson 分布,有N 个样本观测值(x 1, x 2, …, x N )。
极大似然估计法
《概率论与数理统计》极大似然思想一般地说,事件A 与参数Θ∈θ有关,θ取值不同,则)(A P 也不同.若A 发生了,则认为此时的θ值就是θ的估计值.这就是极大似然思想.看一例子:例1、设袋中装有许多黑、白球,不同颜色球的数量比为3:1,试设计一种方法,估计任取一球为黑球的概率P .分析:易知P 的值无非是1/4或3/4.为估计P 的值,现从袋中有放回地任取3只球,用X 表示其中的黑球数,则),3(~P b X .按极大似然估计思想,对P 的取值进行估计.解:对P 的不同取值,X 取3,2,1,0=k 的概率可列表如下:X 0 1 2 341=P 6427 6427 649 64143=P641 64964276427故根据极大似然思想即知:⎪⎩⎪⎨⎧===3,2,431,0,41ˆk k P .在上面的例子中,P 是分布中的参数,它只能取两个值:1/4或3/4,需要通过抽样来决定分布中参数究竟是1/4还是3/4.在给定了样本观测值后去计算该样本出现的概率,这一概率依赖于P 的值,为此需要用1/4、3/4分别去计算此概率,在相对比较之下,哪个概率大,则P 就最象那个.二、似然函数与极大似然估计1、离散分布场合:设总体X 是离散型随机变量,其概率函数为);(θx p ,其中θ是未知参数.设n X X X ,,,21 为取自总体X 的样本.n X X X ,,,21 的联合概率函数为∏=ni i X p 1);(θ,这里,θ是常量,n X X X ,,,21 是变量.若我们已知样本取的值是n x x x ,,,21 ,则事件},,,{2211n n x X x X x X === 发生的概率为∏=ni i x p 1);(θ.这一概率随θ的值而变化.从直观上来看,既然样本值n x x x ,,,21 出现了,它们出现的概率相对来说应比较大,应使∏=ni i x p 1);(θ取比较大的值.换句话说,θ应使样本值n x x x ,,,21 的出现具有最大的概率.将上式看作θ的函数,并用)(θL 表示,就有:∏===ni i n x p x x x L L 121);();,,,()(θθθ (1)称)(θL 为似然函数.极大似然估计法就是在参数θ的可能取值范围Θ内,选取使)(θL 达到最大的参数值θˆ,作为参数θ的估计值.即取θ,使);,,,(max )ˆ;,,,()(2121θθθθnn x x x L x x x L L Θ∈== (2) 因此,求总体参数θ的极大似然估计值的问题就是求似然函数)(θL 的最大值问题.这可通过解下面的方程0)(=θθd dL (3) 来解决.因为L ln 是L 的增函数,所以L ln 与L 在θ的同一值处取得最大值.我们称)(ln )(θθL l =为对数似然函数.因此,常将方程(3)写成:0)(ln =θθd L d (4) 方程(4)称为似然方程.解方程(3)或(4)得到的θˆ就是参数θ的极大似然估计值.如果方程(4)有唯一解,又能验证它是一个极大值点,则它必是所求的极大似然估计值.有时,直接用(4)式行不通,这时必须回到原始定义(2)进行求解.2、连续分布场合:设总体X 是连续离散型随机变量,其概率密度函数为);(θx f ,若取得样本观察值为n x x x ,,,21 ,则因为随机点),,,(21n X X X 取值为),,,(21n x x x 时联合密度函数值为∏=ni i x f 1);(θ.所以,按极大似然法,应选择θ的值使此概率达到最大.我们取似然函数为∏==ni i x f L 1);()(θθ,再按前述方法求参数θ的极大似然估计值.三、求极大似然估计的方法1、可通过求导获得极大似然估计:当函数关于参数可导时,常可通过求导方法来获得似然函数极大值对应的参数值.例2、设某工序生产的产品的不合格率为p ,抽n 个产品作检验,发现有T 个不合格,试求p 的极大似然估计.分析:设X 是抽查一个产品时的不合格品个数,则X 服从参数为p 的二点分布),1(p b .抽查n 个产品,则得样本n X X X ,,,21 ,其观察值为n x x x ,,,21 ,假如样本有T 个不合格,即表示n x x x ,,,21 中有T 个取值为1,T n -个取值为0.按离散分布场合方法,求p 的极大似然估计.解:(1)写出似然函数:∏=--=ni x x i i P p p L 11)1()((2)对)(p L 取对数,得对数似然函数)(p l :∑∑==--+-=--+=ni i n i i i p p x p n p x p x p l 11)]1ln([ln )1ln()]1ln()1(ln [)((3)由于)(p l 对p 的导数存在,故将)(p l 对p 求导,令其为0,得似然方程:0)1(11)111(1)(11=-+--=-++--=∑∑==ni i n i i x p p p n p p x p n dp p dl (4)解似然方程得:x x n pni i ==∑=11ˆ (5)经验证,在x p=ˆ时,0)(22<dp p l d ,这表明x p =ˆ可使似然函数达到最大(6)上述过程对任一样本观测值都成立,故用样本代替观察值便得p 的极大似然估计为:X p=ˆ 将观察值代入,可得p 的极大似然估计值为:nTx p==ˆ,其中∑==ni i x T 1.若总体X 的分布中含有多个未知参数k θθθ,,,21 时,似然函数L 是这些参数的多元函数),,(1k L θθ .代替方程(3),我们有方程组),,2,1(0)(ln k i L i==∂∂θ,由这个方程组解得kθθθˆ,,ˆ,ˆ21 分别是参数k θθθ,,,21 的极大似然估计值.例3、设某机床加工的轴的直径与图纸规定的中心尺寸的偏差服从),(2σμN ,其中2,σμ未知.为估计2,σμ,从中随机抽取100=n 根轴,测得其偏差为10021,,,x x x .试求2,σμ的极大似然估计.分析:显然,该问题是求解含有多个(两个)未知参数的极大似然估计问题.通过建立关于未知参数2,σμ的似然方程组,从而进行求解.解:(1)写出似然函数:212222)(2212)(2)2(21),(σμσμπσσπσμ∑===---=--∏ni i i x n ni x e e L(2)写出对数似然函数:21222)(21)2ln(2),(∑=---=n i i x n l μσπσσμ(3)将),(2σμl 分别对2σμ、求偏导,并令它们都为0,得似然方程组为:⎪⎪⎩⎪⎪⎨⎧=-+-=∂∂=-=∂∂∑∑==0)(212),(0)(1),(1242221222ni i n i i x n l x l μσσσσμμσμσμ (4)解似然方程组得:x =μˆ,∑=-=ni i x x n 122)(1ˆσ (5)经验证2ˆ,ˆσμ使),(2σμl 达到极大, (6)上述过程对一切样本观察值成立,故用样本代替观察值,便得2,σμ的极大似然估计分别为:X =μˆ,2122)(1ˆn n i i S X X n =-=∑=σ.2、不可通过求导方法获得极大似然估计:当似然函数的非零区域与未知参数有关时,通常无法通过解似然方程来获得参数的极大似然估计,这时可从定义(2)出发直接求)(θL 的极大值点.例4、设总体X 服从均匀分布),0(θU ,从中获得容量为n 的样本n X X X ,,,21 ,其观测值为n x x x ,,,21 ,试求θ的极大似然估计.分析:当写出其似然函数)(θL 时,我们会发现)(θL 的非零区域与θ有关,因而无法用求导方法来获得θ的极大似然估计,从而转向定义(2)直接求)(θL 的极大值.解:写出似然函数:⎩⎨⎧≤≤≤=-其它场合,00,)()()1(θθθn n x x L 为使)(θL 达到极大,就必须使θ尽可能小,但是θ不能小于)(n x ,因而θ取)(n x 时使)(θL 达到极大,故θ的极大似然估计为:)(ˆn X =θ. 进一步,可讨论估计θˆ的无偏性: 由于总体),0(~θU X ,其密度函数与分布函数分别为:⎪⎩⎪⎨⎧<<=其它,00,1)(θθx x p ,⎪⎩⎪⎨⎧≥<<≤=θθθx x x x x F ,10,0,0)(,从而)(ˆn X =θ的概率密度函数为:θθθ<<==--y ny y p y F n p nn n 0,)()]([11ˆ θθθθθθθ≠+====⎰⎰1)()()ˆ(0ˆ)(n ndy ny dy y yp X E E nnn 这说明θ的极大似然估计)(ˆn X =θ不是θ的无偏估计,但对θˆ作一修正可得θ的无偏估计为:)(11ˆn X nn +=θ. 通过修正获得未知参数的无偏估计,这是一种常用的方法.在二次世界大战中,从战场上缴获的纳粹德国的枪支上都有一个编号,对最大编号作一修正便获得了德国生产能力的无偏估计.综上,可得求极大似然估计值的一般步骤.四、求极大似然估计的一般步骤1、由总体分布导出样本的联合概率函数(或联合密度);2、把样本联合概率函数(或联合密度)中自变量看成已知常数,而把参数θ看作自变量,得到似然函数)(θL ;3、求似然函数)(θL 的最大值点(常转化为求对数似然函数)(θl 的最大值点);4、在最大值点的表达式中,用样本值代入就得参数的极大似然估计值.五、极大似然估计的不变性求未知参数θ的某种函数)(θg 的极大似然估计可用极大似然估计的不变原则,证明从略.定理(不变原则)设θˆ是θ的极大似然估计,)(θg 是θ的连续函数,则)(θg 的极大似然估计为)ˆ(θg . 例5、设某元件失效时间服从参数为λ的指数分布,其密度函数为0,);(≥=-x e x f x λλλ,λ未知.现从中抽取了n 个元件测得其失效时间为n x x x ,,,21 ,试求λ及平均寿命的极大似然估计.分析:可先求λ的极大似然估计,由于元件的平均寿命即为X 的期望值,在指数分布场合,有λ1)(=X E ,它是λ的函数,故可用极大似然估计的不变原则,求其极大似然估计.解:(1)写出似然函数:∑===-=-∏ni iix nni x eeL 11)(λλλλλ(2)取对数得对数似然函数:∑=-=ni i x n l 1ln )(λλλ(3)将)(λl 对λ求导得似然方程为:0)(1=-=∑=ni i x n d dl λλλ (4)解似然方程得:xxnni i1ˆ1==∑=λ经验证,λˆ能使)(λl 达到最大,由于上述过程对一切样本观察值成立,故λ的极大似然估计为:X1ˆ=λ; 根据极大似然估计的不变原则,元件的平均寿命的极大似然估计为:X X E ==λˆ1)(. 五、小结1、极大似然估计的思想;2、求解未知参数极大似然估计的一般步骤;3、极大似然估计的不变原则.。
极大似然估计.ppt
d
2、用上述求导方法求参数的MLE有时行不通,这时 要用极大似然估计原理来求 .
例1 设ξ1,ξ2,…, ξn是取自母体 ξ~b(1, p) 的一个子样,
求参数p的极大似然估计.
0 1分布
解:的概率函数为: P( x) px (1 p)1x ( x 0,1)
n
(1)似然函数 : L( p; x1,, xn ) pxi (1 p)1xi
§6.2 极大似然估计
(maximum likelihood estimate 简记为MLE或ML估计)
极大似然估计是在母体类型已知条件下使用的一 种参数估计方法 .
它首先是由德国数学家高斯在1821年提出的 , 费歇在1922年重新发现了这一方法,并首先研究了 这种方法的一些性质 .
极大似然原理:
i 1
n
n
xi
n xi
pi1 (1 p) i1
( xi 0,1)
n
n
(2)ln L ( xi )ln p (n xi )ln(1 p)
i 1
i 1
令
d
ln L dp
n
(
i 1
xi
)
1 p
(n
n
i 1
xi
)
1
1
p
0
(3) pˆ L
1 n
n i 1
xi
x
pˆ L
pˆ L是p的一致无偏估计量
解:该母体ξ服从两点分布:
ξ0 1 P 1-p p 因此,出现此子样的可能性的大小,是概率
P(1 1,2 1,3 0,4 1,5 1) 子样的联合分布列 P(1 1)P(2 1)P(3 0)P(4 1)P(5 1) p p (1 p) p p p4(1 p)记为 L( p)
极大似然估计方法介绍
极大似然估计方法介绍极大似然估计(Maximum Likelihood Estimation, MLE)是概率统计中常用的参数估计方法之一,也是统计学中估计方法的基础之一、它的核心思想是通过最大化样本的似然函数来估计未知参数值。
在介绍极大似然估计方法之前,首先需要了解一些概率统计的基础知识。
1.似然函数:似然函数是一个关于参数的函数,其定义为给定参数下观察到的样本的概率密度函数(概率质量函数)的乘积。
似然函数表示了参数取值的可能性在给定观察数据下的程度。
2.最大似然估计:最大似然估计是一种基于观察数据的统计推断方法,通过寻找使得似然函数取得最大值的参数值来估计未知的参数。
下面以一个例子来说明极大似然估计的思想和步骤。
假设我们有一组观察数据{x₁,x₂,...,xx},并假设这些数据服从一些分布,例如正态分布。
我们希望通过这组数据来估计正态分布的均值和方差。
步骤一:似然函数的建立对于正态分布,概率密度函数为:x(x,xx,x²)=(1/√(2xx²))*x^(-(x−xx)²/(2x²))其中xx和x²是未知参数,我们要通过观察数据来估计这两个参数。
对于一个具体的观察值xᵢ,其在给定参数xx和x²下的概率为x(xᵢ,xx,x²)。
那么样本的似然函数为:x(xx,x²)=x(x₁,xx,x²)*x(x₂,xx,x²)*...*x(xx,xx,x²)=∏[x(xᵢ,xx,x²)]步骤二:对数似然函数的计算为了方便计算,通常会对似然函数取对数,即对数似然函数:xx(x(xx,x²))=∑xx[x(xᵢ,xx,x²)]步骤三:最大化对数似然函数通过求解xx(x(xx,x²))对参数xx和x²的偏导数,令偏导数等于0,可以得到最大似然估计的闭式解。
如果无法解析求解,可以通过数值优化等方法来求得最大似然估计。
matlab系统辨识工具箱使用的算法
matlab系统辨识工具箱使用的算法MATLAB的系统辨识工具箱使用多种算法来进行系统辨识。
这些算法通常包括以下几种:
1. 最小二乘法(Least Squares):这是最常用的系统辨识方法。
最小二乘法试图找到一组参数,使得实际数据和模型预测之间的误差平方和最小。
2. 极大似然估计(Maximum Likelihood Estimation):这种方法基于数据生成的模型概率密度函数,通过最大化似然函数来估计模型参数。
3. 递归最小二乘法(Recursive Least Squares):这是一种在线算法,可以在数据流中实时更新模型参数。
4. 扩展最小二乘法(Extended Least Squares):这种方法可以处理包含噪声和异常值的数据,通过引入权重来调整误差平方和。
5. 非线性最小二乘法(Nonlinear Least Squares):对于非线性系统,需要使用非线性最小二乘法来估计参数。
6. 遗传算法(Genetic Algorithms):这是一种启发式搜索算法,通过模拟自然选择和遗传过程来寻找最优解。
7. 粒子群优化算法(Particle Swarm Optimization):这是一种基于群体智能的优化算法,通过模拟鸟群、鱼群等生物群体的行为来寻找最优解。
以上这些算法都是MATLAB系统辨识工具箱中常用的算法,根据具体的问题和数据,可以选择最适合的算法来进行系统辨识。
极大似然估计
极大似然估计
求估计的另方法
01 研究历史03 求解来自骤目录02 原理 04
极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估 计的另一种方法,最大概似是1821年首先由德国数学家高斯(s)提出,但是这个方法通常被归功于英国的统计 学家。罗纳德·费希尔(er)
原理
它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是,一个随机试验如有若干个 可能的结果A,B,C,...,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现的 概率P(A)较大。极大似然原理的直观想法我们用下面例子说明。设甲箱中有99个白球,1个黑球;乙箱中有1个白 球.99个黑球。现随机取出一箱,再从抽取的一箱中随机取出一球,结果是黑球,这一黑球从乙箱抽取的概率比 从甲箱抽取的概率大得多,这时我们自然更多地相信这个黑球是取自乙箱的。一般说来,事件A发生的概率与某一 未知参数有关,取值不同,则事件A发生的概率也不同,当我们在一次试验中事件A发生了,则认为此时的值应是 t的一切可能取值中使达到最大的那一个,极大似然估计法就是要选取这样的t值作为参数t的估计值,使所选取 的样本在被选的总体中出现的可能性为最大。
研究历史
极大似然估计方法是求估计的另一种方法,1821年首先由德国数学家s(高斯)提出,但是这个方法通常被归 功于英国的统计学家er(罗纳德·费希尔),他在1922年的论文On the mathematical foundations of theoretical statistics, reprinted in Contributions to Mathematical Statistics (by er), 1950, J. Wiley & Sons, New York中再次提出了这个思想,并且首先探讨了这种方法的一些性质.极大似然估计这一 名称也是费希尔给的。这是一种仍然得到广泛应用的方法。
第六讲极大似然估计
第六讲极大似然估计The Likelihood Function and Identification of the Parameters (极大似然函数及参数识别)1、似然函数的表示在具有n 个观察值的随机样本中,每个观察值的密度函数为()θ,x f i 。
由于n 个随机观察值是独立的,其联合密度函数为()()()()θθθθ,x f ,x f ,x f ,x ,,x ,x f n n 2121=()()n ni i x ,,x ,x |L ,x f 211θθ≡=∏=函数()n x ,,x ,x |L 21θ被称为似然函数,通常记为()|L θX ,或者()θL。
与Greene书中定义的区别The probability density function, or pdf for a random variable y, conditioned on a set of parameters, θ, is denoted ()|f yθ. This function identifies the data generating process that underlies an observed sample of data and, at the same time, provides a mathematical description of the data that the process will produce. The joint density of n independent and identically distributed (iid) observations from this process is the product of theindividual densities;()()()121|,,,||n n i i L f y y y f y θθ==∏ θy(17-1)This joint density is the likelihood function, defined as a function of the unknown parameter vector, θ, where y is used to indicate the collection of sample data.Note that we write the joint density as a function of the data conditioned on the parameters whereas when we form the likelihood function, we write this function in reverse, as a function of the parameters, conditioned on the data.Though the two functions are the same, it is to be emphasized that the likelihood function is written in this fashion to highlight our interest in the parameters and the information about them that is contained in the observed data.However, it is understood that the likelihood function is not meant to represent a probability density for the parameters as it is in Section 16.2.2. In this classical estimation framework, the parameters are assumed to be fixed constants which we hope to learn about from thedata.It is usually simpler to work with the log of the likelihood function:()()1||ni i lnL lnf y =∑ θy θ. (17-2)Again, to emphasize our interest in the parameters, given the observed data, we denote this function()()||L L =θdata θy . The likelihood function and its logarithm, evaluated at θ, are sometimes denoted simply ()L θ and ()lnL θ, respectively or, where no ambiguity canarise, just L or lnL .It will usually be necessary to generalize the concept of the likelihood function to allow the density to depend on other conditioning variables. To jump immediately to one of our central applications, suppose the disturbance in theclassical linear regression model is normally distributed. Then, conditioned on it’s specific ,i i y x is normallydistributed with mean T i i μ=x β and variance 2σ. Thatmeans that the observed random variables are not iid ; they have different means. Nonetheless, the observations areindependent, and as we will examine in closer detail, ()()()()12221|,|,1 22n i i i T n i i i lnL lnf y y ln ln σπσ==⎡⎤-⎢⎥=-++⎢⎥⎣⎦∑∑θy X x θx β (17-3)where X is the n K ⨯ matrix of data with i th - row equal to i x .2、识别问题The rest of this chapter will be concerned with obtaining estimates of the parameters, θ and in testing hypothesesabout them and about the data generating process.Before we begin that study, we consider the question of whether estimation of the parameters is possible at all—the question of identification. Identification is an issue related to the formulation of the model.The issue of identification must be resolved before estimation can even be considered.The question posed is essentially this: Suppose we had an infinitely large sample—that is, for current purposes, all the information there is to be had about the parameters.Could we uniquely determine the values of θfrom such a sample?As will be clear shortly, the answer is sometimes no.注意:希望大家能够熟练地写出不同分布的密度函数,以及对应的似然函数。
用极大似然法进行参数估计
北京工商大学《系统辨识》课程上机实验报告(2014年秋季学期)专业名称:控制工程上机题目:极大似然法进行参数估计专业班级:2015年1月实验目的通过实验掌握极大似然法在系统参数辨识中的原理和应用。
二实验原理1极大似然原理设有离散随机过程{V k }与未知参数二有关,假定已知概率分布密度 fMR 。
如果我们得到n 个独立的观测值 V 1 ,V 2,…,V n ,则可得分布密度 , f (V 20),…,f(V n 0)。
要求根据这些观测值来估计未知参数 二,估计的准则是观测值 {{V k } }的出现概率为最大。
为此,定义一个似然函数LMM,f(Vn"上式的右边是n 个概率密度函数的连乘, 似然函数L 是日的函数。
如果L 达到极大值,{V k } 的出现概率为最大。
因此,极大似然法的实质就是求出使 L 达到极大值的二的估值二。
为了便于求d ,对式(1.1 )等号两边取对数,则把连乘变成连加,即n解上式可得二的极大似然估计"ML O2系统参数的极大似然估计Newton-Raphson 法实际上就是一种递推算法,可以用于在线辨识。
不过它是一种依每 L 次观测数据递推一次的算法,现在我们讨论的是每观测一次数据就递推计算一次参数估计值 得算法。
本质上说,它只是一种近似的极大似然法。
设系统的差分方程为a(z') y(k) =b(z°)u(k) + :(k)(2.1 )式中a(z') =1 a 1z^ …a n z 」 b(z')二 b °…dz"因为(k)是相关随机向量,故(2.1 )可写成a(z')y(k) =b(zju(k) +c(z')g(k)(2.2 )式中c(z') ;(k)二(k) (2.3 ) c(z\ =1 C|Z ,亠 亠(2.4 );(k)是均值为0的高斯分布白噪声序列。
多项式a(z=) , b(z*)和c(z^)中的系数 a i,..,a,b o ,…b n,G,…C n 和序列{^(k)}的均方差o ■ln L =瓦 ln f (V i 日)由于对数函数是单调递增函数,当 对二的偏导数,令偏导数为0,可得::ln L cOi 4L 取极大值时,lnL 也同时取极大值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.有色噪声情况
系统差分方程
a(z 1 ) y(k ) b(z 1 ) u(k ) c(z 1 ) (k )
a( z
1 )
1
a1 z
1
an z n
b( z
1 )
b0
b1 z 1
bn z n
c( z 1 ) 1 c1 z 1 cn z n
e(k) y(k) yˆ(k)
1、极大似然法 Ronald Aylmer Fisher (1890~1962) 英国实验遗传学家兼统计学家 把渐进一致性、渐进有效性等作为参 数估计量应具备的基本性质 在1912年提出了极大似然法
6.1 极大似然法
1、极大似然法
辨识准则
以观测值的出现概率最大为准则
思路
设一随机试验已知有若干个结果A,B,C,…,如果在一次 试验中A发生了,则可认为当时的条件最有利于A发生, 故应如此选择分布的参数,使发生A的概率最大 。
aˆn
bˆ0
bˆn
cˆ1
T
cˆn
用基本LS辨识获取 任意取值
(2) 计算预测误差(残差)及J值
预测误差:
e(k) y(k) yˆ(k)
指标函数J值:
J
1
n N
e2 (k )
2 k n1
误差方差估计值: ˆ 2 2 J
N
2、动态系统模型参数的极大似然估计
(3)计算梯度矩阵及海赛矩阵
J nN e(k ) e(k )
2J θ 2
1
J
θ
θ θˆ 0
J 称为J的梯度矩阵
θ
2J θ 2
称为J的海赛矩阵
注意:上式中J的梯度矩阵和海赛矩阵,依不同辨识对象,需进行 详细推导,推导出矩阵中每个元素的具体表达式。
2、动态系统模型参数的极大似然估计
Newton-Raphson 迭代计算步骤
(1) θ初始值的选定
θˆ 0 aˆ1
高斯分布概率密度函数:
p (e(k) θˆ)
1
exp[ e2 (k) ]
(2πσ 2 )1/ 2
2σ 2
2、动态系统模型参数的极大似然估计
似然函数L为:
e L(
N
θˆ)
nN
p (e(k)
k n1
θˆ)
1 (2πσ 2 ) N / 2
exp[
e2 (k) 2σ 2
]
L(eN
θˆ)
1 (2πσ 2 ) N / 2
例2. {x(k)}是独立分布随机序列,其概率密度
4x2
x2
P(x
|
a)
a3
exp
a2
a
(x 0) (x 0)
求a的极大似然估计
解: xN x(1) x(2) ... x(N)T
L(xN | a) N P(x(k) | a)
k 1
4
N a3N
N k 1
x
2
(k
)
exp
各观测量y1,y2,…,yN由随机变量y的独立样本所组成,观测量 是独立的
N
L( y1, y2,..., yN | ) P( y1 | )P( y2 | )...P( yN | ) P( yi | ) i 1
观察值概率分布密度函数的乘积
θ的极大似然估计
L 0
等价于
ln L
0
ˆmLE
σ 2
2σ 2
2σ 4
2、动态系统模型参数的极大似然估计
θˆ
ML
(Φ
T N
Φ
N
)
1
Φ
T N
YN
2
1 N
(YN
Φ N θˆ )T (YN
Φ N θˆ )
1 NnNe2 (k)k n1可见在ξ(k)为高斯白噪声序列这一特殊情况下,极大似然辨 识与一般最小二乘法辨识有相同结果。
2、动态系统模型参数的极大似然估计
构造一个以数据和未知参数为自变量的似然函数,极 大化这个似然函数,获得模型的参数估计值
以观测值的出现概率最大作为准则
似然函数如何选择?
1、极大似然法
似然函数的选择
已知参数θ的条件下,观测量的概率密度为P(Y|θ),观测 数据{y1,y2,…,yN}
似然函数 L( y1, y2 ,..., yN | ) P( y1, y2 ,..., yN | )
6.2 动态系统模型参数的极大似然估计
2、动态系统模型参数的极大似然估计
1.白噪声情况
系统差分方程:a(z-1) y(k) b(z-1)u(k) ξ(k )
YN Φ N θ ξ
系统估计残差为: eN YN ΦNθˆ
eN (n 1) (n 2)
(n N)T
ξ(k)为高斯白噪声,方差为σ2
基本思想
构造一个以数据和未知参数为自变量的似然函数,当这个 函数在某个参数值上达到极大时,就得到了系统模型参数 的估计值
极大似然法辨识的物理意义
1、极大似然法
根据一组确定的随机序列 yN ,设法找到参数
估计值 ˆML,它使得随机变量 y 在 ˆML 条件下的概
率密度函数最大可能地逼近随机变量 y 在 θ (真值)
eN YN ΦN θˆ
式中: θˆ aˆ1
aˆn
bˆ0
bˆn
cˆ1
T
cˆn
YN y(n 1) y(n N)T eN e(n 1) e(n N)T
y(n) y(1) u(n 1) u(1) e(n) e(1)
ΦN
y(n 1)
y(2) u(n 2) u(2)
作任何假设,使J极小也是极有意义的。因此,ML估计就变成 了如何求取J极小的算法。可见,使L为最大的估计值,等价于 使J为极小的估计值。
求J的极小值问题只能采用循环迭代方法。 常用的迭代算法有:拉格朗日乘子法和牛顿-拉卜森法。
2、动态系统模型参数的极大似然估计
牛顿-拉卜森法的迭代公式:
θˆ 1
θˆ 0
exp( (YN
ΦN θˆ) T (YN 2σ 2
ΦN θˆ)
)
ln L(YN
θˆ )
N 2
ln 2π
N 2
ln σ 2
(YN
Φ N θˆ)T (YN 2σ 2
Φ N θˆ)
ln L(YN θˆ
θˆ)
1 σ2
(ΦTN YN
ΦTN ΦN θˆ) 0
ln L(YN θˆ) N (YN Φ N θˆ)T (YN Φ N θˆ) 0
3、递推极大似然法
递推ML算法的特点 : (1)其性能介于递推广义最小二乘法与离线ML法之间;
(2)收敛性好,以概率1收敛于局部极小值; (3)在高噪声时,采用递推ML效果好。 按不同的估计方法,可得不同的递推极大似然算法。 常用的有按牛顿-拉卜森法、二次型函数逼近法的递推ML算法
递推极大似然法自学
条件下的概率密度函数,即:
p(
y
|
ˆML
)
max
p(
y
|
)
1、极大似然法
一.极大似然原理 观测数据:y1,y2,…,yN; 联合概率密度P(Y|θ);θ待估计的参数
当 ˆmLE 时,该观测值{y1,y2,…,yN}的可能性最大; 当观测结果为{y1,y2,…,yN}的条件下,
ˆmLE 接近于真实θ的可能性最大
第6章 极大似然法估计
1、极大似然法
卡尔.弗里德里希.高斯(1777—1855) 德国著名数学家、物理学家、天文学家、 大地测量学家 被认为是最重要的数学家,是近代数学奠 基者之一 和牛顿、阿基米德被誉为有史以来的最伟 大的3位数学家,有“数学王子”之称
根据概率的方法能够导出由观测数据来确定系统 参数的一般方法 应用贝叶斯定理讨论了参数的估计法。
ΦN θˆ) )
ln L(eN
θˆ )
N 2
ln 2π
N 2
ln σ 2
1 2σ 2
nN
e2 (k)
k n1
由
ln
L(e N
2
| θˆ )
0
ˆ 2
1
nN
e2 (k)
N k n1
记
J
1
n N
e2 (k)
ˆ 2
2J
2 k n1
N
2、动态系统模型参数的极大似然估计
讨论: y(k)出现的概率最大,亦即J达到极小值。即使对概率密度不
θ k n1
θ
e(k θ
)
e(k )
a1
e(k) an
e(k) b0
e(k) bn
e(k) c1
e(k) T
cn
2J
θ2
nN e(k) kn1 θ
e(k) T θ
nN k n1
e(k
)
2 e(k θ2
)
当估值比较接近真值θ时,e(k)接近于0,后一项可忽略,则
海赛矩阵为:
2 J
N
N
N
P(x(k) | ) 2N x(k) exp[ x(k)]
k 1
k 1
k 1
N
N
ln L(xN | ) 2N ln ln x(k) x(k)
k 1
k 1
ln L(xN | ) 2N N x(k) 0
k 1
ˆMLE
2N
N
x(k)
k 1
1、极大似然法
但一般不容易得到解析解,需采用数值方法得到其近似解
1、极大似然法
例1.已知独立同分布的随机过程{x(k)}在θ条件下随 机变量x的概率密度为
P(x | ) 2 xex , 0
求参数θ的极大似然估计