几种概率模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺点: •不能反映训练数据本身的特性。 •能力有限,可以告诉你的是1还是2,但没有办法把整个场景描述出来。
二者关系:由生成模型可以得到判别模型,但由判别模型得不到生成模型。
二、概率图模型(Graphical Models)
概率图模型:是一类用图的形式表示随机变量之间条件依赖关系的概率模型,
是概率论与图论的结合。图中的节点表示随机变量,缺少边表示条件独立假 设。
HMM实例
Urn 1
Urn 2
Urn N
实验进行方式如下: • 根据初始概率分布,随机选择N个缸中的一个开始实验 • 根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为 x1,并把球放回缸中 • 根据缸的转移概率分布,随机选择下一口缸,重复以上步骤。
最后得到一个描述球的颜色的序列x1,x2,…称为观察值序列X。
1( X1, X2 , X3 )2( X2 , X3 , X4 )
X1 ,X2 ,X3 ,X4
i (Ci ) : 是关于 Ci 上 随机变量的函数
三、朴素贝叶斯分类器( Naive Bayes Classifier)
设x∈Ω是一个类别未知的数据样本,Y为类别集合,若数据样本x属 于一个特定的类别yj,那么分类问题就是决定P(yj|x),即在获得数据 样本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为 在给定数据集中不同类别yj先验概率的条件下最可能的分类。贝叶斯 理论提供了计算这种可能性的一种直接方法。
=[0.5 0.5]T
0.3 R 0.6 G 0.4
1
0.7 0.2 0.8
2
0.9 0.1
R
R
G
①
①
①
0.5 0.3 0.30.60.60.4
①
①
②
①
②
①
前向算法:
定义前向变量: t (i) P( x1, x2 , xt , yt i ) 1 t T
初始化: 1(i) ibi ( x1 ) 1 t T
G (V , E)
V : 顶点/节点,表示随机变量
E : 边/弧
两个节点邻接:两个节点之间存在边,记为 Xi ~ X j ,不存在边,表示
条件独立
路径:若对每个i,都有 Xi1 Xi,则称序列 X1,..., X N 为一条路径
根据图中边有无方向,常用的概率图模型分为两类:
有向图:最基本的是贝叶斯网络(Bayesian Networks ,BNs)
条件随机场 conditional random fields
条件随机场概述
条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫 模型的基础上,提出的一种判别式概率无向图学习模型,是一种用 于标注和切分有序数据的条件概率模型。
CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理 (Natural Language Processing,NLP) 、生物信息学、机器视觉及网 络智能等领域。
举例
年龄 Age
职业 Occupation
气候 Climate
症状 Symptoms
疾病 Disease
P( A,O,C , D, S M ) P( A M )P(O M )P(C M )P(D A,O,C , M )P(S D, M )
有向图模型的联合概率分解
X3
每个节点的条件概率分布表示为:
判别式模型: P (y | x): P(0|1) = 1, P(1|1) = 0, P(0|2) = 1/2, P(1|2) = 1/2
两种模型比较:
Generative model :从统计的角度表示数据的分布情况,能够反映同类数 据本身的相似度,不关心判别边界。
优点: •实际上带的信息要比判别模型丰富, 研究单类问题比判别模型灵活性强 •能更充分的利用先验知识 •模型可以通过增量学习得到
B
1× .6
1
.6
.5× .6
.5× .2
.5× .2
.18
.018
cloud 0.25 0.125 0.625
晴云雨
rain 0.25 0.375 0.375
S s1, s2, s3
(1,0,0)
问题:假设今天是晴天,请问未来三天的天气呈现云雨晴的概率是多少?
隐马尔可夫模型(HMM)
HMM是一个五元组 λ= (Y, X, , A, B) ,其中 Y是隐状态(输出变量)的集 合,)X是观察值(输入)集合, 是初始状态的概率,A是状态转移概率矩 阵,B是输出观察值概率矩阵。
马尔科夫性: p( xi x j , j i) p xi x j , xi x j
举例
团(clique) :任何一个全连通(任意两个顶点间都有边相连)的子图 最大团(maximal clique):不能被其它团所包含的团
例如右图的团有C1={X1, X2, X3}和C2={X2, X3, X4}
则 p( x y j ) p(a1, a2 , , am y j )
条件独立性:
p(a, b c) p(a c) p(b c)
在给定随机变量C时,a,b条件独立。
假定:在给定目标值 yj 时,x的属性值之间相互条件独立。
m
p( x y j ) p(a1,a2 , , am y j ) p(ai |y j ) i 1
序列标注
标注:人名 地名 组织名 观察序列:毛泽东
实体命名 识别
标注:名词 动词 助词 形容词 副词 …… 观察序列:今天天气非常好!
汉语词性 标注
一、产生式模型和判别式模型(Generative model vs. Discriminative model) 二、概率图模型(Graphical Models) 三、朴素贝叶斯分类器( Naive Bayes Classifier) 四、隐马尔可夫模型(Hidden Markov Model,HMM) 五、最大熵模型(Maximum Entropy Model,MEM) 六、最大熵马尔可夫模型(MEMM) 七、条件随机场(conditional random fields,CRF)
Observed Ball Sequence
评价问题
问题1:给定观察序列 X x1, x2, , xT 以及模型 ( , A, B) , 计算P( X )
解码问题
问题2:给定观察序列 X x1, x2, , xT 以及模型λ,如何选择一个对应的状
态序列Y ( y1, y2 , , yN ,) 使得Y能够最为合理的解释观察序列X?
参数学习问题
问题3:给定观察序列 X x1, x2, , xT ,调整模型参数 ( , A, B) , 使
P( X )最大?
问题1:给定观察序列 X x1, x2, , xT 以及模型 ( , A, B) , 计算P( X )
基本算法:
P( X / ) P( X / Y ,)P(Y / ) 所有Y
三、隐马尔可夫模型(Hidden Markov Model,HMM)
马尔可夫模型:是一个三元组 λ=(S, , A) 其中 S是状态的集合,是初始状态的概率, A是状态间的转移概率。
一阶马尔可夫链
S0
S1
ST-1
ST
一阶马尔可夫模型的例子
today
sun cloud rain
晴
云
雨
yesterday sun 0.50 0.375 0.125
一、产生式模型和判别式模型(Generative model vs. Discriminative model)
o和s分别代表观察序列和标记序列
• 产生式模型:构建o和s的联合分布p(s,o),因可以根据联合概率来生成
样本,如HMM,BNs,MRF。
• 判别式模型:构建o和s的条件分布p(s|o),因为没有s的知识, 无法生成样本,只能判断分类,如SVM,CRF,MEMM 。
x)
p( y j ) p( x p( x)
yj)
j 1,
Y
arg
max j
p(
y
j
x)
arg
max j
p(
y
j
x1, x2 , x3 )
arg max p( x1, x2 , x3 y j ) p( y j )
j
p( x1 , x2 , x3 )
arg
max j
p(
x1 ,
x2
,
x3
,
y
j
)
基本假设
无向图模型的联合概率分解
X1
X2
P( X1,
X
,
2
,X N
)
1 Z
N
i (Ci )
i 1
N
Z
i (Ci )
X3
X4
X1 , X2, ,XN i1
势函数(potential function)
p( X1, X2 , X3 , X4 )
1( X1 , X2 , X3 )2 ( X2 , X3 , X4 )
p( y j
x)
p( x
y j ) p( y j ) p( x)
p( yj x) 是后验概率,即给定数据样本x时yj成立的概率,而这正
是我们所感兴趣的。
P(yj|x )被称为Y的后验概率(posterior probability),因为它反 映了在看到数据样本x后yj成立的置信度。
后验概率
p( y j
p( y j
x)
p( x
y j ) p( y j ) p( x)
P(yj)代表还没有训练数据前,yj拥有的初始概率。P(yj)常被称为 yj的先验概率(prior probability) ,它反映了我们所拥有的关于yj 是正确分类机会的背景知识,它应该是独立于样本的。
如果没有这一先验知识,那么可以简单地将每一候选类别赋予相
X1
X2
X5
P(当前节点|它的父节点)
X4
联合分布:
N
P( X1,
X
,
2
,X N
)
p( Xi ( Xi ))
i 1p(X2 X1) p(X3 X2 ) p(X4 X2 ) p(X5 X3X4 )
无向图:马尔可夫随机场(Markov Random Fields, MRF) 马尔可夫随机场模型中包含了一组具有马尔可夫性质的随机变量,这些变 量之间的关系用无向图来表示
today sun cloud rain
yesterday sun cloud rain
0.50 0.25 0.25
0.375 0.125 0.375
0.125 0.625 0.375
soggy damp dryish dry
sun cloud rain
0.05 0.15 0.20 0.60 0.25 0.25 0.25 0.25 0.5 0.35 0.10 0.05
3
arg max j i1
p( xi
y j )p( y j )
朴素贝叶斯分类器的概率图表示
yj
yj yj
x
P( x1, x2 , x3 , y j ) p( y j ) p( x1 y j ) p( x2 y j ) p( x3 y j )
隐马尔可夫模型的概率图表示
yj
x
n
p( y, x) p( yi yi1 ) p( xi yi ) i 1
N
递归: t1( j) [ t (i)aij ]bj ( xt1 ) 1 t T 1,1 j N i 1
N
终结: P( X / ) T (i) i 1
前向算法举例:
=[1 0 0]T
.5
R .6
1
G .2 B .2
.4 .6
.1
.2
2 .5
.4 .3
.0
3 .3
.7
R
R
G
同的先验概率。不过通常我们可以用样例中属于yj的样例数|yj|比 上总样例数|D|来近似,即
P(y j)=
|y j| |D|
p( y j
x)
p( x
y j ) p( y j ) p( x)
p( x y j )是p(联y合j )概率,指当已知类别为yj的条件下,看到样
本x出现的概率。
若设 x (a1 , a2 , , am )
缺点: •学习过程比较复杂 •在目标分类问题中易产生较大的错误率
Discriminative model:寻找不同类别之间的最优分类面,反映的是异类数据 之间的差异。
优点: •分类边界更灵活,比使用纯概率方法或生产模型得到的更高级。 •能清晰的分辨出多类或某一类与其他类之间的差异特征 •在聚类、viewpoint changes, partial occlusion and scale variations中的效果 较好 •适用于较多类别的识别
产生式模型:无穷样本 ==》 概率密度模型 = 产生模型 ==》预测 判别式模型:有限样本 ==》 判别函数 = 预测模型 ==》预测
一个举例:
(1,0), (1,0), (2,0), (2, 1)
产生式模型: P (x, y): P(1, 0) = 1/2, P(1, 1) = 0, P(2, 0) = 1/4, P(2, 1) = 1/4.
二者关系:由生成模型可以得到判别模型,但由判别模型得不到生成模型。
二、概率图模型(Graphical Models)
概率图模型:是一类用图的形式表示随机变量之间条件依赖关系的概率模型,
是概率论与图论的结合。图中的节点表示随机变量,缺少边表示条件独立假 设。
HMM实例
Urn 1
Urn 2
Urn N
实验进行方式如下: • 根据初始概率分布,随机选择N个缸中的一个开始实验 • 根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为 x1,并把球放回缸中 • 根据缸的转移概率分布,随机选择下一口缸,重复以上步骤。
最后得到一个描述球的颜色的序列x1,x2,…称为观察值序列X。
1( X1, X2 , X3 )2( X2 , X3 , X4 )
X1 ,X2 ,X3 ,X4
i (Ci ) : 是关于 Ci 上 随机变量的函数
三、朴素贝叶斯分类器( Naive Bayes Classifier)
设x∈Ω是一个类别未知的数据样本,Y为类别集合,若数据样本x属 于一个特定的类别yj,那么分类问题就是决定P(yj|x),即在获得数据 样本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为 在给定数据集中不同类别yj先验概率的条件下最可能的分类。贝叶斯 理论提供了计算这种可能性的一种直接方法。
=[0.5 0.5]T
0.3 R 0.6 G 0.4
1
0.7 0.2 0.8
2
0.9 0.1
R
R
G
①
①
①
0.5 0.3 0.30.60.60.4
①
①
②
①
②
①
前向算法:
定义前向变量: t (i) P( x1, x2 , xt , yt i ) 1 t T
初始化: 1(i) ibi ( x1 ) 1 t T
G (V , E)
V : 顶点/节点,表示随机变量
E : 边/弧
两个节点邻接:两个节点之间存在边,记为 Xi ~ X j ,不存在边,表示
条件独立
路径:若对每个i,都有 Xi1 Xi,则称序列 X1,..., X N 为一条路径
根据图中边有无方向,常用的概率图模型分为两类:
有向图:最基本的是贝叶斯网络(Bayesian Networks ,BNs)
条件随机场 conditional random fields
条件随机场概述
条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫 模型的基础上,提出的一种判别式概率无向图学习模型,是一种用 于标注和切分有序数据的条件概率模型。
CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理 (Natural Language Processing,NLP) 、生物信息学、机器视觉及网 络智能等领域。
举例
年龄 Age
职业 Occupation
气候 Climate
症状 Symptoms
疾病 Disease
P( A,O,C , D, S M ) P( A M )P(O M )P(C M )P(D A,O,C , M )P(S D, M )
有向图模型的联合概率分解
X3
每个节点的条件概率分布表示为:
判别式模型: P (y | x): P(0|1) = 1, P(1|1) = 0, P(0|2) = 1/2, P(1|2) = 1/2
两种模型比较:
Generative model :从统计的角度表示数据的分布情况,能够反映同类数 据本身的相似度,不关心判别边界。
优点: •实际上带的信息要比判别模型丰富, 研究单类问题比判别模型灵活性强 •能更充分的利用先验知识 •模型可以通过增量学习得到
B
1× .6
1
.6
.5× .6
.5× .2
.5× .2
.18
.018
cloud 0.25 0.125 0.625
晴云雨
rain 0.25 0.375 0.375
S s1, s2, s3
(1,0,0)
问题:假设今天是晴天,请问未来三天的天气呈现云雨晴的概率是多少?
隐马尔可夫模型(HMM)
HMM是一个五元组 λ= (Y, X, , A, B) ,其中 Y是隐状态(输出变量)的集 合,)X是观察值(输入)集合, 是初始状态的概率,A是状态转移概率矩 阵,B是输出观察值概率矩阵。
马尔科夫性: p( xi x j , j i) p xi x j , xi x j
举例
团(clique) :任何一个全连通(任意两个顶点间都有边相连)的子图 最大团(maximal clique):不能被其它团所包含的团
例如右图的团有C1={X1, X2, X3}和C2={X2, X3, X4}
则 p( x y j ) p(a1, a2 , , am y j )
条件独立性:
p(a, b c) p(a c) p(b c)
在给定随机变量C时,a,b条件独立。
假定:在给定目标值 yj 时,x的属性值之间相互条件独立。
m
p( x y j ) p(a1,a2 , , am y j ) p(ai |y j ) i 1
序列标注
标注:人名 地名 组织名 观察序列:毛泽东
实体命名 识别
标注:名词 动词 助词 形容词 副词 …… 观察序列:今天天气非常好!
汉语词性 标注
一、产生式模型和判别式模型(Generative model vs. Discriminative model) 二、概率图模型(Graphical Models) 三、朴素贝叶斯分类器( Naive Bayes Classifier) 四、隐马尔可夫模型(Hidden Markov Model,HMM) 五、最大熵模型(Maximum Entropy Model,MEM) 六、最大熵马尔可夫模型(MEMM) 七、条件随机场(conditional random fields,CRF)
Observed Ball Sequence
评价问题
问题1:给定观察序列 X x1, x2, , xT 以及模型 ( , A, B) , 计算P( X )
解码问题
问题2:给定观察序列 X x1, x2, , xT 以及模型λ,如何选择一个对应的状
态序列Y ( y1, y2 , , yN ,) 使得Y能够最为合理的解释观察序列X?
参数学习问题
问题3:给定观察序列 X x1, x2, , xT ,调整模型参数 ( , A, B) , 使
P( X )最大?
问题1:给定观察序列 X x1, x2, , xT 以及模型 ( , A, B) , 计算P( X )
基本算法:
P( X / ) P( X / Y ,)P(Y / ) 所有Y
三、隐马尔可夫模型(Hidden Markov Model,HMM)
马尔可夫模型:是一个三元组 λ=(S, , A) 其中 S是状态的集合,是初始状态的概率, A是状态间的转移概率。
一阶马尔可夫链
S0
S1
ST-1
ST
一阶马尔可夫模型的例子
today
sun cloud rain
晴
云
雨
yesterday sun 0.50 0.375 0.125
一、产生式模型和判别式模型(Generative model vs. Discriminative model)
o和s分别代表观察序列和标记序列
• 产生式模型:构建o和s的联合分布p(s,o),因可以根据联合概率来生成
样本,如HMM,BNs,MRF。
• 判别式模型:构建o和s的条件分布p(s|o),因为没有s的知识, 无法生成样本,只能判断分类,如SVM,CRF,MEMM 。
x)
p( y j ) p( x p( x)
yj)
j 1,
Y
arg
max j
p(
y
j
x)
arg
max j
p(
y
j
x1, x2 , x3 )
arg max p( x1, x2 , x3 y j ) p( y j )
j
p( x1 , x2 , x3 )
arg
max j
p(
x1 ,
x2
,
x3
,
y
j
)
基本假设
无向图模型的联合概率分解
X1
X2
P( X1,
X
,
2
,X N
)
1 Z
N
i (Ci )
i 1
N
Z
i (Ci )
X3
X4
X1 , X2, ,XN i1
势函数(potential function)
p( X1, X2 , X3 , X4 )
1( X1 , X2 , X3 )2 ( X2 , X3 , X4 )
p( y j
x)
p( x
y j ) p( y j ) p( x)
p( yj x) 是后验概率,即给定数据样本x时yj成立的概率,而这正
是我们所感兴趣的。
P(yj|x )被称为Y的后验概率(posterior probability),因为它反 映了在看到数据样本x后yj成立的置信度。
后验概率
p( y j
p( y j
x)
p( x
y j ) p( y j ) p( x)
P(yj)代表还没有训练数据前,yj拥有的初始概率。P(yj)常被称为 yj的先验概率(prior probability) ,它反映了我们所拥有的关于yj 是正确分类机会的背景知识,它应该是独立于样本的。
如果没有这一先验知识,那么可以简单地将每一候选类别赋予相
X1
X2
X5
P(当前节点|它的父节点)
X4
联合分布:
N
P( X1,
X
,
2
,X N
)
p( Xi ( Xi ))
i 1p(X2 X1) p(X3 X2 ) p(X4 X2 ) p(X5 X3X4 )
无向图:马尔可夫随机场(Markov Random Fields, MRF) 马尔可夫随机场模型中包含了一组具有马尔可夫性质的随机变量,这些变 量之间的关系用无向图来表示
today sun cloud rain
yesterday sun cloud rain
0.50 0.25 0.25
0.375 0.125 0.375
0.125 0.625 0.375
soggy damp dryish dry
sun cloud rain
0.05 0.15 0.20 0.60 0.25 0.25 0.25 0.25 0.5 0.35 0.10 0.05
3
arg max j i1
p( xi
y j )p( y j )
朴素贝叶斯分类器的概率图表示
yj
yj yj
x
P( x1, x2 , x3 , y j ) p( y j ) p( x1 y j ) p( x2 y j ) p( x3 y j )
隐马尔可夫模型的概率图表示
yj
x
n
p( y, x) p( yi yi1 ) p( xi yi ) i 1
N
递归: t1( j) [ t (i)aij ]bj ( xt1 ) 1 t T 1,1 j N i 1
N
终结: P( X / ) T (i) i 1
前向算法举例:
=[1 0 0]T
.5
R .6
1
G .2 B .2
.4 .6
.1
.2
2 .5
.4 .3
.0
3 .3
.7
R
R
G
同的先验概率。不过通常我们可以用样例中属于yj的样例数|yj|比 上总样例数|D|来近似,即
P(y j)=
|y j| |D|
p( y j
x)
p( x
y j ) p( y j ) p( x)
p( x y j )是p(联y合j )概率,指当已知类别为yj的条件下,看到样
本x出现的概率。
若设 x (a1 , a2 , , am )
缺点: •学习过程比较复杂 •在目标分类问题中易产生较大的错误率
Discriminative model:寻找不同类别之间的最优分类面,反映的是异类数据 之间的差异。
优点: •分类边界更灵活,比使用纯概率方法或生产模型得到的更高级。 •能清晰的分辨出多类或某一类与其他类之间的差异特征 •在聚类、viewpoint changes, partial occlusion and scale variations中的效果 较好 •适用于较多类别的识别
产生式模型:无穷样本 ==》 概率密度模型 = 产生模型 ==》预测 判别式模型:有限样本 ==》 判别函数 = 预测模型 ==》预测
一个举例:
(1,0), (1,0), (2,0), (2, 1)
产生式模型: P (x, y): P(1, 0) = 1/2, P(1, 1) = 0, P(2, 0) = 1/4, P(2, 1) = 1/4.