第二章 数学基础

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(11)
n n! r = , 0 ≤ r ≤ n ( 有时也记作 C 其中 n) r ( n − r )! r!
X 所遵从的概率分布 (11) 称为二项式分布,并记为: X ~ B(n, p)
NLPR, CAS-IA 宗成庆:《自然语言理解》讲义
2.2 概率论基础
NLPR
i =1 i =1 i=1 n n n
(7)
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
贝叶斯法则(Bayes’ theorem)
NLPR
如果 A 为样本空间 Ω 的事件, B1, B2, …, Bn 为 Ω 的一个划分,且 P(A) > 0,P(Bi) > 0 ( i = 1, 2, …, n ) , 那么 P( Bi ) P( A | Bi ) P( Bi | A) = n (8)
i =0
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
NLPR
最大似然估计(Maximization likelihood estimation, MLE)
如果一个实验的样本空间是{s1, s2, …, sn},在相同 情况下重复实验 N 次,观察到样本 sk (1≤ k ≤ n)的次数 为 nN(sk),则sk的相对频率为:
P( A ∩ B) P( A | B) = P( B)
(4)
条件概率 P(A|B) 给出了在已知事件 B 发生的情 况下,事件 A 发生的概率。一般地,P(A|B) ≠ P(A).
NLPR, CAS-IA 宗成庆:《自然语言理解》讲义
2.2 概率论基础
Ω A
A ∩B
NLPR
B
图2-1. 条件概率示意图
∑ P( B )P( A | B )
j =1 j j
当 n=1 时,
NLPR, CAS-IA
P(A| B)P(B) P(B | A) = P(A)
宗成庆:《自然语言理解》讲义
(9)
2.2 概率论基础
贝叶斯决策理论 (Bayesian decision theory )
假设研究的分类问题有c个类别,各类别的状态用wi 表示,i = 1, 2, …, c;对应于各个类别wi出现的先验概率为 P(wi);在特征空间已经观察到某一向量 x =[x1, x2 ,L , xd ]T 是d 维特征空间上的某一点,且条件概率密度函数 p( x | wi ) 是已知的。那么,利用贝叶斯公式我们可以得到后验概率
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.3 信息论基础
NLPR
例2-3 计算下列两种情况下英文(26个字母和空格, 共27个字符)信息源的熵:(1)假设27个字符等概率 出现;(2)假设英文字母的概率分布如下:
NLPR
例2-2:假设某一种特殊的句法结构很少出现,平均大约 每100,000个句子中才可能出现一次。我们开发了一个程序来 判断某个句子中是否存在这种特殊的句法结构。如果句子中确 实含有该特殊句法结构时,程序判断结果为“存在”的概率为 0.95。如果句子中实际上不存在该句法结构时,程序错误地判 断为“存在”的概率为0.005。那么,这个程序测得句子含有该 特殊句法结构的结论是正确的概率有多大?
NLPR
P(wi | x) =
p(x | wi )P(wi )
∑ p(x | w )P(w )
j =1 j j
c
(10)
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
基于最小错误率的贝叶斯决策规则为:
max p(wj | x) 则 (1) 如果 p(wi | x) = j= 1,2,L ,c
nN (sk ) q N ( sk ) = N
(2)
由于

n
i =1 N
n (sk ) = N ,因此,

n
i =1
q N (sk ) = 1
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
NLPR
当N越来越大时,相对频率 qN(sk) 就越来越接近 sk的概率P(sk)。事实上,
(2) 或者:如果
j=1,2,L ,c
NLPR
x ∈ wi
x ∈ w1
p(x | w i ) p(w i ) = max p(x | w j ) p(w j ) 则 x ∈ wi
(3) 或者(c=2时) :如果 l(x) = p(x | w1) > p(w2 ) 则 否则
x ∈ w2 。
p(x | w2 )
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
全概率公式
NLPR
设 Ω 为实验E的样本空间,B1, B2, … Bn 为Ω的 一组事件,且他们两两互斥,且每次实验中至少发 生一个。即: (1) Bi ∩ Bj= Φ (i ≠ j; i, j = 1, 2, …, n) (2) ∪ Bi = Ω
NLPR
理论基础:Chomsky文法理论
基于语料库的统计方法 理论基础:数理统计、信息论
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
NLPR
2.1 内容回顾
基于规则的方法
• 形式语言 • 语法理论 • 自动机理论 • 推理方法 • …… 知识库
基于统计的方法
• n 元语法 • 隐马尔可夫模型 • 信息论 • 搜索算法 • ……
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
NLPR
二项式分布 (binomial distribution ) 当重复一个只有两种输出(假定为 A 或 A)的实
验(伯努利实验), A 在一次实验中发生的概率为 p,现把实验独立地重复 n 次。如果用X 表示A 在这 n 次实验中发生的次数,那么,X=0,1,…,n。 考虑事件{X=i},如果这个事件发生,必须在这 n 次的原始记录中有 i 个 A,n-i 个 A 。
p(w1)
贝叶斯决策理论在文本分类、词汇语义消歧(word sense disambiguation)等问题的研究中具有重要用途。
NLPR, CAS-IA 宗成庆:《自然语言理解》讲义
2.2 概率论基础
) s = arg max P(S | A)
S
NLPR
例2-1:给定语音信号 A,找出对应的语句S,使得 P(S|A) 最大,那么,
根据贝叶斯公式,
P( S ) P ( A | S ) ) s = arg max P( A) S
由于 P(A) 在 A 给定时是归一化常数,因而,
语音识别问题 声学模型 语言模型
) s = arg max P( A | S ) P(S )
S
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
NLPR, CAS-IA 宗成庆:《自然语言理解》讲义
2.3 信息论基础
NLPR
熵又称为自信息(self-information),表示信源 X 每发一个符号(不论发什么符号)所提供的平均信 息量。熵也可以被视为描述一个随机变量的不确定性 的数量。一个随机变量的熵越大,它的不确定性越 大。那么,正确估计其值的可能性就越小。越不确定 的随机变量越需要大的信息量用以确定其值。
i =1 n
(5) (6)
则称 B1, B2, … Bn 为样本空间Ω的一个划分。
NLPR, CAS-IA 宗成庆:《自然语言理解》讲义
2.2 概率论基础
NLPR
设A为Ω 的事件,B1, B2, … Bn 为Ω的一个划分, 且 P(Bi)>0 (i=1, 2, …, n),则全概率公式为:
P( A) = P(∪ ABi ) = ∑P( ABi ) = ∑P(Bi )P( A | Bi )
N →∞
lim q N ( s k ) = P( s k )
(3)
因此,相对频率常被用作概率的估计值。这种概 率值的估计方法称为最大似然估计。
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
条件概率 (conditional probability)
NLPR
如果 A 和 B 是样本空间 Ω 上的两个事件, P(B)>0,那么在给定 B 时 A 的条件概率 P(A|B) 为:
第二章 数学基础
No.95, Zhongguancun East Road Beijing 100080, China
http://www.nlpr.ia.ac.cn Tel. No.: +86-10-6255 4263
2.1 内容回顾
自然语言处理的两种基本方法: 基于规则的分析方法 规则库开发 推导算法设计 语料库建设 统计模型建立
P(T | G ) = 0.95
求:P(G|T)= ?
P (T | G ) = 0.005
P(T | G)P(G) P(G | T ) = P(T | G)P(G) + P(T | G )P(G )
0.95 × 0.00001 = ≈ 0.002 0.95 × 0.00001 + 0.005 × 0.99999
在自然语言处理中,我们常常以句子为处理单 位。一般地,我们假设一个语句独立于它前面的其 它语句,句子的概率分布近似地认为符合二项式分 布。
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
期望 (expectation)
NLPR
期望值是一个随机变量所取值的概率平均。设 X 为一随机变量,其分布为 P(X = xk) = pk,k =1,2, …若 ∞ 级数
A A AA L A
n个
NLPR, CAS-IA
pi (1 − p)n−i
宗成庆:《自然语言理解》讲义
2.2 概率论基础
i
NLPR
A可以出现在n个位置中的任何一个位置,所以,结 n 果序列有 种可能。由此,可以得出:
n i n −i pi = p ( 1 − p ) , i i = 0,1, L , n
NLPR, CAS-IA 宗成庆:《自然语言理解》讲义
2.3 信息论基础
p(x) = P(X = x),x ∈ X。X 的熵 H(X) 为:
NLPR
如果 X 是一个离散型随机变量,其概率分布为:
H ( X ) = −∑ p( x) log2 p( x)
x∈X
(14)
其中,约定 0log 0 = 0。 H(X) 也可以写为 H(p)。通常熵的单位为二进制位 比特(bit)。
……
NLPR, CAS-IA
语料库 词汇知识库…
……
宗成庆:《自然语言理解》讲义
NLPR
2.2 概率论基础
概率 (probability)
概率是从随机实验中的事件到实数域的函数,用以 表示事件发生的可能性。如果用 P(A) 作为事件A的概 率,Ω 是实验的样本空间,则概率函数必须满足如下 公理: 公理1:P(A) ≥ 0 公理2:P(Ω) = 1 公理3:如果对任意的 i 和 j ( i ≠ j ),事件 Ai 和 Aj 不相 交( Ai∩Aj=Φ),则有: ∞ ∞ P ( ∪ Ai ) = ∑ P ( Ai ) (1) i =0
∑x
k =1
k
pk
绝对收敛,那么,随机变量 X 的Байду номын сангаас
数学期望或概率平均值为:
E(X ) =
∑x
k =1

k
pk
(12)
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
方差 (variance)
一个随机变量的方差描述的是该随机变量的 值偏离其期望值的程度。设 X 为一随机变量,其 方差为:
Var( X ) = E(( X − E( X )) 2 )
= E( X 2 ) − E 2 ( X )
NLPR
(13)
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.3 信息论基础
熵 (entropy)
NLPR
香农(Claude Elwood Shannon)于1940年获得麻 省理工学院数学博士学位和电子工程硕士学位后,于 1941年加入了贝尔实验室数学部,并在那里工作了15 年。1948年6月和10月,由贝尔实验室出版的《贝尔 系统技术》杂志连载了香农博士的文章《通讯的数学 原理》,该文奠定了香农信息论的基础。 熵是信息论中重要的基本概念。
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
2.2 概率论基础
NLPR
解:假设G表示事件 “句子确实存在该特殊句法结构”, T 表示事件 “程序判断的结论是存在该特殊句法结构”。那 么,我们有: 1 100000 − 1 P(G ) = = 0.00001 P (G ) = = 0.99999 100000 100000
相关文档
最新文档