统计自然语言处理-第二章-预备知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f ( x) = ∑ wiϕi ( x) + b
i =1
ϕ 其中, : X→F 是从输入空间到某个特征空间的映射。 是从输入空间到某个特征空间的映射。 其中, 也就是说,建立非线性分类器需要分两布: 也就是说,建立非线性分类器需要分两布: 首先使用一个非线性映射函数将数据变换到一个特征空 然后在这个特征空间上使用线性分类器。 间F,然后在这个特征空间上使用线性分类器。 然后在这个特征空间上使用线性分类器
l
2.3.4 构造核函数
满足: 核是一个函数 K ,对所有 x, z ∈ X 满足: 对所有 K ( x, z ) =< ϕ ( x) ⋅ ϕ ( z ) > 内积) 的映射。 这里的 ϕ 是从 X 到(内积)特征空间 F 的映射。 一旦有了核函数, 一旦有了核函数,决策规则就可以通过对核函数的 l 计算得到: 计算得到: f (x) = ∑αi yi K(xi , x) +b
期望和方差
Company Logo
2.1.9
期望和方差
Company Logo
2.2
信息论的基本概念
2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7
熵 联合熵和条件熵 互信息 相对熵 交叉熵 困惑度 噪声信道模型
2.2.1
熵
Company Logo
2.2.1
i=1
定义
l 次
那么, 那么,这种方法的关键就是如何找到一个可以高效计算 的核函数。 的核函数。
2.3.3
构造核函数
核函数要适合某个特征空间必须是对称的, 核函数要适合某个特征空间必须是对称的,即
熵
Company Logo
2.2.1
熵
Company Logo
2.2.1
熵
ຫໍສະໝຸດ Baidu
Company Logo
2.2.1
熵
Company Logo
2.2.1
熵
Company Logo
2.2.1
熵
Company Logo
2.2.1
熵
Company Logo
2.2.2
联合熵和条件熵
Company Logo
A ⊆ U Bi
i =1
n
当n=1时
Company Logo
2.1.4
贝叶斯法则
注:(arg max{X}表示使得X最大的参数)
Company Logo
2.1.4
贝叶斯法则
Company Logo
2.1.4
贝叶斯法则
Company Logo
2.1.5
随机变量
随机变量( 随机变量(random variable) )
1
pij = P(X1 = ai , X2 = bj )
i = 1,2, L
j = 1, 2, L
条件概率分布
一个随机变量或向量X的条件概率分布就是在某种给 一个随机变量或向量 的条件概率分布就是在某种给 定的条件之下X的概率分布 的概率分布。 定的条件之下 的概率分布。考虑 X 1 在给定 X 2 = b j 条件 下的概率分布,实际是求条件概率 P ( X 1 = a i | X 2 = b j ) 下的概率分布, 根据条件概率的定义可得
P(A | B) ≥ 0
(2)规范性
P (Ω | B ) = 1
(3)可列可加性 如果事件 A 1 , A 2 , L两两互不相容,则
P (∑ Ai | B ) =
i =1 ∞
∑
∞
i =1
P ( Ai | B )
Company Logo
2.1.4
贝叶斯法则
Company Logo
2.1.4
贝叶斯法则
f ( x ) =< w • x > + b
∑w x +b 其中, 是控制函数的参数, 其中, ( w , b ) ∈ R n × R 是控制函数的参数,决策规则由函数 sgn( f ( x)) 给出,通常 sgn( ) = 1 0 给出, 1 x>0 sgn x = 0 x = 0 − 1 x < 0
i =1
α 其中, 是样本数目; 是个正值导数,可通过学习获得; 为类别标记。 其中, 是样本数目; i 是个正值导数,可通过学习获得;y i 为类别标记。 如果有一种方法可以在特征空间中直接计算内积,就像在原始输入点的 如果有一种方法可以在特征空间中直接计算内积, 函数中一样,那么, 函数中一样,那么,就有可能将两个步骤融合到一起建立一个非线性分类器 这样,在高维空间内实际上只需要进行内积运算, 。这样,在高维空间内实际上只需要进行内积运算,而这种内积运算是可以 利用原空间中的函数实现的,我们甚至没有必要知道变换的形式。 利用原空间中的函数实现的,我们甚至没有必要知道变换的形式。这种直接 计算的方法称为核函数方法。 计算的方法称为核函数方法。
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2 联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.3
互信息
2.2.3
互信息
2.2.3
互信息
2.2.4
相对熵
2.2.4
相对熵
2.2.4
相对熵
互信息实际上就是衡量一个联合分布与独立性差距多大 I ( X ;Y ) = D( p( x, y) || p( x) p( y)) 的测度: 的测度: 证明: 证明:
=
i =1 i i
n
2.3.1
线性分类
该分类方法的几何解释是, 该分类方法的几何解释是,方程式 < w • x > +b = 0 定义的超平面将输入空间 X 分成两半,一半为负类,一半 分成两半,一半为负类, 为正类。 为正类。
当b的值变化时,超平面平行移动。
2.3.2
线性不可分
对于非线性问题, 对于非线性问题,可以把样本 x 映射到某个高维特征 空间,在高维特征空间中使用线性学习器。因此,假设集是 空间,在高维特征空间中使用线性学习器。因此, N 如下类型的函数: 如下类型的函数:
Company Logo
2.1.1
概率
Company Logo
2.1.2
最大似然估计
Company Logo
2.1.2
最大似然估计
2.1.3
条件概率
Company Logo
2.1.3
条件概率
Company Logo
2.1.3
条件概率
由上公式可得
P(A∩ B) = P(B)P(A| B) = P(A)P(B | A)
I (X;Y) = H(X ) − H(X | Y)
x∈X x∈X y∈ Y
= −∑ p(x) logp(x) + ∑∑ p(x, y) logp(x | y) p(x | y) = ∑∑ p(x, y) log p(x) x∈X y∈ Y p(x, y) = ∑∑ p(x, y) log p(x) p( y) x∈X y∈ Y = D( p(x, y) || p(x) p( y))
2.3.1
线性分类
两类问题(正类和负类) 两类问题(正类和负类)的分类通常用一个实数函数 为输入维数, 为实数)。通常执行如下操 为实数)。 为输入维数 f : X ⊆ Rn → R(n为输入维数,R为实数)。通常执行如下操 , 赋给正类,否则, 作:当 f (x) ≥ 0 时,将输入 x =(x1, x2,Lxn)′ 赋给正类,否则, 将其赋给负类。 将其赋给负类。 是线性函数时, 当 f ( x)(x ∈ X ) 是线性函数时,f (x) 可以写成如下形式
2.2.2
联合熵和条件熵
Company Logo
2.2.2
联合熵和条件熵
Company Logo
2.2.2
联合熵和条件熵
Company Logo
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2 联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.7
噪声信道模型
2.2.7 噪声信道模型
2.2.7
噪声信道模型
2.2.7
噪声信道模型
2.2.7
噪声信道模型
2.2.7 噪声信道模型
2.3
支持向量机
2.3.1 2.3.2 2.3.3
线性分类 线性不可分 构造核函数
2.3
支持向量机
支持向量机 ) (support vector machine,SVM)
i=1 i
2.1.6
二项式分布
Company Logo
2.1.6
二项式分布
Company Logo
2.1.6
二项式分布
Company Logo
2.1.7
联合概率分布和条件概率分布
联合概率分布( 联合概率分布(joint distribution) )
假设 ( X 1 , X 2 )为一个二维的离散型随机变量, 全部可能 为一个二维的离散型随机变量, X 的取值为 a 1 , a 2 , L ;X 2 全部可能的取值为 b 1 , b 2 L 那么, 那么,( X 1 , X 2 ) 的联合概率分布为
支持向量机是近几年来发展起来的新型分类方法, 支持向量机是近几年来发展起来的新型分类方法,是 在高维特征空间使用线性函数假设空间的学习系统, 在高维特征空间使用线性函数假设空间的学习系统,在分 类方面具有良好的性能。 类方面具有良好的性能。 在自然语言处理中, 广泛应用于短语识别、 在自然语言处理中,SVM广泛应用于短语识别、语 广泛应用于短语识别 义消歧、文本自动分类和信息过滤等方面。 义消歧、文本自动分类和信息过滤等方面。
2.3.2
线性不可分
线性分类器的一个重要性质是可以表示成对偶形式, 线性分类器的一个重要性质是可以表示成对偶形式,这意味着假设可以 表达为训练点和线性组合,因此,决策规则(分类函数) 表达为训练点和线性组合,因此,决策规则(分类函数)可以用测试点和训 l 练点的内积来表示: 练点的内积来表示:
f ( x) = ∑αi yi < wi ( xi ) •ϕi ( x) > + b
一个随机试验可能有多种不同的的结果,到底会出现哪一种, 一个随机试验可能有多种不同的的结果,到底会出现哪一种,存 在一定的概率,即随机会而定。简单地说, 在一定的概率,即随机会而定。简单地说,随机变量就是试验结果的 函数。 函数。 为一离散型随机变量 设X为一离散型随机变量,其全部可能的值为 {a 1 , a 2 , L}。那么 为一离散型随机变量, p i = P ( X = a i ) , i = 1,2, L 称为X的概率函数 显然, 的概率函数。 称为 的概率函数。显然, p i ≥ 0 ,∑ p = 1 有时也称为随机变量X的概率分布 此时, 的概率分布, 有时也称为随机变量 的概率分布,此时,函数 P ( X ≤ x) = F ( x) , −∞< x < ∞ 称为X的分布函数 的分布函数。 称为 的分布函数。
称为概率的乘法定理或乘法规则。 其一般形式表示为
P(A ∩L∩An ) = p(A )P(A2 | A )P(A | A ∩A2)L (An | IA ) P 1 1 1 3 1 i
i=1 n−1
这一规则在自然语言处理中使用得非常普遍。
Company Logo
2.1.3
条件概率
条件概率的三个基本性质: (1)非负性
P(X1 = ai | X2 = bj ) = P(X1 = ai , X2 = bj ) P(X2 =bj ) = pij P(X2 =bj )
2.17
k
联合概率分布和条件概率分布
由于 P( X 2 = b j ) = ∑ p kj ,故有
P( X 1 = ai | X 2 = b j ) = p ij
∑p
k
kj
i = 1,2, L
类似地, 类似地,
P(X
2
= b j | X 1 = ai ) =
p ij
∑
k
p ik
j = 1,2, L
2.1.8
贝叶斯决策理论
贝叶斯决策理论是统计方法处理模式分类问题的基本理论之一
Company Logo
2.1.8
贝叶斯决策理论
Company Logo
2.1.9
2.2.5
交叉熵
2.2.5
交叉熵
2.2.5
交叉熵
2.2.6
困惑度
在自然语言处理中,我们所说的语言模型的困惑度通常是指语言模型对于测试 数据的困惑度。一般情况下将所有的数据分成两部分,一部分作为训练数据, 用于估计模型的参数;另一部分作为测试数据,用于评估语言模型的质量。
2.2.7 噪声信道模型
LOGO
统计自然语言处理
第二章 预备知识
第二章 预备知识
1 2 3
概率论基本概念
信息论基本概念
支持向量机
Company Logo
2.1 概率论基本概念
2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 2.1.7 2.1.8 2.1.9 概率 最大似然估计 条件概率 贝叶斯法则 随机变量 二项式分布 联合概率分布和条件概率分布 贝叶斯决策理论 期望和方差
i =1
ϕ 其中, : X→F 是从输入空间到某个特征空间的映射。 是从输入空间到某个特征空间的映射。 其中, 也就是说,建立非线性分类器需要分两布: 也就是说,建立非线性分类器需要分两布: 首先使用一个非线性映射函数将数据变换到一个特征空 然后在这个特征空间上使用线性分类器。 间F,然后在这个特征空间上使用线性分类器。 然后在这个特征空间上使用线性分类器
l
2.3.4 构造核函数
满足: 核是一个函数 K ,对所有 x, z ∈ X 满足: 对所有 K ( x, z ) =< ϕ ( x) ⋅ ϕ ( z ) > 内积) 的映射。 这里的 ϕ 是从 X 到(内积)特征空间 F 的映射。 一旦有了核函数, 一旦有了核函数,决策规则就可以通过对核函数的 l 计算得到: 计算得到: f (x) = ∑αi yi K(xi , x) +b
期望和方差
Company Logo
2.1.9
期望和方差
Company Logo
2.2
信息论的基本概念
2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7
熵 联合熵和条件熵 互信息 相对熵 交叉熵 困惑度 噪声信道模型
2.2.1
熵
Company Logo
2.2.1
i=1
定义
l 次
那么, 那么,这种方法的关键就是如何找到一个可以高效计算 的核函数。 的核函数。
2.3.3
构造核函数
核函数要适合某个特征空间必须是对称的, 核函数要适合某个特征空间必须是对称的,即
熵
Company Logo
2.2.1
熵
Company Logo
2.2.1
熵
ຫໍສະໝຸດ Baidu
Company Logo
2.2.1
熵
Company Logo
2.2.1
熵
Company Logo
2.2.1
熵
Company Logo
2.2.1
熵
Company Logo
2.2.2
联合熵和条件熵
Company Logo
A ⊆ U Bi
i =1
n
当n=1时
Company Logo
2.1.4
贝叶斯法则
注:(arg max{X}表示使得X最大的参数)
Company Logo
2.1.4
贝叶斯法则
Company Logo
2.1.4
贝叶斯法则
Company Logo
2.1.5
随机变量
随机变量( 随机变量(random variable) )
1
pij = P(X1 = ai , X2 = bj )
i = 1,2, L
j = 1, 2, L
条件概率分布
一个随机变量或向量X的条件概率分布就是在某种给 一个随机变量或向量 的条件概率分布就是在某种给 定的条件之下X的概率分布 的概率分布。 定的条件之下 的概率分布。考虑 X 1 在给定 X 2 = b j 条件 下的概率分布,实际是求条件概率 P ( X 1 = a i | X 2 = b j ) 下的概率分布, 根据条件概率的定义可得
P(A | B) ≥ 0
(2)规范性
P (Ω | B ) = 1
(3)可列可加性 如果事件 A 1 , A 2 , L两两互不相容,则
P (∑ Ai | B ) =
i =1 ∞
∑
∞
i =1
P ( Ai | B )
Company Logo
2.1.4
贝叶斯法则
Company Logo
2.1.4
贝叶斯法则
f ( x ) =< w • x > + b
∑w x +b 其中, 是控制函数的参数, 其中, ( w , b ) ∈ R n × R 是控制函数的参数,决策规则由函数 sgn( f ( x)) 给出,通常 sgn( ) = 1 0 给出, 1 x>0 sgn x = 0 x = 0 − 1 x < 0
i =1
α 其中, 是样本数目; 是个正值导数,可通过学习获得; 为类别标记。 其中, 是样本数目; i 是个正值导数,可通过学习获得;y i 为类别标记。 如果有一种方法可以在特征空间中直接计算内积,就像在原始输入点的 如果有一种方法可以在特征空间中直接计算内积, 函数中一样,那么, 函数中一样,那么,就有可能将两个步骤融合到一起建立一个非线性分类器 这样,在高维空间内实际上只需要进行内积运算, 。这样,在高维空间内实际上只需要进行内积运算,而这种内积运算是可以 利用原空间中的函数实现的,我们甚至没有必要知道变换的形式。 利用原空间中的函数实现的,我们甚至没有必要知道变换的形式。这种直接 计算的方法称为核函数方法。 计算的方法称为核函数方法。
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2 联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.3
互信息
2.2.3
互信息
2.2.3
互信息
2.2.4
相对熵
2.2.4
相对熵
2.2.4
相对熵
互信息实际上就是衡量一个联合分布与独立性差距多大 I ( X ;Y ) = D( p( x, y) || p( x) p( y)) 的测度: 的测度: 证明: 证明:
=
i =1 i i
n
2.3.1
线性分类
该分类方法的几何解释是, 该分类方法的几何解释是,方程式 < w • x > +b = 0 定义的超平面将输入空间 X 分成两半,一半为负类,一半 分成两半,一半为负类, 为正类。 为正类。
当b的值变化时,超平面平行移动。
2.3.2
线性不可分
对于非线性问题, 对于非线性问题,可以把样本 x 映射到某个高维特征 空间,在高维特征空间中使用线性学习器。因此,假设集是 空间,在高维特征空间中使用线性学习器。因此, N 如下类型的函数: 如下类型的函数:
Company Logo
2.1.1
概率
Company Logo
2.1.2
最大似然估计
Company Logo
2.1.2
最大似然估计
2.1.3
条件概率
Company Logo
2.1.3
条件概率
Company Logo
2.1.3
条件概率
由上公式可得
P(A∩ B) = P(B)P(A| B) = P(A)P(B | A)
I (X;Y) = H(X ) − H(X | Y)
x∈X x∈X y∈ Y
= −∑ p(x) logp(x) + ∑∑ p(x, y) logp(x | y) p(x | y) = ∑∑ p(x, y) log p(x) x∈X y∈ Y p(x, y) = ∑∑ p(x, y) log p(x) p( y) x∈X y∈ Y = D( p(x, y) || p(x) p( y))
2.3.1
线性分类
两类问题(正类和负类) 两类问题(正类和负类)的分类通常用一个实数函数 为输入维数, 为实数)。通常执行如下操 为实数)。 为输入维数 f : X ⊆ Rn → R(n为输入维数,R为实数)。通常执行如下操 , 赋给正类,否则, 作:当 f (x) ≥ 0 时,将输入 x =(x1, x2,Lxn)′ 赋给正类,否则, 将其赋给负类。 将其赋给负类。 是线性函数时, 当 f ( x)(x ∈ X ) 是线性函数时,f (x) 可以写成如下形式
2.2.2
联合熵和条件熵
Company Logo
2.2.2
联合熵和条件熵
Company Logo
2.2.2
联合熵和条件熵
Company Logo
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.2 联合熵和条件熵
2.2.2
联合熵和条件熵
2.2.7
噪声信道模型
2.2.7 噪声信道模型
2.2.7
噪声信道模型
2.2.7
噪声信道模型
2.2.7
噪声信道模型
2.2.7 噪声信道模型
2.3
支持向量机
2.3.1 2.3.2 2.3.3
线性分类 线性不可分 构造核函数
2.3
支持向量机
支持向量机 ) (support vector machine,SVM)
i=1 i
2.1.6
二项式分布
Company Logo
2.1.6
二项式分布
Company Logo
2.1.6
二项式分布
Company Logo
2.1.7
联合概率分布和条件概率分布
联合概率分布( 联合概率分布(joint distribution) )
假设 ( X 1 , X 2 )为一个二维的离散型随机变量, 全部可能 为一个二维的离散型随机变量, X 的取值为 a 1 , a 2 , L ;X 2 全部可能的取值为 b 1 , b 2 L 那么, 那么,( X 1 , X 2 ) 的联合概率分布为
支持向量机是近几年来发展起来的新型分类方法, 支持向量机是近几年来发展起来的新型分类方法,是 在高维特征空间使用线性函数假设空间的学习系统, 在高维特征空间使用线性函数假设空间的学习系统,在分 类方面具有良好的性能。 类方面具有良好的性能。 在自然语言处理中, 广泛应用于短语识别、 在自然语言处理中,SVM广泛应用于短语识别、语 广泛应用于短语识别 义消歧、文本自动分类和信息过滤等方面。 义消歧、文本自动分类和信息过滤等方面。
2.3.2
线性不可分
线性分类器的一个重要性质是可以表示成对偶形式, 线性分类器的一个重要性质是可以表示成对偶形式,这意味着假设可以 表达为训练点和线性组合,因此,决策规则(分类函数) 表达为训练点和线性组合,因此,决策规则(分类函数)可以用测试点和训 l 练点的内积来表示: 练点的内积来表示:
f ( x) = ∑αi yi < wi ( xi ) •ϕi ( x) > + b
一个随机试验可能有多种不同的的结果,到底会出现哪一种, 一个随机试验可能有多种不同的的结果,到底会出现哪一种,存 在一定的概率,即随机会而定。简单地说, 在一定的概率,即随机会而定。简单地说,随机变量就是试验结果的 函数。 函数。 为一离散型随机变量 设X为一离散型随机变量,其全部可能的值为 {a 1 , a 2 , L}。那么 为一离散型随机变量, p i = P ( X = a i ) , i = 1,2, L 称为X的概率函数 显然, 的概率函数。 称为 的概率函数。显然, p i ≥ 0 ,∑ p = 1 有时也称为随机变量X的概率分布 此时, 的概率分布, 有时也称为随机变量 的概率分布,此时,函数 P ( X ≤ x) = F ( x) , −∞< x < ∞ 称为X的分布函数 的分布函数。 称为 的分布函数。
称为概率的乘法定理或乘法规则。 其一般形式表示为
P(A ∩L∩An ) = p(A )P(A2 | A )P(A | A ∩A2)L (An | IA ) P 1 1 1 3 1 i
i=1 n−1
这一规则在自然语言处理中使用得非常普遍。
Company Logo
2.1.3
条件概率
条件概率的三个基本性质: (1)非负性
P(X1 = ai | X2 = bj ) = P(X1 = ai , X2 = bj ) P(X2 =bj ) = pij P(X2 =bj )
2.17
k
联合概率分布和条件概率分布
由于 P( X 2 = b j ) = ∑ p kj ,故有
P( X 1 = ai | X 2 = b j ) = p ij
∑p
k
kj
i = 1,2, L
类似地, 类似地,
P(X
2
= b j | X 1 = ai ) =
p ij
∑
k
p ik
j = 1,2, L
2.1.8
贝叶斯决策理论
贝叶斯决策理论是统计方法处理模式分类问题的基本理论之一
Company Logo
2.1.8
贝叶斯决策理论
Company Logo
2.1.9
2.2.5
交叉熵
2.2.5
交叉熵
2.2.5
交叉熵
2.2.6
困惑度
在自然语言处理中,我们所说的语言模型的困惑度通常是指语言模型对于测试 数据的困惑度。一般情况下将所有的数据分成两部分,一部分作为训练数据, 用于估计模型的参数;另一部分作为测试数据,用于评估语言模型的质量。
2.2.7 噪声信道模型
LOGO
统计自然语言处理
第二章 预备知识
第二章 预备知识
1 2 3
概率论基本概念
信息论基本概念
支持向量机
Company Logo
2.1 概率论基本概念
2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 2.1.7 2.1.8 2.1.9 概率 最大似然估计 条件概率 贝叶斯法则 随机变量 二项式分布 联合概率分布和条件概率分布 贝叶斯决策理论 期望和方差