北邮郭军web搜索第五章

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
d
ln Rl ln P(c1 ) ln P(c2 ) lnP(t j | c1 ) lnP(t j | c2 )
j 1 j 1
d
对数似然比:
朴素Bayes分类器
向量距离分类器

向量距离分类器可以看作是Bayes分类器的简化,它用 各类别数据的均值向量、方差向量、协方差矩阵等参 数近似描述它们的分布特性,利用向量之间的各种距 离进行分类,常用的距离尺度有:

主要方法:

正则化LDA PCA+LDA


PCA+NULL空间
LDA/QR LDA/GSVD
正则化LDA(RLDA)

一种简单的解决Sw矩阵奇异的方法是利用正则化思想 在Sw上加一个扰动量,数学表达为
S w S w I
其中 0,I为一个单位矩阵 这种方法的主要问题在于扰动量的选取有难度。如 果扰动量太小可能不足以解决奇异问题,太大又会使 Sw内包含的判决信息丢失
第二步,在 Sb , Sw 上运用LDA
LDA/GSVD

通过广义奇异值分解GSVD,用Hb和Hw代替Sb和Sw
根据GSVD理论,正交矩阵Y∈Rc*c,Z∈Rn*n,以及 非奇异矩阵X∈Rd*d满足如下关系:
YT H T b X [ Σ b , 0] Z H X [ Σ w , 0]
T T w
P(ci t )
P(ci ) P(t ci ) P(t )
分类方法

计算得到各个P(ci|t)后,将样本t分到类别ck中,其中
k arg max P(c j t)
1 j m
举例:随机选取100封邮件,进行人工标注,其中有30封垃圾邮件和 70封非垃圾邮件,对于词“培训”,垃圾邮件中有21封含有该词,非 垃圾邮件中有28封含有该词,假定过滤系统只采用该词判别是否为垃 圾邮件,问若一封新邮件含有该词,则过滤系统认为该邮件是否是垃 圾邮件? 对于多个词,如何判别?
X的列向量就是矩阵对[Hb,Hw]对应的广义奇异向量, 因此有 并将其作为基于GSVD的鉴别特征子空间
RDM

RDM的特点主要有两方面 1)将LDA问题转化为同时对角化类内和类间散度 矩阵问题 2)通过能量适应准则来近似估计
对类内散度矩阵Sw进行对角化,得:
Sw ΦΛΦT , Λ diag{1, 2 ,
PCA
d 设随机变量 x R ,存在一个样本集 X { xi }iN1
,则其均值可估计如下:
1 N x xi N i 1
协方差矩阵可估计如下:
1 N x (xi x )(xi x )t N i 1
求解
x 按降序排列的d个特征值 i A {a1,..., ad } ,则式
IF的研究重点

分类器的选择

针对特定的应用环境选择分类器模型 目前研究较多的是朴素Bayes模型、向量相似度(模
板匹配)模型、SVM、k-NN等

分类器的学习及优化

生成式算法、区分式算法 计算效率,类别模型的增量学习和自动演进,半监 督学习、特征降维技术
基本方法


信息过滤系统中常用的分类器 Bayes分类器 向量距离分类器 k近邻分类器 SVM 系统性能评价

二元分类问题可以根据似然比Rl来决定t的归属
Rl P(c1 | t ) P(c1 ) P(t 假设 | c1 ) x的各维数据之间相互独立; j 1 Rl d P(c2 | t ) P(c2 ) P(t | c2 )
j 1
似然比Rl
P(c1 ) P(t j | c1 )
d
P(c2 ) P(t j | c2 )
最大特点是不需要训练类别模型,而是按某种合理的 比例从各类别中抽取样本,用所有抽出的样本构成分
类器的总体特征样本

对于一个给定的样本t,首先按照某种距离测度找出与 其最接近的k个样本,然后根据这k个样本所属类别进
行投票
SVM

SVM是一种以结构风险最小化为目标的二元分类器, 在寻找最优分类超平面时不但要求将两类数据隔离, 而且要求两类数据距超平面的平均距离最大 设线性可分数据集为 D {( xi , yi )}in1
g ( x) w x b

x R d y 1, 1
D维空间中线性判别函数的一般形式为 分类超平面方程为

w x b 0
系统性能评价


评价指标主要包括分类器的精度和速度 速度取决于分类器算法的复杂程度,在实际应用中 与计算机的硬件性能关系很大 精度通过与人工标注结果(ground truth)进行比较来 计算 对于二元分类问题,常用的精度指标有 准确率 召回率 F-measure break-even点
Dg
2 ( t ) j 1 j ij d
Dc j 1 | t j ij |
d
Dm (t i )T i1 (t i )
Ds
2 2 ( t ) / j 1 j ij ij d
k近邻分类器

也称k-NN分类器(k-Nearest Neighbor)
降维变换

需要进行学习的降维变换是指变换核(基函数)随被 处理数据集变化以获得最佳变换效果的变换(自适应变 换)

主成分分析PCA(Principal Component Analysis)
独立成分分析ICA(Independent Component Analysis) 线性鉴别分析LDA(Linear Discriminative Analysis) 希尔伯特—黄变换Hilbert-Huang 自适应变换也存在生成式和区分式之分

b
I b
Db
Ob

w
I w
Dw
Ow
Db diag (rt rw 1,
,rb )
Dw diag (rt rw 1,
T T b b ww I
, rb )
i2 i2 1
Web 搜索 郭 军
北京邮电大学
第5章 信息过滤

基本方法


模型学习
垃圾邮件及垃圾短信过滤

话题检测与追踪系统
引 言
IR IF

•被检索的文档相对稳定 •用户查询需求不同 •信息资源动态变化 •用户需求相对固定

信息过滤的本质是“流环境”下的二元分类 流环境:过滤系统处于信息持续新生的环境之中,新的 数据源源不断地流经过滤系统 二元分类:一类是需要筛选出来的,一类是系统不关心 的 以模式分类为技术核心,高效高精度地处理数据流
LDA/QR

对Hb进行QR分解,得到一个正交矩阵Q和一个上三角 矩阵R,然后在Q张成的低维子空间内进行鉴别分析 算法分两步完成:
第一步,对Hb进行QR分解,Hb = QR
Q R d rb 的正交列张成了Hb的秩空间 R R rb c 是上三角矩阵

然后定义:源自文库
Sb QT SbQ, Sw QT SwQ
, n}
在对角矩阵上加上一个小的扰动量进行正则化,即
Λ Λ I ( 0)
σ的选择
RDM将Sw的能量谱用作选择σ的标准
* m , 其中J (m) min m m
m
i i 1 E ( ) n i i 1
S w Si
i 1
其中 Si
样本类间散度矩阵定义为:
xCi
d t , m 为第 i 类样本的均值, x R ( x m )( x m ) i i i
Sb ni (mi m )(mi m )t
i 1
c
其中 m 为样本集的总体均值向量
LDA的定义(2/3)
在应用中常遇到类内分散度矩阵Sw奇异的问题

当数据维数很高时,能够获得的样本数常常相对 不足,使得独立的训练样本数N小于数据维数d, 而这将导致Sw为奇异矩阵 信息过滤所处理的文本、图像、音频等一般都是 在高维数据空间中表达的 解决LDA奇异性问题时,常先用某种生成式算法 对数据进行降维


LDA奇异性的解决
精度指标
分类与标注对应关系的频次
标注 为L类 判别为L类 判别为非L类 a c
标注为 非L类 b d
i) 准确率(Precision)表示 所有被分类器分到类L的数 据中正确的所占的比例
ii) 召回率(Recall)表示 所有实际属于L的数据被 分类器分到L中的比例
P
R
a ab
a ac
iii) 平衡点BEP(Break-even Point): P和R值是互相影响的: P会随着R的升 高而降低,反之亦然。因此,为了更全面地反映分类器的性能,一种做法 是选取P和R相等时的值来表征系统性能,这个值叫BEP iv) F值 一种把准确率和召回率综合考虑的评价方法,定义如下:
Bayes分类器


Bayes分类器将分类问题看作统计决策问题,以最小错 误率为目标进行分类 前提:事先获得各个类别的概率分布,决策时利用 Bayes公式计算给定样本特征值条件下各类别的后验 概率 设随机变量x∈Rd, 各类别的概率分布为P(x|ci),对于某 确定样本t, 根据Bayes公式:
因此,如果 S w 是非奇异矩阵,最优的投影方向 Wopt 就是使得样本在变换空间的类间散度矩阵和样本类 内散度矩阵的行列式比值最大的那些正交特征向量
LDA的定义(3/3)
定义如下的准则函数:
J ( Wopt ) arg max
W
Sb Sw
arg max
W
WT Sb W WT S w W
容易证明,使J(.)最大化的变换矩阵W的列向量由下列 等式中的最大特征值对应的特征向量组成:
Sb wi iSwwi
(i 1, 2,…,c-1)
这是一个广义特征值问题,如果Sw是非奇异的,W的 1 列向量就是由矩阵 S w Sb 的特征向量组成 其中
1 S w Sb W W diag{1 , 2 ,
, c1}
LDA的奇异性

LDA是信息过滤中数据降维的核心算法之一
( 2 1) P R F 2 P R
F1
2 P R PR
模型学习


生成式学习 典型应用:利用EM算法对GMM的参数进行估计 共同特征:每个类模型只用本类的样本进行估计, 估计的准则是使模型产生训练样本的可能性最大( 最大似然) 早期的模型学习主要采用生成式算法 区分式学习 典型应用: SVM的学习 共同特征: 由需要相互区分的各类样本共同构成一 个模型,通过多类样本的“角力”形成不偏不依的 分类面
和对应的特征向量 a i ,并构成矩阵
y At ( x x )
称为x的PCA变换(也称K-L变换)
PCA的性质
PCA变换后的变量y是零均值的随机变量,其协方差矩阵为:
y At x A
由于A是列为 x 的特征向量的正交矩阵,所以 y 是对角阵且对角线元素为 x 的特征值,即:
y Wt x :将d维的随机变量x变换到c-1维
定义在变换空间中样本的类内和类间散度矩阵:
Sw ( y mi )( y mi ) Sb ni (mi m)(mi m)t
t i 1 yCi i 1
c
c
容易证明
Sw Wt SwW Sb Wt Sb W
PCA+LDA

首先用PCA对数据降维,使Sw成为非奇异矩阵,然后 再进行LDA 将生成式变换与区分式变换结合 PCA变换使数据中的信息被 “忠实地”保留,同时数 据维数得到了压缩,以便消除使Sw奇异的条件 难点:没有明确的理论指导PCA降维的维数选择 如果PCA维数太低,会丢失过多的鉴别信息 如果维数太高,相对来说训练样本会仍显不足,这 样即使能解决Sw的奇异问题,也难免会出现过拟合 的现象
由于
y
1 y d 的非对角元素都是零,所以随机变量y的各维之间是不相关的
LDA

LDA的思想是找一个投影方向,使得投影后在低维空 间里样本的类间散度较大,类内散度较小
x1
x’
x2
LDA的定义(1/3)
设Ci为第i类样本的集合,共有c类样本,则样本类内散度矩 c 阵定义为:
相关文档
最新文档