文本分类的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
∝
P(di
| cj )P(cj )
k =1
参数计算
∑ P(wi
|cj)
=
wi在c j类别文档中出现的次数 在c j类所有文档中出现的词 的次数
≈
1 + Nij 不同词个数 +
N kj
k
∑ ∑ P(c j )
=
c
的文档个数
j
总文档个数
=
N (cj) ≈ 1+ N (cj ) N (ck ) | c | + N (ck )
文本分类 (Text Categorization)
郑伟 2006-5-17
1 信息检索实验室
文本分类的概念
分类即是在给定一个分类体系的情况 下,将未知类别文本分到一个类别或几 个既定类别中。
3 信息检索实验室
提纲
文本分类概述 特征提取 主要分类算法
z Rocchio 法 z K近邻 z 贝叶斯 z 决策树 ຫໍສະໝຸດ Baidu 其它学习算法
信息检索实验室
k
k =1
24
Naïve Bayes Example
C = {allergy, cold, well}
e1 = sneeze; e2 = cough; e3 = fever E = {sneeze, cough, ¬fever}
Prob
Well
Cold
Allergy
P(ci) P(sneeze|ci) P(cough|ci) P(fever|ci)
它基于这样的假设,即稀少的词或者对于目录 预测没有帮助,或者不会影响整体性能。
但是,在信息检索中认为,稀少的词具有更多 的信息。因此,尽管可用TF选择特征,但很少 用TF大幅度地删除词。
10 信息检索实验室
特征提取(2)
统计量:度量两者(term和类别)独立性
的缺乏程度, 越大,独立性越小,相关
E={sneeze, cough, ¬fever}
P(well | E) = (0.9)(0.1)(0.1)(0.99)/P(E)=0.0089/P(E)
P(cold | E) = (0.05)(0.9)(0.8)(0.3)/P(E)=0.01/P(E)
P(allergy | E) = (0.05)(0.9)(0.7)(0.6)/P(E)=0.019/P(E)
特定阈值的特征。 12 信息检索实验室
特征提取(3): 信息增益
对于词条t 和文档类别c , IG 考察c 中出现 和不出现t 的文档数来衡量t 对于c 的信息 增益。关于一个t 出词现t的的概信率 息增益定义为包含:t类的的文概档率属于ci
t 不出现
不包含t的文档 属于ci的概率
对语料中出现的每个词条计算其信息增益 值,剔除该值低于特定阈值的特征项。 13
21 信息检索实验室
改进的kNN算法(使用倒排文 档)
Determining k nearest neighbors is the same as determining the k best retrievals using the test document as a query to a database of training documents.
性越大(若AD<BC,则类和词独立,
N=A+B+C+D)
c ~c tA B
χ 2 (t, c) =
N ( AD − CB)2
( A + C)(B + D)(A + B)(C + D)
~t C D
我们选取
χ
2 MAX
(t
)
=
maxim=1{χ
2
(t,
ci
)}
作为词t的
CHI概率值,同样我们剔除CHI概率小于
wcj ⋅ xij
wcj 2
xij 2
16 信息检索实验室
Rocchio时间复杂度
对训练集中 文本预处理
生成所有类 别中心向量
预处理
计算相 似度
17 信息检索实验室
K近邻 kNN方法
基本思想:在给定新文本后,考虑在训练文本集 中与该新文本距离最近(最相似)的 K 篇文本, 根据这 K 篇文本所属的类别判定新文本所属的类 别
树上的每一个节点说明了对实例的某个属 性的测试,并且该节点的每一个后继分支 对应于该属性的一个可能值
29 信息检索实验室
决策树学习的适用问题
实例是由属性-值对表示的 目标函数具有离散的输出值 可能需要析取的描述 训练数据可以包含错误 训练数据可以包含缺少属性值的实例
31 信息检索实验室
决策树实例:
Play tennis:
30 信息检索实验室
属性选择
构造好的决策树的关键在于如何选择好的 逻辑判断或属性。
对于同样一组例子,可以有很多决策树能 符合这组例子。
一般情况下或具有较大概率地说,树越小 则树的预测能力越强。
要构造尽可能小的决策树,关键在于选择 恰当的逻辑判断或属性。
类别
6
文本表示
向量空间模型(Vector Space Model)
z 文档d被表示成V:(W1,W2,W3,…,Wn)
其中 Wi 为第i个特征项的权重。特征项:字/词/词组/其他
z 权重计算,N个训练文档
TF·IDFi= TFi ×log ( N/ DFi)
TFi: 特征i在文档中出现次数,词频 DFi:所有文档集合中出现特征i的文档数目,文档频率
32 信息检索实验室
用熵度量样例的均一性(纯度)
熵的定义
熵定量的描述事件的不确定性 举例
33 信息检索实验室
用信息增益度量期望熵最低
一个属性的信息增益就是由于使用这个 属性分割样例而导致的期望熵的降低
关于某布尔分类的熵函数
34 信息检索实验室
35
36
信息检索实验室
信息检索实验室
算法步骤:
z 相似度比较
Cosine计算
内积计算
8
信息检索实验室
特征提取
根据词频 根据词和类别的互信息量 根据CHI概率 根据信息增益 其他(LSI、类别特征域……)
9 信息检索实验室
特征提取(2) : 互信息
词条t和类别c的互信息:
c ~c tA B
~t C D
互信息越大说明t和c具有较高的相关度 。
2 信息检索实验室
文本分类的应用
新闻出版按照栏目分类
z 类别 {政治,体育,军事,…}
网页分类
z 类似于Yahoo的分类
个性化新闻
z 智能推荐
垃圾邮件过滤 z 类别 {spam, not-spam}
4 信息检索实验室
说明
分类模式
z 2类问题,属于或不属于(binary) z 多类问题,多个类别(multi-class),可拆分成2类问题 any-of classication、one-of classication
19 信息检索实验室
Rocchio方法的特点
优点:容易实现,计算简单
缺点:对于类别文档比较分散的情况效果 不好,实用的分类系统很少采用rocchio算 法
18 信息检索实验室
KNN算法
目标:基于训练集N的对y分类 确定在N中与y最相似的元素x
simMAX ( y) = MAX x∈N sim(x, y) 得到k个最相似的集合
A = {x ∈ N | sim(x, y) = simmax ( y)}
设n1,n2分别为集合中属于c1,c2的个数
p(c1
|
y)
=
n1 n1+ n2
p(c2
|
y)
=
n2 n1+ n2
如果p(c1|y)>p(c2|y),判为c1,否则判为c2
20 信息检索实验室
时间复杂度
预处理 新文本
与训练集中文 本计算相似度
分类体系一般人工构造
z 政治、体育、军事 z 中美关系、恐怖事件 z 很多分类体系: Reuters分类体系、中图分类
5 信息检索实验室
分类的一般过程
收集训练集和测试集,对文本进行预处理
对文本类别进行人工标注 对文本进行特征提取 训练(学习) 评价
判定属于此 类
判定不属于 此类
22 信息检索实验室
Naïve Bayes贝叶斯分类
Bayes公式
P(c j
|
di )
=
P(di | cj )P(cj ) P(di )
∝
P(di
| cj )P(cj )
P(d | c ) = ∏ P(w | c ),独立性假设 i j
r
P(c j
| di)
ik
=
P(di | cj )P(cj )
j P(di )
P(allergy | E) = 0.50
k =1
Most probable category: allergy
26
信息检索实验室
决策树
决策树简介 决策树学习的适用问题 基本的决策树学习算法 决策树学习中的假想空间搜索 决策树学习的常见问题
28 信息检索实验室
简介
决策树通过把实例从根节点排列到某个叶 子节点来分类实例,叶子节点即为实例所 属的分类。
14 信息检索实验室
Rocchio方法
可以认为类中心向量法是它的特例
z Rocchio公式
∑ ∑ w' jc = αwjc + β
i∈C xij − γ
x i∉C ij
nC
n − nC
类C中心向量term j的权重 训练样本中正例个数 文档向量的权重
z 分类
∑∑ ∑ CSVc (di ) = wc ⋅ xi =
信息检索实验室
Rocchio方法
将所有训练文本向量化,类别中心向量等于所有正例向量 和反例向量的加权差。新的文档与类别中心向量计算相似 度,归入相似度最大的类中
15 信息检索实验室
自动文本分类方法
Rocchio方法 Naïve Bayes kNN方法 决策树方法decision tree 其他( SVM、神经网络…… )
信息检索实验室
0.9
0.05
0.05
0.1
0.9
0.9
0.1
0.8
0.7
0.01
0.7
0.4
25
讨论
朴素的贝叶斯假定在一个位置上出现的词的概率 独立与另外一个位置的单词,这个假定有时并不 反映真实情况
虽然独立性假设很不精确,别无选择,否则计算 的概率项将极为庞大
幸运的是,在实践中朴素贝叶斯学习器在许多文 本分类中性能非常好,即使独立性假设不成立
属于此类 A C
不属于此类 B D
z
准确率a / (a + b) 、召回率a / (a + c) 、F1
F1
=
2 pr p+r
z 宏平均(关于类别的均值),微平均(关于文本的均值)
7 信息检索实验室
系统结构
训练数据 文本
预处理 模型数据
标注工具
机器学习工具
标注的样本
新数据 文本
信息检索实验室
预处理
分类工具
Therefore, overall classification is O(Lt + B|Vt|)
z Typically B << |D|
23 信息检索实验室
特点
优点:不需要训练过程,因此也被称为
z Memory-based z Case-based z Lazy learning
缺点:没有对训练集中的同类文本进行“压缩”, 对每个测试文本都需要和所有训练集中的文本计 算相似度,效率低下
P(E) = 0.089 + 0.01 + 0.019 = 0.0379 P(well | E) = 0.23
P(c j
|
di )
=
P(di | cj )P(cj ) P(di )
∝
P(di
|
cj )P(cj )
r
P(cold | E) = 0.26
∏ P(di | c j ) = P(wik | c j ),独立性假设
Use standard VSR inverted index methods to find the k nearest neighbors.
Testing Time: O(B|Vt|)
where B is the average number of training documents in which a test-document word appears.
27 信息检索实验室
Naïve Bayes Example (cont.)
Probability P(ci) P(sneeze | ci) P(cough | ci) P(fever | ci)
Well 0.9 0.1 0.1 0.01
Cold 0.05 0.9 0.8 0.7
Allergy 0.05 0.9 0.7 0.4
对于每个词我们取
作为词t的互信息
值,其中m为类别数。得到每个词的互信息之后我们对互信息低于
特定阈值的词进行删除,得到较少的特征,达到降维的目的。
11 信息检索实验室
特征提取(1) : 词频
采用词频选择特征是最简单的降低特征空间维 数的方法。
词频定义为包含该词的文本的数量。实现方法 是,先计算所有词的TF,然后删除所有TF小于 某个阈值的词,从而降低特征空间的维数。
(a) 决策树根节点设定为当前节点.
(b) 利用上式计算各属性对应当前节点集合的信息 增益值.