第六章文本分类与聚类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
度量两者(term和类别)独立性程度
2 越大,独立性越小,相关性越大 若AD<BC,则类和词独立, N=A+B+C+D
34
特征提取方法的性能比较(Macro-F1)
35
特征提取方法的性能比较(Micro-F1)
36
结论
可以看出CHI,IG,DF性能好于MI MI最差 CHI,IG,DF性能相当 DF具有算法简单,质量高的优点,可以 替代CHI,IG
9
关于分类体系
分类体系的构建标准可以是按照语义(如:政治、 经济、军事…),也可以是按照其他标准(如:垃圾 vs. 非垃圾;游戏网站vs. 非游戏网站),完全取决于 目标应用的需求。 分类体系一般由人工构造,可以是层次结构。
一些分类体系: Reuters语料分类体系、中图分类、 Yahoo !分类目录。
863评测语料(中图分类) 搜狗语料 复旦语料
25
训练集的大小
通过不断增加实例的个数,考察每个类训练样 本对分类器质量的影响
宏观F1 微观F1
26
特征提取
27
特征提取(Feature Selection)
在文本分类问题中遇到的一个主要困难就是高维 的特征空间
通常一份普通的文本在经过文本表示后,如果以词为特 征,它的特征空间维数将达到几千,甚至几万 大多数学习算法都无法处理如此大的维数
从类别数目来分
2类问题,属于或不属于(binary) 多类问题,多个类别(multi-class),可拆分成2类问题 一个文本可以属于多类(multi-label)
从是否兼类看分
单标签(single label)问题:一个文本只属于一个类 多标签(multi-label)问题:一个文本可以属于多类,即出 现兼类现象
15
词性标注
来自百度文库
词义排歧
文本分类的过程(1)
获取训练文档集合
训练(training):即从训练样本中学习分类的规律。 测试(test或分类classification):根据学习到的规律对新来 的文本进行类别判定。 目前的文本分类系统,绝大多数都是以词语来表征文档 的,用关键词、短语、主题词、概念的都有。
汽车领域:
29
用文档频率选特征
文档频率
DF (Document Frequency) DFi:所有文档集合中出现特征i的文档数目
基本假设:稀少的词或者对于目录预测没有帮 助,或者不会影响整体性能。 实现方法:先计算所有词的DF,然后删除所有 DF小于某个阈值的词,从而降低特征空间的维 数。 优缺点:
专家有时候凭空想象,没有基于真实语料的分布
自动的方法(学习):从训练语料中学习规则
优点:
快速 准确率相对高(准确率可达60%或者更高) 来源于真实文本,可信度高 结果可能不易理解(比如有时是一个复杂的数学表达式)
19
缺点:
规则方法和统计方法
规则方法通过得到某些规则来指导分类,而这些规则往往是人 可以理解的。 统计方法通过计算得到一些数学表达式来指导分类。 规则方法和统计方法没有本质的区别,它们都是想得到某种规 律性的东西来指导分类,统计方法得到的数学表达式可以认为 是某种隐式规则。 在目前的文本分类当中,统计方法占据了主流地位。
互信息(Mutual Information):MI越大t和c共 现程度越大 互信息的定义与交叉熵近似,只是互信息不考 虑t不出现的概率,它的定义为:
I (t ) i Pr (ci ) log
I AVG (t ) P(ci ) I (t , ci )
i 1 m
Pr (t | ci ) Pr (t )
21
BEP和F测度
BEP(break-even point)
当准确率和召回率相等时的值即为BEP
F测度,取β=1
F p, r
β
1 pr 2pr
2
F 1
2 pr pr
BEP和F测度的值越大,则表示分类器的性能越 好。 BEP只是F1所有可能取值中的一个特定值(当p = r时),因此BEP小于或等于F1的最大值。
G (t ) Pr (t )i Pr (ci | t ) log
Pr (ci | t ) P (c | t ) Pr (t )i Pr (ci | t ) log r i Pr (ci ) Pr (ci )
取第 i 个类别时 的概率
32
假定t 出现时取第i 个 类别的概率
互信息(Mutual Information)
最简单的降低特征空间维数的方法 稀少的词具有更多的信息,因此不宜用DF大幅度地 删除词
30
词的熵
term的熵
该值越大,说明分布越均匀,越有可能出现在 较多的类别中; 该值越小,说明分布越倾斜,词可能出现在较 少的类别中
Entropy(t ) P(ci | t ) log P(ci | t )
20
分类的评测
偶然事件表(Contingency Table)
属于此类 判定属于此类 判定不属于此类 A C 不属于此类 B D
对一个分类器的度量
准确率(precision) = a / (a + b) 召回率(recall) = a / (a + c) fallout = b / (b + d)
12
一种中文网页的分类体系
13
系统结构
训练数据
文本
预处理
标注工具
模型数据
机器学习工具
标注的样本
新数据
文本
预处理
分类工具
类别
14
文本分类的应用
垃圾邮件的判定(spam or not spam)
类别{spam, not-spam}
新闻出版按照栏目分类
类别{政治,体育,军事,…}
类别{名词,动词,形容词,…} 类别{词义1,词义2,…}
10
训练语料分类体系
中图分类体系
处理对象是图书,不适合网页分类 1992年制定,时间过久,包括一些过时类别
学科分类与代码
上述两个分类标准都不能直接用做中文 网页的分类 中文网页的分类体系
11
中图分类法 TB类 一般工业技术 A类 马列主义、毛泽东思想 TD类 矿业工程 B类 哲学 TE类 石油、天然气工业 C类 社会科学总论 TF类 冶金工业 D类 政治、法律 TG类 金属学、金属工艺 E类 军事 TH类 机械、仪表工艺 F类 经济 TJ类 武器工业 G类 文化、科学、教育、体育 TK类 动力工业 H类 语言、文字 TL类 原子能技术 I类 文学 TM类 电工技术 J类 艺术 TN类 无线电电子学、电信技术 K类 历史、地理 TP类 自动化技术、计算技术 N类 自然科学总论 TQ类 化学工业 O类 数理科学和化学 TS类 轻工业、手工业 P类 天文学、地球科学 TU类 建筑科学 Q类 生物科学 TV类 水利工程 R类 医药、卫生 S类 农业科学 U类 交通运输 V类 航空、航天 X类 环境科学、劳动保护科学(安全科学)
6
分类的概念
给定:
一个实例的描述, xX, X是实例空间 一个固定的文本分类体系: C={c1, c2,…cn} 由于类别是事先定义好的,因此分类是有指 导的(或者说是有监督的) 实例x的类别 c(x)C, c(x) 是一个分类函数, 定义域是 X ,值域是C
7
确定:
文本分类的定义
37
分类器学习
训练样本实例:<x, c(x)>
一个文本实例 xX 带有正确的类别标记 c(x)
学习的过程是在给定训练样本集合D 的 前提下,寻找一个分类函数h(x), 使得:
x, c( x) D : h( x) c( x)
4
引言
物以类聚、人以群分
相似的对象总聚集在一起 根据聚集情况可以对新的对象进行划分 一些信息处理部门,一个工作人员一天要看上千份信息 分门别类将会大大减少处理难度
分类/聚类的根本原因就是因为对象数目太多,处理困难
分类是非常普遍的一种处理手段
性别、籍贯、民族、学历、年龄等等,我们每个人身上贴满了“标签 ” 我们从孩提开始就具有分类能力:电影中的好人、坏人;好阿姨、坏 阿姨;亲人、非亲人等等。 分类无处不在,从现在开始,我们可以以分类的眼光看世界☺
TREC提供统一的训练集和测试集进行系 统评测
国外:CMU,BERKLEY,CORNELL 国内:中科院计算所,清华大学,复旦大学
后续增加了网页语料和中文文本
但是中文文本是新华社的新闻稿,与网页的 分类体系还有差别
24
目前已有的评测语料
有指导的机器学习方法是实现中文网页 自动分类的基础,因此训练集是实现分 类的前提条件 已有训练语料
文本分类与聚类
1
这一部分将讲述
文本分类及聚类的概念 文本特征的提取方法 贝叶斯分类,KNN分类 层次聚类的方法
2
文本分类概述
3
概述
文本分类包括普通文本分类和网页文本分类 中文网页分类技术已经成为中文信息处理领 域的一项基础性工作 网页分类可以为搜索引擎用户提供目录导航 服务,进而提高系统查准率 网页分类可以为个性化搜索引擎奠定基础
建立文档表示模型
16
文本分类的过程(2)
特征选择
不管是训练还是测试,都要先分析出文本的某些特征 (feature,也称为标引项term),然后把文本变成这些特 征的某种适宜处理的表示形式,通常都采用向量表示形 式或者直接使用某些统计量。 建立从文档特征(或属性)到文档类别的映射关系,是 文本分类的核心问题。现有的分类方法主要来自两个方 面:统计和机器学习,比较著名的文档分类方法有kNN 、Naïve Bayes(NB)、SVM等等。
事先给定分类体系和训练样例(标注好类别 信息的文本),将文本分到某个或者某几个 类别中。
计算机自动分类,就是根据已经标注好类别信 息的训练集合进行学习,将学习到的规律用于 新样本(也叫测试样本)的类别判定。 分类是有监督/指导学习(Supervised Learning)的 一种。
8
文本分类的模式
22
多类分类问题的评价
宏平均(macro-averaging)
先对每个分类器计算上述量度,再对所有分 类器求平均 是关于类别的均值 先合并所有分类器的偶然事件表中的各元素, 得到一个总的偶然事件表,再由此表计算各 种量度。 是关于文本的均值
23
微平均(micro-averaging)
收集训练数据
在不牺牲分类质量的前提下尽可能降低特征空间 的维数 特征选取的任务将信息量小,不重要的词汇从特 征空间中删除,减少特征项的个数 在许多文本分类系统的实现中都引入了特征提取 方法
28
特征选择举例
对每类构造k 个最有区别能力的term 例如:
计算机领域:
主机、芯片、内存、编译 …
轮胎,方向盘,底盘,气缸,…
5
分类和聚类的例子
分类的例子:
在新街口马路上碰到一个人,判断他/她是不是学生? 根据某些特征给对象贴一个“标签”。 去综合楼一个大教室上自习,往往发现大家三三两两扎 推地坐,一打听,原来坐在一块的大都是一个班的。 事先不知道“标签”,根据对象之间的相似情况进行成 团分析。
聚类的例子:
i
31
信息增益(Information Gain, IG)
该term为整个分类所能提供的信息量 不考虑任何特征的熵和考虑该特征后的熵的差值 信息增益计算的是已知一个词t是否出现在一份文本中对于 类别预测有多少信息。 这里的定义是一个更一般的、针对多个类别的定义。
t 出现的概率 t 不出现
17
选择或设计分类模型
文本分类的过程(3)
性能评测模型
性能评测是分类处理流程中的重要一环。对改进和 完善分类系统具有指导意义。
18
文本分类的方法
人工方法:人工总结规则
优点:
结果容易理解:如足球and 联赛������
体育类
缺点:
费时费力 难以保证一致性和准确性(40%左右的准确率) 代表方法:人们曾经通过知识工程的方法建立专家系统(80年代末期) 用于分类。
I MAX (t ) max im 1 I (t , ci )
33
2统计量(CHI):
2统计量的定义可以从一个词t与一个类别c的 偶然事件表引出(假设文本的总数为N )
t ~t
c A C
~c B D
N ( AD CB) 2 2 (t , c) ( A C )( B D)( A B)(C D)