信息检索课件精简版文本分类
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本分类
• 给定分类体系,将文本分到某个或者某几个类别中。 • 分类体系一般人工构造
– 政治、体育、军事 – 中美关系、恐怖事件 – 这里讲的分类主要基于内容
• 其他分类:文体、态度、风格…… • 人工方法
– 费时费力费钱 – 难以保证一致性 – 专家有时候凭空想象
• 自动方法
– 快速 – 一致性好 – 来源于真实文本,可信度高
• 对这K的文本的类别进行统计,若第i个类 别的文本数目最多,则认为测试文本属于 第i类。
可编辑ppt
11
K-Nearest Neighbor
训练文本
+ 政治
待分类文本
KNN分类(K = 5)
- 军事可编辑ppt * 体育
12
– 人类的判断大多依据经验以及直觉
• 因此自然而然的会有人想到何让机器像人类一样 自己来通过对大量同类文档的观察来自己总结经 验,作为今后分类的依据。
•
这便是统计学习方法的基本思想 可编辑ppt
6
统计学习法
• 需要一批由人工进行了准确分类的文档作为学习的材料 (称为训练集)
– 注意由人分类一批文档比从这些文档中总结出准确的规则成本要 低得多
– 一个针对金融领域构建的分类系统,如果要扩充到医 疗或社会保险等相关领域,则除了完全推倒重来以外 没有其他办法,常常造成巨大的 知识和资金浪费。
可编辑ppt
5
统计学习法
• 后来人们意识到,究竟依据什么特征来判断文本 应当隶属的类别这个问题,就连人类自己都不太 回答得清楚
– 有太多所谓“只可意会,不能言传”的东西在里面
– 相比之下,知识工程方法中专家的主观因素居多
可编辑ppt
7
文本分类的过程
文本表示
训练过程
训练文本
统计
统计量
新文本
特征表示 学习
特征表示
分类过程
可编辑ppt
分类器
类别
8
Rocchio 核心向量法
• Rocchio是一种传统的分类方法 • 该方法为每一类别都构造一个核心向量
– 该核心向量是通过求这个训练集合的正负反馈 的特征项权重(Feature Weight)的平均值
• 这 里与特定规则的匹配程度成为了文本的特征。
• 由于在系统中加入了人为判断的因素,准确度比 词匹配法大为提高。
可编辑ppt
4
知识工程方法的缺陷
• 分类的质量严重 依赖于这些规则的好坏,也就是 依赖于制定规则的“人”的好坏
• 制定规则的人都是专家级别,人力成本大幅上升 常常令人难以承受
• 而知识工程最致命的弱 点是完全不具备可推广性
• 计算机从这些文档中挖掘出一些能够有效分类的规则
– 这个过程被形象的称为训练 – 而总结出的规则集合常常被称为分类器
• 训练完成后,用分类器对计算机从来没有见过的文档进行 分类
• 现如今,统计学习方法已经成为了文本分类领域绝对的主 流
– 主要的原因在于其中的很多技术拥有坚实的理论基础,存在明确 的评价标准,以及实际表现良好
可编辑ppt
1
自动文本分类的核心问题
• 文本分类与其它分类一样,其方法可以归结为根 据待分类数据的某些特征来进行匹配
– 当然完全的匹配不太可能 – 必须根据某种评价标准选择最优的匹配结果
• 核心问题
– 用哪些特征表示文本才能准确、快速地分类
• 对特征的选择主导了不同的文本分分类方法流派
– 词匹配法、知识工程方法、统计学习法
• 在分类中,比较测试文本的向量和核心向 量的相似度。
ຫໍສະໝຸດ Baidu
可编辑ppt
9
Rocchio 核心向量法
训练文本
Rocchio分类
+ 政治
- 军事可编辑ppt * 体育
10
K-Nearest Neighbor
• 给定一组分完类的训练文本,在此基础上 对一个未知文本进行分类。
• 当指定K的个数时,计算每一个训练文本与 测试文本的相似度,从其中取K个相似度最 大的文本。
可编辑ppt
2
词匹配法
• 词匹配法是最早被提出的分类算法
• 该方法仅根据文档中是否出现了与类名相同的词 来判断文档是否属于某个类别
– 至多再加入同义词的处理
• 很显然,这种过于简单机械的方法无法带来良好 的分类效果。
可编辑ppt
3
知识工程方法
• 后来兴起过一段时间的知识工程的方法
• 借助于专业人员的帮助,为每个类别定义大量的 推理规则,如果一篇文档能满足这些推理规则, 则可以判定属于该类别。
• 给定分类体系,将文本分到某个或者某几个类别中。 • 分类体系一般人工构造
– 政治、体育、军事 – 中美关系、恐怖事件 – 这里讲的分类主要基于内容
• 其他分类:文体、态度、风格…… • 人工方法
– 费时费力费钱 – 难以保证一致性 – 专家有时候凭空想象
• 自动方法
– 快速 – 一致性好 – 来源于真实文本,可信度高
• 对这K的文本的类别进行统计,若第i个类 别的文本数目最多,则认为测试文本属于 第i类。
可编辑ppt
11
K-Nearest Neighbor
训练文本
+ 政治
待分类文本
KNN分类(K = 5)
- 军事可编辑ppt * 体育
12
– 人类的判断大多依据经验以及直觉
• 因此自然而然的会有人想到何让机器像人类一样 自己来通过对大量同类文档的观察来自己总结经 验,作为今后分类的依据。
•
这便是统计学习方法的基本思想 可编辑ppt
6
统计学习法
• 需要一批由人工进行了准确分类的文档作为学习的材料 (称为训练集)
– 注意由人分类一批文档比从这些文档中总结出准确的规则成本要 低得多
– 一个针对金融领域构建的分类系统,如果要扩充到医 疗或社会保险等相关领域,则除了完全推倒重来以外 没有其他办法,常常造成巨大的 知识和资金浪费。
可编辑ppt
5
统计学习法
• 后来人们意识到,究竟依据什么特征来判断文本 应当隶属的类别这个问题,就连人类自己都不太 回答得清楚
– 有太多所谓“只可意会,不能言传”的东西在里面
– 相比之下,知识工程方法中专家的主观因素居多
可编辑ppt
7
文本分类的过程
文本表示
训练过程
训练文本
统计
统计量
新文本
特征表示 学习
特征表示
分类过程
可编辑ppt
分类器
类别
8
Rocchio 核心向量法
• Rocchio是一种传统的分类方法 • 该方法为每一类别都构造一个核心向量
– 该核心向量是通过求这个训练集合的正负反馈 的特征项权重(Feature Weight)的平均值
• 这 里与特定规则的匹配程度成为了文本的特征。
• 由于在系统中加入了人为判断的因素,准确度比 词匹配法大为提高。
可编辑ppt
4
知识工程方法的缺陷
• 分类的质量严重 依赖于这些规则的好坏,也就是 依赖于制定规则的“人”的好坏
• 制定规则的人都是专家级别,人力成本大幅上升 常常令人难以承受
• 而知识工程最致命的弱 点是完全不具备可推广性
• 计算机从这些文档中挖掘出一些能够有效分类的规则
– 这个过程被形象的称为训练 – 而总结出的规则集合常常被称为分类器
• 训练完成后,用分类器对计算机从来没有见过的文档进行 分类
• 现如今,统计学习方法已经成为了文本分类领域绝对的主 流
– 主要的原因在于其中的很多技术拥有坚实的理论基础,存在明确 的评价标准,以及实际表现良好
可编辑ppt
1
自动文本分类的核心问题
• 文本分类与其它分类一样,其方法可以归结为根 据待分类数据的某些特征来进行匹配
– 当然完全的匹配不太可能 – 必须根据某种评价标准选择最优的匹配结果
• 核心问题
– 用哪些特征表示文本才能准确、快速地分类
• 对特征的选择主导了不同的文本分分类方法流派
– 词匹配法、知识工程方法、统计学习法
• 在分类中,比较测试文本的向量和核心向 量的相似度。
ຫໍສະໝຸດ Baidu
可编辑ppt
9
Rocchio 核心向量法
训练文本
Rocchio分类
+ 政治
- 军事可编辑ppt * 体育
10
K-Nearest Neighbor
• 给定一组分完类的训练文本,在此基础上 对一个未知文本进行分类。
• 当指定K的个数时,计算每一个训练文本与 测试文本的相似度,从其中取K个相似度最 大的文本。
可编辑ppt
2
词匹配法
• 词匹配法是最早被提出的分类算法
• 该方法仅根据文档中是否出现了与类名相同的词 来判断文档是否属于某个类别
– 至多再加入同义词的处理
• 很显然,这种过于简单机械的方法无法带来良好 的分类效果。
可编辑ppt
3
知识工程方法
• 后来兴起过一段时间的知识工程的方法
• 借助于专业人员的帮助,为每个类别定义大量的 推理规则,如果一篇文档能满足这些推理规则, 则可以判定属于该类别。