第二章机器学习及数据挖掘常用技术剖析教材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 文本分类的类型:
• 按类别数目:
• binary vs. multi-class:二类问题 vs. 多类问题
• 按每篇文档赋予的标签数目:
• sing label vs. multi label:单标签 vs. 多标签问题
一个文本分类任务:垃圾邮件过滤
From: ‘‘’’ <takworlld@hotmail.com> Subject: real estate is the only way... gem oalvgkay Anyone can buy real estate with no money down Stop paying rent TODAY ! There is no need to spend hundreds or even thousands for similar courses I am 22 years old and I have already purchased 6 properties using the methods outlined in this truly INCREDIBLE ebook. Change your life NOW ! ================================================= Click Below to order: http://www.wholesaledaily.com/sales/nmd.htm =================================================
• 优点: • 如果规则经过专家长时间的精心调优,精度会非常高 • 可解释性好
• 缺点: • 建立和维护基于规则的分类系统非常繁琐 • 开销大
一个Verity主题 (一条复杂的分类规则)
分类方法之三: 统计/概率方法
• 文本分类被定义为一个有监督的学习问题,包括:
• (i) 训练(training):通过有监督的学习,得到分类函数,然后将其 • (ii) 测试/应用/分类(test):应用于对新文档的分类
基本的特征选择算法
对类别c,选择得分靠前的k个特征
特征选择所考虑的因素
• 类内代表性:该特征应该是类别当中的典型特征
• 偶尔出现1到2次的特征不是好特征
• 类间区别性:该特征在多个类别当中具有区分性
• 比如每个类中都频繁出现的特征不是好特征
不同的特征选择方法
男
女
为什么要分类?
• 人类社会的固有现象:物以类聚、人以群分
• 相似的对象往往聚集在一起 • (相对而言)不相似的对象往往分开
• 方便处理!
分类非常普遍
• 性别、籍贯、民族、学历、年龄等等,我们每个人身上贴 满了“标签”
• 我们从孩提开始就具有分类能力:爸爸、妈妈;好阿姨、 坏阿姨;电影中的好人、坏人等等。
Biblioteka Baidu
特征选择(Feature Selection)
本讲义只介绍特征选择,分类中还可以进行特征变换(Feature Transformation)
特征选择
• 文本分类中,通常要将文本表示在一个高维空间下,每一维 对应一个词项
• 本讲义中,我们不特意区分不同的概念: 每个坐标轴 = 维 = 词语 = 词 项 = 特征
• 许多维上对应的词(如某些罕见词)对分类作用不大,有时可 能会误导分类器,这些特征称为噪音特征(noise feature)
• 去掉这些噪音特征会同时提高文本分类的效率和效果,该过 程称为特征选择(feature selection)
噪音特征的例子
• 比如我们将对文本是否属于China类进行判断 • 假定某个罕见词项,比如 ARACHNOCENTRIC,没有任何关于 China 类的信
如何编程实现对上类信息的识别和过滤?
分类示意图
分类方法之一: 手工方法
• Web发展的初期,Yahoo使用人工分类方法来组织Yahoo目 录,类似工作还有: ODP、PubMed等
• 优点: • 如果是专家来分类精度会非常高 • 如果问题规模和分类团队规模都很小的时候,能够保持分类 结果的一致性
大数据核心技术之数据挖掘与机器学习技术探索及应用
第二章 机器学习及数据挖掘常用技术
王斌 中国科学院信息工程研究所
目录
分类 聚类 回归
推荐
分类基本概念
课前思考题
• 中文文本分词如何看成分类问题? • 人脸识别如何看成分类问题?
什么是分类?
• 简单地说,分类(Categorization or Classification)就是按照某种 标准给对象贴标签(label)
息 • . . . 但是在训练集中,ARACHNOCENTRIC的所有出现正好都在 China这个类
别中 • 这种情况下,我们就可能训练得到一个分类器,它认为 ARACHNOCENTRIC
标志着类别 China的出现
• 这种从训练集中的偶然现象学习得到的一般化结果称为过学习(overfitting) • 特征选择能减少过学习的可能性,提高分类器的精度
• 分类无处不在,从现在开始,我们可以以分类的眼光看世 界☺
文本分类
• 文本分类(Text classification或者 Text Categorization):给定分类 体系(还有训练语料),将一篇文本分到其中一个或者多个类别 中的过程。
• 分类体系:随应用不同而不同。比如:垃圾 vs. 非垃圾、体育/ 经济/军事 等等
• 优点: • 速度快,扩展性强,效果好 • 不需要专家
• 缺点: • 需要手工构建训练集(但是普通人即可) • 有些方法解释性差
分类流程
文本表示
训练文本
特征选择 统计
统计量
新文本
分类过程
训练过程
特征表示
学习 特征表示
分类器 类别
课堂思考题
• 中文文本分词如何看成分类问题? • 人脸识别如何看成分类问题?
• 缺点: • 代价昂贵 • 难以进行规模扩展
• 因此,需要自动分类方法
分类方法之二: (人工撰写)规则的方法
• Google Alerts的例子是基于规则分类的 • 存在一些IDE开发环境来高效撰写非常复杂的规则 (如
Verity) • 通常情况下都是布尔表达式组合 (如Google Alerts)
• 按类别数目:
• binary vs. multi-class:二类问题 vs. 多类问题
• 按每篇文档赋予的标签数目:
• sing label vs. multi label:单标签 vs. 多标签问题
一个文本分类任务:垃圾邮件过滤
From: ‘‘’’ <takworlld@hotmail.com> Subject: real estate is the only way... gem oalvgkay Anyone can buy real estate with no money down Stop paying rent TODAY ! There is no need to spend hundreds or even thousands for similar courses I am 22 years old and I have already purchased 6 properties using the methods outlined in this truly INCREDIBLE ebook. Change your life NOW ! ================================================= Click Below to order: http://www.wholesaledaily.com/sales/nmd.htm =================================================
• 优点: • 如果规则经过专家长时间的精心调优,精度会非常高 • 可解释性好
• 缺点: • 建立和维护基于规则的分类系统非常繁琐 • 开销大
一个Verity主题 (一条复杂的分类规则)
分类方法之三: 统计/概率方法
• 文本分类被定义为一个有监督的学习问题,包括:
• (i) 训练(training):通过有监督的学习,得到分类函数,然后将其 • (ii) 测试/应用/分类(test):应用于对新文档的分类
基本的特征选择算法
对类别c,选择得分靠前的k个特征
特征选择所考虑的因素
• 类内代表性:该特征应该是类别当中的典型特征
• 偶尔出现1到2次的特征不是好特征
• 类间区别性:该特征在多个类别当中具有区分性
• 比如每个类中都频繁出现的特征不是好特征
不同的特征选择方法
男
女
为什么要分类?
• 人类社会的固有现象:物以类聚、人以群分
• 相似的对象往往聚集在一起 • (相对而言)不相似的对象往往分开
• 方便处理!
分类非常普遍
• 性别、籍贯、民族、学历、年龄等等,我们每个人身上贴 满了“标签”
• 我们从孩提开始就具有分类能力:爸爸、妈妈;好阿姨、 坏阿姨;电影中的好人、坏人等等。
Biblioteka Baidu
特征选择(Feature Selection)
本讲义只介绍特征选择,分类中还可以进行特征变换(Feature Transformation)
特征选择
• 文本分类中,通常要将文本表示在一个高维空间下,每一维 对应一个词项
• 本讲义中,我们不特意区分不同的概念: 每个坐标轴 = 维 = 词语 = 词 项 = 特征
• 许多维上对应的词(如某些罕见词)对分类作用不大,有时可 能会误导分类器,这些特征称为噪音特征(noise feature)
• 去掉这些噪音特征会同时提高文本分类的效率和效果,该过 程称为特征选择(feature selection)
噪音特征的例子
• 比如我们将对文本是否属于China类进行判断 • 假定某个罕见词项,比如 ARACHNOCENTRIC,没有任何关于 China 类的信
如何编程实现对上类信息的识别和过滤?
分类示意图
分类方法之一: 手工方法
• Web发展的初期,Yahoo使用人工分类方法来组织Yahoo目 录,类似工作还有: ODP、PubMed等
• 优点: • 如果是专家来分类精度会非常高 • 如果问题规模和分类团队规模都很小的时候,能够保持分类 结果的一致性
大数据核心技术之数据挖掘与机器学习技术探索及应用
第二章 机器学习及数据挖掘常用技术
王斌 中国科学院信息工程研究所
目录
分类 聚类 回归
推荐
分类基本概念
课前思考题
• 中文文本分词如何看成分类问题? • 人脸识别如何看成分类问题?
什么是分类?
• 简单地说,分类(Categorization or Classification)就是按照某种 标准给对象贴标签(label)
息 • . . . 但是在训练集中,ARACHNOCENTRIC的所有出现正好都在 China这个类
别中 • 这种情况下,我们就可能训练得到一个分类器,它认为 ARACHNOCENTRIC
标志着类别 China的出现
• 这种从训练集中的偶然现象学习得到的一般化结果称为过学习(overfitting) • 特征选择能减少过学习的可能性,提高分类器的精度
• 分类无处不在,从现在开始,我们可以以分类的眼光看世 界☺
文本分类
• 文本分类(Text classification或者 Text Categorization):给定分类 体系(还有训练语料),将一篇文本分到其中一个或者多个类别 中的过程。
• 分类体系:随应用不同而不同。比如:垃圾 vs. 非垃圾、体育/ 经济/军事 等等
• 优点: • 速度快,扩展性强,效果好 • 不需要专家
• 缺点: • 需要手工构建训练集(但是普通人即可) • 有些方法解释性差
分类流程
文本表示
训练文本
特征选择 统计
统计量
新文本
分类过程
训练过程
特征表示
学习 特征表示
分类器 类别
课堂思考题
• 中文文本分词如何看成分类问题? • 人脸识别如何看成分类问题?
• 缺点: • 代价昂贵 • 难以进行规模扩展
• 因此,需要自动分类方法
分类方法之二: (人工撰写)规则的方法
• Google Alerts的例子是基于规则分类的 • 存在一些IDE开发环境来高效撰写非常复杂的规则 (如
Verity) • 通常情况下都是布尔表达式组合 (如Google Alerts)