第一章-机器学习及数据挖掘基础原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
大数据的魔力
• Google利用大数据预测了H1N1流 感的爆发
• 百度利用大数据成功预测2014年 世界杯(从淘汰赛到决赛全部正确)
• 核心原因:大数据+机器学习
9
大数据 vs. 机器学习
获取 存储
分析
高性能 计算
机器 学习
10
数据“大” vs. 机器学习
• It’s not who has the best algorithm wins, it’s who has the most data. (成功的机器学习应用不是拥有最好的算法,而是拥有最多的数 据!)
• 机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取 新的知识或技能,重新组织已有的知识结构使不断改善自身的性 能----来自《百度百科》
3
机器学习 vs. 人类学习
4
什么是数据挖掘(Data Mining)
• 数据挖掘常常也叫知识发现(Knowledge),有多种文字不同但含义 接近的定义,例如“识别出巨量数据中有效的、新颖的、潜在有 用的、最终可理解的模式的非平凡过程” 。也可以顾名思义,数 据挖掘就是试图从海量数据中找出有用的知识----From U. Fayyad, G. Piatetsky-Shapiro, R. Smyth. Knowledge discovery and data mining: Towards a unifying framework. In: Proc. KDD’96, Portland, OR, 82-88.
Michele Banko, and Eric Brill. Scaling to Very Very Large Corpora for Natural Language Disambiguation.1I1n proceedings of ACL2001, page 26-33.
机器学习方法分类
13
机器学习基本过程
表示 (Representation)
训练 (Training/Learning)
测试
(Testing/Predicting/ Inference)
将数据对象进行特征(feature) 化表示
给定一个数据样本集,从中 学习出规律(模型)
目标:该规律不仅适用于训 练数据,也适用于未知数据 (称为泛化能力)
• 机械学习(Rote learning):学习者无需任何推理或其它的知识转换, 直接吸取环境所提供的信息。如塞缪尔的跳棋程序。
• 示教学习(Learning from instruction):学生从环境(教师或其它信息 源如教科书等)获取信息,把知识转换成内部可使用的表示形式,并 将新的知识和原有知识有机地结合为一体。
等、根据模型预测明天是否下雨
15
机器学习的关键问题
• 【表示】如何表示数据样本?
• 通常用一个向量来表示一个样本,向量中选用哪些特征是关键
• 【训练】如何找出规律【模型+策略+算法】*
• 通常变成一个选择题,给你n个候选的模型让你选。【模型】 • 确定选择的标准(什么样的模型才叫好模型)【策略】 • 如何快速地从n个模型中选出最好的【算法】
• 【测试】如何根据找到的规律进行预测
*李航,《统计学习方法》,清华大学出版社,2013年5月
16
问题ቤተ መጻሕፍቲ ባይዱ:如何表示样本?
• 向量表示法【本课程重点】 • 图表示法
17
例子:图像识别
18
例子:家庭用车判别
• 任务:把车分类 家庭用车/非家庭用车 • 样本:车 • 问题:如何把车表示成一个向量?选取哪些特征? • 特征:价格,排量
5
机器学习 vs. 数据挖掘
本课程内容
周志华,机器学习与数据挖掘。《中国计算机学会通讯》, 2007, 3(12): 35-44.
6
机器学习和其他学科
7
什么是大数据(Big Data)
• 4V理论
• 海量的数据规模(volume) • 快速的数据流转和动态的数据体系
(velocity) • 多样的数据类型(variety) • 巨大的数据价值(value)
19
例子:心脏病预测
• 任务:预测病人是否会发心脏病 • 样本:病人 • 问题:如何把病人表示成一个向量?选取哪些特征? • 特征:血糖,血压,血脂,心率
对于一个新的数据样本,利 用学到的模型进行预测
14
例子:天气预报
• 目标:预测明天北京会不会下雨 • 数据:过去10年北京每一天的天气数据
• 那天是否下雨:是/否 • 那天的前一天傍晚18点的气温、相对湿度、风向、风速、气压等(特征) • 某条数据: <18, 20, 东, 15, 80, 是>
• 训练:学习得到规律(模型) • 预测:给定今天傍晚18点的气温、相对湿度、风向、风速、气压
大数据核心技术之数据挖掘与机器学习技术探索及应用
第一章 机器学习及数据挖掘基本原理
王斌 中国科学院信息工程研究所
1
目录
基本概念 典型应用
预备知识
2
什么是机器学习(Machine Learning)
• 学习能力是人类智能的一种体现
• 机器学习是研究如何“利用经验来改善计算机系统自身的性能” 的学科----From T. M. Mitchell TM. Machine Learning . New York: McGraw-Hill, 1997.
• 类比学习(Learning by analogy):利用二个不同领域(源域、目标域) 中的知识相似性,可以通过类比,从源域的知识(包括相似的特征和 其它性质)推导出目标域的相应知识,从而实现学习。例如,一个从 未开过货车的司机,只要他有开小车的知识就可完成开货车的任务。
• 归纳学习(Learning from induction):教师或环境提供某概念的一些 实例或反例,让学生通过归纳推理得出该概念的一般描述。
12
归纳学习方法分类
• 监督学习(Supervised Learning):监督学习是从标 记的训练数据来推断一个功能的机器学习任务。 如分类、回归。
• 非监督学习(Unsupervised Learning):无监督学习 的问题是,在未标记的数据中,试图找到隐藏的 结构。如聚类、密度估计。
• 强化学习(Reinforcement Learning):强化学习是机 器学习中的一个领域,强调如何基于环境而行动, 以取得最大化的预期利益。
大数据的魔力
• Google利用大数据预测了H1N1流 感的爆发
• 百度利用大数据成功预测2014年 世界杯(从淘汰赛到决赛全部正确)
• 核心原因:大数据+机器学习
9
大数据 vs. 机器学习
获取 存储
分析
高性能 计算
机器 学习
10
数据“大” vs. 机器学习
• It’s not who has the best algorithm wins, it’s who has the most data. (成功的机器学习应用不是拥有最好的算法,而是拥有最多的数 据!)
• 机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取 新的知识或技能,重新组织已有的知识结构使不断改善自身的性 能----来自《百度百科》
3
机器学习 vs. 人类学习
4
什么是数据挖掘(Data Mining)
• 数据挖掘常常也叫知识发现(Knowledge),有多种文字不同但含义 接近的定义,例如“识别出巨量数据中有效的、新颖的、潜在有 用的、最终可理解的模式的非平凡过程” 。也可以顾名思义,数 据挖掘就是试图从海量数据中找出有用的知识----From U. Fayyad, G. Piatetsky-Shapiro, R. Smyth. Knowledge discovery and data mining: Towards a unifying framework. In: Proc. KDD’96, Portland, OR, 82-88.
Michele Banko, and Eric Brill. Scaling to Very Very Large Corpora for Natural Language Disambiguation.1I1n proceedings of ACL2001, page 26-33.
机器学习方法分类
13
机器学习基本过程
表示 (Representation)
训练 (Training/Learning)
测试
(Testing/Predicting/ Inference)
将数据对象进行特征(feature) 化表示
给定一个数据样本集,从中 学习出规律(模型)
目标:该规律不仅适用于训 练数据,也适用于未知数据 (称为泛化能力)
• 机械学习(Rote learning):学习者无需任何推理或其它的知识转换, 直接吸取环境所提供的信息。如塞缪尔的跳棋程序。
• 示教学习(Learning from instruction):学生从环境(教师或其它信息 源如教科书等)获取信息,把知识转换成内部可使用的表示形式,并 将新的知识和原有知识有机地结合为一体。
等、根据模型预测明天是否下雨
15
机器学习的关键问题
• 【表示】如何表示数据样本?
• 通常用一个向量来表示一个样本,向量中选用哪些特征是关键
• 【训练】如何找出规律【模型+策略+算法】*
• 通常变成一个选择题,给你n个候选的模型让你选。【模型】 • 确定选择的标准(什么样的模型才叫好模型)【策略】 • 如何快速地从n个模型中选出最好的【算法】
• 【测试】如何根据找到的规律进行预测
*李航,《统计学习方法》,清华大学出版社,2013年5月
16
问题ቤተ መጻሕፍቲ ባይዱ:如何表示样本?
• 向量表示法【本课程重点】 • 图表示法
17
例子:图像识别
18
例子:家庭用车判别
• 任务:把车分类 家庭用车/非家庭用车 • 样本:车 • 问题:如何把车表示成一个向量?选取哪些特征? • 特征:价格,排量
5
机器学习 vs. 数据挖掘
本课程内容
周志华,机器学习与数据挖掘。《中国计算机学会通讯》, 2007, 3(12): 35-44.
6
机器学习和其他学科
7
什么是大数据(Big Data)
• 4V理论
• 海量的数据规模(volume) • 快速的数据流转和动态的数据体系
(velocity) • 多样的数据类型(variety) • 巨大的数据价值(value)
19
例子:心脏病预测
• 任务:预测病人是否会发心脏病 • 样本:病人 • 问题:如何把病人表示成一个向量?选取哪些特征? • 特征:血糖,血压,血脂,心率
对于一个新的数据样本,利 用学到的模型进行预测
14
例子:天气预报
• 目标:预测明天北京会不会下雨 • 数据:过去10年北京每一天的天气数据
• 那天是否下雨:是/否 • 那天的前一天傍晚18点的气温、相对湿度、风向、风速、气压等(特征) • 某条数据: <18, 20, 东, 15, 80, 是>
• 训练:学习得到规律(模型) • 预测:给定今天傍晚18点的气温、相对湿度、风向、风速、气压
大数据核心技术之数据挖掘与机器学习技术探索及应用
第一章 机器学习及数据挖掘基本原理
王斌 中国科学院信息工程研究所
1
目录
基本概念 典型应用
预备知识
2
什么是机器学习(Machine Learning)
• 学习能力是人类智能的一种体现
• 机器学习是研究如何“利用经验来改善计算机系统自身的性能” 的学科----From T. M. Mitchell TM. Machine Learning . New York: McGraw-Hill, 1997.
• 类比学习(Learning by analogy):利用二个不同领域(源域、目标域) 中的知识相似性,可以通过类比,从源域的知识(包括相似的特征和 其它性质)推导出目标域的相应知识,从而实现学习。例如,一个从 未开过货车的司机,只要他有开小车的知识就可完成开货车的任务。
• 归纳学习(Learning from induction):教师或环境提供某概念的一些 实例或反例,让学生通过归纳推理得出该概念的一般描述。
12
归纳学习方法分类
• 监督学习(Supervised Learning):监督学习是从标 记的训练数据来推断一个功能的机器学习任务。 如分类、回归。
• 非监督学习(Unsupervised Learning):无监督学习 的问题是,在未标记的数据中,试图找到隐藏的 结构。如聚类、密度估计。
• 强化学习(Reinforcement Learning):强化学习是机 器学习中的一个领域,强调如何基于环境而行动, 以取得最大化的预期利益。