《机器学习》PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
典型任务:预测
例如:天气预报
17.10.2020
3
机器学习(续)
数据挖掘
数据分析技术
机器学习
数据管理技术
数据库
17.10.2020
4
重要性
来自百度文库
生物 信息学
工业过 程控制
计算 金融学
…… 信息
机器人
安全
…… 分子 生物学
行星 地质学
遥感信 息处理
机器学习
美国航空航天局JPL实验室的科学家在《Science》(2001 年9月)上撰文指出:机器学习对科学研究的整个过程正起到 越来越大的支持作用,……,该领域在今后的若干年内将取 得稳定而快速的发展
人工智能中最活跃、应用潜力最明显的领域(之一) [T.G. Dietterich, AIMag 97]
美国、欧洲各国都投入了大量人力物力 大型公司如波音、微软、通用电器等都有研究课题
已有一些研究成果进入产品
17.10.2020
8
机器学习角色的转变
如果我们想做出重要的贡献,首先需要把握住该领域发展 的脉搏
17.10.2020
17
挑战问题(4):数据利用能力(续)
第四个挑战问题: 今后10年
能否“数据通吃”?
如何“吃”?
17.10.2020
18
挑战问题(5):代价敏感
目前的机器学习技术 —> 降低错误率
“错误”是没有区别的吗?
把“好”当成“坏” 把“坏”当成“好”
一样吗?
共性问题:
大多数领域中的错误代价都不一样
机器学习现在似乎已经发展到一个新阶段
机器学习起源于人工智能对人类学习能力的追求,上一阶 段的研究几乎完全局限在人工智能这一领域中(学习本身 是目的)
而现在,机器学习已经开始进入了计算机科学的不同领域, 甚至其他学科,成为一种支持技术、服务技术(学习本身 是手段)
17.10.2020
9
挑战问题(1):泛化能力
17.10.2020
5
重要性:例子—网络安全
如何检测?
入侵检测:
是否是入侵?是何种入侵?
•历史数据:以往的正常
访问模式及其表现、以往 的入侵模式及其表现……
•对当前访问模式分类
这是一个典型的预测型机 器学习问题
常用技术: 神经网络 决策树 支持向量机 k近邻 序列分析 聚类
…… ……
17.10.2020
垃圾邮件过滤
没有标记的数据是没用的吗?
17.10.2020
16
挑战问题(4):数据利用能力(续)
共性问题:
在绝大多数领域中都会遇到“坏”数据,有时甚至只 有“坏”数据 例子:海军舰队
Web
“坏”数据 ——> 大量噪音、属性缺失、不一致、…… 传统的“坏”数据处理方式 —> “扔掉” “坏”数据一点用也没有吗?
共性问题:
几乎所有的领域,都希望越准越好
提高泛化能力是永远的追求
目前泛化能力最强的技术:
支持向量机(SVM) 产生途径:理论->实践
集成学习(ensemble learning) 产生途径:实践->理论
17.10.2020
10
挑战问题(1):泛化能力(续)
第一个挑战问题: 今后10年
能否更“准”?
14
挑战问题(3):可理解性(续) 第三个挑战问题: 今后10年
能否产生“白盒子”?
是和“黑盒子”完全不同的东西, 还是从“黑盒子”变出来?
17.10.2020
15
挑战问题(4):数据利用能力
传统的机器学习技术 —> 对有标记数据进行学习
“标记” ——> 事件所对应的结果
共性问题:
随着数据收集能力飞速提高、Internet的出现,在大 多数领域中都可以很容易地获得大量未标记数据 例子:医学图象分析
17.10.2020
21
6.1 机器学习概述
学习可能只是一个简单的联想过程,给定了特定 的输入,就会产生特定的输出。如:狗
命令“坐” 行为“坐”
17.10.2020
22
学习的成功是多种多样的:
学习识别客户的购买模式以便能检测出信用卡 欺诈行为,
对客户进行扼要描述以便能对市场推广活动进 行定位,
第六章 机器学习
17.10.2020
1
第六章 机器学习
主要内容:
机器学习概述 归纳学习
示例学习 基于决策树的归纳学习方法ID3
类比学习 基于范例的学习 解释学习 支持向量机
17.10.2020
2
学习
经典定义:利用经验改善系统自身的性能
[T.Mitchell, Book 97]
随着该领域的发展,主要做智能数据分析
能否更“快”?
能做到“训练快”、“测试也快”吗? 如果能,如何做?
17.10.2020
13
挑战问题(3):可理解性
共性问题:
绝大多数领域都希望有“可理解性” 例子:医疗诊断
地震预测
目前强大的技术几乎都是(或基本上是)“黑盒子”
神经网络、支持向量机、集成学习
“黑盒子”能满足需要吗?
17.10.2020
如果能,会从哪儿来?
17.10.2020
11
挑战问题(2):速度
共性问题:
几乎所有的领域,都希望越快越好
加快速度也是永远的追求
“训练速度” vs. “测试速度
训练速度快的往往测试速度慢:k近邻 测试速度快的往往训练速度慢:神经网络
17.10.2020
12
挑战问题(2):速度(续)
第二个挑战问题: 今后10年
执行部分根据知识库完成任务,同时把获得的信息反馈 给学习部分。
在具体的应用中,环境、知识库和执行部分决定了具体 的工作内容,学习部分所需要解决的问题完全由上述三 部分确定。
例子:入侵检测
癌症诊断
17.10.2020
19
挑战问题(5):代价敏感(续)
第五个挑战问题: 今后10年
能否“趋利避害”?
在达到较低的总错误率的基础上, 如何“趋”、如何“避”?
17.10.2020
20
挑战问题:……
More ……
在任何一个挑战问题上取得 突破性进展,都可能成为对 机器学习的重要贡献
对网上内容进行分类并按用户兴趣自动导入数 据,
贷款申请人的信用打分, 燃气涡轮的故障诊断等。
17.10.2020
23
6.1.1 简单的学习模型
学习系统的基本结构如图所示。
环境
学习
知识库
执行
环境向系统的学习部分提供某些信息,
学习部分利用这些信息修改知识库,以增进系统执行部 分完成任务的效能,
6
17.10.2020
重要性:例子—生物信息学
常用技术:
神经网络 支持向量机 隐马尔可夫模型 k近邻 决策树 序列分析 聚类
…… ……
7
重要性(续)
机器学习在过去十年中发展极为迅速,今后会快速稳定地 发展、对科学做出更大贡献的领域 [E.Mjolsness & D. DesCoste, Science 01]
例如:天气预报
17.10.2020
3
机器学习(续)
数据挖掘
数据分析技术
机器学习
数据管理技术
数据库
17.10.2020
4
重要性
来自百度文库
生物 信息学
工业过 程控制
计算 金融学
…… 信息
机器人
安全
…… 分子 生物学
行星 地质学
遥感信 息处理
机器学习
美国航空航天局JPL实验室的科学家在《Science》(2001 年9月)上撰文指出:机器学习对科学研究的整个过程正起到 越来越大的支持作用,……,该领域在今后的若干年内将取 得稳定而快速的发展
人工智能中最活跃、应用潜力最明显的领域(之一) [T.G. Dietterich, AIMag 97]
美国、欧洲各国都投入了大量人力物力 大型公司如波音、微软、通用电器等都有研究课题
已有一些研究成果进入产品
17.10.2020
8
机器学习角色的转变
如果我们想做出重要的贡献,首先需要把握住该领域发展 的脉搏
17.10.2020
17
挑战问题(4):数据利用能力(续)
第四个挑战问题: 今后10年
能否“数据通吃”?
如何“吃”?
17.10.2020
18
挑战问题(5):代价敏感
目前的机器学习技术 —> 降低错误率
“错误”是没有区别的吗?
把“好”当成“坏” 把“坏”当成“好”
一样吗?
共性问题:
大多数领域中的错误代价都不一样
机器学习现在似乎已经发展到一个新阶段
机器学习起源于人工智能对人类学习能力的追求,上一阶 段的研究几乎完全局限在人工智能这一领域中(学习本身 是目的)
而现在,机器学习已经开始进入了计算机科学的不同领域, 甚至其他学科,成为一种支持技术、服务技术(学习本身 是手段)
17.10.2020
9
挑战问题(1):泛化能力
17.10.2020
5
重要性:例子—网络安全
如何检测?
入侵检测:
是否是入侵?是何种入侵?
•历史数据:以往的正常
访问模式及其表现、以往 的入侵模式及其表现……
•对当前访问模式分类
这是一个典型的预测型机 器学习问题
常用技术: 神经网络 决策树 支持向量机 k近邻 序列分析 聚类
…… ……
17.10.2020
垃圾邮件过滤
没有标记的数据是没用的吗?
17.10.2020
16
挑战问题(4):数据利用能力(续)
共性问题:
在绝大多数领域中都会遇到“坏”数据,有时甚至只 有“坏”数据 例子:海军舰队
Web
“坏”数据 ——> 大量噪音、属性缺失、不一致、…… 传统的“坏”数据处理方式 —> “扔掉” “坏”数据一点用也没有吗?
共性问题:
几乎所有的领域,都希望越准越好
提高泛化能力是永远的追求
目前泛化能力最强的技术:
支持向量机(SVM) 产生途径:理论->实践
集成学习(ensemble learning) 产生途径:实践->理论
17.10.2020
10
挑战问题(1):泛化能力(续)
第一个挑战问题: 今后10年
能否更“准”?
14
挑战问题(3):可理解性(续) 第三个挑战问题: 今后10年
能否产生“白盒子”?
是和“黑盒子”完全不同的东西, 还是从“黑盒子”变出来?
17.10.2020
15
挑战问题(4):数据利用能力
传统的机器学习技术 —> 对有标记数据进行学习
“标记” ——> 事件所对应的结果
共性问题:
随着数据收集能力飞速提高、Internet的出现,在大 多数领域中都可以很容易地获得大量未标记数据 例子:医学图象分析
17.10.2020
21
6.1 机器学习概述
学习可能只是一个简单的联想过程,给定了特定 的输入,就会产生特定的输出。如:狗
命令“坐” 行为“坐”
17.10.2020
22
学习的成功是多种多样的:
学习识别客户的购买模式以便能检测出信用卡 欺诈行为,
对客户进行扼要描述以便能对市场推广活动进 行定位,
第六章 机器学习
17.10.2020
1
第六章 机器学习
主要内容:
机器学习概述 归纳学习
示例学习 基于决策树的归纳学习方法ID3
类比学习 基于范例的学习 解释学习 支持向量机
17.10.2020
2
学习
经典定义:利用经验改善系统自身的性能
[T.Mitchell, Book 97]
随着该领域的发展,主要做智能数据分析
能否更“快”?
能做到“训练快”、“测试也快”吗? 如果能,如何做?
17.10.2020
13
挑战问题(3):可理解性
共性问题:
绝大多数领域都希望有“可理解性” 例子:医疗诊断
地震预测
目前强大的技术几乎都是(或基本上是)“黑盒子”
神经网络、支持向量机、集成学习
“黑盒子”能满足需要吗?
17.10.2020
如果能,会从哪儿来?
17.10.2020
11
挑战问题(2):速度
共性问题:
几乎所有的领域,都希望越快越好
加快速度也是永远的追求
“训练速度” vs. “测试速度
训练速度快的往往测试速度慢:k近邻 测试速度快的往往训练速度慢:神经网络
17.10.2020
12
挑战问题(2):速度(续)
第二个挑战问题: 今后10年
执行部分根据知识库完成任务,同时把获得的信息反馈 给学习部分。
在具体的应用中,环境、知识库和执行部分决定了具体 的工作内容,学习部分所需要解决的问题完全由上述三 部分确定。
例子:入侵检测
癌症诊断
17.10.2020
19
挑战问题(5):代价敏感(续)
第五个挑战问题: 今后10年
能否“趋利避害”?
在达到较低的总错误率的基础上, 如何“趋”、如何“避”?
17.10.2020
20
挑战问题:……
More ……
在任何一个挑战问题上取得 突破性进展,都可能成为对 机器学习的重要贡献
对网上内容进行分类并按用户兴趣自动导入数 据,
贷款申请人的信用打分, 燃气涡轮的故障诊断等。
17.10.2020
23
6.1.1 简单的学习模型
学习系统的基本结构如图所示。
环境
学习
知识库
执行
环境向系统的学习部分提供某些信息,
学习部分利用这些信息修改知识库,以增进系统执行部 分完成任务的效能,
6
17.10.2020
重要性:例子—生物信息学
常用技术:
神经网络 支持向量机 隐马尔可夫模型 k近邻 决策树 序列分析 聚类
…… ……
7
重要性(续)
机器学习在过去十年中发展极为迅速,今后会快速稳定地 发展、对科学做出更大贡献的领域 [E.Mjolsness & D. DesCoste, Science 01]