《机器学习》PPT课件

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

典型任务：预测
例如：天气预报
17.10.2020
3
机器学习（续）
数据挖掘
数据分析技术
机器学习
数据管理技术
数据库
17.10.2020
4
重要性
来自百度文库
生物信息学
工业过程控制
计算金融学
…… 信息
机器人
安全
…… 分子生物学
行星地质学
遥感信息处理
机器学习
美国航空航天局JPL实验室的科学家在《Science》（2001 年9月）上撰文指出：机器学习对科学研究的整个过程正起到越来越大的支持作用，……，该领域在今后的若干年内将取得稳定而快速的发展
人工智能中最活跃、应用潜力最明显的领域（之一） [T.G. Dietterich, AIMag 97]
美国、欧洲各国都投入了大量人力物力大型公司如波音、微软、通用电器等都有研究课题
已有一些研究成果进入产品
17.10.2020
8
机器学习角色的转变
如果我们想做出重要的贡献，首先需要把握住该领域发展的脉搏
17.10.2020
17
挑战问题(4)：数据利用能力（续）
第四个挑战问题：今后10年
能否“数据通吃”？
如何“吃”？
17.10.2020
18
挑战问题(5)：代价敏感
目前的机器学习技术 —> 降低错误率
“错误”是没有区别的吗？
把“好”当成“坏” 把“坏”当成“好”
一样吗？
共性问题：
大多数领域中的错误代价都不一样
机器学习现在似乎已经发展到一个新阶段
机器学习起源于人工智能对人类学习能力的追求，上一阶段的研究几乎完全局限在人工智能这一领域中（学习本身是目的）
而现在，机器学习已经开始进入了计算机科学的不同领域，甚至其他学科，成为一种支持技术、服务技术（学习本身是手段）
17.10.2020
9
挑战问题(1)：泛化能力
17.10.2020
5
重要性：例子—网络安全
如何检测？
入侵检测：
是否是入侵？是何种入侵？
•历史数据：以往的正常
访问模式及其表现、以往的入侵模式及其表现……
•对当前访问模式分类
这是一个典型的预测型机器学习问题
常用技术：神经网络决策树支持向量机 k近邻序列分析聚类
…… ……
17.10.2020
垃圾邮件过滤
没有标记的数据是没用的吗？
17.10.2020
16
挑战问题(4)：数据利用能力（续）
共性问题：
在绝大多数领域中都会遇到“坏”数据，有时甚至只有“坏”数据例子：海军舰队
Web
“坏”数据 ——> 大量噪音、属性缺失、不一致、…… 传统的“坏”数据处理方式 —> “扔掉” “坏”数据一点用也没有吗？
共性问题：
几乎所有的领域，都希望越准越好
提高泛化能力是永远的追求
目前泛化能力最强的技术：
支持向量机（SVM）产生途径：理论->实践
集成学习（ensemble learning）产生途径：实践->理论
17.10.2020
10
挑战问题(1)：泛化能力（续）
第一个挑战问题：今后10年
能否更“准”？
14
挑战问题(3)：可理解性（续）第三个挑战问题：今后10年
能否产生“白盒子”？
是和“黑盒子”完全不同的东西，还是从“黑盒子”变出来？
17.10.2020
15
挑战问题(4)：数据利用能力
传统的机器学习技术 —> 对有标记数据进行学习
“标记” ——> 事件所对应的结果
共性问题：
随着数据收集能力飞速提高、Internet的出现，在大多数领域中都可以很容易地获得大量未标记数据例子：医学图象分析
17.10.2020
21
6.1 机器学习概述
学习可能只是一个简单的联想过程，给定了特定的输入，就会产生特定的输出。如：狗
命令“坐” 行为“坐”
17.10.2020
22
学习的成功是多种多样的：
学习识别客户的购买模式以便能检测出信用卡欺诈行为，
对客户进行扼要描述以便能对市场推广活动进行定位，
第六章机器学习
17.10.2020
1
第六章机器学习
主要内容：
机器学习概述归纳学习
示例学习基于决策树的归纳学习方法ID3
类比学习基于范例的学习解释学习支持向量机
17.10.2020
2
学习
经典定义：利用经验改善系统自身的性能
[T.Mitchell, Book 97]
随着该领域的发展，主要做智能数据分析
能否更“快”？
能做到“训练快”、“测试也快”吗？如果能，如何做？
17.10.2020
13
挑战问题(3)：可理解性
共性问题：
绝大多数领域都希望有“可理解性” 例子：医疗诊断
地震预测
目前强大的技术几乎都是（或基本上是）“黑盒子”
神经网络、支持向量机、集成学习
“黑盒子”能满足需要吗？
17.10.2020
如果能，会从哪儿来？
17.10.2020
11
挑战问题(2)：速度
共性问题：
几乎所有的领域，都希望越快越好
加快速度也是永远的追求
“训练速度” vs. “测试速度
训练速度快的往往测试速度慢：k近邻测试速度快的往往训练速度慢：神经网络
17.10.2020
12
挑战问题(2)：速度（续）
第二个挑战问题：今后10年
执行部分根据知识库完成任务，同时把获得的信息反馈给学习部分。
在具体的应用中，环境、知识库和执行部分决定了具体的工作内容，学习部分所需要解决的问题完全由上述三部分确定。
例子：入侵检测
癌症诊断
17.10.2020
19
挑战问题(5)：代价敏感（续）
第五个挑战问题：今后10年
能否“趋利避害”？
在达到较低的总错误率的基础上，如何“趋”、如何“避”？
17.10.2020
20
挑战问题：……
More ……
在任何一个挑战问题上取得突破性进展，都可能成为对机器学习的重要贡献
对网上内容进行分类并按用户兴趣自动导入数据，
贷款申请人的信用打分，燃气涡轮的故障诊断等。
17.10.2020
23
6.1.1 简单的学习模型
学习系统的基本结构如图所示。
环境
学习
知识库
执行
环境向系统的学习部分提供某些信息，
学习部分利用这些信息修改知识库，以增进系统执行部分完成任务的效能，
6
17.10.2020
重要性：例子—生物信息学
常用技术：
神经网络支持向量机隐马尔可夫模型 k近邻决策树序列分析聚类
…… ……
7
重要性（续）
机器学习在过去十年中发展极为迅速，今后会快速稳定地发展、对科学做出更大贡献的领域 [E.Mjolsness & D. DesCoste, Science 01]