机器学习算法与应用概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习算法与应用概述
Internal
提纲
• 机器学习基本概念 • 机器学习的算法与案例介绍
• 机器学习分类 • 监督学习:分类、回归、时间序列、关联规则、降维算法(PCA)、概率分布 • 非监督学习:聚类 • 深度学习
• SAP 机器学习产品线介绍 • 问答
© 2018 SAP SE or an SAP affiliate company. All rights reserved.
异常警报
目标变量
Internal
12
分类算法
• 分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。 • 分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。 • 分类可描述如下:输入数据,或称训练集(Training Set),是一条条的数据库记录(Record)组成的。每一条记录包含若
© 2018 SAP SE or an SAP affiliate company. All rights reserved.
Internal
6
人工智能 / 机器学习 / 深度学习
© 2018 SAP SE or an SAP affiliate company. All rights reserved.
Internal
2
机器学习基本知识
什么是机器学习?
▪ 计算机通过训练从历史数据中学习 经验,无需设计专门的程序
▪ 然后,经过训练的模型被应用于新 数据,以预测故障或检测异常
为何现在采用?
▪ 物联网/设备互联 ▪ 训练模型所需的大数据充足可用 ▪ 硬件和软件成本下降 ▪ 计算能力强大(内存计算和分布式计算)
Internal
4
机器学习是大数据的实现方法
如果数据是21世纪最宝贵的财富,大数据分析就是当今最伟大的炼金术,可以从前所未有的大规模数据中发现前所未知 的知识,实现不可限量的价值。
大数据分析依赖的理论和方法主要包括传统的统计学、机器学习、数据挖掘,以及近10年来逐渐发展成熟的深度学习。
人工学习特征 人工学习规律
© 2018 SAP SE or an SAP affiliate company. All rights reserved.
Internal
11
机器学习基本知识
监督式学习:预测
无监督式学习:异常检测
具有输入和输出变 量(故障)
算法学习从输入变量 找到输入数据与历
到输出变量的映射函 史故障之间的关联

后,作出预测
仅有输入变量,无输出 变量
算法从输入变量 学习正常模式
当算法检测到异 常模式时,触发 异常警报
输入变量
日期 时间 压力 温度 4/16 1:23 1003 154 4/16 1:23 1003 154 4/16 1:23 1003 154
目标变量
安培数 RPM 故障事件 220 1500 无 220 1500 无 220 1500 有
广义型知识
特征型知识
差异型知识
关联型知识
预测型知识
• 反映同类事 物共同性质 的知识
• 反映事物各 方面的特征 知识
• 反映不同事 物之间属性 差别的知识
• 反映事物之 间依赖或关 联的知识
• 根据历史和 当前数据推 测未来数据
分类
聚类
关联规则
时序预测
回归
• 按照分析对象 • 识别出内在的 © 2018 SAP SE or an SAP affiliate c的om属pa性ny.、All特righ征ts ,reserved.规则,按照这
© 2018 SAP SE or an SAP affiliate company. All rights reserved.
有哪些用例?
▪ 数据安全…… 软件与欺诈检测
▪ 金融贸易…… 市场预测
▪ 医疗卫生…… 癌症研究
▪ 市场营销…… 客户资料与推荐
▪ 在线搜索……
▪ 预测性维护
恶意 股票
谷歌
Internal
• 关联是某种事 物发生时其他
• 把握分析对象 发展的规律,
• 是确定两种或 两种以上变量
Internal
10
机器学习的分类
监督学习(Supervised learning)
•使用有标签数据进行学习 •典型场景:分类、回归 •任务驱动
非监督学习(Unsupervised learning)
•使用无标签数据进行学习 •典型场景:聚类 •数据驱动
预计的故障
© 2018 SAP SE or an SAP affiliate company. All rights reserved.
输入变量
日期 时间 压力 4/16 1:23 1003 4/16 1:23 1003 4/16 1:23 1003
温度 154 154 214
安培数 RPM 220 1500 220 1500 220 1500
半监督学习(Semi-supervised learning)
• 使用数据的一部分是有标签的,另一部分没有标签,无标签数据的数量>>有标签数据数量 • 典型场景:海量数据分类
强化学习(Reinforcement learning)更接近人的学习过程
•使用无标签但有反馈的数据进行学习 •典型场景:策略推理 •更接近人的学习过程
3
机器学习的本质是“数据科学”
关联分析 Association 时间序列 Time Series Analysis
分类 Classification
聚类 Clustering
决策树 Decision Trees
神经网络 Neural Networks
回归 Regression
© 2018 SAP SE or an SAP affiliate company. All rights reserved.
人工学习特征 自动学习规律
自动学习特征 自动学习规律
提供特征和模型
重要的发展分支
统计学
机器学习
深度学习
提供数据分析 技术基础
实现对海量数据的超越预期的分析能力 算法多为启发式的,难以分析和理解
数据挖掘
实现对海量数据的明确可预期的分析能力 算法可解析,物理意义清晰
实现基础:数据库、数据仓库、分布式存储、并行计算、流式计算、GPU加速……
Internal
7
© 2018 SAP SE or an SAP affiliate company. All rights reserved.
Internal
8
机器学习的算法与案例介绍
机器学习的常用算法
随着数据挖掘应用多年来不断的扩展和深化,产生积累了大量的数据挖掘算wenku.baidu.com。根据应用场景及目标的不同,可以将数据挖掘 算法分为如下几类。
相关文档
最新文档