从数据挖掘到深度学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据分析依赖的理论和方法主要包括传统的统计学、机器学习、数据挖掘,以及近 10年来逐渐发展成熟的深度学习。
人工学习特
人工学习特
征
征
人工学习规
自动学习规
律
提供特征和律模型
统计学
机器学习
自动学习特 征
自动学习规 重要的发展分律支
深度学习
提供数据分析 技术基础
实现对海量数据的超越预期的分析能力 算法多为启发式的,难以分析和理解
•Stream data
•Database Creation •RDBMS
•Data Warehouse management and
•Multimedia Database mining
•Web Database
•Web technology
(XML, data
integration)
主要的数据挖掘算法
集成学习算法:组合单一分类方法
如Bagging和Boosting等
分类算法需要对训练数据集进行标识、即 事先确定好类别,属于监督学习
……
测试 验证
建模流程 验证流程 可选流程
关于学习
学习能力是大数据分析建模的关键技术之一。根据反馈的不同,学习技术可以分 为监督学习(Supervised learning)、非监督学习(Unsupervised learning)、 半监督学习(Semi-supervised learning)和强化学习(Reinforcement learning )四大类。
广 特 差 关 预 偏 随着数据挖掘应用多年来不断的扩展和深化,产生积累了大量的数据挖掘算法 义 征 异 联 测 离 。根据应用场景及目标的不同,可以将数据挖掘算法分为如下几类。
型型型型型型
知 • 反映同类事 物共同性质 识 的知识
知 • 反映事物各 方面的特征 识 知识
知 知 • 反映不同事 • 反映事物之
Jiawei Han(韩家炜)(2000):从海量的、不完全的、有噪声的、模糊
1960的又s 、潜随在机有的用实的际信19应息70用和s数知an据识d中的80,过s 提程取隐含在-其-1《9中数9、0据s人挖们掘事:概先念不与知20技道00术的s》-、- 但
•Data Collection •Relational Data Mode•lData Mining
预 测 • 把握分析对象
发展的规律, 对未来的趋势 做出预见
检 测 • 对分析对象的
少数极端的特 例的描述,揭 示内在的原因
9
分类算法
分类的目的是根据数据集的特点构造一个分类器,把未知类别的样本映射到给 定类别中的某一个。
单一的分类方法主要包括:
决策树、贝叶斯、神经网络、K-近邻、支持向 量机分类等
从数据挖掘到深度学习
——大数据建模分析的算法和 应用概述
刘豫 2016-3-25
提纲
概述 大数据建模分析算法和应用
数据挖掘算法简介 深度学习算法简介 大数据分析工具
大数据建模分析的理论和方法
如果数据是21世纪最宝贵的财富,大数据分析就是当今最伟大的炼金术,可以从前所 未有的大规模数据中发现前所未知的知识,实现不可限量的价值。
步骤二: 对没有标识的数据进行分类, 并按照信任度从大到小进行排序
步骤四: 重新训练分类器并重复步骤二~步骤 四
提纲
概述 大数据建模分析算法和应用
数据挖掘算法简介 深度学习算法简介 大数据分析工具
数据挖掘的概念和历史
数据挖掘(Data Mining)一词是在1989年8月召开的第十一届国际联合人工智能 学术会议(JCAI’89)上正式形成的,其根源可追溯到经典统计学、人工智能、 机器学习三个学科,关系型数据库、互联网的广泛应用两次推动了数据挖掘技术 的发展。
数 据 挖
SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立 相关模型的先进方法”
掘 定 义
Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数 据中发现有意义的新关系、模式和趋势的过程”
的 发 展
Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价 值信息的过程”
物之间属性
识 差别的知识
间依赖或关
识 联的知识
关
知 • 根据历史和 当前数据推 识 测未来数据
时
知 • 揭示事物偏 离常规的异 识 常现象 异
分聚联序常
类
• 按照分析对象 的属性、特征, 建立不同的组 类来描述事物
类Leabharlann Baidu
• 识别出内在的 规则,按照这 些规则把对象 分成若干类
规 则 • 关联是某种事
物发生时其他 事物会发生的 这样一种联系
数据挖掘 实现对海量数据的明确可预期的分析能力 算法可解析,物理意义清晰
实现基础:数据库、数据仓库、分布式存储、并行计算、流式计算、GPU加速……
2019/12/29
关于特征、规律和学习
大数据建模分析的本质是通过构建数学模型,从数据中学习特征和规律,收获有
用的知识。
贝叶斯
特征:决定数据对象所蕴含的知识的关键属性
监督学习(Supervised learning)
• 使用有标签数据进行学习 • 典型场景:分类、回归
非监督学习(Unsupervised learning)
• 使用无标签数据进行学习 • 典型场景:聚类
半监督学习(Semi-supervised learning)
• 使用数据的一部分是有标签的,另一部分没有标签,无标签数据的数量>>有标签数据数量 • 典型场景:海量数据分类
强化学习(Reinforcement learning)
• 使用无标签但有反馈的数据进行学习 • 典型场景:策略推理 2019/12/29
半监督(Semi-supervised) 学习案例
图片分类案例:从图库中识别出“日蚀”图片。当图库巨大时,人工标注耗时耗 力。
步骤一: 用带有标识的图片训练分类器 步骤三: 将信任度最高的图片自动加入标识项
决策树 神经网络
规律:将特征的表达为目标知识的一种模式,及其参数
SVM KNN
学习:从样本数据集计算得到规标律签的过程
K-Means ……
数据
原始数据
2019/12/29
训练 数据
测试 数据
特征
标签 数据
规律
输 出 参 数
大数据建模分析的基本流程
学习
目标 函数
优 化 目 标
最小二乘 极大似然 梯度下降 BP算法 EM算法
人工学习特
人工学习特
征
征
人工学习规
自动学习规
律
提供特征和律模型
统计学
机器学习
自动学习特 征
自动学习规 重要的发展分律支
深度学习
提供数据分析 技术基础
实现对海量数据的超越预期的分析能力 算法多为启发式的,难以分析和理解
•Stream data
•Database Creation •RDBMS
•Data Warehouse management and
•Multimedia Database mining
•Web Database
•Web technology
(XML, data
integration)
主要的数据挖掘算法
集成学习算法:组合单一分类方法
如Bagging和Boosting等
分类算法需要对训练数据集进行标识、即 事先确定好类别,属于监督学习
……
测试 验证
建模流程 验证流程 可选流程
关于学习
学习能力是大数据分析建模的关键技术之一。根据反馈的不同,学习技术可以分 为监督学习(Supervised learning)、非监督学习(Unsupervised learning)、 半监督学习(Semi-supervised learning)和强化学习(Reinforcement learning )四大类。
广 特 差 关 预 偏 随着数据挖掘应用多年来不断的扩展和深化,产生积累了大量的数据挖掘算法 义 征 异 联 测 离 。根据应用场景及目标的不同,可以将数据挖掘算法分为如下几类。
型型型型型型
知 • 反映同类事 物共同性质 识 的知识
知 • 反映事物各 方面的特征 识 知识
知 知 • 反映不同事 • 反映事物之
Jiawei Han(韩家炜)(2000):从海量的、不完全的、有噪声的、模糊
1960的又s 、潜随在机有的用实的际信19应息70用和s数知an据识d中的80,过s 提程取隐含在-其-1《9中数9、0据s人挖们掘事:概先念不与知20技道00术的s》-、- 但
•Data Collection •Relational Data Mode•lData Mining
预 测 • 把握分析对象
发展的规律, 对未来的趋势 做出预见
检 测 • 对分析对象的
少数极端的特 例的描述,揭 示内在的原因
9
分类算法
分类的目的是根据数据集的特点构造一个分类器,把未知类别的样本映射到给 定类别中的某一个。
单一的分类方法主要包括:
决策树、贝叶斯、神经网络、K-近邻、支持向 量机分类等
从数据挖掘到深度学习
——大数据建模分析的算法和 应用概述
刘豫 2016-3-25
提纲
概述 大数据建模分析算法和应用
数据挖掘算法简介 深度学习算法简介 大数据分析工具
大数据建模分析的理论和方法
如果数据是21世纪最宝贵的财富,大数据分析就是当今最伟大的炼金术,可以从前所 未有的大规模数据中发现前所未知的知识,实现不可限量的价值。
步骤二: 对没有标识的数据进行分类, 并按照信任度从大到小进行排序
步骤四: 重新训练分类器并重复步骤二~步骤 四
提纲
概述 大数据建模分析算法和应用
数据挖掘算法简介 深度学习算法简介 大数据分析工具
数据挖掘的概念和历史
数据挖掘(Data Mining)一词是在1989年8月召开的第十一届国际联合人工智能 学术会议(JCAI’89)上正式形成的,其根源可追溯到经典统计学、人工智能、 机器学习三个学科,关系型数据库、互联网的广泛应用两次推动了数据挖掘技术 的发展。
数 据 挖
SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立 相关模型的先进方法”
掘 定 义
Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数 据中发现有意义的新关系、模式和趋势的过程”
的 发 展
Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价 值信息的过程”
物之间属性
识 差别的知识
间依赖或关
识 联的知识
关
知 • 根据历史和 当前数据推 识 测未来数据
时
知 • 揭示事物偏 离常规的异 识 常现象 异
分聚联序常
类
• 按照分析对象 的属性、特征, 建立不同的组 类来描述事物
类Leabharlann Baidu
• 识别出内在的 规则,按照这 些规则把对象 分成若干类
规 则 • 关联是某种事
物发生时其他 事物会发生的 这样一种联系
数据挖掘 实现对海量数据的明确可预期的分析能力 算法可解析,物理意义清晰
实现基础:数据库、数据仓库、分布式存储、并行计算、流式计算、GPU加速……
2019/12/29
关于特征、规律和学习
大数据建模分析的本质是通过构建数学模型,从数据中学习特征和规律,收获有
用的知识。
贝叶斯
特征:决定数据对象所蕴含的知识的关键属性
监督学习(Supervised learning)
• 使用有标签数据进行学习 • 典型场景:分类、回归
非监督学习(Unsupervised learning)
• 使用无标签数据进行学习 • 典型场景:聚类
半监督学习(Semi-supervised learning)
• 使用数据的一部分是有标签的,另一部分没有标签,无标签数据的数量>>有标签数据数量 • 典型场景:海量数据分类
强化学习(Reinforcement learning)
• 使用无标签但有反馈的数据进行学习 • 典型场景:策略推理 2019/12/29
半监督(Semi-supervised) 学习案例
图片分类案例:从图库中识别出“日蚀”图片。当图库巨大时,人工标注耗时耗 力。
步骤一: 用带有标识的图片训练分类器 步骤三: 将信任度最高的图片自动加入标识项
决策树 神经网络
规律:将特征的表达为目标知识的一种模式,及其参数
SVM KNN
学习:从样本数据集计算得到规标律签的过程
K-Means ……
数据
原始数据
2019/12/29
训练 数据
测试 数据
特征
标签 数据
规律
输 出 参 数
大数据建模分析的基本流程
学习
目标 函数
优 化 目 标
最小二乘 极大似然 梯度下降 BP算法 EM算法