大数据应用基础分类算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
据做出比较准确的分类。这就像教小孩学习一样。
• 无监督学习:聚类、关联规则
– 无标识 – 聚类:针对客户特征进行客户群划分。由此,我们可以
对不同客户群采取差异化的促销方式。 – 关联规则:分析发现购买面包的顾客中有很大比例的人
同时购买牛奶。由此,我们可以把面包和牛奶摆在同一 个货架上。
• 此外,降维方法经常服务于数据挖掘算法
• 结构化数据的分析相对比较成熟,比如Excel、关 系型数据库、数据仓库的OLAP在企业中已经无人 不知。
• 对于非结构化数据,难点在于:
– 数据收集与集成:设法通过各种设备收集数据,并把各 种数据来源集成起来。例如,围绕一个人,怎样能从公 司内部和外部的各种渠道,收集他多方面的数据,把其 中的非结构化数据转化成结构化数据,然后把各种数据 集成起来,从而用一个特征向量来表示他的特征。
• 我们可以尝试不同的分类算法,并对每个分类 算法进行参数调节,经过反复比较后,可以选 择一种预测精度最高的分类算法及其参数组合。
• 之后,就可以对新的真实数据进行分类了。
15
分类的步骤
16
复习到此结束
• 复习到此结束。 • 现在翻到本幻灯片后面几页,在上一次课的进
度基础上继续。
17
分类算法的核心概念辨析
18
按目标变量类型把监督学习分为两 类
• 监督学习可分为两类:
• 回归:针对数值型目标变量的监督学习。
– 回归也可以称作估计(estimation)
• 分类:针对分类型目标变量的监督学习。
• 很多监督学习算法既可以用于分类,也可 以用于回归:
– 例如:支持向量机、人工神经网络、决策树
– 它能充分发挥分布式计算的优点,但是完成所需计算的耗时可能 是几分钟、几小时或更长时间,因此有时还需要用在线计算加以 补充。
– 主要的开源技术是Hadoop。这也是最热门的大数据架构技术。 – 很多算法都有其适合于在Hadoop平台上进行分布式运行的版本。
大数据分析人员应能掌握常见算法的分布式版本。
6
数据挖掘的概念辨析
• 和统计相比,数据挖掘倾向于处理大规模数据,并 且其宗旨是减少人工操作。而统计往往有赖于分析 人员手工操作。在统计之前,常常对变量间的关系 做假设;而数据挖掘的重点在于预测的结果,不一 定追究预测的依据。
• 数据挖掘和人工智能、机器学习的重合度非常高。 不过,早先的人工智能侧重于由人工设定规则,而 当今越来越重视从数据中自动获得知识、
– 它把特征维度降低,从而使运算更快。 9
数据挖掘算法分类
• 此处观看案例视频
10
高度重视以下同义词
• 以下术语大致是同一个意思:
• 表格中的行:个案=实例=记录=样本点=数据
点
• 表格中的列:属性=特征=字段=维度=预测变
量=自变量
11
数据准备的重要性
• 没有高质量的数据,就没有高质量的挖掘结果。
• 在线分布式计算
– 可以把一些简单的计算以极快的速度完成。例如,搜索引擎的反 应时间、广告交易平台的更新时间都在0.1秒以内。
– 相关开源技术有Storm、Kafka等。商用方案有IBM的流计算等。
4
大数据架构技术的核心
• 此外,还有一种重要技术,叫内存计算。
– 原理是:在内存里计算比在硬盘里计算快得多。 – 这种技术使用的前提就是内存足够大。商用方案有
数据准备工作占用的时间
往往在60%以上!
12
分类模型的评价
• 模型算法质量的评价是很重要的一部分。对分类模 型和聚类模型的评价方法是不同的。
• 对于分类模型,通常用一些指标来进行模型评价和 选择。通常采用的指标有: ROC曲线、Lift曲线。 其本质都是与预测的准确性有关的。
• 分类模型评价的主要宗旨就是:减少误判(假阳性) 和漏判(假阴性)。
SAP Hana等。 – 它可以和分布式计算结合。例如,开源平台Spark
就采取这种思路。
5
大数据技术中的算法
• 大数据技术中的算法不只是数据挖掘。 • 除了数据挖掘,典型的计算任务还有:
– 搜索引擎中的文本特征提取,即相对词频计算 – 推荐系统中的用户间相似度计算、物品间相似度计
算等
• 不过,数据挖掘无疑是最重要的一大类算法。
– 数据分析:怎样分析这种高维度的数据。非结构化数据 的维度是无止境的,比如百度能分析几十亿维的特征。
3
大数据架构技术的核心
• 主要有两种计算: • 离线分布式计算
– 这种计算能处理海量数据,并运行复杂的算法,其中包括数据挖 掘算法、非结构化数据特征的提取(例如搜索引擎索引的编制)、 推荐算法等。
大数据复习
1
大数据的核心是什么
• 大数据人才可以分为分析人才和架构人才。 • 其中,需求量最大的是分析人才。 • 而分析的核心是数据挖掘。 • 大数据目前的发展重点是怎么对非结构化数据进行
数据挖掘。
– 物联网、智能手机、可穿戴、智能硬件等技术设备将正 在让数据成几何倍数增长。
2
大数据的核心——非结构化数据
• 我们可以对不同的分类算法,设置不同的参数,进 行反复比较,根据在多个效果指标(比如ROC曲 线的AUC值、Lift曲线)上是否有稳定的好的表现, 选择一个最终落地应用的模型。
13
分类的步骤——数据集的划分
• 把过去的数据分成两份,其中一份当做训 练集,另一份当做测试集(用来模拟“未 来的”数据)。通常,我们会将大多数数 据作为训练集(比如80%),而少数数据 作为测试集。
• 历史数据中每行都要有输入数据(输入变 量值)和输出数据(目标变量值)。
14
分类的步骤——模型的训练与使用
• 首先采用训练集进行训练,目的是在已知目标 值的情况下,找出输入变量和目标值之间的关 系,从而得到经过训练的分类模型。
• 我们用这个模型对测试集中的目标变量进行预 测,然后把目标变量的真实值和预测值进行比 较,看看预测精度如何。
• 对于非结构化数据的挖掘,通常需要把非结构化数 据转化成结构化的形式,然后再采用数据挖掘算法。
• 数据挖掘不只是要重视算法,提高数据质量、理解 应用领域也是不可或缺的。
7
数据挖掘的基本流程
31
信息收集
2
数据预处理
3
数据挖掘
4Baidu Nhomakorabea
评估
53
知识表示
8
数据挖掘算法分类
• 有监督学习:分类与回归
– 有标识。 – 通过模仿做出正确分类的已有数据,从而能够对新的数
• 无监督学习:聚类、关联规则
– 无标识 – 聚类:针对客户特征进行客户群划分。由此,我们可以
对不同客户群采取差异化的促销方式。 – 关联规则:分析发现购买面包的顾客中有很大比例的人
同时购买牛奶。由此,我们可以把面包和牛奶摆在同一 个货架上。
• 此外,降维方法经常服务于数据挖掘算法
• 结构化数据的分析相对比较成熟,比如Excel、关 系型数据库、数据仓库的OLAP在企业中已经无人 不知。
• 对于非结构化数据,难点在于:
– 数据收集与集成:设法通过各种设备收集数据,并把各 种数据来源集成起来。例如,围绕一个人,怎样能从公 司内部和外部的各种渠道,收集他多方面的数据,把其 中的非结构化数据转化成结构化数据,然后把各种数据 集成起来,从而用一个特征向量来表示他的特征。
• 我们可以尝试不同的分类算法,并对每个分类 算法进行参数调节,经过反复比较后,可以选 择一种预测精度最高的分类算法及其参数组合。
• 之后,就可以对新的真实数据进行分类了。
15
分类的步骤
16
复习到此结束
• 复习到此结束。 • 现在翻到本幻灯片后面几页,在上一次课的进
度基础上继续。
17
分类算法的核心概念辨析
18
按目标变量类型把监督学习分为两 类
• 监督学习可分为两类:
• 回归:针对数值型目标变量的监督学习。
– 回归也可以称作估计(estimation)
• 分类:针对分类型目标变量的监督学习。
• 很多监督学习算法既可以用于分类,也可 以用于回归:
– 例如:支持向量机、人工神经网络、决策树
– 它能充分发挥分布式计算的优点,但是完成所需计算的耗时可能 是几分钟、几小时或更长时间,因此有时还需要用在线计算加以 补充。
– 主要的开源技术是Hadoop。这也是最热门的大数据架构技术。 – 很多算法都有其适合于在Hadoop平台上进行分布式运行的版本。
大数据分析人员应能掌握常见算法的分布式版本。
6
数据挖掘的概念辨析
• 和统计相比,数据挖掘倾向于处理大规模数据,并 且其宗旨是减少人工操作。而统计往往有赖于分析 人员手工操作。在统计之前,常常对变量间的关系 做假设;而数据挖掘的重点在于预测的结果,不一 定追究预测的依据。
• 数据挖掘和人工智能、机器学习的重合度非常高。 不过,早先的人工智能侧重于由人工设定规则,而 当今越来越重视从数据中自动获得知识、
– 它把特征维度降低,从而使运算更快。 9
数据挖掘算法分类
• 此处观看案例视频
10
高度重视以下同义词
• 以下术语大致是同一个意思:
• 表格中的行:个案=实例=记录=样本点=数据
点
• 表格中的列:属性=特征=字段=维度=预测变
量=自变量
11
数据准备的重要性
• 没有高质量的数据,就没有高质量的挖掘结果。
• 在线分布式计算
– 可以把一些简单的计算以极快的速度完成。例如,搜索引擎的反 应时间、广告交易平台的更新时间都在0.1秒以内。
– 相关开源技术有Storm、Kafka等。商用方案有IBM的流计算等。
4
大数据架构技术的核心
• 此外,还有一种重要技术,叫内存计算。
– 原理是:在内存里计算比在硬盘里计算快得多。 – 这种技术使用的前提就是内存足够大。商用方案有
数据准备工作占用的时间
往往在60%以上!
12
分类模型的评价
• 模型算法质量的评价是很重要的一部分。对分类模 型和聚类模型的评价方法是不同的。
• 对于分类模型,通常用一些指标来进行模型评价和 选择。通常采用的指标有: ROC曲线、Lift曲线。 其本质都是与预测的准确性有关的。
• 分类模型评价的主要宗旨就是:减少误判(假阳性) 和漏判(假阴性)。
SAP Hana等。 – 它可以和分布式计算结合。例如,开源平台Spark
就采取这种思路。
5
大数据技术中的算法
• 大数据技术中的算法不只是数据挖掘。 • 除了数据挖掘,典型的计算任务还有:
– 搜索引擎中的文本特征提取,即相对词频计算 – 推荐系统中的用户间相似度计算、物品间相似度计
算等
• 不过,数据挖掘无疑是最重要的一大类算法。
– 数据分析:怎样分析这种高维度的数据。非结构化数据 的维度是无止境的,比如百度能分析几十亿维的特征。
3
大数据架构技术的核心
• 主要有两种计算: • 离线分布式计算
– 这种计算能处理海量数据,并运行复杂的算法,其中包括数据挖 掘算法、非结构化数据特征的提取(例如搜索引擎索引的编制)、 推荐算法等。
大数据复习
1
大数据的核心是什么
• 大数据人才可以分为分析人才和架构人才。 • 其中,需求量最大的是分析人才。 • 而分析的核心是数据挖掘。 • 大数据目前的发展重点是怎么对非结构化数据进行
数据挖掘。
– 物联网、智能手机、可穿戴、智能硬件等技术设备将正 在让数据成几何倍数增长。
2
大数据的核心——非结构化数据
• 我们可以对不同的分类算法,设置不同的参数,进 行反复比较,根据在多个效果指标(比如ROC曲 线的AUC值、Lift曲线)上是否有稳定的好的表现, 选择一个最终落地应用的模型。
13
分类的步骤——数据集的划分
• 把过去的数据分成两份,其中一份当做训 练集,另一份当做测试集(用来模拟“未 来的”数据)。通常,我们会将大多数数 据作为训练集(比如80%),而少数数据 作为测试集。
• 历史数据中每行都要有输入数据(输入变 量值)和输出数据(目标变量值)。
14
分类的步骤——模型的训练与使用
• 首先采用训练集进行训练,目的是在已知目标 值的情况下,找出输入变量和目标值之间的关 系,从而得到经过训练的分类模型。
• 我们用这个模型对测试集中的目标变量进行预 测,然后把目标变量的真实值和预测值进行比 较,看看预测精度如何。
• 对于非结构化数据的挖掘,通常需要把非结构化数 据转化成结构化的形式,然后再采用数据挖掘算法。
• 数据挖掘不只是要重视算法,提高数据质量、理解 应用领域也是不可或缺的。
7
数据挖掘的基本流程
31
信息收集
2
数据预处理
3
数据挖掘
4Baidu Nhomakorabea
评估
53
知识表示
8
数据挖掘算法分类
• 有监督学习:分类与回归
– 有标识。 – 通过模仿做出正确分类的已有数据,从而能够对新的数