大数据分析工具 rapidminer 操作实践

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据+机器学习
支持向量机 决策树 贝叶斯 关联聚类 深度学习 神经网络
Machine Learning
回归
分布式机器学习
这张大数据领域知识架构网络图中,黄色部分代表着领域的前沿。解读网络图可知, 机器学习在大数据分析领域中的应用,激活了之前几个独立的应用领域,使得大数 据具备了自主学习能力,在预测分析与逆向检验方面取得快速发展。
通过往届球员身体素质样本数据,利用BP人 工神经网络进行大数据分析,在隐藏层中建立 了人类难以直接理解的目标特征属性(这是与 决策树算法中明显的判别标准截然不同的), 来预测一批新球员谁能够成为世界巨星。
BP神经网络的计算过程由正向计算和 反向计算组成。正向传播,输入模式 从输入层经隐藏层逐层处理,传向输 出层,每一层神经元的状态只影响下 一层神经元的状态。如果在输出层不 能得到期望的输出,则转入反向传播, 将误差信号沿原来的连接通路返回, 通过修改各神经元的权值,使得误差 信号最小。
是否周末 是 否 是否有促销 坏 是否有促销 是 高 否 低 好 高 是 天气 坏 低 否 低
决策树是对测试 集目标进行预测 的逻辑判断依据 概率判断结果
天气 好 高
人工神经网络 ANNs
人工神经网络(Artificial Neural Networks,ANNs),是模拟生物神 经网络进行信息处理的一种数学模 型。它以对大脑的生理研究成果为 基础,其目的在于模拟大脑的某些 机理与机制,实现一些特定的功能。
深度学习
深度学习算法计算结果 BP算法计算结果
深层神经网络
BP神经网络 在相同样本训练下,利用深层神经网络来进行 预测相较于BP算法结果存在明显的差异。 将大数据分析与深度学习相结合是时下最热门 的研究主题。
显著性差异
感谢您的聆听
Your opinion is the most valuable asset.
RapidMiner软件介绍
Rapid Miner 是技术性和适用性的完美结合,专业 为最新建立的人性化数据挖掘分析提供服务。通过推拽 算子,设置参数及组合算子,在RapidMiner 中定义分 析流程,可以使各专业技术人员专注于业务而非编程。
内置1500多个专业数据分析流程
强大的视觉化功能
GUI或编程界面
数据访问、准备、清洗
可以自动对数据源中的异常数 据进行分析过滤,防止在数据 分析过程中出现程序性错误
可以调节数据源中数据的类型, 支持多种文字编码格式,有效 防止解码错误。 主动检测BUG,在最大限度上 保证数据源的质量和完整性。
数据清洗。
03
基本大数据分析实战
RapidMiner a Leader in the 2018 The Forrester Wave™: Multimodal Predictive Analytics And Machine Learning Solutions
大数据分析工具--RapidMiner
基于机器学习的大数据分析
Big data analysis frontier sharing
RapidMiner软件介绍
目录
CONTENT S
数据访问、准备、清洗 基本大数据分析实战
RapidMiner+机器学习
01
rapidMiner软件介绍
RapidMiner a Leader in the 2018 The Forrester Wave™: Multimodal Predictive Analytics And Machine Learning Solutions
支持访问各种类型数据库
多模态数据分析预测
深层人工神经网络
高超的建模能力
RapidMiner软件介绍
RapidMiner软件介绍
02
数据访问、准备、清洗
RapidMiner a Leader in the 2018 The Forrester Wave™: Multimodal Predictive Analytics And Machine Learning Solutions
决策树算法
机器学习的训练过 程生成了决策树 决策树算法的通俗理解是: 根据已有的一个训练数据集,通过机器学 习对数据集里的数据进行逻辑联系判断, 生成一个带有复杂判断条件的决策树,当 有新的数据集(测试数据集)需要在某一 标签下进行预测时,软件就调用新的数据 进入决策树中,来进行判断预测。 销售量决策树
利用训练好的模型,可以对测试 数据集中各个个体是否容易罹患 二次心脏病做出基于概率的预测。
预测控制
04
RapidMiner+in the 2018 The Forrester Wave™: Multimodal Predictive Analytics And Machine Learning Solutions
数据访问、准备、清洗
RapidMiner提供了大量数据连接器。 包括60种结构化和非结构化的数据读取。 进一步支持文本,网络和多媒体数据挖掘处理。 支持纯文本,HTML,PDF,RTF,CSV以及更 多非数据库数据。
RapidMiner Cloud提供超大数据分析所需要的计 算能力,为用户的预测分析进行最大支持。 用户可在在云的弹性计算环境中运行大量的任务, 使得本地机器得以释放,任务并行提交给 RAPIDIMSER云。
Linear Discriminant Analysis 线性辨别分析操作符
训练数据集
辨别分析可解决的实际问题: 教练根据体校往届学生的身 体素质条件和他们擅长的运 动项目为新一届体校学员制 定专项训练计划。
测试数据集
逻辑回归分析(预测分析类)
Logistic回归建模步骤繁多且复杂,在本软件 中,已经高度整合在一个算子之中,使用者只 需要调整个别参数即可实现快速建模。
根据挖掘目的设置指标变量 y ; x1 , x 2 ,… x p
列出回归方程
p Ln 0 1 x1 1 p p xp
估计回归系数
逻辑回归分析可解决的实际问题:
模型检验F检验 应用方差分析表对模型检验
回归系数检验t检验 应用参数估计表对回归系数 进行t检验
K-Means 聚类分析
模型
Cluster
聚类分析可解决的实际问题: 1) 如何通过用餐客户的餐饮选择来找到有价值 的客户群和需要关注的客户群? 2) 如何合理对菜品进行分析,以便区分哪些菜 品畅销毛利又高,哪些菜品滞销毛利又低?
分析结果
可视化
辨别分析(预测分析类)
模型应用操作符:将测试数据集 输入进已经训练好的分析模型中。 学 员 姓 名 预 测 结 果
相关文档
最新文档