用大数据和AI驱动智能电网
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据常用软件分析工具
• 时空数据分析 • NanoCubes(http://www.nanocubes.net/)。该开源软件
Fra Baidu bibliotek
可在日常的办公电脑上提供对亿级时空数据的快速展示和 多级实时钻取探索分析
适合大数据处理的编程语言
• Python语言——最大的优势是在文本处理以及大数据量处
理场景,且易于开发。在相关分析领域,Python代替R的势 头越来越明显。
大数据常用软件分析工具
• 如今,大数据日益成为研究行业的重要研究目标。面对其
高数据量、多维度与异构化的特点,以及分析方法思路的 扩展,传统统计工具已经难以应对。 • 数据挖掘工具 • SPSS Modeler主要是提供面向商业挖掘的机器学习算法 (决策树、神经元网络、分类、聚类和预测等)的实现。 同时,其数据预处理和结果辅助分析方面也相当方便。
训练模型
预测
优化模型
• 以通过改变隐藏的神经元的数量或增加迭代的数量来完成。
优化我们的模式是一个试错的过程
总结
• 拥有像MapR这样的平台允许这种能力,因为你可以在大型
数据环境中构建,训练,测试和优化你的模型。 • 在这个例子中,我们只使用了10个训练批次。如果我的数 据允许我利用数百批次,而不仅仅是20个时期,我想我一 定能改进这种模式。 • 一旦我做到了,我可以把它打包成一个自动化脚本,在一 个单独的节点,一个GPU节点,一个Docker容器中运行。 这就是在融合数据平台上进行数据科学和深度学习的力量。
AI
• 传统的AI • 决策树、神经元网络、分类、聚类和预测等 • 深度学习(特征的自我学习) • 深度学习(DL)是基于一组算法的机器学习的分支,它通过使用由 多个非线性变换组成的人工神经网络(ANN)架构来尝试对数据进 行高级抽象然后建模。 • DL神经网络之一是循环神经网络(RNN)。RNN是依赖于其输入的 顺序性质的一类神经网络。这样的输入可以是文本,语音,时间序 列,以及序列中的元素的出现取决于在它之前出现的元素。例如, 一句话中的下一个字,如果有人写“杂货”最有可能是“商店”而 不是“学校”。在这种情况下,给定这个序列,RNN可能预测是商 店而不是学校。
• Python 3.5
• TensorFlow 1.0.1
• Red Hat 6.9
利用集群的目的
• 在分布式环境中运行RNN时间序列模型的真正价值是你可
以构建的数据流水线,将聚合的系列数据推送到可以馈送 到TensorFlow计算图中的格式。
生成一些虚拟数据
创建一个将执行计算的TensorFlow图
实现例子
• 使用3个节点的小型MapR群集
• MapR号称下一代Hadoop,使Hadoop变为一个速度更快、可靠性更
高、更易于管理、使用更加方便的分布式计算服务和存储平台,同 时性 能也不断提高。它能够为客户节约一半的硬件资源消耗,使更 多的组织能够利用海量数据分析的力量提高竞争优势。目前有两个 版本,M3和M5,其 中M3是免费的,M5为收费版,有试用期。具体 功能差别见:http://www.mapr.com/products/mapreditions.html。
用大数据和AI驱动智能电网
• 在新时代下,如何利用大数据与人工智能技术,大幅提升
数据效率与业务决策,化数据新技术力为业务新能力,化 业务新能力为商业新物种,成为智能电网在未来生存下去 的关键。
大数据平台搭建
• 三个大数据平台 • Storm • Spark • Hadoop
• 适应场景 • Hadoop适合于离线的批量数据处理适用于对实时性要求极低的场景 • Storm适合于实时流数据处理,实时性方面做得极好 • Spark是内存分布式计算框架,试图吞并Hadoop的Map-Reduce批处理 框架和Storm的流处理框架,现在Spark在批处理方面性能优于MapReduce,但是流处理目前还是弱于Storm,产品仍在改进之中
现有实验环境
• 七月在线https://www.julyedu.com/
• 提供的GPU云服务
大数据常用软件分析工具
• 通用大数据可视化分析 • TableAU
• TableAU的优势主要在于支持多种大数据源/格式,众多的可视化图
表类型,加上拖拽式的使用方式,上手快,非常适合研究员使用, 能够涵盖大部分分析研究的场景。不过要注意,其并不能提供经典 统计和机器学习算法支持,因此其可以替代Excel,但不能代替统计和 数据挖掘软件。
深度学习
• 前身:人工神经网络
深度学习
• 循环神经网络( RNN ) • RNN隐藏层的成长是依赖于先前输入的隐藏状态或记忆,
捕获到目前为止所看到的内容。任何时间点的隐藏状态的 值都是前一时间步骤中的隐藏状态值和当前时间的输入值 进行函数计算的结果。
深度学习框架
• TensorFlow • TensorFlow 是一个采用数据流图(data flow graphs),用于
数值计算的开源软件库。它灵活的架构让你可以在多种平 台上展开计算,例如台式计算机中的一个或多个CPU(或 GPU),服务器,移动设备等等。TensorFlow 最初由 Google大脑小组(隶属于Google机器智能研究机构)的研究 员和工程师们开发出来,用于机器学习和深度神经网络方 面的研究,但这个系统的通用性使其也可广泛用于其他计 算领域。