数据挖掘技术在电力行业中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术在电力行业 中的应用
2
一 功能概述 二 行业应用 三 案例分析 四 服务能力
目录
3
概述
数据挖掘--就是指从大量不完全的、有噪声的、 模糊的、随机的实际应用数据中,提取隐含在 其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。 数据挖掘--是统计学、数据库技术、模式识别、 机器学习、人工智能技术的交叉综合。
历史数据
描述型算法
- 聚类 - 关联
描述现在 已经发生的规律, 刻画数据一般特性
7
数据挖掘之建模技术(续)
, (分类)
--回归、分类、聚类分析、关联、时间序列分析
回归( Regression analysis)
寻找属性(输入变量)与预测目标(输出变量,为连续值)之 间的线性或非线性关系;
分类(classification)
从大量数据中学习(训练)得到对未来数据所属类别的判别准则; 特点:(1)数据的类别(label)已知(人工分析标定);
(2)类别标号为离散数据。
主要的算法
线性/非线性回归算法, 其中非线性回归主要有 人工神经网络回归、支 撑向量机回归等;
KNN算法、决策树分类 (CART、C4.5等)、 SVM算法、贝叶斯分类、 RBF神经网络分类等;
报表
仪表盘/报表
告警
公司经营目标分析 模型
公司管理绩效分析 模型
公司发展能力分析 模型
……
数据挖掘分析 优化分析
商业分析 报表
统计分析 可视化分析
数据集市 ODS (SG-CIM共享库)
示例
聚类分析(Cluster analysis)
“物以类聚,人以群分”,将考察对象按照一定的规则分成 若干类别的方法,实现组内相似性最大化,组间相似性最小化;
关联分析(association analysis)
从数据库中发现属性之间隐含的关联关系、相关性、因果关系;
分割聚类(K-Means 等)、层次聚类(凝聚 型、分裂型)、网格聚 类算法等;
Legend 1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
OLAP 查询报表
OLTP
数据仓库
数据挖掘 (预测型和描述型)
决策支持
知识
挖掘的过程
--业务理解、数据理解、数据准备、模型建立 、模型评估、应用部署
业务理解、数据预处理(数据理
3
解和数据准备)包含60%工作量;
2
4
60
数据挖掘结果主要有以下几种应用方式:
需要不断地提问寻找答案
提升查询速度和匹配度
常规 报表
数据清洗和增强技术
用来回答特定领域发生了 什么,无法制定长期决策
技术
之前
数据质量管理,提高准确 性
VS 之后
1 0
展 现 层
模 型 层
分 析 层
数 据 层
业 务 层
标准 报表
数据挖掘在电力的应用框架
--业务层、数据层、分析层、应用层、展示层
报告
报表
小数定标规范化 零-均值规范化 按平均值平滑
按边界平滑 按中值平滑
5
6
数据挖掘之建模技术
--描述型和预测型
① 预测型数据挖掘 用过去的数据预测未来发生什么;
历史数据
预测型算法
- 分类 - 回归 - 时间序列分析
预测未来 发生的可能性, 进行数据推断和预测
② 描述型数据挖掘 用过去的数据描述现在发生了什么;
数据可以是结构化,如关系数据库中的数据 ;也可以是非结构化的,如文本、图形和图 像数据;
发现知识的方法可以是数学的,也可以是非 数学的;可以是演绎的,也可以是归纳的。
发现的知识可以被用于信息管理,查询优化 ,决策支持和过程控制等,还可以用于数据 自身的维护;
PowerPlay File Edit Data Values Display Text Location 1992 All Products Age groups Revenue($000)
竞可能出现的最好情况是什么?
优化
ห้องสมุดไป่ตู้
争
优 势 接下来会发生什么事情?
预测型 建模
如果这些趋势继续下去 会如何?
预报
为什么会发生?
统计 分析
电网规划优化:不同的规划方案对电网的 影响,得出可靠性、造价、负荷等各类因 素的影响值,确定最佳规划 检修策略:通过状态检修,判断接下来哪 些设备可能发生故障?预测检修策略对设 备绩效、成本等带来的影响 投资计划:进行长短期的项目投资预测、 项目成本预测、项目现金流预测,辅助投 资计划优先级的制定
缺陷管理:一周内各天各区域的故障设备 数量报告
常规
报表
发生了什么事情? 智能程度
财务报表:定时生成,月度/季度财务报 表,告知已经发生的财务情况
8
电力业务分析能力的对比
--数据挖掘应用之前 VS 应用之后
业 务
统筹优化技术
优化
模
型 回归、分类、时间序列分析技 预测型
术
建模
回归、分类、时间序列
预报
考虑资源和需求,优化结 构
Apriori关联算法、FPgrowth关联算法等;
时间序列分析 (Time Series analysis)
时间序列挖掘就是在时间序列数据中挖掘频繁模式、演化规律 ,并对未来的发展趋势进行预测;
AR自回归算法、MA滑动 平均算法、ARMA自回归 滑动平均算法等;
电力业务分析能力的八个级别
--常规报表、即席查询、多维分析、警报、统计分析、 预报、预测型建模、优化
用工配置:根据福利工资、检修成本、能 力、任务要求,配置合适的人员
警报 需要采取什么行动?
多维 分析
问题出现在哪里?
即席 查询
数量、频率、地点如何?
预算超支:当项目决算超出预算目标时, 财务主管和基建主管将收到警报
采购计划:根据供应商信息,对各种类型 的物资库存、需求、周期进行钻取,探查 它们的库存情况以制定采购计划
1
5
(1)增值应用系统、服务、功能模块或
硬件;
6
(2)创新、完善标准、规范或管理制度;
(3)新市场和新业务拓展;
(4)战略级辅助决策4;
数据集成
数据变换
数
据
预
处
理
数据去噪
技
术
数据抽样 数据降维
数据挖掘之数据预处理技术
--数据准备
元数据 冗余数据相关分析
聚集汇总 数据泛化 规范化 属性构造
分箱 聚类 计算机和人工检查 回归 随机抽样 分类抽样 主成分分析
预测分析后进一步解读结 果:考虑对业务影响程度
建模更科学、预报更准确
概率、统计分析
统计 分析
多种手段,不仅仅限于历 史同比、同业对标、汇总
警报
过程控制模型
告知什么时候出了什么问 题
动态设置合理的预警值
多维 分析
关联、分类技术
实现层层钻取,有初步发 现
围绕目的和主题进行分析
即席 查询
数据访问、索引、查询技术
2
一 功能概述 二 行业应用 三 案例分析 四 服务能力
目录
3
概述
数据挖掘--就是指从大量不完全的、有噪声的、 模糊的、随机的实际应用数据中,提取隐含在 其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。 数据挖掘--是统计学、数据库技术、模式识别、 机器学习、人工智能技术的交叉综合。
历史数据
描述型算法
- 聚类 - 关联
描述现在 已经发生的规律, 刻画数据一般特性
7
数据挖掘之建模技术(续)
, (分类)
--回归、分类、聚类分析、关联、时间序列分析
回归( Regression analysis)
寻找属性(输入变量)与预测目标(输出变量,为连续值)之 间的线性或非线性关系;
分类(classification)
从大量数据中学习(训练)得到对未来数据所属类别的判别准则; 特点:(1)数据的类别(label)已知(人工分析标定);
(2)类别标号为离散数据。
主要的算法
线性/非线性回归算法, 其中非线性回归主要有 人工神经网络回归、支 撑向量机回归等;
KNN算法、决策树分类 (CART、C4.5等)、 SVM算法、贝叶斯分类、 RBF神经网络分类等;
报表
仪表盘/报表
告警
公司经营目标分析 模型
公司管理绩效分析 模型
公司发展能力分析 模型
……
数据挖掘分析 优化分析
商业分析 报表
统计分析 可视化分析
数据集市 ODS (SG-CIM共享库)
示例
聚类分析(Cluster analysis)
“物以类聚,人以群分”,将考察对象按照一定的规则分成 若干类别的方法,实现组内相似性最大化,组间相似性最小化;
关联分析(association analysis)
从数据库中发现属性之间隐含的关联关系、相关性、因果关系;
分割聚类(K-Means 等)、层次聚类(凝聚 型、分裂型)、网格聚 类算法等;
Legend 1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
OLAP 查询报表
OLTP
数据仓库
数据挖掘 (预测型和描述型)
决策支持
知识
挖掘的过程
--业务理解、数据理解、数据准备、模型建立 、模型评估、应用部署
业务理解、数据预处理(数据理
3
解和数据准备)包含60%工作量;
2
4
60
数据挖掘结果主要有以下几种应用方式:
需要不断地提问寻找答案
提升查询速度和匹配度
常规 报表
数据清洗和增强技术
用来回答特定领域发生了 什么,无法制定长期决策
技术
之前
数据质量管理,提高准确 性
VS 之后
1 0
展 现 层
模 型 层
分 析 层
数 据 层
业 务 层
标准 报表
数据挖掘在电力的应用框架
--业务层、数据层、分析层、应用层、展示层
报告
报表
小数定标规范化 零-均值规范化 按平均值平滑
按边界平滑 按中值平滑
5
6
数据挖掘之建模技术
--描述型和预测型
① 预测型数据挖掘 用过去的数据预测未来发生什么;
历史数据
预测型算法
- 分类 - 回归 - 时间序列分析
预测未来 发生的可能性, 进行数据推断和预测
② 描述型数据挖掘 用过去的数据描述现在发生了什么;
数据可以是结构化,如关系数据库中的数据 ;也可以是非结构化的,如文本、图形和图 像数据;
发现知识的方法可以是数学的,也可以是非 数学的;可以是演绎的,也可以是归纳的。
发现的知识可以被用于信息管理,查询优化 ,决策支持和过程控制等,还可以用于数据 自身的维护;
PowerPlay File Edit Data Values Display Text Location 1992 All Products Age groups Revenue($000)
竞可能出现的最好情况是什么?
优化
ห้องสมุดไป่ตู้
争
优 势 接下来会发生什么事情?
预测型 建模
如果这些趋势继续下去 会如何?
预报
为什么会发生?
统计 分析
电网规划优化:不同的规划方案对电网的 影响,得出可靠性、造价、负荷等各类因 素的影响值,确定最佳规划 检修策略:通过状态检修,判断接下来哪 些设备可能发生故障?预测检修策略对设 备绩效、成本等带来的影响 投资计划:进行长短期的项目投资预测、 项目成本预测、项目现金流预测,辅助投 资计划优先级的制定
缺陷管理:一周内各天各区域的故障设备 数量报告
常规
报表
发生了什么事情? 智能程度
财务报表:定时生成,月度/季度财务报 表,告知已经发生的财务情况
8
电力业务分析能力的对比
--数据挖掘应用之前 VS 应用之后
业 务
统筹优化技术
优化
模
型 回归、分类、时间序列分析技 预测型
术
建模
回归、分类、时间序列
预报
考虑资源和需求,优化结 构
Apriori关联算法、FPgrowth关联算法等;
时间序列分析 (Time Series analysis)
时间序列挖掘就是在时间序列数据中挖掘频繁模式、演化规律 ,并对未来的发展趋势进行预测;
AR自回归算法、MA滑动 平均算法、ARMA自回归 滑动平均算法等;
电力业务分析能力的八个级别
--常规报表、即席查询、多维分析、警报、统计分析、 预报、预测型建模、优化
用工配置:根据福利工资、检修成本、能 力、任务要求,配置合适的人员
警报 需要采取什么行动?
多维 分析
问题出现在哪里?
即席 查询
数量、频率、地点如何?
预算超支:当项目决算超出预算目标时, 财务主管和基建主管将收到警报
采购计划:根据供应商信息,对各种类型 的物资库存、需求、周期进行钻取,探查 它们的库存情况以制定采购计划
1
5
(1)增值应用系统、服务、功能模块或
硬件;
6
(2)创新、完善标准、规范或管理制度;
(3)新市场和新业务拓展;
(4)战略级辅助决策4;
数据集成
数据变换
数
据
预
处
理
数据去噪
技
术
数据抽样 数据降维
数据挖掘之数据预处理技术
--数据准备
元数据 冗余数据相关分析
聚集汇总 数据泛化 规范化 属性构造
分箱 聚类 计算机和人工检查 回归 随机抽样 分类抽样 主成分分析
预测分析后进一步解读结 果:考虑对业务影响程度
建模更科学、预报更准确
概率、统计分析
统计 分析
多种手段,不仅仅限于历 史同比、同业对标、汇总
警报
过程控制模型
告知什么时候出了什么问 题
动态设置合理的预警值
多维 分析
关联、分类技术
实现层层钻取,有初步发 现
围绕目的和主题进行分析
即席 查询
数据访问、索引、查询技术