【大数据】电力行业数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 回归方法
(x1, y1 ),(x2, y2 ),, (xN, yN )
数据(Data)
y f (, x) y f (x)
预测
xi y f (x)
模型(Model)
yi
机理模型:在透彻阐述事物变化机理基础上的 建模,模型描述因变量与自变量间相互作用机 理与变化规律 (如变压器故障与油中气体成分 的关系)。 障碍:建模中,近似是必须的(不准确性);太复 杂,无从下手(建不了模)。
震数分 发据析 生异 进常 行变电 预化离 测,层
从时 而间 对序 地列
10
交大美林数据据挖掘平台
Pluto是由西安交大美林数据挖掘研究中心推出的一款通用数据挖掘平台,分析企业各类业 务数据,提取有价值的信息,解决企业最迫切需要解决的业务难题。
产品特色:协作、通用、高效、灵活、可视化
产品特色 团队协同,让成员时刻分享研究成 果 广泛的数据源支持,实现无缝对接 领先的核心算法,让分析如虎添翼 海量数据高效处理 丰富的图形组件,1使1 分析高度可视
机理模型 基于物理定律、化学公式等基本理 论建立工程问题的数学模型—— 如:万有引力定律,卡门-钱定律 等。
数据挖掘模型 从数据中发现变量之间的函数关 系、规则、模式等。基本原理:把 研究对象作为黑箱,仅研究输入输出关系(反映系统论的观点)。
机理不明确 无法建立数学公式
环境因素 地域因素 …
电气参数 运行状态 油气含量
2020/12/2 Wednesday
有利可图和无利可图的客户具有哪些特征? 盗电用户具有哪些共同属性? 具有哪些属性的设备生命周期更长? 哪些人群汽车保险中索赔率较高的? 在卫星图片中发现哪些土地具有相同属性的? 那些区域地震可能性较高?
7
数据挖掘算法——回归
事物之间存在着相互联系,还具有一定的内部规律
●美国麦当劳公司用关联分析方法研究顾 客喜好,将多数顾客喜欢的品种配成 套餐,大大增进了销售额。
●移动公司利用关联规则分析手机用户的 习惯,进行有针对性的业务推荐
● 优惠券的设计,利用关联规则将关联 性强的商品搭配在一起,从而对特定
典商品型促算销法: Aprior算法
• 市场组合分析 • 套装产品分析 • 广告投放组合 •…
6
Βιβλιοθήκη Baidu
数据挖掘算法——聚类分析
1. 聚类分析(Cluster analysis) “物以类聚,人以群分”,聚类分析法
(Cluster analysis)是研究如何将考察 对象按照一定的规则分成若干类别的方 法,它对具有共同趋势或结构的数据进行 分组。 特点:事先并不知所研究对象有多少个 类别,根据对象的特征,由算法确定其 数目。聚类属于无监督学习。 作用:对所研究对象更准确的地分类。 规则: 类与类之间的差别应尽可能大,类 内的差别应尽可能小。即“最小化类间 的相似性, 最大化类内的相似性”。
目录
第一章 数据挖掘基础知识 第二章 电力行业应用案例 第三章 数据挖掘咨询过程
12
变压器故障诊断
计划检修存在的不足 巨大的人力物力消耗 频繁的拆卸造成的新隐
回归
最小二乘回归 支撑向量机回归
网格聚类
聚类
视觉聚类
层次聚类
相关向量机回归
LASSO回归 梯度Boosting
L1VR,L1/2VR
5
数据挖掘算法——关联分析
关联分析(association analysis)
从数据库中发现属性之间隐含的关联关系、相关 性、因果关系。
●顾客购买商品时那些经常同时购买? ●用户习惯于同时使用移动公司哪些增值服务? ●哪些故障经常会一起发生? ●哪几种疾病常会相继发生?
过热
数学
放电
模型
…
数据建模
参考定性原理、 经验,基于数据 建立3数学模型
数据挖掘解决问题的思路
数据挖掘在解决实际问题时经常会把数据拆分为两个数据集:训练数据集、测试数据 集。通过数据挖掘算法对训练数据集进行建模,寻找X和Y之间的数学模型,然后通过测试数 据集来验证该数学模型的准确率,如果误差能够达控制到一定精度,则认为该模型很好的反映 了X和Y的关系,可以用来进行预测和分析。
是
否
是否房主
是
否
有无储蓄帐户
是
否
批准
不批准
批准
9
数据挖掘算法——时间序列
时间序列挖掘(Time Series Data Mining) 时间序列挖掘就是在时间序列数据中挖掘频繁
模式,演化规律等,并对未来的发展趋势进 行预测。
2020/12/2 Wednesday
GPS .
股市在将来几天走势如何? 电力负荷在下月的变化趋势? 未来航空货运量的增长率怎样? 实时交通流量变化预测? 在将来一段时间房价走势如何? 下年度中国GDP增长如何? 下月的天气情况怎样? ………
目录
第一章 数据挖掘基础知识 第二章 电力行业应用案例 第三章 数据挖掘咨询过程
1
数据挖掘定义
数据挖掘( Data Mining,简称:DM ):是从大量的、不完全的、有噪声的、模糊的、随机 的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程。是知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个重要步骤。
●数据建模
x1
y1
y 是离散的,如{-1,1},{0,1,2}为分类问题
x2
黑箱
y2
…
…
y 是连续值如温度,速度等为回归问题
xN
yN
2020/12/2 Wednesday
8
数据挖掘算法——分类
• 问题描述:预测信用水平是好还是差,银行据此决定是 否向客户发放贷款,发放多少
• 结果描述:(决策树)
收入大于5万元/年
广泛应用:需要是发明之母。近年 来,数据挖掘技术在信息产业界得 到了高度的重视和广泛的应用,其 主要原因是存在大量数据,可以广 泛使用,并且迫切需要将这些数据 转换成有用的信息和知识。获取的 信息和知识可以广泛用于各种应 用,包括商务管理,生产控制,市 场分析,工程设计和科学探索等。
2
数据挖掘基本原理
数据挖掘
训
算法建模
通过数据挖掘找到函数f(x)
练 数
线性回归
Y=f(x1, x2, x3, xn)
据
集
神经网络
……
测
试
数
据
集
通过测试数据集验证f(x)
4
数据挖掘算法
数据挖掘算法分类 Aprior
ARMA
时序
MA AR
分类
集成学习 机器学习 Logistic回归
贝叶斯网络
决策树
关联
算法分类
K最近邻
FP-Growth
(x1, y1 ),(x2, y2 ),, (xN, yN )
数据(Data)
y f (, x) y f (x)
预测
xi y f (x)
模型(Model)
yi
机理模型:在透彻阐述事物变化机理基础上的 建模,模型描述因变量与自变量间相互作用机 理与变化规律 (如变压器故障与油中气体成分 的关系)。 障碍:建模中,近似是必须的(不准确性);太复 杂,无从下手(建不了模)。
震数分 发据析 生异 进常 行变电 预化离 测,层
从时 而间 对序 地列
10
交大美林数据据挖掘平台
Pluto是由西安交大美林数据挖掘研究中心推出的一款通用数据挖掘平台,分析企业各类业 务数据,提取有价值的信息,解决企业最迫切需要解决的业务难题。
产品特色:协作、通用、高效、灵活、可视化
产品特色 团队协同,让成员时刻分享研究成 果 广泛的数据源支持,实现无缝对接 领先的核心算法,让分析如虎添翼 海量数据高效处理 丰富的图形组件,1使1 分析高度可视
机理模型 基于物理定律、化学公式等基本理 论建立工程问题的数学模型—— 如:万有引力定律,卡门-钱定律 等。
数据挖掘模型 从数据中发现变量之间的函数关 系、规则、模式等。基本原理:把 研究对象作为黑箱,仅研究输入输出关系(反映系统论的观点)。
机理不明确 无法建立数学公式
环境因素 地域因素 …
电气参数 运行状态 油气含量
2020/12/2 Wednesday
有利可图和无利可图的客户具有哪些特征? 盗电用户具有哪些共同属性? 具有哪些属性的设备生命周期更长? 哪些人群汽车保险中索赔率较高的? 在卫星图片中发现哪些土地具有相同属性的? 那些区域地震可能性较高?
7
数据挖掘算法——回归
事物之间存在着相互联系,还具有一定的内部规律
●美国麦当劳公司用关联分析方法研究顾 客喜好,将多数顾客喜欢的品种配成 套餐,大大增进了销售额。
●移动公司利用关联规则分析手机用户的 习惯,进行有针对性的业务推荐
● 优惠券的设计,利用关联规则将关联 性强的商品搭配在一起,从而对特定
典商品型促算销法: Aprior算法
• 市场组合分析 • 套装产品分析 • 广告投放组合 •…
6
Βιβλιοθήκη Baidu
数据挖掘算法——聚类分析
1. 聚类分析(Cluster analysis) “物以类聚,人以群分”,聚类分析法
(Cluster analysis)是研究如何将考察 对象按照一定的规则分成若干类别的方 法,它对具有共同趋势或结构的数据进行 分组。 特点:事先并不知所研究对象有多少个 类别,根据对象的特征,由算法确定其 数目。聚类属于无监督学习。 作用:对所研究对象更准确的地分类。 规则: 类与类之间的差别应尽可能大,类 内的差别应尽可能小。即“最小化类间 的相似性, 最大化类内的相似性”。
目录
第一章 数据挖掘基础知识 第二章 电力行业应用案例 第三章 数据挖掘咨询过程
12
变压器故障诊断
计划检修存在的不足 巨大的人力物力消耗 频繁的拆卸造成的新隐
回归
最小二乘回归 支撑向量机回归
网格聚类
聚类
视觉聚类
层次聚类
相关向量机回归
LASSO回归 梯度Boosting
L1VR,L1/2VR
5
数据挖掘算法——关联分析
关联分析(association analysis)
从数据库中发现属性之间隐含的关联关系、相关 性、因果关系。
●顾客购买商品时那些经常同时购买? ●用户习惯于同时使用移动公司哪些增值服务? ●哪些故障经常会一起发生? ●哪几种疾病常会相继发生?
过热
数学
放电
模型
…
数据建模
参考定性原理、 经验,基于数据 建立3数学模型
数据挖掘解决问题的思路
数据挖掘在解决实际问题时经常会把数据拆分为两个数据集:训练数据集、测试数据 集。通过数据挖掘算法对训练数据集进行建模,寻找X和Y之间的数学模型,然后通过测试数 据集来验证该数学模型的准确率,如果误差能够达控制到一定精度,则认为该模型很好的反映 了X和Y的关系,可以用来进行预测和分析。
是
否
是否房主
是
否
有无储蓄帐户
是
否
批准
不批准
批准
9
数据挖掘算法——时间序列
时间序列挖掘(Time Series Data Mining) 时间序列挖掘就是在时间序列数据中挖掘频繁
模式,演化规律等,并对未来的发展趋势进 行预测。
2020/12/2 Wednesday
GPS .
股市在将来几天走势如何? 电力负荷在下月的变化趋势? 未来航空货运量的增长率怎样? 实时交通流量变化预测? 在将来一段时间房价走势如何? 下年度中国GDP增长如何? 下月的天气情况怎样? ………
目录
第一章 数据挖掘基础知识 第二章 电力行业应用案例 第三章 数据挖掘咨询过程
1
数据挖掘定义
数据挖掘( Data Mining,简称:DM ):是从大量的、不完全的、有噪声的、模糊的、随机 的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程。是知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个重要步骤。
●数据建模
x1
y1
y 是离散的,如{-1,1},{0,1,2}为分类问题
x2
黑箱
y2
…
…
y 是连续值如温度,速度等为回归问题
xN
yN
2020/12/2 Wednesday
8
数据挖掘算法——分类
• 问题描述:预测信用水平是好还是差,银行据此决定是 否向客户发放贷款,发放多少
• 结果描述:(决策树)
收入大于5万元/年
广泛应用:需要是发明之母。近年 来,数据挖掘技术在信息产业界得 到了高度的重视和广泛的应用,其 主要原因是存在大量数据,可以广 泛使用,并且迫切需要将这些数据 转换成有用的信息和知识。获取的 信息和知识可以广泛用于各种应 用,包括商务管理,生产控制,市 场分析,工程设计和科学探索等。
2
数据挖掘基本原理
数据挖掘
训
算法建模
通过数据挖掘找到函数f(x)
练 数
线性回归
Y=f(x1, x2, x3, xn)
据
集
神经网络
……
测
试
数
据
集
通过测试数据集验证f(x)
4
数据挖掘算法
数据挖掘算法分类 Aprior
ARMA
时序
MA AR
分类
集成学习 机器学习 Logistic回归
贝叶斯网络
决策树
关联
算法分类
K最近邻
FP-Growth