数据挖掘在电力上的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
训 练 数 据 集
测 试 数 据 集
2020/9/7
数据挖掘 算法建模
线性回归
神经网络
……
通过数据挖掘找到函数f(x)
Y=f(x1, x2, x3, xn)
通过测试数据集验证f(x)
6
数据挖掘主要技术
数据挖掘算法分类 Aprior
ARMA
时序
MA AR
分类
集成学习 机器学习 Logistic回归
贝叶斯网络
模式,演化规律等,并对未来的发展趋势进 行预测。
2020/9/7
wk.baidu.com
GPS .
股市在将来几天走势如何? 电力负荷在下月的变化趋势? 未来航空货运量的增长率怎样? 实时交通流量变化预测? 在将来一段时间房价走势如何? 下年度中国GDP增长如何? 下月的天气情况怎样? ………
震数分 发据析 生异 进常 行变电 预化离 测,层
从数据库中发现属性之间隐含的关联关系、相关 性、因果关系。
●顾客购买商品时那些经常同时购买? ●用户习惯于同时使用移动公司哪些增值服务? ●哪些故障经常会一起发生? ●哪几种疾病常会相继发生?
●美国麦当劳公司用关联分析方法研究顾客喜好,将
多数顾客喜欢的品种配成套餐,大大增进了销售 额。
●移动公司利用关联规则分析手机用户的习惯,进行
2020/9/7
9
数据挖掘技术-回归
事物之间存在着相互联系,还具有一定的内部规律
• 回归方法
(x1, y1 ), (x2, y2 ),, (xN , yN )
数据(Data)
y f (, x) y f (x)
预测
xi y f (x)
模型(Model)
yi
Residual error
300 200 100
60
数据挖掘的结果主要有以下几种应用方式: (1)增值应用系统、服务、功能模块或硬件 (2)创新、完善标准、规范或管理制度 (3)新市场拓展、新产品研发 (4)战略级辅助决策
5
数据挖掘解决问题的思路
数据挖掘在解决实际问题时经常会把数据拆分为两个数据集:训练数据集、测试数据 集。通过数据挖掘算法对训练数据集进行建模,寻找X和Y之间的数学模型,然后通过测试数 据集来验证该数学模型的准确率,如果误差能够达控制到一定精度,则认为该模型很好的反映 了X和Y的关系,可以用来进行预测和分析。
聚类:
对具有共同趋势或结构的数据进行分 组(数据划分)。将数据项分组成多个类, 类之间的数据差别应尽可能大,类内的数 据差别应尽可能小。即“最小化类间的 相似性, 最大化类内的相似性”。
聚类分析可以建立宏观的概念,发现 数据的分布模式。是知识发现的基础。
聚类分析 Clustering
• 客户细分 • 市场细分
有针对性的业务推荐
● 优惠券的设计,利用关联规则将关联性强的商品
搭配在一起,从而对特定商品促销
典型算法: Aprior算法
2020/9/7
• 市场组合分析 • 套装产品分析 • 广告投放组合 •…
11
数据挖掘技术-时间序列
时间序列挖掘(Time Series Data Mining) 时间序列挖掘就是在时间序列数据中挖掘频繁
0 -100
0
Gaussian kernel Polynomial kernel
100
200
300
400
500
Data series
y 是离散的,如{-1,1},{0,1,2}为分类问题 y 是连续值如温度,速度等为回归问题
2020/9/7
10
数据挖掘技术-关联规则
关联分析(association analysis)
银行根据客户以往贷款记录
情况,将客户分为低风险客 户和高风险客户,学习得到 分类器。对一个新来的申请 者,根据分类器计算风险, 决定接受或拒绝该申请
分析影响变压器正常运行的 因素,预测变压器是否有故 障,若有故障,故障为放电 故障、过热故障、短路故障 等的哪一种。
2020/9/7
8
数据挖掘技术-聚类
Legend 1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
OLAP 查询报表
OLTP
2020/9/7
数据仓库
数据挖掘 (预测型和描述型)
决策支持
知识
3
数据挖掘基本原理
机理模型 基于物理定律、化学公式等基本理 论建立工程问题的数学模型—— 如:万有引力定律,卡门-钱定律 等。
数据挖掘模型 从数据中发现变量之间的函数关 系、规则、模式等。基本原理:把 研究对象作为黑箱,仅研究输入输出关系(反映系统论的观点)。
决策树
关联
FP-Growth 网格聚类
聚类
算法分类
回归
K最近邻 最小二乘回归
支撑向量机回归
2020/9/7
梯度Boosting
层次聚类
L1VR,L1/2VR
7
数据挖掘技术-分类
分类(模式识别):
按照某种指定的属性特征将 数据归类。需要确定类别的概念 描述,并找出类判别准则。
分类是利用训练数据集通过 一定的算法而求得分类规则的。 是模式识别的基础。
2020/9/7
机理不明确 无法建立数学公式
环境因素 地域因素 …
电气参数 运行状态 油气含量
过热
数学
放电
模型
…
数据建模
参考定性原理、 经验,基于数据 建立数学模型
4
数据挖掘过程
业务理解
数据理解
部署应用
数据准备 数据建模
模型评估
2020/9/7
业务理解、数据预处理(数据 理解和数据准备)包含60%工 作量;
从时 而间 对序 地列
12
目录
2020/9/7
数据挖掘基本知识 水电负荷预测 变压器故障诊断 PMS数据挖掘分析 系统运维风险评估
数据可以是结构化,如关系数据库中的数据 ;也可以是非结构化的,如文本、图形和图 像数据;
发现知识的方法可以是数学的,也可以是非 数学的;可以是演绎的,也可以是归纳的。
发现的知识可以被用于信息管理,查询优化 ,决策支持和过程控制等,还可以用于数据 自身的维护;
PowerPlay File Edit Data Values Display Text Location 1992 All Products Age groups Revenue($000)
目录
2020/9/7
数据挖掘基本知识 水电负荷预测 变压器故障诊断 PMS数据挖掘分析 系统运维风险评估
2
数据挖掘定义
数据挖掘--就是指从大量不完全的、有噪声 的、模糊的、随机的实际应用数据中,提取隐 含在其中的、人们事先不知道的、但又是潜在 有用的信息和知识的过程。 数据挖掘--是统计学、数据库技术、模式识 别、机器学习、人工智能技术的交叉综合。