云实时数据库在用电信息采集系统中的应用_宋振伟
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)曲线数据模型的优化。按照时间对全部曲线数据进行 打包采集,配合开展相关曲线数据模型的调整,可以有效提高曲 线数据的采集效率。尤其是曲线数据采集数据项较多时,效率 的提升尤为明显。曲线数据模型的优化,是将采集系统的曲线 数据模型改为按时间列表存储,加强了曲线数据实时采集业务 的支持,极大地降低了数据库I/O开销。曲线数据实时采集数据 模型设计如表1所示。
行改造完善,解决了现存问题及瓶颈,满足了后期“全覆盖、全 采集、全费控”的需要。
云实 时 数 据库硬件 搭 建 采用云 计 算一 体 机,包 括主 服 务 器、备用服 务 器及 数 据 节点 服 务 器,服 务 器 间 采 用 传 输 速 度 达56Gb/ 秒的万兆交换机进行连接。软件方面采用集群架构 Hadoop,底层数据库采用PI实时数据库,运用流技术数据入库 速度达到420M/秒,极大地提高了数据存储的效率。
查询、统计和分析工作,提高了工作效率。
关键词:云计算;实时数据库;用电信息采集;系统
作者简介:宋振伟(1977-),男,山东招远人,国网山东省电力公司烟台供电公司,助理工程师,山东大学(威海)机电与信息工程学
院硕士研究生。(山东 烟台 264000)
中图分类号:TM76
文献标识码:A
文章编号:1007-0079(2014)09-0263-03
一、建设背景和目标 1.建设背景 目前在用电信息采集系统中,普遍使用Oracle数据库进行数 据存储和查询。但是关系型数据库的特点决定了其在大数据量 的查询和并发入库方面有着天然的缺陷,在效率上远不能满足 人们的要求。在百万级用户并发采集入库时,系统不允许直接写 入数据库,否则容易出现因数据量过大而出现数据库服务死机 的情况。现在只能通过采取源码数据预存到临时文件中,后期 再逐步分批的写入库中。这样的处理方式,就造成了采集数据 的入库延迟,无法实现并满足数据实时监控的目的。 用电信息采集系统每天都会产生大量的采集数据,当时间 积累到一定阶段,数据量会非常庞大。此时从这个大数据中进行 查询或计算时,所耗费的时间会达到几十分钟甚至几个小时。实 际上这种查询过程已经失去了应用的价值,也阻碍了很多工作思 路的实现,失去了实时分析的意义,造成了工作效率低下。 2.建设目标 通过研究云计算技术和实时数据库相结合,优化采集系统 数 据入 库的I / O 效率,对用电信息 采集 系统中的大 数 据 迅 速 并 发采集入库。搭建高可靠性、稳定性并具有良好的线性扩展能 力的云计算平台,全面而有力的支撑电力营销业务的拓展和深 入。全面分析系统针对不同数据存储环境的需求,开发多数据 源之间的多种交互接口,实现云存储环境、实时数据库与关系 型数据库之间的数据交换及共享。研究符合用电信息采集系统 数据特征的流处理技术,建立合理的流处理模型,加强系统平 台的流处理能力,提供增值的数据服务。 二、业务系统技术架构实现 自国家电网公司推出“全覆盖、全采集、全费控”用电信息 采集系统建设目标以来,山东电力集团公司均在市网统一部署 了用电信息采集系统主站,并且进入到全面建设阶段。主站系 统 接 入 覆 盖面越 来 越 广、接 入 的 终端 数 量 和 表 计 数 量 越 来 越 多,系统运行的压力也越来越大,部分地市的用电信息采集系统 开始出现终端即时操作慢、采集成功率不高、接入容量不足、系 统响应速度慢等问题。目前烟台供电公司用电信息采集覆盖率 在38.4%,随着用电信息采集覆盖率的进一步提高,对用电信息 采集系统的容量、性能、压力提出了更大的挑战。为此,烟台供 电公司引进了“云实时数据库技术”,在现有用电采集系统上进
COLL_ANA2
图 4 当前表 - 历史表分离
进行统计分析,此时由于是查询单日数据表,分析速度快,占用 资源少。同时,通 过E T L 将日数 据存入 对应日期的月表中。根 据 实际系统运行情况分析统计,采集主站使用最频繁的数据是最 近2个月的采集数据,而之前的采集数据使用频率极低,按月进 行分表后,查询时的数据检索范围仅在查询数据日期所在月份 的库表中,而不常用的历史数据则不会增加库表数据量而导致 付出巨大的查询与分析代价。
COLL_TABLE2 COLL_TABLE3
月数据表 (所有历史数据)
COLL_TABLE201101
COLL_TABLE201102
……
ETL
……
COLL_TABLE30
COLL_TABLE201112
COLL_TABLE31
日数据表索引
COLL_TABLE_INDEX
ETL
分析汇总数据
COLL_ANA1
264
2014年第9期
1.系统建设内容 (1)生产库和查询库实现分离。由于采集入库和查询应用 对数据库的操作不尽相同,采集入库是对数据的大量写操作, 而查询应用则是大量的读操作和少量的写操作,将两者数据源 分开,可以避免两者的相互影响。同时由于作用不同,两者存储 的数据量也可以进行细分。因此,将主要用于采集数据入库的 采集系统的生产数据库与应用于查询、统计分析、数据交互的 分析历史库分开,保证了生产数据库单一的数据采集入库作用, 不会与主站应用的统计分析、数据查询等操作争夺系统资源。 两个数据库间通过Golden Gate软件进行同步,保证了生产数据 库中的数据实时同步至历史库。综上所述,采集系统数据架构 如图3所示。
4)统一储存管理能力。一是全局空间共享-FlexVol技术; 二是全局I/O性能共享-FlexShare技术。
5)绿色存储。重复数据删除-Dedup技术。 (2)运用合理、高效的检索技术。 1)数据库检索技术。一是顺序检索、倒序检索;二是布尔 逻辑检索;三是字段限定检索;四是聚类检索。 2)全文检索技术。一是截词检索;二是位置检索;三是加 权检索。 3.数据安全 对于元数据,通过操作日志来提供容错功能,当Master发生 故障时,在磁盘数据保存完好的情况下,可以迅速恢复以上元数 据。为了防止Master彻底死机的情况,还提供了Master远程的实 时备份,这样在当前的Master出现故障无法工作时,另外一台备 Master可以迅速接替其工作。对于节点服务器,采用副本的方式 实现容错。每一块有多个存储副本(默认为两个),分布存储在 不同的节点服务器上。系统中的所有服务节点均通过网络连接 在一起,由于采用了高可靠的容错机制,系统增减节点不必停止 服务,可在线增减存储节点,存储节点和元数据节点间通过注册 管理机制自适应管理,实现自动伸缩。 三、系统建设的内容与成效 系统建设概况。硬件搭建采用云计算一体机,主服务器、 备用服 务 器 各1台,数 据节点 服 务 器 6台,服 务 器 间采用 万兆交 换机连接,传速速度达56Gb/秒,降低了服务器间的数据传速瓶 颈。集群架构使用Hadoop架构,底层数据库采用PI实时数据库, 运用流技 术数 据入 库速 度Biblioteka Baidu 到42 0 M / 秒,极大 地 提高了数 据存 储的效率。采用将实时数据库部署于云计算的分布式架构上, 通过云计算的并行分布式计算及多副本技术,实现海量数据的 实时入库、准确高效的检索计算及保证了数据的安全性。实现 了用电信息数据采集、存储、检索和处理分析模型设计,对基于 云计算技术的海量用电数据采集和整合架构的开发,以及可提 升用电数 据 海量 处 理 速 度的云 计 算一 体化平台架 构的实际应 用。建设了基于海量数据处理的分析平台工具,实现了用电数据 智慧引擎和数据挖掘算法库,为电力海量用电数据的统一研究 和应用提供了基础支撑。
总第304期
电力用户用电信息采集 生产数据库 日数据表
COLL_TABLE1 COLL_TABLE2 COLL_TABLE3
…… COLL_TABLE30 COLL_TABLE31
日数据表索引
COLL_TABLE_INDEX
数据复制
电力用户用电信息采集 查询历史数据库
日数据表
COLL_TABLE1
263
对外服务不停止;存储节点采用冗余备份机制,在多个存储节点 情况下,任意损失一个节点,数据不丢失,服务不停止。
图 2 NetApp 存储结构
3)数 据 逻辑保护。采用Net App 存储机制的Snap Shot与 SnapRestore技术。使用这些技术的优势在于:快速备份,秒级完 成;不用拷贝数据;不用预留空间;255份快照而不影响业务性 能;基于恢复点的数据全备;支持卷、目录、文件等模式;每份 快照可以当做一份数据使用。NetApp存储结构如图2所示。
总第304期 DOI编码:10.3969/j.issn.1007-0079.2014.09.128
云实时数据库在用电信息采集系统中的应用
电力技术探讨
宋振伟
摘要:通过对云实时数据库技术在用电信息采集系统中的应用,解决了大量用电信息数据实时并发采集入库的速率、历史大数据的
秒级查询和计算,提高了系统数据的实时性和可用性,满足了用电信息采集系统省级集中模式下的各市、县级操作人员对实时采集数据的
用电信息采集 生产数据库
采集策略数据区
设备档案数据 设备参数数据 采集策略数据 执行任务数据
其他数据
电能信息数据区
电能负荷数据 电能量数据 电能质量数据
工况数据 事件记录 其他数据
数据交互
数据复制
用电信息采集 分析历史数据库
采集策略数据区
设备档案数据 设备参数数据 采集策略数据 执行任务数据
其他数据
统计查询数据 汇总统计数据 综合查询数据
其他数据 其他数据
电能信息数据区
电能负荷数据 电能量数据 电能质量数据
图 3 采集系统数据架构
(2)表分离(当前数据和历史数据的合理划分、存储)。由 于采集系统的主要查询及应用都是针对近期采集的数据,而对 历史数据的查询频度很低,只是偶尔进行查询,如果两者存放 在同 一 张 表 则 令 数 据 量 增 加,数 据 管 理 和 查 询的成 本同步 增 加。为了使生产数据库的数据量最少,减少数据入库时变更索 引消耗的资源,在生产数据库中仅保存近期数据。考虑到采集 设备中的数据保留时长和数据补召要求,在生产数据库中对数 据保存范围做了规定:日数据保留最近15日数据,月数据保留最 近2月数据。由于该库数据量保持稳定,作用单一,在硬件配置 上充分使用了利旧存储设备,以节省设备投入。
电能信息数据区
电能负荷数据 电能量数据 电能质量数据
工况数据 事件记录 其他数据
读取采集数据 发布其他用电信息
数据中心
统计查询数据
汇总统计数据 异常分析数据
数据中心
营销业务应用
设备档案数据 采集任务数据 执行任务数据
营销业务应用数据库
历史数据 历史周期性数据 历史实时数据 历史过程数据 历史档案数据
1.技术架构 云实时数据库的总体架构如图1所示。
图 1 云实时数据库总体架构图 将实时数据库技术与云计算核心技术进行深度融合,通过 服务器集群实现具有规模可扩展、可伸缩、性能高可靠、易维护 的云实时数据库系统。 2.技术性能 (1)使用高性能云储存技术。 1)优化的I /O 管 理。传 统 存 储系统修改 数 据 是 通 过寻址的 方式实现,即通过寻址→更新→返回实现。优化后的I/O机制, 通过写入新数据→返回。优化后的I/O机制的优势是:大大加快 了数据写速度、实现了秒级瞬间数据恢复成为可能、额外空间 占用低于20%;对于纯写入应用情况,额外空间占用为0%。 2)数据物理保护。一是采用高性能的RAID6技术的优势在 于:安全性是普通RAID的2000到40000倍;双校验盘比镜像方 式更可靠、稳定;真正动态扩展;支持全局热备。二是主-主双 控保护。采用双机热备方式,主机故障,备机自动接替其工作,
在分析历史数据库时,保留了所有的采集数据,为了使数据 统计分析查询数据最快,根据数据量及使用频度进行了表结构 调整。同时考虑到该库的负荷较大,在硬件设备的配置上向分 析历史库倾斜,使用了中端存储设备。在国家电网公司规约要求 的基础上可对库表结构进行相应调整,如图4所示。
对于数据量大的表,在生产库中可以考虑建立日数据表,每 张表中仅保留1日的数据,库表索引是最小的,而数据插入产生 的资源消耗也会被降低,保证了数据入库的速度。通过数据复 制软件将 数 据 传 输至 历史分析库后,通 过E T L 工具 将日数 据 表
行改造完善,解决了现存问题及瓶颈,满足了后期“全覆盖、全 采集、全费控”的需要。
云实 时 数 据库硬件 搭 建 采用云 计 算一 体 机,包 括主 服 务 器、备用服 务 器及 数 据 节点 服 务 器,服 务 器 间 采 用 传 输 速 度 达56Gb/ 秒的万兆交换机进行连接。软件方面采用集群架构 Hadoop,底层数据库采用PI实时数据库,运用流技术数据入库 速度达到420M/秒,极大地提高了数据存储的效率。
查询、统计和分析工作,提高了工作效率。
关键词:云计算;实时数据库;用电信息采集;系统
作者简介:宋振伟(1977-),男,山东招远人,国网山东省电力公司烟台供电公司,助理工程师,山东大学(威海)机电与信息工程学
院硕士研究生。(山东 烟台 264000)
中图分类号:TM76
文献标识码:A
文章编号:1007-0079(2014)09-0263-03
一、建设背景和目标 1.建设背景 目前在用电信息采集系统中,普遍使用Oracle数据库进行数 据存储和查询。但是关系型数据库的特点决定了其在大数据量 的查询和并发入库方面有着天然的缺陷,在效率上远不能满足 人们的要求。在百万级用户并发采集入库时,系统不允许直接写 入数据库,否则容易出现因数据量过大而出现数据库服务死机 的情况。现在只能通过采取源码数据预存到临时文件中,后期 再逐步分批的写入库中。这样的处理方式,就造成了采集数据 的入库延迟,无法实现并满足数据实时监控的目的。 用电信息采集系统每天都会产生大量的采集数据,当时间 积累到一定阶段,数据量会非常庞大。此时从这个大数据中进行 查询或计算时,所耗费的时间会达到几十分钟甚至几个小时。实 际上这种查询过程已经失去了应用的价值,也阻碍了很多工作思 路的实现,失去了实时分析的意义,造成了工作效率低下。 2.建设目标 通过研究云计算技术和实时数据库相结合,优化采集系统 数 据入 库的I / O 效率,对用电信息 采集 系统中的大 数 据 迅 速 并 发采集入库。搭建高可靠性、稳定性并具有良好的线性扩展能 力的云计算平台,全面而有力的支撑电力营销业务的拓展和深 入。全面分析系统针对不同数据存储环境的需求,开发多数据 源之间的多种交互接口,实现云存储环境、实时数据库与关系 型数据库之间的数据交换及共享。研究符合用电信息采集系统 数据特征的流处理技术,建立合理的流处理模型,加强系统平 台的流处理能力,提供增值的数据服务。 二、业务系统技术架构实现 自国家电网公司推出“全覆盖、全采集、全费控”用电信息 采集系统建设目标以来,山东电力集团公司均在市网统一部署 了用电信息采集系统主站,并且进入到全面建设阶段。主站系 统 接 入 覆 盖面越 来 越 广、接 入 的 终端 数 量 和 表 计 数 量 越 来 越 多,系统运行的压力也越来越大,部分地市的用电信息采集系统 开始出现终端即时操作慢、采集成功率不高、接入容量不足、系 统响应速度慢等问题。目前烟台供电公司用电信息采集覆盖率 在38.4%,随着用电信息采集覆盖率的进一步提高,对用电信息 采集系统的容量、性能、压力提出了更大的挑战。为此,烟台供 电公司引进了“云实时数据库技术”,在现有用电采集系统上进
COLL_ANA2
图 4 当前表 - 历史表分离
进行统计分析,此时由于是查询单日数据表,分析速度快,占用 资源少。同时,通 过E T L 将日数 据存入 对应日期的月表中。根 据 实际系统运行情况分析统计,采集主站使用最频繁的数据是最 近2个月的采集数据,而之前的采集数据使用频率极低,按月进 行分表后,查询时的数据检索范围仅在查询数据日期所在月份 的库表中,而不常用的历史数据则不会增加库表数据量而导致 付出巨大的查询与分析代价。
COLL_TABLE2 COLL_TABLE3
月数据表 (所有历史数据)
COLL_TABLE201101
COLL_TABLE201102
……
ETL
……
COLL_TABLE30
COLL_TABLE201112
COLL_TABLE31
日数据表索引
COLL_TABLE_INDEX
ETL
分析汇总数据
COLL_ANA1
264
2014年第9期
1.系统建设内容 (1)生产库和查询库实现分离。由于采集入库和查询应用 对数据库的操作不尽相同,采集入库是对数据的大量写操作, 而查询应用则是大量的读操作和少量的写操作,将两者数据源 分开,可以避免两者的相互影响。同时由于作用不同,两者存储 的数据量也可以进行细分。因此,将主要用于采集数据入库的 采集系统的生产数据库与应用于查询、统计分析、数据交互的 分析历史库分开,保证了生产数据库单一的数据采集入库作用, 不会与主站应用的统计分析、数据查询等操作争夺系统资源。 两个数据库间通过Golden Gate软件进行同步,保证了生产数据 库中的数据实时同步至历史库。综上所述,采集系统数据架构 如图3所示。
4)统一储存管理能力。一是全局空间共享-FlexVol技术; 二是全局I/O性能共享-FlexShare技术。
5)绿色存储。重复数据删除-Dedup技术。 (2)运用合理、高效的检索技术。 1)数据库检索技术。一是顺序检索、倒序检索;二是布尔 逻辑检索;三是字段限定检索;四是聚类检索。 2)全文检索技术。一是截词检索;二是位置检索;三是加 权检索。 3.数据安全 对于元数据,通过操作日志来提供容错功能,当Master发生 故障时,在磁盘数据保存完好的情况下,可以迅速恢复以上元数 据。为了防止Master彻底死机的情况,还提供了Master远程的实 时备份,这样在当前的Master出现故障无法工作时,另外一台备 Master可以迅速接替其工作。对于节点服务器,采用副本的方式 实现容错。每一块有多个存储副本(默认为两个),分布存储在 不同的节点服务器上。系统中的所有服务节点均通过网络连接 在一起,由于采用了高可靠的容错机制,系统增减节点不必停止 服务,可在线增减存储节点,存储节点和元数据节点间通过注册 管理机制自适应管理,实现自动伸缩。 三、系统建设的内容与成效 系统建设概况。硬件搭建采用云计算一体机,主服务器、 备用服 务 器 各1台,数 据节点 服 务 器 6台,服 务 器 间采用 万兆交 换机连接,传速速度达56Gb/秒,降低了服务器间的数据传速瓶 颈。集群架构使用Hadoop架构,底层数据库采用PI实时数据库, 运用流技 术数 据入 库速 度Biblioteka Baidu 到42 0 M / 秒,极大 地 提高了数 据存 储的效率。采用将实时数据库部署于云计算的分布式架构上, 通过云计算的并行分布式计算及多副本技术,实现海量数据的 实时入库、准确高效的检索计算及保证了数据的安全性。实现 了用电信息数据采集、存储、检索和处理分析模型设计,对基于 云计算技术的海量用电数据采集和整合架构的开发,以及可提 升用电数 据 海量 处 理 速 度的云 计 算一 体化平台架 构的实际应 用。建设了基于海量数据处理的分析平台工具,实现了用电数据 智慧引擎和数据挖掘算法库,为电力海量用电数据的统一研究 和应用提供了基础支撑。
总第304期
电力用户用电信息采集 生产数据库 日数据表
COLL_TABLE1 COLL_TABLE2 COLL_TABLE3
…… COLL_TABLE30 COLL_TABLE31
日数据表索引
COLL_TABLE_INDEX
数据复制
电力用户用电信息采集 查询历史数据库
日数据表
COLL_TABLE1
263
对外服务不停止;存储节点采用冗余备份机制,在多个存储节点 情况下,任意损失一个节点,数据不丢失,服务不停止。
图 2 NetApp 存储结构
3)数 据 逻辑保护。采用Net App 存储机制的Snap Shot与 SnapRestore技术。使用这些技术的优势在于:快速备份,秒级完 成;不用拷贝数据;不用预留空间;255份快照而不影响业务性 能;基于恢复点的数据全备;支持卷、目录、文件等模式;每份 快照可以当做一份数据使用。NetApp存储结构如图2所示。
总第304期 DOI编码:10.3969/j.issn.1007-0079.2014.09.128
云实时数据库在用电信息采集系统中的应用
电力技术探讨
宋振伟
摘要:通过对云实时数据库技术在用电信息采集系统中的应用,解决了大量用电信息数据实时并发采集入库的速率、历史大数据的
秒级查询和计算,提高了系统数据的实时性和可用性,满足了用电信息采集系统省级集中模式下的各市、县级操作人员对实时采集数据的
用电信息采集 生产数据库
采集策略数据区
设备档案数据 设备参数数据 采集策略数据 执行任务数据
其他数据
电能信息数据区
电能负荷数据 电能量数据 电能质量数据
工况数据 事件记录 其他数据
数据交互
数据复制
用电信息采集 分析历史数据库
采集策略数据区
设备档案数据 设备参数数据 采集策略数据 执行任务数据
其他数据
统计查询数据 汇总统计数据 综合查询数据
其他数据 其他数据
电能信息数据区
电能负荷数据 电能量数据 电能质量数据
图 3 采集系统数据架构
(2)表分离(当前数据和历史数据的合理划分、存储)。由 于采集系统的主要查询及应用都是针对近期采集的数据,而对 历史数据的查询频度很低,只是偶尔进行查询,如果两者存放 在同 一 张 表 则 令 数 据 量 增 加,数 据 管 理 和 查 询的成 本同步 增 加。为了使生产数据库的数据量最少,减少数据入库时变更索 引消耗的资源,在生产数据库中仅保存近期数据。考虑到采集 设备中的数据保留时长和数据补召要求,在生产数据库中对数 据保存范围做了规定:日数据保留最近15日数据,月数据保留最 近2月数据。由于该库数据量保持稳定,作用单一,在硬件配置 上充分使用了利旧存储设备,以节省设备投入。
电能信息数据区
电能负荷数据 电能量数据 电能质量数据
工况数据 事件记录 其他数据
读取采集数据 发布其他用电信息
数据中心
统计查询数据
汇总统计数据 异常分析数据
数据中心
营销业务应用
设备档案数据 采集任务数据 执行任务数据
营销业务应用数据库
历史数据 历史周期性数据 历史实时数据 历史过程数据 历史档案数据
1.技术架构 云实时数据库的总体架构如图1所示。
图 1 云实时数据库总体架构图 将实时数据库技术与云计算核心技术进行深度融合,通过 服务器集群实现具有规模可扩展、可伸缩、性能高可靠、易维护 的云实时数据库系统。 2.技术性能 (1)使用高性能云储存技术。 1)优化的I /O 管 理。传 统 存 储系统修改 数 据 是 通 过寻址的 方式实现,即通过寻址→更新→返回实现。优化后的I/O机制, 通过写入新数据→返回。优化后的I/O机制的优势是:大大加快 了数据写速度、实现了秒级瞬间数据恢复成为可能、额外空间 占用低于20%;对于纯写入应用情况,额外空间占用为0%。 2)数据物理保护。一是采用高性能的RAID6技术的优势在 于:安全性是普通RAID的2000到40000倍;双校验盘比镜像方 式更可靠、稳定;真正动态扩展;支持全局热备。二是主-主双 控保护。采用双机热备方式,主机故障,备机自动接替其工作,
在分析历史数据库时,保留了所有的采集数据,为了使数据 统计分析查询数据最快,根据数据量及使用频度进行了表结构 调整。同时考虑到该库的负荷较大,在硬件设备的配置上向分 析历史库倾斜,使用了中端存储设备。在国家电网公司规约要求 的基础上可对库表结构进行相应调整,如图4所示。
对于数据量大的表,在生产库中可以考虑建立日数据表,每 张表中仅保留1日的数据,库表索引是最小的,而数据插入产生 的资源消耗也会被降低,保证了数据入库的速度。通过数据复 制软件将 数 据 传 输至 历史分析库后,通 过E T L 工具 将日数 据 表