基于大数据的铁路道岔缺口监测分析研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于大数据的铁路道岔缺口监测分析研究
摘要:当前铁路系统各专业也已经积累了大规模的海量数据,并且还在呈现不
断增长的趋势,但目前还缺乏一种有效手段来对铁路基础设施的健康状态进行统
一管理以及对设备运行过程中所产生的海量数据进行有效的挖掘分析。
本文以道
岔缺口及转辙机设备状态的监测分析为研究重点,全面了解分析了国内外
研宄现状,提出了铁路道岔缺口大数据智能监测分析平台的研宄思路,仅供参考。
关键词:大数据;铁路道岔缺口;监测分析
1大数据概述
大数据迄今并没有公认的定义。
但是同传统数据相比,大数据具有如下 5V 特征:即体
量大 (volume)、速度快(velocity)、模态多(variety)、难辨识(veracity) 和价值大密度低(value)。
相对而言,大数据并不只是在数量上的庞大,更多的是数据类型上的复杂。
大数据是一种思想,是一种挖掘思想,淘金思想,核心并不是拥有数据,而是用数据去做什么,大数据有什
么不重要,怎么用才重要。
大数据的核心价值是预测,本质是基于预测所做出的正确判断。
以往的数据分析是基于精确数据的深度挖掘,大数据则更多是利用已有数据对分析得出某种
趋势。
2道岔缺口大数据智能监测与分析平台设计
2.1大数据采集接入与分布式存储层的设计
(1)数据接入与存储架构设计
本文所提出的大数据监控平台采集接入层的核心需求是满足每个段约 200 个站机,每站
机约 100 个采集分机的传感器数据接入与站机上报图片和视频文件的存储。
根据当前物联网
与大数据技术和具体实际应用需求,分机的传感器与摄像头所采集的监测数据和视频文件,
通过 MQTT 消息机制进行数据接入,认证鉴权、设备管理服务并且通过消息队列服务,将数
据解析并传入大数据分布式数据库。
(2)基于 MATTBroker 的接入机制
在数据采集接入时采用物联网传感器通信标准协议 MQTT 协议可以解决传感器或 Agent
的接入和数据传输的 QoS 保证。
QoS( 服务质量) 指一个网络能够利用各种基础技术,为指定
的网络通信提供更好的服务能力,是网络的一种安全机制,是用来解决网络延迟和阻塞等问
题的一种技术。
所以在本文道岔缺口与转辙机设备监测数据接入时,采用 MQTTBroker 集群
的方式来解决海量设备并发接入和通信的需求。
Broker 集群对外提供服务时需要一个反向代
理服务进行负载均衡,负载均衡建立在现有网络结构之上,它提供了一种廉价有效透明的方
法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。
而为了避免单点故障,又需要对反向代理服务器进行高可用主备部署。
同时为了
保持 Agent 在数据接入时的简单性和集群部署方式对 Agent 的充分透明,需要一个状态监测
服务对主备负载均衡服务进行状态监测、主备切换和统一对外浮动 IP 供Agent 调用。
(3)数据存储场景分析
对于数据的存储,上文介绍过道岔设备传感器数据经由 MQTT 消息协议传输,以及消息
队列服务解析存入 HBase 分布式数据库。
由于HBase 是 NoSQL 数据库,不便于直接进行查询,
在实际应用中需要根据不同场景使用相应数据仓库技术访问 HBase 以完成相应查询。
根据数
据量、交互性、实时性支持以及并发性支持等因素,可以将处理场景分为离线、在线和主题
分析 3 类场景。
例如,在线场景,作为在线分析业务,是实现从WEB 页面对物联网明细层监
测数据的查询功能。
在这里我们可以采用 Phoenix 通过 2 级索引机制,实现对 HBase 上数据
的在线查询,并通过对 SQL 语言的封装,简化对数据的访问,解决HBase 对 SQL 结构化查询
支持不充分的弊端。
Phoenix 是构建的 HBase 之上的 SQL 层,它可以通过标准的 SQL 操作HBase,来实现联机事务处理,拥有低延迟的特点。
Phoenix 会把 SQL 编译成一系列的 HBase
的scan 操作,然后把scan 结果生成标准的JDBC 结果集。
2.2大数据批量处理设计
对于大数据的处理分析层,其批量处理能力也非常重要。
在本文所提出道岔缺口智能监
测与分析平台中,需要进行数据批量处理的情景包括多维数据批量汇总、维表批量更新和机
器学习模型训练预测批量处理等。
数据的批量处理存在一个明显的共同点,它们都需要对数
据进行抽取、转换和加载,也就是 ETL 工作。
而 Kettle 是一款可以管理来自不同数据库的数据,并提供图形化界面的 ETL 工具集,所以本文采用 Kettle 提供的一系列组件来完成各种上
面所说的抽取、转换和加载的工作。
下面将针对每种情况以及相应的设计进行具体介绍。
(1)多维数据批量汇总
作为大数据分析系统的核心数据仓库层,采用星型模式设计,数据呈现为多维数据集格式。
对于多维数据集最核心的需求就是多维度数据的汇总和统计处理,本文采用 Kettle ETL 工具定义 Kettle 下的批处理作业,在本情景下 Kettle 的批处理作业,就是启动执行 Hive 的 Hive QL 语句以实现在缺口监测明细数据上的数据清洗、多维数据聚集处理,并将多维数据查询
结果存入汇总表中。
(2)维度表的批量更新
数据仓库中表的类型可以分为维度表、事实表以及基于上述2 种表生成的宽表和汇总表。
事实表是保存度量值的详细值的表。
事实数据表大多数情况下都有很多行,包含着大量的数
字数据即事实,而且这些数据可以进行统计和汇总。
维度表即为数据分析的窗口,其中涵盖了事实数据表中数据的特性,有些可以对数据进行描述,有些则可以对事实数据表中数据的
汇总形式进行指导,通过这种汇总统计方式用户可以得到更加有效的信息。
所以维度表对于
大数据的处理分析十分关键,当维度表中数据发生变化时,必须保证维度表能够得到快速有效的更新。
(3)机器学习模型训练预测批量处理
在本文所提出道岔缺口智能监测分析具体应用中,对于数据挖掘机器学习模型的训练和
预测不仅有准确率方面的要求,还需要保证训练和预测的实时性。
Kettle 不但支持Map Reduce 作业,还可以通过“Spark Submit”作业项,向Hadoop 集群提交Spark 作业实现训练预
测的批处理。
2.3大数据挖掘层设计
(1)数据特征设计
在机器学习领域,数据和特征决定了学习效果的上限,而模型和算法只是逼近这个上限而己。
我们需要尽可能的从原始数据中提取出最佳特征来保证算法与模型的准确性,所以本
小节将对数据挖掘过程中机器学习算法所使用的数据特征的设计进行介绍。
数据特征的来源
是原始的可获得的数据,而在本文道岔缺口与转辙机监测实际环境中,可直接采集到的数据
包括缺口值大小、道岔工作状态、温湿度数据、油压大小和振动加速度的大小。
经过对实际
采集数据的相关性及采集频度进行了综合的考虑后,本文将使用共 14 维的数据特征。
(2)机器学习算法设计
第一,缺口值预测回归问题。
第一部分是关于缺口值的预测问题,在我们获取了各种传感器监测数据如温湿度、油压、振动等特征后,建立模型对相应条件下的缺口值进行预测,
并与采集的缺口真实值进行比较。
当真实值和预测值差距过大时,可以初步判定道岔转辙机设备可能发生异常,进行告警并提醒工作人员现场查看。
由于缺口值的大小是某一具体数值,所以缺口预测为机器学习中的回归问题。
本文采取几种不同算法模型比较的方法找到最优模型,包括线性回归, Lasso 回归,岭回归,SVR 支持向量回归。
第二,道岔设备健康状态预测。
由于监测数据数据量太大,无法做到全部人工进行标注。
本文采用聚类算法来实现剩余部分
的标注工作,而 K-Means 作为典型的非层次聚类算法,能够通过计算样本数据点到各类簇中
心的距离来对数据进行划分,刚好能够实现这里对于剩余数据自动标注的要求。
在完成了聚类划分得到了剩余数据的标签值之后,将所有数据整合存放到一张全新的数据表中。
3结束语
本文以道岔缺口及转辙机设备状态的监测分析为研究重点,利用物联网相关技术对传感器采集数据进行接入和存储,利用大数据相关技术对监测数据进行处理分析,并利用机器学
习技术对数据中的隐藏信息进行挖掘分析,综合实现了对于铁路道岔缺口的智能监测以及转
辙机设备健康状态的预测分析。
参考文献
[1]王华伟 , 史天运 , 蒋荟 . 铁路运输设备技术状态大数据平台构建方法研宄[J]. 中国铁
路,2018(02).
[2]王华伟 . 铁路运输设备技术状态大数据平台研究 [D]. 北京:中国铁道科学研宄
院,2017:8-15.。