基于数据挖掘的铁路信号设备故障自动诊断分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

【作者简介】孙尉筌(1989耀),男,山东烟台人,工程师,从事交通信息
工程及控制研究。

基于数据挖掘的铁路信号设备故障自动诊断分析
Automatic Fault Diagnosis and Analysis of Railway Signal Equipment
Based on Data Mining
孙尉筌
(中铁第一勘察设计院集团有限公司,西安710043)
SUN Wei-quan
(China Railway First Survey and Design Institute Group Co.Ltd.,Xi ’an 710043,China)
【摘要】在铁路信号系统内,信号设备至关重要,关乎铁路行车安全。

为保证信号设备无风险运转,铁路系统内进行了多样化的安
全监测/监控系统设置,该系统在运行阶段可以时刻生成海量非结构化故障数据,为故障诊断提供充足的信息支持。

因此,论文以铁路信号设备为对象,探究了以数据挖掘为基础的铁路信号设备故障自动诊断方案,希望能为铁路信号设备故障诊断准确度的提升提供一些参考。

【Abstract 】In railway signal system,signal equipment is very important,which is related to railway traffic safety.In order to ensure the risk-free
operation of signal equipment,diversified safety monitoring/monitoring systems are set up in the railway system.Safety monitoring/monitoring system generate massive unstructured fault data at all times during the operation stage,which provides sufficient information support for fault diagnosis.Therefore,taking railway signal equipment as the object,this paper explores the automatic fault diagnosis scheme of railway signal equipment based on datamining,hoping to providesomereferencefor improvingtheaccuracyoffault diagnosisofrailwaysignalequipment.
【关键词】数据挖掘;铁路;信号设备
【Keywords 】datamining;railway;signal equipment
【中图分类号】TP311;U284.92
【文献标志码】A
【文章编号】1007-9467(2021)11-0100-03
【DOI 】10.13616/ki.gcjsysj.2021.11.232
1引言
自“八横八纵”铁路网规划建设提出以来,我国铁路运输事业迈入了蓬勃发展阶段,综合化、网络化、智能化、数字化成为现代铁路运输系统发展的主要方向。

而信号控制系统是现代铁路运输的“中枢神经”,信号设备故障的出现不仅会干扰铁路行车效率,还会对行车安全造成较大的威胁。

加之现有信号报告多以文本形式记录,存储、分析难度较大。

因此,文本以数据挖掘为基础,探讨短时间内辨识铁路信号设备故障特征并自动推敲原因的方案尤为关键。

2基于数据挖掘的故障自诊断整体架构
基于数据挖掘的故障自诊断整体架构主要包括智能诊断层、模型优化层、数据预处理层3个层次。

其中,智能诊断层主要负责根据中间层获得的故障信息进行故障数据的自动查阅,
或根据现有故障现象搜索历史经验,提高故障诊断准确率,具体流程为:待诊断故障数据→集成分类器→轨道电路故障/道岔故障/信号机故障/……;模型优化层为中间层,主要负责利用支持向量机、逻辑回归基分类器随机森林集成分类机,结合参数特点,对预处理后数据进行调优,具体流程为:初始化参数→基分类器/集成分类器→集中学习群(Voting );数据预处理层主要负责铁路信号设备故障文本非结构化数据的预处理。

即抽取文本数据特征并将其转化为计算机可识别、核算的文本向量,从根源上规避样本数据不均衡情况。

具体流程为:原始文本数据→特征向量矩阵→分类标签→不均衡数据处理。

3基于数据挖掘的故障自诊断实现方案
3.1数据采集
铁路信号设备涉及调度指挥系统设备、列控系统设备、联锁系统设备闭塞设备等多种类型。

为保障上述设备无故障运转,铁路内构建了不同类别的监测系统或监控系统,上述系统可以以图形图像、语音、文本形式进行非结构化数据存储[1]。


100
. All Rights Reserved.
日常维护修理阶段,也可以以文本形式进行不同类型信号设备故障现象、原因、处理手段的描述积累。

长期下来,形成了以Excel、Word形式存储的海量故障数据,如事后追踪报告、行车日志等。

在行车记录登记簿、事故故障追踪报告、日志维修台账记录等信号集中监测系统监测的异常数据输出文本采集的同时,还可以进行结构化数据、外部数据的收集。

如设备状态、线路状态、气象局数据、公安局数据等。

3.2信号预处理
由于外界环境的干扰,铁路信号设备状态数据无法保证完全有效,部分无效信息常以噪声形式存在。

基于此,信号预处理的主要目的是将指定无价值符号去除,使文本内仅保留汉字。

进而对文本进行分词并将停用词去除,促使文本最终转化为可输入至算法的向量,为后期文本特征的提取、分类奠定基础[2]。

根据不同语言的文本差异,适用的分词方法也存在一些差异。

对于中文分词,可以将一个汉字序列向单独次切分。

比如,在事先建立的统一词典表内进行分析句子拆分,并将其与词典内的词条进行逐一匹配,在确定二者匹配后结束分词,反之则继续进行拆分。

整个过程中可用的分词工具主要有jieba(Python中文分词组件)分词系统或NLPIR分词系统,后者可以由用户自定义“敏感点”实现自适应分词。

比如,针对铁路信号设备故障进行道岔、红光带、轨道电路、信号机、转辙机等故障词典自定义。

进而采用NLPIR分词系统中的通用词典对事故信号进行分词,获得某故障文本结果为“//8#道岔定位无表示15:46销记原因8#道岔主机动作杆与锁框摩卡别劲……A机系统报警输出未驱动”。

在分词结束后,可以利用Word2vec算法中的Skip-gram 模型进行词向量转化。

即设定输入层为若干个词向量,由输入层到隐层进行上文向量、下文向量相加后获得一个向量,进而经softmax算法输出所获得的向量。

Skip-gram模型可以表示为:
L=
W∈C
∑log P(Context(W)|W)(1)式中,L为输入层词向量;P为隐层词向量;W为词;context(W)为上文向量、下文向量相加;C为窗口长度,具体可看作当前词W(t)的前C个词、后C个词。

通过求解公式(1)的最大值,可以训练词向量。

比如,轨道电路词向量维数为180维,对应词向量为[-0.125621315,0.0152135112,…,0.205121458],将上述词向量纵向累加后可以获得整句话的具体含义。

3.3特征提取
进行特征提取时,可以选择基于统计的常用加权方法——
—TF-IDF法,即假定某词在某一文档中多次出现,且在其他文本中出现概率较小,甚至为0,则可以将这一词汇看作对应文本的关键词,词频TF i,j可表示为:
TF i,j=n i,j
k∑n k,j+1
(2)
式中,n i,j为词w i在文档d i中出现的次数;
k∑n k,j+1为d i全部词出现的次数之和(分母不为0)。

将TF i,j用逆向文档频率IDF i 进行校正后,可以得到d i中w i的权重,即:
W i,j=TF i x IDF i(3)式中,TF i为词频;IDF i为逆向文档频率。

在得到w i的权重后,考虑到各铁路信号设备故障自诊断所面对的特征向量T i,j间存在较大的差异,需要对其进行归一化操作。

同时,设铁路信号设备故障为信号机故障、微机联锁故障、道岔故障、轨道电路故障,取若干组正常数据,按正常状态、故障状态对分析数据进行分组。

分组后按不同故障状态表现取值,将状态对应的幅值划分为多个区段,以幅值最小的区段记录为起始区间,取连续多个区间进行有效点的分布线密度计算[3]。

逐次递增进行下一个区间线密度计算。

最终取线密度最大的区间进行均值计算,获得估算正常值。

同时,选择一个备分析序列数据作为分析目标,将其按状态顺序分组,按状态顺序取一组数据判断是否满足式(4),若满足则进入下一步,反之则为异常数据去除。

则在正常状态下参数错误(E0)、压缩机高压保护故障(E1)、灯箱型元显示错误(E2)、压缩机低压保护故障(E3)分别为0.121、0.232、0.211、0.105时,信号机故障下E0、E1、E2、E3分别为0.072、0.103、0.387、0.168,微机联锁故障下E0、E1、E2、E3分别为0.222、0.255、0.136、0.258,道岔故障下E0、E1、E2、E3分别为0.232、0.289、0.200、0.132,轨道电路故障下E0、E1、E2、E3分别为0.099、0.198、0.152、0.177。

3.4故障分类
故障分类主要是针对故障记录文本内容,利用一个决策函数进行位置文本类别划分。

考虑到经向量化的数据兼具高维度、稀疏特征,首先需要利用基分类器进行处理[4]。

比如,设定向量数据集数量为n,特征维度为m,分类数为c,利用LR 分类器进行统计后可以得到分类结果。

在基分类器处理完毕之后,可以利用以Voting的集成分类器按照分类器错误率均无联系的策略,进行分类操作,以便尽可能选择多样、精确

101
. All Rights Reserved.
类结果,避免分类中位置统计、核算风险的出现。

3.5参数优化
参数优化的主要目的是进行不平衡数据处理,常常用合成少数过采样技术,即SMOTE算法。

在基于SMOTE算法的参数优化过程中,首先需要输入多数类样本集和少数类样本集,以欧式距离D为标准计算样本到少数类样本集的距离[5]。

同时,根据数据集不平衡比例进行采样倍率设置,由欧式距离D选出最近的几个样本作为一个组合,每个组合样本中2个与2个之间随机连线,获得新的少数类样本并加入数据集内,循环后输出新样本集。

上述方法可以满足分布于密集域内样本参数优化要求,而对于分布在稀疏域内的样本点,可以输入多数类样本集、少数类样本集后,设置阈值、采集倍率,进行少数类样本集、多数类样本集以及二者的邻集计算,选取若干个近邻点生成新的样本。

若相邻集中不含少数类样本,则可以直接将其看作噪声去除。

3.6诊断实现
考虑到铁路信号设备故障复杂度较高,且兼具不确定性、可传播性,因此,为了顺利实现参数优化,可以面向故障自动诊断需求,以传统Petri网为基础进行故障自动诊断的Petri有机纯网构建[6]。

即设定面向铁路信号设备故障自动诊断的Petri 十元组为:
移(P,T,F,K,W,α,μ,p)(4)式(4)为基于P/T网的故障自动传播系统。

其中,N是三元组(基网),N=(P,T,F,),T为有限为空的库所集合;F为故障因子数量;P为有限非空的库所集合;W为集合标识,集合的初始标识为1;K为容量函数,K∈{0,1};α为真实度函数值,α∈{0,1},α>0表示事件可信度较大,反之则表示完全不可信;μ、p分别表示在T上的实函数和各有向弧的概率权重函数,前者代表变迁对应故障自动诊断规则的置信度;后者表示经验给定值,p=0表示当前条件下不可发生事件,p=1表示当前条件下的一定发生事件。

4基于数据挖掘的故障自诊断应用效果
4.1验证平台
为确定以数据挖掘为基础的故障自诊断应用效果,选择4核CPU计算机,在32GB的内存中安装Windows2010系统,选择传统支持向量机、数据挖掘2种铁路信号设备诊断方法,在训练样本为400个,测试样本为100个的情况下,将2种方法应用效果进行对比[7]。

4.2应用效果
从铁路信号设备自诊断准确度来看,正常状态下,传统支持向量机诊断准确度为92.00%,基于数据挖掘的故障自诊断准确度为96.00%;故障状态下,传统支持向量机诊断准确度为91.00%~93.00%,基于数据挖掘的故障自诊断准确度为94.00%~97.00%,这主要是由于传统支持向量机在小样本调解下训练参数确定方式为随机,信号设备诊断准确度低于数据挖掘方法。

从铁路信号设备自诊断时间来看,正常状态下,传统支持向量机诊断时间为6.00s,基于数据挖掘的故障自诊断时间为4.80s;故障状态下,传统支持向量机诊断时间为6.00~8.00s,基于数据挖掘的故障自诊断时间为3.80~4.00s,表明基于数据挖掘的铁路信号设备故障自动诊断方法可以有效压缩故障诊断时间,优化铁路信号设备故障诊断效率。

5结语
综上所述,为了顺利发掘文本数据中蕴含的海量高价值故障特征信息,保证信号设备故障报告的使用价值,技术人员可以选择数据挖掘技术,对现有信号设备故障进行汇总剖析,自动分辨识别设备故障报告中特征。

并对现有信号设备故障案例提取高频词汇,以固定故障案例中文分词+形式化自定义规则的形式,进行故障信息提取和原因追溯,为故障处理
与改进决策提供助力。

【参考文献】
[1]吴建军.基于文本挖掘的铁路信号故障分析[J].集成电路应用,2020 (12):34-36.
[2]胡小溪,牛儒,唐涛.基于词项和语义融合的地铁信号设备故障文本预处理[J].铁道学报,2021(2):78-85.
[3]曹中来.基于数据挖掘的变电站监控后台告警信号自动分析[J].中国管理信息化,2017(20):49-50.
[4]李新琴,史天运,李平,等.基于文本的高速铁路信号设备故障知识抽取方法研究[J].铁道学报,2021(3):92-100.
[5]高凡,李樊,张铭,等.基于文本挖掘的高速铁路动车组故障多级分类研究[J].计算机测量与控制,2020(7):59-63.
[6]杨连报,李平,薛蕊,等.基于不平衡文本数据挖掘的铁路信号设备故障智能分类[J].铁道学报,2018(2):59-66.
[7]冯玉伯,丁承君,陈雪.滚动轴承故障检测深度卷积稀疏自动编码器建模研究[J].机械科学与技术,2018(10):156-157.
【收稿日期】2021-06-07
102
. All Rights Reserved.。

相关文档
最新文档