数据挖掘在采矿工程中的应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

*名：***
学号： ********** 班级：10级采矿工程（2）班学院：能源与安全工程学院
关键词：数据挖掘时间序列煤矿安全瓦斯浓度
（一）引言
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，其主要目标是从大型的数据库中挖掘出对用户有价值的模式。

目前数据挖掘研究较多集中在关联规则、聚类分析、时间序列数据挖掘等方向。

（二）国内外煤矿瓦斯数据挖掘现状
早在70 年代，世界主要发达国家陆续在采煤安全方面建立瓦斯监测、监控系统。

这些系统从建立至今，经过不断的改进、升级，使得这些国家的煤矿的百万吨死亡率大大降低。

据统计，美国煤矿百万吨死亡率为0.03，德国煤矿百万吨死亡率为0.04，日本煤矿百万吨死亡率为0.03，等等。

这些系统的成功运作，无不证明计算机技术对于传统采煤业安全生产的革命性突破。

中国矿业大学就煤矿瓦斯突出的现状，利用数据挖掘技术，以历史数据为基础，与数据仓库技术相结合，通过对历史数据的分析和挖掘，找出隐藏在这些数据内部的关系模式2000 年，辽宁工程技术大学几位硕士研究生就此也做了进一步研究。

他们用多传感器数融合方法，对瓦斯、温度、风速等信号数据采样, 提取它们特征量，对数据进行数据融合，实现对矿井瓦斯进行实时监测、预测控制，取得了较好的效果。

但是，对于应用数据挖掘技术则有些不足，他们更多的侧重于硬件设备、系统环境的建设等。

（三）时间序列数据挖掘
时间序列数据挖掘是基于一个或多个时间序列的数据挖掘，它可以从时序中抽取时序内部的规律包括时序的数值、周期、趋势分析和预测等。

时间序列是按照时间顺序取得的一系列观测值[1]，很多数据是以时间序列的形式出现的，如股票市场的每日波动，科学实验，一个工厂装船货物数量的月度序列，公路事故数量的周度序列，化工生产过程按小时观测的产量，又如本文将用到的煤矿瓦斯每日浓度统计数据等等。

总而言之，时间序列典型的一个本质特征就是相邻观测值的依赖性。

时间序列模式的数据挖掘所论及的就是这种依赖性的分析技巧。

在统计学中，时间序列可以建立自回归模型、移动平均模型、自回归移动平均模型
等等。

自回归模型（AR）应用较多的情况是对于经济方面数据的预测，这类数据的特点是在不发生大的经济波动的情况下，数据存在一定的单调性。

移动平均模型（MA）主要用于白噪声曲线的处理。

白噪声过程,通常称谱密度在整个频率轴上为非零常数，且均为零的平稳过程为白噪声过程，简称白噪声。

这种模型多用作对自回归模型的补充和微调。

自回归移动平均模型（ARMA）是结合以上两种数学模型而产生的，它综合了自回归把握曲线大致走向的主要特征，与此同时又以移动平均作为曲线微调的依据，所以从理论的角度，应该选择自回归移动平均模型作为瓦斯浓度时间序列数据挖掘的算法。

（四）时间序列数据挖掘在瓦斯监测中的一个实际应用
一般说来，针对一组为N 的动态数据用ARMA模型去识别和拟合，其全过程通常分为以下几个步骤：
1、动态数据的预处理；
2、模型形式的选择和识别；
3、模型参数的初步估计；
4、模型参数的精细估计；
5、模型阶数的判断；
6、模型的检验和改进。

4.1 动态数据的预处理
ARMA 型描述的数据要满足平稳零均值条件，因此对数据拟合此类模型之前一般需进行平稳化和零均值的处理，这些工作统称为预处理。

本文煤矿瓦斯数据保存在ACCESS 数据库中，
其中瓦斯浓度表的格式包括以下字段：（时间，安装位置，设备，数据，频率值）。

在该表中，时间是按每三秒更新一次，因为是对瓦斯浓度的挖掘，所以只需要保留时间，某一采集点的瓦斯浓度即可。

我们采用sql 语句提取出23 号采集点的时间和瓦斯浓度数据。

其浓度变化可生成图4- 1:由图4- 1 可以发现此时间序列不是平稳时间序列，X 轴代表时间的采集时刻，Y 轴代表瓦斯的浓度（即图中value 曲线）。

可以看出（0~150）时间序列较为平稳，而在（150~330）这一段较长的时间段内浓度波动很大。

图4- 1 煤矿瓦斯浓度
Fig4- 1 the gas thickness of coal mine
4.2 模型形式的选择和设计
根据这一特点，我们采用选择ARIMA（p，d，q）数据模型进行拟合、预测[3]。

做法如下：对时间序列进行平稳性处理，平稳化处理的方法有很多种，最常用的差分包括一阶差分和二阶差分，对于时间序列的差分次数，参数d 通常只取0，1 或2。

模型的识别主要依赖于对相关图与偏相关图的分析。

在对经济时间序列进行分析之前，首先应对样本数据取对数，目的是消除数据中可能存在的异方差，然后分析其相关图，我们在进行完一阶差分后得到的数理统计结果量。

4.3 模型参数的初步评估
模型参数的初步估计具有两个含义和功用，第一，这种估计比较粗糙，只是形式推演和套用公式的结果，估计结果既不依据某种准则，又无极限理论保证。

第二，这种估计结果是作为进一步精细估计的初始起点，即作为进一步迭代时的初值。

常用的初估计有矩法和逆函数法[4][5]，但在实际应用中，我们常绕过初估计阶段，以模型的平稳可逆域内某点作为初始值，直接进入精估计迭代，这种做法基于模型稳定性的理论保证。

4.4 模型参数的精细评估
模型参数的精细估计（简称精估计）通常可依照最小二乘准则或极大似然准则来进行。

并有近似极大似然估计等价于最小平方和估计，这部分内容涉及专门
的计算方法较多，就此省略。

4.5 模型阶数的判断
对模型阶数的判断，我们选用了AIC（赤池信息准则）。

即在一定的阶数范围内，计算各阶数组合的信息量AIC 数值，取其最小值相应的阶数为模型阶数，在此阶数下估计得的模型参数为模型参数的最佳估计值。

这里我们采用：
valuei = 0.06289 + 0.84622*valuei- 1 - 0.12967（valuei- 1- 0.06289）+0.24720*10- 2+ε，其中valuei 是当前时刻的瓦斯浓度，valuei- 1 是以坐标轴最小时刻为单位的前一刻瓦斯浓度，而0.06289+0.84622*valuet-1 是自回归多项式部分，- 0.12967（valuei- 1- 0.06289）+0.24720*10- 2 是移动平均MA 部分，最后ε是残差。

4.6 模型的检验和改进
经过以上五个步骤的处理，我们对动态数据已实现了模型拟合，但数据处理的全过程并非至此为止。

通过对模型特征根和谱密度的结构分析，也许可使模型进一步得以合理的简化；通过对实测数据的拟合相关检验及预报精度的计算，也许可发现模型需要进一步改进或必须采用其他手段进行模拟（例如线性模型对数据并不合适，应实行非线性拟合）。

总之，通过对模型的检验和改进，可望最终获得理想模型。

4.7 时间序列预测
基于上述数学模型对瓦斯浓度的未来变化曲线进行预测：现预测以坐标轴刻度为单位的100 单位内瓦斯浓度数据曲线得：客观的说，应用上述数学模型对未来的瓦斯浓度预测能够取得一定的效果。

经分析，预测曲线与实际浓度曲线的相似度达到了工程和安全的要求，是可以作为煤矿安全生产的参考数据。

（五）结束语
以上简单地介绍了一个时间序列数据挖掘在瓦斯监测中的应用。

经典的时间序列研究已经有二十多年的时间，在建模、预测等方面已经有了相当多的可喜成果。

但随着人工智能、机器学习等学科的发展，在煤科学范畴中对时间序列进行数据挖掘研究还刚刚起步，特别对复杂的数据类型，如煤矿瓦斯数据，针对这方面的数据挖掘的研究和应用会有更大的发展空间。