机器学习方法对砂砾岩岩屑成分的预测——以西北缘X723井百口泉组为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习方法对砂砾岩岩屑成分的预测——以西北缘X723
井百口泉组为例
柴明锐;程丹;张昌民;朱锐;唐勇;瞿建华
【摘要】Taking tuff debris as forecasting object,the logging parameters of CNL,GR,RT,RI and SP sensitive to debris are selected as training objects based on the standardized processing of logging data and the correlation analysis of glutenite reservoir sheet identification results with the logging data,the models for the prediction of debris were established respectively by using the machine learning methods of SVM,BP neural
network,CART,BP neural network-Bagging,CART-Bagging,random forest,the debris composition of the Baikouquan formation of well X723 in the NW margin of Junggar Basin was predicted,and the prediction results obtained by different machine learning methods were compared and analyzed.It is shown that the prediction result of single machine learning method is poor,and the combinatorial learning method such as the BP neural network-Bagging and random forest,especially the random forest learning method is of the best prediction effect,the absolute value of its average relative error is 17.17%,which proves that the machine learning method is effective in predicting debris composition in this work area and can be generalized.%选择凝灰岩岩屑作为预测对象,对测井数据进行标准化处理,对砂砾岩储层薄片鉴定结果和测井数据进行相关性分析,优选对岩屑敏感的CNL、GR、RT、RI、SP测井参数作为训练学习的对象;分别利用SVM、BP神经网络、CART、BP神经网络-Bagging、CART-Bagging、随机森林等机器学习方法建立
岩屑预测模型,对西北缘X723井百口泉组岩屑成分进行预测、对比和分析.结果表明:单个机器学习方法预测效果不佳,而经集成学习方法优化的BP神经网络-Bagging、随机森林取得较好的实验结果,尤其是随机森林的预测效果最好,平均相对误差绝对值为17.17%,证实机器学习方法在本工区预测岩屑成分是有效的,可以进行推广.
【期刊名称】《西安石油大学学报(自然科学版)》
【年(卷),期】2017(032)005
【总页数】8页(P22-28,61)
【关键词】岩屑成分预测;砂砾岩;机器学习;百口泉组
【作者】柴明锐;程丹;张昌民;朱锐;唐勇;瞿建华
【作者单位】长江大学地球科学学院,湖北武汉430100;长江大学地球科学学院,湖北武汉430100;长江大学地球科学学院,湖北武汉430100;长江大学地球科学学院,湖北武汉430100;中国石油新疆油田公司勘探开发研究院,新疆克拉玛依834000;中国石油新疆油田公司勘探开发研究院,新疆克拉玛依834000
【正文语种】中文
【中图分类】TE122
柴明锐,程丹,张昌民,等.机器学习方法对砂砾岩岩屑成分的预测:以西北缘
X723井百口泉组为例[J].西安石油大学学报(自然科学版),2017,32(5):22-28,61.
CHAI Mingrui,CHENG Dan,ZHANG Changmin,et al.Prediction of debris composition in glutenite by machine learning method:a case study in
Baikouquan Formation of well X723 in the NW margin of Junggar Basin [J].Journal of Xi'an Shiyou University (Natural Science
Edition),2017,32(5):22-28,61.
近年来,随着油气资源战略的需要以及勘探开发技术的进步,致密砂砾岩储层受到越来越多的关注。

砂砾岩储层具有非均质性强、横向变化快、类型复杂等特点,如何优选砂砾岩“甜点”一直是砂砾岩储层研究的重点和难点。

勘探实践表明,岩屑成分是砂砾岩储层评价的重要参数[1-2],如何准确确定岩屑成分是砂砾岩“甜点”预测的重要问题。

但由于石油行业中分析化验数据成本高,得到的岩屑成分数据量十分有限,在一定程度上限制了砂砾岩油藏的进一步勘探,急需寻找一种有效的岩屑成分预测方法。

机器学习方法是统计学、凸分析、逼近论等多学科发展起来的数据挖掘方法,可以对未知情况作出有效预测,实用性强,在各行各业中应用广泛,但在石油地质方面的应用尚处于初始阶段,主要应用于岩性、孔隙流体以及储层物性识别等方面 [3-6]。

机器学习方法在石油地质领域中的应用很大程度上是成功的,但也有以下不足:在实际应用中过多强调了优化算法的重要性,却忽略了输入变量的选择,无论算法多么优越,若引入与预测目标相关性不强的变量,势必会对预测结果产生巨大的影响;由于数据特征千差万别,单一算法再好,也无法适用于所有的预测问题;集成学习作为当前机器学习的四大研究之首,对提高弱学习器的泛化能力非常有效,广泛受到国际机器学习界的重视,但在石油地质领域中的应用较少,尚没有机器学习方法应用于岩屑成分预测的报道。

因此,本次拟采用机器学习方法来研究致密砂砾岩储层岩屑成分的预测问题。

主要是利用SVM、BP神经网络、CART、BP神经网络-Bagging、CART-Bagging、
随机森林建立岩屑成分预测模型,并比较各模型预测精度及泛化能力,优选效果最好的模型,以期为砂砾岩岩屑成分的预测提供借鉴。

测井资料不仅记录了地质事件的特征,同样记录了岩屑、矿物的特征。

致密砂砾岩储层中,岩屑成分含量高且不同岩屑的理化特性存在差异,其对测井响应的影响不容小视,即砂砾岩因具有不同的岩屑成分而显示不同的测井响应特征,如周俊林[7]研究乌36井区发现,砂砾岩因普遍含有凝灰岩岩屑而具有自然伽马异常高的特点;李浩[8]在元坝6井发现钙屑砂岩的普通电阻率测井响应普遍显示低值等。

上述研
究说明,测井对砂砾岩岩屑成分的响应是敏感的,表明可以利用测井响应特征来预测岩屑成分。

测井数据和岩屑成分存在复杂的非线性关系,常用的多元线性回归等统计方法已经无法适用。

机器学习方法是一种有效的数据挖掘技术,其研究重点是针对特定类型的数据进行学习和推理,基本思想是基于大量数据,通过计算机模拟人的学习行为,发现蕴含的规律,从而利用新的数据对未来作预测[9-11]。

鉴于机器学习方法具有强大的非线性映射能力,在数据挖掘方面优势明显,可以利用该技术来预测岩屑成分。

岩屑成分的预测包括两个方面:一是预测岩屑的种类;二是预测某种岩屑的含量。

岩屑种类繁多,如果预测每种岩屑成分,不仅工作量巨大,而且部分岩屑含量较低,对储层影响不显著,测井响应对其也不敏感,预测意义不大,因此,要选择重要类型的岩屑进行预测。

为了有效预测砂砾岩岩屑成分,首先要对测井数据进行标准化处理,消除数据间量纲上的差异;其次,对岩屑和测井数据进行相关性分析,优选对岩屑成分敏感的测井曲线;最后,利用多种算法建立预测模型,并进行误差分析,选择最有效的算法,这样才能获得最有效的岩屑预测模型。

西北缘地区位于准噶尔盆地西北部,北接乌夏断裂带,南邻玛北油田,西连克白断裂带,东入玛湖凹陷,X723井区位于西北缘北东方向(图1)。

该区百口泉组为近
源快速堆积的产物,以扇三角洲沉积为主,属于典型的致密砂砾岩储层,近年获得重大突破[12-13]。

研究区储层碎屑组分中岩屑占绝对优势,成分复杂,对储层影
响显著[1,14],如何有效预测岩屑成分对储层评价非常重要。

研究区储层碎屑颗粒
组分中,凝灰岩岩屑含量高(平均体积分数高达48.28%),对测井响应影响敏感,又由于研究区经历强烈的压实作用,凝灰岩会发生塑性形变,容易堵塞孔隙[1],凝灰岩岩屑合理低可以被视为评价有利储层的指标,具有预测意义。

因此,本次以X723井百口泉组为例,选取凝灰岩岩屑作为预测对象,结合薄片鉴定结果(共79个,来自新疆油田)和普通测井数据,建立岩屑预测的机器学习模型,研究致密砂砾岩岩屑测井预测的方法及其应用。

2.1 测井数据标准化
常规测井数据之间的量纲不同,为了消除数据间量纲不同对分析结果可靠性造成的影响,需要对原始数据进行标准化处理。

数据标准化的方法有多种,鉴于Z-Score 标准化适用于数据最大、最小值未知的情况,应用最为广泛,因此,笔者采用Z-Score标准化对测井数据进行处理(式1),
Zx=(x-σ)/μ。

式中:Zx为经标准化计算后的测井数据,x为原始测井数据,μ为各测井数据的均值,σ为各测井数据的标准差。

2.2 优选变量
变量的优选是提高模型运算效率、预测精度的关键。

无论算法多么优越,与预测目标相关性不好的变量的引入,会由于误差叠加的放大效应,对预测结果产生巨大的影响;就凝灰岩岩屑的预测而言,不同的测井曲线对其敏感性不同,过多变量的输入,容易引起模型收敛性变差、过渡拟合等问题,无法建立准确的岩屑成分预测模型。

相关性分析是通过一定的指标来分析变量之间相关程度的强弱,可用来探索对预测目标敏感的测井响应数据。

因此,对凝灰岩岩屑和测井数据进行相关性分析,相关性度量方法采用pearson相关系数法,即
r= 。

式中:r为相关系数;xi、yi是2个变量样本数据;分别为xi、yi的均值。

计算结果表明,CNL、GR、RT、RI、SP与凝灰岩岩屑数据相关性较好,相关系
数分别是0.256、-0.171、-0.195、-0.198、0.182,其他测井曲线与凝灰岩岩屑
的相关性绝对值均小于0.150,相关性较差。

表明CNL、GR、RT、RI、SP对凝
灰岩岩屑响应敏感,可作为本次机器学习模型的输入变量。

2.3 建模及误差分析
机器学习方法众多,数据特征千差万别,即使再好的算法也无法适用于所有的预测问题,因此,需要进行多算法建模并优选算法。

岩屑成分的预测本质上属于非线性回归问题,机器学习方法中,支持向量机(SVM)、BP神经网络和CART解决这种
问题最有效。

支持向量机(SVM)是基于统计学习理论的结构风险最小化原则的机器学习模型。

其理论基础完善、能够得到全局最优解、可避免局部最小和过学习现象的出现,在解决小样本、非线性以及高维识别问题方面的优势明显,但易受核函数、自身参数的影响,而且当样本数量较多时,其过多的约束条件会导致内存需求和训练时间大增[11]。

BP神经网络是基于统计学习理论的经验风险最小化原则的机器学习模型,
具有较强的学习能力、容错能力,在处理高度复杂的非线性映射问题时有显著优势,但其网络结构难以确定、收敛速度较慢,易产生局部收敛现象,难以得到全局最优解,另外,当样本数量较少时,常会过度拟合,导致较多的异常点进入模型,进而失去实际推广应用的价值[11]。

分类回归树(CART)是基于最小Gini指标方法对树
中非叶子节点进行二叉分割,可以解决分类和回归问题。

与其他智能算法相比,省去了复杂的数学模型拟合和计算,从而大幅提高了建模效率,而且其具有高效性、易用性和较强的鲁棒性,但也有局限性,决策树的错判率会随着参与决策的节点或变量的增加而上升;“树”往往过于庞大,不易理解;剪枝过程中,剪枝率不好控制,容易引起过拟合或欠拟合[11]。

这些方法在解决非线性回归问题时具有各自的优势,但仍然存在着泛化能力不足、
预测精度提高困难的问题。

集成学习(Ensemble Learning)方法是提高单个学习器预测结果准确性、稳定性最有效的技术,在国际机器学习领域受到越来越多的重视。

其原理是以弱学习器作为基学习器,通过处理样本数据、扰动属性等方法,建立多个弱学习器,对预测结果采取投票、平均值等方法,从而达到“三个臭皮匠,赛过诸葛亮”的效果[15]。

集成学习方法主要包括Bagging、Boosting和随机森林3个技术。

Bagging(Bootstrap Aggregating)旨在对原始数据集进行多次Bootstrap抽样,形成多个与训练集同规模但各不相同的采样集,保证了训练样本的随机性、差异性,再利用采样集训练出多个基学习器。

通过该方法,可以减少弱学习器的不稳定性,提升模型的总体性能。

与Boosting相比,Bagging算法具备并行训练的特点,节省训练时间;采样集的选择是随机的、相互独立的,从而保证基学习器的多样性。

该方法抗噪性好,而Boosting算法极易受到噪声的影响。

随机森林(Random Forest)是Bagging的一个扩展变体,在原有Bootstrap抽样的基础上,进一步在决策树的训练过程中引入随机属性选择,从而使机器学习能力因个体间差异度的增加而大幅提升[16]。

该方法具有良好的鲁棒性、稳定性、并行性和可扩展性,可有效地避免过度拟合现象,已在很多领域中展现出强大的学习性能,被誉为“代表集成学习技术水平的方法”。

鉴于SVM、BP神经网络和CART可以有效地解决非线性回归问题,Bagging、
随机森林有助于提升弱学习器的泛化能力,因此,采用这些机器学习方法建立预测模型。

考虑到研究样本量较少,属于小样本预测问题,BP神经网络和CART相对于SVM学习能力较弱,适合利用集成算法优化。

综合以上分析,建立凝灰岩岩屑机器学习预测模型,建模流程如图2所示。

采集
测井和薄片鉴定数据,共79个数据点;对测井数据进行标准化处理,消除数据间量纲上的差异;对测井数据和薄片鉴定数据进行相关性分析,优选对凝灰岩岩屑敏
感的CNL、GR、RT、RI、SP测井曲线;将样本数据进行分区处理,随机选取66个样本数据作为训练集,剩下13个样本数据作为测试集;利用SVM、BP神经网络-Bagging、CART-Bagging、随机森林(基学习器为CART)建立岩屑预测模型,同时建立BP神经网络和CART模型作为对比,各个模型主要参数设置见表1;对各个学习器的泛化能力进行误差分析,选择最有效的模型。

图5和图6分别给出单个机器学习方法和集成学习方法预测结果的误差,可以很
好地反映模型预测结果平均相对误差绝对值的离散程度,即模型预测结果的稳定性。

由图可观察到,单个机器学习模型的平均相对误差绝对值变化较大,说明预测结果准确性波动大、稳定性差;经集成方法优化后,随机森林和BP神经网络-Bagging的平均相对误差绝对值变化得到了一定程度的降低,说明预测结果稳定
性较好,而CART-Bagging平均相对误差绝对值变化较大,预测结果稳定性依旧较差。

图3和图4分别给出了单个机器学习方法和集成学习方法对凝灰岩岩屑成分的预
测结果。

单个机器学习模型中,SVM预测结果和实际值拟合最好,BP神经网络拟合较差,CART显示的预测结果都是52%,在图中呈直线型,说明该模型预测失效,无法反映不同深度下凝灰岩岩屑成分变化的多样性。

相比之下,单个机器学习模型经集成方法优化后,与实际值的拟合效果都有了一定程度的提高。

随机森林和实际值的拟合效果最好,最能反映凝灰岩含量的真实情况;BP神经网络-Bagging 相对于单个BP神经网络的预测效果得到大幅提升,与SVM的拟合效果相当;同时,CART-Bagging的预测结果也得到很大提升,不再是单一直线型,而是更接
近实际情况的折线形,但依旧和实际值存在较大偏差。

表2列出各个凝灰岩岩屑预测模型的预测精度。

单一模型中,SVM的预测精度最好,平均相对误差绝对值不到20%,而BP神经网络、CART的预测精度较差,
平均相对误差都超过了20%。

经过集成算法优化后,除了CART-Bagging预测精度依旧较差外,BP神经网络-Bagging和随机森林都得到了大幅的提升。

其中,
随机森林预测精度最高,平均相对误差为17.17%;其次是BP神经网络-Bagging,预测精度超过了SVM。

综合上述分析,认为随机森林为最优模型,其次是BP神
经网络-Bagging和SVM,BP神经网络、CART-Bagging和CART表现都较差。

研究样本共79个,其中,训练集样本为66个,属于小样本预测问题;其次,不
同深度下岩屑成分易受取样点、人为因素等影响,存在一定的噪声,而且岩屑成分和测井曲线存在复杂的非线性关系。

因此,岩屑成分的预测本质上属于含噪声的小样本复杂非线性回归问题。

SVM是基于结构风险最小化原则,易于解决小样本预测问题,在本次实验分析中
具有较好的表现,但是平均相对误差绝对值波动性大,稳定性不足。

BP神经网络
是基于经验风险最小化原则,在小样本预测问题中容易导致过度拟合,泛化能力不足,在本次实验分析中表现一般。

CART是基于最小Gini指数进行决策树的分割,同样不易解决小样本预测问题,在本次实验分析中表现较差。

单个学习器整体表现效果不佳,其原因在于:虽然单个学习器在设计时已经考虑了噪声处理问题,比如SVM的惩罚因子C、神经网络的提前中止学习、决策树的剪枝策略,但是在小样
本训练过程中,噪声数据依旧会对模型存在较大影响;同时,单个学习器易受方差和偏差的影响。

集成学习方法在处理含噪声、小样本预测问题方面优势明显,同时具有较强的稳定性,比如BP神经网络-Bagging、随机森林在本次实验中取得良
好效果。

其原因如下:Bootstrap能放回随机采样策略,形成多个相互独立的样本集,在一定程度上缓解了样本不足的问题;多个相互独立基学习器的建立,可以有效避免单个学习器受方差、偏差的影响,提高模型的准确性和稳定性,避免过度拟合;决策树在建立过程中会根据每维特征对预测结果的影响程度进行排序,从而丧失了多样性,随机森林在Bagging取样策略的基础上,同时通过扰动属性,使决
策树(基学习器)之间的差异性大幅增加,具有更强的鲁棒性、稳定性和可扩展性,在本次研究中性能表现最好。

本次实验也发现,CART-Baggging表现较差,表明集成方法不一定总能大幅提高单个学习器的泛化能力。

集成学习方法提高泛化能力的关键取决于各个基学习器的性能及差异性,各个基学习器性能好、差异性大,集成学习方法才能有效提高泛化能力。

CART-Baggging不能很好地提升泛化能力的主要原因在于大部分基学习器性能不佳。

随机森林通过抽样、扰动属性等技术,建立上百个基学习器,在大幅提升各个基学习器差异性的同时,也弱化了部分基学习器性能不佳的影响,从而取得较好的性能。

如何有效剔除性能较差的基学习器,挑选性能好、差异大的基学习器进行集成,更大幅度地提高泛化能力,需要进一步深入研究。

(1)基于测井资料的机器学习方法可以较好地分析岩屑成分,这为砂砾岩岩屑成分的预测提供了一条有效的途径。

(2)机器学习方法在建立岩屑预测模型时,需要进行测井数据标准化处理、变量优选、多算法结合,才能得到有效的结果。

(3)岩屑成分的预测本质上属于含噪声的小样本复杂非线性回归问题。

比较各个算法在解决此问题时的预测精度及稳定性,发现并剔除表现不佳的单个学习器,集成性能优的学习器,取得较好的预测效果,尤其随机森林表现最好,可以进行推广。

【相关文献】
[1] 张顺存,蒋欢,张磊,等.准噶尔盆地玛北地区三叠系百口泉组优质储层成因分析[J].沉积学报,2014,32(6):1171-1180. ZHANG Shuncun,JIANG Huan,ZHANG Lei,et al.Genetic analysis of the high quality reservoir of Triassic Baikouquan Formation in Mabei Region,Junggar Basin[J].Acta Sedimentologica Sinica,2014,32(6):1171-1180.
[2] 单祥,陈能贵,郭华军,等.基于岩石物理相的砂砾岩储层分类评价:以准噶尔盆地玛131井区块百二段为例[J].沉积学报,2016,34(1):149-157. SHAN Xiang,CHEN Nenggui,GUO Huajun,et al.Reservoir evaluation of sand-conglomerate reservoir based on peteophysical facies:a
case study on Bai 2 reservoir in the Ma131 region,Junggar Basin[J].Acta Sedimentologica Sinica,2016,34(1):149-157.
[3] SHI Ning,LI Hongqi,LUO Weiping.Data mining and well logging interpretation application to a conglomerate reservoir[J].Applied Geophysics,2015,12(2):263-272.
[4] 李洪奇,郭海峰,郭海敏,等.复杂储层测井评价数据挖掘方法研究[J].石油学
报,2009,30(4):542-549. LI Hongqi,GUO Haifeng,GUO Haimin,et al.An approach of data mining for evaluation of complex formation using well logs[J].Acta Petrolei
Sinica,2009,30(4):542-549.
[5] 石广仁.数据挖掘在石油勘探数据库中的应用前景[J].中国石油勘探,2009(1):60-64. SHI Guangren.Prospect of the application of data mining in petroleum exploration databases[J].China Petroleum Exploration,2009(1):60-64.
[6] 谭锋奇,李洪奇,孟照旭,等.数据挖掘方法在石油勘探开发中的应用研究[J].石油地球物理勘探,2010,45(1):85-91.
[7] 周俊林,王仲军,丁超,等.准噶尔盆地乌尔禾油田高自然伽马砂砾岩特征及其沉积微相研究:以乌36井区百口泉组为例[J].沉积学报,2014,32(4):734-743. ZHOU Junlin,WANG Zhongjun,DING Chao,et al.High GR glutinite feature and micro-sedimentary facies in Wuerhe oil-field,Junggar Basin:taking the Baikouquan Group in Wu 36 Area as an example[J].Acta Sedimentologica Sinica,2014,32(4):734-743.
[8] 李浩,刘双莲.测井曲线地质含义解析[M].北京:中国石化出版社,2015.
[9] LUCK M.Elements of machine learning,Pat Langley[J].Journal of Logic,Language and Information,1998,7(1):103-105.
[10] MITCHELL Tomm,曾华军,张银奎.机器学习[M].北京:机械工业出版社,2003.
[11] 周志华.机器学习[M].北京:清华大学出版社,2016.
[12] 于兴河,瞿建华,谭程鹏,等.玛湖凹陷百口泉组扇三角洲砾岩岩相及成因模式[J].新疆油地质,2014,35(6):619-627. YU Xinghe,QU Jianhua,TAN Chengpeng,et al.Conglomerate lithofacies and origin models of fan deltas of Baikouquan Formation in Mahu Sag,Junggar Basin[J].Xinjiang Petroleum Geology,2014,35(6):619-627.
[13] 唐勇,徐洋,瞿建华,等.玛湖凹陷百口泉组扇三角洲群特征及分布[J].新疆石油地
质,2014,35(6):628-635. TANG Yong,XU Yang,QU Jianhua,et al.Fan-delta group characteristics and its distribution of the Triassic Baikouquan Reservoirs in Mahu Sag of Junggar Basin[J].Xinjiang Petroleum Geology,2014,35(6):628-635.
[14] 孟祥超,陈能贵,王海明,等.砂砾岩沉积特征分析及有利储集相带确定:以玛北斜坡区百口泉组为例[J].沉积学报,2015,33(6):1235-1246. MENG Xiangchao,CHEN Nenggui,WANG Haiming,et al.Sedimentary characteristics of glutenite and its favourable accumulation facies:a case study from T1b,Mabei Slope,Junggar Basin[J].Acta Sedimentologica Sinica,2015,33(6):1235-1246.
[15] LAPPALAINEN H,MISKIN J W.Ensemble Learning[M].Springer London,2000:75-92.
[16] BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.。

相关文档
最新文档