大数据挖掘技术在油田开发评价中应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、前言
大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

它的意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

一般而言,大家比较认可关于大数据从早期的3V、4V说法到现在的5V(新增Value)。

大数据的5个“V”,业界将其归纳为Volume,Velocity,Variety,Veracity,Value,如图1所示。

实际上也就是大数据包含的5个特征,包含5个层面意义:第一,数据体量(Volume)巨大。

指收集和分析的数据量非常大,从TB级别,跃升到PB级别,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。

第二,处理速度(Velocity)快,需要对数据进行近实时的分析。

以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

这一点和传统的数据挖掘技术有着本质的不同。

第三,数据类别(Variety)大,大数据来自多种数据源,数据种类和格式日渐丰富,包含结构化、半结构化和非结构化等多种数据形式,如网络日志、视频、图片、地理位置信息等。

第四,数据真实性(Veracity),大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取能够解释和预测现实事件的过程。

第五,价值密度低,商业价值(Value)高。

通过分析数据可以得出如何抓住机遇及收获价值。

二、大数据在油气田开发中应用
1.地质评价
当前,数据挖掘技术与石油工程领域还没有做到充分结合,应用也并不广泛。

有部分学者将数据挖掘技术应用当前,数据挖掘技术与石油工程领域还没有做到充分结合,应用也并不广泛。

有部分学者将数据挖掘技术应用到石油工程领域,取得了一定的效果。

在石油领域,国外数据挖掘的研究方向及趋势主要是对数据挖掘方法研究的进一步发展,如结合相关算法建立数据挖掘模型等。

La Sapienza将模糊逻辑理论与神经网络系统和Ad Ho c网络结合并将其应用到油井监测与诊断,提供了一种生产井动态分析的新方法;Gert de Jonge等人提出通过数据挖掘技术开发相关的软件系统并应用到油田自动化监控中,从而达到提高油井生产效率并为管理者提供更可靠的管理决策的目的;G.Zangl通过建立数据挖掘模型,对油田各项数据的质量及油井或整个生产系统的监视提高了油气田的产量;Leonardo Ocanto应用神经网络方法建立数学模型,从而实现了对人工举升系统进行模式识别的目的;Christian Oberwinkler等人运用算法与神经网络方法进行压裂设计,大大提高了设计最优裂缝的效率,与常规方法相比,节省了大量的时间。

国内主要将大数据挖掘技术应用于储层评价、措施作业方式的优选、生产指标的预测以及故障诊断等方面,主要采用的挖掘算法有聚类分析、神经网络、灰色关联、决策树、粗糙集等。

2.储层评价
在储层研究方面,大多数学者选用聚类分析的方法进
大数据挖掘技术在油田开发评价中应用
高 翔 中石油吐哈油田公司三塘湖采油管理区
【摘 要】大数据概念近年来迅速发展,成为科技界和企业界甚至世界各国政府关注的热点。

本文从大数据目前在石油行业的国内外发展现状入手,介绍了大数据的处理技术及方法,并讲述了大数据在油气田开发中的
应用情况及石油行业大数据的发展趋势。

大数据作为石油新经济的理论是最近几年提出的,石油上游产
业从勘探到开发产生大量的原始数据,如何收集、解释和利用这些数据给石油工业带来了挑战。

为了使
各种复杂和日益剧增的原始数据变得更有价值,必须对其进行分解、分析和提取才能为勘探与开发提供
有效的信息服务。

石油上游产业的数据量已经超出人们的想象,大数据技术能将其中的公共数据与不同
领域或专业的数据融为一体,提取并发布正确的信息,这种能力可以帮助油气田依据提取的数据和发布
的正确信息为决策者提供及时和正确的决策。

【关键词】大数据;数据处理;应用趋势;处理技术方法
【DOI】10.12316/j.issn.1674-0831.2021.14.022
43
44
行数据挖掘。

齐桂雪采用聚类分析方法,选取平均喉道半径、启动压力梯度和可动流体饱和度这三个参数,对大庆外围低渗透储层多孔介质进行分类,评价了特低渗透率储层参数的分类。

杨波、高清祥、杨杰也应用类似的方法,分析各类储层的平面和纵向分布特征。

吕红华、任明达、刘金诚等将Q型主因子分析与聚类分析相结合,对柴达木盆地某砂岩储层进行定量化的评价。

史海英对地属性进行聚类分析,由已知含油区的属性特征分析出相似特征,划分有利含油区,并进一步预测未知的含油区。

臧文龙将数据挖掘技术应用到油田储层建模中,对大量的地震资料进行数据挖掘,分析数据的内在联系解决数据分散难以整理的问题,再通过贝叶斯学习方法提取隐藏的数据特征完成建模。

张龙、吴江、张德同将数据挖掘技术运用到天然裂缝的识别上。

他们选取相关测井曲线作样本,通过粗糙集约简样本信息,再用BP神经网络做出识别,该方法在长庆油田应用效果显著。

王晓芳在储层评价中应用沃尔什变换实现对测井数据的离散化,使用粗糙集和模糊集对底层情况进行预测。

3.神经网络
神经网络是数据挖掘中一个很重要的算法,其通过对样本的学习实现知识发现,具有并行处理、自适应、自学习、联想记忆以及非线性映射等优点。

孙燕军将符号专家系统与人工神经网络相结合对稠油开采方式进行筛选,用符号专家系统优化神经网络的结构以缩短训练时间,再使用神经网络模型实现优选。

在运用现场资料验证时,发现筛选结果与实际情况吻合很好。

杨一展将粗糙集、决策树和关联规则三种算法相结合,设计了一个故障诊断系统,实验证明该系统能够自动建立故障规则库并对故障进行匹配。

陈东虎、朱维耀、朱华银等提出广义回归神经网络模型用于预测油井的含水率,这种模型与常用的拟合模型的预测结果相比,精度有所提高。

檀朝东等在数据仓库的基础上,采用了决策树方法、聚类分析与神经网络方法这三种数据挖掘算法建立挖掘模型,对大量多维、多源数据进行关联分析与预测工作。

为实现渗透率、有效厚度、生产压差、含气饱和度等各参数同油井产能的关联度挖掘,建立以所要分析的参数作为输入、以油井产量作为预测变量的挖掘结构和模型。

在关联分析的基础上,用户可以引入自己感兴趣的影响油井产能的因素,根据选定的最优预测模型预测油井产量在特定因素影响下的发展趋势。

同时,将预测结果表达成曲线和数据表的形式,既直观形象又有据
可循,为油井生产和决策提供有力的数据支持。

随着油田生产过程基本实现了自动化、信息化,油气生产过程中会产生大量的数据,包括采油与地面工程的生产、作业等多个类型的大数据。

尤其,随着中石油A5系统的推广和油气生产物联网系统A11的实施,为在油田企业生产上应用大数据挖掘技术提供了广阔的空间,能够发现蕴含其中的大量有用的生产规律。

通过大数据挖掘,可以充分利用所采集到的信息,处理更大规模的数据,具有能够即时查询、准确提出预测等优点。

企业在完成大数据挖掘过程之后,使用大数据挖掘技术发现这些知识、规律、趋势,并适时调整油田的生产方法和策略,可以提升油田产量、采收率、效率、效益。

通过石油工程大数据挖掘可以实现:①发现油气生产过程各个指标的异常情况;②油气田各个生产要素之间的关联关系;③预测油气水井生产指标变化趋势和增产增注措施效果;④预测工艺流程的安全性和工况效率指标;⑤生产设备寿命预测和维修预警;⑥科学地对油气生产活动和成本控制提出预警和优化等。

4.数据采集与清理
数据采集是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析,处理。

数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。

从系统外部采集数据并输入到系统内部的一个接口。

数据采集技术广泛应用在各个领域。

比如摄像头,麦克风,都是数据采集工具。

被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。

采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。

采集的数据大多是瞬时值,也可是某段时间内的一个特征值。

准确的数据测量是数据采集的基础。

数据量测方法有接触式和非接触式,检测元件多种多样。

不论哪种方法和元件,均以不影响被测对象状态和测量环境为前提,以保证数据的正确性。

在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,数据采集领域已经发生了重要的变化。

首先,分布式控制应用场合中的智能数据采集系统在国内外已经取得了长足的发展。

其次,总线兼容型数据采集插件的数量不断增大,与个人计算机兼容的数据采集系统的数量也在增加。

国内外各种数据采集机先后问世,将数据采集带入了一个全新的时代。

大数据的采集是指利用多个数据库来接收发自客户
45
端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作[16]。

比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。

并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

数据清洗从名字上也看的出就是把脏的洗掉,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为脏数据。

我们要按照一定的规则把脏数据洗掉,这就是数据清洗。

而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

三、大数据挖掘技术
在石油天然气开发领域,预测型数据挖掘活动能够解决具有多种因素影响的、复杂的油气藏开发问题。

因为常用的油藏工程预测方法有着一定的局限性,只反映所预测的生产指标随着时间或者其它变量的单一的变化情况,并没考虑油藏开发问题涉及到的多维、多源的数据,这些数据之间存在着复杂的、隐蔽的关系模式。

油井产量的下降过程并非只是呈现指数式、双曲线式或者调和式递减,往往伴随着一定的波动性,一个看似无关的参数变化(例如地层水中氯离子、地面抽油机安装方向)都有可能会对油井产量变化产生影响。

随着数字油田的快速发展,数据规模从MB级发展到TB、PB级甚至EB、ZB级,并且面临着TB级的增长速度,数据挖掘的要求和环境也变得越来越复杂,从而形成“数据量的急剧膨胀”和“数据深度分析需求的增长”这两大趋势,使得传统的数据库系统架构在海量数据挖掘方面显得力不从心。

传统的数据挖掘技术及其体系架构在海量数据中已
经出现了不少问题,其中首先是挖掘效率的问题,传统的基于单机的挖掘算法或基于数据库、数据仓库的挖掘技术及并行挖掘已经很难高效地完成海量数据的分析;其次高昂的软硬件成本也阻止了云时代数据挖掘系统的发展;最后传统的体系架构不能完成挖掘算法能力的提供,基本是在以单个算法为整体模块,用户只能使用已有的算法或重新编写算法完成自己独特的业务。

“大数据”出现后,需求将不再完全由业务部门明确提出,更多将由技术、模型、经验等综合驱动。

同时,从基础设施架构到分析应用,“大数据”的处理方式和技术发生改变,需要对所有与数据生成、传递、处理有关的系统进行重新规划和布局,需要对原有的数据架构、数据标准、接口规范等重新设计和统一,需要对企业内外部数据环境进行全面分析,经整体综合考虑后,制定数据模型、架构和解决方案,最终形成“以数据驱动决策”的全新信息化顶层架构。

云计算的出现即给数据挖掘带来了问题和挑战,也给数据挖掘带来新的机遇—数据挖掘技术将会出现基于云计算的新模式。

云计算是一种商业计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。

云计算动态的、可伸缩的计算能力使得高效的海量数据挖掘成为可能。

掌握并利用好大数据,是石油公司提高核心竞争力的重要手段。

科学谋划石油工程大数据战略,采取重点技术跟踪、深化系统集成应用的方式,开展大数据处理技术的研究,突破技术瓶颈和障碍,更好地进行油田大数据的管理与挖掘,真正能够把“大数据”转变成“大油气”。

四、应用实例分析
设计技术上可行的方案,并编制了各个方案的投资本息偿还表、现金流量表、损益表等基本财务报表。

根据这些报表和基础数据,对于每套方案,分别计算出一系列的经济评价指标,X1为总投资(万元);X2为年平均成本(万元);X3为静态投资回收期(年);X4为动态投资回收期(年);X5为税后净现值(万元);X6为投资利润率(%);X7为投资利税率(%);X8内部收益率(%)。

对开发方案评价的目的是为了计算各个方案的综合指标,所以根据计算出的特征值及特征向量来计算综合主成分因子,计算公式为:
46
∑=

+
+

+
+
=
m
i i
m
m
i
Y
Y
Y
Y
Y
1
i
2
2
1
1
λ
λ
λ
λ
λ
\* MERGEFORMAT 其中:Y作为一个综合主成分因子,它包含了各主
成分的综合信息,是各主成分的加权平均值,通过计算各观察单位综合因子值Yi,并根据其值大小对各观察单位做出综合评价。

取m=2,把对应的数据代以上公式,便求得综合主成分因子为:[-7.0251,-17.3730,-1.5251,-0.1562,5.0763,19.6042,11.1908,-3.5905,-6.2014],分别对应方案1,2,…,9,可以看出方案综合指标最高,为19.6402,其经济效益最好。

5 石油行业大数据发展趋势
在油气田公司的上游和中游应用大数据分析结构化操作数据非常有意义。

数据的多样性对客户预测的需求会起到作用。

勘探开发生产石油天然气的潜在应用:快速发现石油,降低生产成本,提高钻井安全性,增大产量。

大数据分析可能在以下几个方面应用于油气生产领域:(1)勘探:通过应用先进的数据,比如模式识别,在地震采集过程中得到一个更全面的数据集,地质学家可以识别在使用大数据之前可能被忽略了的潜在的富有成效的地震数据。

(2)开发:大数据分析可以帮助石油天然气公司评估生产过程。

这些分析涉及到地理空间信息、信息推送、油气信息报道等可以让集团可以更智能的开发油气水井、更富有竞争力的领域发挥大数据分析的作用。

(3)钻井:除了基于有限的数据来进行监控和告警,大数据分析可以使用真正的实时“钻井大数据”来基于多个条件异常或预测钻井成功的可能性。

(4)生产作业:提高采收率是很多石油天然气生产公司的目标。

大数据可以同时使用地震、钻井和生产数据,将储层的变化情况实时的提供给储层分析工程师,为生产人员提供举升方法改造方案。

大数据也可以用来引导页岩气压裂。

(5)维护:预测性维护对于油气田公司来说已经不是一个新的概念了。

但是它并没有得到应有的关注和预算。

在上游生产过程中,如果压力、体积、温度可以被一起采集和分析,并且与以往的设备损坏历史数据进行比较,那么预测就是可以自动化的。

在中游输油管道的情况也是类似的。

这种方法在需要探测故障,尤其是故障会影响健康,安全和环境的时候显得尤为必要。

参考文献:
[1]Viktor Mayer-Schönberger,Big Data:A Revolution That
Will Transform How We Live, Work, and Think[M].周涛译.浙江:浙江人民出版社,2012
[2]杨华磊.高频数据对传统经济学研究范式的冲击[EB/
OL].http: ///blog-456786-656901.
html,2013
[3]Feblowitz J.,The Big Deal About Big Data in Up-stream
Oil and Gas[EB/OL].IDC Energy In-sights,http://www.
/getdoc.jsp?containerId=EI249878,2012
[4]Brule M.,Tapping the power of Big Data for oil and
gas industry,IBM Software White Paper for Petroleum Industry,2013
[5]Hems A.,Soofi A.,Perez E.,Drilling for New Business
Value:How innovative oil and gas companies are using Big Data to outmaneuver the competition.A Microsoft White Paper, 2013
[6]S e s h a d r i M.,B i g D a t a S c i e n c e C h a l l e n g i n g
T h e O i l I n d u s t r y[E B/O L].C T O G l o b a l Services,EMCCorporation,https:/// Articles/2013/09/23/big-data.aspx?Page=3,2013
[7]Nicholson R.,Big Data in the Oil&Gas Industry[EB/
OL],IDC Enger Insights,/getdoc.jsp?
containerId=253478,Septermber,2012
[8]Hollingsworth J.,Big Data for Oil&Gas.Oracle Oil&Gas
Industry Business Unit[EB/OL],https:/// big-data/index.html,March,2013
[9]李金诺.浅谈石油行业大数据的发展趋势[J].价值工
程,2013
[10]中华人民共和国科学技术部.美国政府出台大
数据研发计划[EB/OL]./ gnwkjdt/201204/t20120424_93877.htm,2012
[11]金江军.美国数字政府战略及启示[J].信息化建设,
2012
[12]黄 莹.法国政府投入1150万欧元研发7大数据项目
[EB/OL]./info/2013-04/19/ c_132322115.htm,2013
[13]李 宓.全球大数据面面观[N].中国文化报,2015
[14]中华人民共和国工信部.《物联网“十二五”发展规
划》发布[EB/OL]./zwgk/2012-02-14/content_2065999.htm,2012
[15]王 琳,商 周,王学伟,等.数据采集系统的发展与应
用[J].电测与仪表,2014
[16]何家凤,何少锋.大数据时代的纳税评估信息采集模式
[J].财经理论与实践,2015
[17]马宏斌,王 柯,马团学.大数据时代的空间数据挖掘
综述[J].测绘与空间地理信息,2014
[18]曹建军,刁兴春,陈 爽.数据清洗及其一般性系统框
架[J].计算机科学,2012
[19]于艳华,宋美娜.大数据[J].中兴通讯技术,2013
[20]叶焕倬,吴 迪.相似重复记录清理方法研究综述[J].
现代图书情报技术,2010。

相关文档
最新文档