浅谈油田信息数据仓库及数据挖掘
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关 键 词 :油 田企 业 数 据 仓库 数 据 挖 掘
随 着社 会发 展 以及 市场 竞争 愈发 激烈 ,对 各个 行业 内的 企业 都 提 出了 信 息化 建 设 的 要求 。我 国 企业 信 息 化 的发 展 建 设 正 呈现 出一 片 “ 数 据集 中化 、业 务综合 化 、决 策科学 化 、管理 扁平 化 ”的趋势 。各 个 企业 为 了实现 国 际竞争 力和 市场 竞 争力 的提 升 ,都开 始实 施建 立 以企 业 长期 积累 的历 史数 据 以及核 心业 务 为主 的数据 挖掘 系 统 。通过 这一
数据 仓库 是 既是 一种 结 构和 富 有哲 理 性 的方 法 ,也 是 一种 技 术 ,
数据 和信 息从 不 同的数 据 源 中被 提取 出来 ,然 后 将这 些数 据转 换成 为 公 共的数 据模 型并 且和 仓库 中已有 的数据 集 成在一起 [ 1 】 。用 户在 向数 据 仓库 进行 数据 的查 询时 .数 据仓 库 便会 将用 户所 需要 的信 息进 行整
三 、 油 田数 据 仓 库 的 数 据 挖 掘
针 对 油 田数据 数据 量大 、复 杂 ,并 且 历史 数据 繁多 的特 点 ,在 完 成 油 田数据 仓 库 的准 备阶 段 之后 ,便 可 以通 过数 据 搜索 ,建 立模 型 、 模 型检验 、民星应 用 、模型 分 析等 步骤 进行 数据 的挖 掘 。建立 模型 是 这 些步 骤 中最为 关键 的一个 环 节 ,建立 相应 的 数学模 型 可以 为数 据挖 掘 提供 高效 的计 算方 法和解 决 方案 ,在 进行 数据 的挖 掘 计算 时 ,通常 可以通 过采 用关 键规 则 、决策 树 、粗糙 集 、统 计分析 、神经 网络 、支 持向 量机 、模糊 聚 类 、基 于 范例 的推 理 、贝叶 斯预 测等 计算 方法 进行 数据 的 挖掘 计算 1 。同时 在建 立数 据模 型 时 ,需要 将 数据 分 为校 验数 据和 训练数 据 ,再 对模 型进 行检验 ,从而对 模型 的准 确程度 进行 评估 。
元数据 ( Me t a d a t a ) 作为 在 数据 仓库 中另外 一种 重要 的数 据 。油
目前 国际 上对 于数 据库 的定 义为 :可 以支 持管 理决 策过 程 的 、面 向主题 的 、集 成 的 、稳定 的 、不 同时 间的数 据集 合 。主题 是进 行数 据 归 类 的重要标 准 ,每 一个 不 同的 不同 的主题 都可 以对 应 一个 客观 的分 析 领域 ,并且 可 以对 多个 部 门对个 系统 的大 量数 据进 行集 成 ,从 而辅 助 管理 者进 行决 策 。这些 通过 集 成而 来的 数据 会被 数据 库所 收集 ,并 且 常年 保持着 不被更 新的状 态 。数 据库一般 会在 5 ~ 1 0年左右 ,进行 一
、
数 据 仓 库 的 定 义 以及 体 系 结构
1 . 数据 仓库的 定义
在 源数据 经过 处 理和 汇总 之后 ,便 可 以进入 当前 细节 级 ,在 对经 过处理 和 汇总 后的 源数 据进 行综 合分 析 ,便可 以进 入轻 度综 合级 甚 至 是高度 综合级 ,在 早期细 节级 中的数据 一般都是 一些历 史性 的数据 。
二 、 油 田信 息 数 据 仓 库 的 建 立
由于 油田数 据 与其他 行业 的数 据相 比而 言较 为特 殊 ,这 些数 据 主 要着 重于 反映 油井 的一 些指标 数 据 ,例如 产油 量 、油 的含水 量 、油 田
注水 以及聚合 物 的含 量等 。但是 因为在 线存储测 井数据 体就 有 1 8 0 0多
次对 于时间趋 势的分 析 。
田数 据在 数据 仓库 的环 境之 下 可以转 化 为两种 源数 据 :为 了将 操作 性 环 境转化 为数 据仓 库而 建 立的 元数 据 ,这种 元数 据包 含 了几乎 所有 的 源 数据 的项 名 以及属性 ,还有 其在 数据 库 中的转 化 ;另一种 元数据 主
石油数 据仓 库进行有 效的数 据挖掘 提出相 关的方 法和一些 建议 措施 。
一
在 建立 油 田信 息数 据 仓库 的时 候 ,可 以将数 据仓 库 中的数 据进 行 分级
处 理 ,这 几个 级 别分 别 是 :早期 细 节级 、当前 细节 级 、轻 度 综 合级 、
高度综 合级 。 Fra bibliotek摘要 :随 着数据库的发展 ,当今全球数据 库的容量规 模 已经有 了上万亿字节之 多,如此 大的数据量在 现今 已经给人 带来 了一种数据爆 炸的感
觉。虽然如 此庞大的数据库容量 以及数据体 系往往 给使 用者造成一种无从下手、毫无头绪的感觉,但是通过仔细地分析和观察可以发现在这些海量的数 据背后 ,有着很 多非常具有价值 以及决策意义的信息。在 油田企 业的建设和发展 中,如何 将数据 库 中的教据进行有效的数据挖 掘 ,从而使得这些有效的 数据能为油田企业的决策和战略发展的资源和动 力,这将是文章将要重点探 讨的问题。
个 ,2 4 0 0口探 井 的数据 记录 甚至 有 2 3 万 多 条之 多 ,同时还 有 一些 辅 助单 位 的油井 维修 数据 、还 有研 究单 位 的数据 等 ,可 以说 油 田数据 是 单 一性 的 复杂 化 f 2 1 。因此 ,通过 建立 一个 数 据仓 库 ,从 而能 对 油 田数
据进 行规 范的分 类管理显 得十分 必要 。
举 措 ,可 以使 得 公司 的生 产和 经营 能够 随时 与市 场保 持 同步 ,从而 使
企业能 够紧 跟市 场 的步伐 ,保 持经 济效 益 的增长 。但 是就 世 界范 围来 看 ,我国 的石 油企业 在对 数 据仓 库进 行数 据挖 掘方 面依 旧 与国外 的大 型石 油企 业依 旧存在 着一 定 的差 距 。文章将 就我 国石 油 企业 该如 何对
要 是用于 建立 与终端 用户的多维 商业模 型 以及 前端 工具之 问的联 系。
2 . 数据 仓库的体 系结构
存储和 管理 是数 据仓 库 的主要 用处 。油 田数据 仓库 的建 立及 其组 织管
理 的方 式 ,使 得其 与传 统的 数据 仓库 存在 着一 定 的区别 ,这些 区别 也
是油 田数据仓 库对外 部数据 的主要表 现形式 。
信 息技 术
中国 化 工 贸 易
Ch i n a Ch e oi r c a l Tr a d e
第1 1期
? o 1 牛 1 1月
浅 谈 油 田信 息数 据 仓库 及 数据 挖 掘
田 蕾
1 6 3 0 0 0) ( 大 庆 油 田信 息 技 术 公 司 北京 分 公 司 ,黑 龙 江 大 庆
随 着社 会发 展 以及 市场 竞争 愈发 激烈 ,对 各个 行业 内的 企业 都 提 出了 信 息化 建 设 的 要求 。我 国 企业 信 息 化 的发 展 建 设 正 呈现 出一 片 “ 数 据集 中化 、业 务综合 化 、决 策科学 化 、管理 扁平 化 ”的趋势 。各 个 企业 为 了实现 国 际竞争 力和 市场 竞 争力 的提 升 ,都开 始实 施建 立 以企 业 长期 积累 的历 史数 据 以及核 心业 务 为主 的数据 挖掘 系 统 。通过 这一
数据 仓库 是 既是 一种 结 构和 富 有哲 理 性 的方 法 ,也 是 一种 技 术 ,
数据 和信 息从 不 同的数 据 源 中被 提取 出来 ,然 后 将这 些数 据转 换成 为 公 共的数 据模 型并 且和 仓库 中已有 的数据 集 成在一起 [ 1 】 。用 户在 向数 据 仓库 进行 数据 的查 询时 .数 据仓 库 便会 将用 户所 需要 的信 息进 行整
三 、 油 田数 据 仓 库 的 数 据 挖 掘
针 对 油 田数据 数据 量大 、复 杂 ,并 且 历史 数据 繁多 的特 点 ,在 完 成 油 田数据 仓 库 的准 备阶 段 之后 ,便 可 以通 过数 据 搜索 ,建 立模 型 、 模 型检验 、民星应 用 、模型 分 析等 步骤 进行 数据 的挖 掘 。建立 模型 是 这 些步 骤 中最为 关键 的一个 环 节 ,建立 相应 的 数学模 型 可以 为数 据挖 掘 提供 高效 的计 算方 法和解 决 方案 ,在 进行 数据 的挖 掘 计算 时 ,通常 可以通 过采 用关 键规 则 、决策 树 、粗糙 集 、统 计分析 、神经 网络 、支 持向 量机 、模糊 聚 类 、基 于 范例 的推 理 、贝叶 斯预 测等 计算 方法 进行 数据 的 挖掘 计算 1 。同时 在建 立数 据模 型 时 ,需要 将 数据 分 为校 验数 据和 训练数 据 ,再 对模 型进 行检验 ,从而对 模型 的准 确程度 进行 评估 。
元数据 ( Me t a d a t a ) 作为 在 数据 仓库 中另外 一种 重要 的数 据 。油
目前 国际 上对 于数 据库 的定 义为 :可 以支 持管 理决 策过 程 的 、面 向主题 的 、集 成 的 、稳定 的 、不 同时 间的数 据集 合 。主题 是进 行数 据 归 类 的重要标 准 ,每 一个 不 同的 不同 的主题 都可 以对 应 一个 客观 的分 析 领域 ,并且 可 以对 多个 部 门对个 系统 的大 量数 据进 行集 成 ,从 而辅 助 管理 者进 行决 策 。这些 通过 集 成而 来的 数据 会被 数据 库所 收集 ,并 且 常年 保持着 不被更 新的状 态 。数 据库一般 会在 5 ~ 1 0年左右 ,进行 一
、
数 据 仓 库 的 定 义 以及 体 系 结构
1 . 数据 仓库的 定义
在 源数据 经过 处 理和 汇总 之后 ,便 可 以进入 当前 细节 级 ,在 对经 过处理 和 汇总 后的 源数 据进 行综 合分 析 ,便可 以进 入轻 度综 合级 甚 至 是高度 综合级 ,在 早期细 节级 中的数据 一般都是 一些历 史性 的数据 。
二 、 油 田信 息 数 据 仓 库 的 建 立
由于 油田数 据 与其他 行业 的数 据相 比而 言较 为特 殊 ,这 些数 据 主 要着 重于 反映 油井 的一 些指标 数 据 ,例如 产油 量 、油 的含水 量 、油 田
注水 以及聚合 物 的含 量等 。但是 因为在 线存储测 井数据 体就 有 1 8 0 0多
次对 于时间趋 势的分 析 。
田数 据在 数据 仓库 的环 境之 下 可以转 化 为两种 源数 据 :为 了将 操作 性 环 境转化 为数 据仓 库而 建 立的 元数 据 ,这种 元数 据包 含 了几乎 所有 的 源 数据 的项 名 以及属性 ,还有 其在 数据 库 中的转 化 ;另一种 元数据 主
石油数 据仓 库进行有 效的数 据挖掘 提出相 关的方 法和一些 建议 措施 。
一
在 建立 油 田信 息数 据 仓库 的时 候 ,可 以将数 据仓 库 中的数 据进 行 分级
处 理 ,这 几个 级 别分 别 是 :早期 细 节级 、当前 细节 级 、轻 度 综 合级 、
高度综 合级 。 Fra bibliotek摘要 :随 着数据库的发展 ,当今全球数据 库的容量规 模 已经有 了上万亿字节之 多,如此 大的数据量在 现今 已经给人 带来 了一种数据爆 炸的感
觉。虽然如 此庞大的数据库容量 以及数据体 系往往 给使 用者造成一种无从下手、毫无头绪的感觉,但是通过仔细地分析和观察可以发现在这些海量的数 据背后 ,有着很 多非常具有价值 以及决策意义的信息。在 油田企 业的建设和发展 中,如何 将数据 库 中的教据进行有效的数据挖 掘 ,从而使得这些有效的 数据能为油田企业的决策和战略发展的资源和动 力,这将是文章将要重点探 讨的问题。
个 ,2 4 0 0口探 井 的数据 记录 甚至 有 2 3 万 多 条之 多 ,同时还 有 一些 辅 助单 位 的油井 维修 数据 、还 有研 究单 位 的数据 等 ,可 以说 油 田数据 是 单 一性 的 复杂 化 f 2 1 。因此 ,通过 建立 一个 数 据仓 库 ,从 而能 对 油 田数
据进 行规 范的分 类管理显 得十分 必要 。
举 措 ,可 以使 得 公司 的生 产和 经营 能够 随时 与市 场保 持 同步 ,从而 使
企业能 够紧 跟市 场 的步伐 ,保 持经 济效 益 的增长 。但 是就 世 界范 围来 看 ,我国 的石 油企业 在对 数 据仓 库进 行数 据挖 掘方 面依 旧 与国外 的大 型石 油企 业依 旧存在 着一 定 的差 距 。文章将 就我 国石 油 企业 该如 何对
要 是用于 建立 与终端 用户的多维 商业模 型 以及 前端 工具之 问的联 系。
2 . 数据 仓库的体 系结构
存储和 管理 是数 据仓 库 的主要 用处 。油 田数据 仓库 的建 立及 其组 织管
理 的方 式 ,使 得其 与传 统的 数据 仓库 存在 着一 定 的区别 ,这些 区别 也
是油 田数据仓 库对外 部数据 的主要表 现形式 。
信 息技 术
中国 化 工 贸 易
Ch i n a Ch e oi r c a l Tr a d e
第1 1期
? o 1 牛 1 1月
浅 谈 油 田信 息数 据 仓库 及 数据 挖 掘
田 蕾
1 6 3 0 0 0) ( 大 庆 油 田信 息 技 术 公 司 北京 分 公 司 ,黑 龙 江 大 庆