利用XML解决数据集成中若干难题的应用研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要: 首先分 析了业务系统 的现状 , 提出了信息孤 岛的概念 。数据集成是解 决信息孤 岛的一 种有 效方式 , 详细 分析 了数据集成面 临着 异构数据源 、 数据 语义冲突 、 前端可 视化等技 术难 题。最后 , 出了使 用 X 提 ML配置 文件 作 为中问模式来解决数据 集成中的难题的一种方案 , 使数 据集 成工作 能有效 的解 决信 息孤岛 问题 , 大大 降低 数据 集 成工作的难度 。 关 键 词: 信息孤 岛; 数据 集成 ; IL; X M 中间模 式 ; 数据挖 掘
本 数据 、 半结 构化 数 据 等 。
2 2 数 据 集成 的难 点 分析 .
、
用户在进行数据集成时, 面对的数据是千差万别的。产生数据差异的主要原因是数据的存储 方式 、 数据的结 构和语义上 的冲突。源数据可以是 O al数据库 , r e c 也可能是 S evr QLSre 数据库 , 以是关 系型 , 可 也可 以是对象
维普资讯
第 2 卷 第 4期 1
20 0 6年 8月
成
都
信
息
工
程
学
院
学
报
Vo . l NO 4 12 . Au g.2 0 06
J OURNAL OF CHENGDU UNI VERSI TY NFORM ATI OF I ON TECHNOL OGY
文 章 编 号 :17 —7 2 2 0  ̄ 40 1 .6 6 114 {0 6 0 —5 30
利 用 XML解 决 数 据 集 成 中若 干难 题 的应 用 研 究
邓 国军 , 傅 彦
( 电子 科技 大 学计算机 科 学与 工程 学 院 , 川 成都 6 0 5 ) 四 10 4
型 , 可 以是 we 面 型和 文本 型 。 因而 , 解 决 数 据集 成 问题 , 个 重 要 的 难 题 就 是 如 何 消 除 这 种 异 构 的 差 更 b页 要 一
异。各个业务系统可能是 由不 同的第三方软件厂商提供 , 也可能是 自主研发 , 数据之间的结构和语义 冲突问题严 重, 如何有效解决各 种冲突问题是数据集成面临的一大挑战。同时 , 在对集成后 的数据进行显示时 , 由于不同操
个难 点 。
2 2 2 数据 集 成 中的 冲 突 问题 ..
数据 集 成 中的 冲突 主要 分 为结 构 冲突 和语义 冲突 。 ( ) 构 冲突 1结 结构 冲 突是指 在 源数 据 和 目标数 据 的数据 项 构成 的 结 构上 的差 异 。结 构 冲突 在实 际 中存在 多种 冲突情 况 。例 如
文献标识 码 : A 中图分类号 : 3 1 1 TP 1 .3
1 引言
随着各种业务系统在各单位的应用 , 在信息化程度相对高一些 的单位 , 有许多业务 系统相对独立地运行 , 各 系统的业务数据也 日益增长。各个业务系统 内部相对通信流畅 、 业务信息也相对完整 , 但各 系统之间数据完全独 立, 缺乏必要的联系 , 形成 了一座座 的信息孤岛 , 造成 了整体信息流通不畅。这给需要掌握全局信息的上层决策 者们 造成 了极 大 的不 便 。如 何将 现有 的信 息 孤 岛 联 接起 来 , 何充 分 利 用 已有 的 业 务 数 据 , 决策 者 们 提 供 全 如 为 面、 完整 的决 策 支持 服 务 , 是数据 集成 需要解 决 的 主要 问题 。数 据 集成 的 目的就 是从 现行 的各 个 独立 运 行的业 务 系统中, 分析出其间的各种联系, 抽取 出相关 的数据 , 起到信息沟通的桥梁作用 , 将现存的一座座信息孤岛联接起 来, 使信息沟通流畅。
2 数 据 集 成 的 难点
2 1 数 据集 成 的基 本概 念 .
数据集成(a t r i ) d t i e ao 是一个从异构的 、 an g tn 存在冲突的、 分散的源数据 中抽取数据 , 进行相应结构和数据转 换后 , 加载到 目 系统 中的过程。数据集成实际上是一个消除源数据和 目 标 标数据的差异和冲突 , 目标系统要求 按 而进行的一致化 的过程 。如名称的一致化 , 数据模式的一致化和语义的一致化等。集成后 的数据将 向用户提供 统一标准的表现形式 , 有利于用户对数据进行诸如数据仓库 、 数据挖掘等应用。由于 目前关系型数据库使用场合 非 常广泛 , 对关 系 型数 据 的集成 是主要 应用 。源数 据 与 目标 数 据均 用关 系模 型表 示 的数 据集 成 应用 非常 多 , 针 本 研究工作将主要在关系型数据上进行。将研究工作做进一步深化后 , 可适用于其他类 型数据 , 如对象 型数据 、 文
一 ~ 集 ~
作系统的差异 , 及业务子系统的扩展性 , 如何使得前端界面具有跨平台 、 通用性强也是一个着重需要考虑的课 目。
2 2 1 异 构 数 据 源 ..
收稿 日期 :0 5 1—8; 2 0 .00 修订 日期 :0 51.5 20 .02
维普资讯 Leabharlann 54 1 成都
信
息
工
程
学 院
学
报
第 2 卷 l
由于业 务 系统 在不 同 阶段 实施 及 不同 的业 务系 统对 数 据 库 的要 求 不 同 , 导致 了数 据 源 异 构 性 的存在 。每 种 数 据源 都有 特定 的 数据 访 问人 口 , 据 源 内部数 据 通讯 没 有 问题 , 数 据 源之 间的通 讯 不 流畅 。一 般 解决方 式是 数 但 设 计各 个数 据 源都 能访 问的 中 间模 式 与 中间数 据 库 , 进 行数 据 的集 成 。这种 方式 有 明 显 的缺 陷 , 是增 加 了数 来 就 据通讯 与 集成 所需 要 的 中 间数据 库 , 响了处 理速 度 。如 图 l 示 。 影 所 如何 避免 中间数 据 库是 在 系统集 成 中需要 解 决 的第 一
本 数据 、 半结 构化 数 据 等 。
2 2 数 据 集成 的难 点 分析 .
、
用户在进行数据集成时, 面对的数据是千差万别的。产生数据差异的主要原因是数据的存储 方式 、 数据的结 构和语义上 的冲突。源数据可以是 O al数据库 , r e c 也可能是 S evr QLSre 数据库 , 以是关 系型 , 可 也可 以是对象
维普资讯
第 2 卷 第 4期 1
20 0 6年 8月
成
都
信
息
工
程
学
院
学
报
Vo . l NO 4 12 . Au g.2 0 06
J OURNAL OF CHENGDU UNI VERSI TY NFORM ATI OF I ON TECHNOL OGY
文 章 编 号 :17 —7 2 2 0  ̄ 40 1 .6 6 114 {0 6 0 —5 30
利 用 XML解 决 数 据 集 成 中若 干难 题 的应 用 研 究
邓 国军 , 傅 彦
( 电子 科技 大 学计算机 科 学与 工程 学 院 , 川 成都 6 0 5 ) 四 10 4
型 , 可 以是 we 面 型和 文本 型 。 因而 , 解 决 数 据集 成 问题 , 个 重 要 的 难 题 就 是 如 何 消 除 这 种 异 构 的 差 更 b页 要 一
异。各个业务系统可能是 由不 同的第三方软件厂商提供 , 也可能是 自主研发 , 数据之间的结构和语义 冲突问题严 重, 如何有效解决各 种冲突问题是数据集成面临的一大挑战。同时 , 在对集成后 的数据进行显示时 , 由于不同操
个难 点 。
2 2 2 数据 集 成 中的 冲 突 问题 ..
数据 集 成 中的 冲突 主要 分 为结 构 冲突 和语义 冲突 。 ( ) 构 冲突 1结 结构 冲 突是指 在 源数 据 和 目标数 据 的数据 项 构成 的 结 构上 的差 异 。结 构 冲突 在实 际 中存在 多种 冲突情 况 。例 如
文献标识 码 : A 中图分类号 : 3 1 1 TP 1 .3
1 引言
随着各种业务系统在各单位的应用 , 在信息化程度相对高一些 的单位 , 有许多业务 系统相对独立地运行 , 各 系统的业务数据也 日益增长。各个业务系统 内部相对通信流畅 、 业务信息也相对完整 , 但各 系统之间数据完全独 立, 缺乏必要的联系 , 形成 了一座座 的信息孤岛 , 造成 了整体信息流通不畅。这给需要掌握全局信息的上层决策 者们 造成 了极 大 的不 便 。如 何将 现有 的信 息 孤 岛 联 接起 来 , 何充 分 利 用 已有 的 业 务 数 据 , 决策 者 们 提 供 全 如 为 面、 完整 的决 策 支持 服 务 , 是数据 集成 需要解 决 的 主要 问题 。数 据 集成 的 目的就 是从 现行 的各 个 独立 运 行的业 务 系统中, 分析出其间的各种联系, 抽取 出相关 的数据 , 起到信息沟通的桥梁作用 , 将现存的一座座信息孤岛联接起 来, 使信息沟通流畅。
2 数 据 集 成 的 难点
2 1 数 据集 成 的基 本概 念 .
数据集成(a t r i ) d t i e ao 是一个从异构的 、 an g tn 存在冲突的、 分散的源数据 中抽取数据 , 进行相应结构和数据转 换后 , 加载到 目 系统 中的过程。数据集成实际上是一个消除源数据和 目 标 标数据的差异和冲突 , 目标系统要求 按 而进行的一致化 的过程 。如名称的一致化 , 数据模式的一致化和语义的一致化等。集成后 的数据将 向用户提供 统一标准的表现形式 , 有利于用户对数据进行诸如数据仓库 、 数据挖掘等应用。由于 目前关系型数据库使用场合 非 常广泛 , 对关 系 型数 据 的集成 是主要 应用 。源数 据 与 目标 数 据均 用关 系模 型表 示 的数 据集 成 应用 非常 多 , 针 本 研究工作将主要在关系型数据上进行。将研究工作做进一步深化后 , 可适用于其他类 型数据 , 如对象 型数据 、 文
一 ~ 集 ~
作系统的差异 , 及业务子系统的扩展性 , 如何使得前端界面具有跨平台 、 通用性强也是一个着重需要考虑的课 目。
2 2 1 异 构 数 据 源 ..
收稿 日期 :0 5 1—8; 2 0 .00 修订 日期 :0 51.5 20 .02
维普资讯 Leabharlann 54 1 成都
信
息
工
程
学 院
学
报
第 2 卷 l
由于业 务 系统 在不 同 阶段 实施 及 不同 的业 务系 统对 数 据 库 的要 求 不 同 , 导致 了数 据 源 异 构 性 的存在 。每 种 数 据源 都有 特定 的 数据 访 问人 口 , 据 源 内部数 据 通讯 没 有 问题 , 数 据 源之 间的通 讯 不 流畅 。一 般 解决方 式是 数 但 设 计各 个数 据 源都 能访 问的 中 间模 式 与 中间数 据 库 , 进 行数 据 的集 成 。这种 方式 有 明 显 的缺 陷 , 是增 加 了数 来 就 据通讯 与 集成 所需 要 的 中 间数据 库 , 响了处 理速 度 。如 图 l 示 。 影 所 如何 避免 中间数 据 库是 在 系统集 成 中需要 解 决 的第 一