元数据驱动的异构数据模型双向映射策略
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2012 年 7 月 6 日收到 第一作者简介: 黄 刚( 1980 —) 、 男、 黑龙江大庆人, 讲师。 研究方 GIS 等。 Email: huanggangmail @ 向: 信 息 集 成 与 分 布 式 计 算、 126. com。
*
通信作者简介: 袁
满( 1965 —) 、 男、 黑龙江大庆人、 教授。研究方
mail: yuanman @ enpu. 向: 信息集成与分布式计算、 移动计算等。 Eedu. cn。
32 期
黄
等: 元数据驱动的异构数据模型双向映射策略 刚,
8751
定义 2 : 表级映射: 设定 Ts 为源数据库中的数 Tt 为来自目标数据库的数据表, Ts 与 Tt 之间 据表, , Tt) 。 使得 F’( Ts, 存在对应关系 F’ B 分别为来自源表 定义 3 : 字段级映射: 设定 A、 Ts 和目标表 Tt 的两个非空的字段集合, 若存在一个 对应规则 f, 使 A 字段集合中的字段 a i ( 1 < i < n ) 通 过转换 函 数 f 处 理, 有 B 字 段 集 合 中 的 字 段 bi = f( a i ) ,记为f( a i ,b i ) 。
图1
属性映射关系
模型结构越复杂, 对应字段的 模型结构息息相关, 映射关系越繁琐。 为了理清映射关系, 本文遵循确 定映射关系的步骤进行分析, 共整理出 13 种映射 关系。 2. 2 映射关系的表现形式 映射关系是通过数据映射规则表示的, 数据映 映 射规则是通过元数据的形式存储在数据库中的 , 射规则的描述采用映射规则模版的形式 , 解析模版 中的映射规则公式, 将解析的参数信息存储为对应 的元数据形式。映射规则公式中包含源字段、 目标 字段、 映射模式、 数据转换配置参数等元数据信息。 根据元数据对参与映射的数据源和映射规则的描 述, 实现映射规则的定义与维护工作 。 2. 3 双向映射关系描述 E&P 与 EPDM 数据库之间映射关系是双向性 的, 体现在映射过程中的双向映射描述 , 如图 2 所示 的源库与目标库之间的对应映射关系示意图 。 从 源库向目标库映射定制两套映射关系, 分别为正向 映射和逆向映射。
第 12 卷 第 32 期 2012 年 11 月 1671 — 1815 ( 2012 ) 32-8750-07
科
学
技
术
与
工
程
Science Technology and Engineering
Vol. 12 No. 32 Nov. 2012 2012 Sci. Tech. Engrg.
元数据驱动的异构数据模型双向映射策略
复合映射可以推广到多个映射的情况, 源数据通过 多次映射得到目标格式数据。 复合映射关系可以通过多于一次的转换处理 或通过多次间接引用的关系转换得到目标格式数 据的关系。在整个模型映射关系中, 虽然复合映射 关系占少数, 但在处理复合映射关系时需要更为全 面的考虑。 复合映射关系包括目标字段通过多次 参照目标表及源表获取字段的情况; 来自源数据表 的多个属 性 值 之 间 运 算 处 理 情 况 等 的 映 射 关 系。 例如目标数据表的多级自引用或多个具有继承关 系目标数据表字段的引用, 映射关系的复杂程度与
黄 刚
1
袁
满
1*
吴秀英
2
陈兴童
1
( 东北石油大学计算机与信息技术学院1 ,大庆 163318 ; 中国石油大庆石化公司信息技术中心2 ,大庆 163319 )
摘
要
重点研究异构数据模型间的映射关系, 并参考 ETL 框架思想, 设计了针对异构数据模型间数据映射 、 转换和加载于
一身的双向映射策略。分析并定义了数据模型间的映射关系与映射规则 。 基于元数据驱动理论方法设计了数据映射元模 型。并将映射关系按照复杂程度分类, 分为简单映射与复合映射关系 。 明确给出了分类原则。 还对双向映射关系进行了描 述, 并分析了双向映射中遇到的问题 。 关键词 元数据驱动 双向映射 异构数据模型 文献标志码 A 中图法分类号 TP311. 11 ;
[5 ] 例如国外的 Information Manifold 的数据集成系统,
1
映射关系定义
在文献
[8 ]
中给出了对映射关系的描述, 是指同
Piazza 系统、
[6 ]
系 统 以 及 国 内 的 Versatile 系 统 等。
一数据领域内, 存储相关数据的不同关系数据库数 据模型之间的对应关系。 定义 1 、 映射关系: 设定由一个三元组关系表示 S 代表源模型的所有实 映射关系 M = ( S,T,Σ ) , T 代表目标模型中的所有实例集合, 例集合, Σ 代表 < S, T > 之间的逻辑规则公式, 是源与目标之间元 totarget TupleGenerating De组 依 赖 关 系 Sourcependencies( 简称 st tgds 或 tgds) 的有限集合。 映射关系分为模式映射、 表级映射、 字段级映 射三个层次。 ST 为目标 定义 1 : 模式映射: 设定 SS 为源模式, 两模式间存在从 SS 向 ST 转换的对应关系 F, 模式, 记为 F( SS,ST) 。
数据映射是两个不同数据模型间建立数据元 素对应映射关系的过程
[1 ]
的构建方法。该系统提供了一个通用的查询接口, 提高了多数据源集成过程中的查询效率。 总之, 数 据映射的发展方向将不断融合先进的数据映射与 集成技术, 在数据映射阶段提高整个系统的可扩展 性、 灵活性、 易维护性及自动化的发展趋势。 本文 ETL 技术的应用与研究, 通过对元模型驱动技术、 并 对异构数据模型的分析, 提出了基于元数据驱动的 数据映射策略技术, 来解决异构关系模型间的双向 映射问题。
。 数据映射是建立特定
[2 ]
领域数据集成的首要步骤。 文献
中指出目前数
据集成项目所遇到的问题主要是建立模式映射 、 查 询优化与查询执行上, 但这些问题的核心和前提是 建立映射关系。 文献 确匹配问题。文献
[4 ] [3 ]
中的作者指出数据集成问
题面临的主要问题是异构数据源之间的数据的正 中的作者 P. Ziegler 在 2006 年 会议文章中提到, 数据集成项目索引中共包含 183 个项目, 其中包括目前已经结题或正在研究中的项 目。在整个发展过程中, 国内外有一些具有代表性
Information Manifold 系 统 的 作 者 在 国 际 会 议 ( Very Large Data Bases06 ) 中提出了一种关于映射关系的 — —本 地 视 图 映 射 ( LocalasView , 构 建 方 法— LAV) [7], 在以后构建映射的项目中广泛应用这样
*
通信作者简介: 袁
满( 1965 —) 、 男、 黑龙江大庆人、 教授。研究方
mail: yuanman @ enpu. 向: 信息集成与分布式计算、 移动计算等。 Eedu. cn。
32 期
黄
等: 元数据驱动的异构数据模型双向映射策略 刚,
8751
定义 2 : 表级映射: 设定 Ts 为源数据库中的数 Tt 为来自目标数据库的数据表, Ts 与 Tt 之间 据表, , Tt) 。 使得 F’( Ts, 存在对应关系 F’ B 分别为来自源表 定义 3 : 字段级映射: 设定 A、 Ts 和目标表 Tt 的两个非空的字段集合, 若存在一个 对应规则 f, 使 A 字段集合中的字段 a i ( 1 < i < n ) 通 过转换 函 数 f 处 理, 有 B 字 段 集 合 中 的 字 段 bi = f( a i ) ,记为f( a i ,b i ) 。
图1
属性映射关系
模型结构越复杂, 对应字段的 模型结构息息相关, 映射关系越繁琐。 为了理清映射关系, 本文遵循确 定映射关系的步骤进行分析, 共整理出 13 种映射 关系。 2. 2 映射关系的表现形式 映射关系是通过数据映射规则表示的, 数据映 映 射规则是通过元数据的形式存储在数据库中的 , 射规则的描述采用映射规则模版的形式 , 解析模版 中的映射规则公式, 将解析的参数信息存储为对应 的元数据形式。映射规则公式中包含源字段、 目标 字段、 映射模式、 数据转换配置参数等元数据信息。 根据元数据对参与映射的数据源和映射规则的描 述, 实现映射规则的定义与维护工作 。 2. 3 双向映射关系描述 E&P 与 EPDM 数据库之间映射关系是双向性 的, 体现在映射过程中的双向映射描述 , 如图 2 所示 的源库与目标库之间的对应映射关系示意图 。 从 源库向目标库映射定制两套映射关系, 分别为正向 映射和逆向映射。
第 12 卷 第 32 期 2012 年 11 月 1671 — 1815 ( 2012 ) 32-8750-07
科
学
技
术
与
工
程
Science Technology and Engineering
Vol. 12 No. 32 Nov. 2012 2012 Sci. Tech. Engrg.
元数据驱动的异构数据模型双向映射策略
复合映射可以推广到多个映射的情况, 源数据通过 多次映射得到目标格式数据。 复合映射关系可以通过多于一次的转换处理 或通过多次间接引用的关系转换得到目标格式数 据的关系。在整个模型映射关系中, 虽然复合映射 关系占少数, 但在处理复合映射关系时需要更为全 面的考虑。 复合映射关系包括目标字段通过多次 参照目标表及源表获取字段的情况; 来自源数据表 的多个属 性 值 之 间 运 算 处 理 情 况 等 的 映 射 关 系。 例如目标数据表的多级自引用或多个具有继承关 系目标数据表字段的引用, 映射关系的复杂程度与
黄 刚
1
袁
满
1*
吴秀英
2
陈兴童
1
( 东北石油大学计算机与信息技术学院1 ,大庆 163318 ; 中国石油大庆石化公司信息技术中心2 ,大庆 163319 )
摘
要
重点研究异构数据模型间的映射关系, 并参考 ETL 框架思想, 设计了针对异构数据模型间数据映射 、 转换和加载于
一身的双向映射策略。分析并定义了数据模型间的映射关系与映射规则 。 基于元数据驱动理论方法设计了数据映射元模 型。并将映射关系按照复杂程度分类, 分为简单映射与复合映射关系 。 明确给出了分类原则。 还对双向映射关系进行了描 述, 并分析了双向映射中遇到的问题 。 关键词 元数据驱动 双向映射 异构数据模型 文献标志码 A 中图法分类号 TP311. 11 ;
[5 ] 例如国外的 Information Manifold 的数据集成系统,
1
映射关系定义
在文献
[8 ]
中给出了对映射关系的描述, 是指同
Piazza 系统、
[6 ]
系 统 以 及 国 内 的 Versatile 系 统 等。
一数据领域内, 存储相关数据的不同关系数据库数 据模型之间的对应关系。 定义 1 、 映射关系: 设定由一个三元组关系表示 S 代表源模型的所有实 映射关系 M = ( S,T,Σ ) , T 代表目标模型中的所有实例集合, 例集合, Σ 代表 < S, T > 之间的逻辑规则公式, 是源与目标之间元 totarget TupleGenerating De组 依 赖 关 系 Sourcependencies( 简称 st tgds 或 tgds) 的有限集合。 映射关系分为模式映射、 表级映射、 字段级映 射三个层次。 ST 为目标 定义 1 : 模式映射: 设定 SS 为源模式, 两模式间存在从 SS 向 ST 转换的对应关系 F, 模式, 记为 F( SS,ST) 。
数据映射是两个不同数据模型间建立数据元 素对应映射关系的过程
[1 ]
的构建方法。该系统提供了一个通用的查询接口, 提高了多数据源集成过程中的查询效率。 总之, 数 据映射的发展方向将不断融合先进的数据映射与 集成技术, 在数据映射阶段提高整个系统的可扩展 性、 灵活性、 易维护性及自动化的发展趋势。 本文 ETL 技术的应用与研究, 通过对元模型驱动技术、 并 对异构数据模型的分析, 提出了基于元数据驱动的 数据映射策略技术, 来解决异构关系模型间的双向 映射问题。
。 数据映射是建立特定
[2 ]
领域数据集成的首要步骤。 文献
中指出目前数
据集成项目所遇到的问题主要是建立模式映射 、 查 询优化与查询执行上, 但这些问题的核心和前提是 建立映射关系。 文献 确匹配问题。文献
[4 ] [3 ]
中的作者指出数据集成问
题面临的主要问题是异构数据源之间的数据的正 中的作者 P. Ziegler 在 2006 年 会议文章中提到, 数据集成项目索引中共包含 183 个项目, 其中包括目前已经结题或正在研究中的项 目。在整个发展过程中, 国内外有一些具有代表性
Information Manifold 系 统 的 作 者 在 国 际 会 议 ( Very Large Data Bases06 ) 中提出了一种关于映射关系的 — —本 地 视 图 映 射 ( LocalasView , 构 建 方 法— LAV) [7], 在以后构建映射的项目中广泛应用这样