共享平台资料

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

是将用户的查询翻译成一或多个对数据源的查询。 然后, d - Mei a f 将那些数据源对用户查询的回答进行综合处理, o r 将结果返 回给用户。 联邦式数据库的数据集成方式就是采用的此种方 法。 它提供一个全局数据模式, 数据源是独立的, 但一个数据 源可以访问其它数据源以提供信息 ( 数据仓库方法。其一般的过程是: 2 ) ①从不同的数据源 中抽取相关的数据, 经过转换, 清洗, 与来 自 其它数据源相关 的数据合并, 然后存储在一个集中的资料库中( 逻辑上的, 有 人叫他数据仓库) ; ②当处理一个查询时,查询直接在资料库 上执行而不用访问信息原来所在的数据源: ③在操作期间, 数 据源的任何修改都先会在查询期间被过滤掉, 然后再以某种 方式反映在中央资料库中。 这种方法的特点是来 自 几个数据库的副本存储在一个集 中的数据资料库中。 利用数据仓库实现数据集成的方式就是 使用的此种方法。 m d t 方法适用于数据源中数据变换比较快的情况, eie ad 但 是在处理查询时, 效率比较低, 存在较大的延迟。 在下面这些 情况下尤其不合适: 一个查询多次被提交时: 数据源处理速度 非常慢而且代价比较高, 或者是周期的不可用: 转化过滤合并 处理的代价高较高。而在数据仓库的方法中, 被集成的信息 可 以由查询直接访问并被客户端分析。 但是基于数据仓库的
收 期: 0 - - -a: l g 5 s uo 稿日 2 6 4 7 E i t i 7 @o .m 00 1 m l i a 8 hc a n n
作者简介:王天亮,男,河北保定人,硕士,研究方向为数据集成、数据清洗、数据流处理;陈刚,副教授;徐宏炳,教授。
一 12 93
wenku.baidu.com
系统是面向分析、 高层决策支持的, 能提供集成、 统一、 面向主 题的数据环境, 以它要求系统中积累足够的历史数据, 所 而且 对于数据仓库的建设和维护需要投入大量人力和物力。 而且 需要维护数据仓库和数据源中数据的一致性, 不适合数据源 中数据变化比较快的情况。 在本文中提出了一种基于共享数据库的数据共享模型。 共享数据库存储需要共享的数据 , 实现数据集成, 并停供一个 统一的数据模式, 以供客户端订阅自己需要的数据。共享数 据库既不同于数据仓库, 它不是面向分析、 高层决策支持的, 其中的数据也不是按照维来存储, 不维护历史数据 , 所以共享 数据库的建设的周期短, 维护的代价小; 在共享数据库中, 只 存放需要共享的数据, 在数据一致性的维护上负担小; 也不同 于传统的数据库: 它存储着需要共享的数据 , 目的是实现数 其 据共享。并且由于它提供一个全局的数据模式, 有效地实现 了数据的共享, 因此它综合了以上两种数据集成的特点。在 实际的数据共享应用中, 取得了较好的效果。
1 数据集成技术
数据集成是数据共享的基础, 一般解决数据集成问题的 方法大体上可以分为两种:
(m dt 方法。 1 ie )e ad 这种方法分为以下两步完成W①接收
一个查询, 判断应答这个查询所需的信息源集合 。然后根据
需要的数据源分解查询, 生成合适的子查询: ②查询从数据源 获得结果, 经过转变、 过滤, 合并结果集合之间的必要的信息, 然后把最终的结果返回各用户或者应用程序( 通称为客户端) 。
在模式结构的冲突, 命名冲突, 结构冲突, 结构约束的冲突, 表 达格式的冲突; 在实例层上可能存在数据的缺失, 不正确的数 据, 数据的不一致。共享数据库中的元数据就是为了解决这 些集成过程中的冲突。 所以数据在数据源与共享库之间流动 时, 就必须进行数据转换, 也就是数据清洗。
3 数据共享需要的元数据及其管理
D tsan t ho g bs o sa d aae a hr g nl y e n r dt s a i e c o a d h e a b
W N Ta-ag C E G n, U n-i A G n n, N g i h H a X H g n o bg eSicad i en Su e t ei, jg 06 Ci (eam noCm u r ne Eg e i , t a U irt Nnn 209, n) Dpr e f pt c t t o e n n n rg o h s n s a i 1 v y ha
( C E S文( A CS
标准源数据
} 1兀 数
元数据 建模工具

参照标准
X 4 成} 11
维护 工具 管理工具
2 系统模型
此系统的基本思想是共享数据库的元数据为系统的集成 提供一个统一的数据模式以对来 自不同数据源的各种数据进
执行标准
模式信息
共享数据 :
行表示, 并存储需要共享的数据, 从而便于统一进行处理; 将 来自 不同的数据源的各种数据转换成共享数据库能进一步处 理的统一格式; 并在统一的数据模式上定义了基本的运算, 完 成数据的订阅等具体功能。架构如图 1 所示。
fi‘1 } } ‘k }l c }} } 1 } }
图 1 系统架构 各种数据源中的数据根据共享数据库中的元数据通过抽
式信息。一张存储关于库中表的信息, 名为M D B Oj另 O e b si ; z 一张存储表中每个字段的信息, 名为: O 一i b r . M D z jp O Pt y
数据的集成, 共享 以及数据的清洗都需要大量的元数据 信息的支持, 其中有一些信息系统可 以自己提取, 但是大量的
信息必须由分析员或管理员通过维护工具送入共享库中的元 数据。 对于本系统来数, 以下几类元数据信息是必须定义的,
他们之 间的关系如 图 2 所示 。
管理 员 参照标准数据 初始化工 具
享数据 。
以下几张元数据表: O B Ojr为了 M D b p 方便管理, i G z 把原数据库 中的表进行分组;O ei b r e M DB Oj p l s G R 该表存储组关系信息。 z
源数据库经过这些元数据的描述, 可以建立一个统一的
模型,如图3 所示。数据源各种不同的数据库可以通过此模 型进行统一的描述。经过描述后 , 屏蔽掉了数据源之间的差
A s at D r g p cso t etpi io ao, ao e ete t f sa d r ao o dtad ngm n bt c un t r es h n r s n r tn c tn cv ss m hr i o tn a n m ae et r : i h o e f e re m i e f r i f i ye o e f r e n m i r f a a o t m t f dm n l im n wt u a etg o g ass m S a d dtsan m dl d t sa d f i h u a et r u e et iot cn t r i l e . k o a hr g ebs o h hr h s n e e ae r q , h f i h in yt e o i f n a i o a n e e e
共享数据库
元数据
图 2 元数据结构 图
3 源数据库的模式信息 . 1
系统要从源数据库抽取共享数据, 首先必须获取关于源
区 夔到 }1 } }
共享数据
数据库的模式信息, 并将其保存在共享库的元数据信息中, 这 些元数据包括: ( 源数据库索引表MO e B 说明了每个数据源的基 1 ) D Bz : i D 本情况, 如数据库的名称、 数据库名、 数据库类型、 D 2 如 B或 者O A L 、 R C E 物理位置、 连接字符串等, 并为每个数据源分配 一个惟一的标识(i ; (d w) ( 对于源数据库中的数据表使用两张表存储其详细的模 2 )
摘 要: 企业实现信息化的过程中, 在不影响原来应用的情况下, 建立有效的信息共享或集中、 统一管理的机制成为目 前最 基本的需求.因此在通过分析 目 前的数据共享技术的优缺点, 出并实现 了一种基于共享数据库的数据共享的模型.重点 提 分析 了此系统中的: 元数据及其管理; 基于E A规则的增量数据的捕获。 C 最后介绍了此种系统在校 园信息化中的应用情况。 关键词: 共享数据库;数据集成;元数据;增量数据;触发器 中图法分类号:P1 1 T 31 3 文献标识码: . A 文章编号:00 0420)8 93 4 10- 2 ( 70- 2- 7 0 1 0
第 2卷 第8 8 期
Vo . l2 8 No 8 .
计算机工程与设计
C m u r i en ad i o pt E g erg D s n e n n i n eg
20 年 4 07 月
A r2 0 p. 7 0
基于共享数据库的数据共享技术
王天亮, 陈 刚, 徐宏 炳 106 ( 东南大学 计算机科学与工程系,江苏 南京 209)
0 引

随着计算机技术的迅猛发展及其应用, n r t 在Ie e tn 企业和 政府各机构、 部门内部都逐步实现了业务、 办公自 动化等计算 机管理系统, 出现了各种信息系统, 但是各个信息系统之间的 应用逻辑存在着很大的差异, 数据没有统一的规范, 这就造成 了各个系统相互孤立, 信息无法交流和集成, 在内部逐渐形成 了所谓的“ 信息孤岛” 。 在企业实现信息化的过程中, 建立有效的信息共享或集 中、 统一管理的机制成为目前最基本的需求。文中接下来将 要讨论的共享数据库模型弥补了基于 D ( B 数据库) W( - 数据 D 仓库) 两层体系结构的不足, 使得企业中各个部门的人员都能 够有效地利用资源, 满足了数据处理的多层次要求。
K y rs sa d aa ; tieri ; tdt i r et dt tge e w d: r dt s d a g tn m a a n e n l ; gr o h e a b e a n ao t e a ; m a a r c a i
这种方法的特点是 Meio 不存储任何 自己的数据, dt ar 而
dt a i r o d r le b aa z g m rad ro i ot crndts rg nl yTe tho g o abs s s ad i d nl i t et s t mn f u e a h i tho g. ky nl y a e o e n e z y y n h i n h c g h r t an e o h e e o f pp a e o e a c c ts em tdtad aae et t c te i r et dt s lnd F ay sutn h apc i ots h m dl e a n i m ngm n h a u f n e n l -iep i . l t iao ot plao f i o - a a t s , p r o c m a a e r a x a e i l h t i f itn h n e e i m dl e ps r ao iir ue. oeit cm u i o tn no cd n a h n m i s d f t
( 在描述源数据库模式信息中, 3 ) 为了方便管理还需要用到
取转换加载到共享数据库, 形成共享数据以供底层数据源订 阅来实现数据的共享。共享数据库提供的统一的数据模式, 屏蔽了底层数据源的差异, 用户可以基于这个统一的模式订 阅自己需要的数据, 而不比关心数据所在的具体位置。 ( 数据抽取: 把数据从各种数据源抽取到共享中, 1 ) 形成共
相关文档
最新文档