网格环境下数据副本创建策略

合集下载

数据网格下副本一致性问题的研究

数据网格下副本一致性问题的研究
维普资讯
2 0 年 第 1 期 08
计 算 机 系 统 应 用
数 据 网格 下 副 本 一 致 性 问题 的研 究
The Re ea c fRe ia Con it c orDa a Grds s r h o pl c s s en y f t i
2 相 关 研 究
副本 一致性是副本 管理 中 的重要 组成部 分 , 接 直

致性 , 实现效 率很低 , 将会在很 大程度 上增大数 据网 在国内 , 中科 院 的孙毓 忠和徐 志伟提 出了数 据 网
格 系统的数据响应时间。 络 中的懒 惰拷贝和 积极拷贝 两个一致性协议 。懒惰 拷 贝的协议 是副本 仅在访 问 的时候才去 更新 , 它可 以
模型 ( C T R pc o s tnyb sd Pi i n i s m d 1及 算法 , R PM,e laC nie c ae r r a dT i s ot y met pMo e) a 并在模 拟环境 O tr m p S o i
下与其他 两种传统的算法进行 比较 。通过 实验 模拟表 明, 文的模 型算 法要 明显 的 比传 统算法更 适合 本
的、 独立 的、 异构的储存系统组织成一个逻辑 意义上 的
整体 , 为用户提供高效 的、 可靠 的、 可扩展 的 、 海量 的存
问延迟大 , 且经常存在网络 失效 ;

储 资源、 但这 些数据经 常存放 在不 同的存储 系统 中和
不 同的位置上 , 这让 用户使 用起来 很不 方便。副 本机
于网格环境 中保持 副本的一致性 。
关键 词 :数 据 网格 副 本 一格 …通 过 将 Ien t 存在 着 的大量 分散 n re 上 t

数据网格中一种均衡性能的副本一致性算法

数据网格中一种均衡性能的副本一致性算法

数据网格中一种均衡性能的副本一致性算法
荣翠芳;李明楚;孙伟峰;姚红岩
【期刊名称】《计算机工程与应用》
【年(卷),期】2010(000)022
【摘要】通过比较和分析数据网格环境下aggressive-copy和lazy-copy两个副本一致性协议,针对两个协议的不足,在扩展副本一致性框架的基础上提出了一种新的副本一致性lazy_agg-copy算法.该算法在多层框架下随机选择部分副本进行一致性更新,可以弥补已有两种算法的缺点.将lazy_agg-copy算法和已有两种在网格模拟软件OptorSim下进行了模拟.模拟结果表明,lazy_agg-copy算法在实时性、网络负载和带宽消耗方面都能取得更好的均衡,可以达到更优的整体效果.
【总页数】5页(P83-87)
【作者】荣翠芳;李明楚;孙伟峰;姚红岩
【作者单位】大连理工大学,软件学院,辽宁,大连,116621;大连理工大学,软件学院,辽宁,大连,116621;大连理工大学,软件学院,辽宁,大连,116621;大连理工大学,软件学院,辽宁,大连,116621
【正文语种】中文
【中图分类】TP393
【相关文献】
1.数据网格中一种QoS驱动的副本选择算法 [J], 高瞻;罗四维;蔺源
2.数据网格中一种填空式副本分配算法 [J], 陈磊;李三立
3.数据网格中一种基于副本和缓存的元数据管理系统 [J], 石柯;王庆春;吴松
4.数据网格中一种基于滑动窗口的副本创建和替换策略 [J], 王驰;施亮
5.数据网格中一种启发式副本放置算法 [J], 付雄;王汝传;邓松
因版权原因,仅展示原文概要,查看原文内容请购买。

基于hybrid拓扑的数据网格副本创建策略

基于hybrid拓扑的数据网格副本创建策略

储在层次结构 的根节点上 ; ) b 最佳客 户端策 略 , 在请 求文件 次 数最多 的客户站点上创建 副本 ;) 布策略 。 C瀑 在从 根站点 到请 求文件次数最多 的客户 站点 的路径 上依次 创建 副本 ; ) d 缓存 策略 , 各个站点保存所请 求文件 的副本 ; ) e 瀑布策 略结合缓存
有效地提高 了系统整体性能 , 同时多个 副本 的存在 也增 强了系 统的容错性 , 避免 了单点失效 。 数据复制技术的一个关键 问题是 如何制 订有效 的副本 创 建策略使系统平 均响应时 间最短 、 带宽 消耗最少 , 即选择在 什 么时机 、 什么地方创建哪个文件 的副本 。副本创建 策略考虑的 因素主要包 括网格系 统的拓 扑结构 、 系统 运行负 载 、 存储终端 效率、 网络状况和数据副本 大小等物理特性 因素以及用 户访 问 模 式 J 。以往 的副本创建策略 多数依 据在层次 网格 拓扑结构 中用户请求 文件 的频 率 , 本文提 出了一种在混合式 网络 拓扑 结
包含树型 拓扑 和环 型拓扑 的 混合式 网格拓 扑 结构 , 出 了一种 考虑 网络 带 宽、 提 网络 传输 延迟 、 用户请 求频 率 和站
点可用存储空间大小等 因素的副本创建策略, 并引入评估函数衡量各因素的影响大小, 具有 良好的可靠性、 可扩
展 性和 自适应 性 。模 拟 实验的 结果显 示此 副本创 建 策略 可以有 效降低 数据 平均访 问时间。
n t r a d d h,t n frltn y s ra c s e u n y a d g i v i b e so a e s e n nr d c d a v l a in fn — ewo k b n wit r s e c ,u e c e sf q e c n rd a al l t rg i ,a d i t u e n e au t c a e a r a z o o u t n t h r ce iet e i c a a tr m T e s l ain r s l h w t a i e l ain sr tg a d c e a e a ed t c e st f — o o z h h i mu t e u t s o tt sr pi t tae c n r u et v r g aa a c s me ef o s h h c o y e h i i

数据网格中高效的分布式存储策略

数据网格中高效的分布式存储策略
meh d . t o s
[ yw rs aallcesdt oa ed t gi Ke o d ]prl c s; aa trg ;aa r ea s d
DOI 1.9 9 . s. 0 —4 82 1 0 .1 : 03 6 0i n1 03 2 .0 1 50 3 s 0
构 中数 据 访 问 不仅 是 多 线程 并行 ,而 且 是 多 个 存 储 节 点 并 行 的高 效 文 件 传输 。 本 文 结 合 海 量 数据 文件 的高 可 靠 性 的散 列 分 布 式 存 储 技
本文提出一 种基于数据信息散列算法的分布 式存储和并 行访 问的策略 ,将数据文件通过散列算法划分成多个小 的数 据块文件 ,并分布式的存储在多个存储节点上 ,而仅需要获
1 概 述
在科研领域和数据密集型 的计算领域 ,数据的高速增 长 对数据的存储环境和技术平 台等基础设施提出了更高的性 能 和可靠性要求。数据 网格正是基于海量 的数据虚拟化 管理 和 数据高效共享为 目的发展 的新一代 的数据平 台技术。数据 网 格 环境 中实现数据 的可靠性 和可 用性是基于 数据 的复制技 术 ,即将数据复制存储在 多个存储节点上 ,采用副本选择 算
2 Grd aeU iesyo hn s a e f ce csB in 0 0 9 Chn) au t nvri f iee t C Acdmyo ine, e ig10 3, ia S j
[ sr c] hs ae rp ss ir u ds rg c e ae nIfr t nDi esl g rh i . hs c e a edpo e ntp Ab tat T ip pr o oe ds i t oaeshmebsdo omai s r oi m( p a tb e t n o p a Al t DA)T ish me n ely do c b o

基于蚁群算法的数据副本放置策略

基于蚁群算法的数据副本放置策略
t em ,
Ke r s y wo d :
d;a t lo i m;r p ia in;lc t n sr tg ;vru l r a iain n g rt a h el t c o o a i t e y it a o g nz t o a o
小、 网络的带宽和延迟 、 系统 可靠性 等。本文提 出 了一 种基于
维普资讯
第2 4卷 第 6期
20 0 7年 6 月
计 算 机 应 用 研 究
Ap lc t n Re e r h o o u e s p i ai s a c fC mp t r o

基 于 蚁群 算 法 的数 据 副本 放 置 策 略
沈 薇 ,刘方爱
( 东师 范大 学 信 息科 学与 工程 学院 ,山 东 济 南 20 1 ) 山 504 摘 要 : 出了基 于蚁群 算 法 的副本放 置策 略 , 分利 用 了蚁群 算 法在 目标优 化 问题 中的优 势 , O t S 提 充 用 po i r m模
0 引 言
网格计算 的 目的是提供 一个地理 上分布 的虚拟 组织并 允 许有效共享计算资 源和存储 资源。当今 , 许多 国际项 目正在研 究数据网格 的实现 。为 了通过计 算密集 型应用 来分析 大量 分 布的数据 。在数据 网格 中, 数据可以存储在不 同种类 的存储 系
统中 , 如分布 式文 件 系统 ( F A S或 N S 、 s t aeSs m、 F ) MasSo g yt r e
作业 的执行 代价 ) 和最大化 网格 资 源的利用 率。然而 , 存储 系
置映射 。副本管 理服 务提 供 可靠 的创建 、 删除 和管理 副本 功
能。
统 的数量 和大小是有限的 , 需要一个好 的复制 策略来分析和预 测用 户的需 求 , 并负责找 出多个 副本 中的最优副本 、 复制数据

数据网格环境下的一种副本定位方法

数据网格环境下的一种副本定位方法

t n D R )m t di pooe iat l.I D R , ero u pr o e( S i ( R L e o s rpsdi t s rc n R L T rtr S p e d sT N)aedf e upr l an l o h n h ie iy N r e ndt sp o ct g — i o to i mu t l r l a o esme a lm n e c nl.D R a dp e on go dp rn f S el+A a s n x i e e i s fh t e et f i t p p c t a d a e i e y R Lcnaatot ii r eat go N f ey nl iade- t hj n i T r ys
Ke r s D t i y wo d : a a Gr d;Re l a pi ;Re l a L c t n c p i o a i ;Tertr u p rNo e c o ri y S p e d ;B oh r B n r r e o r t e i a y T e
不太实用 。Gou 项 目组和 欧洲 D t G i 目组联合 提出 的 l s b a r a d项
计算机科学技术研究 的重要 领域 。数据 网格 技术 为用,提 供 L 1
广域范 围内的数据共 享和计 算能力 的集成 。正是 因为大 量 数据和计算能力 的分 布 , 迫切 需要 在 网格 环境 中提 供 数据 副 本。副本技术和副本机制 可 以减少访 问延迟 和带 宽消耗 。通 过创建同一数据 的多个 副本 , 以有助于改 善整个系统的负载 可
平衡和可靠性 。
Ggl j e机制 , g 通过选择 合适 的参数 和配置来 构建所需 的副本 定位服务 。由 D nsegL 等人提出的动态 自适应性 的副本定 oghn i

树型数据网格环境下副本放置算法研究

树型数据网格环境下副本放置算法研究

目受到节点存储能力等因素的限制 , 副本放置成为副本管理 中一 个值得研 究的 问题 。文 中针 对网络带宽受到限制
的树 型数 据 网格 , 考 虑 负载 均衡 的基 础 上 , 出了一 种 利 用 动 态 规 划 方 法 求 解 最优 最 小 可 行 副 本 集 , 后 在 此 基 在 提 然 础 上 利 用折 半 查 找 进行 k个 副 本放 置 的算 法 , 时 间复 杂度 小 于 0 nl n 。仿 真 实验 结 果 表 明 , 种 副 本 放 置 算 其 (2 g ) o 这 法 能 够获 得 较 好 的 负载 均衡 , 效地 提 高数 据 访 问性 能 。 有
FU o Xi ng. ANG W Ru— hu n c a
( oeeo o ue , nigU i rt o ot adT lcmm nctn , aj g2 04 C ia C lg f mptrNaj nv sy f s n e 0 u i i sN ni 10 6,hn ) l C n e i P s e ao n
第3 1卷 第 3期 2 1 年 6月 0 1
南 京 邮 电 大 学 学 报来自( 自 然 科 学 版

Vo. No. 1 3l 3
Junl f aj gU i ri f ot adT l o u i tn ( aua Si c) ora o N n n n esyo s n e cmm nc i s N tr ce e i v t P s e ao l n
ma a e n fd t rd. o r e b s d d t rd wi t r n wi t ・ o sr ie c n i e n o d n g me to a ag i F ra te — a e aa g t newo k ba d d h c n tan d, o sd r g la i h i b l n e o a h s r e t e lc t i a e r p s d ak-e lc lc me tag rt m a e n d n mi aa c fe c e v rwi r p ia,h sp p rp o o e r p ia p a e n l o i h h b sdo y a c

分布式数据库的数据副本与容灾策略选择(系列八)

分布式数据库的数据副本与容灾策略选择(系列八)

分布式数据库的数据副本与容灾策略选择引言:随着云计算、大数据和物联网等技术的迅速发展,分布式数据库的应用越来越广泛。

在分布式数据库系统中,数据的安全性和可用性是至关重要的。

本文将讨论分布式数据库的数据副本和容灾策略选择,以提高数据库的稳定性和可靠性。

一、数据副本的作用和种类数据副本是指将原始数据在分布式系统的不同节点上进行复制。

它可以提供冗余备份,以保证数据库的可用性和数据的完整性。

同时,数据副本还能改善分布式数据库的读取性能,降低网络延迟。

在分布式数据库中,常见的数据副本的种类包括完全复制(Full Replication)、部分复制(Partial Replication)和跨数据中心复制(Cross-Datacenter Replication)等。

完全复制是指将所有数据的副本分布在不同的节点之间,每个节点都拥有整个数据库的完整副本。

这种方式可以提供最高的数据可用性和读取性能,但同时也增加了数据同步和存储成本。

部分复制是指将数据库的一部分数据复制到不同的节点上。

通过选择适当的数据复制范围和策略,可以实现局部数据的冗余备份。

与完全复制相比,部分复制可以降低数据复制的成本,但也可能会导致数据不一致性的问题。

跨数据中心复制是指将数据副本分布在不同的数据中心或地理位置上。

通过在不同地点之间复制数据,可以在数据中心级别上提供灾难恢复和容灾能力。

这种方式需要考虑带宽和网络延迟等因素,并采用合适的同步策略来保证数据一致性。

二、容灾策略的选择容灾策略是指在数据库节点故障或网络中断等情况下,保证数据库的可用性和数据的完整性的措施。

在选择容灾策略时,需要综合考虑数据库的规模、负载特征、网络带宽、成本等因素。

冗余备份是最常见的容灾策略之一,通过在不同的节点上存储数据副本,可以在节点故障时保证数据库的可用性。

然而,冗余备份需要消耗更多的存储空间和网络带宽,并且在数据同步时可能会引入数据一致性的问题。

数据分片是一种将数据分散存储在不同节点上的容灾策略。

网格环境下一种高效的元数据管理策略

网格环境下一种高效的元数据管理策略
sr t ndso eya ditgain 一般 只支持对关 键字 的查 询 , 由于缺 乏语义 信息 的支持 无法保 证查 ci i ic vr n e rt ) po n o 但 全率 和查准 率 , 查询 结果往 往不 能令用 户满意 。
本 文分析 了传统 元数据 系统 的一些特 点并根 据局 部性 原理 和本体 论[提 出一 种高效 实用 的基 于虚拟 4


要: 考虑 到网格环境下传统元 数据管 理系统的不足和元数据 本身的特点 , 根据局部性原理和本体论 提出 种高效 实用 的基于虚拟组织 (i u l ra i t nie O) v ta ognz i .V 完全分布 的元数据系统模型 , r ao . 在这个模型中每个
分布元数据管理系统都 采用 S C sma t td t itlgn ah o tol ) MI C(e ni mea aa nel e t cecnrl r 体系结构, c i c e 该体系结构根

服务 层 : 包括 级别较 低的服 务资源 元信 息 , 使具 有相似性 的服务 资源 聚簇 在 一起 , 成某一 类 VO, 形
包括 服务 资源元 信 息 的发 布 、 找等 请求 , 出请求 的所有 用 户都存 在于资 源层 , 些用 户是服 务 的提 供 查 发 这 或使 用者 。另外 , 每一个 VO 内都存 在一个 主节点 , 图 1 在 如 。主节 点的作用 是负责 VO之 间信息转 发 。
目前 , 用 比较广泛 的元数 据管理 系统 的实现方 法和途 径各 自不 同 , 们对 其进行 了深入 的研 究。比 应 我 较而言 , GT2 G o u o li ) ( lb stokt 2 的工 作 比较深 入 , 中的元 数 据 系统 MD _ ( ntr ga ddso ey s 其 S3 mo i i n i v r ] on c

网格副本选择策略算法的研究

网格副本选择策略算法的研究

的一 个 重要 方 面 ,本 文 主要 对 副 本 管 理 策略 中的 副 本选 择 策 略 进行 了研 究。 数据 副本 的 选择 策 略讨 论 的 是 在 己知 的 多个 数据 副 本 中如 何根 据 4 5时的 网络 状 态选择 一 个 最住 的 数 据 副本 。本 文 提 出 了基 于遗 传 算 法 的 副本 选 择 策 略 ,这 "
i aag i s Re ia ee to sr tgisds us ow os l c e t e lc sa o hec r e ownr plc s Th a r n d t rd . plc ss lc in tae e ic sh t e e theb s p ia m ngt u r nt t r kn e ia ep pe
种选择 策略考虑 了多个副本请求对应 多个副本资源的最佳 分配方案 ,利用遗传算 法得 到最佳 的数据副本分配方案 ,
使 副本 的选 择 策 略 更 高 效 。
关键词:数据 网格 ;副本管理;遗传算 法;服务质量
中图 分 类号 :T 3 1 P 0. 6 文 献 标 识 码 :A 文 章 编 号 : 17 62—9 7 ( 0 7 4—0 3 80 2 0 )0 15—0 3
p r n t i p o e h s nd t g d . h a e i et ae n h pi s e ci rt i b u pia n g me t ot to m r v e a r sT i p p rn si t o e e l a l t ns a ge a o te l a e n a t Qo i a i s v g s t r c s e o t e s r c ma
(Sh o C m ue i c n c n l y C ag h nU i ri S i c n c n l , hn cu ,3 02) c o lf o p t S e e dT h oo , h n c u nv sto c n e dT h oo C ag h n 10 2 o rc n a e g e yf e a e y g

用Optorsim仿真数据网格中调度和复制优化策略

用Optorsim仿真数据网格中调度和复制优化策略
普遍遵循 的空 间换 时间 的原则 , 网格 中主 要采用数 据 复制技术提 高数 据访 问速度 。 那么在 不同站点创
1 相 关 工 作
近几年 ,随着 网格发展 的需要 ,出现 了一些 网 格模拟器 Байду номын сангаас如 B c s , E i r k DGSm 【 i ,Gr Ne , i t d Gr Sm [ hc i 陋 和 O tri 等 。模拟器 的 ii 5 d 1 iSm ,C po s m 作用是模 拟一个 网格环 境 , 在这个模 拟的环境 中研
O 引言
在 数据 网格 中 , 网格执行用 户提交 的作 业时需
和特 点 ,并使用 网格模 拟器 O trm20…仿真动 pos . i
态 网格环境 。 真模型对于 目前较广泛应 用的 四种 仿 作 业调度算法和 三种 复制优化策略进行 评估 , 通过

要 3类 资源 :计 算 ,存储和 网络 。网格必须 根据 当 前 网格 资源 的状 态 ,如 计算 元素 的工作 负载和 特 征 、数据位 置、网络 负载等 因素决定每个作 业 的调
用 Oposm 仿 真 数 据 网格 中调 度 和 复 制 优 化 策 略 tri
王 蝽 ,陈 晶 ,孔令 富
( .燕 山大学 信 息科学与工程学院,河北 秦皇岛 0 6 0 ) 1 6 0 4 摘 要 :数据 网格 中,调度和复制优化 策略 的好坏直接影响网格资源 的使 用性 能。在将优化策略应用于 网格之 前,通常使用仿真环境对其进行 评估 。本文选取网格模拟器 Opos . tri 0仿真动态 网格环境 。仿真模型使用不 同 m2 的作业调度和复制优化策略来衡量其对网格性 能的影响 ,并根据网格性 能评价指标对仿真结果进 行了分析 。 关键词:数据 网格 ;作业调度算法;复制优化策略 ;网格模拟器;仿 真 中图分类号 :T 3 1 P 0 文献标识码:A

网格环境下副本技术的研究与实现

网格环境下副本技术的研究与实现
理。


词 : 网格 ; 计算 网格服务 ; 副本技 术 ; 管理 副本
文献标识码 : A
中图分类号 : P 1 T 31
1 引 言
网格技术是为了满足计算资源 、 计算能力不断增长的需求而提出的, 最终 目标是实现网络虚拟环境下的资源
共享和协同工作 。网格环境中维护 的往往是海量数据 , 且这些数据大多是动态、 分布存储的 , 因此, 数据管理技术 及方案的选择对网格性能来说至关重要 。 副本技术是网格 中提高数据访 问和处理效率的关键技术之一 , 通过在本地或者邻近结点创建数据的副本 , 来
考虑 ; 复制选择中 , 当存在多个副本满足要求时 , 仅仅根据存储空间、 可用带宽等一些静态或全局参数进行排序、 选择 , 既没有充分利用用户访问数据的历史记录 , 以便对用户 以后 的数据访问进行预测 , 也没有根据用户 的请求
有针对性地采取不同的选择策略。总之, l u 提供的复制管理 服务 的灵活性较差, Go s b 无法满足实际网格应用 的 需求。
文章 编号 :1 7 .7 2 2 1 )20 2 .5 6 114 (0 0 0 .180
网格 环 境 下 副 本 技 术 的研 究 与 实现
赵秋云 , 魏 乐
( 成都信息工程学院计算机学院, 四川 成都 60 2 ) 125
摘要: 副本技术是网格 中提高数 据访 问和处理效率 的关键技术 。在 深入研究 现有 副本技术 的基础 上 , 副 结合 本动态管理策 略和网格体系结构 的特点 , 利用 Gou提供 的副本服务相关组件 , 了副本动态管理方案 , 以副 l s b 设计 并 本管理 中最重要 的副本创建模块为例 , 阐述了系统的实现过程 。该方案能够对 网格 环境下副本进行有效 的动态管

SIG网格计算环境中数据传输方式的选择策略

SIG网格计算环境中数据传输方式的选择策略

总第172期2008年第10期舰船电子工程Ship Electronic Enginee ring Vol.28No.10155 SI G 网格计算环境中数据传输方式的选择策略3胡 涛1) 宋志宏2) 杨春辉1)(海军工程大学管理工程系1) 武汉 430033)(海军驻西安导弹设备军事代表室2) 西安 710065)摘 要 介绍了空间信息网格(Spa tial Information G rid ,简称S IG )网格计算环境的体系结构和物理组成。

描述了SIG 网格计算环境在遥感图像处理方面应用的整个流程。

在此基础上,研究了网格环境下遥感图像处理的数据传输方式选择策略,建立了一个文件分割的最优化模型。

关键词 SI G;网格计算;体系结构;最优化中图分类号 TP311Best Way of File Transferri ng i n SI G Comp uti ng Environ mentHu Ta o 1) Song Z hihong 2) Ya ng Chunhui 1)(Depar tment of Mana gement ,Naval Univer sity of Enginee ring 1),Wuhan 430033)(X i πa n Milita ry Affairs Office of Na vy Missile Devices 2),X i πan 710065)Abs tra ct The architecture and t he physical str ucture of spatial infor mation grid (SI G )co mputing environme nt wer e proposed.Then t he whole application flow of Remote Se nsing (RS )image proce ssing in S IG co mputing environment wa s in 2troduced.In grid environme nt ,t her e a re ma ny factor s which infl uence the spee d of R S image processing ,and the file tr ans 2f er ring is one of them.Therefore ,we propose d a strategy of file t ransfer ring and the optimal model of file division.Ke y w ords SI G,grid computing ,a rc hitect ur e ,optimization Class N umber TP3111 引言空间信息网格(Spatial Information G rid ,简称SIG )是一种汇集和共享地理上分布的海量空间信息资源,对其进行一体化组织与协同处理,从而具有按需服务能力的空间信息基础设施。

教育资源网格中的一种动态数据复制技术

教育资源网格中的一种动态数据复制技术

本 目录 中; 用户通过查 询 目录 已发现所有 现存 的数据 副本 , 并
在其中选择较好的一个或多个副本用于访 问。
术 。这种共享强调对计算机 、 件 、 据及其 他资源 的直接 访 软 数 问, 而不是简单 的文件交换 。可 以说 网格就是通过把分 布的资 源集 中整合起来 , 获得任何单独计算机无法达到 的性能 。数据
Dy a c d t e l ai n t c n l g n e u ai n r s u c rd n mi a a r p i to e h oo y i d c t e o r e g i c o
GAO a LI Fa g a Tin, U n — i
( colfI om t nSi c E gnen ,S adn oma nvrt, ia 50 4, hn ) Sh o o n r ai c ne& n ier g hn ogN r l i sy Jnn20 1 C ia f o e i U ei
某 个数 据 文 件 时 , 可 能 直接 在 已有 的 副 本 中选 择 一 个 或 多个 有
境下 , 用户要 完成 一项作 业需要 读取 大量的数据 , 常这些 数 通 据又是 以分布式的形式存 放在 网格 的各个 节点上 。为 了实现 地理位置分散的多个虚拟组织之间的数据共享 , 可以采 用在 用
Ab t a t D t e o r e s a i g i o e o ek y is e n te e u a in g d T i p p rfc s d o h aa rp i ain tc — sr c : a a r s u c h rn s n f h e u si h d c t r . h s a e u e n t e d t e l t e h t s o i o c o n lg . t r ic s ig a r a o a l d lfr rp ia c tlg e,t i p p rs p o e y a c r p ia p a e n t t g oo y Af su sn e s n b e mo e o e l aao u ed c h s a e u p s d a d n mi e l l c me tsr e y, c a w ih c u d s c e su l i r v f ce c f e lc lc me ta d a a tt h n e o s r ’r q e t h c o l u c sf l mp o e e f i n y o p ia p a e n n d p o c a g fu e s e u s . y i r

网格环境下多副本带状数据传输的实现

网格环境下多副本带状数据传输的实现
Ab t a t sr c I h s p p r we ito u e a meh d t ef r r l b e h g - e o ma c r n f r i r n i n n s whc a ef r n t i a e n r d c t o o p r m e i l , ih p r r n e ta se n g i e vr me t , ih c n p r m o a f d o o
多个连接 , 从而有效地提高 了传输效率 。目前 , Gou Oli 在 l s o t b T k ( T 中 G iF' G) r l d P服务器实现 了带状 传输。然而 , 这种实 现有其 局限性 , 并限制 了带状传输 的适用 范围。因此 , 有必要提 出带状
传输 的一种新 的实 现方 案。
Ya gHu n Ou Jaa Hu n ip n n a ifn a gL n e g
( eat etfC m ue Si c a dE gneig S ag a io n n esyS a g a 2 04 , hn ) D p r n o p t c ne n n i r ,h n hi at g U i r t,h n h i 0 2 0 C i m o r e e n J o v i a
p ro an e e r f m c.
Ke wo d y rs
Gr F P Srp d t n fr L a a a c i F t e r se o d b l n e d i a
在带状服务器设 置下 , 数据传输利用多个数据通道 , 有效地
1 引 言
带状数据传输是 网格环境下 一种 高效 的数据 传输方式。在 网格环境 中, 一个文件 通常存在多个副本分布在 多个服务器上 。 带状传输利用多个 T P流 同时从这 多个副本传 输数据 , C 从每 个 副本传输 的数据只是文件 的一部 分。文件 的所 有数 据在全部 到

ceph 创建3副本规则

ceph 创建3副本规则

ceph 创建3副本规则如何为Ceph 创建3 副本规则在Ceph 分布式存储系统中,副本是数据冗余的关键,它可以确保数据的可靠性和高可用性。

副本规则定义了数据在Ceph 集群中的复制方式和策略。

本文将详细介绍如何为Ceph 创建一个包含3 个副本的规则,确保数据的安全性和可靠性。

第一步:理解Ceph 副本规则Ceph 的副本规则是通过CRUSH 算法实现的。

CRUSH 算法是Ceph 的核心算法之一,用于计算数据的分布和复制策略。

副本规则决定了数据在集群中的复制数量和位置。

对于一个包含3 个副本的规则,即使一个副本出现故障,数据仍然可以通过其他副本进行访问。

第二步:创建OSD 池在创建副本规则之前,需要首先创建OSD(Object Storage Daemon,对象存储守护进程)池。

OSD 池是存储对象的基本单元。

可以使用Ceph 命令行工具`ceph osd pool create` 来创建OSD 池。

例如,执行以下命令来创建名为`replicated_pool` 的OSD 池:ceph osd pool create replicated_pool 128此命令将创建一个具有128 个PG(Placement Group,放置组)的OSD 池。

PG 是CRUSH 算法计算数据位置和复制策略的基本单位。

第三步:设置副本数为3创建OSD 池后,可以使用`ceph osd pool set` 命令将副本数设置为3。

执行以下命令:ceph osd pool set replicated_pool size 3此命令将在`replicated_pool` 中设置副本数为3。

当池中的对象超过第一个副本时,Ceph 将自动在其他OSD 上复制副本,以达到指定数量的副本。

第四步:创建副本规则使用`crushmap` 子命令来查看CRUSH 映射表,并选择要使用的CRUSH 规则。

执行以下命令:ceph osd getcrushmap -o crushmap此命令将从集群中获取CRUSH 映射表,并保存到名为`crushmap` 的文件中。

网格环境下基于传输代价的副本优化策略

网格环境下基于传输代价的副本优化策略
srtg sba e n ta p r o t o sde n h l c e stme ta e y wa s d o rns otc s ,c n i r gt ef ea c s i s,sz i i ie,e itngtmef co ,a g e a igt e a c s i s xsi i a tr s g r g tn h c e stme
第2 卷第4 7 期
21 0 0年 4 月
计 算 机 应 用 研 究
Ap l a in Re e r h o o u e s p i t s a c fC mp tr c o
Vo . 7 No 4 I2 . Ap . 2 1 r 00
网格 环境 下基 于传 输 代价 本 优 化 策 略 的副
r a o a l ,a d p o ii g ad n mi a a d c mp e e sv e l a ma a e n t o . B sn e s ltro p o Sm , e s n be n r vdn y a c l n o r h n ie rp i n g me tmeh d c y u i g t i ao fO tr i h mu c rid o tt ee p r n sa d a ay e b u h rv d srt g u c sf l .I h sb e r v d t a h t tg al e ar u x e i t n n l s sa o t e i o e t e y s c e s l t a e n p o e h t e s ae c l b e h me t mp a uy t r y a pid t e lgi n i n n a i n mp o e te e ce c f e l a ma a e n f c iey p l o r a d e vr me t s y a d i r v h f in y o p i n g me t f t l . e o e l i r c ee v

基于访问趋势的热点副本创建策略

基于访问趋势的热点副本创建策略

据 访 问的历 史记录相 结合 。最后 通过数 据 网格模 拟 器进 行模 拟 实验 , 出并分析 了实验 结果。 得
关 键 词 :数 据 网 格 ;副 本 优 化 ;热 点 副 本
中图分类 号 :T 3 3 P 9
文献标 志码 :A
文章编 号 :10 一6 5 2 0 ) 2 0 5 — 3 0 l3 9 ( 0 7 1 — 0 7 0
Sr tg fp p lrrp ia c e t n b s d o aa a c s r n tae y o o ua e l r ai a e n d t c e st d c o e
CAIZh ng ln, YANG e —i Yu— ng pi
( oeeo o p t e cmm nct  ̄ & E gneig Hoa nvrt,N nig2 0 9 ,C i ) C lg l fC m ue Tl o u i i r e am n ie n , h iU i sy aj 10 8 hn r ei n a
以解 决 上 述 应 用 面 临 的 问题 。
本文在有 限的网络 带宽和磁 盘吞吐能力的情况 下, 根据不
断 变 化 的外 部 访 问 特征 和 副 本 访 问 历 史 记 录 来 对 副 本 进 行 优
化 , 而使得用户可以就近访问。整个数据网格系统达到一个 从
负 载 均 衡 的状 态 。
在现 代 科 学 研 究 和 应 用 领 域 中 , 量 的 数 据 是 重 要 的 资 大 源 , 高 能 物 理 和 粒 子 物 理 、 物 医 学 研 究 、 空 航 天 、 字 地 如 生 航 数 球 、 型 武 器模 拟 、 型 数 据 库 和 数 据 仓 库 等 的 应 用 。其 数 据 大 大

网格环境下数据副本管理的研究

网格环境下数据副本管理的研究
1 副 本 管 理 系 统 功 能 及 实 现
副本管理 系统一般 由副本管理器 、 副本 目录 、 副本选 择 器等几个主要部分组成 。 1 1副本的创建 .
L C 和 副本位置索引 (e lc o a in I dx 简称 R I R) R p i a L c t o n e L) 两 部分组成 。本地 副本 目录 维护单个 节点上 的所有 副本信
R s a c o a a R p c a a e e t n G i e e r h n D t e l a M n 9 m n i r d i
洪海燕
H g ai n on H ya
( 华东交通大学信息工程学院,江 西 南 昌 3 0 1 ) 3 0 3 (c o l o n o m t o n i er n ,E s h n i o o g U i e st ,J a g i N n h n 3 0 3 S h o f I f ra in E g n e i g a t C i aJ at n n v r i y i n x a c a g 3 0 1) 摘 要 : 文主要论 述 了在 网格环境下 的数据 副本管理的功能及 其实现. 本 并针对数据 副本管理在 图论 下 的实 际应用进行 研
在 G ou o l中 , l b st o 提供 了—个副本定位服务 (e l c Rpia L ct o e v c ,L ) o a i n S r i eR S 。 R S的工作 是用来 维护 和 向外 提供数 据 文件逻 辑名 到 L 物理名 之间的映射 关系。 一个逻辑文件名可 以和一个或 多个 副本 的物理 文件名存在映射 关系。 R S由本地 副本 目录 (o a e l c aa o s简称 L L c l R p i a C t lg
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网格环境下数据副本创建策略
庞丽萍陈勇
(华中科技大学计算机科学与技术学院湖北武汉 430074)
摘要:本文在网格环境中探讨了数据副本创建策略,包括域内副本衍生和域间副本扩展策略。

策略选择恰当的时机和地点创建副本,在充分利用存储资源的同时改善了用户的访问速度和带宽消耗。

关键词:网格副本创建
Abstract: This article investigates replica location strategies which incorporate in-domain replica reproducing and mid-domain replica spreading strategies based on the grid scenario. The strategies choose apropos time and sites to create replica in order to decrease user access time and network consume under consideration of making use of storage resource.
Keyword: Grid; replica; location
网格环境为广域网范围的用户提供了数据共享和计算能力集成,而广域网络高延迟限制了用户对分散大数据的快速访问,为此,系统需根据用户的动态访问特征及时向用户端扩展数据副本,数据复制减少了数据在节点间的移动,从而降低了用户对远端数据的访问延迟和带宽消耗。

同一数据创建多个副本也能有效的改善负载平衡和数据可靠性。

在网格数据副本模型研究中,副本的创建策略和副本的一致性是两个关键性问题。

前者是根据代价规则评估副本创建时机和地点所带来的数据访问性能提升,后者侧重于如何在广域范围内保证数据副本更新一致性。

本文假定在层次拓扑结构的网格环境中数据更新较少的条件下探讨数据副本的创建策略。

1概念的提出
副本创建策略就是如何确定创建副本的时机和地点。

策略代价评估规则必须考虑运行系统负载,存储终端效率、网络状况和数据副本尺寸大小等物理特性因素,并结合用户访问特征决定副本创建时机和地点。

为了更好的控制副本创建,副本模型根据网络拓扑影响的延迟而区分为域内副本衍生和域间副本扩展策略。

域内副本衍生策略通过在域内衍生副本增加用户的数据访问点以实现域内文件主机的负载均衡;域间副本扩展策略依据Popular原则即用户访问副本次数驱使副本在域间扩展,减少了用户的访问延迟和带宽消耗。

2域内副本衍生策略
域内副本衍生实现在域内创建更多的副本以减轻现有域数据副本的访问负荷,改善负载均衡。

域内任务调度器负责将用户的对域内副本读访问请求任务分配到域内对应副本宿主机上执行。

系统收集任务执行状况和存储主机状态,利用[1]中提出的系统负载预测方法获取存储节点的负载值L,再结合域内用户对域内副本的访问热度,系统根据PQ参数原则[2]触发副本创建进程。

设域内有G个可用存储系统,其中含同一副本存储系统有(S1,S2,…,S n),其对应的负载值为(L1,L2,…,L n);设置参数P,Q(P<Q),P值要求系统可以对剧烈增长的用户访问请求作出及时响应,Q值则对副本创建更为谨慎,其允许文件及副本主机服务器性能暂时波动;T
为域内用户对副本在单位时间内的访问次数阈值;L为域内副本存储节点负载平均阈值。


S m对应的L m=min(L1,L2,…,L n),S m’为G -∑n
i
i
S中最佳存储资源,判断触发时机步骤如下:
(1) 当域内用户单位时间内访问域内副本次数小于T,放弃副本创建;
(2) 在P时段内,(∑n
i
i
L/n)’≥0, 且∀εt∈P, (∑n
i
i
L/n)t≥L,则转(4);
(3) 在Q时段内,若εt Q
∈,(∑n
i
i
L/n)t < L则放弃副本创建;
(4) 触发副本创建进程,进程负责启动和监控S m到S m’的副本传输和创建过程。

3域间副本扩展策略
域间副本扩展主要实现副本域副本向无副本域扩展的过程。

在层次网络拓扑结构中,[3]中提出了六种域间副本扩展策略,其中Fastspread和Cascading较之其它四种策略可以节省网络带宽和延迟达到60%。

Fastspread策略在用户访问文件路径的所有节点主机上创建副本。

Cascading策略可以定期识别热度文件,并将文件沿着层次副本扩展。

本文提出T-value域间副本扩展策略较之前两者更好适应了随机网格数据访问环境。

T-value策略包括:副本访问原则:
文件有多个副本分布在网格中,用户首先选择所在域内的副本访问数据;若域内无副本,用户选择距离自己AS跳数最少的副本域请求副本读访问;若有多个相同跳数的副本域,用户选择反应时间最快的副本域。

副本域为用户选择一个最佳副本宿主机为用户服务。

3.2 创建算法:
假设域内相同副本视作一个副本。

网格范围G内源文件F有多个副本(R1,R2,…,R n)分布在网格各个不同的层次域,其对应的副本数据访问服务范围为(Q1,Q2,…,Q n),源文件F 的服务范围Q f,Q f⋃Q1⋃Q2⋃…⋃Q n = G, 且Q f∅Q i ( i= 1,2,…,n );Q i∅Q j ( i,j=1,2,…,n ;
i ≠j )。

在上述假设前提下,ε
∀Q i (i=1,2,…,n), 设Q i内包含域(D1,D2,…,D n),且R i所在的域∉(D1,D2,…,D n),若对应域D i内用户访问R i的次数为h i,(D1,D2,…,D i-1,D i+1,…,D n)域用户读访问副本R i数据经过域D i的总次数为h i’,系统根据副本尺寸大小和Q i内网络拓扑结构设定各对应域访问次数阈值T i。

ε
∀D i (i=1,2,…,n),若h i+h i’>T i,则无副本域D i向R i所在域申请副本创建。

4性能参数比较和分析:
假定在模拟网格环境中比较T-value域间副本扩展策略和Fastspread、Cascading性能。

若网格环境中有7个主数据域节点,主节点之间和用户与父结点之间网络带宽都为100M,网络延迟为20ms,,第三层节点域的用户访问位于根节点域的文件F1,文件大小为100M, 网格语境根据用户的访问特征分为集中式、平均式、分散式三种模式。

比较指标有副本存储空间占用、副本访问网络传输时间、副本更新时间三种参数。

副本存储空间占用反映文件F1的所有副本创建后占用的物理存储空间;副本访问网络传输时间指副本创建后,特征用户平均访问一次副本数据在网络间传输的时间;副本更新采用Master-Slave完全机制,其时间包括源文件的一次更新扩展到所有副本所经历的总时间。

4.1 三种策略下的副本创建
下面,讨论集中式、平均式、分散式三种模式下,分别采用Fastspread、Cascading、T-value 策略时副本创建的情况。

4.1.1 集中式::
在集中模式下,对文件F1的访问集中在某一个用户(如user1)或某一个用户域(如D1),在此模式下三种策略副本创建如图1所示。

D1 D1
User1 User1
图1 集中模式副本创建
4.1.2 平均式
在平均模式下,对文件F1的访问量平均分布在各底层用户域(如D1,D2)。

在此模式下三种策略副本创建如图2所示。

Fastspread Cascading T-value
图2 平均模式副本创建图
表2 平均式副本创建性能指标比较
4.1.3 分散式
在分散模式下,对文件F1的访问量在部分用户域呈现平均趋势(如D1,D2),在部分用户域呈现集中趋势(如D3)。

在此模式下三种策略副本创建如图3所示。

D3
User1
图3 分散模式副本创建图
表3 分散式副本创建性能指标比较
4.2 三种策略的性能分析
从上述特定语境下的模式对应副本创建性能指标初析结果得出,Fastspread策略总是能保持最快的访问响应时间和最低的带宽消耗,其是以牺牲存储空间为代价的,百兆副本创建存储空间消耗和副本更新时间是其他两种策略的大致2-3倍,而百兆副本读访问时间相对于T-value却只能减少2%之内。

T-value在保持和Cascading的相同存储空间占用和较低的带宽消耗的情况下,副本更新时间虽略有上升,百兆副本读访问时间却有减少。

三种策略比较而言,T-value策略在常见的更新较少的数据网格环境中是系统副本创建策略的较佳选择。

参考文献:
1. 李庆华,郭志鑫.一种面向工作站网络的系统负载预测方法.华中科技大学学报, 2002,30(6):49-51.
2. Byoung-Dai Lee,Jon B. Weissman: An Adaptive Service Grid Architecture Using Dynamic Replica Management.GRID 2001:63-74.
3. K. Ranganathan and I. Foster, Design and Evaluation of Replication Strategies for a High Performance Data Grid, International Conference on Computing in High Energy and Nuclear Physics, Beijing, September 2001.。

相关文档
最新文档