数据存储与解决方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
硬盘的进展-密、快、小、廉
硬盘的分类
1.用于服务器的硬盘:高容量、高速度 2.用于桌上机的硬盘:主流容量、速度、 低价格 3.用于笔记本电脑的硬盘:小体积、低功 耗 4.用于手持式设备的硬盘: 微硬盘Microdrive
四类硬盘的规格指标
不同尺寸的硬盘
密度的进展
密度与技术
数据存储及解决方案
华中科技大学信息存储系统
武汉 430074
三种基本的信息操作
处理 传输 存储
基本定义
处理:对信息进行变化和加工 传输:信息跨越空间的传播 存储:信息跨越时间的传播
存储是信息技术的三大基石之一 (被我国忽略的领域)
对人类文明的重要性
处理:产生知识 通讯:传播知识 存储:积累知识
解决性能问题的8条途径
1.Cache 技术,RAM-DISK, RAM-RAID RAID-TAPE(HSM) 2.高速I/O通道:SCSI(160-320), FC(1-2-4G) SATA(150-300), IP(1-10G) 3. 聚合带宽(并行技术): 多主机-单存储,单主机-多存储 4. 改变工作方式:基于磁盘的系统,随机小写 与连续大写性能差100倍,变小写为大写 5.提高协议效率:FC vs iSCSI 6.采用就近原则 7. PTP对等存储原理 8.第三方直接传输
原来信息论适用于信息的传播!在空间和时间 上,他们遵从一样的原理!
三位一体的数字信息学理论
图灵机主要是针对计算的,但隐含了通 讯和存储 信息论主要是针对通讯和存储的,但隐 含了计算 处理、传输、存储在理论上是三位一体 的,缺一不可 上述理论解决了数字信息学的全部?NO!
硬件发展的6个规律
原因:目前的存储设备都是被动的,对设备的 管理都在上层进行,面对异构的多种存储设备 和异构的互联网络,管理软件都要适应,造成 复杂性日益增加
解决途径:基于对象的存储系统,主动存储 CMU提出OBD, SNIA提出标准 存储对象:包括数据和对数据的操作 管理下移,使存储设备包含更多的智能 标准的对外接口和描述 管理大为简化
存储系统—用“砖头”构建的大 厦
正如无论多快的
单处理器无法满 足超级计算的要 求一样,无论多 大的单个硬盘也 无法满足网络存 储和企业存储的 需要
存储系统的技术发展思路 (处理与存储的对比)
单处理器---多处理器---多计算机----网格 硬盘------- 阵列-------存储网-----数据网格
当一切信息都转换为数字, 问题就产生了……
典型的存储容量需求挑战
网站多媒体, X on Demand 人类基因库
数字化XX:数字化流域,
数字化城市,数字化地球…...
电子商务
虚拟现实
从现在起的18个月内,新的存储量等于有史以来老 的存储量之和! ———1998年图灵奖获得者Jim Gray
容量问题和 新摩尔定理
10MB
1980 1990 1995 1998 1999 2002
第一爆发点:单机多媒体 第二爆发点:Internet
第三爆发点:宽带(目前)
第四爆发点: 空间影像和虚拟现实普遍应用
空间影像
另一种模式:不断的增长
即使处理、传输能力固定不变,随着数据 不断产生,存储能力也需要动态单调地 增加。(水泵、水管、水桶的比喻) 处理和传输速度越高,容量的增加的梯 度就越高,这就是存储系统的不断扩展 特性。 结论: 无限的容量需求和动态扩展需求
对很多领域,数据是比硬件设备宝贵得 多的资源: 银行、电信、保险、电子商务、网站、 企业信息………
数据物理安全 :存储最重要
处理部件、传输部件损坏: 损失有限, 更换可恢复 存储部件损坏: 数据丢失!巨大的损失! 两个亲身经历的例子: 同济医院信息系统,广东石龙医院火灾 建筑行业一定有安全系数,80%的信息系统 没有安全系数!
后PC时代的计算--普适计算 Pervasive Computing
后PC时代 计算机发展的特点: 1. 无所不在的含有 智能的小装置; 2. 支持服务的后台 服务器和巨型计算机
对应于后PC时代 两极分化的存储
移动存储:Flash,
微硬盘,微光盘
企业级海量存储
数据存储的 基本问题
Enterprise Applications
Client/Server Basic Accounting
70’s 80’s 90’s 00’s 10’s
存储的前沿
半导体存储:RAM, ROM, FLASH 的高 速发展 PC机的主流硬盘 80GB 目前硬盘存储: 100GB 容量增加8,000 倍 10GB 2万转/分 实验室水平: 4GB 一道一G 500MB 100MB
结束语
PC热--网络热--存储热,国际IT业的第三次热 潮和淘金机会 IT设施的75%投资花在存储系统上 我国的海量存储系统几乎全部进口 十年前的通讯市场和目前的存储市场十分相似 谁是存储领域的联想、华为? 我国的标志性成果: 10万亿次超级计算机,万兆路由和交换, 存储没有等量级的标志性成果
从现在起,每18个月,新增 的存储量等于有史以来存 储量之和!
———1998年图灵奖获得者Jim Gray
数据信息爆炸式增长
Explosion in Data Volumes
Wireless Online Video
E-Commerce Customer Mgmt.
Data Analysis
D A T A
数字信息学的
科学基础
(力学:牛顿定律) (电学:麦克斯韦方程) (数字信息学:?)
最基本的理论:图灵机
希尔伯特问: 存不存在一个解决所有数学问题的一般算法? 图灵答道:有! 图灵理论的俗解: 如果不考虑时间,只要按某种规律对bit进行处理、传输、 存储三种简单操作,就能在理论上解决任何数学计算问 题! 图灵机模型主要是针对计算的,但存储和通讯隐含在其 中 这个理论指明了bit的强大功能,也包含了计算机的设计 思想
Βιβλιοθήκη Baidu
只读光盘:CD-ROM,DVD-ROM
闪存(Flash memory) 移动存储的新星
各种规格 SmartMedia CompactFlash Memory Stick(SONY) PCMCIA接口 USB接口--Easedisk、 Netech
光存储的进展
目前:CD-ROM, DVD-ROM, DVD机 DVD-RW(DVR) 最近要产品化的技术:向高密度进军 蓝光DVD, HD-DVD 多层多阶光存储 近场光存储 全息光存储
解决性能问题的新思路
对现状的观察 (1)硬盘每年的容量和性能都在提 高 (2)现有的RAID系统,换了一个硬 盘之后整体性能没有提高 (3)越用性能越差
管理复杂性问题
异构的存储系统 规模越来越大 系统越来越难以管理,人为错误越来越 多 管理成本越来越高,管理成本超过设备 成本
管理复杂性的解决途径
Disk Half-height canister
性能问题:
瓶颈的转移 应用的转移
网络瓶颈 CPU瓶颈 70年代 90年代
80年代
00年代
内存瓶颈
海量存储瓶颈
共享处理机
共享存储器里的数据 Make the common case fast!
网站的存储:几十万用户同时点击到一个站点 去获得海量存储系统中的信息。 WWW: world wide web 变为world wide wait
第二层的理论:信息论 关于信息时空传播的理论
在通讯和存储两个领域工作过的人都会发现,他们涉 及的问题竟然如此类似 通讯的编码理论完全可以用于存储 通讯:信源编码,信道编码 存储:纠错编码,调制编码, 磁盘阵列的容错原理 加密理论、信息的压缩原理对通讯和存储是一样的 本质的道理:通讯和存储都是信息的传播,差别在于: 一个跨越空间,一个跨越时间
由软件和硬件共同实现
磁盘阵列 (多个硬盘)
容量、速度、可用性
Storage Area Networks (SAN)存域网结构图
系统结构必须和软件相配合
存储虚拟化软件(单一逻辑映像) 存储资源管理软件(容量、级别,性能) 存储备份、数据迁移软件
可靠性和可用性问题
当关键信息转换为数据时,数据成为 最宝贵的财富
IBM微硬盘 Microdrive
应用领域 移动计算 数码相机、数 码摄像机
磁头的进展
可换式存储
软盘:1.44MB 顽强的生命力 高密度软盘:Zip 100/200MB(IOMAG) LS-120(兼容1.44) HiFD-200(兼容1.44) 磁光盘(MO):1.3GB/650MB/230MB CD-R/W, DVD-RW, DVD-RAM
1. Moore定律:微处理器内晶体管数每十八个月翻
一番; 2. Bell定律:如果保持计算能力不变,微处理器的 价格每十八个月减少一半; 3. Gilder定律:未来25年(1996年与预言)里,主 干网的带宽将每6个月增加一倍; 4. Metcalfe定律:网络价值同网络用户数的平方成 正比。 5. 半导体存储器发展规律: DRAM 的密度每年增加 60%,每三年翻四倍。 6。硬盘存储技术发展规律:硬盘的密度每年增加约一 倍
容量问题的解决途径
1. 减小bit位元尺度,提高密度 采用各种物理原理和现象减小位元 磁(翻转尺寸)、光(光点大小)、电 (线宽)、生物、量子 密度:道密度、面密度、体密度 2. 建立存储系统,用“砖头”构造“大厦”
单个硬盘的技术进展的进展
硬盘是最重要的大容量存储设备,50年 代由IBM发明以来密度增加了1,000, 000倍,到目前为止,还没有找到能与之 竞争的对手 最近的密度超过100Gb/in2,主要技术: 超低飞行磁头10nm,加钌超稳定介质, PRML读通道,光磁混合纪录,垂直磁 记录
三种级别的可用性
1. 数据不丢失(最起码的要求) 2.系统不停机(7×24服务的保障) 3.性能不下降(优质服务的保障)
解决可用性问题的典型途径: 冗余 (双机,网络RAID) 备份 (磁带、光盘、硬盘)
解决可用性的新思路
具有耗散结构的存储系 统 借鉴生物系统原理:心 脏之所以保证数十年的 可用性,不是因为材料 特别好,而是因为新陈 代谢 UCB的ISTORE 华中科技大学的进化存 储系统
存储的前沿
半导体存储:RAM, ROM, FLASH 的高 速发展 PC机的主流硬盘 80GB 目前硬盘存储: 100GB 容量增加8,000 倍 10GB 2万转/分 实验室水平: 4GB 一道一G 500MB 100MB
10MB
1980 1990 1995 1998 1999 2002
数据生命周期问题
一切都存下来,不是一个好的办法 无限扩大容量,成本无谓增加 管理和保存无用的数据,是巨大的浪费 无用信息干扰当前信息存取的性能
解决途径:向大脑学习遗忘机制
重要的信息深层记忆,不重要的浅层记 忆,无用的信息忘掉
结论
处理、传输、存储是信息技术的三大基石 存储是信息跨越时间的传播 只要对数字进行操作,就能解决一切信息问题 信息论是信息时空传播的共同理论基础 硬件是数字操作机(只有三种简单操作:处理、 存储、传输) 软件是思想和内容的数字化 存储系统的基本问题有容量、可用性、性能、 管理复杂性、数据生命周期等,它们都有各自 的解决途径