一体化数据管理平台DATRIX产品介绍120515
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一体化数据管理平台DATRIX
产品介绍
因“虚”而实,数据管理创新
需求篇
IDC数字宇宙研究《从混沌中提取价值》指出,全球的数据量每18个月就要翻一番,目前每年产生的数据量已经高达40EB(1EB=10000PB),未来十年全球的大数据将增加50倍。
数据飞速的甚至是爆炸式的增长方式,每个信息用户都深有体会,从上世纪早期数据容量大多以MB为单位,到上世纪末过渡到以GB为单位,再到当前TB已是标准单位,甚至PB级别的数据量在很多系统中也不再是一个偶然现象,种种迹象表明,大数据的时代已真正到来。
大数据这个词汇越来越多地被提及,从大数据的定义来说,大数据具备三个V的显著特性:
1、Volume:数据量巨大,起码是TB级别以上的数据量才称之为大数据,对于大数据来说,数据量的巨大导致访问、处理、传输各个方面开销显著增加,也就有必要使用更好的处理方式来应对。
2、Variety:数据类型繁多,结构化数据、非结构化数据和半结构化数据各自均包含多种数据类型。
结构化数据中主要为数据库数据(ORACLE、DB2、SQL等);非结构化数据类型更为丰富(办公文档、文本、图片、XML、HTML、各类报表、视频、音频等);半结构化数据是一种新型的定义方式,相对于结构化数据的先有结构再有数据,半结构化数据则是先有数据再有结构。
多种数据类型并存导致整个数据处理难度加大,无法用统一的手段来解决全数据问题。
3、Velocity:数据增长非常快速,这种增长速度之前是难以想象的,随着更多的业务发展(社交媒体、云计算、物联网等),各种先进数据格式的出现(高清、3D、富媒体等),导致了数据是爆炸式的增长速度。
这种爆炸式的数据增长主要是由数据的属性所多样化带来的,数据首先具备时间属性,历史数据、当前数据和未来数据均需要保持和考虑,需要保留多个历史副本;其次数据具备多格式的特性,一份数据会因应用系统的不同而带来不同格式的访问需求;最后数据还要有多位置的属性,在个人、家庭、单位及云环境下会有多个副本,用于多个场景。
非结构化数据管理难题
非结构化数据在大数据中时代的地位无疑是最为重要的,根据Gartner统计,在当前的环境中,企业有20%的数据是结构化数据,80%的数据是非结构
化数据。
其中,结构化数据增长率大概是32%,非结构化数据年复合的增长率则高达63%。
同时,整个非结构化数据很大一部分是来源于人与人的互动及自我生产,是以人为中心产生的,所以它的重要性不言而喻。
结构化数据我们都非常熟悉,典型的应用在企业中就是事务数据、定量的数据,可以被二元属性来描述。
结构化数据采用数据库的组织形式就可以很好的被管理,企业通常通过结构化数据的收集、存储、查询来生成报表、研判趋势、制定战略、优化运营。
非结构化数据管理的难题主要在于无法很好的统一描述,并且很难用现有成熟的平台进行管理,举例来说你无法将影像资料数据和微博产生数据用统一的方法来管理。
换言之,非结构化数据无法简单的用二元属性来描述,也就很难由现有的数据库系统来统一管理,这些种类越来越多、比重越来越大的非结构化数据为企业的数据管理带来巨大挑战,如果缺乏有效管理将导致整个IT系统运行效率低下、影响应用系统的使用、进而丧失数据价值。
当前过渡方案
针对非结构化数据难以管理的难题,不同的行业提出了许多不同的方案及产品,然而这些基于行业的非结构化数据管理解决方案有极强的行业特性,往往采用的是将非结构化数据转为结构化数据进行处理,可以部分满足当前小数据规模情况及可预计数据类型情况下的非结构化数据管理。
广电行业的媒资管理系统实际就是一个非结构化数据专用管理平台。
大多数当前的媒资管理系统偏向归档和内容管理,对整个数据的行为分析则很少涉及,实际上放弃了很重要的数据行为分析等有价值的内容,并且人为的将在线编辑和近线媒资管理区别开来也对整个系统的有效应用带来了困扰。
再看医疗行业的PACS系统就是典型的非结构数据管理方案,其主要针对医疗影像系统(高分辨率片子)进行有效的管理、存放,结合其他的患者基本信息和诊断书进行统一关联,可以提高诊断效果和效率。
一旦有新的非结构化数据产生的系统上线,则有可能需要再次对整个系统进行改造,才能满足使用需求。
再比如在保险行业,个人基本资料等理赔人属性和赔付金额、日期等理赔数据都可以做成关系型数据存入数据库,但还有些资料,比如理赔对象的住院产生的单据、其他说明资料等非结构化数据则会以文件形式存储起来。
当理赔
员做赔案时,则会将所有资料都调出,以前没有专门的非结构化数据管理,整个调用纸质资料的过程甚至长达数月时间,对用户满意度和理赔准确率、及时率的影响都非常大。
简单对比以上的非结构化数据管理方案,我们会看到很大的问题,总结来说就是它们都没有从数据管理本质出发解决问题,而是修补性的解决当前部分问题,这就导致随着数据量的日益巨大(Volume)、数据类型的越来越丰富(Variety),数据增长越来越快(Velocity),整个系统将难以支撑。
所以,如果一个行业完全根据当前需求来建设非结构化数据的管理系统,就无法跟上大数据时代的步伐,被动地去适应,终究会被淘汰。
一体化数据管理平台
DATATOM因“虚”而实,提倡数据管理创新,立足数据管理技术及产品,向用户推出一系列数据管理行业解决方案。
DATRIX是DATATOM专门针对非结构化数据的特点,抓住数据管理本质(八个数据管理维度)来解决非结构化数据管理难题的产品,其主要解决的问题包括:
数据类型难以统一,非结构化数据很大的特点就是其杂乱性,各种类型的数据,有各种各样的数据属性,所以无法象结构化数据一样用数据库来统一描述所有的数据类型。
DATRIX采用半结构化的描述方式,将不同的数据类型文件用同样的描述语言描述,可在用户环境内将支持的所有类型文件翻译为同一种描述语言,在对相应的数据进行统一分类、编目及标签。
这样,无论用户的非结构化数据如何变化,都将在DATRIX中统一有效管理。
数据访问难以同步,大多数行业非结构化数据的管理会将在线和近线分离开来,也就是生产数据的系统为在线应用,非结构化数据管理系统为近线系统,这种割裂的管理方式主要是因为之前的非结构化数据生产系统和非结构化数据管理系统是由不同的系统构成的,生产系统强调的是效率,而管理系统强调的则是管理。
这种方式让用户无法有效实现通畅的业务流程,也会带来很多不必要的开销。
DATRIX则结合了DATATOM在非结构化数据生产系统(在线存储)和非结构化数据管理系统(近线存储)的专业能力,有效的将两个系统的数据访问同步结合在一起,为用户体验带来显著收益。
例如在广电行业,我们就将广电专用网络存储NEUTRINO和数据管理平台DATRIX的特性结合在一起,用户在非线编辑系统中可直接上载数据入媒资库,也可直接在媒资库中下载数据到非线编辑系统,而整个流程是完全不产生网络流量,仅在系统内部进行交换。
数据内容难以查找,文本内容、文档内容、视频内容、音频内容及图片内容,这些除了文本内容便于识别外,大多数内容是很难被查找的。
DATRIX则在很多方面突破了限制,采用多种特征算法,实现了大部分数据内容的查找。
这样一来,用户可以通过细节定位,快速找到相关的数据,避免了在浩瀚的数据内找不到相关数据的困境。
同时,DATRIX支持自动分类、编目分类和标签分类,并可提供相应的行业模板,用户可以方便的将数据进行有效的分类,并对其进行全面的索引,也大大提高了数据的查找效率。
数据安全难以保障,一旦数据进入了管理平台,往往在线应用将不再保存副本,,因此数据的安全性非常重要,一旦丢失,影响很大。
DATRIX在这方面主要通过单节点方案的可靠性和多节点分布式系统来予以保障。
真对于单节点的方案,DATRIX首先采用一台专用的存储设备,具备了专业存储对于数据安全的所有方面(RAID、冗余电源、冗余系统及性能自告警等)设计。
同时,单节点可扩展到两两镜像(设备级别镜像),可配置定时(最小1分钟)及实时的同步镜像方式,尤其是实时的同步镜像方式基本可以做到数据的完全一致,即便其中任何一台设备故障,镜像设备的数据可继续提供服务并保证数据的一致性。
多节点分布式系统则借助DATATOM的分布式云存储产品INFINITY的设计,可实现指定数据(目录)的多份保存,在节省容量空间的前提下,还可以实现磁盘、节点、网络等任何故障情况下数据的不丢失。
数据行为难以分析,数据的增长是如何的?数据的访问规律是如何的?数据的冷热分布是如何的?DATATOM在系统内记录着所有数据行为,并为数据的周期进行完整的记录,这对于用户来说,可提供更多地决策依据,实现更多价值的挖掘。
在非结构化领域选择DATRIX系列产品将使您的非结构化数据管理摆脱以往的困境,提供一个具备良好支持能力的非结构化数据管理平台,同时,考虑到用户的实际差别较大,行业特征各不相同,我们也可以为您提供相应的开放数据管理接口,匹配您的应用环境,直接整合到企业现有的业务中去,更好的提升系统工作效率。
功能篇
DATRIX是DATATOM推出的一体化数据管理平台。
DATRIX的一体化体现在数据管理维度的全面覆盖,将数据存储、数据安全、数据迁移、数据分享、数据转码、数据分类、数据查找和数据分析在一个系统上实现。
DATRIX的数据管理则体现在非结构化数据领域,可针对用户非结构化数据实现文本、文档、视频、图片、音频等各种类型的数据的有效统一管理。
而DATRIX的平台体现在整个系统架构可从单节点到双设备,并利用集群云计算技术来实现其无限Scale Out(访问带宽、数据容量、计算资源)的扩展能力。
八大数据管理维度
DATATOM团队经过多年的市场分析与技术实践,深刻的认识到在整个数据管理领域其实有许多细分的实现,例如存储设备解决的是数据存储的问题,而备份容灾解决的是数据安全问题,如果将所有的数据管理维度都整合起来,对用户而言才是真正的全面数据管理解决方案。
我们认为,正如上图所示,整个数据管理涉及八大维度,这八个数据管理
维度相互之间进行有效交互,才能真正的提升用户的数据管理能力,为用户的数据带来除应用属性外的更多价值。
存数据管理
DATRIX采用专业存储产品作为基础平台,DATRIX D2400和DATRIX D7200分别实现单设备24TB(1500小时25Mbps视频素材)和72TB(4500小时25Mbps视频素材)的初始容量,当然用户也可在不使用分布式处理方式的前提下通过添加DATRIX D3200来扩展存储空间。
整个系统选用企业级SATA硬盘作为存储介质,可根据需要配置RAID 0、1、5、6等多种级别的磁盘保护。
DATRIX对外接口为4个端口绑定千兆,输入输出能力高达400MB。
同时,DATRIX也可在性能、容量和功能上采用单节点扩展的方式来提高,并支持多节点的分布式环境Scale Out方式进行三个方面的扩展。
用户也可以根据自己的实际需要选配相应的模块来增强数据存储的能力。
在线非编存储,系统在DATRIX中划分出在线编辑的空间,可支持高达同时20层以上的高清在线非编(100Mb码流情况下),并且系统整合了DATATOM产品中已有的NAS系统和虚拟客户端,大大便利中小规模的电视台和制作组进行有效的非编工作。
NAS/IP SAN统一存储,系统可在DATRIX中实现NAS及IP SAN的统一访问,可将整个系统打造为在线近线一体化系统,用户投入一个设备的费用,得到多套系统的能力。
用户仅需在系统中设置相应的NAS和ISCSI卷即可,相应的用户管理等基本功能包含在其中。
分布式调度引擎,专为多节点扩展配置,在DATRIX多个节点组网的情况下,调度各个节点并行处理,按照相应的节点数授权,可大大提高整个平台的计算能力、带宽和容量。
移数据管理
DATRIX可实现基于BS架构的数据上传(录入)和下载,完美兼容WINDOWS、LINUX、UNIX和MAC系统,HTML5的前端系统甚至可支持平板、手机上的数据上传(录入)、下载。
当然,在上传方式上,DATRIX可支持单个文件、多个文件及目录的上传,并且整个上传过程采用直观的进度条表示进度。
用户也可以根据自己的实际需要选配相应的模块来增强数据迁移的能力。
共享上传,系统可在初始化的过程中自动生成Share共享目录,用户可直接将需要上传的数据通过网络拷贝到该目录,然后用户在管理页面上选择共享上传,系统将自动将Share共享目录内的数据上传入库,并将原始数据删除,这样一来将大大方便用户的使用。
离线管理,系统可针对某些数据离线到磁带、光盘上保存,系统可支持标准接口的离线介质(具体支持列表请咨询DATATOM)。
享数据管理
DATRIX提供基于权限的分享系统,使用户可针对数据具备多种权限,并且设定该项权限的适用范围。
同时,用户也可选配其它数据分享的功能模块。
用户配额,系统可支持数据容量和数据文件数量两个维度来限制用户使用,可大大优化存储资源的统一使用。
发布审计,对于类似广电系统的应用,往往数据发布需要有严格的审核,针对这种需求,系统可在数据上传后由审计用户进行对比审核,才可以进入系统发布。
数据过滤,提供根据文件名或文件类型进行符合条件的文件自动删除,避免危害数据或者无效数据占用空间。
例如媒资管理系统针对EXE执行文件等数据可设置无法上传。
转数据管理
DATRIX的转码可实现转码任务的全局调度,分布式处理,将系统提交的各种转码需求进行有效管理。
系统可支持将数据在进入系统的时候自动转码为可预览的格式,例如将视频文件转码为低码流的WebM等。
如果用户对于转码有更高的要求,可配置相应的转码引擎。
视频转码,系统可支持视频文件从系统下载时按照指定的格式、码率、入点出点等进行格式转换。
音频转码,系统可支持音频文件从系统下载时按照指定的格式、码率、入点出点等进行格式转换。
文档转码,系统可支持文档数据从系统下载时按照指定的格式进行转换。
分数据管理
DATRIX的可针对数据进行基础的自动分类,识别视频、文档、音频和图片数据,并且可以进行标签自定义的数据分类,这样就可以在减轻用户工作量的同时,保证数据分类的适应性。
同时,DATRIX还可支持编目模板,对于广泛使用的数据类型,可直接套用编目模板,大大提高使用便捷性,也方便未来的数据交互。
广电专用模板,针对国家制定的广电编目规范,对视频素材可直接进行数据编目。
照片专用模板,系统可支持拍摄照片的全面管理,可根据照片的实际描述信息进行录入。
图书专用模板,系统可支持发行图书的实际描述信息进行编目。
PDF专用模板,系统可支持PDF类型文件的专用信息编目。
找数据管理
DATRIX可针对已有的分类信息进行检索,可快速的定位数据,并且高效的检索引擎可媲美互联网搜索引擎,自动记录用户检索记录,并将检索结果快速分类,便于用于进一步检索。
同时,DATRIX还可支持更强大的数据检索能力,就是对数据内容进行检索,可选的模块包括以下方式检索。
文档全文检索,针对文档数据的文件,系统可根据文档内容进行检索,更细粒度的找到数据。
PDF内容检索,针对PDF数据的文件,系统可根据PDF内容信息进行检索,将内容结果反应在检索结果上。
护数据管理
DATRIX架构在专业存储之上,整个系统采用Linux系统的环境,并且系统采用双备安全机制。
同时,除了提供基本的安全管理外,还可进一步提高数据安全等级。
目录级别镜像,提供单设备内指定目录之间的数据镜像同步(定时同步),最低可以设定1分钟内的同步,并且可设定带宽利用率,也可提供两台设备指定目录之间的数据镜像同步。
实时同步,利用实时同步,可以实现两台设备的主备冗余,一台存储出现故障,可短时间切换到备用存储,两者的数据完全一致,可大大降低数据丢失的风险,保障业务的连续性。
析数据管理
DATRIX在首页面将显示整个数据管理平台的数据量、用户数和文件个数,同样每个用户登录也将显示其相关的数据分析。
同时,整个系统将能够更好的提供有效数据分析内容供用户决策。
冷热数据统计,系统可提供数据访问的冷热程度分析。
数据增长统计,系统可提供基于文件容量和文件数量的天、月、年分析。
访问列表管理,系统可记录在线访问、系统上传、数据查找和数据下载的全部记录,统一记录用户、IP、数据及访问时间。
转码报表管理,展示媒资、转码用户、转码时间、转码格式等信息。
方案篇
采用DATRIX一体化数据管理平台可实现用户全面的数据管理方案,结合当前实际的应用场景,这里给出几个典型环境。
(详细方案请联系DATATOM)
广电媒资管理系统
对于广电用户(电视台、广电网络及媒体制作单位)来说,媒资系统的概念已经提出很多年了,媒资管理又分为存储型媒资、生产服务型媒资和中心媒资三种方式。
由于DATRIX的数据处理方式改变了以往从应用层来实现,而是采用数据层的实现,因此系统的方案适配性非常强,既可以作为存储型媒资使用,也可以作为生产型媒资使用,更可扩展到中心媒资来进行管理。
存储型媒资,DATRIX作为一体化的数据管理平台,可以独立成为一个媒资管理系统,用户可通过WINDOWS、LINUX、MAC等多终端进行数据管理工作,无需限定上下载、编目及检索工作站,每台设备均可通过WEB进行工作,和非编系统平台无关,兼容所有非编系统。
非线编在
线存储
DATRIX一体化
数据管理平台
生产型媒资,DATRIX也可作为生产型媒资,将非编网络集中存储和媒资管理打通,在一个环境内,通过大容量划分相应的空间来为非编共享空间和媒
资管理使用。
在整个流程中,通过内嵌的上下载内部整合,无需实际在在线非编和近线媒资系统中进行数据传送,整个过程在DATRIX 内部交换。
DATRIX 一体化
数据管理平台用户在每台非编工作站点均可挂载自己的素材进行编
辑,并且可直接上下载素材,对素材编目,对素材检索
APPLE AVID EDIUS 大洋索贝新奥特
中心媒资,中心媒资则是把整个数据存放作为一种服务单元提供,DATRIX 可提供基于集群系统的私有云架构环境,可很好的和电视台、广电网络及制作单位的各个业务系统有效整合。
DATRIX DATRIX
DATRIX
DATRIX
DATRIX
电子图书、电子档案管理系统
图书、档案管理系统随着整个业态的发展,书籍档案中音视频及扫描件的内容越来越多,物联网和RFID的出现也带来更多变化,系统变得越来越无法满足发展的需要。
这主要的原因就是以往的系统并没有真正的从数据本质角度来管理数据,而是用实体思维来维护数字化资产。
DATRIX的开放性远超过之前的应用系统,可以更为方便的扩展支持环境和新的应用场景。
举例来说,对于许多学校的图书管理系统以前是无法将书籍中配套的光盘进行统一管理的,而DATRIX就可以方便的将光盘数据拷贝到系统中,关联之前的书籍资料。
同样在物联网应用中,可以将RFID的信息作为一个数据描述信息进行处理,快速定位到具体图书或档案资料。
DATRIX 一体化
数据管理平台RFID
保险、医疗内容管理系统
内容管理其实在很多行业的业务系统中都是一个重要的方面,同时也是一个很大的挑战和难点,诸如在保险行业目前对于非结构化数据的管理还比较简单,就是以文件的形式存储起来,按索引查询。
但由于权限管理的要求,比如某个岗位的人只能看部分文档甚至是部分文档的一部分,公司管理要求越来越细,让用户开始考虑是不是需要上一套专业的内容管理系统。
另外,非结构化数据的量、种类越来越多,要做到快速的查询调阅需要占用系统大量的I/O 资源,这也从另一个方面增强了对内容管理系统的需求。
而医院对于非结构化数据采用的也是文档服务的管理模式,就是为影像、波形图等建立不同的服务器存储起来,用唯一的ID 号为这些资料建立索引,以备查询、展示。
但对于更深入的管理应用,还并没有有效推进,主要原因就是数据处理不够全面。
DATRIX 就可以很好的实现内容管理,首先系统将数据的内容通过自动分类和人工编目结合的方式更多维度的展现出来,再结合数据的行为权限(检索、预览、下载)和范围权限,将数据访问更有条理和规范性。
更为重要的是,DATRIX 可以针对当前用户的业务系统进行有效整合,将非结构化数据的价值真正发挥出来。
DATRIX 的扩展性和适应性还可完美支持用户更为复杂的业务环境,将节点数据管理平台和中心数据管理平台很好的结合起来,自动数据同步,可以更
好的适应像保险这样的全网环境。
DATRIX一体化
数据管理平台
DATRIX DATRIX
DATRIX
DATRIX
DATRIX
科研、高校、设计院所及企业文档管理系统
非结构化数据管理一个很重要的领域就是文档管理,这部分资料包括方案文档、工程文档和图纸文档等多种数据。
DATRIX可以将在线使用和入库归档的两方面需求更好的整合,实现对用户文档使用的全面优化。