一体化数据管理平台DATRIX产品介绍120515

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一体化数据管理平台DATRIX

产品介绍

因“虚”而实,数据管理创新

需求篇

IDC数字宇宙研究《从混沌中提取价值》指出,全球的数据量每18个月就要翻一番,目前每年产生的数据量已经高达40EB(1EB=10000PB),未来十年全球的大数据将增加50倍。数据飞速的甚至是爆炸式的增长方式,每个信息用户都深有体会,从上世纪早期数据容量大多以MB为单位,到上世纪末过渡到以GB为单位,再到当前TB已是标准单位,甚至PB级别的数据量在很多系统中也不再是一个偶然现象,种种迹象表明,大数据的时代已真正到来。

大数据这个词汇越来越多地被提及,从大数据的定义来说,大数据具备三个V的显著特性:

1、Volume:数据量巨大,起码是TB级别以上的数据量才称之为大数据,对于大数据来说,数据量的巨大导致访问、处理、传输各个方面开销显著增加,也就有必要使用更好的处理方式来应对。

2、Variety:数据类型繁多,结构化数据、非结构化数据和半结构化数据各自均包含多种数据类型。结构化数据中主要为数据库数据(ORACLE、DB2、SQL等);非结构化数据类型更为丰富(办公文档、文本、图片、XML、HTML、各类报表、视频、音频等);半结构化数据是一种新型的定义方式,相对于结构化数据的先有结构再有数据,半结构化数据则是先有数据再有结构。多种数据类型并存导致整个数据处理难度加大,无法用统一的手段来解决全数据问题。

3、Velocity:数据增长非常快速,这种增长速度之前是难以想象的,随着更多的业务发展(社交媒体、云计算、物联网等),各种先进数据格式的出现(高清、3D、富媒体等),导致了数据是爆炸式的增长速度。这种爆炸式的数据增长主要是由数据的属性所多样化带来的,数据首先具备时间属性,历史数据、当前数据和未来数据均需要保持和考虑,需要保留多个历史副本;其次数据具备多格式的特性,一份数据会因应用系统的不同而带来不同格式的访问需求;最后数据还要有多位置的属性,在个人、家庭、单位及云环境下会有多个副本,用于多个场景。

非结构化数据管理难题

非结构化数据在大数据中时代的地位无疑是最为重要的,根据Gartner统计,在当前的环境中,企业有20%的数据是结构化数据,80%的数据是非结构

化数据。其中,结构化数据增长率大概是32%,非结构化数据年复合的增长率则高达63%。同时,整个非结构化数据很大一部分是来源于人与人的互动及自我生产,是以人为中心产生的,所以它的重要性不言而喻。

结构化数据我们都非常熟悉,典型的应用在企业中就是事务数据、定量的数据,可以被二元属性来描述。结构化数据采用数据库的组织形式就可以很好的被管理,企业通常通过结构化数据的收集、存储、查询来生成报表、研判趋势、制定战略、优化运营。

非结构化数据管理的难题主要在于无法很好的统一描述,并且很难用现有成熟的平台进行管理,举例来说你无法将影像资料数据和微博产生数据用统一的方法来管理。换言之,非结构化数据无法简单的用二元属性来描述,也就很难由现有的数据库系统来统一管理,这些种类越来越多、比重越来越大的非结构化数据为企业的数据管理带来巨大挑战,如果缺乏有效管理将导致整个IT系统运行效率低下、影响应用系统的使用、进而丧失数据价值。

当前过渡方案

针对非结构化数据难以管理的难题,不同的行业提出了许多不同的方案及产品,然而这些基于行业的非结构化数据管理解决方案有极强的行业特性,往往采用的是将非结构化数据转为结构化数据进行处理,可以部分满足当前小数据规模情况及可预计数据类型情况下的非结构化数据管理。

广电行业的媒资管理系统实际就是一个非结构化数据专用管理平台。大多数当前的媒资管理系统偏向归档和内容管理,对整个数据的行为分析则很少涉及,实际上放弃了很重要的数据行为分析等有价值的内容,并且人为的将在线编辑和近线媒资管理区别开来也对整个系统的有效应用带来了困扰。

再看医疗行业的PACS系统就是典型的非结构数据管理方案,其主要针对医疗影像系统(高分辨率片子)进行有效的管理、存放,结合其他的患者基本信息和诊断书进行统一关联,可以提高诊断效果和效率。一旦有新的非结构化数据产生的系统上线,则有可能需要再次对整个系统进行改造,才能满足使用需求。

再比如在保险行业,个人基本资料等理赔人属性和赔付金额、日期等理赔数据都可以做成关系型数据存入数据库,但还有些资料,比如理赔对象的住院产生的单据、其他说明资料等非结构化数据则会以文件形式存储起来。当理赔

员做赔案时,则会将所有资料都调出,以前没有专门的非结构化数据管理,整个调用纸质资料的过程甚至长达数月时间,对用户满意度和理赔准确率、及时率的影响都非常大。

简单对比以上的非结构化数据管理方案,我们会看到很大的问题,总结来说就是它们都没有从数据管理本质出发解决问题,而是修补性的解决当前部分问题,这就导致随着数据量的日益巨大(Volume)、数据类型的越来越丰富(Variety),数据增长越来越快(Velocity),整个系统将难以支撑。

所以,如果一个行业完全根据当前需求来建设非结构化数据的管理系统,就无法跟上大数据时代的步伐,被动地去适应,终究会被淘汰。

一体化数据管理平台

DATATOM因“虚”而实,提倡数据管理创新,立足数据管理技术及产品,向用户推出一系列数据管理行业解决方案。DATRIX是DATATOM专门针对非结构化数据的特点,抓住数据管理本质(八个数据管理维度)来解决非结构化数据管理难题的产品,其主要解决的问题包括:

数据类型难以统一,非结构化数据很大的特点就是其杂乱性,各种类型的数据,有各种各样的数据属性,所以无法象结构化数据一样用数据库来统一描述所有的数据类型。DATRIX采用半结构化的描述方式,将不同的数据类型文件用同样的描述语言描述,可在用户环境内将支持的所有类型文件翻译为同一种描述语言,在对相应的数据进行统一分类、编目及标签。这样,无论用户的非结构化数据如何变化,都将在DATRIX中统一有效管理。

数据访问难以同步,大多数行业非结构化数据的管理会将在线和近线分离开来,也就是生产数据的系统为在线应用,非结构化数据管理系统为近线系统,这种割裂的管理方式主要是因为之前的非结构化数据生产系统和非结构化数据管理系统是由不同的系统构成的,生产系统强调的是效率,而管理系统强调的则是管理。这种方式让用户无法有效实现通畅的业务流程,也会带来很多不必要的开销。DATRIX则结合了DATATOM在非结构化数据生产系统(在线存储)和非结构化数据管理系统(近线存储)的专业能力,有效的将两个系统的数据访问同步结合在一起,为用户体验带来显著收益。例如在广电行业,我们就将广电专用网络存储NEUTRINO和数据管理平台DATRIX的特性结合在一起,用户在非线编辑系统中可直接上载数据入媒资库,也可直接在媒资库中下载数据到非线编辑系统,而整个流程是完全不产生网络流量,仅在系统内部进行交换。

相关文档
最新文档