大数据环境下的数据可用性研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要:随着大数据时代的到来,数据可用性给企业带来的挑战更加突出,数据分析时,如何确保数据的可用性,是一项重要而复杂的问题。文章首先分析了大数据可用性研究的必要性及紧迫性,然后探讨了大数据及数据可用性的概念,并归纳了当前数据可用性的研究现状及存在的问题,最后对数据可用性的研究进行了总结。大数据环境下的数据可用性研究非常重要,需要引起足够的重视。

研究的意义

据国际著名的信息技术研究和分析公司gartner的调查显示,在全球1000强的企业中有超过25%的企业存放在其信息系统中的数据不准确,在美国,每年因为数据不准确而造成的医疗事故约占整个医疗事故的50%以上。处理数据质量问题,每年将会给企业增加10%-20%的成本。数据可用性问题的研究已变得迫在眉睫。

相关概念及研究现状

1 大数据的概念

大数据指的是数据的规模巨大,已无法通过传统的数据库处理软件,在合理的时间内对数据进行分析处理。大数据不仅从规模上变得非常巨大,数据类型上也发生了非常重大的变化,传统数据库中的数据以结构化数据为主,而大数据环境下的数据大多都是半结构化、非结构化数据②,这类数据占到总数据的80%以上,且数据的复杂性增加了很多。

2 数据可用性的概念

数据可用性是指数据满足一致性、精确性、完整性、时效性和实体同一性这五个特征的程度③。

一致性是指数据集合中不包含语义上的错误或相互矛盾的数据。

精确性是指数据集合中的数据比较精确,不存在误差。

完整性是指数据集合中的数据比较全面,能够支持各种决策分析,提供决策分析所需要的各种计算。

时效性是指数据集合中的数据都是最新的,而非过时的。

实体同一性是指在不同的数据源中,同一实体的描述是统一的。

研究现状及问题

1 研究现状

数据可用性涉及的方面很多,要想保证数据的可用性,需要做出很多工作,目前,在研究数据可用性问题上,已引起了很多学者的重视,哈尔滨工业大学的李建中教授,清华大学的舒继武教授,复旦大学的周傲英教授等都对数据的可用性进行了研究。

目前,关于数据可用性的研究,主要包含高质量数据获取与整合的方法,大数据可用性理论体系的建立,弱可用数据的近似计算与数据挖掘,数据一致性的描述问题,一致性错误的自动检测问题,实体完整性的自动修复问题,自动检测实体同一性错误的问题,半结构化、非结构化数据的实体识别问题等方面。这些研究取得了一定的成果,但研究任务处于刚起步的阶段,对很多问题的研究还是空白。

2 存在的问题

目前,虽然有一些学者投入到数据可用性的研究领域中,且获得了一些理论成果,但这些成果只是一些初步的成果,数据可用性的研究还有很多没有解决的问题,一个统一的数据可用性理论体系还没有建立。此外,国内外关于数据一致性方面的研究还是以关系数据库为基础,在非关系型数据库环境下的可用性研究比较少,而关系型数据库已不能满足对大数据分析处理的需要,因此需要更多学者投入到对非关系型数据库中数据可用性的研究中去。

从具体的方面来说,目前,数据可用性的研究在数据的一致性、完整性和实体同一性上已取得较大的进展,但这些进展也都局限于针对结构化数据,在大数据环境下针对半结构化和非结构化的数据的研究非常少见。在数据的精确性和时效性方面,研究人员非常少,需要后期做进一步的研究。

总结

数据可用性的研究虽然已进行了很多年,但这些研究的成果较少,投入到数据可用性研究方面的人员也相对较少,但数据可用性的研究非常重要,直接影响着企业的正确决策,因此,这一领域需要更多的人员投入进来。由于前期的研究主要集中在结构化数据上,随着大数据时代的到来,需要更多的学者将研究的重心转移到半结构化和非结构化数据上。

相关文档
最新文档