《大数据与档案管理》
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据指的是如此大而复杂以致现有的数据管理工具或传统数据处理手段无 法处理的数据集。 ——维基百科(Wikipedia)
康奈尔大学计算机科学家JonKleinberg称,“大数据这个术语本身很模糊, 但在某些方面却又非常具体,大数据是可能改造一切的一种过程的标签”。
对于处在探索期的大数据研究来说,与其准确地予以限定性分析,倒不如更 多地将精力放在对其特征、内涵的探寻和运用的研究之中。
今天的大数据将不再是明天的大数据 当前,大数据的定义是相对于目前的技术和资源而言的,随着时间的推移,
处理数据的工具和技术、原始存储空间和处理能力的提升,大数据的界定也 必然会发生变化。 今天的大数据明天可能不再被认为是大数据,就像10年前的大数据在如今看 来什么都不是一样,大数据会继续演进下去。如今,在数据容量、速度、多 样性、复杂度等方面被认为是不可能的或无法想象的事情、几年过后情况会 完全不同,这是一个多年不变的定律,在大数据时代也同样适用。
大数据的价值在于分析与应用 很多人认为,正是由于大数据的大容量、高速和多样性,才使得他们比其他
数据更具有优势且更重要。然而,“大”和“数据”都不是大数据中最重要的。事 实上,拥有任何一个数据集,无论它们多大或者多小,其自身都不会带来任 何价值。被收集来的数据如果从不使用,不会比存放在阁楼或地下室的垃圾 更有价值。 大数据的价值体现在如何分析它们,并采取怎样的措施来提升本身的业务水 平。换言之,数据即服务。
速度(Velocity) 大数据往往以高速实时数据流的形式动态产生
,具有很强的时效性。2010年,据英国研究 咨询公司Coda预测,移动网络数据流量在未 来五年有望增长40倍,用户上传的内容将爆 发式增长。 对大数据的处理速度要非常快。传统数据仓库 系统、BI应用都是批处理方式,但对于大数据 应用,必须进行实时数据流处理。比如对于灾 难的预测,需要很快地对发生的程度、影响的 区域范围等进行量化。
从研究者角度而言,与其寻找一个公认的定义,倒不如去分析这样的问题: 当大数据来临时,就某一具体的业务(如数字档案馆、电子文件等)而言, 我们是否可以富有想象力地回答,大数据究竟会对某一特定领域带来何种影 响,以及人们面对这些影响所获得的机遇是什么?这才是我们跨学科研究的 旨义所在,而这无疑具有更加重要的意义。
价值(Value) 由于大量有用与可能没用的数据并存,因此大数据可谓是“遍地都是金子,
又遍地都是沙子”。 一方面,大数据的价值密度较低,以视频监控为例,在连续不断的监控流中
,可能仅有一两秒的影像是有用的数据。 另一方面,虽然单条数据并无多大价值,但庞大的数据量则是一座“富矿”
,将已有的结构化与非结构化数据进行融合、分析后,将会从中挖掘出极高 的价值。特别是竞争激烈的商业领域,数据正成为企业的新型资产,企业都 在追求数据价值的最大化。
多样(Variety) 一是数据来源多,随着科技的发展,大数据数据
来源和承载方式多种多样,如微博、社交网站、 传感器等,数据处于分散状态。 二是数据类型多,包括结构化数据(如企业、行 业内数据)、半结构化数据(物联网数据)、非 结构化数据(互联网数据),并且据Gartner预 计,2012年“半结构和非结构化的数据,诸如 文档、表格、网页、音频、图像和视频等将占全 球网络数据量的85%左右”。
1.3 大数据的认识误区
大数据之大并不仅仅指容量 在大数据的认识上,很多人存在这么一个误区:只有几百TB乃至PB的数据
才能称之为大数据。事实上,“大数据并非总是说有数百个TB才算得上, 根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要看它 的第三个维度,也就是速度或时间维度”。 事实上,解决一个问题的数据规模有一个阈值。“数据少于这个阈值,问题 解决不了;达到这个阈值,就可以解决以前解决不了的大问题;而数据规模 超过这个阈值,对解决问题也没有更多的帮助”。
《大数据与档案管理》
2020年5月30日星期六
1. 大数据概述
除了上帝 任何人都必须用数据来说话
1.1 大数据的定义
大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力 的数据集。 ——麦肯锡研究院(MGI)
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能 力的海量、高增长率和多样化的信息资产。 ——高德纳(Gartner Group)
•1.2 大数据的特征(4V)
大量(Volume) 数据中的数据不再以几个GB或几个TB来衡量,
而是以PB(1千个T)、EB(1百万个T)或ZB (10亿个T)为计量单位。 IDC2011年6月报告显示,全球数据量在2011 年已达到1.8ZB,“如果把所有这些数据都刻录 存入普通DVD光盘里,光盘的高度将等同于从 地球到月球一个半来回,也就是720 000英里 。相当于每位美国人每分钟写3条Twitter,而 且还要不停地写2.6976万年”。
1.4 大数据与云计算、数据挖掘的区别
首先,源自文库质上,云计算改变了IT,而大数据则改变了业务。云计算的目的是通 过互联网更好地调用、扩展和管理计算及存储资源和能力,因而从根本上改 变了单位的IT架构。大数据使得企业从“业务驱动”转变为“数据驱动”,从 而改变了企业的业务架构。
其次,云计算与大数据的目标受众不同。云计算的主要推动力量是存储及计 算设备的生产厂商和拥有计算及存储资源的企业,因此云计算是卖给CIO的技 术和产品,是一个进阶的IT解决方案。大数据的直接受益者不是IT部门,而是 业务部门,产业发展的主要推动力量是从事数据存储于处理的软件厂商和拥 有大量数据的企业,因此是卖给CEO、业务层的产品。
大数据是一种服务变革 本质而言,大数据是信息爆炸时代对数据核心价值的再挖掘,其中综合运用
到去冗降噪技术、语义引擎、可视化分析等,因此被很多专业人士认为是继 云计算、物联网之后IT行业的又一次颠覆性变革。 事实上,大数据“不仅仅是技术变革,更实质上的是计算机服务时代的来临 ,对数据的抽丝剥茧、总结结论更体现了计算机行业正从技术供应型转为服 务供应。
康奈尔大学计算机科学家JonKleinberg称,“大数据这个术语本身很模糊, 但在某些方面却又非常具体,大数据是可能改造一切的一种过程的标签”。
对于处在探索期的大数据研究来说,与其准确地予以限定性分析,倒不如更 多地将精力放在对其特征、内涵的探寻和运用的研究之中。
今天的大数据将不再是明天的大数据 当前,大数据的定义是相对于目前的技术和资源而言的,随着时间的推移,
处理数据的工具和技术、原始存储空间和处理能力的提升,大数据的界定也 必然会发生变化。 今天的大数据明天可能不再被认为是大数据,就像10年前的大数据在如今看 来什么都不是一样,大数据会继续演进下去。如今,在数据容量、速度、多 样性、复杂度等方面被认为是不可能的或无法想象的事情、几年过后情况会 完全不同,这是一个多年不变的定律,在大数据时代也同样适用。
大数据的价值在于分析与应用 很多人认为,正是由于大数据的大容量、高速和多样性,才使得他们比其他
数据更具有优势且更重要。然而,“大”和“数据”都不是大数据中最重要的。事 实上,拥有任何一个数据集,无论它们多大或者多小,其自身都不会带来任 何价值。被收集来的数据如果从不使用,不会比存放在阁楼或地下室的垃圾 更有价值。 大数据的价值体现在如何分析它们,并采取怎样的措施来提升本身的业务水 平。换言之,数据即服务。
速度(Velocity) 大数据往往以高速实时数据流的形式动态产生
,具有很强的时效性。2010年,据英国研究 咨询公司Coda预测,移动网络数据流量在未 来五年有望增长40倍,用户上传的内容将爆 发式增长。 对大数据的处理速度要非常快。传统数据仓库 系统、BI应用都是批处理方式,但对于大数据 应用,必须进行实时数据流处理。比如对于灾 难的预测,需要很快地对发生的程度、影响的 区域范围等进行量化。
从研究者角度而言,与其寻找一个公认的定义,倒不如去分析这样的问题: 当大数据来临时,就某一具体的业务(如数字档案馆、电子文件等)而言, 我们是否可以富有想象力地回答,大数据究竟会对某一特定领域带来何种影 响,以及人们面对这些影响所获得的机遇是什么?这才是我们跨学科研究的 旨义所在,而这无疑具有更加重要的意义。
价值(Value) 由于大量有用与可能没用的数据并存,因此大数据可谓是“遍地都是金子,
又遍地都是沙子”。 一方面,大数据的价值密度较低,以视频监控为例,在连续不断的监控流中
,可能仅有一两秒的影像是有用的数据。 另一方面,虽然单条数据并无多大价值,但庞大的数据量则是一座“富矿”
,将已有的结构化与非结构化数据进行融合、分析后,将会从中挖掘出极高 的价值。特别是竞争激烈的商业领域,数据正成为企业的新型资产,企业都 在追求数据价值的最大化。
多样(Variety) 一是数据来源多,随着科技的发展,大数据数据
来源和承载方式多种多样,如微博、社交网站、 传感器等,数据处于分散状态。 二是数据类型多,包括结构化数据(如企业、行 业内数据)、半结构化数据(物联网数据)、非 结构化数据(互联网数据),并且据Gartner预 计,2012年“半结构和非结构化的数据,诸如 文档、表格、网页、音频、图像和视频等将占全 球网络数据量的85%左右”。
1.3 大数据的认识误区
大数据之大并不仅仅指容量 在大数据的认识上,很多人存在这么一个误区:只有几百TB乃至PB的数据
才能称之为大数据。事实上,“大数据并非总是说有数百个TB才算得上, 根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要看它 的第三个维度,也就是速度或时间维度”。 事实上,解决一个问题的数据规模有一个阈值。“数据少于这个阈值,问题 解决不了;达到这个阈值,就可以解决以前解决不了的大问题;而数据规模 超过这个阈值,对解决问题也没有更多的帮助”。
《大数据与档案管理》
2020年5月30日星期六
1. 大数据概述
除了上帝 任何人都必须用数据来说话
1.1 大数据的定义
大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力 的数据集。 ——麦肯锡研究院(MGI)
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能 力的海量、高增长率和多样化的信息资产。 ——高德纳(Gartner Group)
•1.2 大数据的特征(4V)
大量(Volume) 数据中的数据不再以几个GB或几个TB来衡量,
而是以PB(1千个T)、EB(1百万个T)或ZB (10亿个T)为计量单位。 IDC2011年6月报告显示,全球数据量在2011 年已达到1.8ZB,“如果把所有这些数据都刻录 存入普通DVD光盘里,光盘的高度将等同于从 地球到月球一个半来回,也就是720 000英里 。相当于每位美国人每分钟写3条Twitter,而 且还要不停地写2.6976万年”。
1.4 大数据与云计算、数据挖掘的区别
首先,源自文库质上,云计算改变了IT,而大数据则改变了业务。云计算的目的是通 过互联网更好地调用、扩展和管理计算及存储资源和能力,因而从根本上改 变了单位的IT架构。大数据使得企业从“业务驱动”转变为“数据驱动”,从 而改变了企业的业务架构。
其次,云计算与大数据的目标受众不同。云计算的主要推动力量是存储及计 算设备的生产厂商和拥有计算及存储资源的企业,因此云计算是卖给CIO的技 术和产品,是一个进阶的IT解决方案。大数据的直接受益者不是IT部门,而是 业务部门,产业发展的主要推动力量是从事数据存储于处理的软件厂商和拥 有大量数据的企业,因此是卖给CEO、业务层的产品。
大数据是一种服务变革 本质而言,大数据是信息爆炸时代对数据核心价值的再挖掘,其中综合运用
到去冗降噪技术、语义引擎、可视化分析等,因此被很多专业人士认为是继 云计算、物联网之后IT行业的又一次颠覆性变革。 事实上,大数据“不仅仅是技术变革,更实质上的是计算机服务时代的来临 ,对数据的抽丝剥茧、总结结论更体现了计算机行业正从技术供应型转为服 务供应。