带您认识大数据

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

带您认识大数据

本刊编辑部

“大数据”的由来

2008年9月4日,英国《自然》杂志刊登了一个名为“Big Data”的专辑,首次提出大数据概念,该专辑对如何研究PB 级容量的大数据流,以及目前正在制订的、用以最为充分地利用海量数据的最新策略进行了探讨。2011、2012年达沃斯世界经济论坛将大数据作为专题讨论的主题之一,发布了《大数据、大影响:国际发展新的可能性》等系列报告。

2011年以来,中国成立了大数据委员会,研究大数据中的科学与工程问题,科技部《中国云科技发展“十二五”专项规划》和工信部《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。业界普遍认为,2013年是中国“大数据元年”。

“大数据”的内涵

【定义】

继物联网、云计算之后,“大数据”已迅速成为大家争相传诵的热门科技概念。“大数据”作为信息社会发展的一个新生事物,目前尚处在逐渐被认识、被应用的初始阶段,无论是学术界还是IT行业对大数据的理解各有侧重,尚未形成一套完整的理论体系。全球最具权威的IT研究与顾问咨询公司Gartner将“大数据”定义为“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。《互联网

周刊》则认为,“大数据是通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力”。国家信息中心有关专家将“大数据”广义地界定为,“我国现代信息化进程中产生的和可被利用的海量数据集合,是当代信息社会的数据资源总和,是信息时代的全数据,既包括互联网数据,也包括政府数据和行业数据。”

【属性】

随着大数据的发展,大数据的内涵已不仅仅局限于技术维度,而是在演变过程中不断扩展,形成了一个语义更加丰富、维度更加多元的综合性的概念。

大数据是一类海量信息的数据集,是一项对海量数据进行快速处理并获取有价值信息的技术,更是一种新的认知世界和改造世界的思维方式和能力。大数据开启了一个以数据为基本元素的、以数据为战略资产的时代,在大数据时代掌握了数据就意味着拥有了核心竞争力。大数据时代让社会朝着更加个性化、民主化、自由化、开放化的方向发展。

1.“4V”特征

大数据在诞生之初仅仅是一个IT 行业内的技术术语,业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的内容特征。

一是数据体量巨大(Volume)。国际数据公司(IDC)的研究结果表明,截至2012年,人类生产的所有印刷材料的数据量是200PB。IBM研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。当前,典型个人计算机

硬盘的容量为TB量级,而一些大企业的数据量已经接近EB 量级。【注:计算机存储单位一般用Byte、KB、MB、GB、TB、PB、EB、ZB、YB表示,它们之间的换算关系是:1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB……以此类推。】二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

链接——

大数据时代,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及各种各样的传感器,无一不是数据来源或者承载的方式。新出现的数据类型有以下几类:

1、以模拟形式存在的记录,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。

2、移动互联网出现后,移动设备传感器收集的大量的用户点击行为数据。

3、电子地图产生的大量的数据流数据。这些数据与传统数据反映一个属性或一个度量值相区别,代表着一种行为、一种习惯。

4、大量的互联网用户创造出海量的社交行为数据,反映出人们行为特点和生活习惯。

5、电商户崛起产生的大量网上交易数据,包含支付数据、查询行为、物流运输、购买喜好、点击顺序、评价行为等,其实质是信息流和资金流数据。

6、互联网搜索引擎上用户的搜索行为和提问行为聚集的海量数据。

三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

2.核心技术

大数据是一项能够对数量巨大、来源分散、格式多样的数据进行采集、存储和关联性分析的新一代信息系统架构和技术,分为四个层次。

数据采集与预处理——通过RFID射频技术、传感器以及移动互联网等方式获得各种类型的海量数据,并完成对已接收数据的辨析、抽取、清洗等操作。

数据存储与管理——用存储器把采集到的数据存储起来,建立相应的数据库进行管理和调用,主要解决大数据可存储可处理及有效传输等关键问题。

数据分析与挖掘——是大数据的最核心技术,主要是在现有的数据上进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。

数据展现与应用——将隐藏于海量数据中的信息挖掘出来,从而提高各个领域的运行效率。在我国,大数据重点应用于以下三大领域:商业智能、政府决策、公共服务。

3、社会属性

大数据能够帮助人们从信息社会海量数据中发现新知

相关文档
最新文档