大数据的应用现状与展望(2020年-2021年)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据的应用现状与展望
xx课题组
主持人:
课题成员:
摘要:大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点。大数据应
用就是利用数据分析的方法,从大数据中挖掘有效信息,为用户提供辅助决策,实现大数据价值的过程。本文主要介绍了大数据的分析方法、分析模式以及常用的分析工具,将大数据应用归纳为6个关键领域:结构化数据分析、文本分析、Web分析、多媒体分析、社交网
络分析和移动分析,并列举了若干大数据的典型应用。最后从基础理论、关键技术、应用实
践以及数据安全等4个方面总结了大数据的研究现状,并对大数据应用未来的研究进行展
望。
关键词:大数据数据分析数据存储4V
在过去的20年中,各个领域都出现了大规模的数据增长,包括医疗保健和科学传感器
用户生成数据、互联网和金融公司、供应链系统等。国际数据公司IDC报告[1]称,2011年全球被创建和复制的数据总量为 1.8ZB(1ZB≈1021ZB),在短短5年间增长了近9倍,而且预计这一数字将每两年至少翻一番。大数据这一术语正是产生在全球数据爆炸增长的背景
下用来形容庞大的数据集合。与传统的数据集合相比,大数据通常包含大量的非结构化数
据,且大数据需要更多的实时分析。此外,大数据还为挖掘隐藏的价值带来了新的机遇,同
时给我们带来了新的挑战,即如何有效地组织管理这些数据。
一、大数据的定义
目前,虽然大数据的重要性得到了大家的一致认同,但是关于大数据的定义却众说纷纭。
大数据是一个抽象的概念,除去数据量庞大,大数据还有一些其他的特征,这些特征决定了大数据与“海量数据”和“非常大的数据”这些概念之间的不同。一般意义上,大数据是指
无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的
数据集合。科技企业、研究学者、数据分析师和技术顾问们,由于各自的关注点不同,对于
大数据有着不同的定义。通过以下定义,或许可以帮助我们更好地理解大数据在社会、经济和技术等方而的深刻内涵。
2010年Apache Hadoop组织将大数据定义为,“普通的计算机软件无法在可接受的时
间范围内捕捉、管理、处理的规模庞大的数据集”。在此定义的基础上,2011年5月,全球著名咨询机构麦肯锡公司发布了名为“大数据:下一个创新、竞争和生产力的前沿”的报告,在报告中对大数据的定义进行了扩充。大数据是指其大小超出了典型数据库软件的采集、
存储、管理和分析等能力的数据集。该定义有两方而内涵:(1)符合大数据标准的数据集
大小是变化的,会随着时间推移、技术进步而增长;(2)不同部门符合大数据标准的数据
集大小会存在差别。目前,大数据的一般范围是从几个TB到数个PB(数千TB)[2]。根据麦肯锡的定义可以看出,数据集的大小并不是大数据的唯一标准,数据规模不断增长,以及无法依靠传统的数据库技术进行管理,也是大数据的两个重要特征。
大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分
析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,
其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会
产生不同级别的潜在价值。
二、大数据的特点
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
“大数据”是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传
统数据库工具对其内容进行抓取、管理和处理。“大数据”首先是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据
集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也
能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、
企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
“大数据”的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的“4个V”之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,
快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。
大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而
言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。
三、大数据分析
众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉
及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增
长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
可视化分析analytic visualization
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
数据挖掘算法data mining algorithms
大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和
格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认
的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
预测性分析能力predictive analytic capabilities
大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
语义引擎semantic engines
大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。
数据质量和数据管理data qualities and master data management 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就