浅谈大数据

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅谈大数据

去年三月,在北京举行的一场大数据产业推介会上,马云首次提出“人类正从IT时代走向DT时代”,并指出DT(Data technology)时代利用数据处理技术,以服务大众、激发生产力为主。

在变革过程中,IT与DT不仅存在技术上的差异,在思想观念层面也有显着不同。IT(Information Technology)时代利用的是信息技术,以“我”为中心,强调自我控制、自我管理,而DT 则充分挖掘数据资源,以“别人”为中心,不仅强调舒服的客户体验,而且也需要公开透明的游戏规则与行业环境。DT时代的挑战和机遇,在于把互联网和传统行业相结合。

当然,在走向DT的过程中,无论是客户体验,还是互联网与传统行业的结合,数据无疑是争夺的重点资源,甚至可以说Data为王。

那么什么是大数据呢?Garnter给出的定义:大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[1]中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value (价值)。

下面我们从一个有趣的例子开始,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。

这个例子真实的反映在各行各业,探求数据价值取决于把握数据的人,关键是人的数据思维;与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。

首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或者与我们关系不大。在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要做出调整,因为这些技术在大数据时代面临着一些新的挑战,主要有:

●数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的

增多。

●大数据时代的算法需要进行调整(邦弗朗尼原理[1])

●数据结果好坏的衡量

大数据分析主要是从五个方面入手,分别是:数据质量和数据管理(Data Quality and Master Data Management)、语义引擎(Semantic Engines)、预测性分析能力(Predictive Analytic Capabilities) 、数据挖掘算法(Data Mining Algorithms)和可视化分析(Analytic visualizations)等五个方面。

数据质量和数据管理(Data Quality and Master Data Management):大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究

还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

语义引擎(Semantic Engines):大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。

预测性分析能力(Predictive Analytic Capabilities):大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。

数据挖掘算法(Data Mining Algorithms):大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。

可视化分析(Analytic visualizations):大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。

数据分析是大数据处理的核心,但是用户往往更关心结果的展示。如果分析的结果正确但是没有采用适当的解释方法,则所得到的结果很可能让用户难以理解,极端情况下甚至会误导用户。

大数据的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的数据处理方式比较困难,目前处理海量数据比较好的技术就是云计算,从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

从大数据的价值链条来分析,存在三种模式:

相关文档
最新文档