大数据的概念
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据的概念、算法及应用
一、大数据基本概念
大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。
大数据的预处理
主要完成对已接收数据的辨析、抽取、清洗等操作。
(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。
(2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。
大数据带来的数学问题
在数学上来看,计算机中存在不断变大的数据集,不存在绝对的大数据,计算机中的所有数据集都是有限集合。
∙大数据采样——把大数据变小、找到与算法相适应的极小样本集、采样对算法误差的影响
∙大数据表示——表示决定存储、表示影响算法效率
∙大数据不一致问题——导致算法失效和无解、如何消解不一致
∙大数据中的超高维问题——超高维导致数据稀疏、算法复杂度增加
∙大数据中的不确定维问题——多维度数据并存、按任务定维难
∙大数据中的不适定性问题——高维导致问题的解太多难以抉择
大数据的特征
∙稠密与稀疏共存:局部稠密与全局稀疏
∙冗余与缺失并在:大量冗余与局部缺失
∙显式与隐式均有:大量显式与丰富隐式
∙静态与动态忽现:动态演进与静态关联
∙多元与异质共处:多元多变与异质异性
∙量大与可用矛盾:量大低值与可用稀少
目前大数据的外延
大数据规模大小是一个不断演化的指标:
当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TB«PB«EB«ZB)
处理大数据的可等待的合理时间依赖任务的目标:
地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内
回到顶部
二、大数据悖论
大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。大数据具有“取之不尽,用之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值,在广泛的公开、共享中不断创造着新的财富。根源在于,大数据的价值在于预测未知领域、非特定因素的未来趋势,在于破解长期的、普遍的社会难题。而目前的大数据技术和应用,依然局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场需求。解决悖论的过程,恰恰是理论和方法
应运而生的过程。而人们试图解决悖论的努力,正好是大数据落地生根的推动力。
方法论缺位
自2008年《自然》杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化转型,进而上升到“开放政府数据”的战略布局。然而,单纯的数量上的规模庞大,并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开,因为三者均没有设置数量级等门槛。
方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天,在廉价的、便捷的数字化存储普及的当下,数据无处不在,技术正以标准化、商品化的方式提供,事实上思维和方法论才是决定大数据成败的关键,但目前来看,跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善。
在社会难题中淘金
正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样,悖论是理论、技术和应用进步的巨大推动力。大数据悖论的解决,也将推动大数据应用的普及和社会价值的释放。经过新闻媒体和学术会议的大肆宣传之后,大数据技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危……根据这条著名的Gartner技术成熟度曲线,大数据已经走过了萌芽期和泡沫化的炒作期,并将在未来3~5年内步入低谷期。
市场中的鸿沟
大数据营销模型将经历创新者、早期采用者、早期大众、后期大众和落后者等5个阶段。这5个阶段之间存在着4条裂缝,其中最大、最危险的裂缝存在于早期市场与主流市场之间,我们称之为“鸿沟”。
大数据的主流市场来源于实用主义的早期大众和保守主义的后期大众,两者各自占据大数据市场1/3的份额。这两个群组的共同特征是均具备良好的信息技术基础和深厚的大数据积累,并深谙大数据的社会价值和经济价值。有所不同的是,前者希望看到成熟的解决方案和成功的应用案例,它们大多是金融、能源、电信等公共服务部门。而后者需要有更安全可靠的大数据保障和广泛的社会应用基础,它们大多是致力于解决环境、能源和健康等社会问题的公共管理部门。
大数据技术和应用获得创新者的追捧是显而易见的,获得早期市场的拥护也是轻而易举的。但是,不因“时髦”而加入,不因“过时”而退出,才能成为大数据主流市场的掘金者。遗憾的是,不少企业或许会成为“鸿沟中的牺牲者”,而无缘迎接大数据真正应用市场的到来。规划整体产品
现代营销奠基人之——西奥多·莱维特给出了“整体产品”的概念。根据这一概念,大数据产品应该包括作为“核心吸引物”的一般产品、满足初级心理需求的期望产品和实现更高阶参与以及自我实现的延伸产品和潜在产品4个部分。
回到顶部
三、大数据挑战性问题
现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,目前传送大数据最高效也是最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。应对处理大数据的各种技术挑战中,以下几个问题值得重视:
1、大数据对科学规范的挑战
大数据带来了新的科研范式
科研第四范式是思维方式的大变化,已故图灵奖得主吉姆格雷提出的数据密集型科研“第四范式”,将大数据科研从第三范式中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数据模型的传统研究方式。PB级数据使我们可以做到没有模型和假设就可以分析数据。将数据丢进巨大的计算机机群中,只要有相关关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。
大数据如何应用于开放的研究
大数据基于对海量数据的分析产生价值,那么如何获得海量数据来让大数据真正落地呢?这其中最不可或缺的一个环节就是数据开放。现在推进数据开放更为重要的是通过数据的共享来产生更多的价值。数据开放能够提高社会运行效率,积极整合各方公开的数据,建立基于大数据的城市规划来缓解交通和社会治安问题。数据开放能够激发巨大的商业价值,数据开放是面向社会大众的开放,任何人只要有能力都可以用它来创造新的商机。
加强数据开放,为大数据发展打牢基础。在大数据应用日益重要的今天,数据资源的开放共享已经成为在数据大战中保持优势的关键。促进商业数据和个人数据的开放与共享。商业数据和个人数据的共享应用,不仅能促进相关产业的飞速发展,产生巨大的经济价值,也能给我们的生活带来巨大的便利。经常网购的人会有这样一种体验。很多电商网站能够在我们买书的时候,推荐我们刚好喜欢的其他书籍,这正是网站根据成千上万甚至上亿人的个人数据的统计分析而得出的,但是我们也感受到了这样强大的数据分析能力对我们“隐私权”的冲击。因此,完善个人隐私保护等相关立法,对哪些个人数据可以进行商业化应用、应用范围如何界定、数据滥用应承担哪些责任等具体问题做出规范,从而保证数据开放工作稳步推进,为大数据发展应用打好根基。
重现大数据研究结果