大数据文件
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据前沿技术及应用
【摘要】互联网时代的数据正在迅速地膨胀,大数据成为信息技术发展的新热点。本文分析了大数据技术的概念及时代背景,阐述了大数据具有规模巨大、类型多样、产生速
度快、价值密度低、存储要求高、管理复杂等特点,在教育领域应用大数据技术有利于革
新教育理念和教育思维,实现个性化教育,重新构建教学评价方式,加强学校基于数据的
管理,促进教育信息化深入发展。
随着网络信息技术的加速发展和应用,物联网、移动互联、社交网络等大大拓展了互
联网的疆界和应用领域,数据正以前所未有的速度在不断地增长和累积,大数据时代的大
幕已经开启。大数据在社会经济、政治、文化、生活等各方面产生深远的影响,将给各行
各业的发展模式和决策带来前所未有的革新与挑战。教育行业也不例外,教育管理、思维
方式、学习行为、教学评估等,无不受到大数据的影响。
大数据的概念及时代背景
大数据是一个正在发展中的概念。到目前为止,学术界对于“大数据”一词还没有准确、统一的定义。著名学者涂子沛在《大数据》一书中指出:“大数据(BigData)是指那些大
小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、管理和分析的大容量数据,
一般以…以太节‟为单位。大数据之大,并不仅仅在于容量之大,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来…大知识‟、…大科技‟、…大利润‟和…大发展‟。”最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。麦肯锡全球研
究院报告《大数据:创新、竞争和生产力的下一个前沿》则对“大数据”定义如下:大数据
是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”可见,大数据就是指蕴涵着巨大价值的、可有效利用的、多样化的海量数据集。
进入2012年以来,世界各国大数据的关注度与日俱增。在2012年1月份的达沃斯世界经济论坛上,大数据是主题之一,并特别针对大数据发布了报告BigData,BigImpact:New Possibilities for International Development,探讨了新的数据产生方式下,如何更好
地利用数据来产生良好的社会效益。2012年3月,美国奥巴马政府投资2亿美元,正式启动“大数据发展计划”,这一计划是美国政府继信息高速公路计划之后在信息科学领域的又
一重大举措。同时,联合国一个名为GlobalPulse的倡议项目在2012年5月发布报告
《大数据发展:挑战与机遇》,阐述大数据时代各国特别是发展中国家在面临数据洪流时
的机遇与挑战,并对大数据的应用进行了初步的解读。目前,一些发达国家、著名研究机
构以及大集团公司已将大数据作为获取有效信息和知识的重要来源、调整和部署战略决策
的重要依据,大数据技术则成为信息挖掘、整理和分析的重要工具。
大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的
洞察能力提供了前所未有的空间。互联网时代的数据正在迅速膨胀,它决定着组织的未来
发展,随着时间的推移,人们将越来越意识到数据对组织的重要性。对于企业组织来讲,
大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中
的知识信息,对大数据的二次开发则是通过大数据创造出新产品和服务。例如,Facebook 通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。大
数据这股汹涌浪潮正在兴起,将给各行各业的发展模式和决策带来前所未有的革新与挑战,教育领域同样不可避免,面临新的挑战和机遇。
大数据的主要特点
大数据时代的数据存在着以下几个主要特点。
规模巨大。个人和组织面临着数据量的大规模增长,呈现为海量数据。典型个人计算
机硬盘的容量为TB量级,一些大企业的数据量已经接近EB量级。而根据麦肯锡全球研
究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据。2015年全球移动终端产生的数据量将达到6300PB。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。此外,各种意想不
到的来源都能产生数据。
类型多样。数据来自多种渠道,如网络日志、社交媒体、互联网搜索、手机通话记录
及传感器网等,内容包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、
图像和音频/视频信息等。这些实际是多视角的,不仅有正规的数据、媒体新闻数据、时效性的数据,还有带有个人情感的数据。而这些数据又打破了之前限定的结构化数据范畴,
包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越
来越大。
产生速度快。即数据被创建和移动的速度快,时效性要求高,这是大数据区别于传统
数据挖掘最显著的特征。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器
和服务器,快速创建实时数据流已成为流行趋势。如一天之内谷歌公司处理几十PB的数据,Facebook新产生约10亿张照片、300TB以上的日志,淘宝网进行数千万笔交易、产生20TB以上的数据,新浪微博的约3亿用户可产生上亿条微博。
价值密度低。随着物联网的广泛应用,信息感知无处不在,数据信息海量,但其价值
密度较低。价值密度的高低与数据总量的大小成反比,大数据中单条数据可能无价值,无
用数据多,但综合价值大。例如,视频数据中,1小时的视频中有用的数据可能仅有一两
秒钟,其余的可能是无用的数据,价值密度相对较低。因此,如何通过强大的数据挖掘算
法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。存储要求高。种
类多样的数据源,既提供了大量的数据,又带来了科学存储的问题。大数据通常可达到
PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。当前互联
网中的数据向着异质异构、无结构趋势发展,新数据类型不断涌现,用户需求呈现出多样性。目前的存储架构难以解决数据的异质异构、爆炸性增长带来的存储问题,静态的存储
方案满足不了数据的动态演化所带来的挑战。因而在海量分布式存储和查询方面仍然需要
进一步研究。
管理复杂。大数据的规模和复杂结构是传统IT架构所面临的直接挑战,使得传统的数据管理技术不适合处理海量异构数据。许多公司已经拥有大量的存档数据,却没有能力来
处理它。传统的关系数据库无法处理大数据的规模,目前可选择的方法包括大规模并行处
理架构、数据仓库,或类似Greenplum的数据库以及ApacheHadoop解决方案等。