大数据培训总结材料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
为期5天的“云计算与大数据技术及其应用高级研修班”已经结束。作为一名学员,我在这5天时间里聆听了王家耀院士、郭殿升教授、郑宇研究员等人的研究报告,对云计算、大数据和互联网+相关概念、技术有了更深的认识,对它们在各个领域的应用有了更进一步的了解,拓宽了思路,对我们接下来在科研和教学工作中研究云计算和大数据、讲授云计算和大数据、使用云计算和大数据都有很大的促进作用。下面我将对自己对云计算和大数据的认识以及如何使用相关技术服务于工作的设想做一个简单介绍。
1.云计算
云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,它还没有一个一个统一的概念。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云计算(Cloud Computing)是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、热备份冗余(High Available)等传统计算机和网络技术发展融合的产物。
2006年8月9日,Google首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎大会(SES San Jose 2006)首次提出“云计算”(Cloud Computing)的概念。它一出现就吸引了各方的关注:2007年10月,Google与IBM开始在美国大学校园,推广云计算的计划;2008年2月1日,IBM(NYSE: IBM)宣布将在中国无锡太湖新城科教产业园为中国的软件公司建立全球第一个云计算中心(Cloud Computing Center);2008年7月29日,雅虎、惠普和英特尔宣布一项涵盖美国、德国和新加坡的联合研究计划,推出云计算研究测试床,推进云计算;2010年7月,美国国家航空航天局和包括Rackspace、AMD、Intel、戴尔等支持厂商共同宣布“OpenStack”开放源代码计划。云计算的核心与效用计算和网格计算非常类似,也是希望IT技术能像使用电力那样方便,并且成本低廉,截至到2014年,云计算在需求方面已经有了一定的规模、在技术方面也已经基本成熟了。当前已经出现的云计算研究和应用主要体现在:云物联、云安全、云存储、云游戏、云计算等。
云计算包括基础设施即服务(Infrastructure-as-a- Service ,IaaS)、平台即服务(Platform-as-a- Service,PaaS)和软件即服务(Software-as-a- Service ,SaaS)三个层次的服务,涉及编程模式、海量数据分布存储、海量数
据管理、虚拟化、云计算平台管理等热门技术,是当前最热门的科技词汇。当然云计算也存在一些问题,如数据隐私问、数据安全性、用户的使用习惯、网络传输问题、缺乏统一的技术标准等。
2.大数据
简单的说,大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,其关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。大数据具有容量大、种类多、速度快、可变性强以及真实、复杂等特征,其价值价值体现在:对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;做小而美模式的中长尾企业可以利用大数据做服务转型;面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
为了加快大数据产业的发展,国务院于2015年9月印发《促进大数据发展行动纲要》,要求大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化;发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链;健全大数据安全保障体系,强化安全支撑。以此为基础,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
4.高校的云计算和大数据
在当前时代,云计算和大数据已经成为时代需求,在这种潮流中,作为直接培养人才的高校应该走在研究大数据和使用大数据的前列。
(1)针对性教学。大数据应用于课堂教学,最大的影响可能就是我们将有能力去关注每一个学生的微观表现。运用大数据技术,不仅可以获得一个学生在
课堂中的表现和行为,还可以对这个学生在课堂学习过程中的各种行为表现、情绪态度等进行全方位分析,从而得出学生学业的优缺点和对待学业的态度等。如果大数据技术能广泛地运用于课堂教学,那么我们在课堂中进行针对性教学就有了可能。
(2)开放式教育。近年来越来越多的网络在线教育和大规模开放式网络课程横空出世,也使教育领域中的大数据获得了更为广阔的应用空间。专家指出,大数据将掀起新的教育革命,比如革新学生的学习、教师的教学、教育政策制定的方式与方法。
(3)大数据考试。教育领域中的大数据分析最终目的是为了改善学生的学习成绩。学生的作业和考试中有一系列重要的信息往往被我们常规的研究所忽视。而通过分析大数据,我们就能发现这些重要信息,并利用它们为改善学生的成绩提供个性化的服务。与此同时,它还能改善学生期末考试的成绩、平时的出勤率、辍学率、升学率等。测学生是“如何”考试的能让研究者有效定型学生的学习行为。大数据要求教育工作者必须超越传统,不能只追求正确的答案,学生是如何朝着正确答案努力的过程也同样重要。在一次考试中,学生个人和整体在每道题上花费了多少时间?最长的是多少?最短的是多少?平均又是多少?哪些此前已经出现过的问题学生答对或答错了?哪些问题的线索让学生获益了?通过监测这些信息,形成数据档案,能够帮助教育工作者理解学生为了掌握学习内容而进行学习的全过程,并有助于向他们提供个性化的学习模式。
现在,大数据分析已经被应用到美国的公共教育中,创造了“学习分析系统”——一个数据挖掘、模化和案例运用的联合框架,成为教学改革的重要力量。“学习分析系统”旨在向教育工作者提供了解学生到底是在“怎样”学习的更多、更好、更精确的信息。举例来说,一个学生成绩不好是由于他因为周围环境而分心了吗?期末考试不及格是否意味着该学生并没有完全掌握这一学期的学习内容,还是因为他请了很多病假的缘故?利用大数据的学习分析能够向教育工作者提供有用的信息,从而帮助其回答这些不太好回答的现实问题。
教育工作者和研究者已经开发出从大数据中提取价值的5种主要的技术:预测——觉知预料中的事实的可能性。聚类——发现自然集中起来的数据点。相关性挖掘——发现各种变量之间的关系,并对其进行解码以便今后使用它们。升华人的判断——建立可视的机器学习的模式。用模式进行发现——使用通过大数据分析开发出的模式进行“元学习”。实施这些技术就能够通过大数据来创建为提高学生成绩提供支持的学习分析系统。研究者们相信这些技术将帮助教育工作者更加有效地指导学生朝着更加个性化的学习进程迈进。