大数据人才培养的思考

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据人才培养的思考

一、引言

随着计算机软硬件技术的快速发展,计算技术已从传统的PC平台计算模式发展到嵌入式计算、移动计算、并行计算和服务计算等多种计算系统并存及融合的计算模式,处理的对象也呈现出网络化、多媒体化、大数据化和智能化需求的特征,而物联网、移动互联网的快速发展促进了这一趋势,从而迎来了大数据时代的到来。大数据是继云计算、物联网之后兴起的又一新兴发展方向,被学术界、工业界乃至政府机构密切关注和广泛研究。

大数据又称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极的目的的资讯。在维克托迈尔舍恩伯格及肯尼斯库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。一般说来,大数据具有4V的特点:Volume(大量),Velocity(高速),Variety(多样),Value(价值)。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的加工能力,通过加工实现数据的增值。

二、大数据时代对人才的要求

从广义上讲,大数据人才就是具备大数据处理能力的科学家和工程

师。目前,国际上开设了大量的数据科学方面的课程、数据科学学位计划以及数据科学短期培训班。从国际上设置的培养计划来看,大数据人才应该系统地掌握数据分析相关的技能,主要包括数学、统计学、数据分析、商业分析和自然语言处理等,具有较宽的知识而,具有独立获取知识的能力,具有较强的实践能力、创新意识和团队合作意识。具体来说,大数据人才首先应具备获取大数据的能力,例如能根据任务的具体要求,综合利用各种计算机手段和知识,收集整理海量数据并加以存储,为支撑相关的决策和行为做好数据准备。其次,应具备分析大数据的能力,对于经过预处理的各类数据,能够根据具体的需求,进行选择、转换、加载,采用有效方法和模型对数据进行分析,并形成分析报告,为实际问题提供决策依据。最后,应具备良好的团队合作精神,大数据时代下的数据分析任务通常无法依赖个人能力来完成,需要在团队制度的约束下,与他人一同携手、互相鼓励、分工合作来实现既定目标,因此具备较强的责任心与团队合作精神也是大数据从业人员必备的基本条件。

三、大数据人才培养的探索

大数据产业的发展,对大数据人才提出了新的需求,国内各高校在积极进行大数据学术研究的同时,也开始考虑将大数据相关课程纳入培养体系,以满足社会对大数据人才的需求。以下结合作者在数据库及分布式技术系列课程中的教学经验,以及大数据分析与处理方面的实践经验,探讨大数据系列课程教学内容和实践形式的设置。

在教学内容的设置上,大数据系列课程建议可分为理论教学和技术

教学两个方面,因为理论是大数据认知的必经途径,也是被广泛认同和传播的基线;而技术是大数据价值体现的手段和前进的基石。在理论方面,讲授的理论内容可涵盖如下几点:

(1)大数据概念:大数据概念出现的历史,关于大数据定义的各种流派以及说明,大数据的四个特征,大数据与云计算、物联网的关系,大数据与大规模数据、海量数据的差别。这个部分主要突出大数据概念中应包含的对数据对象的处理行为。

(2)典型的大数据应用实例:精选有新意的大数据分析典型案例,可帮助学生更清晰的理解大数据的概念和含义,这样的案例如:美国梅西百货的实时定价机制(根据需求和库存的情况对多达7300万种货品进行实时调价)、百度搜索的实时热点排行榜(以数亿网民的搜索行为作为数据基础,建立权威的关键词排行榜与分类热点)、沃尔玛的搜索引擎Polaris(利用语义数据进行文本分析、机器学习和同义词挖掘使得在线购物的完成率提升了10%-15%)、谷歌流感趋势工具(通过跟踪搜索词相关数据来判断全美地区的流感情况)等。在教学过程中,教师应注意将授课的重点放在系统化的开发步骤和关键性问题的求解上,介绍案例的设计思想、主要方法和应用过程等。

(3)大数据关键技术与挑战:介绍大数据时代面临的新挑战,包括大数据集成(数据异构性和数据质量问题)、大数据分析(数据形式多样化、数据处理的实时性、索引结构的复杂性等)、大数据隐私问题(隐私保护和数据分析的矛盾)、大数据能耗问题(低功耗硬件的设计)、大数据处理与硬件的协同、大数据管理易用性问题以及性能测试基准。

(4)大数据存储和管理技术:介绍如何把采集到的大数据存储起来,建立相应的数据库,并进行管理和调用。主要内容包括:分布式文件系统(HDFS)、去冗余及高效低成本的大数据存储技术、新型数据库技术(键值数据库、列存数据库、图存数据库以及文档数据库等)、异构数据融合技术、分布式非关系型大数据管理与处理技术、大数据索引技术和大数据移动、备份、复制等技术。

(5)大数据分析及挖掘技术:介绍从大量数据中寻找其规律的技术,通常由数据准备、规律寻找和规律表示3个阶段组成。数据准备是从上述大数据中心存储的数据中选取所需数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含规律找出来;规律表示则是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。

在技术方面,可考虑分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程,具体可包括以下几点:

(1) NoSQL技术:NoSQL产生的背景、NoSQL现状、NoSQL数据库与关系数据库的比较、聚合数据模型、分布式模型、数据一致性、典型的NoSQL数据库分类、NoSQL数据库开源软件。

(2) MapReduce: MapReduce模型概述、编程模型:Map和Reduce函数、MapReduce工作流程、并行计算的实现、实例、Yam等

(3) Hadoop分布式文件系统:Hadoop出现的背景、Hadoop的功能与作用、为什么不用关系型数据库管理系统、Hadoop的优点、Hadoop 的应用现状和发展趋势、Hadoop项目及其结构、Hadoop的体系结构、Hadoop与分布式开发、Hadoop应用案例、Hadoop平台上的海量数据排序。

(4)还可进一步包括数据流的管理与挖掘、云数据库、图数据库等。由于大数据系列课程所涉及的技术具有很强的应用背景和实践意义,因此应摒弃传统教学模式中重理论、轻实践的思想,在掌握大数据相关的理论知识和技术知识之后,还需重点培养学生的综合实践能力,以满足社会就业的需要。为此,应设立一定的大数据技术实践课程内容,帮助学生从知识型向能力型转变。结合上一节分析的大数据时代对人才的具体要求,建议按以下流程设置实践环节的内容:

(1)分组。如前所述,大数据时代下的数据分析任务通常需要以团队的形式来完成,因此首先要求学生根据自身情况,结合各自的技术优势,合理进行分组。

(2)选题。在具体选题上,可使用校企合作的具体项目或以Apadre Hadoop,MongoDB ,Dremel,Gephi等一系列的开源大数据分析软件作为实践平台,以Kaggle为数据科学平台来进行选题。

(3)明确需求并撰写大数据分析任务书。明确选定的题目范围内,数据分析要研究的主要问题和预期的分析目标。只有明确了数据分析的目标,才能正确地制定数据收集方案,即收集哪些数据,采用怎样的方式收集等,进而为数据分析做好准备。

相关文档
最新文档