大数据实验云平台的设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文章编号=1009 -2552 (2018)02 -0068 -04 DOI:10. 13274/ki.hdzj.2018. 02. 016

大数据实验云平台的设计与实现

原建伟,何玉辉,丁洁

(陕西工业职业技术学院,陕西咸阳712000)

摘要:针对目前大数据实践教学的主要问题,在分析了OpenStack平台与其组件Sahara的特点后,采用0penSta(:k4J A P I在该平台上设计并开发了基于虚拟化技术的H a d o o p集群实验云系统。

通过此实验云平台能够实现学生在线快速申请实验、实施和管理实验的目的,同时教师可以通过该平台方便实现实验管理,为大数据教学提供全新的实践教学方式。

关键词:OpenStack平台;虚拟化;H a d o o p集群;Sahara组件

中图分类号:T P393. 1文献标识码:A

D e s i g n a n d i m p l e m e n t a t i o n o f l a r g e d a t a e x p e r i m e n t a l c l o u d p l a t f o r m

YUAN Jian-wei,HE Yu-hui,DING Jie

(Shaanxi Polytechnic Institute,Xianyang 712000,Shaanxi Province,China) Abstract:Aiming at the main problems ol the big data practice teaching,alter analyzing the

characteristics ol OpenStack platform and Sahara component,the Hadoop cluster experiment cloud system based on the virtualization i s designed and implemented by 0penStack4J A P I.The students can apply for experiments online rapidly through this experiment cloud,and teachers can easily realize the experimental m anagement,a n e w practice teaching method for big data teaching i s provided.

Key words:OpenStack platform;virtualization;Hadoop cluster;Sahara component

r信息疼术2018年第2期

0引百

随着互联网技术的不断发展,产生越来越多的 数据,随之产生的大数据技术也越来越受到重视。越来越多的企业在体会到大数据带来的好处之后,对大数据人才的需求也随之提高,国内各高校也已 经开始探索和实践对大数据学术研究和人才培养[|-2],相关部门或学校实验室的建设也在不断跟 上。目前大数据实验室建设主要在两个方面,一方 面如文献[2]中介绍的研究型的实验室,侧重于大 数据技术的创新与研究,另一方面如文献[3 -4]中介绍的基于基础教学的实验环境。在诸多大数据处 理平台中Apache H a d o o p以其高可罪、高效性、高容 错性以及很好的横向扩展性使它迅速成为大数据领 域的热门,但部署H a d o o p的集群和后期的维护却是 较为麻烦[5],因此在大数据的基础教育过程中,为 其带来一定的阻碍。如何解决这个矛盾是大力推广 大数据基础教育的关键。

—68 —1Hadoop实验现状

1.1 Hadoop概述

H a d o o p是目前大数据领域里非常成熟的开源 云计算框架,它可以针对海量不同类型的数据(结 构化、非结构化等)进行分布式处理。H a d o o p已经 发展出由M a p R e d u c e和H D F S为核心的大数据生 态系统。M a p R e d u c e是分布式数据处理模型,是 Hadoop 的核心技术,H D F S(H a d o o p Distributed File System)是H a d o o p分布式文件系统[6-8]。

1.2 H a d o o p基础实验环境的特点

H a d o o p大数据的教育教学主要体现在两个层 次,本科的大数据教育侧重于算法与数据挖掘与分 析,高职教育则侧重于系统运维和数据分析。在这

收稿日期:2017-05 -23

基金项目:陕西省教育厅2016年度科学研究计划专项项目(16JK-1057)

作者简介:原建伟(1973-),男,硕士,副教授,研究方向为计算机网络,企业信息化建设。

两个层次的教育领域中教育主体都需要一个良好的 实验实训平台促进教学。目前高校的H a d〇〇P实验 实训环境主要是在服务器上进行部署实际运行环 境,这样做的优点在于实验可以在真实的环境中进 行各种实验和实训,但缺点也很明显,由于在服务器 上进行安装与部署环境,因此存在操作不慎导致实 验环境发生变化甚至异常导致实验环境的不稳定性 和不可重用性。

作为实验环境H a d〇〇p计算框架对硬件要求不 必太高,能够运行相关计算即可,对于大数据的基础 实验和实训更侧重于实验过程,对计算性能要求不 会很高。鉴于H a d o o p计算框架这些特点,可以利用 云计算的另一平台OpenStack实现自动化部署与重 复利用。OpenStack是非常成熟的Iaas层云计算平 台,Op e n S t a c k由七个核心项目与其他周边项目共同 组成的一套功能完整的云计算体系[9—1()]。这些模 块中Sahara提供了对H a d o o p集群的部署与管理。2大数据实验云平台设计

2. 1OpenStack云计具平台

实验云利用O p e nStack的Sahara组件将Hadoop 部署到Open S t a c k云计算平台之上,使用者可以利 用O p e nStack的虚拟化技术随意启动H a d o o p集群 进行相关编程或数据分析,同时还可以根据实验需 求设计和部署不同规模的H a d o o p集群。OpenStack 的Glance组件可以管理虚拟机的镜像文件,因此实 验环境可以提前制作完成,随时调用。

O penStack的各个组件之间的耦合关系相对较 松,因此可以根据实际需要选择相应组件设计和部 署云计算平台。大数据的实验云平台底层需要的组 件包含:Keystone认证组件、N o v a计算组件、Neutron 网络组件、G l a n c e镜像管理组件、Sahara大数据组 件。OpenStack在生产环境中进行部署时往往使用 辅助工具提高部署效率与成功率。本系统选择DevStack的脚本,根据系统需求部署O p e n S t a c k系统的相关组件。安装和部署完成的O p e n S t a c k系统,有两种管理资源的方式,一是命令方式,一是 Dashboard图形化界面管理方式,Dashboard组件能 够提供基础的虚拟机、网络和存储的管理[11-13]。但 是Dashboard适合通用性管理,不能满足专用场景 的应用,因此本系统利用O p e n S t a c k的接口进行二 次开发实现实验云的管理。

在安装基础组件的Op e n S t a c k的平台上即可以 安装Sahara组件,并由KeyStone负责认证与授权,管理其对应的租户与角色,同时Sahara的运行需要 在M y S Q L数据库中创建用于存储运行数据的数据库,另一方面需要在N o v a组件中配置元数据文件和 相关端口,在Neutron组件中配置元数据文件以及

D H C P配置。

2.2实验云设计

OpenStack云计算平台有良好的开放性,为用户 提供多种A P I调用服务[14],通过调用相应的A P I开 发特定功能的应用是OpenStack生态环境中一种新 的应用模式。本系统米用基于J a v a的OpenStack4J A P I在Spring M V C框架下设计和开发了相应实验 管理系统,系统架构如图1所示。

图1系统结构图

系统设计以底层构建在L i n u x系统与K V M技 术之上,通过OpenStack平台实现H a d o o p集群快速 部署。系统将虚拟化后的大数据计算平台以服务的 方式提供给用户,通过OpenStack对虚拟机的管理 功能实现对H a d o o p集群实现镜像注册、创建节点模 板、节点组的管理、集群模板的创建与管理等内容。通过OpenStack4J提供对Openstack各种资源调用 的Java A P I开发基于Spring M V C的W e b应用。通 过W e b管理平台为大数据实验环境提供快速的H a­doop虚拟集群的部署、发布和管理,从而提高实验 环境的可控性。

既然H a d o o p集群运行在O p e n S t a c k的虚拟机 当中,因此对系统中的虚拟网络的需求存在一定的 依赖性,因此设计合理的存储与内部虚拟网络是系 统稳定运行的重要影响因素。

大数据实验平台的实验任务运行在虚拟机中大 量的数据通过网络进行传输,因此网络环境对实验 平台的影响非常重要。为了简化网络结构和提高系 统稳定性,平台的虚拟网络采用G R E模式,虚拟网 络设计结构如图2所示。

外部网络通过控制节点e t h O和网络节点ethO 构成的网络用于访问内部网络,即P C机能够通过 ssh等工具访问虚拟机进行实验。数据网络由网络 节点的eth3和计算节点的eth2构成,用于虚拟机之

一 69 —

相关文档
最新文档