大数据实验实践教学及科研平台
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据实验实践教学及科研平台
中国.北京
政策环境
政策环境
大数据行业现状
人才的匮乏,阻碍了大数据应用落地
现状一:当前中国大数据人才缺口为1000万,技术岗位缺口超 过150万,一些新的职位也虚位以待
现状二:大数据学习的门槛高,开发、操作环境安装 困难,这成了很多人迈不过去的坎
现状三:大数据的学习以及项目的应用,面临一个很 现实的问题:想要的数据找不到
标配3块2TB SAS硬盘 标配2块480G SSD 硬盘
集成1个高性能千兆以太网控制器(双口),支持虚拟化加速,网络加速,负载均 衡,冗余等高级功能
标配大功率高效白金级电源,1+1冗余 支持VMware vSphere、Docker、OpenStack等
硬件配置-终端设备
采用普通PC机作为大数据实训终端设备。
l Hadoop伪分布模式安装 l Hadoop完全分布模式安装 l Hadoop开发插件安装 l HDFS JAVA API操作 l Mapreduce实例——wordcount l Mapreduce实例——去重 l Mapreduce实例——排序 l Mapreduce实例——求平均值 l Mapreduce实例——Map端Join l Mapreduce实例——Reduce端Join l Mapreduce实例——单表Join l Mapreduce实例——二次排序 l Mapreduce实例——倒排索引
专业开展情况
获批大数据专业学校数量
100
90
80
70
60
50
40
30
20
3
10
0
2016年
100 32 2017年 2018年预计
学位授予门类统计
4源自文库31
工学 理学
平台介绍
PART 1
建设目标
以大数据技能操作训练为主要目的
运用云计算和互联网+思想、结合线上 与线下手段,以基础知识学习、在线视 频教学、仿真操作、线上测试、评估等 为主线的一系列方法。
互联网新闻
通过互联网公共数据的采集,提供了上T的
新闻通数过据互,联用于网事公件共、数舆据情的的分采析集案,例提。 供了上T 的新闻数据,用于事件、舆情的分析案例。
电子商务
提供多家电商的选购、交易数据。用 于商品推荐等大数据分析案例。
在线教育
与知名的在线教育公司合作,提供学生的 上课、练习、答疑等行为数据。用于用户 的学习行为特征分析案例。
农产品
搜索引擎
提供用户搜索的热门词汇,用于分析 行业热点等案例。
房地产
通过交易采购著名线上房源、租金等数据, 用于分析租住人员的分布状况、收入情况 等案例。
包括粮食、生鲜、蔬菜等流通、交易数据和案例。
实验实训平台建设方案 PART 2
实训室设计
1、根据学校在校上课人数所需的大数据实验机容量进行建设。 2、整体系统提供快速扩容升级服务。
专业管理
班级管理
学习行 为报表
课程测验
学生管理 分级权限
大数据 实验实践教
学平台
实验机 学生中心
成绩管理
开课计划
学习记录
提问答疑
课程管理
软件平台- 学习平台
2、学习中心系统
功能实现包含可选实验课程列表、已选实验课程列表、已修实验课程列表,学生可以登录系统进行学习, 可以观看实验视屏、利用虚拟机操作实验内容,并且可以截取实验步骤截图,提交实验作业。
Spark集群
建立在HDFS之上的新一代计算框架,包括 Spark SQL、SparkStream、Spark ML等。
HBase集群
HBase是一个分布式的、面向列的开源数据库, 不同于一般的关系数据库,它是一个适合于 非结构化数据存储的数据库,HBase基于列的 而不是基于行的模式。
实战集群 数据案例
实验实践 教学平台
辅助大数据教学的实验环境及实验指导书
包含视频课程、实验任务步骤、实训操 作及实战环节,采用高清视频课件并结 合移动终端;实现在线教学、实训操作、 项目实战完美结合。
以Hadoop和Spark为基础的科研平台 构建具备Hadoop和Spark集群实验教学、 数据分析挖掘能力的大数据科研系统,提 供可靠的大数据集群环境。
【学生登录】
【学习中心界面】
【实验课程列表】
软件平台-实验
3、云实验机及实验任务
实验机集群 02
云实验机类型
03
B/S云实验机 01
07 云实验机桌面分享系统
集群监控系统 04 详细的实验指导书 05
06 实验报告系统
软件平台-实验任务界面
左侧:实验任务步骤
右侧:B/S架构实验机
实验任务指导书(50+)
HDFS集群
内置Hadoop分布式文件系统(HDFS),能提供较 高吞吐量的数据访问,非常适合大规模数据集 上的应用,可以用于针对HDFS的所有特点的实 验和操作。
Zookeeper
是一个为分布式应用提供一致性服务的软件, 提供配置维护、名字服务、分布式同步、组 服务等。
Hive集群
是基于Hadoop的一个数据仓库工具,可以将结构化的数 据文件映射为一张数据库表,并提供简单的sql查询功能, 可以将sql语句转换为MapReduce任务进行运行。 。
硬件配置-服务器
服务器采用高性能品牌服务器作为大数据节点进行建设,采用 企业级全千兆三层交换机进行网络数据交换。
处理器 高速缓存 QPI总线速率 内存
磁盘
网络控制器
电源 虚拟化技术
每节点支持2个英特尔® 至强® 处理器 E5-26XX CPU 15MB 7.2GT/s 提供24个内存插槽,标配192G内存, 支持高级内存纠错,内存镜像,内存热备等高级功能
真实企业的大数据应用场景与案例
提供超过十五个行业的业务数据和算法实 现,结合大数据分析的应用场景与案例对 学生进行数据分析方面的综合训练等。
系统说明
通过浏览器直接访问实验平台 客户端无需安装其它工具软件
平台架构
解决“开发环境搭建”的难题
解决“无数据、无案例”的难题
基于浏览器的教学、实验平台
大数据实战平台
处理器 内存 磁盘 显卡 声卡 网络控制器 显示器 软件系统 键盘鼠标
第四代智能英特尔酷睿I3处理器 DDR3 4G内存 500GB SATA硬盘 集成显卡 集成声卡 集成1个高性能千兆以太网控制器 20英寸显示器 Windows 10 有线鼠标、有线键盘
软件平台- 教学管理
1、大数据教学管理系统
l Mapreduce实例——Chainmapper&Chainreducer l Mapreduce实例——MapReduce自定义输入、输出格式 l Hive安装 l Hive基本操作 l Hive查询 l Hive 各种排序之间的区别 l zookeeper安装 l HBase安装 l HBase JAVA API读写数据 l HBase的过滤器 l 综合案例:MapReduce读HBase l 综合案例:MapReduce写HBase l 综合案例:Mapreduce读HBase并写入HBase
中国.北京
政策环境
政策环境
大数据行业现状
人才的匮乏,阻碍了大数据应用落地
现状一:当前中国大数据人才缺口为1000万,技术岗位缺口超 过150万,一些新的职位也虚位以待
现状二:大数据学习的门槛高,开发、操作环境安装 困难,这成了很多人迈不过去的坎
现状三:大数据的学习以及项目的应用,面临一个很 现实的问题:想要的数据找不到
标配3块2TB SAS硬盘 标配2块480G SSD 硬盘
集成1个高性能千兆以太网控制器(双口),支持虚拟化加速,网络加速,负载均 衡,冗余等高级功能
标配大功率高效白金级电源,1+1冗余 支持VMware vSphere、Docker、OpenStack等
硬件配置-终端设备
采用普通PC机作为大数据实训终端设备。
l Hadoop伪分布模式安装 l Hadoop完全分布模式安装 l Hadoop开发插件安装 l HDFS JAVA API操作 l Mapreduce实例——wordcount l Mapreduce实例——去重 l Mapreduce实例——排序 l Mapreduce实例——求平均值 l Mapreduce实例——Map端Join l Mapreduce实例——Reduce端Join l Mapreduce实例——单表Join l Mapreduce实例——二次排序 l Mapreduce实例——倒排索引
专业开展情况
获批大数据专业学校数量
100
90
80
70
60
50
40
30
20
3
10
0
2016年
100 32 2017年 2018年预计
学位授予门类统计
4源自文库31
工学 理学
平台介绍
PART 1
建设目标
以大数据技能操作训练为主要目的
运用云计算和互联网+思想、结合线上 与线下手段,以基础知识学习、在线视 频教学、仿真操作、线上测试、评估等 为主线的一系列方法。
互联网新闻
通过互联网公共数据的采集,提供了上T的
新闻通数过据互,联用于网事公件共、数舆据情的的分采析集案,例提。 供了上T 的新闻数据,用于事件、舆情的分析案例。
电子商务
提供多家电商的选购、交易数据。用 于商品推荐等大数据分析案例。
在线教育
与知名的在线教育公司合作,提供学生的 上课、练习、答疑等行为数据。用于用户 的学习行为特征分析案例。
农产品
搜索引擎
提供用户搜索的热门词汇,用于分析 行业热点等案例。
房地产
通过交易采购著名线上房源、租金等数据, 用于分析租住人员的分布状况、收入情况 等案例。
包括粮食、生鲜、蔬菜等流通、交易数据和案例。
实验实训平台建设方案 PART 2
实训室设计
1、根据学校在校上课人数所需的大数据实验机容量进行建设。 2、整体系统提供快速扩容升级服务。
专业管理
班级管理
学习行 为报表
课程测验
学生管理 分级权限
大数据 实验实践教
学平台
实验机 学生中心
成绩管理
开课计划
学习记录
提问答疑
课程管理
软件平台- 学习平台
2、学习中心系统
功能实现包含可选实验课程列表、已选实验课程列表、已修实验课程列表,学生可以登录系统进行学习, 可以观看实验视屏、利用虚拟机操作实验内容,并且可以截取实验步骤截图,提交实验作业。
Spark集群
建立在HDFS之上的新一代计算框架,包括 Spark SQL、SparkStream、Spark ML等。
HBase集群
HBase是一个分布式的、面向列的开源数据库, 不同于一般的关系数据库,它是一个适合于 非结构化数据存储的数据库,HBase基于列的 而不是基于行的模式。
实战集群 数据案例
实验实践 教学平台
辅助大数据教学的实验环境及实验指导书
包含视频课程、实验任务步骤、实训操 作及实战环节,采用高清视频课件并结 合移动终端;实现在线教学、实训操作、 项目实战完美结合。
以Hadoop和Spark为基础的科研平台 构建具备Hadoop和Spark集群实验教学、 数据分析挖掘能力的大数据科研系统,提 供可靠的大数据集群环境。
【学生登录】
【学习中心界面】
【实验课程列表】
软件平台-实验
3、云实验机及实验任务
实验机集群 02
云实验机类型
03
B/S云实验机 01
07 云实验机桌面分享系统
集群监控系统 04 详细的实验指导书 05
06 实验报告系统
软件平台-实验任务界面
左侧:实验任务步骤
右侧:B/S架构实验机
实验任务指导书(50+)
HDFS集群
内置Hadoop分布式文件系统(HDFS),能提供较 高吞吐量的数据访问,非常适合大规模数据集 上的应用,可以用于针对HDFS的所有特点的实 验和操作。
Zookeeper
是一个为分布式应用提供一致性服务的软件, 提供配置维护、名字服务、分布式同步、组 服务等。
Hive集群
是基于Hadoop的一个数据仓库工具,可以将结构化的数 据文件映射为一张数据库表,并提供简单的sql查询功能, 可以将sql语句转换为MapReduce任务进行运行。 。
硬件配置-服务器
服务器采用高性能品牌服务器作为大数据节点进行建设,采用 企业级全千兆三层交换机进行网络数据交换。
处理器 高速缓存 QPI总线速率 内存
磁盘
网络控制器
电源 虚拟化技术
每节点支持2个英特尔® 至强® 处理器 E5-26XX CPU 15MB 7.2GT/s 提供24个内存插槽,标配192G内存, 支持高级内存纠错,内存镜像,内存热备等高级功能
真实企业的大数据应用场景与案例
提供超过十五个行业的业务数据和算法实 现,结合大数据分析的应用场景与案例对 学生进行数据分析方面的综合训练等。
系统说明
通过浏览器直接访问实验平台 客户端无需安装其它工具软件
平台架构
解决“开发环境搭建”的难题
解决“无数据、无案例”的难题
基于浏览器的教学、实验平台
大数据实战平台
处理器 内存 磁盘 显卡 声卡 网络控制器 显示器 软件系统 键盘鼠标
第四代智能英特尔酷睿I3处理器 DDR3 4G内存 500GB SATA硬盘 集成显卡 集成声卡 集成1个高性能千兆以太网控制器 20英寸显示器 Windows 10 有线鼠标、有线键盘
软件平台- 教学管理
1、大数据教学管理系统
l Mapreduce实例——Chainmapper&Chainreducer l Mapreduce实例——MapReduce自定义输入、输出格式 l Hive安装 l Hive基本操作 l Hive查询 l Hive 各种排序之间的区别 l zookeeper安装 l HBase安装 l HBase JAVA API读写数据 l HBase的过滤器 l 综合案例:MapReduce读HBase l 综合案例:MapReduce写HBase l 综合案例:Mapreduce读HBase并写入HBase