大数据与数据挖掘实验系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SAS建立信 用评分模型 SAS预测股 SAS 票市场收益 数据 SAS预测经 分析 济指标 综合 SAS侦测欺 应用 诈交易 SAS微阵列 样本分类
大数据实验系统实验内容(4)
• 基于Hadoop的大数据基础实验
– 利用实验所提供的环境,学习基本的
MapReduce 算法,利用提供大数据在Hadoop实
R语言建立信用 评分模型 R语言预测股票 市场收益 R语言 R语言预测经济 数据分 指标 析综合 R语言侦测欺诈 应用 交易 R语言微阵列样 本分类
大数据实验系统实验内容(3)
• 数据挖掘SAS开发实验
– 利用实验系统提供的SAS环境,学习基本的SAS
开发方法,并针对提供的数据集开发数据挖掘
实验 实算验名法称 实验 实验名称
语言开发方法,并针对提供的数据集开发数据
实验类 挖实掘验算名称法

实验 实验名称 类型
实验 实验名称 类型
R语言基础
R语言控制语 句 R语言数据类 型 R语言编 R语言常用函 程基础 数 R语言程序调 试
R语言统计推断 基础 R语言统计分布 R语言假设检验 R语言 R语言基本线性 统计与 回归 建模 R语言多变量线 性回归 R语言广义线性 模型
• 大数据分析环境——Hadoop
– 开源大数据分析的事实标准 – 大量的互联网公司作为实际生产平台 – 方便的Java开发环境 – 不断演进的良好生态环境
大数据与数据挖掘实验基础软件
• 最流行的商用数据统计分析软件——SAS
– 功能强大,统计方法齐全 – 使用简便,操作灵活
• 简单而强大的通用数据分析软件——Excel
大数据与数据挖掘实验系统
北京红亚华宇科技有限公司
大数据的特点
大数据首先是数据量大, 典型的大数据系统所管理
的数据可达PB级
其次大数据的来源复 最后大数据的数据关 杂,数据质量差异较 系复杂,难以用传统
大 的关系型数据库描述
大数据分析的基石
数据挖掘 算法
数据获取与数 据预处理
并行化分 析框架
廉价大数据存 储方案
云 实 验 平 台
…… …… ……
云虚拟服务 计算资源
云虚拟网络 资源
云虚拟存储 设备资源
实验室虚拟化设备区
……
管管理理控控制制
计计算算节节点点 计计算算节节点点 实验室实体设备区
云云资资源源
大数据实验系统实验内容(1)
• 数据挖掘展示性实验
– 用于展示常用数据挖掘算法的作用,使用者通过
实验系统所提供数据集,直观理解数据挖掘算法
R语言环境
基本统计
分类算法 …
、 数
数据挖 掘展示
数据分析
聚类分析
关联分析 …
据 管

实验室硬件环境


学生PC客户端 虚拟机实验环境 实验数据存储

数据挖掘算法执行环境
Hadoop服务器集群
大数据与数据挖掘实验基础软件
• 数据挖掘基础语言环境——R语言
– 最为流行的开源统计与数据挖掘软件 – 可跨平台运行,高效的脚本语言 – 为数据分析和显示提供的强大图形功能 – 丰富的高质量的开源第三方算法软件包
• 实战案例分析
大数据与数据挖掘实验类别
数据挖掘算法 设计类实验
大数据分析 基础类实验
数据挖掘验 证类实验
大数据分析 实战分析实 验
大数据实验系统整体框架
实验体系
行业数 据实验
零售行业
社交网络
网络日志 …

实 验 教 材 、 师 资 培 训

大数据 分析
平台搭建
Hive使用
日志统计 …
管 理
数据挖 掘算法
数据统计等基 础分析算法
聚类分析等高 级分析算法
可扩展的弹性 计算资源调度
非结构化数据 存储与加工算 法
大数据实验系统所支撑的学科与
课程
计算机、信管学 • 数据挖掘
• 数据结构与算法

• 云计算与分布式系统
• 统计与建模
统计与经济学科 • SAS及R语言统计分析
• 经济数据分析
• 数据挖掘
商科与管理学科 • 商业数据分析
– 数据统计分析 – 利用VBA进行数据挖掘分析
• 通用开发语言——Java
– 数据爬取 – 自然语言处理
大数据实验平台网络拓扑
• 服务器端
学生端
– R计算服务
• 远程连接
– Hadoop集群
• 开发环境
– 虚拟化实验台
• 测试环境
外外部部用用户户 远程互联接入区
实训展示区
实训平台管理区
……
学习实训区
的实验输类型出结实果验名称
实验类型 实验名称
统计推断基础
数据可视化
统计分布
聚类
统计与建 模方法演 示实验
假设检验 基本线性回归 多变量线性回归
数据挖掘 数据降维 方法演示 分类基础
实验 决策树分类方法
广义线性模型
高级分类方法
关联分析
大数据实验系统实验内容(2)
• 数据挖掘R语言开发实验
– 利用实验系统提供的R语言环境,学习基本的R
类型
类型
实验 实验名称 类型
实验 实验名称 类型
SAS基础
SAS控制语

SAS数据类
SAS基 型 础编程 SAS常用函 实验 数
SAS源自文库序调

SAS统计推断基 础 SAS统计分布 SAS假设检验 SAS统 SAS线性回归 计与 SAS多变量线性 建模 回归 SAS广义线性模 型
SAS数据可视 化 SAS聚类 SAS数据降维 SAS数 SAS分类基础 据挖 SAS决策树分 掘算 类方法 法 SAS高级分类 方法 SAS关联分析
网络安全日志分析实验 出租车GPS位置分析实验
社交资源共享站点用户行为
分析实验
大数据实验系统实验内容(5)
• 与大数据相关的其他实验
– 实现大数据分析中常用的Excel数据分析、数据 爬取、自然语言处理、数据库使用等实验
实验 实验名称 类型
实验 实验名称 类型
实验 实验名称 类型
实验 实验名称 类型
现大数据实战分析
实验类 实验名称
实验类型 实验名称

超市零售数据分析实验
Hadoop环境的搭建实验
NetFlix电影数据分析实验
基础MapReduce开发实验
新浪微博消息分析实验
大数据基 迭 代 式 MapReduce 程 序 和 础实验 计数器实验
分区、排序和合并算法实 验 Hive的使用
大数据实 带有情感标签的微博数据分 战实验 析实验
Excel 数据 处理 与分 析
Excel基本操作 Excel数据可视 化 Excel函数与公 式 Excel透视表 Excel数据分析 VBA程序基础 VBA控制语句 VBA常用函数 VBA综合应用
My SQL数 据库 操作
MySQL配置 SQL中的DDL语 句 SQL中的DML语 句 SQL中的DCL语 句 MySQL常用函数 MySQL存储过程 和自定义函数
相关文档
最新文档