大数据技术生态概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– SVD – Stochastic SVD with PCA – PCA
– Collaboration Filtering using a parallel matrix factorization
– Slope One
– Independent Component Analysis
– Gaussian Discriminative Analysis
LDAΒιβλιοθήκη Spectral Clustering
谱聚类
Minhash Clustering
Top Down Clustering
26
自上而下聚类
Mahout中的其他算法
• Pattern Mining
– Parallel FP Growth
• Regression
– Locally Weighted Linear Regression
3
Spark分布式计算系统
4
总结
Hadoop生态系统
MapReduce
MapReduce使用方式 Hadoop提供了三种编程方式;
Java(最原始的方式) Hadoop Streaming(支持多语言) Hadoop Pipes(支持C/C++)
Java编程接口是所有编程方式的基础; 不同的编程接口只是暴露给用户的形式不同
Pig与Hive异同
相同点 运行在Hadoop之上 设计动机是为用户提供一种更简单的Hadoop上 数据分析方式
不同点 Hive要求待处理数据必须有Schema,而Pig则无 此要求; 编程语言不同,SQL与Pig Latin
SQL:得到什么样的结果,Pig Latin:如何处理数据 SQL:过程化语言,Pig Latin:数据流语言
27
Mahout中的其他算法
• Vector Similarity
– RowSimiliarityJob (MR) – VectorDistanceJob (MR)
• Other
– Collocations
• Non-MapReduce algorithms
28
Hadoop生态系统
Hive
Hive是什么?
大数据技术生态概述
技术创新 变革未来
主要内容
1
Hadoop生态系统概述
2
Hadoop分布式计算系统
3
Spark分布式计算系统
4
总结
主要内容
1
Hadoop生态系统概述
2
Hadoop分布式计算系统
3
Spark分布式计算系统
4
总结
Hadoop生态系统介绍
主要内容
1
Hadoop生态系统概述
2
Hadoop分布式计算系统
Hadoop生态系统
Hive2(Stinger)
Stinger
下一代Hive被称为“Stinger”,其底层的计算引擎将由Tez替 换MapReduce;
模糊K-Means
Expectation Maximization
EM算法
Mean Shift
均值漂移
Hierarchical Clustering
层次聚类
Dirichlet Process Clustering
狄里克雷过程聚类
Latent Dirichlet Allocation
通常用于进行离线数据处理(采用MapReduce); 可认为是一个HQLMR的语言翻译器。
Hadoop生态系统
Pig
Pig是什么
Hadoop上的数据流执行引擎 读写HDFS上的目录和文件 利用MapReduce并行处理数据
使用Pig Latin语言表达数据流 Pig Latin是一种新的数据流语言 Pig将Pig Latin语句转化为MapReduce作业 Pig Latin比MapReduce程序更易编写
充分利用了MapReduce和HDFS的扩展性和容错性
属于Hadoop生态系统重要组成部分
Apache Software License 2
实现了大部分常用的数据挖掘算法
聚类算法 分类算法 推荐算法
23
Mahout提供的算法
Classification Clustering
Dimension Reduction
Restricted Boltzmann Machines
有限波尔兹曼机
Online Passive Aggressive Boosting Hidden Markov Models
隐式马尔科夫链
25
Mahout中的聚类算法
Canopy Clustering
K-Means
Fuzzy K-Means
而已,内部执行引擎是一样的;
不同编程方式效率不同。
MapReduce实例—wordcount
Wordcount实例—Mapper
wordcount实例—Reducer
Hadoop生态系统
Mahout
Mahout是什么
基于MapReduce开发的数据挖掘/机器学习库 良好的扩展性和容错性
• Dimension Reduction
Evolution Algorithms
– Genetic Algorithms Recommenders
– Non-distributed recommenders (“Taste”)
– Distributed Item-Based Collaboration Filtering
由facebook开源,最初用于解决海量结构化的日志数 据统计问题;
ETL(Extraction-Transformation-Loading)工具
构建在Hadoop之上的数据仓库;
数据计算使用MR,数据存储使用HDFS
Hive 定义了一种类 SQL 查询语言——HQL;
类似SQL,但不完全相同
Mahout中的分类算法
Logistic Regression
逻辑回归
Bayesian
贝叶斯分类算法
Support Vector Machines
支持向量机
Perceptron and Winnow
感知器算法
Neural Network
神经网络
Random Forests
随机森林
Freq. Pattern Mining
Non-MR Algorithms
Recommenders
Regression
Evolution
Vector Similarity
See /confluence/display/MAHOUT/Algorithms
24