大数据技术生态概述

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

– SVD – Stochastic SVD with PCA – PCA
– Collaboration Filtering using a parallel matrix factorization
– Slope One
– Independent Component Analysis
– Gaussian Discriminative Analysis
LDAΒιβλιοθήκη Spectral Clustering
谱聚类
Minhash Clustering
Top Down Clustering
26
自上而下聚类
Mahout中的其他算法
• Pattern Mining
– Parallel FP Growth
• Regression
– Locally Weighted Linear Regression
3
Spark分布式计算系统
4
总结
Hadoop生态系统
MapReduce
MapReduce使用方式 Hadoop提供了三种编程方式；
Java（最原始的方式） Hadoop Streaming（支持多语言） Hadoop Pipes（支持C/C++）
Java编程接口是所有编程方式的基础；不同的编程接口只是暴露给用户的形式不同
Pig与Hive异同
相同点运行在Hadoop之上设计动机是为用户提供一种更简单的Hadoop上数据分析方式
不同点 Hive要求待处理数据必须有Schema，而Pig则无此要求；编程语言不同，SQL与Pig Latin
SQL：得到什么样的结果，Pig Latin：如何处理数据 SQL：过程化语言，Pig Latin：数据流语言
27
Mahout中的其他算法
• Vector Similarity
– RowSimiliarityJob (MR) – VectorDistanceJob (MR)
• Other
– Collocations
• Non-MapReduce algorithms
28
Hadoop生态系统
Hive
Hive是什么？
大数据技术生态概述
技术创新变革未来
主要内容
1
Hadoop生态系统概述
2
Hadoop分布式计算系统
3
Spark分布式计算系统
4
总结
主要内容
1
Hadoop生态系统概述
2
Hadoop分布式计算系统
3
Spark分布式计算系统
4
总结
Hadoop生态系统介绍
主要内容
1
Hadoop生态系统概述
2
Hadoop分布式计算系统
Hadoop生态系统
Hive2（Stinger）
Stinger
下一代Hive被称为“Stinger”，其底层的计算引擎将由Tez替换MapReduce；
模糊K-Means
Expectation Maximization
EM算法
Mean Shift
均值漂移
Hierarchical Clustering
层次聚类
Dirichlet Process Clustering
狄里克雷过程聚类
Latent Dirichlet Allocation
通常用于进行离线数据处理（采用MapReduce）；可认为是一个HQLMR的语言翻译器。
Hadoop生态系统
Pig
Pig是什么
Hadoop上的数据流执行引擎读写HDFS上的目录和文件利用MapReduce并行处理数据
使用Pig Latin语言表达数据流 Pig Latin是一种新的数据流语言 Pig将Pig Latin语句转化为MapReduce作业 Pig Latin比MapReduce程序更易编写
充分利用了MapReduce和HDFS的扩展性和容错性
属于Hadoop生态系统重要组成部分
Apache Software License 2
实现了大部分常用的数据挖掘算法
聚类算法分类算法推荐算法
23
Mahout提供的算法
Classification Clustering
Dimension Reduction
Restricted Boltzmann Machines
有限波尔兹曼机
Online Passive Aggressive Boosting Hidden Markov Models
隐式马尔科夫链
25
Mahout中的聚类算法
Canopy Clustering
K-Means
Fuzzy K-Means
而已，内部执行引擎是一样的；
不同编程方式效率不同。
MapReduce实例—wordcount
Wordcount实例—Mapper
wordcount实例—Reducer
Hadoop生态系统
Mahout
Mahout是什么
基于MapReduce开发的数据挖掘/机器学习库良好的扩展性和容错性
• Dimension Reduction
Evolution Algorithms
– Genetic Algorithms Recommenders
– Non-distributed recommenders (“Taste”)
– Distributed Item-Based Collaboration Filtering
由facebook开源，最初用于解决海量结构化的日志数据统计问题；
ETL（Extraction-Transformation-Loading）工具
构建在Hadoop之上的数据仓库；
数据计算使用MR，数据存储使用HDFS
Hive 定义了一种类 SQL 查询语言——HQL；
类似SQL，但不完全相同
Mahout中的分类算法
Logistic Regression
逻辑回归
Bayesian
贝叶斯分类算法
Support Vector Machines
支持向量机
Perceptron and Winnow
感知器算法
Neural Network
神经网络
Random Forests
随机森林
Freq. Pattern Mining
Non-MR Algorithms
Recommenders
Regression
Evolution
Vector Similarity
See /confluence/display/MAHOUT/Algorithms
24