大数据项目技术选型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录构造

一、主流架构选用技术

二、Hadoop版本选型方案

三、选用的技术与其他工具的比照

四、大数据相关的技术选型版本确定

五、市场上的hadoop发行版厂商资料

六、具体操作

一、主流架构选用技术:

采集层:flume;sqoop

存储层:包括文件存储层和数据存储层

文件:采用hdfs存储

数据:采用hbase,redis等

模型层:离线处理:mr/yarn;实时流式处理sparkstreaming(比storm的优势)

分析层:hive

管理层:zookeeper〔调度;ha]

二、Hadoop版本选型方案:

Hadoop提供的经典方案:HDP〔HadoopDataPlatform]

管理一体化数据接入

Flume ScriptSQLNosqlStreamSearch IrrMemory Others

Sqoop PigHiveHbaseStormSolrSparkYARN-ReadyApps

NFS ----------------------------------------------------------------------------------

HDFS

数据管理

三、选用的技术与其他工具的比照:

选用sqoop 的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高 选用Flume 的好处:纯Java 开发,框架清楚,易于开发,可以直接写hdfs 且支持对和

sequence 压缩

选用Spark 的好处:基于存,适合需要屡次迭代计算的算法,在迭代处理计算方 面比Hadoop 快100倍以上,Spark 采用一个统一的技术堆栈解决了云计算大数据

的所有核心问题 平安操作

认证,授权,审计,数据保护准备,管理,监控

Storage :HDFS Ambari Resource :YARN Zookeeper Access :Hive Oozie

Pipeline:Falcon Cluster:Kno*

WebHDFS Falcon

YARN

Hue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化

四、大数据相关的技术选型版本确定:

操作系统:Cent0S6*

各个技术版本:〔最新,最稳定,bug少〕

Hadoop版本:

此版本是一个相对最新且比拟稳定的版本,基数版本可能不稳定,最好选用偶数版本Zookeeper版本:

此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停

顿问题。

Flume版本:

Kafka版本:

Spark版本:

此版本能支持以上的版本且相对稳定版

Sqoop版本:

Hive版本:

Hbase版本:

Mahout版本:

五、市场上的hadoop发行版厂商资料:

除了社区的ApacheHadoop夕卜,Cloudera,Hortonworks,MapR,EMC 版本:

IBM,Intel,华为等都提供了自己的商业版本。

要单独的NameNode 机器,元数据 分散在集群中,也类似数据默认存 储三份。

MapR

IlCatalog 、Zookeeper 、 Oozie 、Mahout x Hue 、 Ambari 、Tez 和Hive

的实时版(Stinger)以及 其他开源工具。

包括HDFS 、HBase.

MapReduce 、Hive 、 Mahout s Oozie 、Pig 、 ZooKeeper 、Hue 和其

他开源工具。还包括直 接NFS 访问、快照和 用于“高可用性〃的镜

像有的HBase 实现(与

ApacheAPI 完全兼

容),以及MapR 管理 控制台。

1.构建一个HDFS 的私有替代品,

这个替代品比当前的开源版本快三 倍,自带快照功能,而且支持无

NameNode 单点故障(SPOF),并

且在API 上和开源版兼容,所以可 以考虑将其作为替代方案。不再需

s:/Zmapr/

2也不再需要用网络附加存储(NAS)来协助NameNode做元数据备份,提高了机器使用率。

a还有个重要的特点是可以使用

nfs直接访问hdfs,提供了与旧有

应用的兼容性。镜像功能也很适合

4每年每个节点4000美元。

5.在性能方面具备优势。

在平台管理,平安认证,作业调度算法,与DB2及netezza的集成上做了增强。兼容性好,同时运行多种Hadoop版本的程序,IBM的效劳。

解决方案设计,针对硬件具有更好

的性能优化,以及提供集群管理工具和安装工具简化了Hadoop的

实施各阶段专业的咨询效劳,实际

中采购Intel版本貌似动力缺乏。.emc./zh-/in de%htm/z fro mGlobalSele ctor

安装和配置, 能够提供工程规划到.ibm./us-en/

Intel Hadoop主要是强调其能提供全面的软硬件

技术细节一一应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。

易于部署一一应该有可用的工具包来管理部署、版本更新、补丁等。

易于维护一一涉及集群管理、多中心支持、灾难恢复支持等。

本钱一一包括实现*个特定版本所需要的费用、计费模式和许可证。

企业应用集成支持一一包括对Hadoop应用与企业的其他应用进展集成的支持。选用Cloudera的方案:

相关文档
最新文档