大数据项目技术选型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录构造
一、主流架构选用技术
二、Hadoop版本选型方案
三、选用的技术与其他工具的比照
四、大数据相关的技术选型版本确定
五、市场上的hadoop发行版厂商资料
六、具体操作
一、主流架构选用技术:
采集层:flume;sqoop
存储层:包括文件存储层和数据存储层
文件:采用hdfs存储
数据:采用hbase,redis等
模型层:离线处理:mr/yarn;实时流式处理sparkstreaming(比storm的优势)
分析层:hive
管理层:zookeeper〔调度;ha]
二、Hadoop版本选型方案:
Hadoop提供的经典方案:HDP〔HadoopDataPlatform]
管理一体化数据接入
Flume ScriptSQLNosqlStreamSearch IrrMemory Others
Sqoop PigHiveHbaseStormSolrSparkYARN-ReadyApps
NFS ----------------------------------------------------------------------------------
HDFS
数据管理
三、选用的技术与其他工具的比照:
选用sqoop 的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高 选用Flume 的好处:纯Java 开发,框架清楚,易于开发,可以直接写hdfs 且支持对和
sequence 压缩
选用Spark 的好处:基于存,适合需要屡次迭代计算的算法,在迭代处理计算方 面比Hadoop 快100倍以上,Spark 采用一个统一的技术堆栈解决了云计算大数据
的所有核心问题 平安操作
认证,授权,审计,数据保护准备,管理,监控
Storage :HDFS Ambari Resource :YARN Zookeeper Access :Hive Oozie
Pipeline:Falcon Cluster:Kno*
WebHDFS Falcon
YARN
Hue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化
四、大数据相关的技术选型版本确定:
操作系统:Cent0S6*
各个技术版本:〔最新,最稳定,bug少〕
Hadoop版本:
此版本是一个相对最新且比拟稳定的版本,基数版本可能不稳定,最好选用偶数版本Zookeeper版本:
此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停
顿问题。
Flume版本:
Kafka版本:
Spark版本:
此版本能支持以上的版本且相对稳定版
Sqoop版本:
Hive版本:
Hbase版本:
Mahout版本:
五、市场上的hadoop发行版厂商资料:
除了社区的ApacheHadoop夕卜,Cloudera,Hortonworks,MapR,EMC 版本:
IBM,Intel,华为等都提供了自己的商业版本。
要单独的NameNode 机器,元数据 分散在集群中,也类似数据默认存 储三份。
MapR
IlCatalog 、Zookeeper 、 Oozie 、Mahout x Hue 、 Ambari 、Tez 和Hive
的实时版(Stinger)以及 其他开源工具。
包括HDFS 、HBase.
MapReduce 、Hive 、 Mahout s Oozie 、Pig 、 ZooKeeper 、Hue 和其
他开源工具。还包括直 接NFS 访问、快照和 用于“高可用性〃的镜
像有的HBase 实现(与
ApacheAPI 完全兼
容),以及MapR 管理 控制台。
1.构建一个HDFS 的私有替代品,
这个替代品比当前的开源版本快三 倍,自带快照功能,而且支持无
NameNode 单点故障(SPOF),并
且在API 上和开源版兼容,所以可 以考虑将其作为替代方案。不再需
s:/Zmapr/
2也不再需要用网络附加存储(NAS)来协助NameNode做元数据备份,提高了机器使用率。
a还有个重要的特点是可以使用
nfs直接访问hdfs,提供了与旧有
应用的兼容性。镜像功能也很适合
4每年每个节点4000美元。
5.在性能方面具备优势。
在平台管理,平安认证,作业调度算法,与DB2及netezza的集成上做了增强。兼容性好,同时运行多种Hadoop版本的程序,IBM的效劳。
解决方案设计,针对硬件具有更好
的性能优化,以及提供集群管理工具和安装工具简化了Hadoop的
实施各阶段专业的咨询效劳,实际
中采购Intel版本貌似动力缺乏。.emc./zh-/in de%htm/z fro mGlobalSele ctor
安装和配置, 能够提供工程规划到.ibm./us-en/
Intel Hadoop主要是强调其能提供全面的软硬件
技术细节一一应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。
易于部署一一应该有可用的工具包来管理部署、版本更新、补丁等。
易于维护一一涉及集群管理、多中心支持、灾难恢复支持等。
本钱一一包括实现*个特定版本所需要的费用、计费模式和许可证。
企业应用集成支持一一包括对Hadoop应用与企业的其他应用进展集成的支持。选用Cloudera的方案: