大数据的技术路线

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据的技术路线

想要大数据需要学习什么呢?需要掌握哪些技术才能够从事大数据的工作。今天为大家讲解下大数据的技术路线,让大家对于大数据有一个详细的了解。

需要学习的大数据技术

1、hadoop:常用于离线的复杂的大数据处理

2、Spark:常用于离线的快速的大数据处理

3、Storm:常用于在线的实时的大数据处理

4、HDFS:Hadoop分布式文件系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

5、Hbase:是一个分布式的、面向列的开源数据库。该技术来源于Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache 的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于

非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

6、Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

7、Kafka:是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka 的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消费。

8、redis:redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、

zset(sorted set–有序集合)和hash(哈希类型)。这些数据类型都支持

push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。

那么除了这些核心的技术内容,还需要具备以下的数学基础:

1.线性代数;

2.概率与信息论;

3.数值计算

大数据技术书籍推荐

1、舍恩伯格的《大数据时代》;

2、巴拉巴西的《爆发》;

3、涂子沛的《大数据》;

4、吴军《智能时代》;

5、《大数据架构商业之路:从业务需求到技术方案》

以上就是对大数据技术路线的详细介绍,想要学习了解更多的大数据培训相关的信息,可以去光环大数据官网。

本文转载自光环大数据,原文链接:

/zixun/meiwen/7080.html,想要了解更多的大数据信息,可以去光环大数据官网()了解更多

相关文档
最新文档