CDA大数据分析师 学习心得

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

人大经济论坛CDA大数据分析师培训学习心得

CDA 大数据分析师的课程让我对“大数据”这个概念有了更为具体的认识。以往对于“大数据”,我的认知还是仅仅停留在概念层面上。而上完课后,尤其是了解如何搭建Hadoop 平台以及其生态环境之后,“大数据”这个概念终于落地了。

Hadoop的核心框架是Hdfs和MapReduce。Hdfs是分布式文件系统,其主要作用是存储及读取数据。而MapReduce实际上是Hadoop工作的核心思想。任何想要在Hadoop集群上完成的算法都必须基于MapReduce的思想实现。因此,我认为想要学习Hadoop,其核心在于充分理解MapReduce。而同时,MapReduce的理解也是理解大数据分析思想的关键,即如何将庞大的数据分解成可以进行操作的小数据集。

人大经济论坛Hadoop大数据分析师课程大致可分为如下几个部分(阐述并不是按照时间顺序,而是按照个人对于这个课程的理解)。第一部分是原理及背景的讲解:个人认为,这一部分其实是重点,因为涉及到了大数据分析的核心,也包括了Hadoop的运行原理。例如1.0版本与2.0版本的差异,其核心在于2.0版本增加了独立的资源管理器Yarn,这极大的提升了Hadoop处理海量数据时的效率;第二部分是搭建平台:从最初的单机模式,至伪分布模式,到最终的集群模式。这部分内容中核心的部分是如何写好配置文件,在这里课程中也会涉及到核心参数的介绍,这对于理解Hadoop平台及今后自己如何配置Hadoop集群模式都是十分有用的;第三部分是Mahout的介绍: Mahout是建立在Hadoop平台上的软件,其中集成了许多很有用的算法。这些算法往往不是十分前沿的,但在处理海量数据时往往可以显现出强大的作用。课程中对于Mahout的讲解也是十分仔细的,因为它是目前最为常用且方便的分析海量数据的软件;第四部分是Java培训: 由于Hadoop是由Java编写的,因此对于自己想编写MapReduce的学员,这部分内容其实是十分关键的。因为我认为想真正成为一个大数据分析师,仅仅会用Mahout上现成的算法是远远不够的。修改已有的算法甚至是构造新算法都是一个想真正进入这一行业的从业人员所必需的。课程中也会涉及到怎样在源文件中修改MapReduce程序,从而实现自带的算法所不具有的功能。从这一点上也体现了课程的深度;第五部分是对Hadoop整体生态环境的介绍,介绍并在Hadoop平台上搭载了如Hive, HBase等等常用的应用。对于其优劣势也有较为详细的介绍,例如Hive可以利用HQL语句进行数据库操作,便于那些熟悉SQL语句的DB管理人员操作。而HBase是一种面向列的数据库,使得查询及插入数据更高效。相较于Hive,HBASE显然更适用与海量数据的管理。这些对于Hadoop整体生态环境的介绍体现了课程一定的广度。

总体来讲,人大经济论坛hadoop大数据分析师培训课程,无论是课程内容的深度和广度,还是课程的教学质量,都是完美的,学完本人受益匪浅,通过最短的时间使自己快速进入到大数据分析的领域中。八天的培训中,最让我感动的是培训老师的认真负责的态度。课程中每一步骤都由老师一对一,手把手指点,耐心程度让人点赞。这样的教学方式保证能让每个学员都能跟上进度,有些入门级的同学当然问得更多些,老师也能一一解答,相信他们的收获比我更多。

人大经济论坛CDA大数据分析师第二期课程学员

相关文档
最新文档