数据分析面试题及答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据分析面试题及答案

linux的启动顺序

通电后读取ROM的BIOS程序进行硬件自检,自检成功后把计算机控制权交给BIOS中BOOTsequence中的下一个有效设备,读取该设备MBR找到操作系统,载入linux的bootloader,一般是grub。之后载入kernel,执行/etc/rc.d/sysinit ,开启其他组件(/etc/modules.conf),执行运行级别,执行/etc/rc.d/rc.local ,执行/bin/login,最后shell启动。

使用过的开源框架介绍

Struts2

Spring

hibernate

mybatis

hadoop

hive

hbase

flume

sqoop

Zookeeper

Mahout

Kafka

Storm

Spark

擅长哪种技术

Hadoop。介绍

HIVE的优化

底层是MapReduce,所以又可以说是MapReduce优化。

小文件都合并成大文件

Reducer数量在代码中介于节点数*reduceT ask的最大数量的0.95倍到1.75倍

写一个UDF函数,在建表的时候制定好分区

配置文件中,打开在map端的合并

开发中遇到的问题

Hbase节点运行很慢,发现是Hfile过小,hbase频繁split。

修改了hfile大小。或者设置major compack设置为手动

Major compack设置为手动会出现什么问题

Zookeeper的二次开发

Flume 的实时和定时数据采集,项目和flume的解耦

Mogodb和hbase的区别

Mogodb是单机

Hbase是分布式??

项目组多少人?人员分配?数据量?集群的配置?

相关文档
最新文档