大数据工程师简历3份

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基本资料

工作年限:4年工作状态:目前正在找工作

工作意向: 大数据研发工程师、spark工程师,Hadoop工程师

薪水:面议

个人技能

1 深刻理解hdfs分布式文件系统存储结构和高可用原理

2 熟练掌握hadoop mapreduce计算框架编程,对yarn的资源调度,作业监控有一定认识

3 掌握storm streaming编程,对定时批量任务处理,分布式rpc有一定认识

4 深刻了解Spark底层运行机制,

4 熟练掌握scala编程,能运用scala进行spark RDD,spark streaming编程

5 熟悉flume,kafka等日志收集,分发框架的使用,能够将他们和storm,spark进行整合进行数据的实时处理

6 能够熟练运用hive数据仓库工具,对日志数据进行查询,统计等数据操作,并且有一定的数据优化经验

7 能将hive和spark sql进行整合,进行数据查询等相关操作

8 熟悉hbase数据库的使用,及其编程

9 熟悉redis内存数据库,能搭建redis高可用集群及其编程

10 熟悉ELK技术栈,了解ElasticSearch,Logstash的整合使用

11 掌握Sqoop数据迁移工具的使用,能熟练的将数据从不同的存储介质进行迁移

12 了解linux系统,熟悉常用的linux的shell命令,能在linux系统下搭建开发环境13熟练掌握JavaSE,深刻理解面向对象设计思想,熟练使用IO流操作和集合框架,网络编程等JavaSE主流技术。

14 能使用反射、注解、动态代理等Java高级技术,对代码的封装抽取及其性能优化有点一定的经验。

15 熟悉Struts,Spring,Hibernate,Servlet,Jsp等WEB编程技术

16 能熟练使用Oracle,MySql主流数据库技术,擅长SQL语句的编写

工作经验

1 公司名称:北京联想利泰软件有限公司性质:民营

时间:2014年8月-至今职位:大数据研发工程师

参与项目:游戏运营指标分析项目

乐玩家社区用户行为分析项目

移动应用市场应用信息比对项目

2 公司名称:首都信息发展股份有限公司性质:国有控股

时间:2013年4月-2014年7月职位:JavaEE工程师

参与项目:钦州个人贷款系统

电子档案管理系统

3 公司名称:浙江长天信息技术有限公司性质:民营

时间:2012年3月-2013年3月职位:javaEE工程师

参与项目:杭州市萧山区基层公共卫生服务系统

杭州市萧山区电力中心设备资源管理系统

项目经验

大数据项目部分

项目名称:游戏运营指标分析项目

开发环境:IDEA+maven+scala+jdk+git

系统架构:ElasticSearch+Logstash+Kafka+Zookeeper+Spark+Hdfs+Hbase+

Mysql+Echarts

项目描述:

游戏玩家的各种行为会产生大量的数据,这些数据可以帮助游戏运维者了解玩家的行为和需求,通过玩家反馈的信息可以不断地矫正游戏中出现的问题,从而让游戏健康稳定的可持续运营。该项目就是为某公司的一款游戏运营情况做多角度的指标分析,从而更好的为公司的游戏推广策略,精准营销,游戏玩家的体验优化,游戏产品的研发等多方面提供数据反馈参考。项目中分析到的指标有新增玩家,活跃玩家,玩家留存率,玩家流失率,玩游戏平均时长,玩游戏频次,收入数据(收入金额,充值人数,收入地区分布等)

责任描述:

1 负责日志数据的采集,使用logstash框架,日志数据来源分为两部分:

1)游戏官网埋点采集用户点击日志

2)游戏服务器端收集的所有游戏玩家产生的日志

2 将采集的日志存入kafka,供各个业务模块消费使用

3 利用spark Rdd和spark streaming编程对新增玩家,活跃玩家,玩家留存率,

收入数据等指标的多维度统计分析

4 将自己分析的实时指标数据存入hbase,离线指标数据存入mysql

5 将自己分析的指标结果用Echarts图标展示出来

项目名称:乐玩家社区用户行为分析系统

开发环境: eclipse+maven+jdk+git

系统架构: hadoop+zookeeper+flume+hive+hbase+sqoop+mysql+SSM+Echarts

项目描述:

乐玩家社区是联想手机社区论坛,用于用户粉丝交流互动,同时发布联想手机的各个品牌宣传信息,以及收集用户反馈,用户可以在上面发帖,提建议,发起各种交流活动,通过对乐玩家社区网站的日志进行分析,计算网站关键指标,其中关键性指标有,浏览量:页面浏览量即为PV(Page View),每日登陆用户数UV,每周UV,。跳出率=跳出数/PV:跳出率是非常重要的访客黏性指标,它显示了访客对网站的兴趣程度:跳出率越低说明流量质量越好,访客对网站的内容越感兴趣,这些访客越可能是网站的有效用户、忠实用户。板块访问量pv,和板块独立ip访问量。多维度用户留存率

责任描述:

1 使用flume监听每天的日志目录,将每天的日志文件上传到hdfs上相应的目录下

2.通过写mapreduce任务对数据进行清洗

3.用hive进行网站的pv,uv,用户注册数,用户留存率进行多维度分析统计

开发步骤:

1. 使用flume把日志数据导入到hdfs中

2. 通过mapreduce对数据进行清洗,生成规范数据文件上传到hdfs

3. 使用hive进行数据的多维分析

4. 把hive分析结果使用sqoop导出到mysql中

5. 提供图表和表格进行数据展示

项目名称:应用市场应用比对项目

开发环境:Eclipse+Maven+jdk+git

技术框架:Httpclient+Xpath+Hbase+Redis+Elasticsearch+Springmvc+Jquery+ echarts+zookeeper+ganglia 项目描述:

该项目主要是抓取应用宝、应用汇、360手机助手、百度手机助手,百度安卓市场,小米应用商店,乐商店,华为应用市场等主要手机应用市场,主要获取app应用的标题、软件作者,下载量、软件大小和应用详情等信息,在前台界面为用户提供应用信息搜索查询,以及应用下载量比对等功能,主要为公司自己的手机应用市场研发,提供数据参考依据,这个项目主要分为6个模块,数据下载层、数据解析层、数据存储层、数据处理层、数据展现层、系统监控层。

技术要点:

1:数据下载层,主要负责爬取指定应用市场网站的数据,在这我们使用httpclient 工具模拟浏览器进行页面下载。

2:数据解析层:主要是这对抓取过来的页面数据进行解析,使用htmlcleaner+xpath 对关键性数据进行解析提取。

3:数据存储层,这个模块主要负责存储应用的详细信息,由于应用详细信息数据量比较大,所以存储到hbase中。由于需要循环抓取网站中指定分类或者是所有的数据,所以需要把分页的url和应用的url临时存储到一个队列中,这样可以实现一个循

环抓取。这个url数据相对比较少,并且增删频繁,所以存储到redis的list队

列中。

4:数据处理层,这个模块主要是为前台的查询提供帮助,因为直接根据关键字查询hbase中某一些列的数据,效率太低,所以使用elasticsearch对hbase中的数

据建立索引,也就是es+hbase的架构。

5:数据展现层,这个模块主要提供前台搜索、查询、展示、应用下载量等功能,页面框架使用springmvc,其中价格趋势波动图是使用echarts实现的。

6:数据监控层,这个模块主要负责监控爬虫的声明周期以及服务器硬件的使用情况,监控爬虫的生命周期使用zookeeper中的临时节点来实现,监控服务器的硬件使

用情况,例如硬盘、CPU、内存的使用情况使用ganglia进行监控

责任描述:

1 应用宝,百度安卓市场,小米应用商店3个应用上所有应用信息数据的网络爬取

2 对解析出的应用信息(应用名称,所属研发公司或者团队,下载量,应用大小,评分以

及详细介绍)等信息存入hbase,并抽取查询接口,供前端展示

3 为加快查询速度,对一些关键字段(应用名称,所属研发公司或团队)使用

Elasticsearch字段建立索引,使得前端能通过关键字迅速查询到相应结果

JavaEE项目部分

相关文档
最新文档