尚硅谷大数据项目之实时项目2(日活需求)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章实时处理模块
1.1 模块搭建
添加scala框架
1.2 代码思路
1)消费kafka中的数据;
2)利用redis过滤当日已经计入的日活设备;
3)把每批次新增的当日日活信息保存到HBASE或ES中;
4)从ES中查询出数据,发布成数据接口,通可视化化工程调用。
1.3 代码开发1 ---消费Kafka
1.3.1 配置
1)config.properties
# Kafka配置
kafka.broker.list=hadoop102:9092,hadoop103:9092,hadoop104:9092
# Redis配置
redis.host=hadoop102
rdis.port=6379
2)pom.xml
1.3.2 工具类
1)MykafkaUtil
package com.atguigu.utils
import java.util.Properties
import kafka.serializer.StringDecoder
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.KafkaUtils
object MyKafkaUtil {
def getKafkaStream(ssc: StreamingContext, topics: Set[String]): InputDStream[(String, String)] = {