电视用户大数据分析报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电视用户数据分析
文档修改记录
目录
1 总体描述 (4)
1.1 建设目标 (4)
1.2 整体架构 (4)
2 功能实现 (6)
2.1 数据采集模块 (6)
2.1.1 数据收集 (6)
2.1.2 数据处理 (6)
2.2 数据分析 (7)
2.3 数据可视化 (8)
2.4 系统管理 (9)
3 初步方案 (10)
3.1 C平台接口日志分析 (10)
3.2 流水文件分析 (11)
4 技术实现 (11)
1总体描述
1.1建设目标
互联网电视是建立在通信网络上的互动性视频服务,可以非常灵活地实现电子菜单、节目预约、实时快进、快退等操作。通过对OTT用户的实时数据收集,统计分析,建设实时数据分析系统,对OTT的EPG界面设计、内容运营有着重要意义。
系统在通过对OTT业务运营平台数据收集的基础上,实时(定期)获取用户行为数据,结合业务运营平台数据日志、用户端APK上报日志等数据,通过大数据处理平台(如Hadoop),对OTT的各纬度指标进行统计分析,并提供用户自定义分析功能,进行数据展示,为EPG的界面设计和运营建设提供决策依据。
1.2整体架构
负责整个互联网电视运营中心平台或者分平台系统的原始基础数据的获取,包括2部分内容:(1)平台日志:结合运营平台的日志管理模块,实现获取并接收用户的行为数据;(2)APK日志上报。提供数据接口,且支持FTP等传输导入。
数据抓取用于接入存储数据,目前分为三部分:
(1)C平台各业务系统通过AOP方式将各接口调用情况输出标准日志,由FLUME进行抓取;再通过KAFKA将数据输送到STORM 中;STORM 将元数据直接存放到HDFS中。
(2)各业务系统的错误日志转换为json后直接存放到ES中,方便查找。
(3)将流水文件(需转换为csv格式)和流水日志(导出txt格式)通过文档上传系统上传到HDFS中,文件所在的文件夹以当天日期命名(减少需处理的文件数量,提高效率)。
●数据分析
基于hadoop大数据处理技术,将数据收集获取到的基础数据,进行数据预处理、数据统计计算,包括数据排重、数据清洗、结果展示指标计算等,并将原始数据、结果表数据进行存储和备份。根据多维度的数据展示需求,设计结果表数据,并对其进行实时统计计算,并将结果数据,推送给前端展示平台。另外还提供用户自定分析功能,用于对原始数据和结果表数据的自定义查询和分析功能,便于非数据分析人员对系统进行二次分析。
数据分析用于对指定数据进行切割分解为各个维度,给展示系统提供数据支撑:(1)由STORM 对C平台接口日志进行处理,将处理后的数据存放到ELK中进行展示。
(2)由SPARK离线处理HDFS上的流水文件,将处理后的数据保存到mongodb中。(设定时任务每天零点自动开始SPARK任务,对以前一天日期命名的文件夹下的数据进行处理)。
●可视化系统(BI)
BI系统负责可视化数据分析模块建设,将数据分析的数据,在显示终端进行可视化图形展示。BI系统是对分析后结果进行展示,用于图形化展示最终的分析结果:初期是使用ECharts 等图表插件绘制展示图形;
后期由项目根据传来的数据和模型自动绘制图形。
数据挖掘对离线数据进行分析,形成相关模型,并用模型对数据进行计算分析:使用SPARK Mllib (机器学习)训练模型,来完成精准推荐和视频打分等功能。
●元数据管理与数据质量管理系统
元数据管理对接入的数据进行管理,数据质量管理是对云平台上存储数据进行质量控制,保证数据真实可靠。
2功能实现
2.1数据采集模块
2.1.1数据收集
互联网电视运营大数据分析数据来源于各业务运营平台,数据分为APK上报数据、业务平台后台日志数据。
(1)终端首次开机上电后,主动向运营平台上报认证信息,终端经过认证后才能激活,认证信息包含了终端的基本信息;
(2)获取到终端开机、心跳、浏览访问、直播、点播、回看、订购、遥控器按键、停留时间等行为数据;
(3)获取到OT终端SN/MAC、软件版本号;
(4)获取各终端活跃度信息:首次活跃时间,最后活跃时间,活跃总时长等活跃详情。
(5)获取用户搜索影视内容关键词信息,包含影视名称、演员名称等。
(6)获取用户点播详情:开始结束时间、点播内容、点播时长等。
(7)获取用户订购信息:订购时间、订购金额、退购时间、订购次数、退购次数等。
2.1.2数据处理
(1)将运营平台上报提交的数据进行收集和预处理;
(2)用户行为原始数据,经由数据标准化处理,支持对日志合并、数据清洗。数据
过滤操作,形成统一的数据结构;
2.2数据分析
通过对互联网电视运营平台的数据收集,建立OTT用户行为数据库,并在此基础上建立OTT用户行为分析指标,该指标主要包括以下内容:
(1)提供OTT核心指标统计分析,包括日(总)用户数、日(总)访问量、视频播放量、人均停留时间等。
实时统计OTT在线用户数、总活跃用户数、总点击用户数、开机用户数、视频播放用户数、视频播放转化率、播放时长等指标;
针对各指标展示,提供可视化图表展示,以及历史数据查询功能。
(2)提供用户健康度分析
统计OTT总用户数、当日用户数、新安装用户数、留存率、活跃度等健康度指标,并提供图形化图表展示,以及历史数据查询功能;
(3)提供用户终端信息统计分析,包括终端型号、MAC地理位置分析
按终端盒子厂商、型号为纬度,统计分析OTT的访问用户数、播放用户数、播放量、播放转化率等指标,并提供可视化图形展示和历史数据查询;
按终端软件版本,统计分析OTT的访问用户数、播放用户数、播放转化率等指标,并提供可视化图形展示和历史数据查询;
按省份、运营商为纬度,统计OTT的访问用户数、播放用户数、播放量、播放转化率等指标,并提供可视化图形展示和历史数据查询;
(4)提供用户所有页面的访问量、人均停留时间分析等
统计OTT的各个页面的访问量、访问时间、访问时长等指标,并提供可视化图形展示;
统计OTT各页面的来源路径和流出路径的用户量、访问次数等指标数据,并提供可视化图形展示;
(5)提供节目内容播放路径分析
按照关键路径分析,统计各核心业务的转化率,分析用户在标准路径中各步骤的流失情况,并以直观图表展现。
(6)提供页面热力图分析