品高大数据分析-案例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1.1中国移动南方基地经分云应用子系统建设项目
1.1.1.1项目概述
中国移动通信集团广东有限公司为了充分贯彻集团公司关于“做到同行业乃至服务业中的高质量低成本的典范”的要求,探索经营分析系统下一步的技术发展路线,在经营分析系统中利用云计算技术处理非结构化数据、互联网海量数据,提升数据处理的效率,降低处理成本,同时为后续南方基地多省份入驻后数据处理提供前瞻性的实例。
1.1.1.2项目目标
要想准确的挖掘出用户的行为模式,需要进行如下几步工作:
1、将海量的用户访问日志每天定时从生产数据库中导出以及进行分析;
2、因为用户日志数量巨大(每天产生100G以上),而数据分析需要长时间
的日志数据,因此需要分布式文件系统来保存和管理数据。需要分布式
计算平台,来并行分析处理这些海量数据。
3、网页内容和数据也非常多,需要能过机器进行网页内容的自动分类处理,
同时需要分布式文件系统来保存数据,需要分布式计算平台来并行计算
实现网页自动分类。
4、网络用户行为的分析,需要从终端、时间、访问网页内容、时长、品牌
等多维度进行分析,因此需要通过数据挖掘工具,构建数据挖掘模型,
以便更准确的得出用户的行为模式,并得出用户的兴趣、购买力、潜在
需求等。
通过上面的分析我们本项的成功需要完成以下目标:
1、搭建并行计算云平台,以支撑大数据处理、网页分类计算以及海量数据
存储和管理;
2、实现ETL工具,以便自动从生产系统获取访问日志,并将日志导入到并行
计算平台,处理完成后将处理结果再导入到关系数据库;
3、实现网络爬虫,定时自动将移动互联网的网页爬取下来,并对网页的网
页进行去噪音处理,然后将支噪音的纯文本保存;
4、人工梳理出一套适合本项目需求的网页分类树;
5、基于分类树实现网页的自动分类处理,将每个网页根据内容准确的分到
相应的分类中去。
6、构建用户行为挖掘模型,进行用户行为挖掘,得出用户的兴趣爱好、上
网特点、购买能力、潜在购买需求等。
1.1.2垃圾短信息联动处理平台
1.1.
2.1项目概述
根据2013年4月《工业和信息化部关于开展深入治理垃圾短信息专项行动的通知》(工信部电管函[2013]160号)的要求,对现有网间垃圾短信息联动治理平台进行升级,为工信部垃圾短信息治理工作提供基础数据支撑。建成全国范围内跨企业、跨地区的垃圾短信息治理协调支撑平台,汇总网间垃圾短信息举报信息,及时下发相关属地企业并跟踪反馈,强化数据分析挖掘能力,全面掌握网间垃圾短信息状况。
1.1.
2.2项目目标
本次平台建设工作主要分为两部分:一是垃圾短信智能监测应用软件平台,二是网间联动平台数据采集系统。
垃圾短信智能监测应用软件平台应实现标准报表系统,对垃圾短信息举报数据按照运营商、地域分布、发送方式、举报内容等字段进行分类,并增加环比增幅、举报率、重复举报、分类占比等标准统计功能。平台需支持自定义组合字段查询以及定制报表推送功能。垃圾短信智能监测应用软件平台可对所采集垃圾短信息内容进行数据挖掘和聚类分析,将商业类垃圾短信息发送利益链显性化,准确判断垃圾短信的发送目的及发送方式,动态生成关键词及拦截策略,下发垃圾短信息投诉信息处理工单,收集投诉信息反馈处理结果,协助相关治理单位采取相应调度处理措施,并对可能信息安全隐患做到提前预警。
地址:广州市天河区高唐国家软件基地高普路1035号3楼(510663)第1页共5页
网间联动平台数据采集系统应扩大垃圾短信息采集来源和采集数量,全面汇总来用户举报数据、运营商网络侧举报数据和用户手机终端侧举报数据,实现自动实时数据采集,真实准确反映实际垃圾短信息治理情况。
1.1.
2.3性能要求
具体性能要求如下:
每月数据采集、处理设计容量为20亿条以上。准实时的多系统垃圾短信采集要求:支持每日峰值1亿条以上。
实现支持每日1亿条以上垃圾短信文本内容的语义分析和处理能力。
实现对数据库中10亿条数量级垃圾短信的统计分析和数据挖掘处理能力。
系统访问响应要求:在3000并发用户时系统主要功能页面响应时间1-3。
1.1.3深圳微区域优化项目
项目中采用1台NameNode/3台DataNode四台机器的hadoop集群(X5650, CPU 2.67GHz 16核,内存8G,网络100M),与SQL Server比较,Hadoop整体处理时间缩短约10小时47分,速度比sql server提升了7.3倍。性能上有巨大的优势。
处理数据量如下表:
表名数据量(条)
号码登记接口部分基站号码量登记量表(闲时)17514500 基站号码量登记量表(忙时)18928368 号码登记表(闲时)73569879 号码登记表(忙时)85973974 登记比例分公司号码量统计信息表1506095
地址:广州市天河区高唐国家软件基地高普路1035号3楼(510663)第2页共5页
地址: 广州市天河区高唐国家软件基地高普路
1035号3楼 (510663) 第3页 共5页 项目实施后的成果显著,Hadoop 与sql server 处理速度对比如下:
1.1.4广州移动数据业务分析
项目中采用1台NameNode/3台DataNode四台机器的hadoop集群(使用
2CPU\4G内部的虚拟机),对广州移动数据业务的数据进行分析。如:根据每月的业务登记数据和扣费数据,统计出一年内每项业务的存留情况,以及统计出各渠道每月的业务开拓的有效用户数等。
总数据量:
1、15个月的业务登记数据,约:200G,20亿条
2、15个月的业务扣费数据,约:100G,10亿条
处理逻辑:
1、进行数据清洗和去重处理;
2、分析统计出每个月各业务的有效新增号码
3、分析统计出每个号码使用的某项业务在全年各月的使用交费情况
5、统计出每项业务的全年各月的收入情况;
6、统计出每个渠道的全年有效业务办理量;
与Oracle比较:
Oralce使用一台4CPU,8G内存的虚拟机,单处理数据清洗需要21小时;使用Hadoop处理,完成所有分析工作,只需要3小时左右。
地址:广州市天河区高唐国家软件基地高普路1035号3楼(510663)第4页共5页