大数据建设与应用汇报 ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11 总流量
12 RATType 网络类型:2G 3G 4G
13 访问IP 用户访问的具体网站
14
网址
IP地址或URL信息
15 User Agent 用户使用的APP信息
16 17
源端口 目的端口
URL端口信息
... ...
谁 在哪里
在什么时间
以何种方式
访问了哪些网 站内容
使用了什么 APP
中国联通互联网信息库 网站识别规则
编 数据源字段信
号
息
业务含义
1
手机号码
用户上网使用的手机 号码
2 位置区编码 用户上网所在的位置
3
CI号码
区域及具体的基站信 息
4
终端IMEI
用户上网使用的终端 全球统一编号
5 流量类型 DPI流量解析类型
6 开始时间
7 结束时间
8 时长(秒) 用户网络使用时长、
9 上行流量 流量统计信息
10 下行流量
果合并得到最终的结果。 更加开放的HDFS: 负责数据存储 大规模编程模型MapReduce:负责计算
优点:使用X86服务器,硬件便宜,能处理大容 量数据,关键是软件是开源的,免费
缺点:早期分布式计算技术复杂,实现比较困难, 大数据技术人才匮乏
当前状况:Hadoop分布式计算框架被广泛应用
运营商到底有哪些数据
集客分群 VIP分群
客户分群 ……
平台核心数据2:用户位置信息
1
用户实时位置
根据用户信令定位,5分钟更新一次
2
用户实时轨迹
跟踪用户出现的每一个位置,生成变化轨迹
3 小区实时热力
某一范围内人流量变化,以热力图形式展现
4
地理围栏感知
在地图上圈定范围,随即进行解析、匹配、应用
5
实时路段客流量
根据某一路段基站经纬度,定位基站承载的客流量
电一样便捷
提供脱敏数据,促进 数据资产交易
融合外部数据,促进 大数据增值变现
企业赋能 价值提升
平台篇
大数据技术与传统技术对比
传统的集中式计算
通过不断增加处理器的数量来增强单个计算机的计 算能力,从而提高处理数据的速度,比如传统的大 型机、小型机,硬件费用昂贵,新兴的互联网公司 根本负担不起
运营商大数据具备全面性、多维性、中立性、完整性是其它企业很难比拟的,而且通 过这些不同维度数据的交叉关联,可以创造更多的新数据和新价值 。
身
运营商不仅客户信息覆盖完整,还可以
份
基于实际行为进行验证。通过身份信息,
帮助金融机构快速判定用户的信用程度
上
基于用户访问什么网址,下载什么应用,
网
访问什么内容等,得到上网喜好
位
运营商的通过位置信息,可以掌握用户
置
出行特征,给用户带来生活的极大便利
社
基于通信交往圈的大小,主被叫,时间
交
序列,得到用户的社交特征
支
运营商有客户最为详实的消费账单,比
出
如流量费,短信费、语音费、新业务费
等,能反映用户的一些特征
通
通过用户的通信使用情况,比如本地,
信
漫游,长途,了解用户通话行为特征
用户通信行为
语音
通话类型 通话时长
短信
通话时间 对端号码
流量
通话地点
……
用户终端信息 手机号码 IMEI 终端型号 终端厂商
IMSI ……
用户缴费信息
缴费渠道 缴费金额
缴费时间 ……
用户信用信息
初始信用度
欠费额度
动态信用度
欠费频次
欠费账龄
……
用户消费信息
消费金额 月租费
通信费
流量费
短信费
……
用户分群信息
6 工作地信息 定位用户工作时段所处的地理位置
7 居住地信息 定位用户宿息时段所处的地理位置
8 娱乐地信息 定位用户娱乐所在地的地理位置
9 漫游监控 国内漫游由用户开卡地确认来源地,国 际漫入由IMSI确认来源国
10 出行方式监控 根据用户实时位置和实时轨迹,匹配交通 方式(飞机、火车、汽车等)
平台核心数据3:用户上网行为
优点:技术实现不复杂,有丰富的应用经验
缺点:主机费用昂贵,需要专用硬件支持,比如 专用处理器,处理大量数据时遇到瓶颈 当前状况:去IOE,逐渐被互联网公司抛弃
胜出
大数据分布式计算
VS
把一组计算机通过网络相互连接组成分散系统,然 后将需要处理的大量数据分散成多个部分,交由分 散系统内的计算机组同时计算,最后将这些计算结
500个接口
每天处理文件接口数
2TB
每天处理的数据规模
1.2PB
平台存储能力
平台核心数据1:传统电信数据
姓名 性别
客户基本资料 客户类型 电话号码
年龄 住址
证件号码
地域
……
用户状态信息
号码状态
欠费状态
年龄业务开通状态
……
用户订购信息
订购产品 流量包 合约计划
开通渠道 发展员工
……
业务支撑系统(BSS/CBSS)
终
识别记录手机终端型号,了解用户手机
端
使用特征,发展趋势,用户换机周期等
时
通过用户上网,位置,通话等行为按照
序
时间排列,了解更多规律提供更多服务
运营商数据的优势
互联网数据受限 于本身的数据基因
1 数据封闭性
2 数据局部性
3 数据割裂性
运营商数据天然优越性
1 运营商是数据管道,掌控全局数据
数据准确性高:实名制,且能够准确反
2
映用户实时的行为状态
3 数据具有连续和可追溯性:用号码ID整合
用户全生命周期数据
运营商数据解决互联网三大问题: 你是谁,你在哪,你在干什么
主流的大数据架构平台
大
自主经营体系统 自助查询 2I网络优
数
对内应用
化
据
经营分析
宽带营销 智能引擎
应ቤተ መጻሕፍቲ ባይዱ
用
数据透明访问
旅游大数据
对外运营
标签服务
大数据模型
大
大数据处理
大数据
+
建设情况与应用汇报
大数据
DT
+
江西联通信息化部
赢在数据时代
理念篇
平台篇
应用篇
大数据服务理念 大数据领先平台 大数据应用
展望篇 展望未来
理念篇
大数据服务理念
+ + = 数据驱动业务
快捷的数据服务
数据资产变现
大数据服务
提升经营决策效率 全面精准、洞察客户 提供精确、实时的营
销服务
透明的使用数据服务 数据使用像使用水、
网站内容解析规
搜
则
站 内
索 词
动
库
URL路径规则
作 识
搜 索
URL参数规则
别
识
规
别
则
规
则
四级域名分类规则
APP识别规则
UA 精准解析规则
IP+Port 补充解析规则
核心数据应用:用户画像
应用篇
大数据应用产品体系
对内应用
宽带 营销
2I2C 网络 优化
自助 报表
精准 营销
数
聚合视图/分析模型
实时流
批量计算
据
整
D
DWA
合
W
DWD
流任务
非关系型数据库 内存计算
OD B域 O域 M域
流计算
分布式文件系统
S
大
数
据 采
BSS
CBSS
手机上网日志
用户位置信令
集
数据 管理
元 数据
数据
统一
质量
调度
数据 生命 周期
数据 运维
平台的大数据处理能力
50亿条
日处理上网记录
10亿条
日处理位置信令数据