电信行业数据分析发掘交流

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

其计算公式：
cv=s/x，x是均值
17
中企国业电信信息广东化公部司
综合部
功能示例
中企国业电信信息广东化公部司
综合部
数据载入
1. 通过SPSS节点读取数据文件 2. 双击节点，在属性框中点击‘Read Value’对数据实例化 3. Clementine可以自动判别数据类型，可以通过点击字段的‘Type’值手
用户ID 1 2 1 2
地区广州广州深圳深圳
ARPU 89 129 189 49
地区广州深圳茂名汕头
用户数 2837 3202 782 1242
地区广州深圳茂名汕头
区域珠百度文库珠1 粤西粤东
地区
横向向
合并效
广州
果
深圳
茂名
汕头
14
用户数 2837 3202 782 1242
区域珠1 珠1 粤西粤东
标准差：是离均差平方和平均后的方根，用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的，标准差未必相同
其计算公式：
s=sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/(n)，x是均值
离散系数：又称变异系数，是统计学当中的常用统计指标，主要用于比较不同水平的变量数列的离散程度及平均数的代表性。其也是反映一个数据集的离散程度。
化？
描述性模型数据挖掘预测性模型
揭示蕴含于历史数据中的规律无指导的学习
对未来事件的预测有指导的学习
中企国业电信信息广东化公部司
综合部
电信业数据挖掘模型主要适用范围
交叉销售
交易行为
客户分群模型
信用风险
客户信用管理
流失倾向交易价值响应倾向
向上销售
生命周期价值
账单催收管理
主动新客户获取
按既定业务目标，对海量的电信数据进行探索，揭示隐藏其中的规律性，并进一步将其模型化的先进、有效的方法与艺术。
What
中企国业电信信息广东化公部司
综合部
（Who）数据挖掘应用的角色分配
进行一个挖掘应用至少需要如下人员的合作：
挖掘人员
数据人员
业务人员
Who
中企国业电信信息广东化公部司
综合部
（How）数据挖掘方法论
纵向合并数据纵向合并中，确保两份
或多份数据的合并是有实际意义的，相同含义的变量应取相同的变量名，且变量的类型需一致
横向合并横向合并必须需要有唯一的ID
进行关联合并
用户ID 1 2
用户ID 1 2
地区广州广州
地区深圳深圳
ARPU 89 129
ARPU 189 49
纵向合并效果
ample xplore odify odel ssess
循环往复的挖掘过程
Explore
Sample Assess
Modify Model
How
中企国业电信信息广东化公部司
综合部
数据挖掘模型按照功能划分
我们的客户是什么样子的？他们需要什么
？
如何选取最好的针对性客户交互方式，以保证利润最大
15
中企国业电信信息广东化公部司
综合部
常见的变量计算说明（1）
均值：平均数是表示一组数据集中趋势0的量数，它是反映数据集中趋势的一项指标。其计算公式：
极差：表示统计资料中的变异量数，其最大值与最小值之间的差距；即最大值减最小值后所得之数据
用途：在统计中常用极差来刻画一组数据的离散程度，以及反映的是变量分布的变异范围和离散幅度。同时，它能体现一组数据波动的范围。极差越大，离散程度越大，反之，离散程度越小。
中企国业电信信息广东化公部司
综合部
变量计算（案例操作）
计算：流量饱和度=使用手机流量/套餐总流量
计算：总通话时长=主叫通话时长+被叫通话时长
进行ARPU值分档
ARPU档次说明
0~10
ARPU大于0且少于10M
10~30 30~100 100~300 300+
大于等于10M且少于30M 大于等于30M且少于100M 大于等于100M且少于300M 300M及以上
Why
中企国业电信信息广东化公部司
综合部
（Why）从数据中获取智能
分析决策能力
模型优化
预测型模型
$ ROI
希望发生什么 ?
描述型模型
即席查询 & OLAP 清洗后标准报表原始的数据数据
发生了什么 ?
将会发生什么 ? 为什么发生 ?
数据
知识
信息
智能
中企国业电信信息广东化公部司
综合部
（What）什么是数据挖掘？
客户挽留
中企国业电信信息广东化公部司
综合部
工具介绍-Clementine
Clementine 现在叫IBM SPSS Modeler，是一个业界领先的数据挖掘工具。
Clementine拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型。
快速帮助数据挖掘工作者进行数据探索和模型的优化。同时，增强了数据源连接、数据处理、建模分析等功能。
其计算公式：R=Xmax-Xmin
16
中企国业电信信息广东化公部司
综合部
常见的变量计算说明（2）
平均差：是总体所有单位与其算术平均数的离差绝对值的算术平均数。其是反映各标志值与算术平均数之间的平均差异。平均差越大，数据就越分散；反之，数据就越集中
其计算公式：
MD=(|x1-x|+|x2-x|+…+|xn-x|)/n，x是均值
数据分析挖掘培训
大数据运营中心
赖晓彬
中企国业电信信息广东化公部司
综合部
数据挖掘FAQ
Why?
Who?
What?
How?
中企国业电信信息广东化公部司
综合部
（Why）为何要数据挖掘？
数据 = 储藏室数据 + 工具 = 技术员数据 + 工具 + 方法 = 知识数据 + 工具 + 方法 + 目标 = 信息数据 + 工具 + 方法 + 目标 + 行动 = 价值
10
中企国业电信信息广东化公部司
综合部
软件界面介绍
工具栏
模型、流、输出件管理窗
操作区
工程文件管理窗节点选项板
11
中企国业电信信息广东化公部司
综合部
可读入数据
自由格式的文本文件固定格式的文本文件 Excel文件 SPSS数据文件 SAS数据文件数据库文件 XML文件
12
中企国业电信信息广东化公部司
综合部
变量类型
连续数值类型（range），如年龄
离散数值类型（Discrete），如家庭人口
二分类型（flag），如性别多分类型（set），如职业定序型（Ordered Sets）,
如学历和收入水平缺失型（default),尚未明确
的变量类型
13
中企国业电信信息广东化公部司
综合部
数据整合