电信行业数据分析发掘交流

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其计算公式:
cv=s/x,x是均值
17
中企国业电信信息广东化公部司
综合部
功能示例
中企国业电信信息广东化公部司
综合部
数据载入
1. 通过SPSS节点读取数据文件 2. 双击节点,在属性框中点击‘Read Value’对数据实例化 3. Clementine可以自动判别数据类型,可以通过点击字段的‘Type’值手
用户ID 1 2 1 2
地区 广州 广州 深圳 深圳
ARPU 89 129 189 49
地区 广州 深圳 茂名 汕头
用户数 2837 3202 782 1242
地区 广州 深圳 茂名 汕头
区域 珠百度文库 珠1 粤西 粤东
地区
横向向
合并效
广州

深圳
茂名
汕头
14
用户数 2837 3202 782 1242
区域 珠1 珠1 粤西 粤东
标准差:是离均差平方和平均后的方根,用σ表示。标准差是方差的算术 平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未 必相同
其计算公式:
s=sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/(n),x是均值
离散系数:又称变异系数,是统计学当中的常用统计指标,主要用于比较 不同水平的变量数列的离散程度及平均数的代表性。其也是反映一个数据 集的离散程度。
化?
描述性模型 数据挖掘 预测性模型
揭示蕴含于历史数据中 的规律无指导的学习
对未来事件的预 测有指导的学习
中企国业电信信息广东化公部司
综合部
电信业数据挖掘模型主要适用范围
交叉销售
交易 行为
客户分群 模型
信用 风险
客户信用管理
流失倾向 交易价值 响应倾向
向上销售
生命周期价值
账单催收管理
主动 新客户获取
按既定业务目标,对海量的电信数据进 行探索,揭示隐藏其中的规律性,并进一步 将其模型化的先进、有效的方法与艺术。
What
中企国业电信信息广东化公部司
综合部
(Who)数据挖掘应用的角色分配
进行一个挖掘应用至少需要如下人员的合作:
挖掘人员
数据人员
业务人员
Who
中企国业电信信息广东化公部司
综合部
(How)数据挖掘方法论
纵向合并 数据纵向合并中,确保两份
或多份数据的合并是有实际 意义的,相同含义的变量应 取相同的变量名,且变量的 类型需一致
横向合并 横向合并必须需要有唯一的ID
进行关联合并
用户ID 1 2
用户ID 1 2
地区 广州 广州
地区 深圳 深圳
ARPU 89 129
ARPU 189 49
纵向合并效果
ample xplore odify odel ssess
循环往复的挖掘过程
Explore
Sample Assess
Modify Model
How
中企国业电信信息广东化公部司
综合部
数据挖掘模型按照功能划分
我们的客户是 什么样子的? 他们需要什么

如何选取最好的针 对性客户交互方式 ,以保证利润最大
15
中企国业电信信息广东化公部司
综合部
常见的变量计算说明(1)
均值:平均数是表示一组数据集中趋势0的量数,它是反映数据集中 趋势的一项指标。 其计算公式:
极差:表示统计资料中的变异量数,其最大值与最小值之间的差距; 即最大值减最小值后所得之数据
用途:在统计中常用极差来刻画一组数据的离散程度,以及反映的是 变量分布的变异范围和离散幅度。同时,它能体现一组数据波动的范 围。极差越大,离散程度越大,反之,离散程度越小。
中企国业电信信息广东化公部司
综合部
变量计算(案例操作)
计算:流量饱和度=使用手 机流量/套餐总流量
计算:总通话时长=主叫通 话时长+被叫通话时长
进行ARPU值分档
ARPU档次 说明
0~10
ARPU大于0且少于10M
10~30 30~100 100~300 300+
大于等于10M且少于30M 大于等于30M且少于100M 大于等于100M且少于300M 300M及以上
Why
中企国业电信信息广东化公部司
综合部
(Why)从数据中获取智能
分析决策 能力
模型优化
预测型模型
$ ROI
希望发生什么 ?
描述型模型
即席查询 & OLAP 清洗后 标准报表 原始 的数据 数据
发生了什么 ?
将会发生什么 ? 为什么发生 ?
数据
知识
信息
智能
中企国业电信信息广东化公部司
综合部
(What)什么是数据挖掘?
客户挽留
中企国业电信信息广东化公部司
综合部
工具介绍-Clementine
Clementine 现在叫IBM SPSS Modeler,是一个业界 领先的数据挖掘工具。
Clementine拥有直观的操作 界面、自动化的数据准备和成 熟的预测分析模型。
快速帮助数据挖掘工作者进行 数据探索和模型的优化。同时 ,增强了数据源连接、数据处 理、建模分析等功能。
其计算公式:R=Xmax-Xmin
16
中企国业电信信息广东化公部司
综合部
常见的变量计算说明(2)
平均差:是总体所有单位与其算术平均数的离差绝对值的算术平均数。其 是反映各标志值与算术平均数之间的平均差异。平均差越大,数据就越分 散;反之,数据就越集中
其计算公式:
MD=(|x1-x|+|x2-x|+…+|xn-x|)/n,x是均值
数据分析挖掘培训
大数据运营中心
赖晓彬
中企国业电信信息广东化公部司
综合部
数据挖掘FAQ
Why?
Who?
What?
How?
中企国业电信信息广东化公部司
综合部
(Why)为何要数据挖掘?
数据 = 储藏室 数据 + 工具 = 技术员 数据 + 工具 + 方法 = 知识 数据 + 工具 + 方法 + 目标 = 信息 数据 + 工具 + 方法 + 目标 + 行动 = 价值
10
中企国业电信信息广东化公部司
综合部
软件界面介绍
工具栏
模型、流、输出件管理窗
操作区
工程文件管理窗 节点选项板
11
中企国业电信信息广东化公部司
综合部
可读入数据
自由格式的文本文件 固定格式的文本文件 Excel文件 SPSS数据文件 SAS数据文件 数据库文件 XML文件
12
中企国业电信信息广东化公部司
综合部
变量类型
连续数值类型(range), 如年龄
离散数值类型(Discrete) ,如家庭人口
二分类型(flag),如性别 多分类型(set),如职业 定序型(Ordered Sets),
如学历和收入水平 缺失型(default),尚未明确
的变量类型
13
中企国业电信信息广东化公部司
综合部
数据整合
相关文档
最新文档