数据建模理论和实践方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

建模流程(1)
选取样本
• • • • 结合业务理解和市场部需求: 例:Arpu > 100 或 当前终端价格 >=3000 全面整理宽表 清洗脏数据,创建衍生变量 剔除无关字段 剔除低影响字段
整合宽表
筛选变量
• •
建立模型
评估 优化 • • 模型建立、筛选 评估调优
最终模型
模型输出

模型、规则

典型4客户特征
上海电信有限公司研究院
模型选取
依据任务选择模型类别:
描述性任务 分类预测任务
小样本自动分类,选择最优算法 分清不同算法的适用场景。例如,决策树对输入变量的类型无要求,分类变量和连续 变量都可以处理。但是将连续变量人工进行分段可以优化模型结构。如将流量Flux分 为1、2、3(高中低)档。一般情况,随机森林RF比决策树要更精准,但是RF慢。
描述性挖掘任务:
刻划数据库中数 据的一般特性
预测性挖掘任务:
在当前数据上进行 推断和预测
其它
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
建模流程(4)-数据统计分析 业务探索的基本方法
• SPSS中的数据审核节点 • R和python语言中的summary()
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
ID
1 2 3
当前终端 持机时长
13 8 26
当前终 端制式
4G 2G 3G
年 龄
35 65 28
ID
输入
类(换 机否) ?Y ?N ?Y
1 2 3
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
建模流程(3)-问题分析之任务
关联分析(Association Analysis) 聚类分析(Clustering Analysis) 离群点分析(Outlier Analysis) 分类与预测(Classification and Prediction) 演化分析(Evolution Analysis) 数据降维:主成份分析和因子分析
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
目录

建模流程

样本选取和数据预处理

模型调优

数据分析建模实践
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
样本选取
全样本
处理 剔除极值、离群值、空值和无效值
上海电信有限公司研究院
数据预处理(1)
数据存在的问题
缺失数据 异常数据 重复数据

数据审核
查看样本量是否符合建模要求; 查找去除重复数据; 一致性检查(一致性检查是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求, 发现超出正常范围、逻辑上不合理或者相互矛盾的数据); 统计缺失值、异常值比例,评估数据可用性;
SPSS, SAS:易于上手,快速完成分析建模,但是速度受限。努力向大数据平台 Hadoop迁移 R语言,Python:写代码,可调整参数繁多,速度也不快。可以运行于大数据平 台,如Hadoop


Hadoop平台下的机器学习库Mahout, Spark平台下的的MLib机器学习库。
Hive用于初步的数据探索,没有机器学习的算法和模型库。

异常值的判断和处理
根据不同的业务背景和变量的业务含义,把距离均值n个标准差以上的取值定义为异常值。
(modeler 默认3个标准差以外为离群值,5个标准差以外为极端值。)
用距离离群值或极端值最近的正常数据替代他们; 直接剔除离群值和极端值; 修正离群值,剔除极端值。
用戶至上 用心服务 Customer First Service Foremost
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
数据预处理(2)
缺失值的常见处理方法
分析缺失的原因,填补缺失值; 直接删除带有大量缺失值的数据元组(或观察对象); 直接删除有大量缺失值的变量; 对缺失值进行替换(包括均值、中位数、众数或用户定义的任意其他值); 对缺失值进行预测赋值(利用回归算法、决策树算法预测缺失值的最近替代值)。
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
建模流程(2)-问题分析之分类任务
建模数据(类标号已知): 8月和9月
ID 1 2 3 4 当前终端 持机时长 15 8 21 27 当前终 端制式 4G 3G 3G 2G 年 龄 30 55 24 70 类(换 机否) Y N Y N
上海电信有限公司研究院
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
附录
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
分类问题
关于分类问题
名称 人类 海龟 鸽子 鲸 体温 恒温 冷血 恒温 恒温 表皮覆 盖 毛发 鳞片 羽毛 毛发 胎生 是 否 否 是 水生动 物 否 半 否 是 飞行动 物 否 否 是 否 有腿 是 是 是 否 冬眠 否 否 否 否 类标号 哺乳类 爬行类 鸟类 哺乳类
使用SPSS,需要将大量数据从大数据平台导出,分析建模、然后应用建模和预测的结 果。效率低下。 未来发展目标:直接在大数据平台下使用Hive和MLib进行数据分析 建模。
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
数据分析建模的工具和平台(2)
Hadoop Mapreduce平台
Spark Hive Mahout R Python

Spark平台:用java, python, Scala编程
MLib Hive

Impala平台:提供类似Hive的sql功能
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
目录

建模流程

样本选取和数据预处理

模型调优

数据分析建模实践
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
平衡比调整
全样本
处理 剔除极值、离群值、空值和无效值
清洗过的样本
分 区 训练样本50% 测试样本50%
训练样本
抽样:1:1 ~ 1:3 (正负样本比) 1.数据大,提速 2.正样本浓度不高,e.g. 10%
清洗过的样本
分 区 训练样本50% 测试样本50%
训练样本
=1:1 平衡训练样本 换机:非换机 4G:非4G=1:1
测试样本
平衡后的训练样本
最终建模样本
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
建模流程(2)-问题分析之分类任务
建模数据(类标号已知): 8月和9月
ID 1 2 3 4 当前终端 持机时长 15 8 21 27 当前终 端制式 4G 3G 3G 2G 年 龄 30 55 24 70 类(换 机否) Y N Y N
训练 (学习)
模型
预测
预测数据(类标号未知): 输入9月 预测10月是否换机。
=1:1 平衡训练样本 换机:非换机 4G:非4G=1:1
测试样本
平衡后的训练样本
最终建模样本
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
调整用于建模的输入变量
以业务和模型理论为指导
衍生变量的生成

实践出真知
用戶至上 用心服务 Customer First Service Foremost
建值和离群值对建模的影响
K-means聚类

输入如下流量Flux(单位Mb)数据进行聚类,目标为3类:
0, 50, 100, 130, 150, 180, 200, 230, 280, 300 700, 800, 900, 1000, 1100 2200, 4000, 8000, 9000, 12000
数据建模理论和实践方法
熊珺洁,博士 上海研究院
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
目录

建模流程
二ห้องสมุดไป่ตู้
样本选取和数据预处理

模型调优

数据分析建模实践
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
训练 (学习)
模型
预测
预测数据(类标号未知): 输入9月 预测10月是否换机。
ID
1 2 3
当前终端 持机时长
13 8 26
当前终 端制式
4G 2G 3G
年 龄
35 65 28
ID
输入
类(换 机否) ?Y ?N ?Y
1 2 3
用戶至上 用心服务 Customer First Service Foremost

分类问题一般包括两个步骤: 模型构建(归纳)
通过对训练集合的归纳,建立分类模型。
预测应用(推论) 根据建立的分类模型,对预测集合进行测试。 常用的分类算法有决策树算法和逻辑回归算法。
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
目录

建模流程

样本选取和数据预处理

模型调优

数据分析建模实践
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
数据分析建模的工具和平台(1)
相关文档
最新文档