数据建模理论和实践方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
建模流程(1)
选取样本
• • • • 结合业务理解和市场部需求: 例:Arpu > 100 或 当前终端价格 >=3000 全面整理宽表 清洗脏数据,创建衍生变量 剔除无关字段 剔除低影响字段
整合宽表
筛选变量
• •
建立模型
评估 优化 • • 模型建立、筛选 评估调优
最终模型
模型输出
•
模型、规则
•
典型4客户特征
上海电信有限公司研究院
模型选取
依据任务选择模型类别:
描述性任务 分类预测任务
小样本自动分类,选择最优算法 分清不同算法的适用场景。例如,决策树对输入变量的类型无要求,分类变量和连续 变量都可以处理。但是将连续变量人工进行分段可以优化模型结构。如将流量Flux分 为1、2、3(高中低)档。一般情况,随机森林RF比决策树要更精准,但是RF慢。
描述性挖掘任务:
刻划数据库中数 据的一般特性
预测性挖掘任务:
在当前数据上进行 推断和预测
其它
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
建模流程(4)-数据统计分析 业务探索的基本方法
• SPSS中的数据审核节点 • R和python语言中的summary()
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
ID
1 2 3
当前终端 持机时长
13 8 26
当前终 端制式
4G 2G 3G
年 龄
35 65 28
ID
输入
类(换 机否) ?Y ?N ?Y
1 2 3
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
建模流程(3)-问题分析之任务
关联分析(Association Analysis) 聚类分析(Clustering Analysis) 离群点分析(Outlier Analysis) 分类与预测(Classification and Prediction) 演化分析(Evolution Analysis) 数据降维:主成份分析和因子分析
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
目录
一
建模流程
二
样本选取和数据预处理
三
模型调优
四
数据分析建模实践
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
样本选取
全样本
处理 剔除极值、离群值、空值和无效值
上海电信有限公司研究院
数据预处理(1)
数据存在的问题
缺失数据 异常数据 重复数据
数据审核
查看样本量是否符合建模要求; 查找去除重复数据; 一致性检查(一致性检查是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求, 发现超出正常范围、逻辑上不合理或者相互矛盾的数据); 统计缺失值、异常值比例,评估数据可用性;
SPSS, SAS:易于上手,快速完成分析建模,但是速度受限。努力向大数据平台 Hadoop迁移 R语言,Python:写代码,可调整参数繁多,速度也不快。可以运行于大数据平 台,如Hadoop
Hadoop平台下的机器学习库Mahout, Spark平台下的的MLib机器学习库。
Hive用于初步的数据探索,没有机器学习的算法和模型库。
异常值的判断和处理
根据不同的业务背景和变量的业务含义,把距离均值n个标准差以上的取值定义为异常值。
(modeler 默认3个标准差以外为离群值,5个标准差以外为极端值。)
用距离离群值或极端值最近的正常数据替代他们; 直接剔除离群值和极端值; 修正离群值,剔除极端值。
用戶至上 用心服务 Customer First Service Foremost
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
数据预处理(2)
缺失值的常见处理方法
分析缺失的原因,填补缺失值; 直接删除带有大量缺失值的数据元组(或观察对象); 直接删除有大量缺失值的变量; 对缺失值进行替换(包括均值、中位数、众数或用户定义的任意其他值); 对缺失值进行预测赋值(利用回归算法、决策树算法预测缺失值的最近替代值)。
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
建模流程(2)-问题分析之分类任务
建模数据(类标号已知): 8月和9月
ID 1 2 3 4 当前终端 持机时长 15 8 21 27 当前终 端制式 4G 3G 3G 2G 年 龄 30 55 24 70 类(换 机否) Y N Y N
上海电信有限公司研究院
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
附录
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
分类问题
关于分类问题
名称 人类 海龟 鸽子 鲸 体温 恒温 冷血 恒温 恒温 表皮覆 盖 毛发 鳞片 羽毛 毛发 胎生 是 否 否 是 水生动 物 否 半 否 是 飞行动 物 否 否 是 否 有腿 是 是 是 否 冬眠 否 否 否 否 类标号 哺乳类 爬行类 鸟类 哺乳类
使用SPSS,需要将大量数据从大数据平台导出,分析建模、然后应用建模和预测的结 果。效率低下。 未来发展目标:直接在大数据平台下使用Hive和MLib进行数据分析 建模。
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
数据分析建模的工具和平台(2)
Hadoop Mapreduce平台
Spark Hive Mahout R Python
Spark平台:用java, python, Scala编程
MLib Hive
Impala平台:提供类似Hive的sql功能
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
目录
一
建模流程
二
样本选取和数据预处理
三
模型调优
四
数据分析建模实践
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
平衡比调整
全样本
处理 剔除极值、离群值、空值和无效值
清洗过的样本
分 区 训练样本50% 测试样本50%
训练样本
抽样:1:1 ~ 1:3 (正负样本比) 1.数据大,提速 2.正样本浓度不高,e.g. 10%
清洗过的样本
分 区 训练样本50% 测试样本50%
训练样本
=1:1 平衡训练样本 换机:非换机 4G:非4G=1:1
测试样本
平衡后的训练样本
最终建模样本
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
建模流程(2)-问题分析之分类任务
建模数据(类标号已知): 8月和9月
ID 1 2 3 4 当前终端 持机时长 15 8 21 27 当前终 端制式 4G 3G 3G 2G 年 龄 30 55 24 70 类(换 机否) Y N Y N
训练 (学习)
模型
预测
预测数据(类标号未知): 输入9月 预测10月是否换机。
=1:1 平衡训练样本 换机:非换机 4G:非4G=1:1
测试样本
平衡后的训练样本
最终建模样本
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
调整用于建模的输入变量
以业务和模型理论为指导
衍生变量的生成
实践出真知
用戶至上 用心服务 Customer First Service Foremost
建值和离群值对建模的影响
K-means聚类
输入如下流量Flux(单位Mb)数据进行聚类,目标为3类:
0, 50, 100, 130, 150, 180, 200, 230, 280, 300 700, 800, 900, 1000, 1100 2200, 4000, 8000, 9000, 12000
数据建模理论和实践方法
熊珺洁,博士 上海研究院
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
目录
一
建模流程
二ห้องสมุดไป่ตู้
样本选取和数据预处理
三
模型调优
四
数据分析建模实践
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
训练 (学习)
模型
预测
预测数据(类标号未知): 输入9月 预测10月是否换机。
ID
1 2 3
当前终端 持机时长
13 8 26
当前终 端制式
4G 2G 3G
年 龄
35 65 28
ID
输入
类(换 机否) ?Y ?N ?Y
1 2 3
用戶至上 用心服务 Customer First Service Foremost
分类问题一般包括两个步骤: 模型构建(归纳)
通过对训练集合的归纳,建立分类模型。
预测应用(推论) 根据建立的分类模型,对预测集合进行测试。 常用的分类算法有决策树算法和逻辑回归算法。
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
目录
一
建模流程
二
样本选取和数据预处理
三
模型调优
四
数据分析建模实践
用戶至上 用心服务 Customer First Service Foremost
上海电信有限公司研究院
数据分析建模的工具和平台(1)