Python数据分析与应用 第7章 航空公司客户价值分析(最新整理).ppt
航空公司客户价值分析Kmeans

数据变换由于原始数据没有直接给出LRFMC五个指标,需要自己计算,具体的计算方式为:(1)L=LOAD_TIME-FFP_DATE(2)R=LAST_TO_END(3)F=FLIGHT_COUNT(4) M=SEG_KM_SUM(5)C=avg_discount数据变换的Python代码如下:1.def reduction_data(datafile,reoutfile):2. data=(cleanoutfile,encoding='utf-8')3.data=data[['LOAD_TIME','FFP_DATE','LAST_TO_END','FLIGHT_COUNT','SEG _KM_SUM','avg_discount']]4.# data['L']=(data['LOAD_TIME'])(data['FFP_DATE'])5.#data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_ADTE'])).d ays)/30)6.####这四行代码费了我3个小时7. d_ffp=(data['FFP_DATE'])8. d_load=(data['LOAD_TIME'])9. res=d_load-d_ffp10. data['L']=(lambda x:x/(30*24*60,'m'))11.12. data['R']=data['LAST_TO_END']13. data['F']=data['FLIGHT_COUNT']14. data['M']=data['SEG_KM_SUM']15. data['C']=data['avg_discount']16. data=data[['L','R','F','M','C']]17.(reoutfile)变换结果如下:客户聚类采纳kMeans聚类算法对客户数据进行客户分组,聚成5组,Python代码如下:1.import pandas as pd2.from import KMeans3.import as plt4.from itertools import cycle5.6.datafile='./tmp/'7.k=58.classoutfile='./tmp/'9.resoutfile='./tmp/'10.data=(datafile)11.12.kmodel=KMeans(n_clusters=k,max_iter=1000)13.(data)14.15.# print16.r1=.value_counts()17.r2=18.r=([r2,r1],axis=1)19.=list+['类别数量']20.# print(r)21.# (classoutfile,index=False)22.23.r=([data,,index=],axis=1)24.=list+['聚类类别']25.# (resoutfile,index=False)对数据进行聚类分群的结果如下表所示:。
Python数据分析 PPT课件

– 列表中值的切割也可以用到变量 [头下标:尾下标] ,就可以截取相应的列表,从左到右索引 默认 0 开始,从右到左索引默认 -1 开始,下标可以为空表示取到头或尾。
– 加号 + 是列表连接运算符,星号 * 是重复操作。如下实例:
• Python元组
– 元组是另一个数据类型,类似于List(列表)。 – 元组用"()"标识。内部元素用逗号隔开。但是元组不能二次赋值,相当于只读列表。
Python 可以使用引号( ' )、双引号( " )、三引号( ''' 或 """ ) 来表示字符串,引号的开始 与结束必须的相同类型的。
其中三引号可以由多行组成,编写多行文本的快捷语法,常用于文档字符串,在文件的特 定地点,被当做注释。
• Python注释
• python中单行注释采用 # 开头 • python 中多行注释使用三个单引号(''')或三个双引号(""")。
– 下载后,双击下载包,进入Python安装向导,安装非常简单,你只需 要使用默认的设置一直点击"下一步"直到安装完成即可。
集成开发环境选择
• PyCharm – PyCharm 是由 JetBrains 打造的一款 Python IDE,支持 macOS、 Windows、 Linux 系统。
Python数据分析与应用- 客户价值分析.doc

Python数据分析与应用- 客户价值分析航空公司客户价值分析目录;航空公司现状分析;民航行业的竞争;除了三大航空公司之间的竞争,它还将加入各种新兴的小型航空公司、私人航空公司,甚至外国航空巨头。
航空产品生产过剩的同质性越来越明显,航空公司逐渐从价格、服务的竞争转向客户的竞争。
航空公司现状分析;行业外的竞争;随着高铁、子弹头列车等铁路运输的建设,航空公司受到了极大的冲击。
目前,航空公司已经积累了大量的会员档案信息和航班记录。
对于结束时间,选择宽度为两年的时间段作为分析观察窗口,以提取所有客户的详细数据,这些客户利用观察窗口中的记录机会,形成总共4个历史数据特征。
右表显示了数据特征及其描述。
分析航空公司的现状、航空公司数据、特征、描述、特征、名称、特征、客户基本信息、会员编号、会员时间、首飞日期、首飞日期、性别、会员卡级别、工作城市、工作国家的工作提供情况,年龄年份年龄航空公司客户数据描述表名称特征名称特征描述航班信息飞行时间计数观察窗结束时间装货时间观察窗结束时间最后一次飞行时间观察窗结束时间A VGDISCOUNT平均折扣率票价收入SUMYR观察窗SEGMSUM总飞行公里数SEGMSUM观察窗最后一次飞行日期A VGINTERV AL平均飞行时间间隔MAXINTERV AL最大飞行间隔点信息交换点交换点交换号EPSUM总精英点PROMOPTIVESUM PARTNERSUM总累积点不飞行非飞行点改变号BPSUM总基本点连续表原始我们应该如何处理这些特性?我们应该从什么开始?考虑用航空公司客户数据对客户进行分类。
分析不同类型客户的特征,比较不同类型客户的客户价值。
为不同价值的客户类别提供个性化服务,并制定相应的营销策略。
项目目标可以结合当前的航空公司数据实现以下目标。
该公司的收入来自顶级客户。
我们客户的利润率。
上述收入来自现有客户。
大部分营销预算通常花在不存在的客户身上。
客户金字塔中有升级潜力的客户。
Python数据分析与应用教案Python数据分析实例航空公司客户价值分析教案

Python数据分析与应用教案Python数据分析实例航空公司客户价值分析教案第一章:Python数据分析概述1.1 Python数据分析背景及意义1.2 Python数据分析常用库介绍1.3 数据分析的一般流程第二章:航空公司客户价值分析简介2.1 航空公司客户价值分析背景2.2 航空公司客户价值分析目标2.3 航空公司客户价值分析方法第三章:数据收集与预处理3.1 数据来源及收集方法3.2 数据预处理方法3.3 数据清洗与转换第四章:航空公司客户价值指标体系构建4.1 客户价值指标构建原则4.2 客户价值指标体系构建方法4.3 航空公司客户价值指标体系示例第五章:Python数据分析实例:航空公司客户价值分析5.1 实例背景及目标5.2 数据处理与分析方法5.3 分析结果展示与解读本教案以航空公司客户价值分析为例,旨在帮助学员了解并掌握Python数据分析的方法和技巧。
通过五个章节的学习,学员可以对Python数据分析有一个全面的了解,并能够运用Python进行简单的数据分析。
我们将进一步学习如何利用Python进行更深入的数据分析,以实现航空公司客户价值分析的目标。
第六章:数据可视化与报表制作6.1 数据可视化概述6.2 Python可视化库介绍6.3 航空公司客户价值分析数据可视化实例第七章:描述性统计分析7.1 描述性统计分析概念7.2 Python描述性统计分析方法7.3 航空公司客户价值分析中的描述性统计实例第八章:推断性统计分析与假设检验8.1 推断性统计分析概述8.2 假设检验方法介绍8.3 航空公司客户价值分析中的假设检验实例第九章:Python数据分析进阶技巧9.1 数据聚类分析9.2 关联规则挖掘9.3 机器学习与预测分析10.2 分析报告结构与内容第十一章:Python数据分析实战案例解析11.1 实战案例介绍11.2 实战案例数据处理与分析11.3 实战案例结果解读与应用第十二章:航空公司客户价值分析的策略与应用12.1 航空公司客户价值分析策略12.2 客户价值分析在航空公司的应用12.3 案例研究:航空公司客户价值分析策略与应用第十三章:大数据分析与云计算13.1 大数据概念与技术13.2 云计算与大数据分析13.3 航空公司客户价值分析在大数据与云计算环境下的应用第十四章:数据安全与隐私保护14.1 数据安全与隐私概述14.2 数据安全与隐私保护技术14.3 航空公司客户价值分析中的数据安全与隐私保护实践第十五章:航空公司客户价值分析的未来趋势15.1 在客户价值分析中的应用15.2 分布式分析与边缘计算15.3 航空公司客户价值分析的发展前景重点和难点解析难点内容包括:Python数据分析方法的深入理解与应用、航空公司客户价值指标体系构建、数据清洗与转换、假设检验方法的运用、数据聚类分析、关联规则挖掘、机器学习与预测分析等。
Python数据分析与应用教案Python数据分析实例航空公司客户价值分析教案

Python数据分析与应用教案Python数据分析实例航空公司客户价值分析教案教案章节一:Python数据分析概述1.1 教学目标了解Python在数据分析领域的应用掌握Python数据分析的基本流程理解航空公司客户价值分析的意义1.2 教学内容Python数据分析的应用领域Python数据分析的基本流程航空公司客户价值分析的定义和重要性1.3 教学方法讲解和案例展示学生互动讨论实践操作练习1.4 教学资源Python数据分析相关资料航空公司客户价值分析案例教案章节二:Python数据分析环境搭建2.1 教学目标学会安装和配置Python数据分析环境掌握Python数据分析相关库的基本使用方法2.2 教学内容Python数据分析环境的安装和配置Python数据分析相关库的基本使用方法2.3 教学方法讲解和演示学生实践操作问题解答和讨论2.4 教学资源Python数据分析环境的安装和配置指南Python数据分析相关库的文档和教程教案章节三:航空公司客户数据处理3.1 教学目标学会处理航空公司客户数据掌握数据清洗和数据转换的方法3.2 教学内容航空公司客户数据的获取和导入数据清洗和数据转换的方法3.3 教学方法讲解和演示学生实践操作问题解答和讨论3.4 教学资源航空公司客户数据集数据清洗和数据转换的相关工具和库教案章节四:航空公司客户价值分析方法4.1 教学目标学会使用Python进行航空公司客户价值分析掌握客户价值分析的方法和模型4.2 教学内容客户价值分析的定义和重要性客户价值分析的方法和模型4.3 教学方法讲解和演示学生实践操作问题解答和讨论4.4 教学资源Python客户价值分析相关库和工具航空公司客户价值分析案例和数据集教案章节五:航空公司客户价值分析实践5.1 教学目标学会应用Python进行航空公司客户价值分析的实践5.2 教学内容航空公司客户价值分析实践案例5.3 教学方法讲解和演示学生实践操作问题解答和讨论5.4 教学资源航空公司客户价值分析实践案例和数据集教案章节六:Python数据分析可视化6.1 教学目标学会使用Python进行数据分析的可视化掌握常用的数据可视化库和工具6.2 教学内容Python数据分析可视化的概念和重要性常用的数据可视化库和工具(如Matplotlib、Seaborn等)6.3 教学方法讲解和演示学生实践操作问题解答和讨论6.4 教学资源Python数据可视化库和工具的文档和教程实际案例和数据集教案章节七:航空公司客户价值分析案例研究7.1 教学目标学会应用Python进行航空公司客户价值分析的案例研究掌握案例研究的方法和技巧航空公司客户价值分析的案例研究流程案例研究的方法和技巧7.3 教学方法讲解和演示学生实践操作问题解答和讨论7.4 教学资源航空公司客户价值分析的案例研究资料实际案例数据集8.1 教学目标8.2 教学内容8.3 教学方法讲解和演示学生实践操作问题解答和讨论8.4 教学资源实际案例报告模板教案章节九:项目实践与讨论9.1 教学目标学生能够独立完成一个航空公司客户价值分析项目学会在团队中协作和交流学生独立完成航空公司客户价值分析项目团队协作和交流的技巧9.3 教学方法学生独立完成项目团队协作和讨论问题解答和指导9.4 教学资源航空公司客户价值分析项目案例团队协作工具和指南教案章节十:总结与展望10.1 教学目标总结所学内容,巩固知识展望未来航空公司客户价值分析的发展趋势10.2 教学内容回顾整个课程的重点内容展望航空公司客户价值分析的未来发展趋势10.3 教学方法讲解和总结学生互动讨论实践操作练习10.4 教学资源课程回顾资料航空公司客户价值分析的未来发展趋势相关资料重点解析重点在于:1. Python数据分析的基本流程和应用领域。
python数据分析与挖掘实战---航空公司客户价值分析

python数据分析与挖掘实战---航空公司客户价值分析航空公司客户价值分析⼀、背景与挖掘⽬标客户关系管理是企业的核⼼问题,关键在于客户的分类:区别⽆价值客户,⾼价值客户,针对不同客户群体有的放⽮投放具体服务⽅案,实现企业利润最⼤化的⽬标。
各⼤航空公司采取优惠措施喜迎更多客户,国内航司⾯对客户流失和资源未完全利⽤等危机,因此建⽴⼀个客户价值评估模型来实现对客户的分类。
⼆、分析⽅法与过程本次的分析⽬的在于客户价值识别,客户价值识别最常⽤的模型是RFM模型:R(最近消费时间间隔)F(消费频率)M(消费⾦额)。
飞机票价取决于飞⾏距离和仓位等级,消费同等⾦额票价的旅客对航司的价值不⼀定相同:购买短程头等舱的旅客和购买长途经济舱的旅客,明显前者对航司的贡献更⼤。
所以对M(消费⾦额)建模时要进⾏修改:⽤⾥程数平均值M和仓位折扣系数平均值C来代替消费的⾦额。
同时,考虑旅客中,加⼊会员的时间越长,客户的潜在价值⼀般越⾼,所以定义⼀个客户关系长度L,作为区分客户的另⼀指标。
接下来针对LRFMC模型,对客户进⾏区分。
LRFMC模型:(1)客户关系长度L:航空公司会员时间的长短。
(2)是消费时间间隔R。
(3)消费频率F。
(4) 飞⾏⾥程M。
(5) 折扣系数的平均值C。
LRFMC模型指标含义:(1) L:会员⼊会时间距观测窗⼝结束的⽉数。
(2) R:客户最近⼀次乘坐公司飞机距离观测窗⼝结束的⽉数。
(3) F:客户在观测窗⼝内乘坐公司飞机的次数。
(4) M:客户在观测窗⼝内累计的飞⾏⾥程碑。
(5) C:客户在观测窗⼝内乘坐仓位所对应的折扣系数的平均值。
⽅法:本案例采⽤聚类的⽅法,通过对航空公司客户价值的LRFMC模型的五个指标进⾏K-Means聚类,识别客户价值。
三、数据描述给出所有属性的基本信息,共25个属性,均⽆⼤量缺失现象或缺失现象很少。
四、建模1、数据探索分析对数据进⾏缺失值分析与异常值分析,分析出数据的规律以及异常值查找每列属性观测值个数,最⼤值,最⼩值。
航空公司客户价值分析PPT课件

模型
L
R
F
M
C
航空公司 LRFMC模型
会员入会时 客户最近一次乘 客户在观测 客户在观测 客户在观测窗口内 间距观测窗口 坐公司飞机距观测 窗口内乘坐公 窗口内累积的 乘坐舱位所对应的折 结束的月数 窗口结束的月数 司飞机的次数 飞行里程 扣系数的平均值
.
5
02 业务分析及数据预处理
1.数据探索
对数据进行缺失值分析与异 常值分析
2013/04/28 2013/05/16 2010/02/05 2010/10/19 2011/08/25 2013/06/01 2010/12/27 2009/10/21 2013/06/02 2013/04/24 2013/04/17 2011/08/20
GENDE
男 男 男 男 男 男 男 男 女 男 女 男
数据预处理步骤
3.属性规约
选择与LRFMC模型相关的六 组数据
.
2.数据清洗
丢弃票价、平均折扣、总飞行 公里为空或为0的记录
4.数据变换
将数据转换成“适当的”格式, 以适应挖掘任务及算法需要
6
02 业务分析及数据预处理
数据探索结果
属性规约结果 (部分数据)
属性名称 SUM_YR_1 SUM_YR_2
02 业务分析及数据预处理
LRFMC取值范围
属性名称 最小值 最大值
L 12.23 114.63
R 0.03 24.37
F
M
2
368
213
580717
C 0.14 1.5
LRFMC数据标准化 (部分数据)
ZL 1.69 1.69 1.682 1.534 0.89 -0.497 -0.869
Python数据分析与应用- 客户价值分析.doc

Python数据分析与应用- 客户价值分析航空公司客户价值分析目录;航空公司现状分析;民航行业的竞争;除了三大航空公司之间的竞争,它还将加入各种新兴的小型航空公司、私人航空公司,甚至外国航空巨头。
航空产品生产过剩的同质性越来越明显,航空公司逐渐从价格、服务的竞争转向客户的竞争。
航空公司现状分析;行业外的竞争;随着高铁、子弹头列车等铁路运输的建设,航空公司受到了极大的冲击。
目前,航空公司已经积累了大量的会员档案信息和航班记录。
对于结束时间,选择宽度为两年的时间段作为分析观察窗口,以提取所有客户的详细数据,这些客户利用观察窗口中的记录机会,形成总共4个历史数据特征。
右表显示了数据特征及其描述。
分析航空公司的现状、航空公司数据、特征、描述、特征、名称、特征、客户基本信息、会员编号、会员时间、首飞日期、首飞日期、性别、会员卡级别、工作城市、工作国家的工作提供情况,年龄年份年龄航空公司客户数据描述表名称特征名称特征描述航班信息飞行时间计数观察窗结束时间装货时间观察窗结束时间最后一次飞行时间观察窗结束时间A VGDISCOUNT平均折扣率票价收入SUMYR观察窗SEGMSUM总飞行公里数SEGMSUM观察窗最后一次飞行日期A VGINTERV AL平均飞行时间间隔MAXINTERV AL最大飞行间隔点信息交换点交换点交换号EPSUM总精英点PROMOPTIVESUM PARTNERSUM总累积点不飞行非飞行点改变号BPSUM总基本点连续表原始我们应该如何处理这些特性?我们应该从什么开始?考虑用航空公司客户数据对客户进行分类。
分析不同类型客户的特征,比较不同类型客户的客户价值。
为不同价值的客户类别提供个性化服务,并制定相应的营销策略。
项目目标可以结合当前的航空公司数据实现以下目标。
该公司的收入来自顶级客户。
我们客户的利润率。
上述收入来自现有客户。
大部分营销预算通常花在不存在的客户身上。
客户金字塔中有升级潜力的客户。
Python数据分析与应用介绍课件

息、规律和趋势的过程
4
数据分析方法:包括描述性统计分析、 探索性数据分析、验证性数据分析等
6
数据分析结果:包括图表、报告、模
型等
数据分析工具介绍
NumPy:用于科学计算的基础库,提供高效
01
的多维数组和矩阵运算
Pandas:用于数据处理和分析的库,提供数 02 据清洗、转换、分析和可视化功能
Matplotlib:用于数据可视化的库,提供各
数据格式:CSV、JSON、XML等 02
数据清洗:包括缺失值处理、异常 0 3 值处理、重复值处理等
数据预处理:包括数据标准化、数 0 4 据归一化、数据离散化等
数据可视化:包括柱状图、折线图、
数据分析:包括描述性统计分析、探
0 5 饼图等
0 6 索性数据分析、预测性数据分析等
数据处理与分析
数据清洗:去除
大数据分析与处理
STEP1
STEP2
STEP3
STEP4
STEP5
大数据分析: 从大量数据中 提取有价值的 信息
数据预处理: 数据清洗、数 据转换、数据 归一化等
特征工程:选 择、提取、构 建数据特征
模型选择与训 练:选择合适 的模型,进行 训练和优化
结果评估与可 视化:评估模 型性能,将结 果可视Seaborn:基于Matplotlib的高级可视化库,
04
提供更美观、更易于定制的图表
SciPy:用于科学计算的库,提供优化、积分、
05
统计等高级数学功能
Scikit-learn:用于机器学习和数据挖掘的库,
06
提供各种分类、回归、聚类等算法
数据获取与清洗
数据来源:包括公开数据集、API接 0 1 口、爬虫等
航空公司客户价值分析

CN
FR
CALIFORNIA US
31
2014/3/31
42
2014/3/31
40
2014/3/31
64
2014/3/31
48
2014/3/31
64
2014/3/31
46
2014/3/31
50
2014/3/31
50 2014/3/31
43
2014/3/31
34
2014/3/31
47
2014/3/31
2006/11/2 2007/2/19
2007/2/1 2008/8/22 2009/4/10 2008/2/10 2006/3/22
2010/4/9 2011/6/7 2010/7/5 2010/11/18 2004/11/13 2006/11/23 2006/10/25 2010/2/1
2008/3/28
2008/12/24男 2007/8/3男 2007/8/30男 2008/8/23男 2009/4/15男 2009/9/29男 2006/3/29男 2010/4/9女 2011/7/1男 2010/7/5女
2010/11/20女 2004/12/2男
2007/11/18男 2007/10/27男
要保障。
对公司的利润贡献不及“011”型客户;但是,这类客户 具 有很高的潜在价值,如果公司分析、了解、满足他们的需 求,利用针对性的营销手段吸引他们,提高购买频率,将
给 公司带来更多利润,因此这类客户可视为公司重要的发展
客 户
这类客户有可能购买力有限;也可能购买力强,但对公司 的
一些产品不感兴趣。加大这类客户的营销投入存在一定的 失
Python数据分析与应用_第7章_航空公司客户价值分析报告

特征名称 最小值 最大值
L 12.17 114.57
R 0.03 24.37
F
M
C
2
368
0.14
213
580717
1.5
大数据挖掘专家
17
标准化LRFMC五个特征
L、R、F、M和C五个特征的数据示例,上图为原始数据,下图为标准差标准化处理后的数据。
LOAD_TIME
FFP_DATE
LAST_ TO_END
1.34
大数据挖掘专家
18
目录
1
了解航空公司现状与客户价值分析
2
预处理航空客户数据
3
使用K-Means算法进行客户分群
4
小结
大数据挖掘专家
19
了解K-Means聚类算法
1. 基本概念
K-Means聚类算法是一种基于质心的划分方法,输入聚类个数k,以及包含n个数据对象的数据库,输出满足 误差平方和最小标准的k个聚类。算法步骤如下。 ➢ 从n个样本数据中随机选取k个对象作为初始的聚类中心。 ➢ 分别计算每个样本到各个聚类质心的距离,将样本分配到距离最近的那个聚类中心类别中。 ➢ 所有样本分配完成后,重新计算k个聚类的中心。 ➢ 与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。 ➢ 当质心不发生变化时停止并输出聚类结果。
最大乘机间隔 积分兑换次数 总精英积分
促销积分 合作伙伴积分 总累计积分 非乘机的积分变动次数 总基本积分
6
思考
原始数据中包含40多个特征,利用这些特征做些什么呢?我们又该 从哪些角度出发呢?
大数据挖掘专家
7
项目目标
结合目前航空公司的数据情况,可以实现以下目标。
航空公司客户价值分析

RFM模型是衡量客户价值和客户创利能力的重要工具和手段,它通过一个客户的近期购买行为、购买的总体频次以及购买的总体金额三个指标来描述客户的价值状况。
分别为:最近消费时间间隔(Recently)、消费频率(Frequency)、消费金额(Money)。
在RFM模型的基础上,结合具体的业务背景,来对航空公司进行客户价值分析。
我们选择在一定时间内累积的飞行里程数(M)和客户在一定时间内乘坐舱位对应的折扣系数的平均值C来代替消费金额指标。
此外,航空公司会员入会时间的长短在一定时间内会影响客户价值,模型中增加了客户关系长度指标L。
利用客户入会时长L、消费时间间隔R、消费频率F、飞行里程数M以及折扣系数的平均值C来作为航空公司识别客户价值指标,见表1,记为LRFMC模型。
采用聚类分析的方法识别客户价值。
通过对航空公司客户价值LRFMC五个指标进行K-Means聚类,识别最有价值客户。
1、数据抽取以2014年3月31日为结束时间,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口内有乘机记录的所有客户的详细数据形成历史数据。
对于后续新增的客户详细信息,以后续新增数据中最新的时间点作为结束时间,采用上述同样的方法进行抽取,形成增量数据。
2、数据探索分析主要是进行缺失值分析和异常值分析,通过对数据的观察,发现原始数据中存在票价为空值,票价最小值为0、折扣率最小值为0、总飞行公里数大于0的记录,这个都是属于缺失值和异常值的范畴。
# 设置工作空间# 把“数据及程序”文件夹拷贝到F盘下,再用setwd设置工作空间setwd("F:/数据及程序/chapter7/示例程序")# 数据读取datafile <- read.csv('./data/air_data.csv', header = TRUE)# 确定要探索分析的变量col <- c(15:18, 20:29) # 去掉日期型变量# 输出变量最值、缺失情况summary(datafile[, col])#探索缺失数据的模式md.pattern(datafile[,col])#以图形方式描述缺失数据aggr(datafile[,col],number=T)3、数据预处理由于原始数据量比较大,上述被定义为缺失值和异常值的样本量很小,对问题的分学习影响不大,因此选择的是剔除缺失值和异常值。
Python技术与数据分析在航空航天领域的应用教程

Python技术与数据分析在航空航天领域的应用教程航空航天领域是科技创新的重要领域之一,而数据分析在这个领域中的应用也变得越来越重要。
Python作为一种强大的编程语言,提供了丰富的库和工具来进行数据分析。
在本篇文章中,我们将探讨如何使用Python技术进行航空航天领域的数据分析。
1. 数据获取与处理在开始数据分析之前,首先需要获取数据并进行处理。
航空航天领域的数据通常来自多个来源,如传感器、航空器上的设备、气象监测等。
对于大规模的数据集,我们可以使用Python中的pandas库来进行数据的读取和处理。
pandas提供了灵活的数据结构和数据操作方法,可以方便地处理和分析各种数据类型。
2. 数据可视化数据可视化是数据分析过程中不可或缺的一环。
在航空航天领域,我们常常需要对飞行数据、气象数据等进行可视化,以帮助我们更好地理解数据。
Python中的matplotlib和seaborn库是两个常用的数据可视化工具,可以用来绘制各种图表,如折线图、柱状图、散点图等。
通过可视化,我们可以更直观地观察和分析数据。
3. 数据建模与预测在航空航天领域中,数据建模和预测是非常重要的任务。
通过建立合适的模型,我们可以对飞行性能、航线规划、燃油消耗等进行预测和优化。
Python中的scikit-learn库提供了丰富的机器学习算法和工具,可以用来构建和训练预测模型。
同时,Python中的numpy库也为数学计算提供了便捷的工具,可以方便地进行矩阵运算和数值计算。
4. 数据挖掘与优化航空航天领域的数据通常包含大量的信息,通过数据挖掘可以发现其中的隐藏规律和趋势。
Python中的数据挖掘库如scikit-learn、pandas和numpy都可以用来进行数据挖掘,通过特定的算法和技术,可以提取出有用的信息和模式。
同时,优化算法在航空航天领域也有广泛的应用,通过对数据进行数学建模和求解,可以实现最优化。
5. 实时数据处理与监测在航空航天领域中,实时数据处理和监测是非常关键的。
Python数据分析与应用 第7章 航空公司客户价值分析 PPT

构建航空客户价值分析的关键特征
4. 航空客户价值分析的LRFMC模型
目录
1
了解航空公司现状与客户价值分析
2
分析方法与过程
3
使用K-Means算法进行客户分群
4
小结
小结
本项目结合航空公司客户价值分析的案例,重点介绍了数据分析算法中K-Means聚类算法在客户价值分析中 的应用。针对RFM客户价值分析模型的不足,使用K-Means算法构建了航空客户价值分析LRFMC模型,详细 描述了数据分析的整个过程。
分析航空公司现状
2. 行业外竞争
随着高铁、动车等铁路运输的兴建,航空公司受到巨大冲击。
分析航空公司现状
航空公司数据特征说明
➢ 目前航空公司已积累了大量的会员档 案信息和其乘坐航班记录。
➢ 以2014-03-31为结束时间,选取宽度 为两年的时间段作为分析观测窗口, 抽取观测窗口内有乘机记录的所有客 户的详细数据形成历史数据,44个特 征,总共62988条记录。数据特征及其 说明如右表所示。
处理方法:丢弃票价为空的记录。 ➢ 其他的数据可能是客户乘坐0折机票或者积分兑换造成。由于原始数据量大,这类数据所占比例较小,对
于问题影响不大,因此对其进行丢弃处理。 处理方法:丢弃票价为0,平均折扣率不为0,总飞行公里数大于0的记录。
构建航空客户价值分析的关键特征
1. RFM模型介绍
本项目的目标是客户价值分析,即通过航空公司客户数据识别不同价值的客户,识别客户价值应用最广泛的 模型是RFM模型。 ➢ R(Recency)指的是最近一次消费时间与截止时间的间隔。通常情况下,最近一次消费时间与截止时间的 间隔越短,对即时提供的商品或是服务也最有可能感兴趣。 ➢ F(Frequency)指顾客在某段时间内所消费的次数。可以说消费频率越高的顾客,也是满意度越高的顾客 ,其忠诚度也就越高,顾客价值也就越大。 ➢ M(Monetary)指顾客在某段时间内所消费的金额。消费金额越大的顾客,他们的消费能力自然也就越大 ,这就是所谓“20%的顾客贡献了80%的销售额”的二八法则。
大数据分析技术-航空公司客户价值分析(一)

大数据分析技术-航空公司客户价值分析(一)实验内容:1.复习第一节课讲述的数据挖掘建模总体流程2.对航空公司客户数据进行分析,了解航空公司现状和客户情况3.完成航空公司客户价值分析总体流程步骤的构建4.对数据中存在的缺失值和异常值进行处理5.结合RFM模型进行特征筛选6.对筛选后的数据进行标准化7.练习使用python选取构建LRFMC模型所需的特征实验过程(请用简单的文字描述):1.复习第一节课讲述的数据挖掘建模总体流程2.对航空公司客户数据进行分析,了解航空公司现状和客户情况3.完成航空公司客户价值分析总体流程步骤的构建4.对数据中存在的缺失值和异常值进行处理5.结合RFM模型进行特征筛选6.对筛选后的数据进行标准化7.练习使用python选取构建LRFMC模型所需的特征# 这里简单的说明一下数据挖掘建模总体流程# 1.问题定义# 2.数据获取# 3.数据清洗# 4.缺失值处理# 5.特征选择# 6.数据集划分# 7.模型建立# 8.模型性能检测与分析# 9.预测结果实验详细操作步骤或程序清单:# 该程序主要用于实现练习使用python选取构建LRFMC模型所需的特征import numpy as npimport pandas as pdfrom sklearn.cluster import KMeans #导入kmeans算法airline_scale = np.load('F:\火线时刻\\airline_scale.npz')['arr_0']k = 5 ## 确定聚类中心数#构建模型kmeans_model = KMeans(n_clusters = k,n_jobs=4,random_state=123)fit_kmeans = kmeans_model.fit(airline_scale) #模型训练kmeans_model.cluster_centers_ #查看聚类中心kmeans_bels_ #查看样本的类别标签#统计不同类别样本的数目r1 = pd.Series(kmeans_bels_).value_counts()print('最终每个类别的数目为:\n',r1)# 该程序主要用于实现结合RFM模型进行特征筛选import pandas as pdimport numpy as np# 1.读取数据集data = pd.read_csv('F:\火线时刻\\air_data.csv',encoding='gb18030')# 2.数据清洗# 2.1缺失值处理data1 = data['SUM_YR_1'].notnull()data2 = data['SUM_YR_2'].notnull()data3 = data1 & data2env_data = data.loc[data3,:]# 2.2异常值处理index1 = env_data['SUM_YR_1'] != 0idnex2 = env_data['SUM_YR_2'] != 0index3 = (env_data['SEG_KM_SUM'] > 0) & (env_data['avg_discount'] != 0)airline = env_data[(index1 | idnex2) & index3]# 3.选取需求特征airline_selection = airline[["FFP_DATE","LOAD_TIME","FLIGHT_COUNT","LAST_TO_END","avg_discount" ,"SEG_KM_SUM"]]# 4.构建L特征L = pd.to_datetime(airline_selection["LOAD_TIME"]) - pd.to_datetime(airline_selection["FFP_DATE"])L = L.astype("str").str.split().str[0]L = L.astype("int")/30# 5.合并特征airline_features = pd.concat([L,airline_selection.iloc[:,2:]],axis = 1)print('构建的LRFMC特征前5行为:\n',airline_features.head())# 该程序主要用于实现对航空公司客户数据进行分析,了解航空公司现状和客户情况# 主要分析数据中的一些最大值,最小值,均值等这些数据特征,其中由于数据中的很多列没有分析的必要,所以我们只对一些列数据进行分析# 对于数据分析的具体操作,这里采用sklearn进行import pandas as pdimport numpy as npfrom sklearn.preprocessing import StandardScaler # 用于对数据进行标准差标准化from sklearn.model_selection import train_test_split # 用于划分数据集# 1.读取数据集data = pd.read_csv('F:\火线时刻\\air_data.csv',encoding='gb18030')# 2.分析数据# 2.1分析数据的基本信息print('air_data数据集的长度为:', len(data))print('air_data数据集的类型为:', type(data))# 2.2分析数据的数值特征信息# a.先获取数据,此时获取EP_SUM_YR_2air_data = np.array(data[['EP_SUM_YR_2']])print('EP_SUM_YR_2列列数据的最大值为:', np.max(air_data))print('EP_SUM_YR_2列列数据的最小值为:', np.min(air_data))print('EP_SUM_YR_2列列数据的平均值为:',np.mean(air_data))# b.然后获取数据,此时获取Points_Sumair_data = np.array(data[['Points_Sum']])print('Points_Sum列数据的最大值为:', np.max(air_data))print('Points_Sum列数据的最小值为:', np.min(air_data))print('Points_Sum列数据的平均值为:',np.mean(air_data))# c.然后获取数据,此时获取PPoint_NotFlightair_data = np.array(data[['Point_NotFlight']])print('PPoint_NotFlight列数据的最大值为:', np.max(air_data))print('PPoint_NotFlight列数据的最小值为:', np.min(air_data))print('PPoint_NotFlight列数据的平均值为:',np.mean(air_data))# 该程序主要用于实现对数据中存在的缺失值和异常值进行处理import pandas as pdimport numpy as np# 1.读取数据data = pd.read_csv('F:\火线时刻\\air_data.csv',encoding='gb18030')# print(data.shape)# print(data)# 2.数据清洗(在读取完数据之后,我们开始进行数据的清洗)# 在分析完数据集之后,发现数据集中存在票价为空的数据,显然这些数据是一些缺失值# 发现此时的数据集中存在两个数据列是关于票价的SUM_YR_1,SUM_YR_2,所以我们要分别进行处理# 2.1缺失值处理data1 = data['SUM_YR_1'].notnull()data2 = data['SUM_YR_2'].notnull()data3 = data1 & data2env_data = data.loc[data3,:]# print(env_data)print('删除缺失记录之后数据集的形状为:',env_data.shape)# 2.2异常值处理# 进行对数据集的观察,发现此时的数据集中存在票价为零的,和平均折扣率为0且总飞行公里数等于0的记录# 所以此时我们要对这些数据进行处理,即进行删除index1 = env_data['SUM_YR_1'] != 0idnex2 = env_data['SUM_YR_2'] != 0index3 = (env_data['SEG_KM_SUM'] > 0) & (env_data['avg_discount'] != 0)airline = env_data[(index1 | idnex2) & index3]print('删除异常记录之后的数据集的形状为:',airline.shape)# 该程序主要用于实现对筛选后的数据进行标准化import pandas as pdimport numpy as npfrom sklearn.preprocessing import StandardScaler# 1.读取数据集data = pd.read_csv('F:\火线时刻\\air_data.csv',encoding='gb18030')# 2.数据清洗# 2.1缺失值处理data1 = data['SUM_YR_1'].notnull()data2 = data['SUM_YR_2'].notnull()data3 = data1 & data2env_data = data.loc[data3,:]# 2.2异常值处理index1 = env_data['SUM_YR_1'] != 0idnex2 = env_data['SUM_YR_2'] != 0index3 = (env_data['SEG_KM_SUM'] > 0) & (env_data['avg_discount'] != 0)airline = env_data[(index1 | idnex2) & index3]# 3.选取需求特征airline_selection = airline[["FFP_DATE","LOAD_TIME","FLIGHT_COUNT","LAST_TO_END","avg_discount" ,"SEG_KM_SUM"]]# 4.构建L特征L = pd.to_datetime(airline_selection["LOAD_TIME"]) - pd.to_datetime(airline_selection["FFP_DATE"])L = L.astype("str").str.split().str[0]L = L.astype("int")/30# 5.合并特征airline_features = pd.concat([L,airline_selection.iloc[:,2:]],axis = 1)# 6.对数据进行标准化data = StandardScaler().fit_transform(airline_features)np.savez('F:\火线时刻\\airline_scale.npz',data)print('标准化后LRFMC五个特征为:\n',data[:5,:])实验环境:pycharm Python实验结果(上传实验结果截图或者简单文字描述):疑难小结(总结个人在实验中遇到的问题或者心得体会):心得体会:明白了对航空公司客户价值分析总体流程步骤的构建1.从数据源中获取数据1.1选择性获取(历史数据)1.2新增信息提取(增量数据)2.读数据进行预处理2.1数据清洗2.2特征构建2.3数据标准化3.分析与建模3.1建模数据基于客户LRFMC的分群3.2预处理后的增量数据模型分析客户价值排名模型应用4.结果反馈应用结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
促销积分 合作伙伴积分 总累计积分 非乘机的积分变动次数 总基本积分
6
思考
原始数据中包含40多个特征,利用这些特征做些什么呢?我们又该 从哪些角度出发呢?
大数据挖掘专家
7
项目目标
结合目前航空公司的数据情况,可以实现以下目标。
➢ 借助航空公司客户数据,对客户进行分类。 ➢ 对不同的客户类别进行特征分析,比较不同类别客户的客户价值。 ➢ 对不同价值的客户类别提供个性化服务,制定相应的营销策略。
这就是所谓“20%的顾客贡献了80%的销售额”的二八法则。
大数据挖掘专家
13
构建航空客户价值分析的关键特征
2. RFM模型结果解读
RFM模型包括三个特征,使用三维 坐标系进行展示,如图所示。X轴表示 Recency,Y轴表示Frequency,Z轴表 示Monetary,每个轴一般会分成5级表 示程度,1为最小,5为最大。
特征名称
MEMBER_NO
FFP_DATE
FIRST_FLIGHT_DATE
GENDER
客户基本信息
FFP_TIER
WORK_CITY
WORK_PROVINCE
WORK_COUNTRY
AGE
大数据挖掘专家
特征说明 会员卡号 入会时间 第一次飞行日期
性别 会员卡级别 工作地城市 工作地所在省份 工作地所在国家
大数据挖掘专家
9
熟悉航空客户价值分析的步骤与流程
航空客户价值分析项目的总体流程如图所示。
业务系统
数据抽取
数据预处理
历
选择性抽取
史
数
据
数据源
增
量
新增信息抽取
数
据
数据清洗 特征构建 数据标准化馈
建
模
基于LRFMC的
数
客户分群
据
预
处
模型分析
模型 优化
理
后
的
客户价值排名
增
应
量 数
年龄
5
航空公司客户数据说明
表名 乘机信息
积分信息
大数据挖掘专家
特征名称 FLIGHT_COUNT
LOAD_TIME LAST_TO_END AVG_DISCOUNT
SUM_YR SEG_KM_SUM LAST_FLIGHT_DATE AVG_INTERVAL MAX_INTERVAL EXCHANGE_COUNT
大数据挖掘专家
8
了解客户价值分析
客户营销战略倡导者Jay & Adam Curry从国外数百家公司进行了客户营销实施的经验中提炼了如下经验。
➢ 公司收入的80%来自顶端的20%的客户。 ➢ 20%的客户其利润率100%。 ➢ 90%以上的收入来自现有客户。 ➢ 大部分的营销预算经常被用在非现有客户上。 ➢ 5%至30%的客户在客户金字塔中具有升级潜力。 ➢ 客户金字塔中客户升级2%,意味着销售收入增加10%,利润增加50%。 这些经验也许并不完全准确,但是它揭示了新时代客户分化的趋势,也说明了对客户价值分析的迫切性和必 要性。
大数据挖掘专家
14
构建航空客户价值分析的关键特征
3. 传统RFM模型在航空行业的缺陷
在RFM模型中,消费金额表示在一段 时间内,客户购买该企业产品金额的总和 ,由于航空票价受到运输距离,舱位等级 等多种因素影响,同样消费金额的不同旅 客对航空公司的价值是不同的,因此这个 特征并不适合用于航空公司的客户价值分 析。
模型应用
用 结
据
果
10
目录
1
了解航空公司现状与客户价值分析
2
预处理航空客户数据
3
使用K-Means算法进行客户分群
4
小结
大数据挖掘专家
11
处理数据缺失值与异常值
航空公司客户原始数据存在少量的缺失值和异常值,需要清洗后才能用于分析。
➢ 通过对数据观察发现原始数据中存在票价为空值,票价最小值为0,折扣率最小值为0,总飞行公里数大于 0的记录。票价为空值的数据可能是客户不存在乘机记录造成。 处理方法:丢弃票价为空的记录。
大数据挖掘专家
15
构建航空客户价值分析的关键特征
4. 航空客户价值分析的LRFMC模型
本项目选择客户在一定时间内累积的飞行里程M和客户在一定时间内乘坐舱位所对应的折扣系数的平均 值C两个特征代替消费金额。此外,航空公司会员入会时间的长短在一定程度上能够影响客户价值,所以在模 型中增加客户关系长度L,作为区分客户的另一特征。
大数据挖掘专家
3
分析航空公司现状
2. 行业外竞争
随着高铁、动车等铁路运输的兴建,航空公司受到巨大冲击。
大数据挖掘专家
4
分析航空公司现状
航空公司数据特征说明
➢ 目前航空公司已积累了大量的会员档 案信息和其乘坐航班记录。
➢ 以2014-03-31为结束时间,选取宽度 为两年的时间段作为分析观测窗口, 抽取观测窗口内有乘机记录的所有客 户的详细数据形成历史数据,44个特 征,总共62988条记录。数据特征及其 说明如右表所示。
EP_SUM PROMOPTIVE_SUM
PARTNER_SUM POINTS_SUM POINT_NOTFLIGHT
BP_SUM
续表
特征说明 观测窗口内的飞行次数 观测窗口的结束时间 最后一次乘机时间至观测窗口结束时长
平均折扣率 观测窗口的票价收入 观测窗口的总飞行公里数
末次飞行日期 平均乘机时间间隔
➢ 其他的数据可能是客户乘坐0折机票或者积分兑换造成。由于原始数据量大,这类数据所占比例较小,对 于问题影响不大,因此对其进行丢弃处理。 处理方法:丢弃票价为0,平均折扣率不为0,总飞行公里数大于0的记录。
大数据挖掘专家
12
构建航空客户价值分析的关键特征
1. RFM模型介绍
本项目的目标是客户价值分析,即通过航空公司客户数据识别不同价值的客户,识别客户价值应用最广泛的 模型是RFM模型。 ➢ R(Recency)指的是最近一次消费时间与截止时间的间隔。通常情况下,最近一次消费时间与截止时间的间
隔越短,对即时提供的商品或是服务也最有可能感兴趣。 ➢ F(Frequency)指顾客在某段时间内所消费的次数。可以说消费频率越高的顾客,也是满意度越高的顾客,
其忠诚度也就越高,顾客价值也就越大。 ➢ M(Monetary)指顾客在某段时间内所消费的金额。消费金额越大的顾客,他们的消费能力自然也就越大,
大数据,成就未来
航空公司客户价值分析
2020/7/8
目录
1
了解航空公司现状与客户价值分析
2
预处理航空客户数据
3
使用K-Means算法进行客户分群
4
小结
大数据挖掘专家
2
分析航空公司现状
1. 行业内竞争
民航的竞争除了三大航空公司之间的竞争之外,还将加入新崛起的各类小型航空公司、民营航空公司,甚至 国外航空巨头。航空产品生产过剩,产品同质化特征愈加明显,于是航空公司从价格、服务间的竞争逐渐转 向对客户的竞争。