利用K-Means聚类进行航空公司客户价值分析.doc
航空公司聚类分析报告
航空公司聚类分析报告本文将进行航空公司的聚类分析,旨在对航空公司进行分类,以便于更好地理解和比较不同航空公司之间的特点和业务模式。
在航空业这一复杂的行业中,航空公司扮演着重要角色。
航空公司的经营模式、服务质量、航线网络以及价格策略等因素将直接影响到乘客的选择和满意度。
为了实现对航空公司的分类,需要使用适当的聚类算法。
在本次分析中,我们选择使用聚类算法中的K-means算法。
该算法将航空公司的特征数据作为输入,通过迭代计算来将航空公司分成不同的簇。
在分析之前,我们需要对数据进行预处理。
首先,我们需要收集航空公司的相关数据,如市场份额、客户满意度、航线数量、抵达准时率等。
然后,对这些数据进行清洗和归一化处理,以确保数据的准确性和可比性。
接下来,我们将使用K-means算法对预处理后的数据进行聚类。
K-means算法的基本思想是根据簇内数据点的相似性,将数据分成不同的簇。
具体而言,算法首先选择K个初始中心点,然后将每个数据点分配给距离其最近的中心点所属的簇,接着重新计算每个簇的中心点,再次将每个数据点分配给距离其最近的中心点,重复这个过程,直到簇内的数据点不再发生变化。
在得到聚类结果后,我们可以对不同的航空公司进行比较。
通过观察每个簇的特征和表现,我们可以研究各个聚类的特点,并根据需要对航空公司进行分类。
最后,我们可以通过可视化的方式将聚类结果呈现出来。
利用散点图或者雷达图等可视化工具,我们可以清晰地展示不同航空公司在各个特征上的表现,并进一步探讨其在簇内与其他航空公司的相似性和差异性。
通过以上的分析,我们可以得出关于不同航空公司的结论,并基于这些结论提出适应性较强的建议。
这些建议可以帮助航空公司改进其经营战略,提高服务质量,增加市场竞争力。
航空公司客户价值分析Kmeans
数据变换由于原始数据没有直接给出LRFMC五个指标,需要自己计算,具体的计算方式为:(1)L=LOAD_TIME-FFP_DATE(2)R=LAST_TO_END(3)F=FLIGHT_COUNT(4) M=SEG_KM_SUM(5)C=avg_discount数据变换的Python代码如下:1.def reduction_data(datafile,reoutfile):2. data=(cleanoutfile,encoding='utf-8')3.data=data[['LOAD_TIME','FFP_DATE','LAST_TO_END','FLIGHT_COUNT','SEG _KM_SUM','avg_discount']]4.# data['L']=(data['LOAD_TIME'])(data['FFP_DATE'])5.#data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_ADTE'])).d ays)/30)6.####这四行代码费了我3个小时7. d_ffp=(data['FFP_DATE'])8. d_load=(data['LOAD_TIME'])9. res=d_load-d_ffp10. data['L']=(lambda x:x/(30*24*60,'m'))11.12. data['R']=data['LAST_TO_END']13. data['F']=data['FLIGHT_COUNT']14. data['M']=data['SEG_KM_SUM']15. data['C']=data['avg_discount']16. data=data[['L','R','F','M','C']]17.(reoutfile)变换结果如下:客户聚类采纳kMeans聚类算法对客户数据进行客户分组,聚成5组,Python代码如下:1.import pandas as pd2.from import KMeans3.import as plt4.from itertools import cycle5.6.datafile='./tmp/'7.k=58.classoutfile='./tmp/'9.resoutfile='./tmp/'10.data=(datafile)11.12.kmodel=KMeans(n_clusters=k,max_iter=1000)13.(data)14.15.# print16.r1=.value_counts()17.r2=18.r=([r2,r1],axis=1)19.=list+['类别数量']20.# print(r)21.# (classoutfile,index=False)22.23.r=([data,,index=],axis=1)24.=list+['聚类类别']25.# (resoutfile,index=False)对数据进行聚类分群的结果如下表所示:。
(R语言商务数据分析实战教案)第3章航空公司客户价值分析
第3章航空公司客户价值分析教案课程名称:R语言商务数据分析实战课程类别:必修适用专业:大数据技术类相关专业总学时:80学时(其中理论45学时,实验35学时)总学分:5.0学分本章学时:7学时一、材料清单(1)《R语言商务数据分析实战》教材。
(2)配套PPT。
(3)引导性提问。
(4)探究性问题。
(5)拓展性问题。
二、教学目标与基本要求1.教学目标结合航空公司客户价值分析的案例,重点介绍数据分析算法中K-Means聚类算法在客户价值分析中的应用。
针对RFM客户价值分析模型的不足,使用K-Means算法构建航空客户价值分析LRFMC模型,详细描述数据分析的整个过程。
2.基本要求(1)熟悉航空公司客户价值分析的步骤与流程。
(2)了解RFM模型的基本原理,以及K-Means算法的基本原理。
(3)构建航空客户价值分析的关键特征。
(4)比较不同类别客户的客户价值,制定相应的营销策略。
三、问题1.引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。
(1)客户价值分析是什么?(2)影响航空公司客户价值的相关因素有哪些?(3)航空公司客户价值分析的意义在哪里?2.探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。
或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。
(1)客户价值分析的使用场景有哪些?(2)航空客户价值分析的步骤与流程有哪些?(3)为何要构建关键特征?3.拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。
亦可以提供拓展资料供学生研习探讨,完成拓展性问题。
(1)除了K-Means算法,能否使用其他算法进行客户价值分析?(2)构建K-Means模型时,为何要选取3为聚类数?四、主要知识点、重点与难点1.主要知识点(1)了解航空公司现状与客户价值分析。
python数据分析与挖掘实战---航空公司客户价值分析
python数据分析与挖掘实战---航空公司客户价值分析航空公司客户价值分析⼀、背景与挖掘⽬标客户关系管理是企业的核⼼问题,关键在于客户的分类:区别⽆价值客户,⾼价值客户,针对不同客户群体有的放⽮投放具体服务⽅案,实现企业利润最⼤化的⽬标。
各⼤航空公司采取优惠措施喜迎更多客户,国内航司⾯对客户流失和资源未完全利⽤等危机,因此建⽴⼀个客户价值评估模型来实现对客户的分类。
⼆、分析⽅法与过程本次的分析⽬的在于客户价值识别,客户价值识别最常⽤的模型是RFM模型:R(最近消费时间间隔)F(消费频率)M(消费⾦额)。
飞机票价取决于飞⾏距离和仓位等级,消费同等⾦额票价的旅客对航司的价值不⼀定相同:购买短程头等舱的旅客和购买长途经济舱的旅客,明显前者对航司的贡献更⼤。
所以对M(消费⾦额)建模时要进⾏修改:⽤⾥程数平均值M和仓位折扣系数平均值C来代替消费的⾦额。
同时,考虑旅客中,加⼊会员的时间越长,客户的潜在价值⼀般越⾼,所以定义⼀个客户关系长度L,作为区分客户的另⼀指标。
接下来针对LRFMC模型,对客户进⾏区分。
LRFMC模型:(1)客户关系长度L:航空公司会员时间的长短。
(2)是消费时间间隔R。
(3)消费频率F。
(4) 飞⾏⾥程M。
(5) 折扣系数的平均值C。
LRFMC模型指标含义:(1) L:会员⼊会时间距观测窗⼝结束的⽉数。
(2) R:客户最近⼀次乘坐公司飞机距离观测窗⼝结束的⽉数。
(3) F:客户在观测窗⼝内乘坐公司飞机的次数。
(4) M:客户在观测窗⼝内累计的飞⾏⾥程碑。
(5) C:客户在观测窗⼝内乘坐仓位所对应的折扣系数的平均值。
⽅法:本案例采⽤聚类的⽅法,通过对航空公司客户价值的LRFMC模型的五个指标进⾏K-Means聚类,识别客户价值。
三、数据描述给出所有属性的基本信息,共25个属性,均⽆⼤量缺失现象或缺失现象很少。
四、建模1、数据探索分析对数据进⾏缺失值分析与异常值分析,分析出数据的规律以及异常值查找每列属性观测值个数,最⼤值,最⼩值。
《数据挖掘实验》---K-means聚类及决策树算法实现预测分析实验报告
实验设计过程及分析:1、通过通信企业数据(USER_INFO_M.csv),使用K-means算法实现运营商客户价值分析,并制定相应的营销策略。
(预处理,构建5个特征后确定K 值,构建模型并评价)代码:setwd("D:\\Mi\\数据挖掘\\")datafile<-read.csv("USER_INFO_M.csv")zscoredFile<- na.omit(datafile)set.seed(123) # 设置随机种子result <- kmeans(zscoredFile[,c(9,10,14,19,20)], 4) # 建立模型,找聚类中心为4round(result$centers, 3) # 查看聚类中心table(result$cluster) # 统计不同类别样本的数目# 画出分析雷达图par(cex=0.8)library(fmsb)max <- apply(result$centers, 2, max)min <- apply(result$centers, 2, min)df <- data.frame(rbind(max, min, result$centers))radarchart(df = df, seg =5, plty = c(1:4), vlcex = 1, plwd = 2)# 给雷达图加图例L <- 1for(i in 1:4){legend(1.3, L, legend = paste("VIP_LVL", i), lty = i, lwd = 3, col = i, bty = "n")L <- L - 0.2}运行结果:2、根据企业在2016.01-2016.03客户的短信、流量、通话、消费的使用情况及客户基本信息的数据,构建决策树模型,实现对流失客户的预测,F1值。
航空公司客户价值分析
02 业务分析及数据预处理
LRFMC取值范围
属性名称 最小值 最大值
L 12.23 114.63
R 0.03 24.37
F
M
2
368
213
580717
C 0.14 1.5
LRFMC数据标准化
(部分数据)
ZL 1.69 1.69 1.682 1.534 0.89 -0.497 -0.869
ZR 0.14 -0.322 -0.488 -0.785 -0.427 -0.691 1.996
第13页,共18页。
03 模型构建及业务分析
04
一般与低价值客户
(客户群4、5)
这类客户所乘坐航班的平均折扣率(C)很低,较长 时间没有乘坐过本公司航班(R)高,乘坐的次数(F)或
里程(M)较低,入会时长(L)短。他们是航空公司的一
般用户与低价值客户,可能是航空公司机票打折促销
时,才会乘坐本公司航班。
02 业务分析及数据预处理
航空信息原始数据(部分数据)
MEMBER_NO 289047040 289053451 289022508 289004181 289026513 289027500 289058898 289037374 289036013 289046087 289062045 289022276
03 模型构建及业务分析
采用K-均值聚类算法对客户数据进行客户分群
聚类类别 聚类个数 ZL
ZR
聚类中心
ZF
ZM
ZC
客户群1
5337 0.483 -0.799 2.483 2.424 0.308
客户群2
15735 1.16 -0.377 -0.087 -0.095 -0.158
kmeans聚类算法应用实例
kmeans聚类算法应用实例K-Means聚类算法应用实例一、K-Means聚类算法简介K-Means聚类算法是一种基于凝聚属性的迭代算法,它旨在将数据集中的样本点分类划分到指定数量的簇中,以达到相关性最强的分组效果。
算法的核心思想是,寻找代表簇中心的聚类中心,并根据距离聚类中心的远近,将样本分类到不同的簇中。
K-Means聚类的目的是要求出最优的聚类中心,使得样本集可以被完美划分成K个簇。
二、K-Means聚类算法的应用实例(1)客群分析K-Means聚类算法可以帮助分析客户行为及消费习惯,自动归类用户构成不同客群,如:高价值客户,积极向上的客户,偶尔购买的客户,交易历史较短的客户,低价值客户等,使企业更明确地识别其客户,选择最佳的沟通方式,创造出最大的收益。
(2)市场营销用户的社会属性,行为属性和品牌属性等,都可以利用K-Means算法对用户进行分类,进而分析用户喜好,细分市场,在不同市场中采取不同的营销战略,从而从更佳的维度去理解市场消费行为,深入分析和把握客户的行为,改善企业的市场营销效果。
(3)图像聚类K-Means聚类算法也可以用于图像处理中的相似图像聚类,以减少用户在查看数据时需要处理太多图像。
它旨在将图像划分为几个集群,使得每个簇中的样本相似度最高。
K-Means聚类算法可以用于解决视觉识别任务中的分类问题,提高图像识别系统的正确率以及效率。
(4)故障诊断K-Means聚类也可以用于故障诊断,将系统参数情况分类,来区分出系统的故障,当某一参数的值远低于正常值时,可以准确的将其分类为异常值,从而确定系统存在什么故障,从而可以有效降低系统故障率,提高系统稳定性和可靠性。
三、四、K-Means聚类算法的优缺点(1)优点a. K-Means算法效率高,计算量少;b. K-Means算法易于实现,调参相对容易;c. K-Means算法执行简单,可轻松融入现有系统;d. K-Means具有 translation invariant, scale invariant等特性,可解决非线性问题;(2)缺点a. K-Means算法的缺点是受初始聚类中心的影响较大,其结果可能受噪声干扰;b. K-Means算法可能收敛到局部最佳解;c. K-Means算法不能解决不同量级聚类间隔差异大的问题;d. K-Means算法对异常值存在敏感性,容易影响到聚类结果。
K—means聚类算法在客户细分中的应用
1 CR 简 介 M
客 户 关 系 管理 ,就是 为企 业 提 供全 方 位 的 管 理 视角 ,赋 予 企 业 更完 善 的客 户交 流能 力 ,从 而 实
收稿 日期 :2 0 - 6 1 080-2
基 金项 目 : 东省 高等学校 自然科 学研 究重点项 目( 6 0 2) 广 东外语外 贸大学科研创新 团队项 目( W2 0 .A.0 ) 广 0Z 1 , G 0 6T 0 5 作 者简 介 :李 霞 ( 9 6 1 7 一 ),女 ,江西 乐 平人 ,讲 师 , 士 , 究方 向 : 据 挖 掘 , - i l xa d f.d .n 硕 研 数 E mal i i@g u se uc . :—
极 大 的 购买 量 和利 润.因此 ,如何 维 持 与高 价值 客 户 的 良好 关 系 ,进一 步 挖掘 潜力 客 户 的价值 ,合 理
分 配 有 限的 资源 , 针对 不 同价 值 的客户 制 定有 差 别 的营 销策 略 , 企业 在 激烈 市场 竞 争 中的制 胜之 道 . 是
聚类 分析 是 数 据 挖 掘 中 的一 类 重 要 任 务 ,它根 据 对 象 之 间 的相 似 度将 对 象 划 分 为 不 同 的组 ,使 得 同一 组 内的对 象 相 似 度 最 大 化 ,而 不 同组 内的对 象 相 似 度 最 小 化 .聚类 分 析 通 常 用 于从 大 量 数 据 中寻 找 隐含 的数 据 分 布 和模 式 ,它具 有 广 泛 的应 用 :如文 档 聚 类 中将 相 关 文 档分 类 以便 浏览 ;用 于
生物医学 中将有相似功能 的基 因和蛋白质分组 ;用于股票市场将具有相似价格浮动 的股票分组 ;用
于 C M 中对 客 户 细 分 等 .本 文研 究 聚 类 分析 的经 典 算 法 K— a s1 R men[算法 , 其应 用 于 某 超 市 的 VI 1 将 P
航空公司客户价值分析数据挖掘设计文档
数据挖掘大作业题目:航空公司客户价值分析目录一、任务背景 (2)二、数据挖掘目标 (2)三、数据探索与预处理 (3)构建航空客户价值分析的关键特征 (3)数据抽取 (5)探索性分析 (5)数据处理 (6)四、模型构建与评价 (12)1.模型构建K-Means聚类算法 (12)客户价值分析 (13)五、总结 (16)一、任务背景高铁、动车等铁路的不断兴建,出行方式的多元化让航空公司受到很大的冲击。
航空公司之间竞争也很激烈,除了四大航空公司之间的竞争之外,还有新兴产业的各类小型航空公司、民营航空公司,旅游等。
甚至国外航线出现高速度增长。
随着时代的发展,客户问题越来越受到关注,客户流失对利润增长造成了非常大的负面影响。
客户与航空公司的关系越长,航空公司的利润就越高。
一个客户使用了几次这次服务,感觉服务不错,那下次还会倾向于这个服务,但是要获得新客户,不仅需要在广告和人员工资上花费很多,去吸引顾客,在销售、市场也会花费很多,并且大多数新客户产生的利润不如那些流失的老客户多。
很明显,失去一个客户对公司来说比得到一个新客户更昂贵。
另外老用户也可以带来新用户。
因此,在这一背景下,分析航空公司客户数据,对客户进行分类,提高客户流失率是当务之急。
航空公司应针对不同类型的客户制定相应的营销模式,以实现利润最大化。
二、数据挖掘目标按航空公司客户数据进行分类。
分析了不同类型顾客的特点,比较不同类型顾客的顾客价值。
可以为不同价值客户类别提供个性化服务,并采用相应的营销策略。
分类客户的目的,就是要更精确地说明谁是我们的客户,了解客户到底有哪些实际需要,企业应该去吸引哪些客户,哪些客户应该被重点保留,以及应该如何迎合重点客户的需求等重要问题,进而使客户关系管理真正成为业务获得成功、扩大产品销量的催化剂。
客户分类是客户关系管理的核心。
帕累托定律(2/8定律):就是20%的顾客给企业带来80%的销售利润。
20%的客户其利润率达到100%。
利用KMeans聚类进行航空公司客户价值分析
利⽤KMeans聚类进⾏航空公司客户价值分析准确的客户分类的结果是企业优化营销资源的重要依据,本⽂利⽤了航空公司的部分数据,利⽤Kmeans聚类⽅法,对航空公司的客户进⾏了分类,来识别出不同的客户群体,从来发现有⽤的客户,从⽽对不同价值的客户类别提供个性化服务,指定相应的营销策略。
⼀、分析⽅法和过程1.数据抽取——>2.数据探索与预处理——>3。
建模与应⽤传统的识别客户价值应⽤最⼴泛的模型主要通过3个指标(最近消费时间间隔(Recency)、消费频率(Frequency)和消费⾦额(Monetary))来进⾏客户细分,识别出价值⾼的客户,简称RFC模型。
点击查看在RFC模型中,消费⾦额表⽰在⼀段时间内,客户购买产品的总⾦额。
但是不适⽤于航空公司的数据处理。
因此我们⽤客户在⼀段时间内的累计飞⾏⾥程M和客户在⼀定时间内乘坐舱位的折扣系数C代表消费⾦额。
再在模型中增加客户关系长度L,所以我们⽤LRFMC模型。
因此本次数据挖掘的主要步骤:1).从航空公司的数据源中进⾏选择性抽取与新增数据抽取分别形成历史数据和增量数据2).对步骤1)中形成的两个数据集进⾏数据探索分析和预处理,包括数据缺失值和异常值分析。
即数据属性的规约、清洗和变换3).利⽤步骤2)中的处理的数据进⾏建模,利⽤Python下Sklearn库中提供的KMeans⽅法,进⾏聚类4)。
针对模型的结果进⾏分析。
⼆。
数据处理1.下⾯是本次试验数据集的⼀部分截图,数据集抽取2012-4-1到2014-3-31内乘客的数据,⼀个62988条数据。
包括了会员卡号、⼊会时间、性别、年龄等44个属性。
2.数据探索分析:主要是对数据进⾏缺失值分析与异常值的分析。
通过发现原始数据中存在票价为空值,票价最⼩值为0,折扣率最⼩值为0、总飞⾏公⾥数⼤于0的记录。
其Python代码如下:def explore(datafile,exploreoutfile):"""进⾏数据的探索@Dylan:param data: 原始数据⽬录:return: 探索后的结果"""data=pd.read_csv(datafile,encoding='utf-8')explore=data.describe(percentiles=[],include='all').T####包含了对数据的基本描述,percentiles参数是指定计算多少分位数explore['null']=len(data)-explore['count'] ##⼿动计算空值数explore=explore[['null','max','min']]####选取其中的重要列explore.columns=['空值数','最⼤值','最⼩值']"""describe()函数⾃动计算的字段包括:count、unique、top、max、min、std、mean。
基于K-means聚类算法的客户价值分析研究概要
基于K-means聚类算法的客户价值分析研究摘要本文重点讨论了聚类分析方法中K-means聚类算法在客户价值分析中的作用,通过对客户的现有价值和潜在价值进行分析,对客户进行细分。
在此基础上,企业可结合行业的特征找出各类客户的特点,实行差异化服务策略,让更好的资源和服务提供给最有价值客户,从而达到顾客满意、企业盈利的目的。
关键词聚类分析 K-means聚类算法客户价值1 引言市场分析理论认为,20%的客户带来约80%的利润,即帕累托所谓“关键的少数与次要的多数”的关于市场分布的一般规律[1]。
通常情况下,只有少部分高价值的客户才能够为企业带来大部分利润。
进行客户细分后,企业可以为高价值客户提供足够的技术和人力试粗С郑猿浞致闫涠云笠悼突Х竦钠谕O喾矗俨糠值图壑档目突в惺焙蛏踔粱岣笠荡锤豪蟆6蠖嗍突г虼τ诟呒壑涤氲图壑抵屑洌瞧笠抵匾目突海;岫云笠档牟莆褚导ú艽蟮挠跋臁R环矫妫腔岽锤嗟目突Х⒄够幔涣硪环矫妫且不嵬贝春芨叩脑擞缦铡6云笠道唇玻呒壑悼突峁┯胖实姆窈苤匾煌忝娴目突峁┫嘤Φ挠姓攵孕缘姆褚餐匾?lt;/DIV>作为数据挖掘技术中的一种重要的方法,聚类分析可以用于大量客户群细分。
按不同特征将客户分群后,就可以为每一群开发独立的预测模型,并根据每一群的不同特点进行分析,从而提供差异化服务或产品。
常见的聚类分析算法主要有以下三类:(1)划分法:给定一个有N个(K<N)元组或者记录的数据集,构造K个分组,每一个分组就代表一个聚类。
对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好。
使用该基本思想的算法有K-means算法、K-medoids 算法和CLARANS算法。
(2)层次法:对给定的数据集进行层次似的分解,直到某种条件满足为止。
具体又可分为“自底向上”和“自顶向下”两种方案。
代表算法有BIRCH算法、CURE算法以及CHAMELEON算法等。
基于数据挖掘的航空公司客户价值分析
基于数据挖掘的航空公司客户价值分析第一章:绪论随着互联网时代的到来,航空公司已经成为了交通运输的主要方式。
然而,随着市场竞争加剧,如何提高客户留存率并提高收益成为了航空公司面临的重要问题。
此时,数据挖掘技术的应用则成为了解决这一问题的有力工具。
本文基于数据挖掘技术对航空公司客户价值进行分析,旨在为航空公司提供客户保留和收益提高的参考依据。
第二章:相关理论2.1 数据挖掘数据挖掘是一种自动化地探索海量数据,以找到其中隐藏的知识或规律的技术。
它是一种将大量数据集为基础的、自动化的山寨思考和提取模式的过程,是从大规模的天外数据集中提取先于知识或者信息,可以用这些信息来开发事物和创新构思。
2.2 客户价值客户价值是指企业通过对客户需求的了解,能够为客户提供的满足需求的产品和服务所创造的价值。
客户价值可分为现金价值和未来价值,其中现金价值是指客户在一定时间内购买产品或服务所带来的现金收益,未来价值则是指客户对企业的长期价值,如忠诚度。
第三章:相关方法3.1 K-Means聚类算法K-Means聚类算法是一种最常用的无监督学习算法,将簇内数据的方差和最小化是该算法的主要目标。
该算法以簇中心为依据,将数据逐个进行分类,使得彼此属于同一个类簇的数据离其所处的中心点最近。
3.2 决策树算法决策树算法是一种基于树形结构的算法,该算法通过树形结构,进行自上而下的逐一判断选择,最终将数据集分为驱动选择的不同类型。
该算法常用于分类和预测模型,比如说在金融领域,可以用该算法预测客户是否具有逾期风险。
第四章:案例分析本文以某航空公司的客户数据为分析基础,首先对客户进行分类,其次将数据进行分析,从而确定客户的价值,并建立相应的模型,以提高客户的保留率和收益。
4.1 客户分类通过对某航空公司的客户数据进行分析,选用K-means聚类算法对客户进行分类,根据聚类结果将客户分为三类:- 高价值客户:在过去一年中花费最高,是航空公司最重要的客户。
Python数据分析与应用实例-航空公司客户价值分析
航空公司客户价值分析1预处理航空客户数据目录了解航空公司现状与客户价值分析2使用K-Means算法进行客户分群3小结41. 行业内竞争民航的竞争除了三大航空公司之间的竞争之外,还将加入新崛起的各类小型航空公司、民营航空公司,甚至国外航空巨头。
航空产品生产过剩,产品同质化特征愈加明显,于是航空公司从价格、服务间的竞争逐渐转向对客户的竞争。
2. 行业外竞争随着高铁、动车等铁路运输的兴建,航空公司受到巨大冲击。
Ø目前航空公司已积累了大量的会员档案信息和其乘坐航班记录。
Ø以2014-03-31为结束时间,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口内有乘机记录的所有客户的详细数据形成历史数据,44个特征,总共62988条记录。
数据特征及其说明如右表所示。
航空公司数据特征说明特征名称特征说明客户基本信息MEMBER_NO 会员卡号FFP_DATE 入会时间FIRST_FLIGHT_DATE第一次飞行日期GENDER性别FFP_TIER 会员卡级别WORK_CITY 工作地城市WORK_PROVINCE 工作地所在省份WORK_COUNTRY工作地所在国家AGE年龄航空公司客户数据说明表 名特征名称特征说明乘机信息FLIGHT_COUNT观测窗口内的飞行次数LOAD_TIME观测窗口的结束时间LAST_TO_END最后一次乘机时间至观测窗口结束时长AVG_DISCOUNT平均折扣率SUM_YR观测窗口的票价收入SEG_KM_SUM观测窗口的总飞行公里数LAST_FLIGHT_DATE末次飞行日期AVG_INTERVAL平均乘机时间间隔MAX_INTERVAL最大乘机间隔积分信息EXCHANGE_COUNT积分兑换次数EP_SUM总精英积分PROMOPTIVE_SUM促销积分PARTNER_SUM合作伙伴积分POINTS_SUM总累计积分POINT_NOTFLIGHT非乘机的积分变动次数BP_SUM总基本积分续表思考原始数据中包含40多个特征,利用这些特征做些什么呢?我们又该从哪些角度出发呢?项目目标结合目前航空公司的数据情况,可以实现以下目标。
A015-Y-闫秀菊_航空公司客户价值评估
基于客户行为的航空公司客户价值评估摘 要:通过对国内某航空公司会员的数据进行分析,基于客户乘机行为,结合LRFMC模型,运用simpleKMeans 对客户进行了聚类,对客户价值进行评估,以便于航空公司进行客户关系管理,对不同的客户群采取不同的营销策略,使航空公司实现利益最大化,更具竞争力,从而更好的发展,更长久的生存。
关键词:客户价值;LRFMC模型;航空公司The Airline Customer Value Assessment Based on CustomerBehaviorAbstract:Through the analysisof a domestic airline membership data,based on the customer behavior,use the LRMFC model and the SimpleKMeans method to conduct the clustering of customer to assess customer value and for airline company to conduct customer relationship management.That is, to different customers take different marketing strategy, make the airline's interests maximize and be more competitive in the model world, thus The airline company could develop better and survival longer.Key words:customer value ,LRFMC Model,airline company目 录1.研究目标 (4)2.分析方法与过程 (4)2.1.总体流程 (4)2.2.具体步骤 (5)2.3.结果分析 (6)3.结论 (8)4.参考文献 (8)1.挖掘目标本次建模是利用国内某航空公司会员的基本资料以及在一个观测窗(2年)内8个季度的客户飞行数据作为原始数据集,通过数据挖掘技术,分析客户乘机行为的各个属性,进而采用聚类方法对客户进行聚类,最后在此基础上对客户价值进行了评估。
基于K-means的航空旅客聚类研究
基于K-means的航空旅客聚类研究作者:龚婷普慧洁张嘉伟吴昊辰来源:《价值工程》2018年第35期摘要:本文采用K-means聚类方法,通过分析国内外民航业的旅客细分及产品打包方法的优缺点,以自己调研收集的数据,对一定范围内的人群进行了旅客细分。
在使用SPSS对旅客细分的过程中,经过多次尝试,最终确定K=3时聚类效果最好,即将旅客分为三类:公/商务旅客、探亲旅游旅客、回家/返校学生团体,并为其设计了不同的产品组合。
Abstract: This paper adopts the K-means clustering method and analyzes the advantages and disadvantages of the passenger segmentation and product packaging methods in the civil aviation industry at home and abroad. Based on the data collected by the survey and study, the passengers within a certain range are subdivided. In the process of using SPSS to segment passengers, we have tried several times to finally determine the best clustering effect when K=3. This means that passengers are divided into three categories: public/business travelers, visiting relatives and tourists, home/back to school student groups and different product mixes were designed for them. However, due to the strong uncertainty in passenger demand, in the final APP, we will mainly push product accessories/free choice, and the product portfolio will supplement the sales approach to meet the needs of passengers for personalized and customized services.关键词:K-means;数据挖掘;产品组合;旅客细分Key words: K-means;data mining;product portfolio;passenger segmentation中图分类号:F560; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ;文献标识码:A; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; 文章编号:1006-4311(2018)35-0052-030; 引言在大数据时代,民航业有大量的旅客数据被闲置,得不到充分地利用。
基于聚类分析的航空公司客户群细分及营销策略
基于聚类分析的航空公司客户群细分及营销策略航空公司作为服务性行业,客户需求差异化明显且竞争激烈。
为了满足不同客户群体的需求,并制定针对性的营销策略,航空公司可以利用聚类分析对客户进行细分。
本文将探讨基于聚类分析的航空公司客户群细分及营销策略。
首先,航空公司需要收集大量的客户数据,包括个人信息、消费行为、航班偏好等。
接下来,将这些数据输入到聚类分析模型中,通过聚类算法将客户划分为具有相似特征的群体。
常用的聚类算法包括K-means和层次聚类等。
基于聚类分析的结果,我们可以将客户细分为不同的群体。
例如,可以将客户分为商务旅客和休闲旅客两大类。
商务旅客通常需要频繁出差,对航班时间和服务质量要求较高;而休闲旅客则更注重价格和行程的灵活性。
此外,还可以根据客户的购买力和消费水平进行细分,例如高消费客户和低消费客户。
在细分客户群体的基础上,航空公司可以制定相应的营销策略。
以商务旅客为例,可以通过提供更多的商务舱座位、灵活的航班时间和优质的服务来吸引他们。
与此同时,还可以加强与高端酒店的合作,提供一站式的商务旅行服务。
对于休闲旅客,航空公司可以通过降低票价、推出旅游套餐和增加航班频次等方式来吸引他们。
此外,还可以针对不同的休闲旅客群体提供不同的促销活动,例如针对家庭旅客的亲子优惠、针对情侣旅客的情侣套餐等。
对于高消费客户,航空公司可以推出会员制度,给予他们更多的积分和专属服务。
与此同时,还可以通过提供豪华的机舱设施、个性化的餐食和增值服务等方式来满足他们的需求。
对于低消费客户,航空公司可以通过降低票价、提供经济舱折扣或增加航班频次等方式来吸引他们。
此外,还可以通过与合作伙伴(如租车公司、酒店等)的联动促销、增值服务等方式增加其购买意愿。
在制定营销策略时,航空公司还应考虑客户的生命周期价值,即客户在整个购买过程中的潜在价值。
在推出促销活动时,应结合客户的购买习惯和偏好,采用精准的定向营销策略,提高客户的忠诚度和转化率。
Python数据分析与应用_第7章_航空公司客户价值分析报告
特征名称 最小值 最大值
L 12.17 114.57
R 0.03 24.37
F
M
C
2
368
0.14
213
580717
1.5
大数据挖掘专家
17
标准化LRFMC五个特征
L、R、F、M和C五个特征的数据示例,上图为原始数据,下图为标准差标准化处理后的数据。
LOAD_TIME
FFP_DATE
LAST_ TO_END
1.34
大数据挖掘专家
18
目录
1
了解航空公司现状与客户价值分析
2
预处理航空客户数据
3
使用K-Means算法进行客户分群
4
小结
大数据挖掘专家
19
了解K-Means聚类算法
1. 基本概念
K-Means聚类算法是一种基于质心的划分方法,输入聚类个数k,以及包含n个数据对象的数据库,输出满足 误差平方和最小标准的k个聚类。算法步骤如下。 ➢ 从n个样本数据中随机选取k个对象作为初始的聚类中心。 ➢ 分别计算每个样本到各个聚类质心的距离,将样本分配到距离最近的那个聚类中心类别中。 ➢ 所有样本分配完成后,重新计算k个聚类的中心。 ➢ 与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。 ➢ 当质心不发生变化时停止并输出聚类结果。
最大乘机间隔 积分兑换次数 总精英积分
促销积分 合作伙伴积分 总累计积分 非乘机的积分变动次数 总基本积分
6
思考
原始数据中包含40多个特征,利用这些特征做些什么呢?我们又该 从哪些角度出发呢?
大数据挖掘专家
7
项目目标
结合目前航空公司的数据情况,可以实现以下目标。
航空公司客户价值分析
RFM模型是衡量客户价值和客户创利能力的重要工具和手段,它通过一个客户的近期购买行为、购买的总体频次以及购买的总体金额三个指标来描述客户的价值状况。
分别为:最近消费时间间隔(Recently)、消费频率(Frequency)、消费金额(Money)。
在RFM模型的基础上,结合具体的业务背景,来对航空公司进行客户价值分析。
我们选择在一定时间内累积的飞行里程数(M)和客户在一定时间内乘坐舱位对应的折扣系数的平均值C来代替消费金额指标。
此外,航空公司会员入会时间的长短在一定时间内会影响客户价值,模型中增加了客户关系长度指标L。
利用客户入会时长L、消费时间间隔R、消费频率F、飞行里程数M以及折扣系数的平均值C来作为航空公司识别客户价值指标,见表1,记为LRFMC模型。
采用聚类分析的方法识别客户价值。
通过对航空公司客户价值LRFMC五个指标进行K-Means聚类,识别最有价值客户。
1、数据抽取以2014年3月31日为结束时间,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口内有乘机记录的所有客户的详细数据形成历史数据。
对于后续新增的客户详细信息,以后续新增数据中最新的时间点作为结束时间,采用上述同样的方法进行抽取,形成增量数据。
2、数据探索分析主要是进行缺失值分析和异常值分析,通过对数据的观察,发现原始数据中存在票价为空值,票价最小值为0、折扣率最小值为0、总飞行公里数大于0的记录,这个都是属于缺失值和异常值的范畴。
# 设置工作空间# 把“数据及程序”文件夹拷贝到F盘下,再用setwd设置工作空间setwd("F:/数据及程序/chapter7/示例程序")# 数据读取datafile <- read.csv('./data/air_data.csv', header = TRUE)# 确定要探索分析的变量col <- c(15:18, 20:29) # 去掉日期型变量# 输出变量最值、缺失情况summary(datafile[, col])#探索缺失数据的模式md.pattern(datafile[,col])#以图形方式描述缺失数据aggr(datafile[,col],number=T)3、数据预处理由于原始数据量比较大,上述被定义为缺失值和异常值的样本量很小,对问题的分学习影响不大,因此选择的是剔除缺失值和异常值。
基于K―means聚类的客户细分案例分析
基于K―means聚类的客户细分案例分析【摘要】当今流行的客户细分理论的视角主要关注在消费市场的细分上,现有的客户细分理论中根据客户购买的产品特征进行细分的分析和研究相对较少,因此本文的研究就是把某品牌鞋子的风格特征作为细分变量,基于某企业的销售数据来进行分析,选择K-means聚类分析方法结合企业的实际情况,划分出不同的客户群,企业可以根据不同客户群的需求和对企业的贡献制定不同的宣传营销策略,降低企业的销售成本,提高企业的竞争力。
【关键词】客户细分K-means聚类案例分析营销策略一、案例介绍某公司是一个以鞋类的研发制造及品牌管理为主的时尚集团公司,业务遍及大中华区(中国大陆、香港、台湾)、亚洲、欧洲及北美洲,是中国最成功的国内品牌之一。
该公司在中国经营的组织架构为:总公司――分公司――专卖店。
其中,总公司负责拓展策略和公司年度工作计划的制定,以及成本控制和分公司事务管理。
分公司负责执行总公司的战略,对专卖店、专卖店人员实施管理,工作内容包括:新开专卖店寻址、申请开店、签约、开店;对分公司人员管理、分公司销售指标达成、执行总公司促销活动等。
二、数据处理(一)数据准备原始数据包括两张表:客户交易记录表和鞋子具体属性表,其中客户交易记录表与鞋子属性表连接的变量是鞋子ID,交易记录数据的时间是过去一年2013年9月1日到2014年9月1日。
(二)数据清洗该企业一年的交易记录有几千万条,所以原始的交易数据量非常大,这样就很容易出现噪声数据、空缺数据和不一致数据,所以必须要经过一系列的分析与处理,包括对缺失值的处理和异常值的处理,例如:去除客户属性为空的客户记录、剔除消费额和消费次数不在正常范围内的客户记录等。
(1)剔除异常的正负交易。
从客户交易记录表中选出过去一年交易ID不为空的正常交易记录,交易记录表中的金额有正负之分,正表示购买记录,负表示退货记录,要剔除掉没有正交易与之对应的退货记录。
(2)剔除异常的购买数量和金额。
基于ANP和K—means聚类的客户价值分类模型及应用
用网络层 次分析法 ( A N P ) 对指标赋权 , 兼顾 了指 标 间的相互 影响 , 根据 各指标权 重和得 分计 算客 户价值 ; 然后使 用 K - me a n s 聚类算法对客 户群进行 细分 , 确定客 户等级 划分的标 准 , 划分 客户类别。最后 以某市烟草公 司零售终 端客户
C ODE N J YI I DU
h t t p : / / w w w . j o c a . a n
d o i : 1 0 . 1 1 7 7 2 / j . i s s n . 1 0 0 1 ・ 9 0 8 1 . 2 0 1 3 . 1 0 . 2 9 5 4
基于 A N P和 K — me a n s 聚 类 的客 户 价值 分 类模 型 及 应 用
Ab s t r a c t :A mo d e l w a s b u i l t t o e v lu a a t e t h e c u s t o me r v a l u e i n t e r ms o f c u r r e n t v a l u e a n d p o t e n t i a l v lu a e .T h i s mo d e l
t h e c u s t o me r v a l u e b a s e d o n t h e w e i g h t a n d s c o r e o f t h e i n d e x e s a n d t h e n c l a s s i f s b y K- me a n s .T a k i n g a t o b a c c o c o mp a n y f o r e x a mp l e a t t h e e n d o f t h i s p a p e r ,q u li a t a t i v e a n d q u a n t i t a t i v e me t h o d w a s u s e d t o e s t a b l i s h a c u s t o me r
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用 K-Means 聚类进行航空公司客户价值分析1.背景与挖掘目标 1.1 背景航空公司业务竞争激烈,从产品中心转化为客户中心。
针对不同类型客户,进行精准营销,实现利润最大化。
建立客户价值评估模型,进行客户分类,是解决问题的办法 1.2 挖掘目标借助航空公司客户数据,对客户进行分类。
对不同的客户类别进行特征分析,比较不同类客户的客户价值对不同价值的客户类别提供个性化服务,制定相应的营销策略。
详情数据见数据集内容中的air_data.csv 和客户信息属性说明 2.分析方法与过程 2.1 分析方法首先,明确目标是客户价值识别。
识别客户价值,应用最广泛的模型是三个指标(消费时间间隔(Recency) ,消费频率( Frequency),消费金额( Monetary ))以上指标简称RFM 模型,作用是识别高价值的客户消费金额,一般表示一段时间内,消费的总额。
但是,因为航空票价收到距离和舱位等级的影响,同样金额对航空公司价值不同。
因此,需要修改指标。
选定变量,舱位因素=舱位所对应的折扣系数的平均值=C,距离因素 =一定时间内积累的飞行里程 =M 。
再考虑到,航空公司的会员系统,用户的入会时间长短能在一定程度上影响客户价值,所以增加指标 L= 入会时间长度 =客户关系长度总共确定了五个指标,消费时间间隔 R,客户关系长度 L ,消费频率 F,飞行里程 M 和折扣系数的平均值 C 以上指标,作为航空公司识别客户价值指标,记为LRFMC 模型如果采用传统的 RFM 模型,如下图。
它是依据,各个属性的平均值进行划分,但是,细分的客户群太多,精准营销的成本太高。
综上,这次案例,采用聚类的办法进行识别客户价值,以LRFMC 模型为基础本案例,总体流程如下图2.2 挖掘步骤从航空公司,选择性抽取与新增数据抽取,形成历史数据和增量数据对步骤一的两个数据,进行数据探索性分析和预处理,主要有缺失值与异常值的分析处理,属性规约、清洗和变换利用步骤 2 中的已处理数据作为建模数据,基于旅客价值的 LRFMC 模型进行客户分群,对各个客户群再进行特征分析,识别有价值客户。
针对模型结果得到不同价值的客户,采用不同的营销手段,指定定制化的营销服务,或者针对性的优惠与关怀。
(重点维护老客户) 2.3 数据抽取选取, 2014-03-31 为结束时间,选取宽度为两年的时间段,作为观测窗口,抽取观测窗口内所有客户的详细数据,形成历史数据对于后续新增的客户信息,采用目前的时间作为重点,形成新增数据 2.4 探索性分析本案例的探索分析,主要对数据进行缺失值和异常值分析。
发现,存在票价为控制,折扣率为 0,飞行公里数为 0。
票价为空值,可能是不存在飞行记录,其他空值可能是,飞机票来自于积分兑换等渠道,查找每列属性观测值中空值的个数、最大值、最小值的代码如下。
import pandas as pddatafile= r'/home/kesci/input/date27730/air_data.csv' # 航空原始数据 ,第一行为属性标签resultfile = r'/home/kesci/work/test.xls' # 数据探索结果表data = pd.read_csv(datafile, encoding = 'utf-8') # 读取原始数据,指定 UTF-8 编码(需要用文本编辑器将数据装换为UTF-8 编码)explore = data.describe(percentiles = [], include = 'all').T # 包括对数据的基本描述,percentiles 参数是指定计算多少的分位数表(如 1/4 分位数、中位数等);T 是转置,转置后更方便查阅print(explore)explore['null'] = len(data)-explore['count'] #describe()函数自动计算非空值数,需要手动计算空值数explore = explore[['null', 'max', 'min']]explore.columns = [u' 空值数 ', u'最大值 ', u'最小值 '] # 表头重命名print('-----------------------------------------------------------------以下是处理后数据')print(explore)'''这里只选取部分探索结果。
describe()函数自动计算的字段有count(非空值数)、unique(唯一值数)、 top(频数最高者)、 freq (最高频数)、 mean (平均值)、 std(方差)、 min (最小值)、 50%(中位数)、max(最大值) '''以下是处-----------------------------------------------------------------理前数据count unique topfreq mean stdMEMBER_NO 62988 NaNNaN NaN 31494.5 18183.2FFP_DATE 62988 3068 2011/01/13184 NaN NaNFIRST_FLIGHT_DATE 62988 3406 2013/02/1696 NaN NaNGENDER 62985 2男48134 NaN NaNFFP_TIER 62988 NaN NaNNaN 4.10216 0.373856WORK_CITY 60719 3310 广州9385 NaN NaNWORK_PROVINCE 59740 1185广东17507 NaN NaNWORK_COUNTRY 62962 118CN 57748 NaN NaN...----------------------------------------------------------------- 以下是处理后数据空值数最大值最小值MEMBER_NO 0 62988 1 FFP_DATE 0 NaNNaNFIRST_FLIGHT_DATE 0 NaN NaN GENDER 3 NaN NaN FFP_TIER 0 6 4 WORK_CITY 2269 NaN NaN WORK_PROVINCE 3248 NaN NaN WORK_COUNTRY 26 NaN NaN AGE 420 110 6 LOAD_TIME 0 NaN NaN FLIGHT_COUNT 0 213 2BP_SUM 0 505308 0 ...2.3 数据预处理数据清洗丢弃票价为空记录丢弃票价为0、平均折扣率不为0、总飞行公里数大于 0 的记录 import pandas as pddatafile= '/home/kesci/input/date27730/air_data.csv' # 航空原始数据 ,第一行为属性标签cleanedfile = '' # 数据清洗后保存的文件data = pd.read_csv(datafile,encoding='utf-8') # 读取原始数据,指定 UTF-8 编码(需要用文本编辑器将数据装换为UTF-8 编码)data = data[data['SUM_YR_1'].notnull() &data['SUM_YR_2'].notnull()] # 票价非空值才保留#只保留票价非零的,或者平均折扣率与总飞行公里数同时为 0 的记录。
index1 = data['SUM_YR_1'] != 0index2 = data['SUM_YR_2'] != 0index3 = (data['SEG_KM_SUM'] == 0) &(data['avg_discount'] == 0) # 该规则是“与”,书上给的代码无法正常运行,修改'*' 为 '&'data = data[index1 | index2 | index3] # 该规则是“或”print(data)#data.to_excel(cleanedfile) # 导出结果————————————————————以下是处理后数据————————MEMBER_NO FFP_DATEFIRST_FLIGHT_DATE GENDER FFP_TIER\0 54993 2006/11/02 2008/12/24 男 61 28065 2007/02/19 2007/08/03 男 62 55106 2007/02/01 2007/08/30 男 63 21189 2008/08/22 2008/08/23 男 54 39546 2009/04/10 2009/04/15 男 65 56972 2008/02/10 2009/09/29 男 66 44924 2006/03/22 2006/03/29 男 67 22631 2010/04/09 2010/04/09 女 68 32197 2011/06/07 2011/07/01 男 59 31645 2010/07/05 2010/07/05 女 6属性规约原始数据中属性太多,根据航空公司客户价值LRFMC 模型,选择与模型相关的六个属性。
删除其他无用属性,如会员卡号等等def reduction_data(data):data = data[['LOAD_TIME', 'FFP_DATE','LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM','avg_discount']]#data['L']=pd.datetime(data['LOAD_TIME'])-pd.datetime(data['F FP_DATE'])#data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_AD TE'])).days)/30)d_ffp = pd.to_datetime(data['FFP_DATE'])d_load = pd.to_datetime(data['LOAD_TIME'])res = d_load - d_ffpdata2=data.copy()data2['L'] = res.map(lambda x: x / np.timedelta64(30 * 24 * 60, 'm'))data2['R'] = data['LAST_TO_END']data2['F'] = data['FLIGHT_COUNT']data2['M'] = data['SEG_KM_SUM']data2['C'] = data['avg_discount']data3 = data2[['L', 'R', 'F', 'M', 'C']]return data3data3=reduction_data(data)print(data3)————————————以下是以上代码处理后数据————————————L R F M C0 90.200000 1 210 580717 0.9616391 86.566667 7 140 293678 1.2523142 87.166667 11 135 283712 1.2546763 68.233333 97 23 281336 1.0908704 60.5333335 152 309928 0.9706585 74.700000 79 92 294585 0.9676926 97.700000 1 101 287042 0.9653477 48.400000 3 73 287230 0.9620708 34.266667 6 56 321489 0.828478数据变换意思是,将原始数据转换成“适当”的格式,用来适应算法和分析等等的需要。