基于大数据聚类算法K-means的用户分群

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

K-Means 是一种无监督的机器学习算法，也叫 K均值、K- 平均，是聚类算法中的最常用的一种，概括是说是“物以类聚、人以群分”，算法运算速度快，适合连续型的数据，但在聚类前需要手工指定要分成几类。[1]
K-Means 基本思想是将多个样本根据其属性划分为 K 个簇，初始 K 个簇的中心点是随机选定，再通过计算每个样本点到 K 个簇中心的距离，按照最近邻原则把每个样本点划分到 K 个簇中，然后将每个簇中所有样本点的坐标值进行平均，作为每个簇的新中心，如此进行迭代，直到簇中心的位置不再移动（即簇中心移动距离小于给定值），具体步骤如下：①将原始杂乱无章的样本点划分 K 个簇，簇中心随机选择。②计算每个样本点到 K 个簇中心的距离，将样本划分到距离最近的簇中心对应
； while（@@fetch_status=0）begin declare @ttc_curr int，@DT_curr VARCHAR（30）； fetch from Refuel_cursor into @DT_curr，@ttc_curr ； if（@@fetch_status=0）begin if（@ttc_curr > @ttc_prev + 1）begin declare @ttc VARCHAR（1000）； set @ttc = cast（@ttc_prev+1 as VARCHAR）； declare @idx int ； set @idx = @ttc_prev + 2 ； while（@idx < @ttc_curr）begin set @ttc = @ttc + '，' + cast（@idx as VARCHAR）； set @idx = @idx + 1 ； end ；
游戏时延
大小中大小大中中
下载速率
中中高高低高中低
通话次数
中少中中少中多多
表3 建议方案
rowID 服务等级建议权益倾向建议套餐变更建议
网络资源
降低用户服务
cluster_3
等级
无
引导用户提高套餐水平
无
cluster_2
无
赠送游戏类权益
引导用户提高套餐水平
Technology Analysis
技术分析
DCW
基于大数据聚类算法 K-means 的用户分群
苏进
（中国联通安徽分公司，安徽合肥 230000）
摘要：随着运营商人口红利逐步消失，运营商关注重点也逐渐从发展新用户转向存量用户经营，如何将存量用户进行
用户群体分类，基于用户消费水平、用户行为、用户体验等特征挖潜高价值用户，进而发起精准营销活动，将潜在的高价
值用户变成运营商实实在在的粘性用户，将网络资源投放到高价值用户区域，进而提高运营商整体利润，这将成为运营商
目前关注的重点之一。
关键词：运营商；用户行为；用户体验；精准营销
doi ：10.3969/J.ISSN.1672-7274.2021.06.056
中图分类号：TP3
文献标示码：A
文章编码：1672-7274（2021）06-0127-03
戏时间中等，但游戏时延感知较差，该类用户的套餐较
低，ARPU 值中等，可建议针对该类通过赠送游戏类权益，
提高用户感知，降低用户投诉量，同时该类用户更易引
导提升套餐。
表 2、表 3 是本次聚类结果以及从服务等级、权益、
套餐以及网络资源四个方面提出的建议方案：
表2 本次聚类结果
rowID
cluster_3 cluster_2 cluster_0 cluster_4 cluster_7 cluster_5 cluster_6 cluster_1
User Grouping Based on Big Data Clustering Algorithm K-means
SU Jin
(China Unicom Anhui Branch, Hefei 230000, China)
Abstract ：With the gradual disappearance of operating merchants’lipstick benefits, operators have gradually shifted their focus from the development of new users to the management of existing users. How to classify existing users into user groups and tap potential and high value based on user consumption levels, user behaviors, user experience and other characteristics Users, and then initiate precision marketing activities, turn potential high-value users into actual sticky users of operators, and put network resources in the areas of high-value users, thereby increasing the overall proﬁts of operators. This will become the current focus of operators. One of the key points.
引导用户提高套餐水平
无
提升用户服务赠送或引导客户建议客户降低套餐水
cluster_1
等级
购买视频流量包平，避免用户转网
无
3 结束语
本文通过 K-Means 聚类分析方法对（下转第 124 页）
128 DIGITCW 2021.06
D 技术 IGITCW 分析 Technology Analysis
本文将基于大数据挖掘算法，将用户进行分群，不同的群体用户基于其特征进行不同的营销方案，通过精准营销克服盲目性，吸引新用户，留住老用户。同时锁定目标用户群进行有效网络资源投放，降本增效，获得更有利的市场渗透。
1 数据建模
商业营销方案中，聚类可以帮助数据分析人员根据消费者的自身属性、消费特征划分为不同的消费群体，并总结出每一类消费群体的消费习惯，进而支撑市场进行有针对性的营销方案。Clustering（聚类）目的即把数据分类，但是事先我们是不知道如何去分的，完全是算法自己来判断各条数据之间的相似性，相似的就放在一起。在聚类的结论出来之前，我们完全不知道每一类有什么特点，一定要根据聚类的结果通过人的经验来分析，
用户入网用户月投诉 ARPU 套餐年限年龄次数
中低短中多中中中低少中高长高少低高长中少低低短低少高中中中中高中短中中低高中中中
游戏时长
中短长中短中短中
视频流量
中少少中少中中多
网页次数
多中少中少中多多
Start） and REFD_DT <= dateadd（day，0，@REFD_DT_
End） order by r.REFD_OIL_SERIAL asc ； open Refuel_cursor ； fetch from Refuel_cursor into @DT_prev，@ttc_prev
insert into @LossedTTCList s e l e c t @ R E F D _ S TAT I O N _ I D ， @ R E F D _ OILNOZZLE_ID，@DT_prev，@DT_curr，@ttc ； end ；
Keywords ：operator; user behavior; user experience; precision marketing
0 引言
运营商之间竞争愈发激烈，盲目的进行市场营销不仅成功率较低，而且浪费了大量的人力、物力资源，更有甚者会给用户带来负面感知，导致用户转网。同时运营商拥有海量的用户级数据，如何将用户数据深入分析，进而支撑市场营销及网络资源投放，成为运营商之间市场竞争的关键。
作者简介：苏进（1971-），男，汉族，安徽庐江人，工程师，研究生，研究方向为数据挖掘。
127 数字通信世GITCW 分析 Technology Analysis
的簇中。③初始 K 个簇划分完成后，计算 K 个簇中所有样本点的坐标平均值，更新每个簇的簇中心。④重新按照②、③中的方法，将原始样本点进行簇划分，并且重新计算新的簇中心。直到新的簇中心与上一次的簇中心之间的距离不再变化，或者小于某个给定值，则聚类过程结束。
标准化方法最常用的有两种：第一种：min-max 标准化（离差标准化）：对原始数据进行线性变换，是结果落到 [0，1] 区间，转换方法为 X'=（X-min）/（max-min），其中 max 为样本数据最大值， min 为样本数据最小值。第二种：z-score 标准化（标准差标准化）：处理后的数据符合标准正态分布（均值为 0，方差为 1），转换公式：X 减去均值，再除以标准差。
无
cluster_0
提升用户服务等级
赠送游戏类权益
无
网络资源优先倾向该类用户，提升用户感知，
cluster_4
提升用户服务等级
赠送游戏类权益
无
网络资源优先倾向该类用户，提升用户感知，
降低用户服务
cluster_7
等级
无
无
无
cluster_5
无
无
引导用户提高套餐水平
无
cluster_6
无
赠送语音类权益
看看聚成的这一类大概有什么特点。聚类是数据挖掘中使用较广泛的算法之一，可用来从海量的样本点中挖掘出一些深层信息，基于每一类的特点，可将注意力放在自己关注的特征上做进一步的分析。聚类分析是通过挖掘样本点之间的关系进而达到数据分组的目的，组内的样本点相似性越强，组间差异化越大，聚类效果越好。本文将采用聚类分析中最广泛使用的算法 K-Means，将 XX 局点 500 万 + 用户进行聚类，并针对每一类的特点进行总结，进而支撑市场营销及网络资源投放。
根据上述 K-Means 算法过程，我们在应用 K-Means 算法之前需确定几个关键点：距离如何计算；K 值如何确定各维度单位如何换算。
（1）距离如何计算：K-Means 算法中要迭代进行每个点到聚类中心的距离，距离的计算一般有图 1 两种方法：
针对 XX 局点 550 万 + 用户通过特征选取，异常数据筛除后，应用 K-Means 聚类分析方法进行全量用户分析，对原始数据本文采用 min-max 标准化方法进行线性变换，同时选取欧几里德距离作为距离依据，选择 K=8时，分群结果如图 2 所示：
图1 距离的计算方法
（2）K 值如何确定：K 值得取值不是固定的，一般是根据聚类的结果，评估是否满足业务分析的目的，可尝试多个 K 值，聚类的结果通过实践验证最优 K 值，或者可以把各种 K 值算出的 SSE 做比较，取最小的 SSE 的 K 值。
（3）各维度的单位必须要一致：如果 K-Means 聚类中选择欧几里德距离计算距离，数据集一定要进行数据的标准化（normalization），即将数据按比例缩放，使之落入一个特定区间内。[2] 去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行计算和比较。
120）as REFD_DT，r.REFD_OIL_SERIAL
FROM GSS_REFUEL_DETAIL r
where r.REFD_STATION_ID=@REFD_STATION_ID
and r.REFD_OILNOZZLE_ID = @REFD_
OILNOZZLE_ID and r.REFD_DT >= dateadd（day，0，@REFD_DT_
2 用户分群分析结果
选取用户消费特征、用户行为以及用户感知共 11 类特征，作为本次进行分群的特征向量，用户样例如表 1 所示：
表1 用户样例
图2 分群结果
根据用户分群结果，针对不同特征聚类的用户结合
市场营销方案，更易于提高营销成功率，同时可识别出
高价值低感知用户进而投入更多的网络资源，比如当
K=8 为时，cluster_3 用户喜欢投诉，爱好浏览网页，游