【CN109829018A】一种基于深度学习的移动客户超细分方法【专利】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

产生,其中
fan_in为权重张量的输入单元数,fan_out为权重
张量的输出单元数; [0019] S43、编译自动编码器模型 [0020] 优化器采用随机梯度下降法,学习率设为0 .01,支持动量参数设为0 .9,损失函数 采用交叉熵损失函数; [0021] S44、训练自动编码器模型 [0022] 训练模型1000轮或当损失值小于0 .1时停止训练,保存模型的权重值,获得输入数 据的低维向量表示。 [0023] 在步骤S5中,所述层次聚类模型的构建过程如下: [0024] S51、获取自动编码器输出的移动客户数据的低维向量表示; [0025] S52、将每个移动客户样本作为一个单独的簇; [0026] S53、基于两个簇所有样本数据点间的平均距离,合并两个距离最小的簇; [0027] S54、更新客户样本的距离矩阵; [0028] S55、重复步骤S52到S54,直到所有样本都属于同一个簇为止,最终生成一张树形 图; [0029] S56、根据生成的树形图,选择所需划分簇的个数k。 [0030] 在步骤S5中,所述聚类效果的定义如下: [0031] 计算每次聚类的Calinski-Harabasz分数值 ,分数值越大 ,则聚类效果越好 ; Calinski-Harabasz分数值的数学计算公式如下:
户超细分方法,包括步骤:S1、对移动用户的基础 数据和消费行为数据进行预处理 ;S2、针对消费 行为特征,统计第一用户集( 这类移动用户拥有 大于或等于t个 月的消费行为数据 )中每个用户 的该特征的t个 月数据的平均值等作为该特征的 统计特征;S3、将处理后的两类特征拼接,作为特 征向量;S4、构建自动编码器,获得特征向量的低 维向量表示;S5、构建层次聚类模型,进行层次聚 类 ;S6、对于第二用户集( 这类移动用户拥有小于 t个 月的 消费行为数据 ),通过计算与聚类后各簇 心的距离获得相应的细分类别。本发明可以对大 规模移动客 户数据实现快速细分 ,根据客 户细分 结果 ,可以针对性地进行套餐推荐等个性化服 务。
训练模型1000轮或当损失值小于0 .1时停止训练,保存模型的权重值,获得输入数据的 低维向量表示。
5 .根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于,在步 骤S5中,所述层次聚类模型的构建过程如下:
S51、获取自动编码器输出的移动客户数据的低维向量表示; S52、将每个移动客户样本作为一个单独的簇; S53、基于两个簇所有样本数据点间的平均距离,合并两个距离最小的簇; S54、更新客 户样本的距离矩阵 ; S55、重复步骤S52到S54 ,直到所有样本都属于同一个簇为止 ,最终生成一张树形图 ; S56、根据生成的树形图 ,选择所需划分簇的个数k。 6 .根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于,在步 骤S5中,所述聚类效果的定义如下: 计算每次聚类的Calinski-Harabasz分数值,分数值越大,则聚类效果越好;CalinskiHarabasz分数值的数学计算公式如下:
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910078950 .9
(22)申请日 2019 .01 .28
(71)申请人 华南理工大学 地址 510640 广东省广州市天河区五山路 381号 申请人 中国移动通信集团广西有限公司
(72)发明人 胡金龙 曹丽洁 杨疆 黄敏杰 雷蕾 王睿 苏良良 刘南海 冯静芳 董守斌
生 ,其中
fan_in为权重张量的 输入单元数 ,fan_out为权重
张量的输出单元数; S43、编译自动编码器模型 优化器采用随机梯度下降法,学习率设为0 .01,支持动量参数设为0 .9,损失函数采用
交叉熵损失函数; S44、训练自动编码器模型
2
CN 109829018 A
权 利 要 求 书
2/2 页
[0032]
[0033] 式中,N为训练样本数,k为簇的个数,Bk为类别之间的协方差矩阵,Wk为类别内部数 据的协方差矩阵 ,Tr为矩阵的迹。 [0034] 在步骤S6中,所述簇心的基础特征向量通过计算该簇所有用户的各基础特征数据
(74)专利代理机构 广州市华学知识产权代理有 限公司 44245
代理人 冯炳辉
(51)Int .Cl . G06F 16/28(2019 .01)
(10)申请公布号 CN 109829018 A (43)申请公布日 2019.05.31
( 54 )发明 名称 一种基于深度学习的移动客户超细分方法
( 57 )摘要 本发明公开了一种基于深度学习的移动客
3
CN 109829018 A
说 明 书
1/4 页
一种基于深度学习的移动客户超细分方法
技术领域 [0001] 本发明涉及数据处理的技术领域,尤其是指一种基于深度学习的移动客户超细分 方法。
背景技术 [0002] 随着人民生活水平提高,移动互联网普及,移动客户的规模也在不断增大。随着移 动客 户群的 多样化 ,不同 客 户群所需要的 服务需求也不尽相同 。为了能更 加个性化地为 用 户提供服务,推送套餐等优惠信息,需要对庞大的客户群进行客户细分,分析不同客户群的 消费行为特征。 [0003] 移动客户发送短信、通话、使用移动流量等消费行为产生了大量消费行为数据。用 户的消费行为,一定程度上体现了用户的消费习惯、消费类型偏好等,通过细分出不同的消 费类型群体,可以对用户的消费行为进行挖掘。然而,传统的机器学习方法难以适应海量的 高维数据。
式中 ,N为训练样本数 ,k为簇的个数 ,Bk为类别之间的协方差矩阵 ,Wk为类别内部数据的 协方差矩阵 ,Tr为矩阵的迹。
7 .根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于:在步 骤S6中 ,所述簇心的 基础特征向 量通过计算该簇所有 用户的 各基础特征数据的 平均值得 到;所述簇心的消费行为特征向量通过计算该簇所有用户的各消费行为特征数据的平均值 得到。
权利要求书2页 说明书4页 附图1页
CN 109829018 A
CN 109829018 A
权 利 要 求 书
1/2 页
1 .一种基于深度学习的移动客户超细分方法,其特征在于,包括以下步骤: S1、收集移动 用户的基础数据和消费行为数据 ,对数据进行预处理 ,其中基础数据包括 性别和年龄区间; S2、针对 消费行为特征 ,包括“短 信条数”、“通话时 长”,统计第一 用户集中每个 用户的 该特征的t个 月数据的平均值、标准差、最大值、最小值和极差作为该特征的统计特征 ;所述 第一用户集为拥有大于或等于t个月的消费行为数据的移动用户; S3、将处理后的基础特征和消费行为的统计特征拼接,作为特征向量; S4、构建自动编码器,将特征向量输入自动编码器,获得数据的低维向量表示; S5、构建层次聚类模型,输入低维向量表示,进行层次聚类,以实现对客户细分;当聚类 效果不好时,重新训练自动编码器,获得新的向量表示,再输入层次聚类模型进行聚类; S6、计算聚类后每个簇的簇心,获得簇心的基础特征向量和消费行为特征向量,拼接后 得到拼接特征向量,输入第二用户集的基础特征向量和消费行为特征向量拼接后得到的拼 接特征向 量 ,计算该拼接特征向 量与每个簇心的 拼接特征向 量的欧式 距离 ,距离最近的 簇 心所在簇的类别即为该 用户的 细分类别 ;所述第二 用户集为拥有小于t个 月的 消费行为数 据的移动用户。 2 .根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于:在步 骤S1中,对数据进行预处理包括去除异常字段、填补缺失值和特征离散化。 3 .根据权利要求2所述的一种基于深度学习的移动客户超细分方法,其特征在于:所述 异常字段包括取值全为0、逻辑有误的 字段 ;用特征数据的 平均值填补缺失值 ;将连续性特 征划分区间,离散化为0,1,2。 4 .根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于:在步 骤S4中 ,所述自 动编码器由 编码器和解码器构成 ;所述编码器将输入数据压缩成低维特征 向 量 ,所述解码器负责将压缩的 输入特征重构得到原始输入数据 ;所述编码器与解码器的 神经网络层呈对称关系;所述自动编码器的构建过程如下: S41、构建编码器和解码器 编码器由 4层神经网络层组成 ,第一层输入层 ,神经元数量为输入向 量的维 度 ,第二层 全连接层,神经元数量为512,激活函数为‘tanh’,第三层全连接层,神经元数量设为512,激 活函数为‘tanh’,第四层全连接层,神经元数量设为256,激活函数为‘tanh’,中间层为表示 层,神经元数量为16,激活函数为‘tanh’;解码器由4层神经网络层,每层全连接层的神经元 数量分别为256、512、512,输入向量的维度,激活函数为‘tanh’; S42、自动编码器参数初始化 神经网络层的权重采用均匀分布初始化方法,参数从[-limit ,limit]的均匀分布产
4
CN 109829018 A
ቤተ መጻሕፍቲ ባይዱ
说 明 书
2/4 页
[0013] 所述异常字段包括取值全为0、逻辑有误的字段;用特征数据的平均值填补缺失 值;将连续性特征划分区间,离散化为0,1,2。 [0014] 在步骤S4中,所述自动编码器由编码器和解码器构成;所述编码器将输入数据压 缩成 低维特征向 量 ,所述解码器负责将压缩的 输入特征重构得到原始输入数据 ;所述编码 器与解码器的神经网络层呈对称关系;所述自动编码器的构建过程如下: [0015] S41、构建编码器和解码器 [0016] 编码器由4层神经网络层组成,第一层输入层,神经元数量为输入向量的维度,第 二 层全连接层 ,神经元数量为51 2 ,激活函数为‘ta nh’,第三 层全连接层 ,神经元数量设为 512,激活函数为‘tanh’,第四层全连接层,神经元数量设为256,激活函数为‘tanh’,中间层 为表示层,神经元数量为16,激活函数为‘tanh’;解码器由4层神经网络层,每层全连接层的 神经元数量分别为256、512、512,输入向量的维度,激活函数为‘tanh’; [0017] S42、自动编码器参数初始化 [0018] 神经网络层的权重采用均匀分布初始化方法,参数从[-limit ,limit]的均匀分布
发明内容 [0004] 本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度学习的移动 客户超细分方法,可以对大规模移动客户数据实现快速细分,并且根据客户细分结果,可以 针对性地进行套餐推荐等个性化服务。 [0005] 为实现上述目的,本发明所提供的技术方案为:一种基于深度学习的移动客户超 细分方法,包括以下步骤: [0006] S1、收集移动用户的基础数据和消费行为数据,对数据进行预处理,其中基础数据 包括性别和年龄区间; [0007] S2、针对消费行为特征,包括“短信条数”、“通话时长”,统计第一用户集中每个用 户的该特征的t个 月数据的平均值、标准差、最大值、最小值和极差作为该特征的统计特征 ; 所述第一用户集为拥有大于或等于t个月的消费行为数据的移动用户; [0008] S3、将处理后的基础特征和消费行为的统计特征拼接,作为特征向量; [0009] S4、构建自动编码器,将特征向量输入自动编码器,获得数据的低维向量表示; [0010] S5、构建层次聚类模型,输入低维向量表示,进行层次聚类,以实现对客户细分;当 聚类效果不好时 ,重新 训练自 动编码器 ,获得新的向 量表示 ,再输入层次聚类模型进行聚 类; [0011] S6、计算聚类后每个簇的簇心,获得簇心的基础特征向量和消费行为特征向量,拼 接后得到拼接特征向量,输入第二用户集的基础特征向量和消费行为特征向量拼接后得到 的 拼接特征向 量 ,计算该拼接特征向 量与每个簇心的 拼接特征向 量的欧式 距离 ,距离最近 的簇心所在簇的类别即为该 用户的 细分类别 ;所述第二 用户集为拥有小于t个 月的 消费行 为数据的移动用户。 [0012] 在步骤S1中,对数据进行预处理包括去除异常字段、填补缺失值和特征离散化。
相关文档
最新文档