家庭关系识别模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

定义正样本
圈定目标用户中属 于同一家庭短号网 的号码,作为正样 本
筛选建模指标
归纳与家庭关系有 关的特征 建立宽表抽取数据, 并做数据质量检查。
识别家庭关系
筛选参与建模的指 标,采用逻辑回归 算法计算每个指标 的权重
圈定目标用户中不 属于同一家庭短号 网的号码,作为负 样本
从总体数据中抽取 样本,然后根据样 本探索每个指标的 IV值、分箱数据在 的正负样本占比趋 势等,筛选出可以 用来建模的指标
二类地市:
偏度极大的指标处理。
12
家庭关系识别模型——数据探索
数据探索主要包括下面3个步骤:
数据特征探索
① 对每个指标进行分箱(等频 分箱) ② 计算每个分箱内的正、负样 本数,及箱内正样本占比。 ③ 计算指标的IV值。
指标相关性检查
选取入模指标
1
① 计算所有指标的相关系数矩 阵 ② 若两个指标间相关性大于0.8,
序号 中文名 指标名 序号 中文名 指标名
10
家庭关系识别模型——数据质量检查
数据质量检查主要包括缺失值检查和异常值处理
一类地市
字段名
完整数据检查结果
缺失值数 缺失比 原因分析 量 例
一类地市包括广州、深圳、 东莞、佛山。 数据时间:201704月。 共计 xxx个号码对。
缺 失 值 检 查
二三类地市
用整体目标用户 检验模型效果
17
1、项目背景及思路
2、家庭关系识别模型 3、家庭单元生成 4、家庭单元属性标签
18
家庭关系识别模型——家庭单元的生成
家庭单元构建——家庭单元拓扑结构 根据匹配的家庭关系,分别确定2人家庭、3人家庭、4人家庭的拓扑结构如下。
有效结构
2人家庭拓扑结构
A B
无效结构
ABC ABF ACF BCF
AB BC CD DF
BD BE BF AE
20
……
家庭关系识别模型——家庭单元剔除重复号码
家庭单元的号码重复存在两种情况
1
不同单元包含共同号码
存在两个家庭单元: ABC ADE
计算A B、 A C、 B C的 家庭关系概率和为 sum_family1 计算A D、 A E、 D E的 家庭关系概率和为 sum_family2
1、项目背景及思路
2、家庭关系识别模型 3、家庭单元生成 4、家庭单元属性标签
6
家庭关系识别模型——整体思路
Step 1
Step 2
Step 3
Step 4
圈定目标用户
以所有在网用户作 为用户群A 圈定用户群A中属 于同一常住小区的 作为用户群B 圈定用户群B中当 月存在通话的作为 目标用户
2
根据前两步的结果,结合实际业 务选择参与建模的指标。
3
剔除IV值较小的那个
③ 相关性在0.4-0.8之间的指标, 根据实际业务选择性保留
什么是好的数据指标?
1、IV值较高;
2、各个分箱中的箱内正样本占比呈现一
定规律性(递增、递减等)。
例如右图:
13
家庭关系识别模型——相关性检查(一类地市)
相关性检查的步骤: 将数值型指标和 分类型指标汇总
根据指标的权重, 计算总体数据中, 每个号码对之间存 在家庭关系的概率 根据模型效果和实 际需求,选取存在 家庭关系的号码对。
7
家庭关系识别模型——方案设计
从6个维度来识别号码对之间是否存在家庭关系
身份信息
• • 是否同一籍贯 。。。
付费关系
• • 是否存在代付关系 。。。
位置关系
• • • 基站重合度 周末基站重合 天数 。。。 • •
A与B存在 家庭关系
A
B
A
B
3人家庭拓扑结构
C
A与B存在家庭关系 A与C存在家庭关系 B与C存在家庭关系
C
B
4人家庭拓扑结构
A
D至少与A\B\C中的2 个人存在家庭关系, A\B\C\D才构成一个4 人家庭
D
B A
D C
C
B
F A
B
5人家庭拓扑结构
A
F
D C C D
19
家庭关系识别模型——家庭单元反向剔除
字段名
完整数据检查结果
二三类地市为广东省其它所有 地市。 数据时间:201704月。 共计xxx个号码对。
缺失值数 缺失比例 原因分析 量
11
家庭关系识别模型——数据质量检查
数据质量检查主要包括缺失值检查和异常值处理
不符合数据类型的异常值处理。例如: 异常值处理结果: 一类地市:
异 常 值
极大值处理。
利用 位置数据、客户资料等数据挖 掘家庭关系间的规则,识别用户间的 家庭关系
01
02
SECOND
step 家庭单元构建
基于家庭关系识别模型的结果,通过关系递推的方式实现
家庭单元的拓扑构建。
THIRD
step 家庭单元属性标签构建
03
5
为了支撑家庭产品营销体系的构建,
以识别的家庭单元为整体,构建属 性标签。
• • 新增用户速度变缓,通信市场由增 量经营进入存量经营。 智能手机广泛普及,使得移动卡仅 仅作为“流量管道商”,这样使得 用户对移动的粘性下降,被替换风 险高。

3
项目背景——家庭市场互联网化进程“三阶段”
家庭市场运营是通信市场发展的趋势 Βιβλιοθήκη Baidu020
2010
市场逐渐成熟,促使家 庭市场“能互联” 如家居智能中心、家庭 信息中心、家庭娱乐中 心、家庭商务中心等
• • •
成员使用最多的终端品牌 双卡成员数量 非双卡成员数量
终端 偏好
成员基本属性
• • • • •
视频类偏好成员数量 音乐类偏好成员数量 阅读类偏好成员数量 游戏类偏好成员数量 社交类偏好成员数量
• • • • •
商务人士人数 校园学生人数 外来工人数 个体户人数 工薪阶层人数
五大客户群属性
通信特征
家宽模型分析汇报
PS:所有敏感数据均已删除,剩 下PPT主要保留个人观点部分
1、项目背景及思路
2、家庭关系识别模型 3、家庭单元生成 4、家庭单元属性标签
2
项目背景——家庭市场的优势 传统市场
传统产品营销
• • • • • • 主套餐 流量包 语音包 增值业务 彩铃 …
营销利润比较依 赖用户的增长
VS
家庭市场
家庭单元的营销
• 家庭网产品 • 家庭宽带/极光宽带 • 万能副卡
VS
机遇与优势
• 各个年龄层的网民渗透率都已经达 到了较高水平。尤其是50岁以上的 网民用户。形成了构建家庭网络的 基础 家庭产品周期长、价值高,并且用 户间已经形成了依托于移动号码的 网络,换号成本大,用户粘性高。
面临的问题
sum_family1 >= sum_family2
保留 A B C
比较 sum_family1 和 sum_family2 的大小 保留 A D E
sum_family1< sum_family2
21
家庭关系识别模型——家庭单元剔除重复号码
家庭单元的号码重复存在两种情况
2
同一个家庭单元有多种排列
若一个号码出现在5人家庭单元中,则该号码要从4、3、2人家庭单元剔除。
4人家庭单元按同样的递归过程进行剔除
B A F
4人家庭
D C
5人家庭
ABCDF
ABCD ABCF ABDF ACDF BCDF
3人家庭
2人家庭
ABC ABD ACD BCD
……
剔除强相关指标 生成相关系系数 矩阵 • • • 只需对数值型 变量做相关性 检查 使用R脚本计 算相关系数矩 阵 相关系数超过 0.8的指标,保 留IV值较大的
相关系数0.4-0.8 间的指标,根据 业务选择性保留

相关性剔除结果为:
一类地市: 二类地市:
14
家庭关系识别模型——选取入模指标
通过前面特征探索及相关性检查后,选取最后用来建模的指标 一类地市建模指标 二类地市建模指标
完整字段可参考:
• • • • • • • •
ARPU均值 DOU均值 流量包总订购数 套外总流量 夜间DOU均值 饱和度80%以上人数 订购家庭网的成员数量 是否已经订购家宽
24
谢 谢!
25
4人家庭
ABCD ABDC BACD BADC BBCD ……
求A+B+C+D和
用 qualify函数,和相同的家庭单元, 只保留一条记录。
qualify row_number() over (partition by sum_family order by a_usr_nbr) = 1
订购关系
是否办理万能 副卡 是否办理流量 转赠
通信关系
• • • 通话次数 通话时长 。。。

终端使用
近1年内是否 使用同一终端
8
家庭关系识别模型——数据准备
构建家庭关系识别数据宽表(一)——宽表一共64个字段
序号 中文名 指标名 序号 中文名 指标名
9
家庭关系识别模型——数据准备
构建家庭关系识别数据宽表(二)
15
家庭关系识别模型——选取入模指标
通过前面特征探索及相关性检查后,选取最后用来建模的指标 二类地市建模指标 二类地市建模指标
16
家庭关系识别模型——模型构建
构建模型 抽取样本数据: 同住一个小区,且当月存在 家庭关系的号码对。 抽取数量:XX 正样本:属于同一家庭网 负样本:不属于同一家庭网 1 模型算法: 逻辑回归模型
2000
多终端、多业务推动家 庭市场“能网络” 业务应用多样化,如高 清视频、音乐点播、在 线游戏、家居安防等
电脑快速普及推动家庭 用户“能上网” 产品和服务多以基础类 为主,如家庭固话、家 庭宽带、电脑等
4
项目分析思路
背景:以家宽业务为驱动,构建家庭产品营销体系
FIRST
step 家庭关 系识别
3 建立逻辑回归概率模型 未 通 过 验 证 用测试集检验模型效果 4 未 通 过 验 证
测试集客户群 2
通 过 验 证
号码A
号码B 15XXXX 15XXXX 13XXXX
按概率排序
13XXXX 15XXXX 13XXXX
存在家庭 关系概率 p1 p2 p2
通过验证
得到全体目标用户的模型效果
7
得到全体目标用户的 家庭关系概率情况 6 5
22
1、项目背景及思路
2、家庭关系识别模型 3、家庭单元生成 4、家庭单元属性标签
23
家庭关系识别模型——构建家庭单元属性标签
为了支撑更精准的家庭单元营销,需要对家庭单元的构建一个属性标签,用来区分不同类型的家庭单元
• • • • • •
家庭成员数 家庭平均年龄 家庭年龄结构 青幼年人数 中年人人数 老年人人数
相关文档
最新文档