用户社交属性判别模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
用户社交属性判别模型
产业市场研究所
1
研究目标和意义
对用户的交往、移动轨迹等使用社会网络分析相关分析方法进行 建模,判别用户间各类交往关系,如家庭、同事等。
OD稳定点发现
关系群体社会网络
动态移动轨迹
•提升目标客户群 体圈定的准确率 和效率 •丰满客户画像 •了解客户分布, 定位商务区、居 民区、流动性大 产业市场研究所 区域
产业市场研究所 4
OD识别
识别效果: 共有400000多位用户,其中识别 380000位用户OD,识别率约为 95%。 其他12000多位用户由于位置暴 露信息过少无法识别,8000多用户 O和D只能识别其一。
OD发现朴素算法
阶段三:OD提取(时间+空间优化)
出现频率大的基站区频繁度得到增强 出现次数下限大的基站区频繁度得到 增强 周期性规律更显著的基站区得到突出
阶段六:计算关系
利用分类器,对用户的关系进行 分类
阶段七:计算群组
根据得到的关系,可以将用户聚 集成组,形成家庭和同事群体
产业市场研究所
7
模型识别效果测试
模块 OD识别 关系识别 性能效果 共有400000多位用户,其中识别380000位用户OD,识别 率约为95% 模型测试:家庭识别精度81%,同事识别精度73% 实际外呼测试:家庭识别精度75%,同事识别精度65%
•提升家庭、集团 客户营销精准度 •针对性制定竞争 策略 •加强核心客户维 系和粘性价值 •利用群体影响力 拓展营销市场
•掌握用户群体出 行规律,强化广 告投放、业务营 销策略 •拓展信息化服务 业务产品
2
研究方法
使用河南济源三个月(2010.07-09)数据进行研究。
地图直观展示用户稳定点和关系分布,动态显示用户群 行为轨迹,可作为营销参考依据,并支持灵活扩展配置。 1)OD发现/轨迹分析:分析基站数据得到用户移动轨 迹的时间和空间规律,可判定用户的OD稳定点,有助 于描述用户行为模式和关系特征; 2)特征提取:提取样本OD、通话频次、交往规律等 用户行为特征,作为关系分类判别的依据; 3)关系分类:基于特征建立不同关系分类训练器,计 算不同关系和社群聚类,作为社会关系网络基础。 从数据仓库中读取源数据,校验数据的完整性,去除冗 余和具有明显错误的数据。
阶段四:产生训练集
使用已知集团用户或家庭用户关 系的其中一方除已知关系外的所 有关系作为反例。 可通过配置文件定义训练集规模
阶段五:训练分类器
主要使用用户间通话属性、交往 圈重合、OD来进行分类
产业市场研究所 6
关系识别
识别效果: 识别出882178个家庭关系, 2147524个同事关系; 形成了10948个家庭,每个家庭 的人数平均为5; 形成了4743个集团,每个集团的 人数平均为13。
以Googlemap方式展示 家庭、同事、朋友等不同关系 群体分类查询,静态显示住所 和工作地稳定点。 列表给出查询用户附近同类群 体成员信息,可直接点击查看 静态分布。 设定时间段,动态播放该关系 群体的动态轨迹分布,有助于 了解不同群体用户移动出行规 律以及消费特征。 聚类展示该区域集中的居民区 和商务区; 利用热度图展示用户密度分布
产业市场研究所
9
可视化示意
B)某家庭群体稳 定点分布
C)某集团群体 成员信息
A)基站分 布图
D)某家庭群体 动态行为轨迹
F)聚类展示居民 区和工作区 产业市场研究所
E)用户分布密度
10
wenku.baidu.com
包括用户个人通话行为、用户交往圈以及用户移动轨迹, 首次引入不同时段的位置信息,提升关系识别精准度。
产业市场研究所
3
数据标准化处理校验
配置文件
数据结构
阶段一:接口检测
检测配置文件,读取数据访问权限
阶段二:数据校验
检测表结构,清洗数据 检查实体完整性和参照完整性
运行状态检测
检测模型运行状态,运行提示
群组发现
形成了10948个家庭,每个家庭的人数平均为5; 形成了4743个集团,每个集团的人数平均为13
OD切换时间服从正态分布,与日常规律一致
产业市场研究所
不同关系群体与亲密指数分布符合常态规律
8
关系识别可视化
结合地图信息,提供了可展示不同用户社群关系归属、OD稳定点、动态移动轨迹、 OD分布和用户密度分布的可视化Web页面,可更加直观和便捷地圈定和查询家 庭集团客户,有助于市场拓展应用和精准营销。
-解决了数据非实时,数据稀缺的问题 -仍有不足,需要利用时空规律进行改进
空间规律利用
-OD同时被多个基站覆盖,数据分散 -需要进行合并
时间规律利用
-手机行为随机,不能只用次数作为频繁度刻画 -需要用行为的周期性规律对次数做修正 产业市场研究所 5
关系分类
分类效果: 引入交叉验证功能,家庭识别精 度81%,同事识别精度73%。 正在优化训练样本特征提取,逐 步结果调优。
相关文档
最新文档