基于主题模型的用户手机日志数据分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 未来方向: 1)完善手机应用标签库(可能需人工干预) 2)结合用户其他维度信息,改造LDA的贝叶斯网 3)想出一套标准,可以评价主题模型分析结果的优劣
最多
气泡图可视化
简单的推荐系统
应用标签数据
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
用户兴趣分布
聚类
可视化模块
人群兴趣分布
简单的推荐系统
• 思路:基于用户相似度的协同过滤。 • 方法:对于某一个待推荐的用户,找到训练集中与他相似
主题3 生活服务 综合服务 购物理财 购物支付 学习阅读
主题4 游戏 创意休闲 益智棋牌 体育竞速 动作射击
主题5 社交通信 汉化软件 即时通讯 通信聊天 社交网络
聚类及可视化
应用标签数据
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
用户兴趣分布
聚类
可视化模块
人群兴趣分布
主题模型
• 什么是主题?
主题模型
• Latent Sematic Analysis • SVD分解
主题模型
• Probabilistic Latent Sematic Analysis
3.524 4.497
79.376
主题4 3.623 6.404
8.106 6.018
33.62
主题5 5.231 4.509
31.958 4.289
34.397
特征分析 尤其喜欢生活类 各类主题安装数 量相差不大,游
戏类稍多 尤其喜欢社交通
讯类 工具类、通讯类 应用相对多于其
他类 对各类应用都很 感兴趣,工具和 通讯类应用安装
基于主题模型的 用户手机日志数据分析
• 内容简介 • 主要工作及结果 • 总结展望
内容简介
主要工作
应用标签数据
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
ຫໍສະໝຸດ Baidu
用户兴趣分布
聚类
可视化模块
人群兴趣分布
数据预处理
应用标签数据
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
用户兴趣分布
聚类
可视化模块
人群兴趣分布
Bag-of-words
• 语料库(Corpus)中共有两篇文档(Documents)
• John likes to watch movies. Mary likes movies too. • John also likes to watch football games.
原始数据
• 手机用户安装的应用列表
字段名 user_id app_id_list date
说明 用户id 用户已安装的应用id列表 日期
• 手机应用对应的标签列表
字段名 app_id label_id_list
说明 应用id 应用对应的标签id列表
获取 Bag-of-labels
用户特征分析
应用标签数据
• 变分推导(Variational Inference) • 采样(Sampling Methods)
• 我的实现:基于Gibbs Sampling
LDA结果
用户1 用户2 用户3 用户4 用户5
主题1 6.978 3.318 0.521 5.470 0.762
主题2 0.527 0.532 0.518 0.528 10.070
度最高的前K个用户,然后进行推荐。
• 两个推荐系统的不同之处仅在于用户相似度计算方法 • 推荐系统1:利用用户安装列表直接计算相似度
• 推荐系统2:利用用户的主题分布计算相似度
推荐系统准确率对比
准确率
0.5 0.49 0.48 0.47 0.46 0.45 0.44 0.43 0.42 0.41
K=5
用户兴趣分布
聚类
可视化模块
人群兴趣分布
K-means聚类
人群1 人群2
人群3 人群4
人群5
人数 3055 12263
1617 4164
196
主题1 8.259 3.282
5.342 16.511
60.137
主题2 7.223 4.168
7.904 9.526
42.081
主题3 23.154 2.799
• 参数估计方法:EM算法 • PLSA优点:有统计基础,能比LSA更好地提取文章特征。 • PLSA缺点:对于训练集以外的文章,难以给出一个主题分
布。
主题模型
• Latent Dirichlet Allocation
LDA
• 在PLSA的基础上增加了先验,可以对训练 集以外的文本进行推断
• LDA参数估计方法分两类:
• 构建单词库(Vocabulary)
id 0 1 2 3 4 5 6 7 8 9
• 得到bag-of-words表示
• [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] • [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
too Mary games football also movies watch to likes John word
主题3 0.557 0.559 16.506 2.668 0.833
主题4 4.577 14.663 0.518 4.527 4.489
主题5 0.911 1.518 1.526 20.394 8.434
主题1 手机工具 系统工具 社交通信 通信聊天 即时通讯
主题2 多媒体 音乐视频 视频播放 音乐音频 摄影美化
K=10
K=20 直接推荐
K=40 使用LDA
K=80
K=160
K=320
结论:使用了LDA以后,用户相似度的计算更加准确,因此LDA 可以更好地提取用户的特征。
总结展望
• 完成了用主题模型对手机日志数据进行分析的一种方法: 1)用主题模型对用户数据进行分析 2)利用分析结果进行聚类和人群可视化 3)利用分析结果进行应用推荐
最多
气泡图可视化
简单的推荐系统
应用标签数据
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
用户兴趣分布
聚类
可视化模块
人群兴趣分布
简单的推荐系统
• 思路:基于用户相似度的协同过滤。 • 方法:对于某一个待推荐的用户,找到训练集中与他相似
主题3 生活服务 综合服务 购物理财 购物支付 学习阅读
主题4 游戏 创意休闲 益智棋牌 体育竞速 动作射击
主题5 社交通信 汉化软件 即时通讯 通信聊天 社交网络
聚类及可视化
应用标签数据
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
用户兴趣分布
聚类
可视化模块
人群兴趣分布
主题模型
• 什么是主题?
主题模型
• Latent Sematic Analysis • SVD分解
主题模型
• Probabilistic Latent Sematic Analysis
3.524 4.497
79.376
主题4 3.623 6.404
8.106 6.018
33.62
主题5 5.231 4.509
31.958 4.289
34.397
特征分析 尤其喜欢生活类 各类主题安装数 量相差不大,游
戏类稍多 尤其喜欢社交通
讯类 工具类、通讯类 应用相对多于其
他类 对各类应用都很 感兴趣,工具和 通讯类应用安装
基于主题模型的 用户手机日志数据分析
• 内容简介 • 主要工作及结果 • 总结展望
内容简介
主要工作
应用标签数据
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
ຫໍສະໝຸດ Baidu
用户兴趣分布
聚类
可视化模块
人群兴趣分布
数据预处理
应用标签数据
转换
用户日志数据
预处理
Bag-of-apps
Bag-of-labels
推荐系统1
对比结果
主题模型
推荐系统2
计算用户相似 度
用户兴趣分布
聚类
可视化模块
人群兴趣分布
Bag-of-words
• 语料库(Corpus)中共有两篇文档(Documents)
• John likes to watch movies. Mary likes movies too. • John also likes to watch football games.
原始数据
• 手机用户安装的应用列表
字段名 user_id app_id_list date
说明 用户id 用户已安装的应用id列表 日期
• 手机应用对应的标签列表
字段名 app_id label_id_list
说明 应用id 应用对应的标签id列表
获取 Bag-of-labels
用户特征分析
应用标签数据
• 变分推导(Variational Inference) • 采样(Sampling Methods)
• 我的实现:基于Gibbs Sampling
LDA结果
用户1 用户2 用户3 用户4 用户5
主题1 6.978 3.318 0.521 5.470 0.762
主题2 0.527 0.532 0.518 0.528 10.070
度最高的前K个用户,然后进行推荐。
• 两个推荐系统的不同之处仅在于用户相似度计算方法 • 推荐系统1:利用用户安装列表直接计算相似度
• 推荐系统2:利用用户的主题分布计算相似度
推荐系统准确率对比
准确率
0.5 0.49 0.48 0.47 0.46 0.45 0.44 0.43 0.42 0.41
K=5
用户兴趣分布
聚类
可视化模块
人群兴趣分布
K-means聚类
人群1 人群2
人群3 人群4
人群5
人数 3055 12263
1617 4164
196
主题1 8.259 3.282
5.342 16.511
60.137
主题2 7.223 4.168
7.904 9.526
42.081
主题3 23.154 2.799
• 参数估计方法:EM算法 • PLSA优点:有统计基础,能比LSA更好地提取文章特征。 • PLSA缺点:对于训练集以外的文章,难以给出一个主题分
布。
主题模型
• Latent Dirichlet Allocation
LDA
• 在PLSA的基础上增加了先验,可以对训练 集以外的文本进行推断
• LDA参数估计方法分两类:
• 构建单词库(Vocabulary)
id 0 1 2 3 4 5 6 7 8 9
• 得到bag-of-words表示
• [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] • [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
too Mary games football also movies watch to likes John word
主题3 0.557 0.559 16.506 2.668 0.833
主题4 4.577 14.663 0.518 4.527 4.489
主题5 0.911 1.518 1.526 20.394 8.434
主题1 手机工具 系统工具 社交通信 通信聊天 即时通讯
主题2 多媒体 音乐视频 视频播放 音乐音频 摄影美化
K=10
K=20 直接推荐
K=40 使用LDA
K=80
K=160
K=320
结论:使用了LDA以后,用户相似度的计算更加准确,因此LDA 可以更好地提取用户的特征。
总结展望
• 完成了用主题模型对手机日志数据进行分析的一种方法: 1)用主题模型对用户数据进行分析 2)利用分析结果进行聚类和人群可视化 3)利用分析结果进行应用推荐