基于安卓手机用户行为的人口学信息预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用技术
0 引言
采用编程和机器学习技术解决工业生产中某一具体行业实际问题已成为数据挖掘领域的应用潮流。
推荐系统则为其中的一个重要研究方向。
本论文的工作是根据用户的手机应用下载和使用行为来预测用户的人口统计数据,即通过已有信息推测用户是分在哪一个性别年龄组里。
本项工作有助于根据移动设备用户日常的选择和行为画出用户画像,以便未来手机运营商或APP应用市场的开发商根据此预测结果对用户实行APP产品的精准推荐,帮助手机运营商及软件开发商更好地了解并与其用户互动[1~5]。
1 关键技术分析
本论文是数据挖掘和机器学习技术在移动互联网大数据行业中的应用类论文。
实验主要涉及人工神经网络和XGBoost等机器学习算法。
人工神经网络是一种机器学习算法,通过模仿生物学人类神经网络的结构,简化抽象出一种运算模型,由大量的节点之间相互联接构成。
XGBoost是大规模并行集成提升树的工具,主要思想是通过加入新的弱学习器,来纠正前面所有弱学习器的残差,最终多个学习器相加用来进行最终预测,准确率高于单个训练器。
2 数据介绍及数据可视化
在本课题中,数据来源于TalkingData第三方移动数据平台。
TalkingData提供了大约20万用户的数据(全部真实且经过脱敏处理),按照年龄和性别分成了12个组,如男性22到25岁,女性30到35岁等。
同时提供了用户行为属性,如用户的手机在某时间点定位在某地理位置上,用户使用的是某品牌的手机及具体机型,安装或使用的具体APP项目。
原始数据集包括7个相互关联的csv数据表文件。
gender_age_train.csv和gender_age_test.csv分别为训练集和测试集;events.csv和app_events.csv 用于记录当用户使用TalkingData SDK时的行为数据。
app_labels.csv显示了应用程序及其标签,label_id可用于与label_ categories匹配;label_categories.csv显示了应用程序id及其对应的应用类型;phone_brand_device_model. csv 根据设备ID与其对应的手机品牌与型号相关联。
综合以上数据集可知,自变量包括标识device_id、应用使用行为(event_id, timestamp , longitude , latitude)、安装的应用情况(app_id,is_installed,is_active,label_ id)、手机信息(phone_brand , device_model)。
预测变量为group(性别不年龄的分组) 。
相互关系如图1所示。
图1 数据表相互关系
本数据集涉及属性众多,分散在不同的数据表中,在进行数据挖掘之前,为了更好的了解数据,运用python及其相关库,借助图形化手段,呈现数据特征。
图2 实验数据中手机全球分布图
由图2可知,本实验数据涉及的安装有TalkingData SDK应用程序的手机定位主要在中国,有部分零星的点分布在其他国家,其中大部分看起来真实,如奥斯塔里悉尼/墨尔本/珀斯。
有少部分点坐标为(0,0)或者在海上领域,分析原因,我们可以认为这些数据是缺失值或离群数据,在
基于安卓手机用户行为的人口学信息预测
杨皓毅
(宁波市惠贞书院,浙江宁波,315000)
摘要:为了实现更加智能的安卓手机用户画像,用于辅助支持手机运营商或APP应用市场的相关数据挖掘,本文提出了根据用户的手机应用下载和使用行为来预测用户的人口统计数据,包括年龄、性别等信息。
我们的研究成果未来可用于分析产品潜在用户,针对特定群体精准推荐APP产品。
关键词:人口学信息预测;安卓用户行为;数据挖掘
www�ele169�com | 81
82 | 电子制作 2019年05月
图3 实验数据中手机全国分布图
可以看出,在中国沿海地区或较发达城市,事件相对比较密集。
在西北地区点的分布比较稀疏。
python 的地图库还可以看到具体在某一省市中安
装有TalkingData SDK
应用程序的手机的密集情况,以北京为例,如图4所示,可以看出。
在顺义区、昌平区等人口相对略少一部分的地区,手机分布情况也不及在海淀区、
丰台区手机分布密集。
图4 实验数据中手机北京分布图
图5 实验数据中男女性手机用户北京分布图
图5表示在北京地区,男性手机用户分布相对比女性
手机用户更均匀,这可能与数据量有关。
在本数据集中,男性数量约为女性数量的2倍。
图6 实验数据中不同年龄段和时间手机用户北京分布图
图6可以看出在北京地区, 在海淀区、丰台区等安装图7 按性别排序手机品牌前15名
由图7可知,在2015年,小米手机占据国内手机市场
榜首。
华为手机更受男性青睐,OPPO 和vivo 手机更受女性用户欢迎,这与该公司的市场地位一致,与实际情况比较
吻合。
图8 按年龄排序手机品牌前5名
由图8可知,年轻一代更喜欢时尚且实惠的手机品牌,
如OPPO 和vivo,而年纪较大的用户更喜欢华为和三星。
小米手机占主导地位。
在经过以上对地理位置、性别、年龄、手机品牌的单独
的数据可视化分析后,年龄和性别属性作为本实验中的预测变量,接下来分析各自变量与预测变量之间的相关性。
图9 不同属性之间的斯珀曼相关系数
在图9中,选择安装有TalkingData SDK 应用程序的
手机中频率排名前20的手机APP 类别属性。
可以看出,年
www�ele169�com | 83
应用技术
龄和性别与所有自变量之间均没有很强的相关性。
我们只能看出一部分排名靠前的属性之间有用的相关性。
由图10可
知皮尔森相关系数与性别和年龄的相关性更低。
图10 不同属性之间的皮尔森相关系数
3 预测模型设计
本节介绍人口学信息预测模型的设计思路。
图11 实验整体思路
由于数据集中有2/3的数据只有手机品牌与型号信
息,所以将数据分开处理,按照有无事件分为两类device_
with_event 和device_without_event。
我们采用TF-IDF 进行特征提取。
特征提取后进行初步模型构建,主要采用了两类模型:XGBoost 与人工神经网络(采用keras 框架),
XGBoost 主要使用count 特征与TF-IDF 特征。
Keras 主要
使用bag of apps 特征。
在使用初步模型构建后,再进行两段预测,其步骤为:(1)生成特征集;
(2)预测用户的性别概率(Stage1);
(3)使用预测的性别作为额外的特征,预测各个年龄段的概率。
先假设用户是女性,预测其属于各个年龄段的概率,得到P(Ai|F);再假设用户为男性,预测其属于各个年龄段的概率,P(Ai|M)(Stage2);
(4)根据条件概率公式获得用户的人口特征分组概率
P(Ai,F)=P(Ai|F)P(F)fori=1,...,6andP(Ai,M)=P(Ai|M)P(M)for i=1,...,6,Ai 代表这年龄的6个分组1到6,F 代表女性,M 代表男性。
两段预测后进行模型组合,输入预测结果。
更为详细的设计思路如图12所示。
一般来说,某个用户会有或大或小的概率属于多个组
别,就有概率上的损失,这个损失的高低代表预测结果的水平。
优化函数Loss Function:
11
1
log log()
N M
ij
ij i j loss y
p N
===−∑∑ 1515max(min(,110),10)
p −−−4 实验及实验结果分析
根据预测模型设计,使用python 编程,实现基于安卓
手机用户行为的人口学信息预测模型。
初步模型构建的步骤
如下:
图12 实验步骤示意图
(1)导入需要的python 包,加载数据集。
(2)通过稀疏矩阵创建特征,在这里做了删除重复数据的处理,创建关于手机品牌的稀疏矩阵。
(3)类比上一步的操作,创建关于手机型号的稀疏矩阵。
(4)将多条分散的数据串联成一条长数据,得到设备安装APP 的具体情况,再转换成稀疏矩阵。
(5)获取不同设备的label,转换成所需的特征数据。
(6)模型训练。
(7)改进训练模型的参数选择,包括:品牌,型号和标签的TF-IDF(适用于有事件的设备);品牌和型号的TF-IDF(适用于没有事件的设备);品牌和型号名称的频率。
在使用初步模型构建后,再进行两段预测,其步骤在前面说明,此处不再赘述。
两段预测后进行模型组合,输入预测结果。
最终输出结果为一个包含设备ID 的csv 文件,并提供每个类别的预测概率。
预测的12个类别是:
'F23-','F24-26','F27-28','F29-32','F33-42','F43 +','M22-','M23-26','M27-28' 'M29-31','M32-38','M39 +'在经过15轮交叉验证后,运行结果截图如图13所示。
本实验采用深度学习领域的常用性能评价指标acc、
loss、val_acc。
loss 为损失函数值,与定义的损失函数值
相关;acc 表示准确率; val_acc 表示模型在验证集上进行
验证时输出的acc,验证在每个epoch 后进行。
根据实验
(下转第80页)
撑的压力。
便捷式翻折框这种机构采用类齿轮齿条的传动方式,将收集框的翻转运动转为直线运动,从而可以在整个系统的下部(手持部位)控制上部收集框的运动。
同时在采摘装置整体上升时,可以避免收集框与枝条的接触,增加工作效率。
在整个系统闲置时候,也
可以减少空间面积。
■1.7 总体控制设计
为了减轻机构头部重量,电
池和开关被挪到伸缩杆底端,同
时开关可以调节三个档位以适应
不同韧度的果柄,利于实际工作
时采摘。
头与冬枣的直接接触。
图4 实物效果
3 结束语
本装置在实际工作中具有良好的工作效果,通过简单的机械结构,解决了大多数目前市场上已出现的冬枣采摘机构的问题,操作简单,不仅提高了采摘效率,而且大大改善了对于冬枣果实的损伤,具有十分广阔的市场,经济效益及社会效益显著,推动了水果采摘机构简单化、便捷化发展。
参考文献
* [1]付荣利.果园采摘机械的现状和发展趋势[J].农业开发与装备.2017(05).
* [2]段文婷,何家成,彭铜杰,等.便携电动式水果采摘机设计[J].中国农机化学报.2015(01);48-49.
结果可知,在3次迭代后,预测性能较稳定,训练结果都是loss: nan - acc: 0.0676 - val_loss: nan - val_acc: 0.0933。
可以得出结论:本预
测模型性能良好。
5 总结
这篇论文主要介
绍了运用用户的手机
应用下载和使用行为
来预测用户的人口统
计数据,包括年龄、
性别等信息,预测
该手机用户的年龄和性别等人口学信息。
此工作成果可以辅助支持移动客户端APP的精准推荐营销等领域,具有现实的工业应用价值。
参考文献
* [1] 项亮. 推荐系统实践[M]. 人民邮电出版社, 2012.
* [2] 王国霞,刘贺平.个性化推荐系统综述[J]. 计算机工程与应用, 2012, 48(7):66-76.
* [3] 黄文彬, 徐山川,吴家辉,等.移动用户画像构建研究[J]. 现代情报, 2016, 36(10):54-61.
* [4] 刘海, 卢慧, 阮金花,等.基于”用户画像”挖掘的精准营销细分模型研究[J]. 丝绸, 2015, 52(12):37-42.
* [5] 周志学. 基于卷积神经网络深度学习的照片评价与喜好预测推荐实践[J]. 科研:00208-00208.
(上接第83页)
图3 收集装置
图13 实验运行结果截图
80 | 电子制作 2019年05月。