基于搜索数据的用户基本属性混合预测模型研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于搜索数据的用户基本属性混合预测模型研究
大数据时代必然会导致“信息过载(information overload)”现象,企业如何在海量的用户行为数据中准确判断用户属性,是精准营销等领域值得思考的问题。特别是在搜索领域,搜索公司几乎无法获得用户的真实属性信息,但用户的基本属性很大程度上可以影响到用户查看不同广告的可能性。基于背景,利用Doc2Vec、TF-IDF算法对搜索数据进行特征提取,并借助机器学习算法、XGBoost 算法构建了用户基本属性混合预测模型,并对模型的准确性进行了检验。
标签:搜索数据;Doc2Vec;TF-IDF;机器学习算法;用户基本属性混合预测模型
1 引言
据CNNIC最新数据显示,截至2017年6月,我国网民规模达到7.51亿,半年共计新增网民1992万人,半年增长率为2.7%。互联网给我们带来便利的同时,也带了很多安全隐患。2016年12月10日,京东一个12G的数据包被流传到网上,其中包括京东注册用户的姓名、密码、邮箱、QQ号、电话号码、身份证等多个维度的数据,数据量达到了千万条。2017年国内外网络信息安全泄露事件主要有58同城全国简历泄露、国外巨头Dun%Bradstreet 52G数据库遭泄露、印度麦当劳220W用户收据遭泄露等。随着近年来信息泄密事件的频繁发生,用户越来越不愿意将自己的真实属性及其他信息透漏给第三方平台。
对于搜索企业,其主要的收入来源于广告。艾瑞咨询发布的《2017年中国网络广告市场年度监测报告》中显示,2016年,互联网广告的市场份额为2902.7亿元。报告中指出2016年电商广告的市场份额已经超过搜索广告,并且有逐渐增长的趋势。爱奇艺通过预测用户性别属性,进行个性化广告投放,广告营收方面增加了数十亿元。用户性别、年龄和教育水平均会对搜索企业广告投放效果产生影响。目前基于搜索数据的用户基本属性预测研究仍是空白。本研究通过对搜狗公司2016年20w用户搜索词进行分析,从Doc2Vec特征、TF-IDF特征两个维度进行用户搜索词特征的度量,并通过机器学习等相关算法对模型进行训练和融合,得到最终的基本属性混合预测模型性。
2 国内外研究现状
2.1 短文本分析
在文本分析方面,Salton(1973)在1973年提出了TF-IDF算法,衡量了不同詞对于文章的重要性。Blei等(2003)提出了的LDA(Latent Dirichlet Allocation)算法。目前,被广泛使用的Word2Vec词向量计算模型是由Google的Tomas Mikolv团队提出的。Mikolov(2014)提出了Doc2Vec文档向量表示方式,可以获得句子或文档的向量表示。龚才春(2008)提出了短文本网络的概念,并提出了两类短文本网络的构建方法。潘博等(2018)用文本深度表示模型Doc2Vec,
证明了该方法能更深入地表示出文本的语义特征。
2.2 用户基本属性预测
夏勇(2015)基于手机应用日志数据,采用常用的四种分类预测算法作为基础算法,实现对用户基础属性分类预测。陶建容(2017)通过从智能手机的应用中挖掘性别、年龄等个人信息以及用户的兴趣爱好和生活习惯属性,对比了不同手机应用的用户属性挖掘能力。王斯盾(2017)等将基本属性作为特征训练集成分类器中的各个基分类器,并引入随机森林中的带外样本准确率作为基分类器的权重,通过实证研究证明了该方法可以提高用户属性预测的效果。
目前国内外在本文本分析方面,主要使用的是LDA、Word2Vec、TF-IDF、Doc2Vec等算法进行文本特征提取,本文考虑到搜索词数据的特征性,最终选择从Doc2Vec、TF-IDF两个维度刻画用户搜索数据的特征,并将获得的特征作为机器学习算法的输入,通过模型训练和融合构建用户基本属性混合预测模型。本研究不仅填充了基于搜索数据用户基本属性的预测研究的空白,也可以将其扩充到其他领域。
3 基于搜索数据的用户特征提取
3.1 数据预处理
3.1.1 数据介绍
本研究的数据来源于2016年CCF大数据与计算智能大赛。数据提供了搜狗用户历史一个月的查询词与用户的人口属性标签。该数据源提供了10w条带标注的训练数据和10w条测试数据。带标签的数据一共有5个字段,分别为id、年龄、性别、教育水平和搜索词列表;无标签的数据一共有2个字段,分别为id 和搜索词列表。字段说明如表1所示,原始样本如表2所示。
3.1.2 JIEBA分词
本研究在对比了JIEBA、THULC、NLPIR三种分词工具的分词效果后,最终选择了JIEBA分词工具进行分词。分词效果如表3所示。本研究考虑到停用词无法反应用户的搜索需求,因此,本研究使用哈工大停用词词库对用户搜索词中的停用词进行了过滤。
3.2 基于Doc2Vec的特征提取
本研究分别使用了Doc2Vec的DM模型和DBOW模型进行用户搜索数据的文档特征提取。主要参数size文档维度设置为100,min_count设置为3,当词出现的次数小于3时,会被舍弃,dm设置为1代表使用DM模型,使用DBOW模型进行文档特征提取时,只需将dm参数改为0即可。本研究在此仅展示由DM 模型训练出来的部分文档特征,如表4所示。
3.3 基于TF-IDF的特征提取
本研究将分词结果作为输入,将min_df设置为3,将max_df设置为0.95会过滤词数出现在少于3个或出现在多于95%的词,可以减少一些无用的信息。观察最终的结果,发现每个向量会存在稀疏性问题。部分TF-IDF特征值的输出结果整理后如表5所示。如果某个词在某个文档中没有出现,则评分为0。对于表5中所列出来的5个词,可以分析出,“中国”这个词在第1个和最后一个用户的搜索词中没有出现过,在第2个、第3个和第4个用户的搜索词中出现过,所以,它的权重较高。
4 基于搜索数据的用户基本属性混合预测模型
4.1 基于Doc2Vec的基本属性预测模型
对Doc2Vec特征进行处理时,本研究分别尝试了LR和BPNN两种算法进行对比,同一组特征在两种不同算法下的准确率对比结果如表6所示。
从图1中可以更加直观的看出基于DBOW模型的预测准确率比基于DM模型的准确率高。BPNN的效果在各个属性的表现上都要优于LR算法。因此,本研究最终了使用DBOW模型进行用户搜索数据的文档特征提取,并给予BPNN 算法进行预测模型的训练。
4.2 基于TF-IDF的基本属性预测模型
对TF-IDF特征进行建模时,本研究尝试了LR和SVM两种算法,对同一批特征下,两个模型的准确率如表7所示。TF-IDF_SVM模型下教育水平属性的准确率为60.09%,年龄属性的准确率为59.37%,性别属性的准确率为68.12%。
从图2中可以更直观的看出,在对用户的性别、年龄进行预测时,SVM的效果较佳,但对教育水平属性进行预测时,LR的效果较佳。本研究综合考虑了LR和SVM模型的准确率对比,在对TF-IDF特征进行建模时,本研究根据平均成绩最终选择了SVM模型。
4.3 基于XGBoost的模型融合
使用XGBoost进行模型融合时,本研究的具体操作如下,利用Gradient Boosting为用户每个基本属性特征,性别、年龄、教育水平分別建立一个ensemble 模型,该模型会对基于TD-IDF、Doc2Vec两类特征的模型输出进行融合。融合后的模型准确率如表8所示。
4.4 模型修正
本研究获得的TF-IDF特征矩阵具有较强的稀疏性,在这方面Word2Vec的