【深度学习】【推荐系统】58同城招聘个性化推荐系统

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

【深度学习】【推荐系统】58同城招聘个性化推荐系统DataFunTalk公众号⽂章学习。

1.简介
主要⾯向C端求职者和B端企业
推荐内容：职位推荐、企业推荐、标签推荐、简历推荐
推荐场景：
app⾸页——职位聚合、职位feed流；
类⽬——⽤户点击某个类⽬，进⾏相关job推荐；
相似推荐——⽤户点击某个具体职位后，展⽰相似职位。

存在典型问题：
海量数据计算；
冷启动：不强制⽤户填写简历，⽆简历⽤户的冷启动问题
askbob⽤户冷启动问题也存在
稀疏性：可能活跃两天找到了⼯作就不再活跃，回来平台之后可能想换⼀份⼯作，可能是职位升阶
askbob⽤户可能下次回来是想问新的问题、发其他的指令
资源分配问题：招聘对于b端和c端都是有限资源，从职位和精⼒⾓度。

不同于淘宝推荐，淘宝商品是⽆限量供应的。

2.个性化推荐
如何理解⽤户
⽆诚意⽤户识别：发布qq微信联系⽅式，向平台外导流。

采⽤关键词+正则识别“微信”“QQ”等，针对⽂字变形，数字转拼⾳等⽆效
采⽤命名实体NER挖掘，⽐如BiLSTM+CRF
分类算法，fastTextCNN
对抗：对平台伤害⼤，法律⼿段，对问题边界的，内容展⽰降权处理
askbob从运维防⽌识别刷量⽤户
NER从⽂本中提取关键信息
　第⼀阶段构建招聘领域特有词库，已经有⼀些词典，采⽤bootstrap⽅法，快速迭代进⾏挖掘，结合半⼈⼯标注，构建更完整的样本集
第⼆阶段，将第⼀阶段的内容input，BiLSTM+CRF。

采⽤训练样本增强技术，相近实体词进⾏替换扩⼤样本集，并将模型识别的结果有条件放回训练集进⾏迭代训练，减弱对标注数据集的依赖。

⽬前识别准确率0.75，部分0.9
构建⽤户画像
　通过窗⼝形式，对⽤户画像要进⾏更新，计算时加⼊时间衰减因⼦，⾏为权重因⼦，及标签置信度权重，深刻理解业务场景是关键。

冷启动
并⾮所有⽤户都会留下详细的简历，借助历史简历可以有效预测性别、年龄段、期望⼯作岗位等⽤户信息，优化简历不完善带来的冷启动问题。

基于⾏为序列预测
将⽤户搜索浏览、简历投递、在线沟通等⾏为，时间序列，⽤LSTM、GRU、Attention等训练模型预测⽤户兴趣。

当前还在评估阶段
askbob同样在评估阶段
3、召回模块
以上下⽂内容与精细画像结合的精准召回、协同过滤召回、深度向量化为核⼼策略的召回模块。

基于上下⽂+⽤户画像的精准召回
⽤户主动搜索的条件有限，借助⽤户画像中的历史兴趣以及知识图谱组织的实体关系，我们对岗位、薪资、⾏业等多个维度进⾏条件扩充，多路召回匹配⽤户的职位内容。

该策略的优点，可解释性好，实现简单
缺点：过度依赖标签挖掘的准确性
基于业务特殊性的协同过滤算法改进
参考了腾讯15年paper《TencentRec：Real-time Stream Recommendation in practice》，赋予职位点击、投递、在线沟通等不同⾏为权重，进⾏多⾏为融合，基于⽤户质量，设计⽤户惩罚因⼦，同时通过时间衰减因⼦增强近期⾏为表达，这三个因⼦的设
计与Paper基本⼀致。

算法上线后，在点击率、投递率⽅⾯都取得了正向收益，其中详情页的相关职位推荐提升超过25%。

Embedding深度召回探索、
协同过滤虽然取得了不错的业务收益，但其依赖于⽤户与物品的⾏为矩阵，对于⾏为稀疏的场景天然表达有限，针对这类问题，想到基于深度学习的向量化Embedding召回，参考了YouTube的DNN召回思想，基于业务现状做出了调整。

职位向量化：word2Vector思想对求职者的⾏为序列看作⼀系列上下⽂，向量化表达，input部分，包括职位特征，职位所属的企业特征，求职者反馈特征。

output构建，业务漏⽃越深的⾏为选择的窗⼝越⼤，并基于⽤户平均的⾏为长度为窗⼝设定的参考
值。

针对⽆历史⽤户⾏为的新职位，使⽤职位的⽂本结构化信息，通过历史训练所得的标签向量表达经过average-pooling作为初始向量，解决冷启动。

很厉害，但是看不懂。

askbob⾥就是把question向量化
⽤户向量化：构建⼀个多分类NN⽹络，embedding层将⽤户发⽣⾏为的职位向量化迁移过来使⽤，输⼊⽤户画像信息进⾏向量训练。

以⽤户真实发⽣的数据作为正样本，未发⽣⾏为的数据作为负样本，构建损失函数进⾏最优化训练。

负样本选择上使⽤随机采样，随机从求职者关注的城市及岗位下未发⽣⾏为的职位中按⼀定⽐例抽取负样本。

线上会实时采集⽤户⾏为，以窗⼝形式对⽤户向量进⾏更新。

线上服务：借鉴facebook的FAISS实现，线上⽤户发起请求时，通过求职者的向量表⽰，获取最相思的topN职位，返回给推荐系统。

4、排序迭代
第⼀阶段，提升点击规模为主要⽬标，搭建点击率预估模型，包括特征⼯程，ab实验框架。

第⼆阶段，在ctr预估模型基础上，增加CVR预估，ROR双边连接预估，。

同时在⼯具上开展了针对性建设，特征模型的可视化分析监控。

第三阶段，wide&deep，DeepFM，多任务学习，强化学习，不断提升算法对⾼危特征的表达能⼒，提⾼预估模型的刻画能⼒
连接转化预估模型是多⽬标学习。

使⽤不同算法对CTR点击率预估、CVR单边连接预估、ROR双边连接预估进⾏排序，最后多个模型进⾏融合⽀撑线上排序。

　样本处理，去除异常⽤户异常数据误点击数据，增加停留时长埋点，将停留时长作为样本置信权重加⼊到模型训练中。

特征⽣产实现
　特征pipeline的构建，减少了⼤量重复⼯作。

核⼼是实现配置化的⽅式，集成了样本采集、特征变化、特征组合、特征离散
化。

整合后得到训练样本，输送给模型进⾏训练评估。

模型serving实现。

　随着服务演进，构建了当前的模型。