《面向大数据的搜索与推荐算法》
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数 – 访问敏感数据需要单独的权限
• 用–––户数涉无不据及法2同做个进0意1n性行8o搜化邮n中的件集P国I场的I数处大景推理据提广的供情降况级服务
欢共 团简队历迎同负请2加为0责发1信入人送8中:息小国g王o时米大n扉数g代搜据s博h美索技i士m术好与in大生推#会活x荐(iaB而oDmT奋Ci ).斗com
搜索+推荐会(BDTC) 2018中国大数据技术大
201面8中向国大大数数据技据术的大会算(法BDTC)
场景
BDTC)
(
会
大
术
技
据
数
大
国
移动搜2索018中
推荐
搜索提示
算法 - Algorithms
• 为用户提供便捷、个移性动化搜的索移动搜索B服DT务C)
• 覆盖 应用,视频,新闻,问答会等(
• 移––动意查搜图询索识分中别析的关键技术据技术大
2018中国大数谢据谢技术!大会(BDTC)
引用 - Reference
Reference DTC) • [1] Chapelle, Olivier, and Ya Zhang. "A dynamic bayesian network click model for web B search ranking." Proceedings of the 18th international conference on World wide web. ( ACM, 2009. 会 • [2] Shen, Yelong, et al. "Learning semantic representations using convolutional neural
大数据分析与生态系统(论BD坛TC) 会
2面01向8中大小国数米大搜人据数工索的宫据智与搜士技推能敏索术荐与大与云组推平台荐算法
Sea大Arcl数gho据Arin分tShdH数析mIMR据与seIN技cf生ooG术Orm态大NBm系G会ige统(nDB论daDat坛TtaiCo)n Search And Recommendation Team 2018中国大 AI And Cloud Dept, XIAOMI Corp
• [5] Huang, Po-Sen, et al. Deep Structured Semantic Model Produced Using Click-
大 through Data. 2013. 国 • [6] Fan, Yixing, et al. “MatchZoo: A Toolkit for Deep Text Matching.” ArXiv Preprint 2018中 ArXiv:1707.07270, 2017.
算法 - Algorithms
• clicks over expecCteOdEcClic模ks型(COECB)DTC)
(
会
大
术
技
据
数
大
2018中国
注:引用自[1]
点击模型
DBN模型
BDTC)
(
会
大
术
技
据
数
大
2018中国
注:引用自[1]
算法 - Algorithms
•
问答场景
DSSM模型
-
语义相似度计BD算TC)
• 本 小次米分 搜享 索主 与要 推介荐绍的面典向型大应数用据的会机(器B学DT习C算)法在 • 背 平 技景台术: 规的2模数发0得据展18到驱中了动国持使大续得数增小据长米技互,术联也大网助业推务了以搜及索大和数推据荐
• 引言
Outline
(BDTC)
• • • •
场算架用景 法 构 户隐20私18中国大数据技术大会
国
2018中
组成
BDTC)
数据处理 Spark为主
术大会(
线上预测 pmml
MapReduce
据技
tf-serving …
数
国大
2018中 分布式训练框架:tensorflow,lightgbm,自研框架
• 点击模型
不同场景下解决方案BDTC)
– Spark,Scala实现
会(
• GBDT
大
术 – Spark -> lightgbm[3] 据技 • C-DSSM
(
会
大
术
技
据
数
大
国
2018中
注:引用自[5]
算法 - Algorithms
•
问答场景
C-DSSM
-
语义相似度计BD算TC)
• 英文输入为例
会(
• 改进:
大
– 词性 – 位置
据技术
数
大
国
2018中
注:引用自[2]
新闻推荐
• 大数据 新闻推荐场景 - CTR预B估DTC)
– 用户画像 – 用户行为
术大会(
2018中
引言 - Introduction
小米的优势
BDTC)
• 海量的内容数据和用户数据 (
• •
统 统一一了的小账米号体体系系内,的数用据户打数通术据大,会构建立体多维的
用–户搜画索像推荐和广告等数多据项业技务使用
• 丰–富移的动2应搜0用1索8入中、口浏国览大器 、应用商店、有品商城 …
架构
– 酒旅
数
– – – –
在电配... 线子送2广商01告务8中国大
大数据隐私保护
• GDPR - 小通用米数用据户保数护据条隐例私保护实BD践TC)
• PII数据
会(
– Personal Identifier Information
术大 – 可以通过该数据定位到用户,则该数据被认为是PII 据技 – imei, phone 等在数据层做加密处理
networks for web search." Proceedings of the 23rd International Conference on World
大 Wide Web. ACM, 2014. 术 • [3] Ke, Guolin, et al. "LightGBM: A highly efficient gradient boosting decision tree." 技 Advances in Neural Information Processing Systems. 2017. [3] 据 • [4] Guo, Huifeng, et al. "DeepFM: a factorization-machine based neural network for ctr 数 prediction." arXiv preprint arXiv:1703.04247 (2017).
2018小中国米大搜数据索技术与大推会(荐BDTC)
引言 - Introduction
• 商业模式:硬件+互联小网米+新零售(BDTC) • 触达用户各种场景的产据品技矩术阵大和会生态系统
2018中国大数
引言 - Introduction
移动互联网时代的挑战BDTC) • 入–口分分散散到化各多个a样pp化,,不获再取集中用术于户大浏成会览本器(变高 • 缺–乏用个统户性一的化的数服账据务分号国散和大,大数不数据互据通技的,不积利累于为用户提供精准的
• 根据已曝光的结果用户据是技否点击生成样本
– 十亿级样本
数
国大
2018中
算法 - Algorithms
• 线性模型
技术演进
BDTC)
( – LR FTRL 会 – FM(两两特征组合) 术大 – GBDT+LR(有一定高层次特征组合能力)
• 树模型
– GBDT
国大数据技
• 深–度W神id2经e0&网1D8络e中e模p D型NN DeepFM
– 相关性计算
数
– 排序
国大
2018中
算法 - Algorithms
• 用户行为移大动数搜据索,场数景十亿- 样点本击模型B排DT序C)
– 搜索 – 浏览 – 点击
术大会(
• 以 R–a点nCk击liinc2模kg0a及型1s8搜i为m中索p例国li体c,大it验介f数ee绍据d使b技a用ck用户行为数据优化
大数据下的算法performanBcDeT探C讨)
(
会
大
术
技
据
数
大
国
2018中
引用自[6]
Performanc会e (BDTC) 2018中国大数据技术大
面201向8中大国大数数据据技的术算大会法(架BDT构C)
架构 - Architecture
小规模数据
大数BD据TC)
1
大会(
2
术
技
wenku.baidu.com
数据
大
数 – Spark -> tensorflow
• DNN
国大
– par2a0m1e8te中r server
20大18数中国据大下数据的技术隐大私会(保BD护TC)
大数据隐私保护 - Privacy
• 算法需要丰富的大数数据据以提隐供私个保性护化的B服DT务C)
– 推荐 广告 搜索
会(
• •
数 隐–据私社的 泄交广 露网泛 案络使 数用量增逐加年隐上据私升技泄术露大的风险