今日头条算法实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
今日头条涉及到算法:
(1)今日头条服务器1000台左右,通过代码实现的爬虫功能,在其他传媒的网站和门户上抓取各种信息。如果在网站上抓取到纸媒的内容,优先从纸媒门户上抓取信息
(2)抓取信息后,对有价值的信息通过算法进行分析归类。
(3)推送到有感兴趣的今日头条客户端
(4)用户注册或登录(新浪微博、QQ、人人网)时,通过数据挖掘分析,对用户进行分析,推荐感兴趣的信息。
(5)推送后,根据用户的体验(阅读时间、评论)判断信息是否符合客户需求,再进一步调整推送信息内容。
(6)敏感信息审查
(7)网页转码,手机信息打开纸媒或网站信息,因附带有大量广告或样式信息,下载速度很慢,影响用户体验,转码后保留内容资源,格式更适合阅读。