今日头条算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
无论2016年科技圈热门的噱头有多少,对数据基础设施方面的耕耘仍然是决定实力的关键。阿里之类电商数据帝国自不待言,今日头条、一点资讯等在资讯数据领域的开拓更加值得注目。比起电商的物流数据,资讯算法驱动与用户数据分析是更加“触及灵魂”的事情。
1月15日,在头条主办的“珠海未来媒体峰会”上,技术出身的CEO张一鸣走到台前,向台下一众媒体人发表演讲:《我眼中的未来媒体》。他纵横媒体发展史、国内外现状,从古腾堡到贝索斯,从App Store到Instant Articles,看似雄辩地证明媒体人把内容输送到算法推荐平台是大势所趋。
一点资讯紧跟其后。1月20日,在其与凤凰博报联合举办“凤凰一点通”年度影响力自媒体盛典上,一点资讯宣布打通两家平台,资源共享。一点资讯副总裁吴晨光面对台下上百位自媒体人,也在极力渲染一点资讯的读者画像等算法技术。鹬蚌相争刚刚白热化,已有一只黄雀在身后——腾讯的同类产品“天天快报”已经低调运营了一段日子,不知道在憋什么大招。
人们应该记得,2014年多家传统媒体因版权问题对今日头条发起声势浩大的诉讼。2015年11
月也有媒体发起对一点资讯的版权诉讼,但反响很小。再到如今,媒体人坐在台下为张一鸣鼓掌捧场。也许真是时势变化,技术的发展已经让内容生产者从惊恐到不得不适应。
头条不是百度,推荐引擎有别于搜索引擎。其实头条所自豪的算法推荐也不是这几年才出现,谷歌、百度都是前辈,为什么是头条让算法成了颇具神秘感的明星?
头条出名以来,一直有人吐槽推荐算法不准确、制造信息茧房,一些评论者宣称装了就卸载。我也有同感。不过就像帝吧远征之人力洪流带来的震撼,今日头条巨大的流量也促使我重新审视算法洪流。别忘了头条招聘启事上写着:“ 对用机器学习算法解决现实问题有强烈的渴望和坚定的信仰。”
尚显粗糙的算法,正在成长的生命
我先抛出对算法的总体观点,有三个层面:
首先,算法是一种类似金融资本的东西,是方法。就像财务投资者不必追求理解公司具体产品本身,只在乎能否增值。算法不管内容实质是什么,只管能否数字化、分类集合、反馈优化,是处理海量信息的方法。与资本一样,它能提升效率,也与个体有矛盾。
第二,张一鸣在演讲中说Facebook把技术支持变成了一项接近水、电、煤气这样公共服务的事情。再进一步,当算法深入生活的方方面面,积累的智能本身将成为基础设施。KK(凯文·凯利)在新书《必然》里说到,未来的人工智能网络(主要包含算法)将会成为“如同电力一样无处不在、暗藏不现的低水平持续存在”。比如办公室的桌椅和电脑都会识别你,记录你喜欢的姿势,在你一走进办公室就调整好姿态,打开你常用的软件、网站等等。
但对于资讯内容传播来说,这还不够。内容不是桌椅,桌椅只要伺候我们,内容却是装载了他人灵魂的存在,要和我们互动、砥砺。这就是第三层,算法要想触及灵魂,还得努力。
头条到底是什么?有人已经说了它不是新闻客户端,而是信息分发平台。仅此而已?
张一鸣演讲称:
“将对媒体在今日头条平台上的用户数据进行更详尽的统计分析。除了性别、终端、年龄、地域分布等用户属性基本分析外,还将提供用户的兴趣和情感倾向分析。通过这一功能媒体可以知晓受众喜欢哪些分类的文章、用户最喜欢文章里的哪些关键词、关注你的人还喜欢哪些内容等等。”
这话本意是针对微信,微信公众平台目前恰好只能提供受众的“性别、终端、年龄、地域分布”分析。兴趣和情感,这是算法更高的追求。
头条的销售人员在推销自家产品时,可以告诉一家汽车制造商:用户的阅读行为数据能够展现出哪个地方的人最喜欢你们的哪一款车,我们将把你们的广告推送给合适的读者。今日头条的同类产品“一点资讯”也在做同样的事情。创始人郑朝晖曾对内容总监吴晨光强调:“比阅读重要的是阅读者的行为。”
所以头条们在做什么?今日头条是伪装成新闻客户端的用户行为数据收集器和分析器!(这感
觉就像有位美国政治学者说的,现代中国是一个伪装成民族国家的文明帝国。)每一篇新闻都应该被看作一道对用户的测试题,用户的每一次点击、评论都是一种回答,都被系统记录,和关键词、Dom标签、作者、阅读时间、网络环境(wifi还是4g?)等等一起构成多维数据矩阵,刻画出这个
读者的特征。每道“测试题” 都很粗糙,但是就像KK的“蜂巢思维”所言,海量资讯一起测试出的用户特征就比较准确。而且用户因为是在无意识中完成测试的,答案比较真实。这就是头条们的技术和商业模式核心所在。
读者难免会质疑,你倒是收集好数据了,可是给了我们什么?读者也不需要流量,要的是信息的准确和善解人意。
我们不妨把算法看作一个正在成长的生命。
普通读者这些年对算法推荐的直观感受并不佳:浏览了某个淘宝页面之后再去其他网站,页面也会浮现同类产品的广告,如果浏览的是情趣用品呢……在头条看新闻也很容易遇到这种情况——相似资讯不断涌来。(可参见虎嗅上这个批评:《我为什么看衰内容的个性化推荐?》)
粗解今日头条的算法
经常被头条员工拿出来说的简单算法是AB测试和双盲检验。
算法架构师曹欢欢和增长团队的张楠都公开讲解过,如何用AB测试来判定一个产品修改的效果。比如一个按钮是用红色好还是用蓝色号,那么就各向1%的用户发布两种颜色产品,哪个下载得好就
推哪个。如果用在新闻上,就是同一条新闻由编辑给两种标题,测试哪个标题点击好。
双盲检验,是先让算法判断一个新闻的分类和推荐对象,然后让两个编辑分别检验,如果结果一样,就通过,不一样就请第三人判断并汇报程序员,重新调整算法。在我看,这背后是一个类似神经算法的“刺激-反应”模式——根据算法反应对错调整某个参数(权重),也是一种人工智能里常见的“半监督式学习”。这大概也是张一鸣口中人机结合、发挥人的智慧的证据之一。
不过在这个例子中,编辑的角色比较被动,像工厂流水线上的螺丝。
我注意到今日头条在拉勾网打出一个百万美元年薪的广告,招募算法架构师,要求擅长:贝叶斯学派相关算法,超大规模离散LR,深度神经网络,各种tree-based的算法等。其他算法工程师岗位要求大同小异。