第二章-算法推荐原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、算法分发系统的基本模型
算法推荐系统本质上就是要解决用户和内容的有效匹配问题,需要识别算法的输 入元素。推荐过程的输入要素可以整理为三类变量。
第一类是用户特征(记为) 包含用户的基本信息、年龄段、职业特征、阅读习惯等。
第二类是环境特征(记为) 主要指时间、空间、设备和网络等环境信息。其中,时间特征即是否为工作时间、 是否为工作日或节假日;空间特征即是否在办公场所或休闲娱乐场所等;设备和 网络特征即是否为大屏幕设备、数据网络是移动网络还是无线局域网络环境等等。
当新用户注册成功后,系统根据一定的冷启动策略为用户生成初始的用户画像。 在随后的使用过程中,用户的画像并不是一成不变的,而应随着用户的阅读行 为以及阅读行为体现出的对系统推荐的反馈进行调整。 一方面,尚未记录在用户画像中的标签被不断添加;另一方面,某些无效的标签 也需要随时删除。此外,标签的权重也应该随用户的环境、兴趣转变而及时更新。 本小节介绍为用户画像设置和调整标签的若干策略。
1997年AT&T实验室提出了基于协作过滤的个性化推荐系统。
1999年德国德累斯顿工业大学的研究团队实现了个性化电子商务原型系统。
2000年搜索引擎CiteSeer增加了个性化推荐功能。
2001年,IBM公司在其电子商务平台中增加个性化功能,支持开发个性化电子商务网站。
2003年,谷歌公司通过用户的搜索关键词在搜索结果页面提供与关键词相关的广告,实现 广告盈利。
用户的这类短时间、非常规阅读行为数据可被视为噪声数据,使用噪声数 据提取出的标签并不能有效地帮助系统更新用户画像的标签。标题党内容 或不相关内容的推荐对于用户而言都不具有正面效用,因此,需要识别出 用户的无效阅读行为,将相应推荐内容对应的标签作为噪声数据过滤掉或 者降低其在用户画像中的权重,提高推荐的准确度,提升用户体验。
二、算法分发系统的基本模型
算法推荐系统的基本模型
用户侧
在用户一侧,算法推荐的目的是把合适的内容推送给用户,因此需要对用户进行合理的 抽象和理解,主要是指提取用户的多方面特征,如社会人口属性、兴趣爱好、时空环境 等等。 算法推荐系统会记录并持续更新用户所属年龄段、受教育程度、职业、兴趣爱好、所处 的位置、使用的设备、接入网络的环境等特征信息,而这些特征正是每个用户互不相同 的个性化属性,是使用算法对用户进行内容推荐的重要依据。
四、用户画像的“冷启动”
策略一:
根据外部服务的历史行为数据扩充新用户的画像。当前,在不同的互联网 应用之间往往会开放一些编程接口,用以编程读取各个系统中可以公开的 数据。比如用户在一个新的算法推荐系统注册时,可以通过微博或者微信 授权直接使用微博或微信账号登录新系统,从而免去重新注册一个新账号 的过程。
一、用户画像的概念和作用
用户画像在多个领域都有广泛的应用,并不局限于算法分发系统。涉及用户画像 的领域通常与销售、推荐和个性化服务相关。以下简要介绍用户画像的一般作用。
●精准营销: 分析产品的潜在用户,定向特定群体。比如,在内容推荐领域,假设系统中
有一则关于花样滑冰的新闻,则可以定向推送给画像包含“花样滑冰”或某些花 样滑冰运动员名字的用户。
三、用户画像标签体系
【提要】
每个用户画像就是若干标签的集合,根据用户的兴趣特点,可以对用户画像的标 签设置不同的权重,以改善算法推荐的效果。
一般地,算法推荐系统建立用户画像标签体系可以参考以下格式: (1)身份特征:性别、年龄、职业、常驻地点、电子邮箱…… (2)主题兴趣特征:感兴趣的类别和主题、感兴趣的关键词、感兴趣的内容来源、 基于兴趣的用户聚类、消费习惯…… (3)垂直兴趣特征:科技、体育、金融、财经、娱乐…… (4)行为特征:分时段的行为特征、分位置的行为特征、阅读内容……
第三类是内容本身的特征(记为)如格式、主题等。
于是进一步抽象得到推荐过程的一种形式化表示:
计算结果有两种可能:y=推荐或y=不推荐
第2节 用户的建模和分析
一、用户画像的概念和作用
【提要】 用户画像是根据用户的社会人口属性、生活习惯、消费行为等特征抽取出来的 标签化用户模型。
算法推荐系统给不同的用户提供个性化的内容推荐服务,因此需要建立用户 模型,对每个用户都有深入的了解和刻画。“用户画像” (Userprofile/Userportrait)就是一种常用的用户建模方式。 系统可以根据用户画像中描述的用户个性特征和兴趣爱好,为用户推荐个性 化的内容。
2007年,雅虎通过其掌握的海量用户信息(如用户的性别、年龄、收入水平、地理位置以 及生活方式等)以及用户上网行为记录数据,为用户呈现个性化的广告。
与国际上的行业发展同期,我国国内的搜索引擎如百度、搜狗等均在开发和实现个性化的 广告投放和内容推荐。近年来,文本、音频、视频以及商品等的推荐系统都呈现出持续发 力的态势,相关公司的业务量都在迅猛增长。
算法分发系统、用户画像、内容建模、推荐 算法
第1节 算法分发系统概览
【提要】 算法推荐模型的基本要素包括“用户”“内容”“分发算法”,算法推荐系统 本质上就是要解决用户和内容的有效匹配问题。
一、算法分发系统的起源和发展
广义上,推荐系统的推荐领域并不局限于推荐数字化的内容(新闻、电子书籍、音视 频节目等),而是根据用户的信息需求、兴趣等,将用户感兴趣的信息、商品等推荐给用 户。在算法推荐系统出现之前,用户为了解决信息过载的问题,可以使用搜索引擎,通过 指定一定的查询关键词,由搜索引擎返回相关文档和网页。与搜索引擎相比,推荐系统通 过研究用户的兴趣偏好,进行个性化计算,由系统自动发现用户的兴趣点,从而更准确和 主动地满足用户的信息需求。
在这种情况下,算法推荐系统可以根据用户的授权读取用户在微博、微信 等平台的公开数据如昵称、发布内容、阅读历史等等,如此便可在不需要 用户直接提供个人兴趣爱好信息的情况下,使用自然语言处理和机器学习 等算法,根据用户在其他服务中的行为数据提取用户的兴趣特征,扩充用 户画像的标签数量,达到尽快完善用户画像的目的。
●服务/产品的私人定制: 个性化服务某类群体甚至每一位用户。当前,用户对个性化服务的要求越来越 高,而只有在充分理解每一个用户的基础上,才有可能提供个性化的服务,因 此用户画像越个性化、越准确,给用户提供的个性化服务才会越完善。
二、如何构建用户画像
【提要】 用户画像的构建过程分为“基础数据收百度文库”“用户行为建模”“构建用户画像” 三个阶段。
二、算法分发系统的基本模型
算法推荐系统的基本模型
内容侧
在推荐系统中与用户相对的另一侧是内容侧。系统同样需要对内容进行抽象建 模并提取特征,包括内容的形式(如文本、音频、视频)、类别、主题、关键 词等等,这些均属于内容的特征属性。
二、算法分发系统的基本模型
用户在使用算法推荐系统的过程中会不断地对算法推荐的效果进行反馈。 这些反馈行为可以是隐性的也可以是显性的。
四、用户画像的“冷启动”
策略二:
用户分类和聚类。尽管个体用户都有“千人千面”的兴趣特点,但在 一定程度上仍可以对用户进行分类和聚类,而针对同一类用户的推荐对此 类用户中的所有个体的推荐均有一定的有效性和合理性。具体地,对于新 注册使用系统的用户,可以使用其基本信息标签(如性别、年龄、手机机 型、网络特征、地理位置)
四、用户画像的“冷启动”
【提要】 算法推荐系统的新用户存在“冷启动”问题,可以设计不同的策略,尽快完善新 用户的用户画像。
对于新加入系统的用户,系统通常只能要求新用户提供一些身份特征之类的基础 信息。在新用户注册时试图获得全面的用户兴趣和个性特征的过程比较烦琐。这 样容易导致用户丧失兴趣而不再尝试注册使用新系统。这样难免使得用户画像包 含的有效标签十分有限,系统对用户个性化特征和兴趣爱好的刻画能力不足。 如何给系统并不了解的新用户提供有效的内容推荐,通常被称为新用户的“冷启 动”问题。 本节介绍两种策略供读者参考。
五、用户画像的设置和调整策略
AlgorithmicJournalism
算法新闻
2 第 章 算法推荐原理
本章要点
关键词
为了理解算法分发系统的推荐原理,需要对 其进行合理的抽象和模型化,即提取出算法 分发系统的若干基本要素,并对这些要素的 功能和相互作用进行梳理。第一个基本要素 是用户。第二个基本要素是内容。第三个基 本要素便是算法,系统中的大量用户与海量 内容是无法自行匹配的,这就需要推荐算法 把用户和内容连接起来,高效地把合适的内 容推荐给合适的用户。同时,用户也通过阅 读行为等对算法进行反馈,帮助修正算法。
隐性反馈
比如,一个用户经常阅读系统推荐的内容,说明推荐的准确度比较高,能符合 目标用户的需求;相反,如果推荐给用户的内容被阅读部分的比例并不高,则 推荐的效果并不好,需要对推荐逻辑进行调整和修正。
显性反馈
比如对推荐的内容点击“喜欢”或“不喜欢”等反馈按钮,或对推荐内容进行 评论,推荐算法通过识别用户评论的情感和语义表达可以了解用户对推荐效果 的反馈。
查找系统已有用户中与新用户相似度较高的用户,把新用户归类为这些用 户所属的类别中,从而使用相应的用户类别的内容推荐规则进行有针对性 的推荐,并依据用户的阅读行为及时反馈,形成新用户自己的画像标签集 合
五、用户画像的设置和调整策略
【提要】 对用户画像的设置和调整可以采取过滤噪声数据、适度降低热点标签权重、重视 标签的时间敏感度、调整负向操作权重以及考虑全局背景等策略。
五、用户画像的设置和调整策略
策略一:过滤噪声数据
在用户与推荐系统的交互过程中,并不是所有的点击和阅读动作都是有效 的。对某个用户而言,如果他对系统推荐的某个内容仅仅是点击标题而并 不阅读,或是很快地结束阅读,则说明用户对此内容的兴趣并不高,这可 能是因为系统识别的用户兴趣与用户的真实兴趣有偏差,或是存在一定的 标题党内容,导致用户虽然点击了内容却不存在实质的阅读或观看动作。
一、用户画像的概念和作用
●效果评估,完善产品运营,提升服务质量: 可以通过构建测试用户的方法实现效果评估,这些测试用户对推荐内容是
否采纳和阅读的行为是确定的。 假设测试用户A仅对篮球和网球主题的内容感兴趣,推荐算法1为其推荐
了5篇篮球新闻、3篇网球新闻和3篇财经新闻,推荐算法2为其推荐了1篇 篮球新闻和9篇国际新闻,则以用户A为测试用户的情况下,推荐算法1的推 荐效果要明显优于推荐算法2。
●用户统计: 统计用户的使用和购买行为。例如,统计国内大学生个人购买书籍总量前十
的大学,由此分析和解读国内大学生的书籍阅读行为特征和趋势。
●数据挖掘,智能推荐: 利用关联规则计算,进行商业智能创新。例如,某商场可以通过大量的顾客
购买记录生成各种关联规则,比如分析喜欢红酒的人通常喜欢什么运动品牌,也 许对酒的品味与对运动品牌的喜爱程度存在某种关联,而这种关联一旦被确定, 就可以用来进行商品组合的智能推荐。
三、用户画像标签体系
需要注意的是,上述标签体系仅仅是一个概述性的标签体系,在具体的算法 推荐系统中,每一类特征都会对应数量较大的标签实例。比如垂直兴趣特征 中的“科技”这个特征,又可以逐级细分为:消费者科技→数码产品科技→ 单反相机→某品牌→某型号。而系统中的每个用户画像则是从标签体系中抽 取不同的标签来具体表述当前用户的个性化特点。
广义的推荐系统发源于20世纪90年代中期,至今经历了不到30年的发展。
1995年卡耐基·梅隆大学和斯坦福大学的学者分别提出了个性化导航系统和个性化推荐系 统。同年,麻省理工学院的学者也提出了个性化导航智能体。
1996年雅虎公司开放了网页的个性化入口MyYahoo,支持用户定制雅虎的个性化首页内容。
用户画像的构建过程可以分为三个阶段 第一阶段进行基础数据的收集。重点采集用户的个人信息、网络使用行为等 方面的数据。 第二阶段对采集到的基础数据进行分析和挖掘,实现用户行为的建模。 第三阶段是为每个用户构建个性化的用户画像,这是对前两个阶段采集数据 的进一步提炼和抽象。
二、如何构建用户画像
用户画像的构建并不是孤立静态的单次过程,推荐系统会根据用户的行为数据 不断更新用户画像,以达到提高刻画用户特征准确度的目的,最终目标是提高 推荐的准确度和有效性。