新闻推荐算法的问题及优化策略
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
类应用要而对 大量历史 阅读 记录空白的 细 腻 的心 理 需要 。
其与用户兴趣 进行 匹配。算法 并不知道
新增用 户,对他 们进行个 性化 推荐 的效
协 同过 滤算法 本身的缺 陷,亦造 成 文章水平如何 ,内容是 否健康 。一篇 文章
果并不好  ̄_-fl司题被称 为 “冷启动 ”问 了一些个 性化推荐 算法的推送 内容不符 可能没有任何 有 意义的 内容,只是堆 砌
进 行匹配 ,因此越 是相似 的结果 越会被 应当获得用户的许可和授权。
尽管自动化内容 审核 系统已经 做得
优先推荐,这容易导致 内容同质化 。
程序可以通过用户ID获取其他 应用 比较先进 ,但 仍需要人工审核来进行 最
(三)信息茧 房与信息成瘾
内的数 据。用户如 果是 以微博 账号登பைடு நூலகம்录 后 把 关。要 积 极通 过 立法 方式 规 范 监
被用户接 触到,并且 进行合 理 的广告 收 用 ;另一 方 面 ,拓 展 用户 的兴 趣 ,可 以使
(五 )版权
入分成 ,让优质 内容能 够实现 循环再生 得推 荐给用户的广告 信息 不局 限于一 个
算法只 负责推荐,并不知道文 章 由 产。另外,应 当加 强内容审核,有针对性 小 范围内,从商业 利益角度 来说也 大有
个 性化新闻推荐系统在实 际的应用 中褒 贬不一,通过 对一些用户的访谈,笔 者发现 ,个性 化新 闻推 荐中往往含有一 些劣质内容,利用人 陛的弱点,导致 过度 娱乐化 的新闻泛滥。这 些刺激 感官的 内 容吸引人们点击,造成了点击量 上的 “虚 假繁荣 ”以及用户的 “信息成瘾 ”。
过 的文章和相应 的喜好,但是对于用户来
可 以考虑给 予优 质内容 生产 者发布 度 ,增加用户的兴趣点,可保证用户的长
说 ,这种记住不一定是好事,用户也存在 的内容以更高 的推荐 权重,使其更容 易 期体 验,避 免用户 兴趣转移时放 弃该应
着 让 算 法 忘 记他 过去 喜 好 的需 求 。
探 索
新 闻推荐算法 的 问题 及优化策 略
以人工神经 网络为代表的新的算法范式 ,对于推荐 系统 中许多难以解决的老问题,很可 能 会有 非 常 好 的效 果
文 ,匡文 波 陈小 龙
新闻推荐算法 是 目前新媒体研 究中 的热 点。在前 互联 网时代,报 纸 、广 播、 电视等传 统媒体主要通过 人工为受众推 荐信息;在互联网发展 的初期 ,信息的热 门推荐方 法得 到发展并在雅虎等 网站大 量使 用;目前所处的大数据 时代,则以个 性化 算法推荐和信息流展现为主流 。
内容会变得狭 隘。在一次又一次阅读自己 很多应用都采用了这种直接 的方 法来 获 容 倾斜 ,对频频 出现 三俗 内容的产品加
喜欢领域的信息后,用户不断地在 自己与 取新用户初次打开时的喜好。
以约 束 。
整个世界之 间筑起一座高墙 。许多人沉湎
对于 协同过 滤算法可能 存在的不恰
(四)克服信息茧房
纯粹 的个 性化推荐系统对 文章的质
用户缺乏有质 量的数 据,个 性化推 荐远 户气质 、性格 、生 活方 式进行 深层 次 匹 量和 内容 是没有把 关的。算法所 做 的只
远不如热 门推 荐 的效 果。多数 新闻资讯 配,很 难满 足用户阅读新 闻资讯 中一些 是提 取文章 中包 含的特征 关键词 ,并将
供 图 FP
个性 化新 闻推荐算 法的问题
(一 )内容不符合用户兴趣
同 问题 。
闻往往 很 受 欢 迎 ,因此 用户 在 协 同过 滤 中
个性化推 荐算法并不一 定能把符 合
从 目前 自然 语言 处理 的局 限 来 看, 的近邻群体 多少都阅读 过一些娱乐新闻,
用户兴趣的内容推荐给用户,造成这个问 个 性化推荐系统无 法对文章内容做 深入 但这个用户可能从 来 不读娱 乐 新闻,强
于这样 的拟态环境中,无法 自拔。
当推 荐问题,在应用上可以增加 一个设
互联网公司应该 改变 唯用户时长的
(四 )可遗忘性
置界而,允许用户设定明确不想被推荐的 KPI评 判标准 ,从 更大 的格局 考虑推 荐
个 性化 推 荐算 法 “记住 ”了用户看 话题 ,增加算法的可预钡 和可控制性 。 系统的 目标。—方面 ,扩展推荐内容 的广
荐 系统是根据用户已有的阅读 偏好进行 然后匹配相关文章进行推送 。
消费市场不至于沦为低 质量内容循环生
关 键 词匹配和推 荐,因此相似 性较 低 的
最简单直接且效果也 比较好 的方 式 产 的垃 圾堆 。政府 还应对互联 网企 业加
内容基本上不会被推荐,这样用户的阅读 是请用户直接表达 出其喜好 的资讯话题 。 以引导,鼓 励企业将 算法权重 向优 质 内
题,是 大 多数个 性化推 荐系统面 临的共 合用户兴趣。一个经典的例子是 ,娱 乐新 一 些用户可能感 兴趣 的词语,但仍然会被
7,I嘲缀伟镛 2【】l8 8
算 法 推 送 给用 户。
选择这三种方法来解决 。需要注意的是,
(三 )加大 人工审 核力度 ,加强 立法
算法本身是对用户特征和文本 数据 此举可能侵犯 用户 隐私 在实际应用中, 管理
信息茧房 (Information Cocoons)指 到系统 中,可以尝试获 取其微 博关注信 管,鼓励优质主旋律内容的生产和传播。
的是信息个 性化技 术使得人们 可能减少 息 、转发信息等 ,从中提取文 本关 键 词, 同 时政 府 机 构 应 当 发 挥 作 用 ,对市 场 调
阅读多样 化内容的趋势。由于个性 化推 在推荐层而把关键词加入到用户画像中, 节失 灵的情况进 行合理干预 ,让信息流
题 的原 冈有 很 多 。
理 解。目前 的自然语 言处 理只能 从其 特 行推 荐会使他反感 。
从数 据质量上看,个性 化推 荐对数 有 高频关键词层面进 行标 签层面的相似
(二 )内容质量 问题
据的 数量 和质量要求 比较 高,如 果一个 度 匹配 ,这样产生的肤浅话题 ,无法与用