基于内容的新闻推荐系统

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于内容的新闻推荐系统
项目课题 功能描述
方法描述
基于内容的新闻推荐系统
网络媒体中, 新闻资讯的数量以近乎爆炸的速度增 长, 使广大网络新闻的读者受到“ 信息过载”和“ 信息 迷航”问题的困扰 。个性化新闻推荐系统可以通过分 析用户使用习惯, 识别用户兴趣点,将用户感兴趣 的 新 闻资讯推荐给用户 , 过滤他们不感兴趣的内容 , 而我所作的这个推荐推荐系统就是为了有效地缓解上 述问题。
一般在一个个性化推荐系统中,用户对已经看过的对象依据感兴趣 程度进行评分,推荐系统根据用户对已查看对象的评分情况,预测用户 对未查看对象的评分,并将用户未查看对象按照预测评分的高低排序, 呈现给用户。
抽象地看,推荐系统是预测用户对未查看对象评分的系统。而推荐 系统对未查看对象的评分方法即为推荐算法。而主要的推荐算法有三 类:①、协同过滤的推荐方法、②、基于内容的推荐方法、③、混合的 推荐方法。
基于内容的新闻推荐系统:它将计算得到并推荐给 用户一些与该用户已选择过的项目相似的内容。例 如,当你在网上看新闻时,你总是阅读与IT相关的文 章,那么基于内容的新闻推荐系统就会给你推荐一些 热门的IT方面的文章。
基于内容的推荐(Content-based Recommendation)是建立在项目的内容信息上作出推 荐的,而不需要依据用户对项目的评价意见,更多地 需要用机器学习的方法从关于内容的特征描述的事例 中得到用户的兴趣资料。
技术难点
常用的有决策树、神经网络和基于向量的表示方法 等。基于内容的用户资料是需要有用户的历史数据, 用户资料模型可能随着用户的偏好改变而发生变化。
要实现内容推荐系统总体来说要经过4个大的步骤: 1、搜集数据,2、过滤数据,3、分析数据,4 输出结 果。
难点1:如何实现新闻正文的过滤下载。 难点2:如何对新闻进行量化,并提取出关键词,最 后完成数学建模。 难点3:如何利用基于内容的推荐技术为每个用户建 立用户模型。 难点4:如何用编程语言实现这些软件功能,这便是 该软件设计过程中最最困难的一个难题。
3)、计算推荐——基于物品的 CF
比如说,对于物品 A,根据所有用户的历史偏好,喜欢物 品 A 的用户都喜欢物品 C,得出物品 A 和物品 C 比较相似, 而用户 C 喜欢物品 A,那么可以推断出用户 C 可能也喜欢物 品 C。 物品 C 比较相似,而用户 C 喜欢物品 A,那么可以推 断出用户 C 可能也喜欢物品 C。
3 因为需要基于用户以往的喜好历史做出推荐,所以对于新 用户有“冷启动”的问题。
新闻推荐系统结构图 新闻采集模块:
主要负责从互联网上采集新闻资讯信息,主要以国内知 名新闻门户类网站作为其新闻源。比如说:搜狐、新浪、新华 网、凤凰网等。在本项目中仅以凤凰网作为新闻源。它采集到 新闻后,将正文内容从页面中提取出来,保存到数据库中。作 为一个比较实用的新闻推荐系统,就因该保持推荐的新闻的
应用也可能大不相同,比如说:
用户行 类型 作用

评分 显式 通过用户对物品的评分,可以精确的得到用户的偏好
投票 显式 通过用户对物品的投票,可以较精确的得到用户的偏

转发 显式 通过用户对物品的投票,可以精确的得到用户的偏
好。
如果是站内,同时可以推理得到被转发人的偏好(不
精确)
保存书 显示 通过用户对物品的投票,可以精确的得到用户的偏
资源调度模块: 主要负责监控系统当前负载情况,按照算法调整新闻数
据保持的时间时效,从而保证新闻的实时性,并控制新闻的数 量;此外还要调用推荐算法进行计算和关于相似度的计算。
用户在浏览新闻的过程中,其使用习惯主要包括使用时 间、阅读的新闻分类(国际、社会、科教、IT、医疗等等)、 每天新闻阅读时间和次数等等信息,而这些信息都应该呗记录 到用户数据库。然后,由用户建模模块进行数据分析,并最终 生成用户模型保存在用户模型数据库中。
新,亦即在此模块还应该负责管理系统中活跃的新闻,若某一 新闻的发布时间超过一定的时效则视为过期,并标记为已归 档,而不会出现在以后的推荐列表中。
新闻推荐模块: 主要负责响应用户请求,生成新闻推荐列表,并将列表
返回给用户。在改模块中使用的算法便是基于内容的推荐算 法,此外,在推荐结果中,还会将最新的新闻整合到推荐列表 中,因为最新的新闻是依据时间排序的,而内容具有随机性。
①、协同过滤是利用集体智慧的一个典型方法。 协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似
的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西 组织成一个排序的目录作为推荐给你。
比如说,如果你现在想看个电影,但你不知道具体看哪部,你会怎 么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推 荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是 协同过滤的核心思想。
基于物品的 CF 的基本原理
②、基于内容的推荐方法 它是将与用户过去感兴趣的对象相似的对象推荐给用户,该方
法是对协同过滤的延续和发展,主要借鉴了信息抽取和信息过滤的研究 成果,依据被推荐项目的内容特征来进行推荐。
③、混合的推荐方法。 它则是以上两种方法的综合体。
可见,要想做一个个性化的新闻推荐系统,最理想的是运用 协同过滤推荐方法。
内容过滤主要采用自然语言处理、人工智能、概率 统计和机器学习等技术进行过滤。
通过相关特征的属性来定义项目或对象,系统基于 用户评价对象的特征学习用户的兴趣,依据用户资料与 待预测项目的匹配程度进行推荐,努力向客户推荐与 其以前喜欢的产品相似的产品。
在基于内容的推荐系统中,项目或对象是通过相 关的特征的属性来定义,系统基于用户评价对象的特 征,学习用户的兴趣,考察用户资料与待预测项目的 相匹配程度。用户的资料模型取决于所用学习方法,
协同过滤相对于集体智慧而言,它从一定程度上保留了个体的特征, 就是你的品位偏好,所以它更多可以作为个性化推荐的算法思想。 二、协同过滤的实现步骤:
1)、收集用户偏好
而要从用户的行为和偏好中发现规律,并基于此给予推荐,
如何收集用户的偏好信息成为系统推荐效果最基础的决定因
素。用户有很多方式向系统提供自己的偏好信息,而且不同的
该模块还必须定时运行,从而不断更新用户模型,从而 使得用的兴趣转移能够实时反映到用户模型中。
监视系统资源,根据负载情况实时调整计算资源的分 配,从而保持系统稳定的响应时间。
对于用户的不同主题的兴趣特征进行分类。 计算使用用户关注某篇新闻的时间时间长度,并以此来 作为用户对此新闻的一个关注度的指标。
用户兴趣挖掘: 用户数据获取 语义预处理 文本分类 用来自百度文库兴趣模型
但是, 智能推荐大都基于海量数据的计算和处理,然而在海 量数据上高效的运行协同过滤算法以及其他推荐策略这样高复 杂的算法是有很大的挑战的。
相对于智能推荐,只要求实现基本的推荐功能的新闻推荐 系统来说,基于内容的推荐方法比较合适。在使用该方法的系 统中,被推荐对象使用其内容的特征进行表示,推荐系统通过 学习用户的兴趣,将用户模型与被推荐对象进行相似度比较来 实现特征提取。而文本类的内容,其特征相对来说较易提取, 而且最为普遍的网络新闻正是文本新闻。
所以,在文本要描述的网络新闻系统中,采用基于内容的
推荐方法,效果相对较为显著。
基于内容推荐机制的基本原理
首先我们需要对新闻的元数据有一个建模,这里只简单的 描述了一下新闻的类型;然后通过新闻的元数据发现新闻间的 相似度,因为类型都是“文化,科教”新闻 A 和 C 被认为是相 似的新闻;最后实现推荐,对于用户 A,他喜欢看新闻 A,那 么系统就可以给他推荐类似的新闻 C。

好。
标记标 显示 通过分析用户的标签,可以得到用户对项目的理解,

同时可以分析出用户的情感:喜欢还是讨厌
评论 显示 通过分析用户的评论,可以得到用户的情感:喜欢还
是讨厌
2)、找到相似的用户或物品
当已经对用户行为进行分析得到用户喜好后,我们可以
根据用户喜好计算相似用户和物品,然后基于相似物品进
行推荐,这就是最典型的 CF 的分支之一——基于物品的 CF。
文本分类技术: 文本分词 关键词提取 特征值离散化 关键词和分类
新闻推荐模块
这种基于内容的推荐机制的好处在于它能很好的建模用户 的口味,能提供更加精确的推荐。但它也存在以下几个问题:
1 需要对物品进行分析和建模,推荐的质量依赖于对物品模 型的完整和全面程度。在现在的应用中我们可以观察到关 键词和标签(Tag)被认为是描述物品元数据的一种简单 有效的方法。
2 物品相似度的分析仅仅依赖于物品本身的特征,这里没有 考虑人对物品的态度。
相关文档
最新文档