实用文档其他之一种基于内容的新闻推荐系统实例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于内容的新闻推荐系统实例
摘要:互联网的飞速发展产生了信息过载问题,新闻数量的爆
炸性增长使得读者受到“信息迷航”问题的困扰。
为解决这一问题新
闻推荐系统应运而生。
文章针对该系统的关键部分即新闻特征值提
取和用户画像做了深入的研究。
采用了tfidf进行新闻分词及特征值
提取,将新闻用空间向量模型表示并利用pu learning来解决用户画像时负反馈数据难以得到的问题。
最后以实例证明了该方法的可行性。
关键词:推荐系统;词频-逆文档概率;用户画像;负反馈数据;pu学习
中图分类号:tp393 文献标识码:a 文章编号:1009-3044(2015)25-0036-03
an instance of a content-based news recommendation system
dai chen-xu, zhou xi-chen
(school of information engineering, north china university of science and technology, tangshan 063009,china)
abstract: the development of the internet is always followed by several issues,such as ’information overload’
and ‘information lost’. those issues bother internet users
among daily lives due to huge numbers of information, as so called ‘information explosion’. in order to solve the problem,news recommendation system appeared. it makes a deep research on the key parts, extract of news feature value and user portrait, of the system. tfidf is used to extract news
words and feature extraction, using spatial vector model of news, and learning pu is used to solve the problem of
negative feedback data is difficult to be obtained in user portrait. finally, the feasibility of the method is demonstrated by an example.
ystem; tf-idf; user portrait ; negative feedback data ; pu learning
随着网络信息量的爆炸性增长,推荐系统成为研究热点,个性
化新闻推荐得到了人们的重视,个性化新闻推荐系统纷纷出现。
目
前比较主流推荐算法有基于协同过滤的推荐和基于内容的推荐[1]等。
由于协同过滤是根据用户对新闻的访问记录来进行推荐的,只有被
阅读过的新闻才能被推荐,然而新闻的生命周期十分短暂,用户的
访问矩阵会相当稀疏,这对于时效性要求比较高的新闻推荐系统是
相当严重缺陷,所以采用基于内容的推荐。
基于内容推荐,对分别对新闻和用户建模,然后把与用户历史
上阅读的新闻相似的新闻推荐给用户。
一般来说新闻和用户建模有
两种方式:向量空间模型和浅层语义模型。
向量空间模型有词袋模
型和词频-逆文档概率tfidf (term frequency invert document frequency),浅层语义模型有概率潜在语义索引plsi
(probabilistic latent semantic indexing)和潜在狄利克雷分布
lda(latent dirichlet allocation)。
1 关键技术
基于内容的推荐方法一般包括以下三步:
1)新闻特征提取:在新闻的内容中抽取一些特征,用于结构化
表示新闻;
2)用户画像:即用户建模,利用一个用户过去喜欢(及不喜欢)的新闻的特征数据,来学习出此用户的喜好特征;
3)推荐生成:通过计算前面得到的用户画像与候选新闻的特征
相似度,为此用户推荐一组用户喜好最相近的新闻。
新闻系统流程如图1所示:
1.1 新闻特征提取
大多数的基于内容的推荐系统在处理文字类item特征时,都会
尝试将一篇文章映射到量空间模型vsm(vector space model),
在模型中,每一篇文章都被表示为一个n维的向量,每一维都对应
词典中的一个词,这时文章会被表示成为一个包含每个词的权重的
向量。
新闻特征向量生成流程如图2所示。
图2 新闻特征向量生成流程
为了得到新闻的特征值,首先要对新闻进行分词处理,将其划
分成若干词条的组合。
将新闻表示为向量空间模型带来了两个问题,即每个词的权重和向量之间的相似度计算,词频-逆文档概率tfidf[2] 被普遍用在处理各种自然语言的应用中来解决这个问题。
1.2 用户画像学习。