基于LDA文本主题挖掘的个性化推送及其在Spark平台的实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

工程硕士学位论文
基于LDA文本主题挖掘的个性化推送及其在Spark平台的实现
作者姓名梁剑
工程领域电子与通信工程
校内指导教师陆以勤教授
校外指导教师宗凌高级工程师
所在学院电子与信息学院
论文提交日期2015年12月
The Personalized Recommendation Based on LDA Text Topic Mining and Implementation on Spark
A Dissertation Submitted for the Degree of Master
Candidate:Liang Jian
Supervisor:Prof. Lu Yiqin
South China University of Technology
Guangzhou, China
摘要
随着互联网技术的发展,互联网已经深入生活中的方方面面,数据规模也从GB级发展到TB级,甚至是PB、EB级。

传统的信息检索技术通常只能返回主动查询的结果,并不能很好的解决用户实际的搜索需求。

在面对海量结果的情况下,也不能达到准确的满足用户之间差异化检索的需求。

个性化推荐技术通过对用户的历史数据进行挖掘,分析用户的历史记录以产生用户的兴趣模型,根据所产生的用户兴趣模型产生主动推荐的内容信息。

个性化推荐这一方法将传统的用户主动检索信息转变为网站的主动推荐信息,在满足用户信息需求的同时又能实现用户间的差异化。

本文在文本资源挖掘的基础上,研究如何通过对用户历史行为分析及文本的主题挖掘,获取用户主题层面的兴趣偏好,进而进一步的进行相似性计算工作。

本文工作主要包括以下几个方面:
本文提出了个性化主题网络(Personalized Topic Network,PTN)模型,构建基于用户、文本和主题的无向图模型。

通过对用户的历史行为和文本的隐含主题挖掘,建立用户通过文本到主题的联系,使得从主题层面描述用户的兴趣偏好成为可能。

模型底层采用LDA(Latent Dirichlet Allocation)算法对文本的主题进行挖掘,以获得文本的主题向量描述。

通过对用户历史行为挖掘以得到用户主题偏好的向量描述,计算用户与待推荐文本之间的相似性以获得待推荐列表,实现基于用户主题偏好的个性化推荐。

针对个性化主题网络模型,本文对传统LDA算法中参数估计的串行Gibbs Sampling 方法进行优化,设计了基于Spark平台的并行化Gibbs Sampling方法。

解释说明了并行优化算法的数据集划分重组方式,对重组数据间的串行采样以及每轮迭代之间统计量更新方式进行了公式上的解释说明。

本文设计了个性化推荐方案基于Spark平台的系统流程和架构,对主要模块功能进行了说明。

基于个性化主题网络模型的系统设计,本文搭建了伪分布Spark测试平台对公开文本数据集以及模拟用户浏览记录数据进行了测试。

详述了Hadoop底层和Spark计算框架的搭建过程,对参数选择、计算结果和推荐结果采用了图表的方式进行效果的分析。

关键词:个性化主题网络;个性化推荐;LDA;Spark
I
Abstract
With the development of Internet technology, the Internet has depth all aspects of lift. The development of data scale is from GB level to TB level, even PB and EB level. Traditional information retrieval technology usually returns results only base on user’s query and cannot meet the real demand of user’s. Facing the massive result, Traditional information retrieval technology cannot achieve accurate retrieval to meet the different needs among users. Personalized recommendation technology through the user's historical data mining, analysis of historical records the user to generate user interest model, generating initiative recommended content information based on user interest generated by the model. Such personalized recommend method change the traditional of user actively retrieving information to the active recommendation information from the website, which meeting the information needs of the user while establishing the differences.
Based on text resource mining, this paper study how to analyze the history of user behavior and use text topic mining to get the preferences of user in topic level. This work includes the following aspects:
This paper proposes the Personalized Topic Network model. Constructing undirected graph model based on the user, the document and the topic. Through the analysis of user’s history behavior and latent topic mining of document, connecting user to the latent topic via document. Making the description of user’s preferences from topic level as possible. This Model uses the latent dirichlet allocation algorithm mining the latent topic of document to get the topic description of document in the form of vector. By mining the Personalized Topic Network model, getting the vector representing the user’s preference of topic. It can be used to calculate the similarities between the user and documents to form the list of recommendation which making the personalized recommendation based on user’s preference on topic comes true.
For the Personalized Topic Network, the traditional Gibbs Sampling method is optimized in this paper. A new parallelized Gibbs Sampling algorithm on Spark platform is designed. Explaining the splitting and reconstructing method in parallel optimization algorithm. Giving
the update formulas between each iteration of parallel Gibbs Sampling on reconstructing data sets and the method of adjusting the statistics. This paper designs the system architecture and processing flow on Spark platform, explaining the function of the main modules.
According the system design of the Personalized Topic Network model, this paper sets up a pseudo-distributed Spark testing platform to experiment on the open source texting data sets form Stanford and simulation web log of user browsing behavior. Detailed the process of deploying the pseudo-distributed Hadoop platform and Spark computing framework. Explaining the parameter selection of LDA algorithm. Using charts to analysis the effect of computing result and the accuracy of recommendation list.
Keywords: Personalized Topic Network; Personalized Recommendation; LDA; Spark
III
目录
摘要 (I)
Abstract ...................................................................................................................................... I I 第一章绪论. (1)
1.1 研究背景及意义 (1)
1.2 国内外研究现状 (2)
1.2.1 个性化推荐研究现状 (2)
1.2.2 主题模型LDA研究现状 (4)
1.2.3 Spark平台相关研究进展 (5)
1.3 研究工作与论文结构 (6)
1.3.1 论文的主要研究内容 (6)
1.3.2 论文的结构安排 (7)
第二章主题挖掘技术及Spark平台概述 (9)
2.1 LDA主题模型和机器学习算法基础 (9)
2.1.1 主题模型方法概述 (9)
2.1.2 分布函数基础 (10)
2.1.3 相似度的计算 (13)
2.1.4 机器学习相关基础 (14)
2.1.5 Basic LDA模型 (18)
2.2 Spark平台相关技术 (19)
2.2.1 Spark生态系统(BDAS)简介 (19)
2.2.2 Spark的核心抽象和算子介绍 (20)
2.2.3 Spark的架构 (22)
2.2.4 Spark运行逻辑 (23)
2.3 Spark平台并行化方案研究 (24)
2.3.1 并行化编程基础 (24)
2.3.2 基于Spark平台并行化方案 (25)
2.4 本章小结 (25)
第三章LDA文本主题挖掘及其并行化设计 (27)
3.1 LDA算法模型 (27)
3.1.1 文本表示方法 (27)
3.1.2 Smoothed LDA生成模型 (28)
3.1.3 LDA算法的Gibbs Sampling方法 (30)
3.1.4模型评估方法 (31)
3.2 基于Spark的并行化LDA实现方案设计 (32)
3.2.1 并行算法优化设计 (32)
3.2.2 并行处理流程及伪代码 (33)
3.3 基于LDA文本主题挖掘的文本处理方案 (34)
3.3.1 文本相似计算 (35)
3.3.2 文本标签化处理 (35)
3.3.3 预测新文本 (36)
3.4 本章小结 (36)
第四章个性化推荐系统及基于Spark平台方案设计 (38)
4.1 个性化推荐方法及性能分析 (38)
4.1.1 协同过滤算法 (38)
4.1.2 基于隐语意模型的推荐算法 (39)
4.1.3 基于内容的推荐算法 (40)
4.2 基于LDA文本主题挖掘的个性化推荐 (42)
4.2.1 个性化主题网络 (42)
4.2.2 基于个性化主题网络的用户行为分析 (44)
4.2.3 基于个性化主题网络的推荐问题 (45)
4.3 个性化主题网络推荐方案设计 (46)
4.3.1 个性化主题网络推荐系统框架 (46)
4.3.2 文本数据预处理模块 (47)
4.3.3 用户兴趣偏好生成模块 (49)
4.3.4 个性化推送计算排序模块 (50)
V
4.3.5 文本资源标注和用户标签化处理模块 (51)
4.4 本章小结 (52)
第五章个性化主题网络推荐实现及评估分析 (54)
5.1 实验测试环境及数据 (54)
5.2 实验测试平台Spark搭建 (54)
5.2.1 基础开发环境配置 (55)
5.2.2 Hadoop单节点伪分布搭建 (55)
5.2.3 Spark伪分布环境搭建 (58)
5.3 实验测试结果与分析 (60)
5.3.1 主题数选择 (60)
5.3.2 主题分布采样结果 (61)
5.3.3 个性化推荐测试结果 (63)
5.4 本章小结 (66)
第六章总结与展望 (67)
6.1 论文工作总结 (67)
6.2 未来工作展望 (67)
参考文献 (69)
攻读硕士学位期间取得的研究成果 (75)
致谢 (76)
第一章绪论
第一章绪论
1.1 研究背景及意义
随着互联网技术的发展,互联网已经成为大家生活中必不可少的一部分。

截止2014年底,我国网民规模超过6.49亿。

伴随着互联网的发展,数据规模也从GB级发展到TB级,甚至是PB、EB级。

面对“数据丰富,知识匮乏”的挑战,如何从多而杂的数据中发掘出有用的信息,以及如何找到感兴趣的内容成为一个新的挑战。

我们迫切需要强大的数据分析工具从复杂的海量数据发现有用的隐含知识、相关关系和关联规则,以此带来巨大的价值。

同时,由于传统的信息检索技术通常只能返回主动查询的结果,并不能很好的解决用户实际的搜索需求。

在面对海量结果的情况下,信息检索技术通常不能达到准确的满足用户之间差异化检索的需求,在这种情况下,个性化推荐技术以及相关的数据挖掘算法随之产生,并且在当今的互联网数据产业中发挥着巨大且无可替代的作用。

个性化推荐技术的概念在20世纪90年代被正式提出。

在过去的十年中,随着Web2.0技术的迅猛发展,互联网信息的产生不仅仅由网站一方单一生成,用户也由最初的信息消费者转变为信息生产者。

用户角色的转变造成了互联网信息量的爆炸性增长,爆炸式的信息增长促进了推荐技术的革新。

个性化推荐技术与传统的信息检索和热门推荐不同,该技术通过对用户的历史数据进行挖掘,分析用户的历史记录以产生用户的兴趣模型,根据所产生的用户兴趣模型产生主动推荐的内容信息。

个性化推荐这一方法,将传统的用户主动检索信息转变为网站的主动推荐信息,在满足用户信息需求的同时又能实现用户间的差异化需求。

目前为止,个性化推荐技术在互联网的各个领域都发挥着巨大的价值,并为互联网变现带来直接的推动力。

面对互联网数据的爆炸式增长和所随之而来的海量数据计算需求,2004年google 实验室的Jeffrey Dean和Sanjay Ghemawat提出了著名的MapReduce编程模型,该模型作为谷歌公司的三大核心技术之一,主要用于在集群上实现并行或者分布式的算法,以处理传统算法无法处理的大数据集。

在这之后,Doug Cutting和Mike Cafarella在2005年根据MapReduce的论文创建了一个名为Hadoop的开源软件项目,并获得了Apache 软件基金会的支持,并且众多公司都加入到该项目的开发和维护之中。

随着Hadoop的迅猛发展,该项目的生态系统包括了Hbase,Hive,Mahout,Pig,Zookeeper等一系列
华南理工大学工程硕士学位论文
的子项目。

当处理大数据变得简单易行时,人们希望能将传统的数据挖掘和机器学习算法应用到海量数据的处理中一伙的更深层次的信息。

然而,Hadoop由于设计理念的原因,并不能很好的解决传统数据挖掘以及机器学习算法中的迭代计算的耗时问题。

为了解决大数据背景下的迭代计算的问题,UC Berkeley AMPLab在2009年创建了Spark 项目,并在2010年获得了Apache软件基金会的支持,将该项目开源。

由于Spark对迭代计算的优化,该项目迅速得到了广泛的关注和众多的项目参与者,而项目创始人也成立了Databricks公司专门推动该项目的发展。

因此,面对当今的海量数据,实现低时间复杂度的要求下的个性化推荐计算,并确保推荐结果有可靠的可解释性,本文所提出个基于LDA文本主题挖掘的个性化推荐系统,以及其在Spark平台的实现研究是具有现实意义的。

1.2 国内外研究现状
1.2.1 个性化推荐研究现状
推荐系统的发展历史已有20年之久,起源于美国明尼苏达大学MovieLens的电影推荐系统[1]。

从基于内容的推荐方法演化出协同过滤方法,关联规则等一系列的推荐方案。

Bob Goklberg等人提出了协同过滤的推荐方案[2],该方案影响了随后几年的推荐系统的发展方向。

一些如KDD,WWW的顶级计算机领域会议,每年都有大量关于推荐系统的相关文章。

在个性化推荐领域,Tolga Könik等人提出了基于电商网络的新的个性化推荐算法,是一种增量式的基于物品推荐的解决方案,系统根据用户最近的查询关键词决定物品相似的抽象程度[3]。

Shlomo Berkovsky等人面对现在在学术界和工业界流行的个性化推荐方案,基于用户的偏好和需求针对现有个性化推荐系统进行了分析,并在基于Web和手机应用上进行了个性化技术的实践测试[4]。

Hernan Badenes等人实现了基于社交媒体自动导出个性化特征的系统System U[5],将该系统用户个性化推荐的不同任务场景中。

该系统会基于社交媒体得出5类最基本特征和基础人口属性,可以广泛用于个性化应用中。

Fedelucio Narducci等人设计实现了一种通用架构,用于用户的情感探知和基于内容的推荐系统[6]。

该文主要面对音乐推荐领域的用户研究,其基于用户情感分析的方法获得了良好的效果。

Yuchen Zhang等人提出了一种基于在线购物数据进行自动分类挖掘隐
第一章绪论
含因子的新颖方法,该模型是非参数的,可以自动学习得到数据中的分类结构[7]。

此种方法有效的提高了推荐系统中的长尾物品的推送效果,在大规模在线购物数据上获得了良好的测试效果。

Fanjuan Shi等人提出了一种基于情感认知的方法,根据用户的情感状态和兴趣偏好进行物品推送,同时提出了一种行为概念“Wandering status”并强调了该概念在在线行为研究中的重要性[8]。

通过以上方法,可以构建一种友好的、以用户为中心的个性化推荐系统,提高用户体验和忠诚度。

Huiji Gao等人根据用户真实移动端行为数据,提出了一种基于社会网络地理位置信息的个性化推荐方案,总结了相关关键概念方法,该文基于真实地理位置信息进行了测试,讨论了有效的推荐效果评估方法[9]。

Qiang Song等人提出了一个用于用户爱好挖掘的统一的模型,用概率图模型处理协同过滤方法挖掘用户短期的偏好,同时联合广义主题模型表述用户长期的爱好[10]。

文章进一步引入用户历史偏好优化模型,并在两个真实数据集上测试了模型效果。

Yongfeng Zhang等人应用领域知识挖掘,产生物品特征层面的用户偏好时序模型,该模型能应对数据较少的场景,并能对用户偏好生成时序分析结果并根据交易模式洞察物品层面的变换[11]。

该文提出的方案在应对无交易记录的用户冷启动时,有较好的个性化推荐效果。

国内推荐系统研究领域,陈斌等人给出了一种协同过滤算法的设计和实现方法,采用余弦相似性计算项目间相似度并用加权平均值的方法,生成用户推荐结果[12]。

徐新瑞等人针对传统的批量学习的基于模型的协同过滤算法对新用户更新缓慢,模型训练成本高且扩展性不足等一系列问题,对置信权重在线协同过滤算法进行改进,引入自适应软边缘,提出二阶在线优化方法处理在线协同过滤中问题的新算法,并在Spark流处理框架下做了测试[13]。

王全民等人通过对现有的基于ALS的协同过滤算法在Hadoop上并行化实现的原理和特点进行深入的研究,提出了循环感知任务调度算法、缓存静态数据、任务循环控制、迭代终止条件检测等方法[14]。

杨志伟做了基于Spark平台的推荐系统研究,研究了多种算法的并行优化方法[15]。

北京邮电大学的周飞[16]以及华南理工大学的林文旋[17]做了基于微博的相关个性化信息推荐方法的研究,北京邮电大学的刘英做了基于用户评论的个性化差评推荐系统研究工作[18],董文研究了LDA和Word2Vec相结合的推荐算法[19]。

由此可见,个性化推荐算法是学术研究的热点领域,值得进行更深入的研究。

华南理工大学工程硕士学位论文
1.2.2 主题模型LDA研究现状
主题模型中的经典算法LDA(Latent Dirichlet Allocation)算法是David Blei,Andrew Ng和Michael Jordan于2003年发表的论文中所提出[20],第一次在本文中提出topic model 的概念,该方法的提出将原本基于概率统计的分析模型pLSA[21]嵌套在贝叶斯的框架之中,使得对参数的估计变为基于一定的概率分布的推断,对参数的估计方法采用了变分贝叶斯方法。

LDA算法是一种概率图模型,可以用贝叶斯网络表示模型的生成构建过程,是一种“完全的”贝叶斯模型[22]。

LDA算法中引入了概率共轭以优化模型的计算和推导过程,参数的推导采用了变分推断的方法[23]。

该方法一经发表,就吸引了众多学者的关注,然后被广泛的引入文本挖掘和信息处理领域之中。

主题模型的后验概率求解一直是学术领域的研究重点。

Blei采用的是变分贝叶斯的方法。

变分贝叶斯起源自Matthew J.Beal的博士论文[24],该论文所提出的后验概率的推断方法是LDA算法中参数推断的基础。

Justin Grimmer也对基于变分近似的贝叶斯推断方法进行了进一步的阐述,因为该方法一定会收敛而且容易达到收敛的状态[25]。

Colorado Reed对LDA算法进行了更深入的介绍解释,对Blei的文章进行交叉验证,并提供了相关的伪代码[26],David Binkley等人[27]对LDA算法进行了源码层面上的解释说明。

除了变分推断方法,采样方法通常是面对复杂分布估计的常用方法。

Christophe Andrieu等人对MCMC采样方法在求解机器学习中概率估计问题进行了介绍说明,同时回顾了MCMC模拟的主要应用领域[28]。

Gregor Heinrich对应用Gibbs Sampling方法对LDA参数估计进行了详细的推导,并进一步的讨论了狄利克雷分布超参数的估计方法[29]。

Bob Carpenter等人给出了LDA模型中采用Gibbs Sampling估计多项式参数和朴素贝叶斯模型的推导方法,该方法并不需对多项式分布进行采样[30]。

目前,Gibbs Sampling是对LDA算法进行参数估计的主要方法,但是,在面对海量文档的主题挖掘时,串行算法不能在有限的时间能达到收敛的效果。

因此,基于原始论文中变分推断求解的方法出发,Matthew D. Hoffman等人针对LDA的在线学习问题,研究出了基于随机优化的在线变分贝叶斯方法,能在有限的时间内处理大量的文本主题挖掘工作[31],这一工作是后期并行LDA主题挖掘的基础。

Ke Zhai等人也提出了一种基于MapReduce编程模型的,一种将变分推断应用于大规模主题模型挖掘的灵活方法[32]。

针对采样方法的参数估计,David Newman等人给出了LDA的分布式推断方法,并通过
第一章绪论
实验证实了分布采样在LDA参数的推断问题上也能取得良好的估计效果,即Approximate Distributed LDA算法(AD-LDA)和Hierarchical Distributed LDA算法(HD-LDA)[33]。

YI WANG首先采用了MPI和MapReduce实现了分布式的AD-LDA 算法,并命名为PLDA算法[34],ZHIYUAN LIU等人采用了数据分割和管道处理方法将该算法并行化,产生PLDA+算法[35]。

国内的腾讯公司成功实现了并行的LDA算法,即大规模主题挖掘系统Peacock[36],成功实现了主题模型的并行采样方法。

在应用方面,Bo Pang和Lillian Lee将主题模型应用与情感分析之中[37],情感分析是文本挖掘中一个新兴的领域,根据LDA算法对文本进行情感层面上的分类,构建相关情感分析任务框架。

Michal Rosen-Zvi等人,将主题模型进行拓展,从作者的角度考量文档主题的生成,该方法主要应用在学术文章的主题挖掘领域[38]。

Andrew McCallum 等人进一步拓展了基于作者进行主题挖掘的方法,对文本分布进行了作者-主题-接收者三个方面的建模扩展[39]。

Asli Celikyilmaz等人应用LDA算法构建了自动问答系统[40],J. Jeon等人应用LDA算法处理图像的标注问题[41],Haizheng Zhang等人将LDA算法应用于社区发现[42]。

LDA算法的参数估计和应用仍然是当前的研究热点之一,特别是其在大数据背景下的有效应用,需要不断的探索和发掘。

1.2.3 Spark平台相关研究进展
在过去的几年,信息量的爆炸式增长要求越来越多的程序以及算法能够扩展到更大的集群里进行计算处理。

与此同时,单台计算机设备的处理能力和I/O性能并没有跟上信息产生的步伐,分布式集群计算也因此蓬勃发展起来。

提到分布式计算首先必须涉及的就是Google的三大经典论文,分别是Google MapReduce[43],GFS(the Google File System)[44]和BigTable[45],并由此启发发展而成了Hadoop开源项目和衍生出的生态系统。

Spark平台作为目前Apache基金会中最炙手可热的项目,其目前的发行版本已经更新到1.5,已有越来越多的基于该平台的并行化算法增加到该项目中。

学术界和工业界也有越来越多的基于该平台的研究和应用工作。

目前Apache基金会也计划应用Spark 替代Hadoop生态系统中的MapReduce框架。

Spark的核心是Resilient Distributed Datasets
华南理工大学工程硕士学位论文
(RDD),Matei Zaharia的一系列学术论文对该抽象及Spark工作原理进行了详细的介绍[46][47][48]。

相比于传统的以Hadoop为基石的生态系统,Spark在性能和解决方案上都具有极大的优势,其基于RDD提供了一体化的解决方案,将多个计算模型同一至一个计算平台,提供一致的API和相同的部署方案,极大的扩展了Spark的应用领域。

在开源社区领域,越来越多的开发人员和公司加入到Spark的源码贡献中,在实际的应用环境中,eBay的Spark集群节点已经超过2000个,Yahoo等公司也在大规模的使用Spark集群。

国内的阿里巴巴、腾讯、百度、网易、京东、华为等互联网公司也深度使用了Spark集群。

Spark已经获得了世界20家顶级公司的支持,其中包括了Intel 和IBM等巨头公司,最大的4个Hadoop发行商都为Spark提供了强力的支持。

在2015年的Spark峰会上,Spark的贡献者比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行。

Spark最大的集群来自腾讯——8000个节点,单个Job最大分别是阿里巴巴和Databricks——1PB。

以Spark为中心的开源生态系统,从应用、运行环境、数据源等方面都有巨大的发展,基本囊括了与大数据相关的所有系统。

1.3 研究工作与论文结构
1.3.1 论文的主要研究内容
本文的研究内容是如何将文本主题挖掘应用到推荐系统中,如何通过用户的历史记录将用户与隐含主题相连接,以及如何将该系统在Spark平台并行化实现。

本文从模型和平台所涉及的基础理论出发,针对LDA算法进行了深入的分析和推导,参考设计了并行采样方案。

提出了个性化主题网络模型,将LDA文本主题挖掘和用户历史记录挖掘相结合构建个性化推荐系统。

最后,搭建了并行计算测试平台对测试数据进行了测试,并分析了算法计算结果。

主要研究内容如下:
(1)本文提出了个性化主题网络(Personalized Topic Network,PTN)模型,构建了基于用户、文本和主题的无向图网络模型。

通过对用户的历史行为和文本的隐含主题挖掘,建立用户通过文本到主题的联系,使得从主题层面描述用户的兴趣偏好成为可能。

设计了不同了用户历史记录的挖掘方法,并将用户对文本偏好与文本的主题分布相融合,获得用户主题偏好的向量描述。

用户的主题偏好用于计算用户与待推荐文本之间的相似
第一章绪论
性,获得待推荐文本列表,实现基于用户主题偏好的个性化推荐。

针对该模型,本文设计了其基于Spark平台的系统流程和架构,并对主要模块进行了说明。

(2)个性化主题网络底层是基于对文本的主题挖掘,挖掘方法使用经典的LDA 主题挖掘算法。

本文在详述该算法模型原理的基础上,对传统串行Gibbs Sampling方法进行优化,设计了基于Spark平台的并行化Gibbs Sampling方法。

解释说明了并行优化算法的数据集划分重组方式,对重组数据间的串行采样以及每轮迭代之间统计量更新方式进行了公式上的解释。

(3)本文搭建了伪分布Spark测试平台,详述了Hadoop底层和Spark计算框架的搭建过程。

编写了基于PySpark API的测试程序,对公开文本数据集以及模拟用户浏览记录数据进行了测试,对其中所涉及的算法参数选择进行了对比测试,采用了图表的表述方式对计算结果和推荐结果进行效果的分析。

1.3.2 论文的结构安排
本文的结构安排如下:
第一章简要的介绍了本文的研究背景和意义,分别介绍了个性化推荐、主题模型LDA算法和Spark平台相关的国内外研究现状。

简绍说明了本文的主要研究内容和论文结构安排。

第二章介绍了LDA算法涉及的相关基础知识,包括概率论和机器学习相关基础知识,同时介绍了Basic LDA模型。

介绍了Spark平台的相关基础,包括该平台的核心思想和架构,针对调度运行逻辑给出了基于该平台的算法并行化的一般性方案。

第三章深入介绍了LDA文本主题挖掘模型,基于文本常用表示模型基础出发,介绍了LDA算法的生成模型和简单的变分推断思路。

重点介绍了应用Gibbs Sampling的参数估计方法。

针对该方法的实现过程,设计了数据和任务的划分以实现并行化采样的优化方案,给出了具体的数据划分重组方法和任务调度顺序方案。

第四章从介绍推荐系统开始,对主要的推荐系统进行了简要的介绍,分析这些系统的适用场景和优缺点,提出了个性化主题网络。

针对个性化主题网络,详细说明了个性化主题网络的构建和关联关系的挖掘过程,解释说明用户偏好的挖掘方法,并给出如何与LDA算法相结合以获得用户兴趣偏好模型的方案。

设计了基于该方案的基于Spark。

相关文档
最新文档