基于联邦学习的智能学习推荐系统模型的构建与应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第43卷湖北师范大学学报(自然科学版)Vol.43第1期Journal of Hubei Normal University(Natural Science)No.1,2023
基于联邦学习的智能学习推荐系统模型的构建与应用余亚烽1,刘兴红1,徐 琦2,张 涵1,陈 雪1,陶胜阳1
(1.湖北师范大学计算机与信息工程学院,湖北黄石 435002;
(2.华中师范大学人工智能教育学部,湖北武汉 430079)
摘要:传统的机器学习方法尚未解决学习推荐系统中存在的用户隐私、数据孤岛、系统“冷启动”和法律约束等问题,而联邦学习不仅能解决以上问题,而且是一个极具发展潜力且有待深入探索的新方向。
基于此,将联邦学习和学习推荐系统相结合,建立了基于联邦学习的智能学习推荐系统模型。
首先,重点阐述了联邦学习的概念和分类。
其次,系统分析了当前学习推荐系统中亟待解决的关键问题。
最后,构建了基于联邦学习的智能学习推荐系统模型,并将横向联邦学习推荐系统模型应用于同学科、同学龄的教育场景中,将纵向联邦学习推荐系统模型应用于跨学科、跨学龄的教育场景中,并分别介绍了这两种推荐系统模型的训练过程。
关键词:联邦学习;学习推荐系统;智能学习推荐系统;个性化学习推荐
中图分类号:G64 文献标志码:A 文章编号:2096-3149(2023)01-0064-07
doi:10.3969/j.issn.2096-3149.2023.01.010
0 引言
在“互联网+”时代,MOOC、超星学习通等学习系统为师生提供了丰富的网络学习资源,为学习者带来了巨大的便利。
然而,学习者在海量的学习资源中难以迅速找到适合自己的学习资源[1]。
要实现这种个性化的资源推荐服务,对学习推荐系统的智能性要求很高。
随着人工智能技术的发展和教育大数据的不断累积,学习推荐服务的准确性和智能性已有较大进步,但仍面临数据隐私、数据孤岛、系统“冷启动”和法律约束等问题。
为此,本研究引入“联邦学习”的概念,联邦学习能在保护数据隐私的基础上,使各参与方协同训练机器学习模型,能最大程度地提高模型精确度。
基于此,本研究将联邦学习与学习推荐系统结合,构建了基于联邦学习的智能学习推荐系统模型,以期实现更准确、更高效、更安全的智能学习推荐服务。
1 联邦学习简介
1.1 联邦学习的定义
联邦学习是一种分布式机器学习方法[2],是人工智能领域的一个新分支,它能在不共享训练数据的情况下训练模型,其框架如图1所示。
在联邦学习的模型训练中,各参与方服务器在中央服务器的协调下建立了一个共享的全局模型,模型的参数在参与方服务器中以加密的方式进行定期交换,参与方服务器的原始数据都存储在本地,不需要直接进行数据共享,因此能够保护用户隐私和数据安全;在模型推理中,联邦学习主要是通过联合各参与方进行协作推测。
在实际生活中,出于隐私保护和法律条例等层面的考虑,企业等组织和各大平台的数据大都是分散存储的形式,易形成数据孤岛,收稿日期:2022-05-22
作者简介:余亚烽(1995— ),女,湖北黄石人,在读硕士研究生,研究方向为教育大数据及其应用.
通讯作者:刘兴红(1971— ),女,湖北蕲春人,教授,硕士生导师,研究方向为教育技术学理论与实践,E-mail:343328845@.
·46·
而联邦学习可以有效地解决这种数据孤岛问题。
图1 联邦学习框架
1.2 联邦学习的分类
根据参与方的样本和特征之间的差异性,联邦学习可分为三种类型:横向联邦学习[3]、纵向联邦学习[4]和联邦迁移学习[5~6],如图2所示。
这三种类型的联邦学习的数据划分方式、训练方式、中间参数和应用的教育场景都不同,因此,可根据不同的数据特征选择不同的联邦学习类型。
图2 联邦学习分类
横向联邦学习适用于用户数据的特征重叠较多而其样本重叠较少的情况[7]。
比如不同地区的医院,业务相似,但用户不同,即特征相似,样本不同。
横向联邦学习的架构较为简单,因此,应用得最为广泛。
比如谷歌输入法的Gboard 系统根据用户的输入习惯结合横向联邦学习预测了用户下一个即将输入的字、词或句子[8]。
纵向联邦学习适用于用户数据的特征重叠较少而其样本重叠较多的情况[7]。
比如同一地区的医院和超市,接触的用户大部分是该地区的居民,但是它们的业务不同,即样本相同,特征不同。
目前,纵向联邦学习多用于跨域推荐,如网购平台和生活服务平台相结合,针对网购平台的用户浏览记录、购买记录和生活服务平台中浏览记录、关注要点等,提供准确的商品推荐服务和生活关注重点内容推荐服务。
联邦迁移学习不同于横向联邦学习和纵向联邦学习,它适用于用户数据的特征和样本都重叠较少的情况[9]。
比如不同地区的医院和超市,由于业务性质、地区、用户的差异,其数据特征空间和样本只有很小的重叠。
目前,联邦迁移学习可应用于穿戴式医疗、EEG 信号分类、无人驾驶、图像隐写术等领域中[10]。
2 学习推荐系统中的关键问题
目前,学习推荐系统存在的主要问题如下:
1)数据隐私问题·
56·
学习推荐系统和许多机器学习算法一样,也是数据饥渴的,因此,系统需要收集大量的教育数据。
但是,教育数据中存在很多用户的私密信息,运用各种技术对教育数据进行深度挖掘,有可能会泄露
用户的隐私、侵犯人格的尊严[11]。
例如,美国的inBloom公司,是一家非营利性教育科技公司,其通过与其他公司和教育机构合作,蓄意收集学习者的隐私信息,以期实现个性化的学习资源推荐服
务[12];Edmodo的广告漏洞导致了大量学生信息的泄露[13]。
种种案例都表明了在各种技术加持下的学习推荐系统给个性化教育提供了更多的可能,但同时,也增加了数据泄露的渠道和路径,提高了数据泄露的风险。
2)数据孤岛问题
由于数据机密和数据隐私等因素,学习推荐系统之间具有相对的自我封闭性,呈现出数据碎片化
存储的特征,即系统之间形成“数据孤岛”,因此,难以提供支撑教育决策的大数据[14]。
与此同时,学习推荐系统之间的差异性导致数据难以完全开放共享,教师教学数据和学生学习数据的存储方式、存储形式和记录内容不同,各系统之间的教育过程、教育对象与教育方式也有一定的差别,加之数据之间的不可完全共享性,导致教育数据孤岛化和碎片化。
数据孤岛问题是当前学习推荐系统面临的重要挑战。
3)冷启动问题
当新用户使用学习推荐系统时会出现“冷启动”问题,这是因为系统没有查询到该用户的历史学
习行为数据,缺乏足够的参考信息,导致推荐系统无法准确的给新用户推荐合适的学习资源[15]。
因此,系统对教育大数据的采集和分析不仅是智能推荐服务实施的数据基础,还是解决系统“冷启动”问题的关键。
4)法律约束问题
为保护用户的隐私数据,各国相继出台了一系列相关的法律法规。
例如,欧盟出台的《通用数据
保护条例》;英国出台的《数据保护法》;美国出台的《学生数字隐私和家长权利法》;国内也制定了相
关的教育数据安全管理机制,例如《个人教育数据保护法》[16]等。
这些法律的约束,使得各个机构、组织之间共享数据变得更加困难。
因此,限制了推荐技术的发展。
为解决上述问题,国内外学者从不同层面展开了研究。
在数据隐私问题方面,刘梦君等运用差分
隐私的隐私保护技术对教育数据进行保护,并进行学习资源推荐[17];Martín Abadi等运用时刻会计技术自动跟踪深度神经网络学习模型训练过程中损失的隐私信息,从而注入隐私噪声,减少隐私泄露,保证模型质量[18];在数据孤岛问题方面,陈慧在深入调查当前高校人才推荐系统后,针对数据孤岛问题,提出了基于深度学习算法的高校人才个性化智能推荐系统[19];李同欢等提出了基于深度学习的多交互混合推荐模型,能够缓解数据稀疏和数据孤岛问题[20];在冷启动问题方面,Lin等人利用狄利克雷分布聚类用户解决了应用程序推荐场景中的冷启动问题[21];郑文斌提出一种深度矩阵分解模型,该模型在推荐过程中提供解释功能,能更好的理解用户的偏好和项目的真实属性,以此解决系统的冷启动问题[22];在法律约束问题方面,侯浩翔分析了学生隐私保护的动因,提出了可行的隐私保护方案,为学生隐私保护机制的建立提供了思路[23]。
但是,目前的研究大多倾向于解决推荐系统中的某一个问题,很难同时解决上述存在的四个问题。
基于此,笔者提出构建一个基于联邦学习的智能学习推荐系统模型,以期为提高学习推荐系统的“智能性”提供思路。
猿摇基于联邦学习的智能学习推荐系统模型的构建与应用
如前文所述,当前学习推荐系统无法为学习者提供高质量的学习推荐服务,是因为其存在数据隐
私、数据孤岛、“冷启动”和法律约束等问题,导致推荐系统难以获得高质量的、全面的学习者学习数
据。
而联邦学习的典型特征是参与模型训练的数据拥有者仅共享模型参数,而不共享原始数据,以此
解决数据隐私泄露问题和法律约束问题;同时,联邦学习可结合各方数据,协同训练出高质量的数据
模型,解决因数据孤岛导致的推荐性能差的问题;对于系统新用户的“冷启动”问题,联邦学习可与其·66·
他参与方服务器进行联合训练模型,在保护隐私数据的情况下进行相似矩阵的计算,给新用户推荐合适的学习资源,以此解决冷启动问题。
本文设计的基于联邦学习的智能学习推荐系统模型如图3所示。
该模型包括用户学习数据、推荐系统模型训练的一般流程两部分,用户学习数据包括学习资源、学习内容、学习活动、学习互动、学习结果等多源数据,且这些数据可来自于不同的终端设备,例如:手机、电脑、iPad 等。
该模型可应用于同学科、同学龄、跨学科和跨学龄等学生学习场景中,通过联邦学习技术联合各方数据在本地训练模型,为学习者提供满足其认知风格和学习偏好的学习资源,并提高学习推荐系统的精准性和智能性。
图3 推荐系统模型
该模型的运作步骤为:
步骤一:参与训练的各参与方服务器从中央服务器(协调方)下载全局知识特征矩阵和用户行为特征信息矩阵;
步骤二:各参与方服务器通过相关技术剔除本地模型中不符合规则的信息并计算知识特征矩阵和用户行为特征信息矩阵;
步骤三:各参与方服务器将更新后的特征矩阵上传至中央服务器,即进行中心聚合;
步骤四:中央服务器采用联邦平均的方式进行模型更新,并广播给各参与方服务器。
联邦学习的特征导致三种类型的联邦学习的应用场景不同,且在智能学习推荐系统中,存在特殊的、复杂的教育数据和教育场景。
因此,应针对不同类型的教育场景,运用不同类型的适宜性的联邦学习方法。
在本研究中,因联邦迁移学习的特点和教育场景不匹配,因此,本研究仅探究横向联邦学习和纵向联邦学习在智能学习推荐系统中的应用。
3.1 基于横向联邦学习的智能学习推荐系统模型当面对同学科或同学龄的教育数据时,可运用基于横向联邦学习的智能学习推荐系统模型,其不仅能保护用户隐私数据,还能在法定许可的前提下对用户的教育数据进行深度共享,提高了各平台的优质数据量,解决了各推荐系统、推荐平台、在线教育平台等的数据孤岛问题和系统“冷启动问题”,促进了学习推荐系统的“智能化”发展。
基于横向联邦学习的智能学习推荐系统模型的训练过程如图4所示。
图4 横向联邦学习在智能学习推荐系统模型中的训练过程
·
76·
此处以两个参与方服务器F1、F2为例,F1和F2协作训练推荐模型,以此提高模型的推荐能力和预测能力。
模型的训练过程为:
步骤一:首先由中央服务器对信息进行特征表示并将其传达给参与方服务器F1、F2,信息包括全局知识信息和用户学习行为基本信息;
步骤二:F1、F2服务器构建本地模型,并对学习者的学习行为数据建模;
步骤三:F1、F2运用同态加密的方法,把各自的梯度信息传送给中央服务器,并进行梯度聚合;步骤四:中央服务器更新梯度聚合结果,并运用加密的方式将其传输给F1、F2服务器,F1、F2接收加密梯度文件后,先进行解密运算,再更新各自的本地模型参数。
一直重复步骤一至步骤四,直至模型收敛;
步骤五:F1、F2通过训练本地模型,对学习者的学习资源进行预测和推荐。
3.2 基于纵向联邦学习的智能学习推荐系统模型当面对跨学科或跨学龄的学习者时,可运用基于纵向联邦学习的智能学习推荐系统模型,使得学
习推荐系统之间建立有效的数据共享机制[24],系统将根据学习者的学习数据,包括学习行为、学习习惯和学习知识等推测出适合跨学龄、跨学科学习者的学习资源,该模型能在保护用户隐私数据和法定许可的前提下提升系统推荐的多样性,提高了系统的推荐准确性和智能性。
基于纵向联邦学习的智能学习推荐系统模型的训练过程如图5所示。
模型的训练过程为:
步骤一:各参与方服务器进行加密实体对齐;
步骤二:中央服务器创建加密密钥对,并将公共密钥对下发给各参与方,各参与方进行信息解密;步骤三:各参与方交换加密梯度信息,并进行本地模型更新;
步骤四:各参与方在本地进行模型训练,并将训练得出的模型参数以加密的方式传输到中央服务器,中央服务器再进行协调完成所有模型的梯度聚合;
步骤五:中央服务器以加密的方式将聚合梯度传输给各参与方,各参与方先进行解密,再进行本地模型更新。
一直重复步骤三至步骤五,直至模型收敛。
步骤六:各参与方服务器结合需求,通过本地模型进行推荐和预测。
图5 纵向联邦学习在智能学习推荐系统中的训练过程
基于纵向联邦学习的智能学习推荐模型的跨学龄、跨学科推荐能力较强,能为相关用户提供优质的推荐服务。
此前,已有研究者将纵向联邦学习运用于跨学龄的科目学习中,它能根据学习者的历史学习数据,推测出学习者的薄弱项,为学生提供定制化的学习方案[25]。
然而,本研究在此基础上添加
·86·
了跨学科的推荐服务,能为用户提供更全面、更优质的推荐服务。
源摇结束语
本研究针对目前学习推荐系统的数据隐私、数据孤岛、冷启动和法律约束问题,提出了基于联邦学习的智能学习推荐系统模型,并分别分析了基于横向联邦学习和纵向联邦学习的智能学习推荐系统模型在教育中的应用场景,其中,横向联邦学习适用于为同学科、同学龄的学习者提供个性化资源推荐,纵向联邦学习适用于为跨学科、跨学龄的学习者提供个性化资源推荐,本研究详细描述了这两种模型的训练过程,为后续研究厘清了思路。
未来研究将在实践中验证基于联邦学习的智能学习推荐系统的实际性能,不断优化其推荐的准确性和安全性。
参考文献院
[1]Robert Bodily,Katrien Verbert.Review of research on student⁃facing learning analytics dashboards and educational recommender systems[J].IEEE Transactions on Learning Technologies,2017,10(4):405~418.
[2]Kone cˇn y'J,Brendan McMahan H,Yu F X,et al.Federated learning:strategies for improving communication efficiency [J/OL].[2019-12-08].https:///abs/1610.05492.DOI:10.48550/arXiv.1610.05492.
[3]Gao D,Ju C,Wei X,et al.Hhhfl:Hierarchical heterogeneous horizontal federated learning for electro encephalography [J].arXiv,2019.DOI:10.48550/arXiv.1909.05784.
[4]Liu Y,Kang Y,Zhang X,et al.A communication efficient collaborative learning framework for distributed features[J]. arXiv,2019.DOI:10.48550/arXiv.1912.11187.
[5]Sharma S,Xing C,Liu Y,et al.Secure and Efficient Federated Transfer Learning[A].2019IEEE International Conference on Big Data[C].Big Data2019,2019:2569~2576.DOI:10.1109/BigData47090.2019.9006280. [6]Zhao Q,Zhao C,Cui S,et al.PrivateDL:Privacy⁃preserving collaborative deep learning against leakage from gradient sharing[J].International Journal of Intelligent Systems,2020,35(8):1262~1279.
[7]Kairouz P,Brendan McMahan H,Avent B,et al.Advances and open problems in federated learning[J].arXiv,2019. DOI:10.48550/arXiv.1912.04977.
[8]Hard A,Rao K,Mathews R,et al.Federated learning for mobile keyboard prediction[EB/OL].[2021-10-19]. https:///pdf/1811.03604.DOI:10.48550/arXiv.1811.03604.
[9]李少波,杨 磊,李传江,等.联邦学习概述:技术、应用及未来[J/OL].计算机集成制造系统,2022,28(7):2119~ 2138.
[10]Saha Sudipan,Ahmad Tahir.Federated transfer learning:Concept and applications[J].Intelligenza Artificiale,2021. DOI:10.48550/arXiv.2010.15561.
[11]庞茗月,胡凡刚.从赋能教育向尊崇成长转变:教育大数据的伦理省思[J].电化教育研究,2019,40(07):30~36
+45.DOI:10.13811/ki.eer.2019.07.004.
[12]李 青,李莹莹.大数据时代学习者隐私保护问题及策略[J].中国远程教育,2018,(1):29~36.
[13]Cox J.Hacker steals millions of user account details from education platform edmodo[EB/OL].https:/// en/article/ezjbwe/hacker⁃steals⁃millions⁃of⁃user⁃account⁃details⁃from⁃education⁃platform⁃edmodo.(2017-05-11). [14]田贤鹏.隐私保护与开放共享:人工智能时代的教育数据治理变革[J].电化教育研究,2020,41(05):33~38. DOI:10.13811/ki.eer.2020.05.005.
[15]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,(7):66~76.
[16]戚万学,谢 娟.教育大数据的伦理诉求及其实现[J].教育研究,2019,(7):26~35.
[17]刘梦君,贾玉娟,姜 庆.差分隐私保护的学习资源学习热度推荐[J].现代教育技术,2019,29(05):99~105.
[18]Martín Abadi,Andy Chu,Ian J Goodfellow,et al.Deep Learning with Differential Privacy.[J].CoRR,2016,abs/ 1607.00133.DOI:10.48550/arXiv.1607.00133.
[19]陈 慧.基于深度学习算法的高校人才个性化智能推荐系统[J].电子设计工程,2021,29(21):38~42.DOI:10. 14022/j.issn.1674-6236.2021.21.008.
[20]李同欢,唐 雁,刘 冰.基于深度学习的多交互混合推荐模型[J].计算机工程与应用,2019,55(01):135~141.
·96·
[21]Lin J,Sugiyama K,Kan M Y,et al.Addressing cold⁃start in app recommendation[C]//the36th international ACM SIGIR conference.ACM,2013.
[22]郑文斌.基于深度学习的推荐算法及其隐私保护研究[D].西安:西安电子科技大学,2020.DOI:10.27389/d. cnki.gxadu.2020.002365.
[23]侯浩翔.人工智能时代学生数据隐私保护的动因与策略[J].现代教育技术,2019,29(06):12~18.
[24]李康康,袁 萌,林 凡.联邦个性化学习推荐系统研究[J].现代教育技术,2022,32(02):118~126.
[25]杨 强,刘 洋,程 勇,等.联邦学习[M].北京:电子工业出版社,2020.
On the construction and application of intelligent learning
recommendation system model based on Federated learning YU Ya⁃feng1,LIU Xing⁃hong1,XU Qi2,ZHANG Han1
CHEN Xue1,TAO Sheng⁃yang1
(1.College of Computer and Information Engineering,Hubei Normal University,
Huangshi435002,China;
(2.Department of Artificial Intelligence Education,Central China Normal University,
Wuhan430079,China)
Abstract:Traditional machine learning methods have not solved the problems of user privacy,data island,system“cold start”and legal constraints existing in the learning recommendation system.However,Federated learning can not only provide a solution to the above problems,but also offer a new direction with great development potential that needs to be explored in depth.Based on this,this paper combines federated learning and the learning recommendation system to establish an intelligent learning recommendation system model based on federated learning.Firstly,this paper expounds the concept and classification of federated learning in detail.Then,it systematically analyzes the key problems to be solved in the current learning recommendation system.After that,it constructs an intelligent learning recommendation system model based on federal learning and introduces the training processes of the horizontal and vertical federated learning recommendation system models based on the application of these two models to the education scene of the same disciplines with students at the same age and that of different disciplineswith students at different ages respectively.
Key words:federated learning;learning recommendation system;intelligent learning recommendation system;personalized learning recommendation
·07·。