mooc课程评论可视化分析系统构建--以中国大学mooc平台为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2019-11-26
∗本文系赛尔网络下一代互联网创新项目 融合评论标签的个性化学习资源推荐关键技术研究 (项目编号:NGII20170522)和赛尔网络下一代互联网创新项目 面向慕课课程评论的情感标签信息抽取关键技术研究 (项目编号:NGII20180509)成果之一ꎮ作者简介:张文德(1962 )ꎬ男ꎬ博士ꎬ博士生导师ꎬ教授ꎬ研究方向为信息管理㊁计算机网络ꎻ黄禹(1994 )ꎬ男ꎬ2017级硕士研
究生ꎬ研究方向为信息管理ꎮ
MOOC课程评论可视化分析系统构建∗
以中国大学MOOC平台为例
张文德1㊀黄㊀禹1ꎬ2
(1.福州大学信息管理研究所㊀福建福州㊀350116)
(2.福州大学图书馆㊀福建福州㊀350116)
摘㊀要:[目的/意义]旨在为学习者㊁教学者㊁平台管理者决策提供支持ꎮ[方法/过程]从学习者㊁教学者㊁平台管理者需求出发ꎬ设计了慕课课程评论可视化分析系统的框架ꎬ并通过Python语言对各模块进行实现ꎮ[结果/结论]设计与实现的慕课课程评论可视化分析系统通过对课程评论相关信息的自动化统计ꎬ能够直观展示出慕课课程常规数据的可视化以及基于课程评论的主题发现可视化ꎮ
关键词:MOOCꎻ课程评论ꎻ可视化
中图分类号:TP391㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀doi:10.3969/j.issn.1005-8095.2020.05.009
ConstructionofVisualizedAnalysisSystemforMOOCCourseReview:
CaseStudyofMOOCPlatformofChineseUniversities
ZhangWende1㊀HuangYu1ꎬ2
(1.InstituteofInformationManagement FuzhouUniversity FuzhouFujian350116)
(2.FuzhouUniversityLibrary FuzhouFujian350116)
Abstract:[Purpose/significance]Thepaperistoprovidesupportforthedecisionmakingoflearners educatorsandplatformman ̄
agers.[Method/process]Basedontheneedsoflearners educatorsandplatformmanagers thepaperdesignstheframeworkofvisual ̄
izedanalysissystemofMOOCcoursereviewsandimplementseachmoduleinPythonlanguage.[Result/conclusion]VisualizedanalysissystemofMOOCcoursereviewdesignedandimplementedinthispapercanvisuallydemonstratethevisualizationoftheregulardataofMOOCcourseandthetopicdiscoveryvisualizationbasedonthecoursereviewsthroughtheautomaticstatisticsofinformationrelatedto
thecoursereviews.
Keywords:MOOCꎻcoursereviewꎻvisualizedanalysis
0㊀引言
2012年以来ꎬ大规模开放网络课程(Massive
OpenOnlineCoursesꎬMOOC)在世界范围内迅速兴起ꎮ根据国际知名第三方在线教育机构ClassCen ̄tral数据ꎬ截至2018年底ꎬ全球已有900多所大学推出了至少一门MOOC课程ꎬ全球MOOC课程数量为
1.14万ꎬ比2017年增加了约2000门课程ꎻMOOC平台学习者用户注册数量由2017年的7.8千万人增长至2018年的1.01亿人ꎬ增长率达29.5%[1]ꎮ随着
MOOC的发展ꎬ课程数量不断增加ꎬ课程趋向同质化ꎮ为了给学习者提供学习支持ꎬ帮助学习者了解课程和筛选对自己有价值的课程ꎬ众多MOOC平台相继为学习者提供了课程评价功能ꎮ学习者可以在这些MOOC平台上发表对MOOC平台㊁课程内容㊁授课教师等课程相关内容的评论ꎮ这些课程评论蕴含了很多有价值的信息ꎬ在为学习者选择所要学习的课程提供决策参考的同时ꎬ不仅授课教师提升教学水平提供反馈ꎬ而且向MOOC平台管理者优化学

52020年5月May2020㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀情报探索InformationResearch㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀
第5期(总271期)
No.5(SerialNo.271)
习体验提供建议ꎮ
1㊀基于在线课程评论的相关研究现状
1.1㊀国内研究现状
目前ꎬ国内针对在线课程评论文本的研究还相对较少ꎮ刘三女牙[2]等人通过高频词汇分析课程评论内容并通过LDA模型实现对学习者话题的挖掘ꎮ杨丽[3]在对情感倾向识别研究的基础上ꎬ提出在线课程评论样本处理与特征提取的方法ꎮ谷欣[4]从课程和学生两个层面切入ꎬ分别探讨其外显行为和内隐行为在内的MOOC学习行为规律ꎬ并在此基础上构建了课程和学生两个不同视角的学习行为分析模型ꎮ牛闯[5]针对在线课程评论的内容发散性㊁表达模式多样性等问题ꎬ提出了 依存分析 观点提取 观点聚合 的观点抽取方法ꎬ实现对评论观点的有效抽取ꎮ李凡[6]在其论文中利用情感分析技术对MOOC评论信息进行研究ꎬ得出了适应于教育领域评论文本的情感分析算法ꎮ另外ꎬ吴林静[7]等从大数据的视角ꎬ应用语义分析的方法对慕课评论进行了分析和挖掘ꎬ提出了面向大数据的慕课语义分析模型ꎬ从而更好地利用慕课评论ꎮ
1.2㊀国外研究现状
相较于国内ꎬ国外基于在线课程评论的研究较丰富ꎬ研究人员从不同视角ꎬ运用不同方法挖掘课程评论深层次内涵ꎮ其中ꎬGuo[8]等人运用深度学习技术实现一种课程评论语义和情感的提出方法ꎬ以便能从大量的评论中识别出课程求助性质的评论ꎮLi[9]针对慕课学习者的评论数据ꎬ从人口统计学的角度建模挖掘分析自律学习策略在不同文化族群间对学习满意度的影响程度ꎮDalipi[10]等为了解决慕课课程辍学率较高的难题ꎬ利用机器学习方法对MOOC学习者的评论信息进行深度挖掘ꎬ以此预测和解释学生的辍学问题ꎮ而Nie[11]等人则从学习者的评论信息入手ꎬ利用一种基于标准化规则库㊁专家反馈㊁数据挖掘和情感检测的层次分析法(AHP)来系统性地评估MOOC课程的质量ꎮ另外ꎬ在MOOC信息可视化方面ꎬAichaBakki[12]及其团队设计开发了一款MOOCCAT的慕课课程教学可视化工具ꎬ用以辅助教师的教学课程ꎬ但并未涉及到对课程评论的可视化部门ꎮ
综上ꎬ该领域的研究主要集中于评论文本的话题挖掘以及情感分析ꎬ针对MOOC课程评论可视化相关的内容却鲜有人涉及ꎮ而数据可视化技术却能将大数据直观地向用户展示ꎬ使其通过可视化图表明晰隐藏在数据背后的信息并转化为相关知识[13]ꎮ基于此ꎬ本文从MOOC课程评论相关属性的可视化分析出发ꎬ构建一套MOOC课程评论可视化系统ꎬ通过对课程评论相关信息的自动化统计可视化分析ꎬ直观展示出MOOC课程的大致情况ꎬ以期能为相关研究提供参考ꎮ
2㊀MOOC课程评论可视化分析系统框架
MOOC课程评论可视化分析系统ꎬ主要针对的是中国大学MOOC平台的课程评论数据的可视化分析ꎮ整个系统采用B/S架构ꎬ分为评论信息采集㊁数据预处理㊁可视化分析三个子模块ꎮ其系统的功能结构及实现过程框架如图1所示ꎮ本系统的业务流程:首先ꎬ通过评论信息采集子模块MOOC平台的课程评价页面内解析出指定的课程评论数据ꎬ并存储至数据库中ꎻ然后ꎬ数据预处理子模块对数据进行数据清洗得到规范数据ꎻ最后ꎬ将清洗完毕的数据导入可视化分析子模块以实现对MOOC评论信息的可视化分析

图1㊀系统功能结构及实现过程框架
2.1㊀评论信息采集子模块
评论信息采集模块的主要功能是对中国大学MOOC网站上的相关内容进行采集ꎬ包括从网站上获取到课程的名称㊁所属大类㊁授课教师等课程属性以及学生评论信息中学生昵称㊁评论内容㊁对课程的评分㊁评论获赞数㊁评论时间㊁课程班次等学生评论属性ꎮ并将这些数据存储至数据库ꎮ
2.2㊀数据预处理子模块
数据预处理模块的主要功能是将采集到的课程评论数据进行数据清理ꎬ包括对文本中所含的Html标签㊁无意义的英文字符以及数字字符㊁表情颜文字字符处理ꎬ并进行分词处理形成规范数据ꎮ同时ꎬ对后续的可视化分析中需要用到的停用词表进行设计ꎮ2.3㊀可视化分析子模块
可视化分析模块的主要功能是将预处理后的规范化课程评论数据通过统计分析对常规数据进行可
06
2020年5月情报探索第5期(总271期)
视化ꎬ包括对课程大类信息的统计分析以及具体课程的统计分析ꎮ其次ꎬ还拥有对评论文本的主题发现的分析ꎬ并通过可视化接口将分析结果展示至用户界面ꎮ
3 MOOC课程评论可视化分析系统实现3.1㊀数据采集
通过对中国大学MOOC平台的网页源代码结构
进行分析ꎬ发现其课程评价信息都是通过Ajax实现异步加载ꎬ并以文本形式保存的ꎮ因此ꎬ需要通过编写特定的网络爬虫程序来实现相关数据的采集ꎮ本模块通过编写python网络爬虫脚本ꎬ使用Selenium自动化测序工具调用WebDriver来实现模拟登陆中国大学MOOC平台ꎬ抓取需要的课程评论数据并保存至本地数据库ꎮ数据采集流程如图2所示ꎮ
图2所示的数据采集流程中ꎬ所使用的数据采集策略为广度优先策略ꎬ即通过定位到中国大学MOOC平台的课程分类网址(如计算机类课程网址:https://www.icourse163.org/category/computer)ꎬ再对该页面的源码进行爬取获取到具体课程的网址ꎮ
该爬取流程最重要的步骤是通过Selenium调用WebDriver启动本地浏览器ꎬ
以实现对人工操作的模图2㊀数据采集流程
拟ꎮ由于该课程平台数据为动态加载ꎬ因此需要模拟人为的点击操作ꎬ来获取实时返回的动态数据ꎬ再通过Xpath来获取定位节点数据ꎮ需要爬取的部分数据在源码结构中的位置如图3所示

图3㊀部分属性在源码中的定位
㊀㊀图3中ꎬ学生昵称 SunHanxi ㊁评论内容 考研成功~~~姥姥真棒~~~ 等均为本文所构建的可视化分析系统所需要的关键实验数据ꎮ因此ꎬ在爬虫程序解析到该页面源码后ꎬ需要通过python调用
pyquery以实现对相应字符串的定位与匹配ꎬ从而进一步解析出需要的课程评论的相关数据ꎬ并将这些数据存储到本地数据库之中ꎮ实现该流程的关键代码如图4所示

图4㊀评论数据解析关键代码

62020年5月张文德等:MOOC课程评论可视化分析系统构建第5期(总271期)
㊀㊀上述代码分别从页面中解析提取出评论的课程名称㊁授课教师㊁学生昵称㊁课程评分㊁评论内容㊁评论获赞数㊁评论发表时间以及开课班次这些属性ꎬ之后将爬取后的数据存储到本地的MySQL数据库之中ꎮ爬取后存储的数据如图5所示

图5㊀爬取数据实例
3.2㊀MOOC评论预处理
(1)数据清洗ꎮ由于爬下来的内容中可能带有很
多HTML标签ꎬ需要去掉ꎮ少量的非文本内容可以直
接用Python的正则表达式(re)删除ꎬ复杂的则可以用
BeautifulSoup库来去除ꎮ除HTML标签外ꎬ语料中还
有部分表情符号回答和无意义的数字英文字符标点
回答ꎬ这些数据对模型训练很不利ꎬ也需要去掉ꎮ
(2)停用词表设计ꎮ获取到的课程评论数据中ꎬ
停用词(StopWords)如语气词㊁代词等在所有文本
中的频率分布相近ꎬ一方面ꎬ这样增加了文本之间的
相似程度ꎬ不利于聚成不同的类ꎻ另一方面ꎬ停用词
使用频率极高ꎬ会占用对聚类有意义的特征词的密
度ꎬ造成特征词不明显ꎬ因此需要去掉ꎮ本文所用停
用词表是对哈工大停用词词库㊁四川大学机器学习
智能实验室停用词库㊁百度停用词表等停用词表进
行合并与筛选而形成ꎮ同时考虑到MOOC课程下语
境的突出性ꎬ保留一些表示程度的副词ꎬ如 很 非
常 相当 明显地 突出 强调 等构建MOOC
课程停用词表作为补充ꎮ
3.3㊀MOOC评论可视化分析
(1)常规数据可视化ꎮ常规数据可视化是指对
MOOC课程评论数据依据各字段属性来进行统计分
析并可视化展示ꎮ主要分为对课程大类的可视化分
析以及对单一课程的可视化分析两大类ꎮ其中ꎬ对
课程大类的可视化分析主要包括对类型中每门课程
的参与人数的自动化统计分析㊁类型中课程得分的
自动化统计㊁类型下同类课程教师情况统计等ꎮ而
对单一课程的可视化分析则是针对具体课程的可视
化分析ꎬ主要包括学生对课程的评分分布可视化㊁课
程活跃度的时间分布可视化等ꎮ如图6所示的是以
计算机大类下的课程评论数据来进行的常规数据可
视化分析ꎬ展示出该类下 参与评论人数最多的
TOP10课程 的具体情况ꎬ可以看到计算机类下参与
人数最多的课程分别为 python语言程序设计

图6㊀计算机类课程评论人数TOP10课程可视化
26
2020年5月情报探索第5期(总271期)
序设计入门 C语言 大学计算机 人工智能实践:Tensorftlow笔记 零基础学Java 大学计算机基础 Office高级应用 python网络爬虫与信息爬取 数据结构 以及 信息检索 ꎬ通过直方图将
上述信息进行可视化展示ꎬ形象直观ꎮ而图7所示的是 Python语言程序设计课程 这门课程评论信息数量随时间变化的可视化分析情况ꎬ由此展现出该课程的活跃度的时间分布

图7㊀python语言程序设计课程活跃度分布可视化
㊀㊀
(2)主题发现可视化ꎮ本系统所构建的可视化
分析模块内ꎬ基于评论内容的主题模型可视化旨在从清洗完毕的MOOC课程评论信息中发掘出评论的关键词以及主题信息ꎬ并通过一定的模型计算方法ꎬ形成有效的聚类主题ꎬ最后可视化展示ꎮ而隐狄利克雷分布模型(LatentDirichletAllocationꎬLDA)作为一种无监督模式的机器学习方法ꎬ通过文档㊁主题㊁词三层贝叶斯概率为核心结构发现文本隐含模式ꎬ其并不是简单的词频统计ꎬ而是将文本内容作为是
主题的多项式分布ꎬ且每个主题又可以看作是词项的多项式分布ꎬ从而模仿模拟文档的生成过程ꎬ计算出文档中隐藏的主题组成和词项的主题标签[14]ꎮ
因此ꎬ本系统基于LDA主题模型来实现对MOOC评论数据的主题发现ꎬ并通过python编写代码集成LDAvis[15]以实现在系统内对评论内容主题模型信息的可视化ꎮ具体评论内容主题模型可视化结果如图8所示

图8㊀评论内容主题模型可视化

62020年5月张文德等:MOOC课程评论可视化分析系统构建第5期(总271期)
㊀㊀其中ꎬ左图为LDA模型的主题建模结果ꎮ每一个圆圈表示一个主题ꎬ圆圈的大小表示包含该主题的文本内容的规模ꎬ圆圈的距离表示主题之间的相似度大小ꎮ当选中其中一个主题时ꎬ在右图中呈现出该主题内排名前N位的词项ꎮ浅色柱形表示词项属于该主题的概率大小ꎬ深色柱形表示词项和该主题的相关度ꎮ
4 结语
随着在线课程规模的迅速发展壮大ꎬ越来越多的人选择在MOOC平台上学习ꎬ并且也越来越习惯在平台上发表对课程平台㊁授课教师㊁课程内容㊁学习感悟的评论内容ꎮ为有效利用这些课程评论ꎬ本文设计与实现了一个基于中国大学MOOC平台的慕课课程评论可视化分析系统ꎬ该系统通过对中国大学MOOC课程评论的爬取㊁预处理实现对课程评论信息常规数据可视化以及主题发现可视化ꎮ
本系统旨在通过自动化采集㊁统计和可视化评论数据ꎬ跟踪学习者的学习状态ꎬ对课程的满意程度ꎬ以此为基础为学习者了解课程质量㊁教学者把握课程进度㊁平台管理者决策优化提供参考与支持ꎬ同时ꎬ也为构建基于其他慕课平台的课程评论可视化分析系统提供参考与借鉴ꎮ但本文设计与开发的MOOC课程评论可视化分析系统的功能还有待进一步拓展ꎮ具体来说ꎬ可以加入情感分析功能等ꎬ同时针对系统的界面还需要进一步优化ꎬ以达到更加美观的效果ꎮ
参考文献
[1]㊀纪九梅ꎬ王宇ꎬ欧阳嘉煜ꎬ等.2018慕课发展概要与未来趋势:以Coursera㊁edX㊁学堂在线㊁Udacity和FutureL ̄earn为例[J].中国远程教育ꎬ2019(9):16-25. [2]㊀刘三女牙ꎬ彭晛ꎬ刘智ꎬ等.面向MOOC课程评论的学习者话题挖掘研究[J].电化教育研究ꎬ2017ꎬ38(10):30-36.
[3]㊀杨丽.在线课程评论的情感倾向识别与话题挖掘技术[J].电子技术与软件工程ꎬ2018(1):185. [4]㊀谷欣.基于MOOC课程评论的学习行为分析研究.[D].武汉:华中师范大学ꎬ2018.
[5]㊀牛闯.支持评论挖掘的MOOC系统的设计与实现. [D].北京:北京邮电大学ꎬ2017.
[6]㊀李凡.基于MOOC评论的情感分析研究与系统实现.[D].北京:中央民族大学ꎬ2019.
[7]㊀吴林静ꎬ刘清堂ꎬ毛刚ꎬ等.大数据视角下的慕课评论语义分析模型及应用研究[J].电化教育研究ꎬ2017ꎬ38(11):43-48.
[8]㊀GUOSXꎬSUNXꎬWANGSXꎬetal.Attention-BasedCharacter-WordHybridNeuralNetworksWithSemanticandStructuralInformationforIdentifyingofUrgentPostsinMOOCDiscussionForums[EB/OL].[2019-10-10].http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8764349&isnumber=8600701.
[9]㊀LIK.MOOClearners demographicsꎬself-regulatedlearningstrategyꎬperceivedlearningandsatisfaction:Astructuralequationmodelingapproach[J].Computers&Educationꎬ2019ꎬ132:16-30.
[10]㊀DALIPIFꎬIMRANASꎬKASTRATIZ.MOOCdrop ̄outpredictionusingmachinelearningtechniques:Reviewandre ̄searchchallenges[EB/OL].[2019-10-10].http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8363340&isnumber=8363090.
[11]㊀NIEYꎬLUOH.DiagnosticEvaluationofMOOCsBasedonLearnerReviews:TheAnalyticHierarchyProcess(AHP)Approach[EB/OL].[2019-10-10].https://link.springer.com/chapter/10.1007/978-3-030-21562-0_24. [12]㊀BAKKIAꎬOUBAHSSILꎬGEORGESEBꎬetal.MOOCAT:AvisualauthoringtoolinthecMOOCcontext[J].Ed ̄ucationandInformationTechnologiesꎬ2019ꎬ24(2):1185-1209. [13]㊀任磊ꎬ杜一ꎬ马帅ꎬ等.大数据可视分析综述[J].软件学报ꎬ2014ꎬ25(9):1909-1936.
[14]㊀孙国超ꎬ徐硕ꎬ乔晓东.主题模型可视化研究综述[J].情报工程ꎬ2015ꎬ1(6):51-61.
[15]㊀SIEVERTCꎬSHIRLEYK.LDAvis:Amethodforvisualizingandinterpretingtopics[C].BaltimoreꎬMaylandꎬUSA:AssociatioforComputionalLinguisticsꎬ2014:63-70.
46
2020年5月情报探索第5期(总271期)。

相关文档
最新文档