学生成绩数据分析中大数据的作用研究总结与参考文献
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学生成绩数据分析中大数据的作用研究总结与参考文献第5 章总结和展望
随着信息技术的快速发展,教育大数据的规模也急剧增长,而其中蕴含的价值也不断增高,如何更好的利用教育大数据必将是众多研究学者的目标,面对海量的数据,大数据技术将是完美的解决方案,大数技术与教育数据的结合必将是未来的一个发展趋势。
5.1 总结。
本文针对在教育领域中大数据技术应用的迫切需求,结合吉林大学电子科学与工程学院学生的真实成绩数据,研究改进了传统的Apriori 关联规则算法,应用目前较为流行的大数据技术-Hadoop,得到了重要课程间的关联关系。主要工作包括以下几个方面:
1.阅读了大量的中英文文献,了解国内外发展现状,以及深入学习了一些基础知识,包括Hadoop 框架及其生态系统、HDFS 原理、MapReduce 编程原理和Apriori 算法等,为之后的论文工作做好了充足的理论基础准备。
2.详细研究了Apriori 算法的原理,并结合MapReduce 编程模型的特点改进了传统的Apriori 算法,实现了强关联规则的挖掘。为了验证改进后算法的性能本文通过改变数据集大小、最小支持度和最小置信度三个方面验证了改进后算法的可行性和性能优越性。
3.通过搭建Hadoop 集群平台,对学生数据做了初步的统计处理,并结合改进后的算法分析了本校电子科学与工程学院的学生成绩数据,发现了一些课程之间的关联关系。
本文所研究的改进算法更加适合于像学生成绩这种数据集的挖掘,而当数据集无限增大时本文的算法将会更加凸显其独特的优势。通过本文的研究发现了一些重要课程的关联关系,例如,高等数学和概率论与数理统计,以及它们与一些实验课的关系。对于学生来说,这些关联规则结果可以让学生自主的调整不同课程的学习时间,对于课程的重要程度改进学习计划;对于学校的课程设置等具有重要的指导意义,具有一定的参考价值。
5.2 不足与展望。
本文在完成相应工作的同时,还存在一些不足,需要在未来的工作中进行改进:
1.由于学生数据的保密性,并没有拿到学生的姓名和籍贯等信息,若能拿到全部的学生信息数据,一定会挖掘出更有价值的信息。
2.由于实验环境有限、采用的数据集也不够大,所以并没有搭建真实的大型计算机集群;而且学生成绩的数据格式比较单一,并没有完全体现大数据处理技术所带来的优势。
然而当前大数据应用在我国教育领域中也面临诸多问题,包括无意识、大数据人才缺乏、数据泄露风险等。教育大数据的应用将会给教育事业的发展和创新带来巨大的影响。利用大数据分析技术能将现有的教育数据转变成改善教育和教学的决策。然而实现这一步还需要更多的研究学者参与进来,还需在实践中不断的探索和完善。基于大数据技术研究的不断深化,相信在未来通过研究学者的不断努力,大数据技术将会逐渐成熟,在教育大数据中的应用会逐渐增多。
参考文献:
[1] John Gantz and David Reinsel. THE DIGITAL UNIVERSE IN 2020: BigData,Bigger Digital Shadows,and Biggest Growth in the Far East. December2012.
[2] Specials Archive. Big data[DB/OL]. [2008-09-03]. Nature,
[3] Special Online Collection. Dealing with data [DB/OL]. [2011-02-11]. Science:
[4][5] 徐子沛。The Big Data Revolution[M].广西师范大学出版,2012.
[6] Douglas L.(2012)。The Importance of "Big Data":ADefinition. Gartner.
[7] 冯登国,张敏,李昊。大数据安全与隐私保护。CHINESE JOURNAL OFCOMPUTERS,2014,37(1)。
[8] 孟小峰,慈祥。大数据管理:概念、技术与挑战。计算机研究与发展,2013,50(1):146-169.
[9] Rubén Casado,Muhammad Younas. Emerging trends and technologies in big data processing. CONCURRENCY AND COMPUTATION: PRACTICE AND EXPERIENCE,Concurrency Computat.: Pract. Exper. 2015(27):2078–2091.
[10] Sanjay Ghemawat,Howard Gobioff , and Shun-Tak
Leung.The Google File System.SOSP '03 Proceedings of the nineteenth ACM symposium on Operating systems principles,2003,29-43.
[11] Jeffrey Dean and Sanjay Ghemawat.MapReduce: Simplified Data Processing on Large munications of the ACM,2008(51)1:07-113.
[12] Thusoo A,Sarma J S,Jain N,et al.Hive - a petabyte scale data warehouse using Hadoop[C]//Data Engineering (ICDE),2010 IEEE 26th International Conference on,2010: 996-1005.
[13] Gates A F,Natkovich.Building a high-level dataflow system on top of Map-Reduce: the Pig experience[J]. Proceedings of the VLDB Endowment,2009,2(2):1414-1425.
[14] Mehul,Nalin,Vora.Hadoop-HBase for Large-Scale Data. 2011 International Conference on Computer Science and Network Technology,011(1):601 – 605.
[15] Storm,distributed and fault-tolerant realtime computation. [Online]. Available:
[16] Cloudera. Apache Flume,2011. [Online]. Available: /.[Accessed: 10-Jun-2013].
[17] Linkedin. Apache Kafka,a high-throughput distributed messaging system,2011.[Online]. Available:
[18] Linkedin. Samza,2013. [Online]. Available: