高校大数据及其处理架构

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高校大数据及其处理架构

高校中汇聚着大量的信息,从学生角度来看,包括联系方式等基本信息,食堂消费、住宿晚归等生活信息,选课、课后作业、借阅图书、成绩等学习信息,参与的社团、竞赛、讲座等第二课堂信息;从教师角度来看,包含教学任务、课件等教学信息,论文著作、科学研究数据等科研信息;从管理者的角度来看,包含学校的资产信息、师资信息、招生就业信息等。同时随着移动互联网以及物联网等新技术的兴起,学校师生主动产生和由设备自动收集的信息越来越多,如微博、微信等社交信息,各类搜索点击记录信息等。上述信息存在着数据量大、结构复杂、产生频率快的特点。这导致利用常用软件工具捕获、管理和处理此类数据所耗费时间超过了可容忍的时间。

大数据的处理流程与一般数据的处理过程类似,可以定义为在合适工具的辅助下对广泛异构的数据源进行抽取和集成,将结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。具体来说可以分为数据抽取与集成、数据分析和数据展示。

数据抽取与集成

大数据的数据来源非常广泛,既包括传统的关系型数据库,也包括XML 等半结构化数据,以及以视频、音频、文本和其他形式存在的非结构化数据。数据抽取和集成要解决的主要问题就是收集各种碎片化的数据,对数据进行清洗,保证数据质量,同时根据时间演进不断更新数据模式,确定数据实体及其之间的关系,最终将数据按照统一的格式进行存储,以便提供给上层用来进行数据分析。

目前高校已经基本建立了完备的管理信息系统、学习管理系统等,在统一数据中心中积累了大量的结构化数据;同时各类系统中还散布着大量的半结构化和非结构化数据。半结构化和非结构化的数据经过一定处理后,可以转化为更容易分析使用的结构化数据。

数据分析

经过抽取和集成得到的数据,需要经过分析挖掘其潜在的价值。传统的数据挖掘、机器学习、统计分析等方法仍然可以用来对数据进行分析,只是需要根据大数据的特征进行调整。首先,为了实现对海量数据的分析,需要依Map/Reduce 模型,将数据拆分处理,然后再将结果汇总,一个完整的分析可能会经过多层类似的处理过程;其次,大数据的应用通常具有实时性的特点,数据的价值会随着时间的流逝而递减,因此分析方法需要平衡处理的效率和准确率;最后,大数据一般构建在云计算平台之上,分析方法需要考虑与云计算平台的集成或做为一种云服务。

数据展示

数据分析得到的分析结果,需要以直观可理解的方式呈献给最终用户,在大数据时代,数据分析产生的结果有可能也是非常大量的,且结果之间的关联关系复杂、数据维度更多,数据可视化技术通过更加适合人类思维的图形化的方式展示数据分析结果,已经被证明是展示数据分析结果非常有效的方法。常见的可视化方法有:多维叠加式数据可视化、数据在空间、时间坐标中的变化和对比等,当然要将枯燥的信息转换为美丽的、令人印象深刻的图形,需要较高的技术素养和艺术素养。

. 数据来源

传统的就业分析一般从就业单位、就业地区、所在院系专业、性别、签约类别、就业年份等维度来分析,得到的只是一般意义上的统计结果,对于指导单个学生的就业以及预测未来的就业情况发挥的作用比较有限。应用大数据分析技术,就可以将学生就业模型涉及到的学习情况、社团信息、生活信息、校外实习、参加的竞赛及获奖情况、所投公司当年的招聘计划、历届学生在所投公司的表现等众多的信息进行收集。以上海财经大学为例,可以从图1 所示的各类系统中抽取学生的各类信息,构成就业分析模型所需的各类数据。

2. 数据抽取与存储

针对数据来源的不同,我们采取不同的数据抽取方式,对于结构良好的各信息系统的数据,我们采用ETL 工具如InformaticaPowercenter、Kettle 将数据抽取到HBase 数据库中;对于Web 网页这类非结构化数据,通过Nutch 进行抓取,Solr 对数据进行索引后存储到Hbase 数据库中,示意图如图2 所示。Hbase 数据库是一个开源的高可靠性、高性能、可伸缩、并非建立在关系模型基础上的分布式数据库,用以存储大规模结构化数据。

. 数据分析

将就业分析模型所需的数据存储在Hbase 数据库后,可以利用Hive 对Hbase中的数据进行查询和分析。Hive 提供了一种简单的类SQL 查询语言,十分适合数据仓库的统计分析。通过Hive 我们可以实现传统数据仓库所实现的对就业数据的汇总统计分析,而且可以容易的扩展其存储能力和计算能力。

除了数据统计分析之外,我们还可以利用Mahout 这个机器学习工具对数据进行监督学习和无监督学习。监督学习使用先验知识对数据进行分类;无监督学习则由计算机自己学习处理数据,并在做出判断后给予一定的激励或惩罚。在进行就业分析时,我们可以使用Mahout 已经实现的具体方法。首先是协作筛选,通过分析已就业学生的成绩、参加的社团活动、关注的行业、性格特点、就业单位、就业岗位等,计算学生之间的相似度,为即将毕业的学生推荐适合的就业单位和岗位,提供个性化的服务;其次是聚类,这是一种无监督的机器学习方法,我们可以通过不同的维度将未能及时就业的学生进行分析,从中找出其共同的特点,再通过比较在校学生的相关属性,及时对学生给出预警,以便其在后续的学习和生活中加以改进,如图3 所示。

4. 数据展示

在数据展示层,我们可以使用Tableau 软件将分析的结果进行可视化的展示,Tableau 将数据与美观的图表完美地结合在一起,它包含非常多的预定义的图表格式,同时还可以将时间、地图等多种维度在单一的图表中进行展示。

学习行为分析

为了支持学生的自主学习,高校一般都有自己的学习管理系统如Blackboard、Sakai 等。这些学习管理系统为学生、教师提供了课程学习和交流的空间。美国教育部教育技术办公室认为教育数据分为键击层(keystroke level)、回答层(answer level)、学期层(session level)、学生层(student level)、教室层(classroom level)、教师层(teacher level)和学校层(school level),数据就寓居在这些不同的层之中。一般高校每年的开课数在数千门,学生数在数万人,产生的数据量非常大。应用大数据分析技术使得监控学生的每一个学习行为变为了可能,学生在回答一个问题时用了多长时间,哪些问题被跳过了,为了回答问题而作的研究工作等都可以获得,用这些学生学习的行为档案创造适应性的学习系统能够提高学生的学习效果。

学科规划

促进学科交叉融合发展,构筑有生命力的学科生态,打造凸显核心竞争力的高水平学科是学校学科规划的重要任务。借助大数据分析技术,充分收集各学科的教学状态数据、科研项目数据、前沿发展动态等信息,从而分析学科建设存在的不足,确定学科未来发展的方向,发掘出潜在的具有国际视野的学科带头人。

心理咨询

论坛、微博等平台上每天都会产生由评论、帖子、留言等数据,这些数据集反映了师生的思想情况、情感走向和行为动态,对这些数据进行科学的存储、管理并使用大数据技术进行有效的分析利用,建立师生思想情感模型,对掌握师生心理健康程度,有针对性地加强对师生的心理辅导有着重要的意义。

校友联络

校友资源犹如一座座宝藏,对高校的发展建设有着不可替代的重要作用,是高校工作的重要组成部分。有效地把校友联络起来、团结起来,对学校的建设和发展具有重要意义。利用传统的管理方法,仅校友信息收集就要耗费大量的时间和精力。利用大数据技术,收集各类社交网站上的非结构化数据,通过分类、聚类等数据挖掘方法,确定校友身份并收集其联系方式、参加的活动信息等,可以大大提高校友数据收集的效率,为以后利用校友资源提供良好的基础。

相关文档
最新文档