智慧校园数据平台架构及数据治理系统设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0引言
随着信息化的不断进步和发展,校园管理也日趋往整体化、智能化、融合化等方向发展,由此应运而生了“智慧校园”的概念。智慧校园是指利用物联网、大数据、云计算技术来建设校园,达成校园管理的信息化,使得校园管理、教学管理、校园生活、科研等多方面一体化。
现在的学生生活更多的依赖电脑、手机和网络,而在校园管理中也大量使用网络来存储信息,使得智慧校园平台中保存有大量的数据资源,这些数据具有种类多、范围广、容量大等特点。如何能有效挖掘数据中的信息,为学校的学业水平、管理水平提供帮助是现在很多高校努力的方向。因此,在智慧校园中需建立数据平台,用于实现数据的治理、交换、存储、共享、挖掘分析等功能。数据平台通过各类数据采集工具,汇聚了校内各业务部门的业务数据、学生数据、校园管理数据等,对数据进行处理后,提供数据分析功能,挖掘出各类数据信息的深层价值。
1数据平台架构设计
数据平台由数据交换系统、数据治理系统、数据存储系统、数据管理系统、数据挖掘分析系统、数据可视化系统等组成,可以实现智慧校园各个系统中的数据共享与交换,并能对数据进行处理,提高数据质量,从而通过数据挖掘系统实现数据的信息利用。数据平台的系统组成如图1所示。
数据平台能够打通各系统和业务单位的数据壁垒,从数据层面实现校内各领域间互联互通。同时,基于大数据中心的数据分析应用,能够有效改善当前的教学方式、日常管理方式及生活方式,提高教学、管理效率以及生活学业的质量。
数据交换系统主要支撑校区内部的数据资源及服务资源的共享交换,通过对数据资源接入的部门进行管理,数据交换策略的配置和数据同步的配置管理实现数据的全方位共享。
数据治理系统通过元数据管理和数据标准管理达到数据治理的作用,完成数据预处理,为之后的数据应用系统、数据服务模块提供质量良好的数据。
数据存储系统中,根据不同的数据类型,采用不同的存储方式,其中半结构化的日志数据和非结构化的音视频附件数据采用分布式文件存储方式,结构化数据存储采用关系型数据库等。
数据管理系统主要负责掌握数据库的运行动态,管理数据的安全问题、访问权限、接口调用等。
数据挖掘分析系统通过对数据进行聚类、分类、文本挖掘、图像挖掘等各类挖掘算法,找到校园数据中的深层价值。主要由基础设施、数据资源、计算引
智慧校园数据平台架构及数据治理系统设计
张荃1,陈晖1,王海涛2
(1.陆军工程大学通信工程学院,江苏省南京市210007;
2.南京审计大学金审学院,江苏省南京市210023)
摘要高等院校内部数据信息较为庞大,当前很多高校通过在“智慧校园”的建设过程
中引入数据平台来管理数据信息,取得较好效果。针对高校数据管理中存在的诸多问题,
着眼提高数据管理的质量和效益,文章提出在数据平台架构中融入数据治理系统的设计
理念。首先构建智慧校园数据平台的总体框架,对数据平台中的数据治理系统的功能要
素进行设计。然后,着重阐述数据预处理模块的相关功能和实现方法。最后,从数据质量
标准的角度说明通过数据预处理来提高数据质量的方法。
关键词智慧校园;数据平台;数据治理;数据预处理
擎及算法库结构组成。算法库中存有基础的挖掘算法,通过计算引擎可以调用算法库中的算法,实现数据的挖掘分析,极大简化了用户使用的操作难度。
2数据治理系统功能设计
数据治理系统主要由三个部分组成:数据预处
理模块、数据治理分析模块和数据质量管理模块。数据预处理模块完成数据的清洗、集成、变换、归约等工作;数据治理分析模块综合判断数据经过预处理后的效果;数据质量管理模块通过制定质量标准,对数据质量进行检测评估。数据治理系统的组成如图2所示。
图1数据平台系统组成
图
图2数据治理系统组成
图
2.1
数据预处理模块
数据预处理是指对数据进行筛选、排序、加工、分类等工作。在智慧校园平台中,存在很多“脏数据”,例如数据中存在空白数据、异常值等情况。数据预处理是为了能够更好地挖掘数据而做的前期工作,可以保证数据挖掘工作的准确性和有效性。
数据预处理模块是数据治理系统中最重要的一部分,完成了数据治理系统大部分的工作。该模块主要由数据清洗、数据集成、数据变换和数据归约四部分组成。本文着重介绍数据清洗和数据集成的功能实现。2.1.1
数据清洗
数据预处理的第一步是数据清洗,指的是对数据中冗余、杂乱、空缺的数据进行删除、调整、填补等工作。主要分为:重复数据清洗、缺失数据清洗和噪声数据清洗等。
1)重复数据清洗
重复数据指的是内容重复的数据,它们所包含的信息内容、信息量都是一致的,可能存储的格式、位置等存在差异。重复数据检测主要方法是,计算各属性的相似度,考虑不同属性的权重值,计算出最终的相似度,当相似度高于阈值时,即为重复数据。常见的算法有余弦夹角算法、欧式距离、Jaccard 相似度、最长公共子串、编辑距离算法、基本近邻排序算法、多趟近邻排序算法等。
a )余弦夹角算法:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0°,表明两个向量越相似;余弦值接近于0,夹角趋于90°,表明两个向量越不相似。余弦夹角算法流程如图3所示。
b )编辑距离算法:从目标字符串S 到源字符串T ,需要进行插入、删除、替换操作的次数。例如从字符串Tuesday 到字符串Wednesday ,需要经过两个字符的替换和两个字符的插入,所以两个字符串的编辑距离为4。编辑距离算法步骤见表1。
c )SNM (基本近邻排序算法):主要用于找出重复数据,在目前重复数据的清洗工作中应用比较普遍。SNM 算法流程如图4所示。
该算法原理容易理解,实施较为方便,但是存在很明显的缺点,一是对于关键字的依赖性很大,选择
的关键字不同,结果可能存在差异;二是窗口的大小对结果也会产生影响。目前很多学者针对这两个缺点进行了优化,使得SNM 算法更为灵活和有效。
上述三种算法,余弦夹角算法多用于处理文本类数据,适用于高维正空间。编辑距离算法适用于中文字符的情况,可以很好地对字段进行匹配,但当出现字符相互颠倒的情况时,计算结果易出现偏差。SNM 算法滑动窗口的效率比较高,适用于数据量比较大的情况。因此在数据治理系统中拟使用SNM 算法来实现重复数据的清洗工作。
图3余弦夹角算法
流程表1
编辑距离算法步骤说明
步骤序号
具体描述
1
输入两个字符串String1和String2,两个字符串的长度分别为m 和n
2建立一个零矩阵d (m+1,n+1)
3初始化第一行为0,1,…,m ,第一列为0,1,…,n 4循环对比String1(for i =1:m )和String2(for j =1:n )中
每个位置的字符是否相等,如果String1(i )=String2(j ),则cost=0,否则cost=1
5d [i ,j ]中的值为min (d (i -1,j),d (i ,j -1),d (i -1,j -1)+cost)
6d (m ,n )即为编辑距离