学生成绩分析数据仓库中数据模型的分析与设计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

学生成绩分析数据仓库中数据模型的分析与设计

西北民族大学教务处 王小梅

[摘 要]本文通过对学生成绩分析系统的需求研究,结合数据仓库的设计方法给出了学生成绩分析数据仓库的概念模型、逻辑模型和物理模型,并简单介绍了该数据仓库的设计与实现过程。为高校学生成绩分析数据仓库的建设奠定了基础。

[关键词]数据仓库 概念模型 逻辑模型 物理模型

一引言

目前,各高校都在加快数字化校园建设,校内不同部门也在日益完善自己的管理信息系统。这样,大量完整的数据日积月累起来,形成了非常宝贵的信息资源。但目前,这些数据主要用途仍是提供简单的查询和统计。数据仓库的建立,为有效利用数据资源、协助管理决策奠定了基础。

数据仓库是面向主题的、集成的、稳定的、随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。在高校中,用于建设数据仓库的数据大部分来自现有的管理信息系统。由

,如教务管理系统、学生成绩信息系统、学生管理系统等等,这些系统都有非常宝贵的实时信息和历史信息。但由于各部门业务的不同,往往由不同的厂家开发,采用的平台、数据库系统、开发工具也不尽相同。最初的开发都是基于日常处理和统计所需,各自为政,缺乏统一的规划和协调。根据现状,要提高决策的准确性与即时性,构建数据仓库,将各部门的数据源尽快组织起来是解决这一问题的有效途径。

二学生成绩分析系统的需求分析

数据仓库构建之前首先要进行用户需求分析。确定分析项目所要完成的工作是:针对学生成绩的特点,确定要通过学生成绩分析数据仓库的设计实现哪些功能;通过数据的分析要做出对哪些问题的分析和预测;管理者和技术人员也可以根据分析的情况对教学管理工作做出调整。数据仓库所要实现的系统功能:(1)数据仓库可以实现对学生班级管理工作的优化;(2)数据仓库还可以实现对系所的管理工作的优化;(3)数据仓库还可以调整优化教学管理工作。

为了更清楚的说明系统的需求定义,引入信息包来分析系统的需求。信息包把基本的衡量指标和用户用来分析这些基本指标的维度相结合。

所要建立的数据仓库应该满足对班级中所有学生的成绩进行分析,并且对班级的某一门课程的平均成绩、各个成绩段的人数进行分析,还要对某一个系所或者年级的学生的某一门课程进行分析,或者对某一门课程的不同授课教师的平均成绩进行分析,这样我们就要求成绩信息的粒度达到细节程度。因此数据仓库主要对学生成绩进行分析,并且还要从学生、教师、课程、时间多方面分析。我们要衡量的指标是学生的成绩,学生的成绩绩点,对于班级、系所、某教师多门课程或同一门课程不同授课教师来说就是所对应的学生的所有考试成绩的平均成绩和各个成绩段的人数。

三数据仓库设计

数据仓库的设计有两种方法,“自顶向下”和“自底向上”,这两种方法都有优缺点,比较现实的方法是将两者结合起来。在企业级数据仓库的概念指导原则下进行,要有集中的总体设计框架,任何一个数据集市的设计、实施都要遵循总体设计概念和原则,并实行一系列标准化。数据集市是整个数据仓库系统的逻辑子集,而数据仓库就是一致化了的数据集市的集合。

学生成绩分析数据仓库是面向学生成绩管理决策支持的,它具有数据量大、构成多维、要求精确、更新频繁等特点,所以必须对数据仓库进行精心设计,才能满足数据量快速增加而查询性能并不下降的要求。在确定主题后,需要对主题包含的信息进行详细定义,并对事实表和维表的关系详细定义。

在数据仓库设计过程中数据模式的设计至关重要,它是数据仓库设计中的核心部分。数据仓库建立模型的过程实际上是一个从关系型、规范式的数据模型向多维模型转换的过程。

在学生成绩分析信息系统的数据仓库设计过程中,我们采用通用的三层数据建模方式,即概念模型设计、逻辑模型设计和物理模型设计。概念模型设计提供了一个整体概括性描述;逻辑数据建模层面向学生成绩分析数据仓库界定范围的全局及其应用;物理数据设计使用物理限制,如空间、特性和数据的物理分布,目的是设计实际的物理数据。

四概念模型设计

概念模型设计的目的是在原有的数据库的基础上建立一个稳固的概念模型。主要完成的任务有两个:确定主题域及其内容、界定系统的边界。确定主题域是第一步也是最重要的一步。系统的概念模型设计是在主题数据的关系模型基础上进行的,它的形成主要是通过ER模型设计的,这里主题数据关系模型的构成就不再赘述。系统的概念模型的设计主要就是完成两项工作;确定系统边界、确定主要的主题域及其内容。

按照学生成绩分析数据仓库的特点界定边界,教务管理层需要分析的主题主要包括学生主题、教师主题、课程主题等。学生主题主要包括学生的固有信息、成绩信息、课程信息、教师信息等等。教师主题就是教师的固有信息、授课信息等等。课程主题主要包括学生选修的课程和必修的课程、课程分类的信息以及课程安排信息等等。在确定了教务管理层需要分析的主题的边界后,要确定一个主要的主题域,并对其内容进行分析。在本系统中选择学生成绩分析主题作为该系统的分析主题。我们将这个主题边界的划分应用到原有的关系模型上形成概念模型,由于在本系统中只研究数据仓库系统的学生成绩分析主题,故在概念模型中只显示了学生成绩分析主题的概念模型。

五逻辑模型设计

逻辑模型设计阶段要进行的主要工作是分析主题域、确定当前要装载的主题、确定粒度层次划分、确定数据分割策略等。数据集市一般按业务分析领域进行数据组织,一个数据集市一般包含有一个特定业务分析领域的数据。数据集市是完整数据仓库的逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。为了成功地建设数据集市,能有机组成完整的数据仓库,在一个数据仓库内,所有的数据集市必须具有统一一致的业务事实。星型模式是实现数据集市和数据仓库逻辑模型的最好方法。

根据概念模型设计确定的维度和事实,用星型模型来表示数据仓库的逻辑模型,在设计完成了系统数据仓库主题的概念模型后,应该对某一个数据仓库的主题进行逻辑模型设计。在本系统中对学生成绩分析主题进行分析。它的逻辑模型设计主要进行粒度的选择、数据表的合理划分、关系模式定义、提炼表中数据。

(1)粒度的选择:我们所构建的数据仓库的数据每年总行数为大约10000行,依据逻辑模型设计原理的粒度选择原理可知,可以采用单一的粒度设计。

(2)数据表的合理划分;由于主题中各个关系表内数据量不是很大,因此不用进行表的数据分割。而对于各个关系表内部的数据来说,所涉及的都是使用频率基本一致的,主要由于在学生信息、教师信息中都是使用的固有信息,如果加入了教师的每年授课情况,就要单独建立一个关于教师每年授课情况表,以记录某教师多年来的授课情况,帮助分析教师的授课水平,在本主题中不涉及。

(3)关系模式的定义:基于关系表的存储方式有三种模型,即星型模型、雪花模型和事实星座。在此我们(下转第211页)

8

2

相关文档
最新文档