高校毕业生信息采集数据规范性检测的VBA实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高校毕业生信息采集数据规范性检测的VBA实现
余磊,田向阳
淮北师范大学就业指导中心,安徽淮北,235000
摘要:针对高校毕业生信息数据规范性检测的特点和传统检测方法存在的不足,在对毕业生信息采集数据常见问题分析的基础上,提出一种数据规范性检测的自动化解决方案,并基于Excel环境运用VBA对其程序实现。该方案不仅能提高工作效率和数据检测的精确度,而且能提高计算机资源的利用率,对促进就业工作自动化的发展与创新有着重要的指导意义。
关键词:高校、毕业生、数据规范性检测、自动化、Excel、VBA
1、引言
高校毕业生信息数据,是毕业生派遣方案编制、就业报到证办理和毕业生跟踪服务的重要依据,及时准确地做好毕业生信息采集与核对工作不仅是做好毕业生工作的重要环节,也是就业工作中的难点[1]。毕业生信息采集的主要内容包括学号、姓名、性别、身份证号、学院名称、专业名称、生源所在地、手机号码、家庭联系电话、电子邮箱等关键信息[2]。高校毕业生就业管理系统的网络一体化,要求毕业生信息数据不仅内容正确,也要格式规范。非规范的数据格式将影响就业数据的正确性,数据规范性检测已成为毕业生信息采集与核对的基础工作。对照标准数据和规范条例的人工检测,仍是目前毕业生信息规范性检测的最常用方法,在操作上具有劳动强度大、工作效率低的缺点,在数据检测上易存在漏检、错检等不足。由于毕业生信息数据规范性检测具有重复性、周期性和计算机管理的特点,可运用计算机技术实现数据规范性检测的自动化解决,不仅能够提高工作效率,而且可以实现数据检测的精确性。Excel因其在数据管理与数据挖掘上具有操作简单、使用方便、功能强大等优点,目前已是高校就业数据管理主要办公软件[3]。VBA是类似Visual Basic的一种宏语言,主要用于Office办公软件的功能扩展,通过VBA编程可实现重复任务的自动化,数据的复杂性操作, Excel菜单和界面的自定义等功能[4]。因此,可以在Excel 环境下,运用VBA实现毕业生信息采集数据规范性检测的自动化处理。
2、毕业生信息采集数据中常见问题分析
在毕业生信息数据的采集过程中,受信息组织方式、信息使用习惯、信息
更新滞后、数据操作不当等因素影响,采集的毕业生信息数据在格式往往存在较多不规范之处。归纳起来,主要表现为以下几个方面。
(1)标准型数据错误。行政区划和专业名称的标准化和代码化,要求生源地和专业名称数据必须与国家最新公布的行政区划表和专业名称表中的数据保持一致。在生源地、专业名称等标准型数据字段录入时,经常存在简称、旧称、相似称、错别字、数据模糊等现象。如:“安徽省巢湖市居巢区”是旧称;“安徽省合肥市”存在县级生源地模糊;“安徽省宿州市墉桥区”中的存在错别字。标准型数据错误将无法正确生成相应数据的代码,造成数据统计错误。
(2)文本型数字数据类型错误。文本型数字数据是对毕业生某些属性的客观描述,不参加数值运算,由于受数字使用习惯的影响,文本型数字数据常常被当作数值型数据录入。数据类型错误,将导致数据表示方式和数据运算错误,特别是在Excel中,数值型数据受计算机字长的限制,当输入的数值超过机器所能表示的范围,会自动转为科学计数的格式。例如:身份证号码作为数值数据录入时,被科学计数方式表示后,再对其进行文本类型纠正后,后三位被置零,检查不到位则造成数据错误。
(3)数据中存在多余空格。造成多余空格存在的原因主要有三种:一种是数据录入操作不当,在数据的开头和结尾添加多余空格;二是在姓名录入时,为保持字段值整体上的美观,在两个字的姓名中间添加空格来实现宽度对齐;三是在身份证号、手机号等数字型字符录入时,为易于识别或避免科学计数表示,用空格对其进行等距间隔。在数据处理时,多余的空格容易造成数据字段长度的增加和数据的不一致性,若不去除,将会造成数据错误。
(4)数据有效长度不合格。学号、身份证号码、手机、联系电话等数据都具有效长度,在信息录入时,由于粗心、数据误操作等原因,可能造成信息漏录现象。数据的有效长度不合格将直接造成数据错误。
以上是毕业生信息采集数据中存在主要问题,也是毕业生信息数据规范性检测时需要解决的关键问题。在毕业生信息数据中还存在一些其它问题也需要关注和解决,如:电子邮箱格式错误、数据空值、字段乱序、标题非首行等情况。
3、规范性检测方案设计
3.1、基础性工作
毕业生信息采集通常以专业或班级为单位,采集的数据需经就业管理部门进行规范性检测、校对和汇总后,再以某种方式供毕业生审核确认。为降低数据规范性检测和数据汇总的复杂度,要求数据表格在字段名称和排顺上要具一
致性,即制作格式统一的信息采集Excel文件模板。
3.2、方案设计分析
(1)交互式窗体设计
在软件设计中,无法通过程序实现的选择事项,通常借助窗体和控件以人机交互的方式来实现[5]。经分析,在毕业生信息校对中,需要手动选择的事项有:校对文件的选择、生源地代码和专业代码的添加选择,相应的窗体和控件设计如图1所示。
图1.数据规范性检测程序窗口界面
(2)常量和全局变量定义
1)常量。为提高程序的易维护性,一些常用固定值,用常量说明语句定义。如:文件默认操作位置、单元格属性的统一设定值、标题顺序常量、错误标识颜色、身份证号长度等。
2)全局变量。为降低程序的时间和空间复杂度,对于生命周期长、作用域广和重用率高的数据以全局变量的方式存储和使用[6]。在生源地、专业等标准型数据检测时,用于比对的标准参照数据的重用率较高,用全局数组变量存储,不仅能避免Excel表格频繁切换的高时间、空间复杂度问题,还可以增加标准参照数据应用的灵活性。表格行数、表格列数、字段列位置等表格属性是数据遍历和精确定位的必需数据,具有生命周期长和作用域广的特点,也以全局变量的形式存储和使用。
(3)辅助函数设计
为增强程序与数据的相对独立性,提高程序执行效率,降低程序设计的复杂度,对功能独立的操作用函数对其封装。
1)文件打开函数。具有Excel文件打开、文件打开错误类型判断和提示功能。
2)标题行一致性判断与校正函数。参照标题顺序常量,进行标题行位置、标题顺序、标题名称正误、字段缺失情况判断,对标题非首行和标题乱序等情况具有自动校正功能,对字段缺失和标题名称错误等情况给出错误类型提示。
3)表格属性全局变量赋值函数。首先删除指定工作簿当前工作表的空白行