数据质量检查模块V0功能规范
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CALIS学位论文和特色库本地系统
数据质量检查模块V2.0功能规范
CALIS管理中心
2006年10月
一、概述
《CALIS OAI Record格式和发布规范》定义了“CALIS数据发布模式2”。对于该模式中的“数据质量检查模块V2.0”,本文给出了具体功能规范。
“数据质量检查模块V2.0”(简称“数据质量检查模块”)需作为学位论文或特色库本地系统的一个组成部分。该模块有两种使用方式:
✧方式1:该模块用于对“CALIS数据发布模式2”中的OAI记录文件(该文件遵
循“CALIS OAI Record V2.0格式”,可以在同一条OAI记录中同时包含元数据和
数字对象)进行校验。
✧方式2:本地系统在将数据送入OAI-DP之前,自动调用该模块对拟发布的元数
据和数字对象进行质量检查和校验。
数据质量检查模块的使用者主要图书馆中学位论文或特色库本地系统的系统管理员或者数据管理员。
对于学位论文本地系统,需设置一个系统参数“论文必备性校验分界日期(CALIS__ETD_verify_sep_date)”,若某篇学位论文的“论文授予日期”大于等于指定该分界日期,则采用“CALIS学位论文元数据必备性规则2”进行校验,否则采用“CALIS学位论文元数据必备性规则1”进行校验。
二、界面规范
管理员首先使用本地系统的OAI文件导出模块进行OAI记录文件(遵循“CALIS OAI Record V2.0格式”)的导出。然后,管理员再使用“数据质量检查模块”对OAI记录文件中的数据在数据格式、必备性、一致性等方面进行检查和校验。校验无误后,管理员才能将这些文件通过FTP上传,或者通过OAI-DP自动对外发布。
数据质量检查模块的界面应尽量简单易操作,提示信息明确。该界面至少应包含以下部分:
1.oai记录文件夹(文件名)输入框,可以手工输入要检查文件存放的文件夹或文件名。
2.oai记录文件夹选择按钮,可以用可视对话框的方式选择要检查的文件夹或文件3.oai文件检查按钮
4.结果提示文字框
数据质量检查模块的界面如下图所示:
图1:数据质量检查模块V2.0的界面示意
【特别注意】
对于学位论文本地系统,参数CALIS__ETD_verify_sep_date(论文必备性校验分界日期)应能由管理员统一配置。
三、功能规范
“数据质量检查模块V2.0”对于“CALIS数据发布模式2”的OAI记录文件进行校验时可能会发现一些错误,这些错误提示应遵循《CALIS学位论文和特色库本地系统的数据质量检查模块的错误代码规范》规范。
“数据质量检查模块V2.0”对OAI记录文件的校验分为以下两种情形:
1)用于对OAI记录文件进行校验;
2)与本地系统联动,用于对OAI-DP中即将发布的OAI记录数据进行校验。
3.1对OAI记录文件的校验
对“OAI记录文件”,按照“CALIS OAI Record V2.0格式”要求进行校验,该校验工作包括以下几个方面:
(1)对OAI Record文件名称的校验
(a)文件名称是否采用以下拼接形式生成:
“完整的MetaID”+“@”+“导出时间戳”+“.oai.xml”
——这种校验的错误代码为01002A。
(b)“完整的MetaID”部分是否采用以下拼接形式生成:
“仓储标识”+“-”+“本地应用系统前缀”+“/”+“本地元数据标识”
——这种校验的错误代码为01003A。
(c)“完整的MetaID”部分是否进行了application/x-www-form-urlencoded MIME格式转换,型如:
oai%%3Aetd-dr%2FA1002
——这种校验的错误代码为01003B。
(d)“导出时间戳”部分是否为型如“2005-01-01T10:02:30Z”的20位零时区时间格式
——这种校验的错误代码为01004A。
(e)“导出时间戳”部分是否进行了application/x-www-form-urlencoded MIME 格式转换,型如:
2005-01-01T10%3A02%3A30Z
——这种校验的错误代码为01004B。
(f)OAI Record文件名称是否型如:
oai%%3Aetd-dr%2FA1002@2005-01-01T10%3A02%3A30Z.oai.xml ——这种校验的错误代码为01002B。
(2)对OAI Record文件的内容进行校验
(a)用Record Schema(record.xsd)校验XML文件是否合法,schema地址为:/metadata_ns/oai/record/record.xsd
——这种校验的错误代码为01009。
(b)取出record->header->identifier下的元数据标识符的值,并同OAI Record文件名称中的“完整的MetaID”进行比较,这两个值应该一致
——这种校验的错误代码为01010。
(c)取出record->header->datestamp下的元数据时间戳的值,该值应该是一个20位的零时区时间值
——这种校验的错误代码为01011。
(d)取出record->metadata下的元数据XML片断,对元数据内容进行校验
a)该部分的元数据,当符合不同元数据格式时,所使用的元数据Schema是
不同的,所以,需要取出根元素的xsi:schemaLocation属性值,并获得其中
包含的schema的地址,利用该schema对当前元数据XML片断进行校验——这种校验的错误代码为01012。