公共文化资源采集规范

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

标准草案

文化馆数字资源采集规范

(草案稿)

目次

目次 (1)

前言 (2)

文化馆数字资源采集规范 (3)

1 范围 (3)

2 规范性引用文件 (3)

3 术语和定义 (3)

3.1 数字资源 (3)

4 数字资源采集技术要求 (3)

4.1 梳理采集数据 (3)

4.2 清洗采集数据 (5)

4.3 转换数据格式 (5)

4.4 传输数据文件 (6)

4.5 设置调度计划 (6)

5 数字资源采集运维要求 (6)

前言

本文件根据GB/T 1.1-2009 给出的规则起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件由中华人民共和国文化部提出。

本文件由全国文化馆标准化技术委员会(SAC/TC390)归口。

本文件起草单位:文化部全国公共文化发展中心

本文件主要起草人:课题组

文化馆数字资源采集规范

1 范围

本文件规定了文化馆数字资源采集规范,包括文化馆数字资源采集技术要求以及运维要求。

本文件既可在全国文化馆数字资源信息采集工作中使用,同时也可供其他从事公共文化服务相关业务的机构参考使用。

2 规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

本文引用:《基层公共文化数据采集及文化馆基础数据分析研究课题报告》

3 术语和定义

下列术语和定义适用于本文件。

3.1 数字资源

数字资源是文献信息的表现形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布、存取、利用的信息资源总和。

4 数字资源采集技术要求

文化馆数字资源信息采集工作包括梳理、清洗、转换、传输、调度多个步骤,最后实现数字资源信息的汇聚存储。

4.1 梳理采集数据

文化馆数字资源信息采集内容包括数字资源的建设情况、用户检索、用户访问、用户评价以及访问用户等信息,随着文化馆数字资源采集与分析的深入,采集数据的类型和内容也

4.2 清洗采集数据

清洗采集数据是指对需要采集的文化馆数字资源数据进行审查和校验,纠正存在的错误,包括不完整的数据、错误的数据、重复的数据等。过滤那些不符合要求的数据,将过滤的结果交给文化馆业务部门,确认是否由人工修正之后再进行抽取采集。对于过滤掉的数据,记录到工作日志,作为数据的清洗记录。

4.3 转换数据格式

为了实现采集数据的汇聚与共享,采集的数据格式需要统一,遵守如下规则:

1)内容编码格式

内容编码统一设置为UTF-8;

2)日期类型

日期类型统一采用YYYY-MM-DD格式,不允许出现空值,且YYYY-MM-DD必须为有意义的日期:

(1)YYYY为四位数字,必须是有效的年份

(2)MM为两位数字,必须是有效的月份(01-12)

(3)DD为两位数字,必须是有效的日期(01-31)

对于不符合日期约束规则的日期值,处理方式存在以下两种情况:

(1)无值的日期或者无意义的日期,这时在接口中一律以“1970-01-01”填充;

(2)接口中的“失效日期”在表示“未失效”含义时,一律以“2999-12-31”填充。

3)时间类型

统一采用HH:MM:SS格式:

(1)HH为两位数字,必须是有效的小时(00-23),24小时制;

(2)MM为两位数字,必须是有效的分钟(00-59);

(3)SS为两位数字,必须是有效的秒(00-59)。

4)日期时间类型

统一采用YYYY-MM-DD HH:MM:SS格式,格式要求见日期类型和时间类型。注意,日期与时间中间有一个半角空格符。

5)内容字段

内容字段中不可以包含回车换行符(0x0D0A),如果包含,需要替换成半角空格符号。

4.4 传输数据文件

为了保证数据传输过程安全,使用SFTP(Secure File Transfer Protocol)协议传输采集的数据。将文化馆数字资源数据通过接口文件进行传输,定时传输数据文件,确保文化馆数字资源数据有序、安全的传输并存储。

接口文件中数据分隔符要求如下:

1)记录间分隔符:回车换行符(0x0D0A);

2)字段间分隔符:ASCII码0x01(不可见字符),每行数据最后一个字段后也带“0x01”。

3)为了保证数据的准确性以及接口文件中的记录各值域在有效的取值范围内,数据中均不能包含0x0D0A(回车换行符)、0x0D(回车符)、0x0A(换行符)和字段间分隔符。

4)字段数量及顺序应该绝对固定,接口数据中不可省略,无值就留空。

4.5 设置调度计划

根据采集调度要求设置不同的采集调度计划,包括准实时,每小时、每天、每月等调度方式:

1)准实时方式:将产生的数据在5分钟延迟内完成传输;

2)每小时方式:每个小时整点的30分钟前需要传输完成前一个小时的数据;

3)每天方式:每日6点前传输完前一天的增量或全量数据;

4)每月方式:每月1日6点前需要传输完成前一个月的增量或全量数据。

5 数字资源采集运维要求

负责维护和监控数据采集服务,包括:维护数据采集调度计划,每天检查采集接口运行状态,初步分析采集接口运行失败原因,每天填写巡检报告。

巡检报告包括:

1)系统运行状况:指采集系统运行:良好、正常、隐患、故障。

2)版本信息:指采集系统当前的版本号以及系统升级成该版本的具体时间。

3)系统故障:对采集系统故障情况的统计。其中,“故障总量”指该系统累计的故障数量;“已解决故障”是指针对出现的故障,已经查找到原因和解决办法并确认已解决;

4)遗留问题:指尚未找到故障原因或故障是否解决尚待运行观察。

相关文档
最新文档