大数据时代档案管理面临的问题及对策
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[摘要]在大数据背景下, 档案数字资源具有数量庞大、 增长迅速、 多源异构等新特点, 因此档案管理方面面 临档案学术重建、 档案法律法规、 档案海量数据存储等方面问题。本文就大数据时代档案管理存在的问题 和解决方法进行了探讨。 一、 什么是大数据 目前, 大数据并没有形成一个统一的定义。然 而, 通过分析不同概念发现, 尽管描述不一, 但内涵 一致: 大数据不是对数据量大小的定量描述, 而是一 种种类繁多、 数量庞大的多样数据的概念。大数据 的特点一股归纳为 4V, 即数据体量巨大(Volume)、 处 理速度快(Velocity)、 数据类型繁多(Variety)、 数 据价值密度低(Value)。 二、 如何理解 “档案大数据” 人类社会已经步入了大数据时代, 它将深刻地 影响社会的方方面面。什么是 “档案大数据” ?要正 确理解这一概念, 有必要对 “大数据” 与 “档案” 这两 个概念进行深入剖析。大数据概念与档案概念相结 合得到的档案大数据, 是大数据的概念、 理论、 技术 与方法在档案领域的应用与实践。参考其他领域针 对大数据研究的成果, 我们可以得出档案大数据在 实质上是一种基于发展的、 动态的、 数据流的档案 观; 基于海量数据的实时处理技术和知识挖掘过程; 是一种基于数据的全面性、 复杂性、 相关性的思维分 析方法; 是一种颠覆传统的、 全新的档案管理模式。 三、 大数据时代档案管理面临的问题 (一)档案学术的重建 电子文件的兴起已经改变了传统的文件处理和 档案管理方法, 对当今档案的概念、 本质、 管理方法、 理论学说等产生了强烈的冲击。数据流、 数据库的 出现, 信息生成与存在形态上的变化, 则进一步动摇 和颠覆了现有档案学的概念体系和研究范畴。例 如, 数据库是一种电子档案吗?什么样的数据流才 具有档案特征?文件生命周期理论在信息的实时采 集、 即时分析、 动态更新的环境中还有意义吗?为数 据流实时分析、 模式识别、 知识挖掘提供支持的知识 库与规则库属于档案概念体系中的什么成分?基于 “云” 存储与 “云” 计算的数据档案存储与服务, 其实 体边界和效能如何界定?如果说大数据时代的档案 学正在重建, 那么这些问题都是必须谨慎思考、 深入 研究的。 (二)基于电子档案的法规体系研究 现有档案法规体系是以 《中华人民共和国档案 法》 为核心, 以档案局为行政执法主体, 该法规体系 建立的基础是实体档案及其管理模式, 由此衍生的 若干档案行政法规、 规章均是以实体档案为管理对 象。随着信息化进程的加快, 电子文件和电子档案 的管理也被纳入其中。需要注意的是, 档案大数据 以电子档案为基础, 与传统档案有着本质区别。随 着档案事业的发展, 对电子档案管理和维护的组织 实体将日益多样化, 因此, 必须考虑以大数据的思维 来构建基于电子档案的管理利用的法规体系, 从数 据的管理与利用出发, 合理规范档案数据的生产、 储 存、 利用, 合理界定国家安全、 隐私保护、 数据权益等 方面的边界。如何建立有利于档案大数据管理、 利 用与发展的档案法规体系, 将是档案大数据研究面 临的课题。 (三)档案内容元数据体系的研究 所谓元数据是关于数据的数据, 是对信息资源 69
������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������
������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������ ������
《机电兵船档案》 2016 年第 6 期
信息化建设
的结构化的描述。元数据描述了信息资源或数据本 身的特征和属性, 规定了数字化信息的组织, 揭示了 数据之间的相关性和依赖性。大数据并非简单的数 据量巨大、 种类众多, 大数据的知识挖掘与利用主要 依赖于各类数据之间的相关性。建立、 理顺各类档 案数据的相关性将是档案领域大数据应用研究的重 点。当前档案管理中存在的缺陷是档案承载信息的 孤立性和冗余性。例如, 在综合档案馆保管的多个 全宗中, 某个全宗形成的某些文件也保存在其他全 宗中, 出现重份甚至多份的现象, 进而造成大量资料 的重复。对于电子档案, 通过网络可以解决数据共 享的问题, 但要确保档案信息准确、 无冗余, 还需对 各类档案的数据项进行分析与归纳, 形成可以相互 参照的、 有明确审核层级的内容元数据体系。当前, 随着政府执政理念从管理到服务的转变, 基于电子 政务的联网办公、 并联审批模式正逐步推广应用, 对 审批内容与提交材料的梳理、 分类与提炼等工作正 推动着档案内容元数据体系的建设。然而, 受行政 管理体制条块分割的影响, 覆盖全国各层次、 各领域 的档案内容元数据体系尚未形成, 难以适应大数据 时代的发展要求。如何构建、 实施和推广档案内容 元数据体系, 是一个需要各学科、 各领域专家和管理 层予以重视和深入研究的重要课题。 (四)数据存储问题 在大数据时代, 档案数字资源整合面临的挑战 也来自数据存储。一是档案管理系统在面对海量数 据时需要高可扩展性的支撑, 而目前集中式的数据 存储和管理模式非但资金投入巨大, 而且也无法适 应档案数字资源体量激增的新情况, 在档案数字资 源的高效存储和快捷访问方面面临严峻挑战。二是 目前基于关系型数据库研发的档案管理系统无法适 应大数据时代占数据总量 80%以上的非结构化数据 存储和处理的需要。 (五)数据分析问题 大数据时代是一个泛在信息、 泛在知识的时代, 随着信息化程度的加深, 档案数字资源的来源结构 将发生巨大变化, 传统的基于封闭的结构化数据进 行的数据挖掘算法在分析处理非结构化数据时存在 局限。而且, 要获得大数据分析的价值, 就应关注档 案数字资源中的数据关系和语义表征, 实现信息整 合与知识整合。但目前档案数字资源整合还处于数 据整合阶段, 偏重于实现异质异构数据在物理或逻 辑上的集中和互联互通, 仅能为用户提供信息检索 70 服务, 这与大数据时代的要求相去甚远。 (六)电子档案信息真实性的研究 档案的真实性是档案的价值所在和利用前提。 对电子文件的真实性、 完整性和不可抵赖性可通过 数字签名系统予以保障, 防止其他人伪造、 非法截取 和更改文档, 辨识及确认电子文件签署人身份、 资格 及文件真伪。尽管如此, 当前电子签名系统的推广 及应用仍存在较多困难。基于数据流的电子档案, 其本身具有动态性, 如何界定和维护数据真实性、 完 整性及不可抵赖性, 将面临更多技术和法律难题。 例如, 某辖区某个时间节点的居民人数统计电子档 案, 是通过辖区内居民数据库统计得到的; 若后续工 作中发现并更新了某个居民信息, 那么原有统计得 到的电子档案是否仍然有效, 随着电子档案的快速 发展与广泛应用, 这类问题将越来越普遍。如何界 定电子档案的真实有效, 并在不影响数据处理和利 用效率的前提下, 对电子档案进行加密与防伪, 是档 案大数据研究需要解决的技术难题。 (七)安全隐私问题 档案数字资源不同于其它信息资源, 它是国家 和社会精心挑选并保存下来的真实的历史记录, 其 中包含着大量国家秘密、 工作秘密、 个人隐私等重要 信息, 事关国计民生。在大数据时代, 如何对档案数 字资源中敏感数据的所有权和使用权做出明确界 定; 如何选择合适的安全防护策略以适应数据非线 性增长的需求, 杜绝安全隐患; 如何应对大数据分布 式处理带来的数据、 隐私等泄露风险, 这些都是摆在 我们面前不可回避的重要课题。 (八)人才紧缺问题 档案大数据中蕴藏着巨大的潜在价值, 这需要 能熟练运用大数据分析工具的专业人士才能进行科 学分析, 作出合理决策。但是, 由于缺乏职业准入机 制, 我国档案队伍专业化程度普遍不高, 那些既有档 案学专业知识又具备较强网络技术能力和信息处理 能力的复合型人才更是稀缺, 这必将在很大程度上 制约档案数字资源整合工作的开展。 四、 对策分析 根据档案大数据的特点和发展方向, 笔者认为 需要在以下五个领域进行重点研究。 (一)加强制度体系建设 大数据时代要��
大数据时代档案管理面临的 问题及对策分析
中船重工 702 所 于 斌
������������������������������������������������������������������������������������������������
�������������������������������������������������������������������
信息化建设
������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������