云南省数字档案馆专题数据库建设持续推进——以民国档案人名数据库为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

云南省数字档案馆专题数据库建设持续推进

—以民国档案人名数据库为例
■连超艾丽
怎样更快、更准查找档案,怎样深入挖掘和开发档案信息,是档案工作永恒的主题。

云南省档案局十年数字化大幅提高了档案利用效率,但仍只是在一定程度上解决了查阅者的需求。

为了更加精准查找档案,推进大数据应用+省局相继开展了十几个专题数据库建设,其中馆藏民国档案人名数据库就是其中一个基础性数据库。

该数据库是以方便快捷查阅云南省档案馆馆藏民国档案数字化原文为目标,以每件卷内文件为对象,围绕人名采集相关信息,并聚合档案数字化原文查看路径、安全管理信息所构建的专题数据库。

2019年首期项目已完成任务#90万条,取得较好效果:一个人在卷帙浩繁的民国历史长河中所经历发生的各个事件记录,只要输入姓名关键字段一检索,几秒中之内就可以查找完备。

不仅查准查全率的层次大幅提高,而且使人物在发展轨迹的归集上有迹可考、有章可循。

建章立制规范开展建设
建设伊始,规矩先行,民国档案人名数据库注重数据采集的规范性。

我们先后制定了《云南省档案馆馆藏民国档案人名数据库建设业务规范》《馆藏民国档案人名数据库建设成果质量验
度,建工作
的规范标准。

重点把握以下几方面要求:
采集项目的范围,重点是关键字段的设置。

怎样清晰地把一个人同其他人区别开来?通过设置姓名、身份、机构名称、职衔、地名、称谓、字、别号、曾用名、籍贯等著录字段,基本可以达到目的。

即使万一有重名的情况,但是身份、职衔、籍贯等其他信息不可能完全相同。

姓名信息的著录,重点是格式的完整统一性。

对照档案数字,采集材料正中中仅需采集一次,受文者、发文者及文件正文中
与文件主题有直接关系的人物均应采集。

一是按
文件材料所书写的姓名进行著录,如原文书写为“字”“别号“7用名,,的,原则上应照原文著录并
加考证并补充著录其学名。

如龙志舟【龙云】、松坡【蔡g】;二是书写为“职衔十姓”的人物,原则上应著其全名。

如云南省建设厅发文,正文中写为“厅长张”的人物,应著录为张邦翰。

身份信息的著录,重点是科学划分所属群体。

著录规则主要有两点:一是机构、军队或党派身份,著录格式为完整的机构(军队、党派)名称+职衔,如:云南省政府主席、中国银行昆明分行经理、第六十军上士、云南省财政厅第一科科长、西南联大历史系研究生;二是个人、社会、群体身份,著录格式为地名(社群名)'称谓。

如:保』县商民、昆明火柴同业公会会长、腾冲县士绅、云南旅京同乡会成员、元江县第四区乡民等。

但在采集过程中,发现一些人本身已有所属单位和职衔,但在某一段时间内,被临时抽调组建新的团体。

比如某件档案主题是抽调某些县长去某机构参加某种培训,那么此时他们的新身份就是学员。

所以应按该人物在该件档案原文中表述的身份进行采集。

问题导向优化工作方法
档案开发的目的在于更好地应用。

在工作实践中,需要以问题为导向,进而提出有针对性的解决方法,以点带面,逐步总结出有借鉴意义的式
强化培训,准确理解民国行文。

民国档案竖行文,繁体字,基本上都不是规整的印刷体,而是手写的毛笔字,还有许多狂草,加上各种圈点勾画,更显潦草杂乱,通篇不加句读。

有些繁体字和
出现的人物的姓名,同一人物姓名在同一件档案现代字的字形反差很大,想当然地解,就
(下转57页)
善的纸质档案数字化管理制度,明确档案数字化过程的岗位管理、人员管理、场地管理、数据管理、档案实体管理等方面的管理制度,着重加强人员管理的监督与追责机制,并在工作过程中严格执行,以解决档案数字化全过程中存在的安全隐患问题,有效保障档案安全和纸质档案数字化成果质量,不断促进档案数字化工作走向法治化、科学化、规范化。

五、结语
科研院所档案数字化建设是顺应时代发展、适应高效工作的新举措、新风尚。

档案数字化较之传统档案管理有不可替代的先进性、高效性和科学性,但科研院所数字化档案风险管控是—项长期而艰巨的任务,涉及人员、技术、制度等多方面。

科研院所应高度重视起来,研究可行
(上x第48页)
录错。

比如古体字“裏”,就是现在的“里”,但容易理解为现代字“裹”;又如古体字“彙”,就是现在的“汇”,但容易理解为现体字“橐”。

要想从字里行间找出人物姓名,需要采集者对中国传统文化的渊源和艺术鉴赏力有较深厚的功底和知识储备,尤其是对各种毛笔字体,如行楷篆隶等都有涉猎。

另外,民国行文习惯在今看来时有不通顺,如政府特派尚委员嘉惠,其实就是该特派员叫尚嘉惠;又如李前县长浚,其实就是前任县长叫李浚。

所以要求采集者能迅速判断出令、公函、呈、布告、批谕、咨等各种范式,较熟悉民国公文用语和地方机构的设置与演变。

再次,民国时期的职务和现今有所不同,有一些沿袭下来的历史典故,如原文件里落款为“某政府主席代行拆”,何谓“代行拆”,字面的意思是代替该主席拆文阅览,其实就是秘书。

那么,著录身份的时候,就要适时转换为今人的职衔。

数据清洗,信息考证辅助查重(chong)。

查找并处理异常数据,发现并处理不具备有索作用的人名、机构、地名等著录信息,确保数据可用,检查并删除重复数据,达到同一件档案内无重复数据的要求。

同时,发现文件中一些人名价值不大,从而进一步甄选采集范围,确保数据的完整性、规范性、一致性、有效性。

主要有几大类无需采集的姓名:一是无衔职的普通民众。

如壮性对策,确保档案数字化工作目标保质保量顺利完成。

参考文献:
⑴褚莲清•浅0馆藏纟氏质档案数字化加工策划及管>[J].中外企业家,201((35):11(—120.
[2]国家档案局.纟氏质档案数字化规范[0].2007—11—23.
⑶何智•高校数字化档案安全管理的思考和建议[J].兰台内夕卜,201((11):25—26.
[4]周].某研究所档案数字化项目中的质量管理研究[D].西N:西安电子科技大学,2011.
作者单m:齐鲁工业大学(山东省科学院)
山东省科学院自动化研究所
丁、杂役、伙夫、马夫等;二是流程式人物。

如拟稿、核稿、校对、监印、签收等与文件主题无关的人;三是难以考证之人。

如原文或印章无法辨识的人、有姓无名之人。

自检内检,双管齐下谋求质量。

我们发现,如果只是单纯求快,员工只顾采集,不能有效地敦促加工人员。

只有引入绩效,才能使员工形成压力和动力,进而达到质量和效率的统一。

每名采集人员需要对自己录的条目负责,每天采集完成的数据,需要检查准确性;加工公司内设专职质检,统计错误。

两层检查以后,再分批提交监理公司验收。

监理人员逐件打开图像,逐条对照姓名查验,每卷发现错漏的情况超过三条就要打回,不告知加工公司具体错误,促使其自行查找改错。

如此往复,直至错误率为零。

立足当下展望数字时代
馆藏民国档案人名数据库的建设集应用性和趣味性于一身,查阅者徜徉于云南民国时期的,各人物,知识性丰饶、应用性广泛,具有较高的社会利用价值。

为全方位深入挖掘各种潜在的数据资源做出了良好的诠释,也为全面推进信息化开发建设、迎接大数据时代的到来做出了很好的铺垫。

作者单位:云南省档案局。

相关文档
最新文档