数字资源管理系统
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数字资源管理系统
目录
1、建设内容 (3)
2、系统框架 (4)
3、纸质文档数字化子系统 (5)
4、资源标引子系统 (9)
4.1 功能流程 (9)
4.2 主要功能 (9)
5、数字资源发布系统 (10)
5.1、概述 (10)
5.2、检索功能 (11)
5.2.1 资源跨库检索 (11)
5.2.2 资源单库检索 (12)
5.2.3 资源细览 (13)
5.3、个性化服务 (14)
5.3.1 检索历史管理 (14)
5.3.2 检索策略 (14)
5.3.3 我的收藏 (15)
5.3.4 定题服务 (15)
5.4、后台管理 (15)
5.4.1 用户管理 (15)
5.4.2 数据库管理 (17)
5.4.3、系统菜单管理 (19)
5.4.4 跨库检索配置 (20)
5.4.5 在线提交管理 (21)
5.4.6日志查询 (24)
1、建设内容
数字资源管理系统总体建设内容主要包括:
( l )按照数字资源馆基础网络架构、主要技术路线与软硬件配置基本要求,集成建设适应馆藏资源基础数据和今后一定时期内数字资源增长规模的数据管理、满足数字资源馆各项管理与服务需求的基础设施。
( 2 )定制开发和应用具备“收集、加工、管理、存储、利用”等功能要求的数字资源管理系统,实现资源管理各业务环节的自动化、网络化。
( 3 )全面推进馆藏数字资源基础数据库建设、优先建立馆藏资源的文件级目录数据库,逐步进行传统载体资源的数字化转换,积极推进电子文件的接收和管理,建立各类数字资源库群。
( 4 )应用先进技术和相关管理手段,保证数字资源信息资源的可靠可信和长期可用,减少数字资源对软硬件的依赖性,从而使数字资源具备传统资源所具有的原始性、凭证性和长期可读性。
( 5 )运用多种技术手段,针对不同利用对象,通过不同渠道,实现信息资源分层共享,方便、快捷满足各类用户利用需求。
( 6 )配套建设数字资源馆保障体系,确保数字资源馆系统安全和数字资源信息安全。
2、系统框架
数字资源管理系统的建设从体系框架上共分为5个部分。分别是建设场所、基础支撑系统、数据库系统、数字资源系统和前端展示系统。而场所建设和基础支撑系统是整个体系的硬件基础,数字资源管理是建立在此基础之上。
数字资源管理系统主要有以下3个子系统组成:
◆纸质文档数字化子系统
◆资源标引子系统
◆数字资源发布子系统
下面将详细描述各子系统的主要功能。
3、纸质文档数字化子系统
数字化加工是对有实物的资源进行电子化的过程,在资源要素著录完成后进行,将有实物的资源通过录入设备(扫描仪,数码相机等)数字化后,将数字化的资源上传至服务器的目录结构中。全文著录是在资源影像著录后进行,由著录员对扫描的电子资源进行OCR操作并核对无误后上传至服务器文件系统的目录结构中。
纸质文档数字化是资源管理系统建设过程中一项重要的基础性工作,系统利用先进、成熟的计算机技术以及合理的加工工艺流程,将原始的纸质、电子文档等资料高效、准确、批量地转化为数字文档是建立科研档案数据库的基本工作。
文献数字化技术的实现主要涉及扫描仪驱动开发、图像处理、目录树智能识别、OCR文本识别,电子书标准格式解析,电子书浏览器开发等,OCR文本识别功能集成市面上现有的成熟产品。
纸质资源数字化就是将纸质资源转化为基于原文影像及标引信息(或全文信息)的数字文档的过程。其工作流程主要包括文献的收集整理、扫描、图像处理等功能(如图像倾斜校正、图像去噪等)、OCR识别、文字编改、目录编改、生成电子书、重新装订、备份等流程。该流程要求支持工序回馈,形成一个闭环的质量控制系统。
(1)文献的收集与整理
是数字化加工流程的预备工序,主要是将纸制的文献资料按分类要求进行分类、组卷、排列、修补、编写案卷号与页号。
(2)扫描加工
通过中高速扫描仪和专用扫描软件使用300DPI以上分别率,将整理好的文献资料批量转化成图像文件并对扫描图像自动进行命名、书页管理和浏览。扫描过程建议采用页号顺序,以方便页码的管理,保证扫描的图像质量与原件一样清晰,提高扫描工作的效率。
(3)图像处理
对扫描后的文件使用文献数字化工具进行自动倾斜校正、去噪、版心校正、剪裁、反转、灰度图像页自动搜索、灰度图像页亮度及对比度的调整、整书去除
装订孔、整书裁边、增加图章、内容居中等处理,并自动实现图像的压缩存储。
(4)OCR(Optical Character Recognition)识别
是通过OCR 软件将扫描生成的光栅图像文件自动辨识成文本字符的过程。根据需要,可对档案的部分内容(如标引信息)或全文进行识别,还要求能够利用目录块文字信息,对全文进行搜索、识别,从而自动生成目录树,提供方便的、可视化的目录树编改环境。鉴于字体、纸张状况以及识别算法等诸多因素,OCR 的识别率不可能达到100% ,因此在自动OCR 处理之后,还需要进行人工校对和补录(简称OCR 后处理)。OCR 后处理功能可在图文编辑工序中具体实现。
(5)图文编辑
是建立数字化文档的核心工序,主要实现图像处理,页号排序,建立文献标引/ 全文信息(人工录入或OCR 后处理),分类、案卷与图像挂接,目录与图像挂接,密级设置等功能。
(6)生成电子书
是将已经处理好的图像、目录打包成一个标准的电子格式,如PDF格式,用于网上浏览,系统可以结合水印方面的图像技术,保护版权。
(7)重新装订
即根据被拆开的文献资料原件上的页号排列顺序,并且根据装订要求重新装订。装订完的档案经过质检员检查后才可以归还档案库房。
(8)资源备份
是文献数字化加工完成后必须进行的安全管理的一环。系统维护人员使用备份软件定期将加工好的电子文献(原文影像及文字信息)从服务器中转储到光盘或磁带上,以作长期备份。
纸质资源的数字化主要通过数字化加工工具来实现,其不仅能满足文献资料的大规模工业化批量生产,还能适应小批量的加工。各加工单位可以利用本系统对图书、档案资料进行数字化,实现对资源的永久保存和网络化使用。
当前对资源的数字化的方式主要有通过扫描技术生成图像文件和通过OCR 识别技术生成文本文件。扫描成图像文件虽然不能对全书内容进行全文检索(可以对目录进行),但因其具有构建容易、需要的人力和财力少、加工快速简便,内容准确等优点仍被广泛使用。