现代文献检索与利用2

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3. 影响OCR识别正确率的几个重要参数
(1)分辨率参数 分辨率参数决定扫描图像的清晰度,即决定扫描图像的图像细 节。分辨率一般以dpi作为单位。dpi是dot per inch(点/每英寸) 的缩写。文字OCR识别一般要 300dpi。 扫描仪能支持的dpi越大,其图像清晰度就越高。 (2)亮度参数: 亮度参数是扫描仪的重要参数之一,也是影响OCR系统文字识别 效果的极为重要的因素。 (3)扫描速度 扫描速度是扫描仪的又一个重要指标,它决定扫描仪的工作效 率,在文字识别应用中尤其如此,单位是英寸/每秒(IPS),
●第一层信息是图像,用来保留原文原貌,即反映连续色彩图像 和纸张的背景,用较低的分辨率,通常为100dpi足够。 ●第二层信息是用来进行OCR文字识别的,要确保文字和线条的 清晰度需要较高的分辨率,提高清晰度是 OCR文字识别率要求的, 通常为300dpi。 ●第三层是确定文本在原稿图像中所处的坐标位置。
●DL是虚拟的、没有围墙的图书馆,是基于网络环境下共建 共享的知识网络系统,是超大规模的、分布式的、便于使用的、 没有时空限制的、可以实现跨库无缝链接与智能检索的知识中 心。 ●是分布式、面向对象的信息查询系统。 ●分布式是指跨图书馆(跨地域)和跨物理形态的查询; ●面向对象是指不仅要查到线索,还要获得原文(对象)
2.1.5
DL的主要优点
1. 信息存储空间小且不易损坏; 2. 信息查阅、检索方便; 3. 远程、迅速传递信息; 4. 同一数字文献可多人同时使用,N次复制;
2.1.6 中国数字图书馆的发展概况
1. 起步阶段 在中国,正式提出数字图书馆概念,是1996年在北京召开 的第62届国际图联(IFLA)大会,数字图书馆成为该会议的一 个讨论专题。IBM公司和清华大学图书馆联手展示“IBM数 字图书馆方案”。 2. 试验阶段 1997年1月~1999年12月:由国家图书馆、中山图书馆、上 海图书馆、深圳图书馆、辽宁图书馆、南京图书馆、文化 部文化科技开发中心共同承担实施了“中国试验型数字图 书馆项目”,标志我国数字图书馆事业进入到了试验阶段。
数字图书馆的内容
3. 数字图书馆的建设内容和目标 ● DL建设的主要内容:将纸质文献→转化为数字形式→在全 球范围内传输。 ●建设目标:用户通过互联网,登录数字图书馆网站,可在 任何时间、任何地点,十分方便快捷地使用世界上任何一个 图书馆的数字文献资源。 4. 数字图书馆的拓展服务 ●用户在查找到所需图书之后可以直接阅读数字图书和期刊; 查找到电影、音乐等多媒体资料之后可以即时播放; ●个人数字图书馆——为用户收集、整理所需的各种类型的 资源。 收藏和订制个性化信息资源; (如CNKI) 系统自动推送新文献到你的邮箱、或者个人数字图书馆。
2.2.2 文献数字化技术
1. 文献数字化概述 文献数字化是: 印刷型资料→数字化加工→数字格式的文献资源。 是数字图书馆建设过程中工作量非常大的基础工作。 2. 纸质文献数字化技术 用数字化图书→建设数字图书馆,有两个重要的内容: ●纸质图书转化为→电子版的数字图书; ●电子版图书的存储,检索、交换,流通。
2. 图书数字化加工厂
(1)图书数字化加工生产线(Doc Scan) • 1998年,超星公司第一条大规模数字化扫描生产线,加工能 力达到每天20万页。(按每册300页计算,有660册图书) • 五个数字化加工中心:在北京、成都、福州、长沙、郑州等 生产流水线作业,三班倒的方式,进行图书数字化——扫描;
2.1.3
数字图书馆的产生背景
数字图书馆 ——是传统图书馆在信息时代的发展的需要。 ——将成为未来社会公共信息中心和枢纽。
2.1.4 DL的技术与人才
●数字图书馆是高技术的产物。涉及数字化技术、超大规模数据 库技术、网络技术、多媒体信息处理技术、信息压缩与传送技术、 分布式处理技术、安全保密技术、可靠性技术、数据仓库与联机 分析处理技术、信息抽取技术、数据挖掘技术、基于内容的检索 技术、自然语言理解技术等。 ● DL需要计算机专家和图书馆专家,没有一个天才可以独自成 功; ●图书馆员必须成为计算机学者,才能理解计算机技术与图书馆 专业的关系,建成好用的数字图书馆。
比较:图书目录→MARC(机读目录 数字文献→都柏林核心(Dublin Core)元数据标引, 第一次会议上提出的DC元数据核心集为13个, 后来经过不断修改和补充,现在DC元数据为15个:
Dublin Core的15个元数据(描述项目)
(1) 名称(Title), (2) 作者、制作者(Creator) (3) 主题及关键词(Subject and Keywords) (4) 说明(Description) (5) 出版者(Publisher) (6) 发行者(Contributor) (7) 时间(Date) (8) 类型(Type) (9) 格式(Format) (10)标识(Identifier) (11)来源(Source) (12)语言(Language) (13)相关资源(Relation) (14)范围(Coverage) (15)版权(Rights)
数字图书馆的内容
1.数字图书馆是海量的知识中心 ●人们需要的知识都可以在这里找到、得到。 DL是以数字资 源建设为核心,便于读者使用和检索的知识中心。 2.数字图书馆是优质资源门户网站
●如同一个人自由使用数字图书馆的所有资源,而面对分布 式的海量索取,就如同在一个网站中自由查询。
●是互联网上,用资源共建共享机制建立的超大规模的、高 质量的中文数字资源库群(集中与分布)。
现代文献检索与利用
第二章 数字图书馆
第二章
数字图书馆
本章内容框架
学习目的
◇ 了解数字图书馆的概念,图书数字化过程 ◇ 了解数字资源类型 ◇ 知道数字图书、数字期刊、数字特种文献在 哪里查找?
2.1 数字图书馆概述
2.1.1 数字图书馆概念
数字图书馆 (Digital Library --DL ): 凡是应用计算机技术和网络技术,解决数字资源的采集、存储、 管理、发布和服务的图书馆,都可以称为数字图书馆。 它涉及数字文献资源的加工、存储、检索、传输和利用的全过 程。
2.1.2
数字图书馆的特征
1. 数字化资源: 文献资源数字化:图书、期刊、特种文献、视频、 声频资料等; 2. 网络化存取: 网络是DL的传输工具; DL依附于网络而存在,DL的各种服务是在网络 环境下进行的,得益于网络,也受制于网络。
3. 分布式管理: 全球DL遵循统一的访问协议,实现“联合检索” 。
2.2
2.2.1
数字图书馆建设
中国数字图书馆方案
• 本节以中国数字图书馆有限责任公司推出 的数字图书馆解决方案为例来介绍,下图 是其技术架构。
2.2
2.2.1
数字图书馆建设
中国数字图书馆方案
(1)数字图书馆解决方案 三层技术说明
1)资源加工层: 资源加工层将各种类型的资料转化为有序的数字资源。 将各种 印刷型资料、音频资料、视频资料进行数字化加工,转化为数 字格式的资源; 2)资源管理层: 数字资源管理系统依据OAIS、Z39.84(DOI)、ISO10646等国 际标准构造。对网络资源进行分类、整合及发布; 对异构数字资源进行整合,以便统一检索和使用; 将经过加工和标引的数字资源进行发布; 进行元数据管理、数字版权管理、数字对象管理。 3)应用服务层: 直接面向用户和读者的是应用服务层。作为图书馆的门户,为 用户提供方便快捷的、主动的、个性化的、安全可靠的服务。
2.1.7 中国数字图书馆研发概况
3. 操作阶段 1999年9月~2001年11月,文化部与国家图书馆启动了中 国国家数字图书馆工程(国家图书馆二期工程暨国家数字 图书馆工程),由“中国数字图书馆有限责任公司”作为 业主单位全面负责工程的建设、运营及服务,数字化图书 扫描年产量3000万页以上。标志着中国数字图书馆进入操 作阶段。 4. 实用阶段 2001年5月23日后,国家重点科技项目“中国试验型数字 式图书馆”通过专家技术鉴,标志 DL在中国进入实用阶段。 同时产生的几家做数字图书的公司:超星、书生、阿帕比
超星的PDG格式
2000年11月,超星与清华大学图书馆技术部联合开发的PDG图 像全文检索技术。
Leabharlann Baidu星的PDG格式
采用分层压缩,体积是其它的几分之一,浏览速度很快。 ★ PDG图像全文检索技术原理:(巧妙构思) 当纸质原稿→通过扫描仪输入到终端→存储为图像格式; 负责集中运算的服务器→ 自动对该图像进行OCR识别→并完成相 关运算→实时生成三层信息:
4. 数字文献著录标准( Dublin Core ,简称DC)
●纸质文献→机读目录体系MARC; ●数字文献也有一套都柏林核心(Dublin Core)元数据来描述网 上电子文献以方便检索,(关于数据的数据) 都柏林核心集(Dublin Core Elements Set, DC) 产生于1995年3月在美 国俄亥俄州的都柏林召开的第一届元数据研讨会上,是52位来自 图书馆、计算机、网络等方面的专家和学者共同研讨下的产物, 是以图书馆界为主建立起来的元数据系统, 用元数据代替MARC,来描述网络环境中的数字化信息的基本特 征——元数据标引,以方便检索。
数字图书馆的内容
5. 数字图书馆是学习中心 数字图书馆有丰富文献资源,给学习者提供一个完善的 学习中心。 ●数字图书馆将不再是传统意义上的图书馆,人们可以 使用任何与因特网连接的数字设备搜寻到人类知识。 6.图书馆发展趋势:文献中心 → 转变成→学习中心。 ●终身教育反映了对高质量学习机会的需求,数字图书 提供最新的技术和支持。 ● (高校用ipad教学)
入口:图书送进去,通过工人拆开、扫描,整个流水线采用 C/S结构,客户端完成扫描加工处理,服务器完成数据管理和各 工序任务的分配。 出口:数字图书——建设数字图书馆的基础资源。 到2012年,已经扫描图书260万种。
2. 图书数字化加工厂
(2)从数字图书到数字图书馆 • 加工数字图书的目的是为了建设数字图书馆,可以想象, 当数字图书的数量达到260万种时 • 260万种是一个超大的数字图书馆,什么样的中文图书都可 以在这里找到,满足率可达到95%,这个数字图书馆对读者 是多么的诱惑。建设数字图书馆是一个非常好的解决思路。 (3)超星数字图书馆的社会效益 •超星数字图书馆是世界上最大的中文在线数字图书馆。 • 它为偏僻山区、中国的西部的市民都可以和大城市享有同 样的阅读条件和教育机会,而且是24小时、没有等候的服务。 • 它是缩小东西部数字鸿沟差距、解决网上资源匮乏的重要 举措。
2.2.3工业化的图书数字化进程
国内进行图书数字化加工的有: ①中国数字图书馆有限责任公司; ②北京书生公司; ③北京超星数图信息技术有限公司(简称超星公司) ●超星公司的技术最成熟,技术最先进,规模也最大, 目前已经数字化中文图书260万种, 成为行业的领跑者, 为中国数字图书馆建设做出了突出的贡献!
1. 超星公司数字化图书发展历程
超星公司1993年成立,是一家高科技民营企业,超星公司注 册资金1500万元,目前拥有员工1400余人,平均年龄25岁。 (1)从档案资料数字化起家 超星公司从1993年起从事档案资料数字化软件的开发, 国内最早提出档案资料数字化的概念,以光盘存储代替缩微 胶片进行档案保存,发展了国内第一家以光盘形式存储档案 的档案馆用户。 ●用户数量达2000多家,中央档案馆、外经贸部、林业部、 中国人民银行总行、招商银行总行、北京市公安局和全国印 钞造币系统等都是超星的用户。 (2)把资料数字化技术应用于电子出版物; (3)把资料数字化技术应用于网络; (4)与国家图书馆合作创建“网上读书”取得实用经验;
(1)纸质文献数字化
●将没有版权争议的印刷型文献数字化,建成数字化资源库。 (2)纸质文献数字化的原则 纸质文献数字化有“保真原则”、“整理原则”和二者兼顾原则。
(3)纸质文献数字化的方法和设备 按其发展过程分为: 人工键盘录入法、语音识别法、扫描法。 目前应用最多、效率最高的是→扫描法(扫描仪→ ●纸质文献数字化过程: ① 纸质文献放在扫描仪平板上, ② 通过扫描→纸质文献转换为→数字图形→输入计算机, ③ 经软件OCR识别、校对后,转换为可进行编辑的数字化文献。 实现计算机网络环境下快速转递、检索和资源共享等功能。
相关文档
最新文档