古籍数字化技术.ppt
《历史古籍数位典藏》课件
数位典藏的未来发展
1
技术创新
数字化技术发展迅速,未来将有更多的技术应用于古籍数字化,包括虚拟现实、 计算机视觉等。
2
国际合作
古籍数位化是多国共同面临的问题,未来中国应加强与国际合作,共同探索古籍 数字化的前沿技术与方法。
3
新的应用领域
数字化古籍将逐渐应用到博物馆、文化遗产保护等新领域,推动古籍文化传承和 创新应用。
历史古籍数位典藏
古籍是人类文明的宝库,而数位典藏成为了利用现代技术保护和传承这些文 化遗产的有力手段。
古籍典藏的现状和挑战
1 分散搜集
2 易损毁
许多古籍分布在不同地点,需要投入大量时间和 人力去搜集。
古籍保存年限有限,极易受到自然灾害、社会动 荡等因素的影响。
3 限制性使用
4 阅读体验差
古籍访问和使用受到各种限制条件的约束,不利 于学术研究和文化传播。
数位典藏的技术与方法
1
数字化拍摄
采用高分辨率数码相机对古籍进行成像,同时配合数字化色彩校正技术保证成像 的准确性和真实性。
2
文献标引
利用OCR、IA等技术对数字化文献进行标引和目录制作,方便用户有效获取数字 文献资源。
3
数学模型
通过数字技术对古籍进行图像分析和处理,构建出古籍的三维模型,便于保存、 传播和研究。
许多古籍字体和排版习惯与现代有很大区别,在 现有条件下不易进行数字化处理。
数位典藏的概念和意义
什么是数位典藏
通过数字化技术对古籍进行成像、存储、共享和利用 的过程,以实现古籍长久保存和广泛传播。
数位典藏的意义
充分利用数字技术,可打破古籍保存和传播的空间、 时间限制,为学术、教育与文化交流提供宝贵资源。
古籍数字化的发展概述
中医古籍数字化资源建设的成果
中医古籍数字化资源建设取得了以下成果:
1、建立了多个中医古籍数字化资源库,涵盖了多种著名的中医典籍,方便 了学术研究和社会公众的查阅。
2、实现了中医古籍资源的快速检索和精准查询,提高了学术研究的效率。
3、通过数字化资源的建设和共享,促进了中医药文化的传播和发展,增强 了社会对中医药的认识和认可。
2、博物馆
博物馆中的文物和展品也需要进行数字化保护和展示。通过数字化技术,博 物馆可以将珍贵文物进行高精度扫描和3D打印,以便更好地保存和展示这些文化 遗产。
3、教育机构
教育机构可以利用古籍数字化技术,让学生和教师更好地了解历史文化。例 如,可以将古籍中的故事和人物融入课程中,增加学生对历史文化的兴趣和了解。
3、国际合作加强
随着全球化的不断推进,国际合作在古籍数字化领域也将得到加强。各国之 间的合作可以促进古籍资源的共享和技术的交流,进一步提高古籍数字化的水平。
参考内容
随着信息技术的不断发展,数字化已经成为保护和传承中医古籍的重要趋势。 中医古籍作为中华民族宝贵的文化遗产,具有极高的学术价值和实用价值。然而, 由于年代久远、流传版本繁多、保存条件有限等原因,中医古籍面临着损坏和失 传的风险。因此,中医古籍数字化资源建设显得尤为重要。本次演示将介绍中医 古籍数字化资源建设的意义、现状、策略及成果,以期为相关工作提供参考和借 鉴。
3、促进中医药文化传播:数字化资源建设有利于中医药文化的传播和普及, 让更多人了解和认识中医药的魅力,从而促进中医药事业的发展。
中医古籍数字化资源建设的现状
目前,中医古籍数字化资源建设已经取得了一定的成果,但仍存在以下问题:
1、数字化标准不统一:由于缺乏统一的数字化标准,各机构的数字化格式、 标点符号等均有差异,影响了中医古籍资源的共享和利用。
古籍资源的数字化与智能化开发利用
•古籍资源概述•古籍资源的数字化技术•古籍资源的智能化开发利用•古籍资源数字化与智能化开发利用的应用案例•古籍资源数字化与智能化开发利用的未来发展目录定义特点古籍资源的定义与特点古籍资源的价值与意义030201保护现状利用现状古籍资源的保护与利用现状数字化技术定义将文字、图像、音频、视频等模拟信息转换为数字信息的过程,以便进行存储、传输和处理。
数字化技术分类按照处理方式可分为扫描、OCR(光学字符识别)、语音识别等,按照载体可分为纸质文献数字化、甲骨文数字化等。
数字化技术的定义与分类介绍了国内外的古籍资源数字化技术的研究进展,包括技术手段、应用领域和成果等。
技术手段详细介绍了扫描、OCR、语音识别等技术在古籍资源数字化中的应用和优缺点。
国内外研究现状古籍资源数字化技术的研究现状VS古籍资源数字化技术的挑战与问题挑战古籍资源数字化过程中面临着技术难度大、成本高、标准化程度低等问题,同时还需要解决版权保护、数据安全等问题。
问题古籍资源数字化过程中存在数据质量不高、标准化程度低等问题,同时还需要解决数据存储、数据共享等问题。
智能化开发利用的定义与方法定义方法基于人工智能的古籍资源开发利用知识图谱构建智能问答与推荐文本自动分类与聚类基于大数据的古籍资源开发利用数据挖掘与可视化通过对古籍文本的情感分析,挖掘作者的情感倾向和思想内涵,为研究古代文化提供更多有价值的信息。
文本情感分析语义关联分析基于数字化的古籍修复与保护案例数字化技术助力古籍修复数字化技术促进古籍保护数字化技术推动古籍研究1基于人工智能的古籍文献检索案例23通过人工智能技术,实现古籍文献的智能检索,提高检索效率和准确度,缩短用户查找时间。
智能检索提高效率根据用户的研究领域、兴趣偏好等因素,利用人工智能技术进行个性化推荐,为用户提供更精准的古籍文献服务。
个性化推荐满足需求通过人工智能技术,实现古籍文献的自动分类和聚类,便于图书馆、博物馆等机构进行高效管理。
课件)-中国古籍数字化的现状与展望
中国大陆的古籍数字化
中国国家图书馆的古籍数字化项目(详后)
一、中国古籍数字化之现状
古籍内容的数字化
宗教文献的数字化
CBETA中华电子佛典协会的“线上藏经阁”
一、中国古籍数字化之现状
古籍内容的数字化
网上主要中文古籍数据库调查统计表
二、古籍数字化工作之检讨
古籍数字化的格局
研究机构和高等学校:
中国社会科学院 《全唐诗》 《先秦魏晋南北朝诗》 《全上古三代秦汉三国六朝文》 《十三经》 《全唐文》 《诸子集成》
二、古籍数字化工作之检讨
古籍数字化的格局
研究机构和高等学校:
北京大学的《全宋诗》 深圳大学的《红楼梦》 ……
二、古籍数字化工作之检讨
古籍数字化的格局
三、古籍数字化之展望
中国国家图书馆的古籍数字化
2、数字方志
方志的特点 图像扫描 文字识别 全文检索与规范控制及专题数据库 地理信息系统 跨库检索、资源整合 其他功能
三、古籍数字化之展望
展望未来的古籍数字化,我们不仅依赖于技 术的进步,更依赖于同行间的合作与用户的 帮助。希望读者、同行既是古籍数字化的使 用者,更应该是古籍数字化的参与者。
中国古籍数字化的现状与展望
中国国家图书馆·陈力
2004年3月12日
一、中国古籍数字化之现状
简单的历史回顾
早期的古籍数字化 1983年彭昆仑研制的“《红楼梦》检索系统” 八十年代的憧憬:
“微电脑的应用,必将改变古文献的传统研究方式,达到空 前的高效率。” “随着微型机数量的增加、功能发展以及 分布的扩大,其信息的贮存量会愈来愈多,并在一定范围, 从一个地区到全国以及世界各地组成网络,形成一个巨大的 资料库,所有信息资源便可共享。实现了这个目标,我国几 千年来汗牛充栋而又星罗棋布的古文典籍,可尽行收入方寸 之地,召之即来。使用微型机对这些古籍进行版本研究、文 句校勘、文字订正、字义诠释、篇章会注、作品编年、古语 今译,乃至标点、分段等等都将成为现实。(1984年8月20 日《古籍整理出版情况简报》)
《古籍数字化概述》课件
传统古籍的保存问题
脆弱易损
传统古籍纸质材料容易受潮、 变形、虫蛀等自然因素的影 响,导致保存困难。
空间限制
大量古籍占据大量的库房空 间,造成资源浪费和管理不 便。
访问限制
纸质古籍不易向广大人民群 众开放,让更多人参与和了 解古代文化遗产。
古籍数字化的技术手段
1
OCR识别
2
利用光学字符识别技术,将数字图像中
《古籍数字化概述》PPT 课件
古籍数字化是将传统的古籍资料转化为数字形式,以实现高效、全面地保存、 利用和传播古籍文化的目标。
古籍数字化的定义与意义
古籍数字化是指将传统的纸质古籍通过数字技术转变为可供电子设备读取的 电子文档,这样可以更好地保存和传承传统文化遗产,并方便广大人民群众 进行学习和研究。
数字化古籍面临的挑战及未来发展的展望
1 技术难题
2 版权问题
纸质古籍的数字化仍存在 难题,如解决扫描和OCR 识别的准确性。
如何平衡数字化古籍的开 放共享和版权保护是一个 具有挑战性的问题。
3 利用方式
如何更好地利用数字化古 籍,满足不同群体的需求, 是未来发展的关键。
古籍数字化的应用与推广
数字图书馆建设
建立数字化的古籍馆藏,提供在 线阅读和检索服务。
在线教育资源
利用数字化古籍为教育提供丰富 的学习资源和教学内容。
文化遗产保护
通过数字化保存古籍,保护文化 遗产不受自然和人为因素的侵害。
数字化古籍在教育领域中的作 用
数字化古籍为教育带来了新的可能性,学生可以通过在线阅读古籍文献,了 解和感受历史文化,拓宽知识视野,提升学习兴趣和学术研究能力。
的文字部分转化为可搜索和编辑的文本。
籍转化 为数字图像,保留原貌。
《古籍数字化概述》课件
输入 标题
知识产权
数字化后的古籍可能涉及到知识产权问题,如专利、 商标等,需要加强知识产权保护。
版权保护
法律责任
加强法律法规的宣传和执行力度,确保数字化工作合 法合规;建立知识产权保护机制,保护原作者的权益
;加强法律责任意识,避免法律风险。
对策建议
数字化过程中可能涉及的法律责任问题,如侵犯版权 、侵犯知识产权等。
人才与资金问题
人才缺乏
古籍数字化需要专业的人才进行技术研发、数据整理等工作,但目前相关人才较为缺乏 。
资金不足
古籍数字化需要大量的资金投入,包括设备购置、技术研发、数据存储等方面的费用。
对策建议
加强人才培养和引进,提高技术研发和数据整理能力;积极争取政府和社会资金支持, 扩大资金来源;加强与企业合作,实现资源共享和互利共赢。
未来展望
01
随着数字化技术的不断发展和完善,古籍数字化将迎来更加广 阔的发展前景。
02
未来,古籍数字化将更加注重数据质量和语义分析,提高数据
挖掘和知识发现的水平。
此外,古籍数字化将与虚拟现实、增强现实等技术相结合,为
03
学术研究和文化传承提供更加丰富和立体的数字化服务。
THANKS FOR WATCHING
2
人工智能、大数据等新技术的应用将为古籍数字 化提供更多可能性,例如智能分类、语义检索等 。
3
全球范围内的合作与交流将进一步加强,共同推 动古籍数字化进程,促进文化传承和发展。
04 古籍数字化面临的挑战与 对策
技术挑战与对策
技术难题
古籍数字化需要解决的技术难题包括古籍的扫描、识别、 存储、检索等,需要研发相应的技术手段。
中国古籍数字化现状
古籍数字化技术的研究与应用
古籍数字化技术的研究与应用一、引言随着数字化时代的到来,对于传统的古籍文化的保护和传承也逐渐引起了人们的重视。
古籍数字化技术的研究与应用因此而崛起,成为一个备受关注的领域。
本文将对古籍数字化技术的研究与应用进行探讨,为读者提供更全面的认识。
二、古籍数字化技术的概念古籍数字化技术是指利用现代信息技术手段,对古籍文化进行数字化处理,实现对古籍内容、形态等各个方面的全方位数字化存储、研究、展示等。
三、古籍数字化技术的研究与应用在数字化时代,古籍数字化技术已成为重要的文化遗产保护工具。
古籍数字化技术的研究及应用可分为以下几方面:1.数字化图像技术数字化图像技术是古籍数字化技术的基础,其主要功能是对古籍书籍的版面、文字进行非接触式的高清晰度数字化摄影,生成高分辨率的图像。
数字化图像技术最大的特点是可以对古籍书籍进行快速准确的数字化处理,保留了原始信息和原貌,使得古籍文化的价值能够永久地保存下来。
2.数字化处理技术数字化处理技术主要是将数字化图像进行处理,将数字化图像转化为可供人类阅读的格式或对其进行加密、压缩等处理。
同时,数字化处理技术还可以通过对文字的OCR(Optical Character Recognition)处理,将古籍的文字内容进行全自动识别转录,进而便于人们进行迅速的查找等操作。
3.数字化保护技术数字化保护技术是对已经数字化的古籍文化进行保障的技术。
数字化保护技术采用分布式维护和容错机制,对数字化文本进行备份和转移,并采用各种安全机制实现对数字化文本的权限控制与访问控制,确保了古籍文化的安全性。
四、古籍数字化技术的应用随着古籍数字化技术的不断发展,其应用领域也日渐广泛,主要包括以下几方面:1.数字化展示数字化展示是指将数字化的古籍文化进行展示,使公众能够通过网络等介质进行浏览和学习。
数字化展示主要具有易于操作、迅速高效、具备全球性的特点,为古籍的普及和传承提供了便利。
2.数字化出版数字化出版是指把数字化的古籍文化进行出版,有效地弘扬中华优秀传统文化。
《古籍数字化技术》课件
人工智能
人工智能技术将帮助解决文字 识别等难题,提高数字化的准 确性和质量。
古籍数字化的意义
古籍数字化有助于保护文化遗产,防止古籍因时间流逝或人为破坏而丧失。 数字化还使古籍更容易被广泛使用和分享,促进学术研究和文化交流。
古籍数字化的步骤
1
扫描
对古籍进行高分辨率的扫描,生成数字图像。
2
OCR
利用光学字符识别技术将扫描的图像转换为可编辑的文本。
3
图像处理
对扫描的图像进行去噪、增强等处理,提高可读性。
2 虚拟修复
3 大数据分析
利用数字化技术对破损的 古籍进行虚拟修复,恢复 其原貌并保护其原始状态。
借助数字化技术处理大量 的古籍数据,实现文本分 析和知识挖掘。
未来古籍数字化技术的发展趋势
自动化技术
未来数字化技术将借助自动化 技术,实现更快速、高效的古 籍数字化。
虚拟现实
虚拟现实技术将使用户能够 字化档案库,内容涵盖了丰富的 古籍资源,为学者和研究者提供 了独特的参考资料。
敦煌石窟数字化保护项目
敦煌石窟通过数字化技术,记录 和保护了珍贵的壁画和古籍,为 后世留下了宝贵的文化遗产。
数字化技术在古籍保护中的运用
1 在线馆藏
通过网络将数字化的古籍 资源公开,方便公众随时 访问和浏览。
古籍数字化的难点
脆弱性
古籍可能因纸张老化或虫蛀 等原因变得脆弱,增加了数 字化的难度。
字体多样性
古籍中的字体繁多,有时难 以准确识别和转换为可编辑 的文本。
版式复杂性
古籍中的版式可能错综复杂, 处理起来具有一定的挑战性。
古籍数字化项目案例
故宫博物院数字化项目
国家图书馆数字化档案库
【大学课件】文物数字化技术及数字化文物系统初探
数字资源加工编辑相关技术
(Cont.)
• 压缩、解压缩技术:在数字资源的建设与 使用的过程中,资源的加工必须是一次性 的,而经过加工的资源应适应多种不同的 用途。
ppt课件
26
数字资源加工编辑相关技术
(Cont.)
• 数字版权管理技术:通过对数字资源进行 处理,有效地管理所有数字资源内容的知 识产权,其中包括文字、图像、音频、视 频等各种形式的数字对象。综合运用各种 加密手段保证数字对象在网络传输过程中 的安全,并建立网上授权认证机制,防止 传播中的数字资源被非法使用,同时与精 确的计费功能结合,提供安全可靠的信息 交易平台。
ppt课件
22
数字资源加工编辑相关技术
(Cont.)
• 知识概念体系:建立基于人工智能知识表 达的知识概念体系,提供智能化的信息服 务。
ppt课件
23
ห้องสมุดไป่ตู้
数字资源加工编辑相关技术 (Cont.)
• Web挖掘技术:Web内容的挖掘是对Web 中包含的文本、图像、视频等数据元素进 行挖掘;Web结构的挖掘是从Web的链结 构中发现知识;Web使用的挖掘是追随用 户对Web页的交互和操纵,从中挖掘出有 价值的用户存取模式。
• Virtual Reality Markup Language
ppt课件
12
虚拟现实:VRML历史
• 1994年3月在日内瓦召开的第一届WWW大会上, 首次正式提出了VRML这个名字。 1994年10月在 芝加哥召开的第二届WWW大会上公布了规范的 VRML1.0草案。
• 1996年8月在新奥尔良召开的优秀3D图形技术会 议-Siggraph'96上公布通过了规范的VRML2.0第 一版。它在 VRML1.0的基础上进行了很大的补充 和完善。
古籍数字化
古籍数字化的基本要素
古籍数字化的形式
古籍数字化处理流程 古籍数字化体系结构
加工对象——古籍(版本的选择尤为重要) 加工工具——古籍数字化系统(软件) 著录标准——机读目录格式 实 施 者——古籍整理人员和数字化技术人员 管理协调机构
古籍数字化形式多样、内容丰富 按照文献类型可分为:
80年代建立的先秦诸子和台湾地方志等48种古籍文献
的数据资料库在当时堪称世界上规模最大的中文古籍 数据库。 台湾大学的中华电子佛典线上藏经阁大正藏全文检索 系统、元智大学的“网络展书读”中华典籍数据库、 台北故宫博物院的古典文献全文检索数据库以及罗凤 珠先生的《红楼梦》网络教学研究数据中心,《全唐 诗》、《全宋词》、《宋代名家诗》网络版等都具有 较大影响。 目前台湾中央研究院的“汉籍全文资料库”是迄今最 具规模的中文古籍资料库。
古籍数字化是进行古籍整理,保护古籍和方便古籍利用的必然趋势,
其必然性有三点:
1.古籍数字化是保存古籍文献的客观需要 2.古籍数字化是方便利用古籍文献的客观需要
3.古籍数字化是古籍文献整理的客观需要
从使用者的角度:
1.古籍数字化为使用者提供了便捷的检索方式 2.古籍数字化深度开发了古籍中的有用信息
90 年代中后期,国家图书馆制订了古籍特藏文献数字
化计划; 北京大学刘俊文教授组织编纂的中国基本古籍库全文 电子信息版光盘系统,收集了上自先秦、下迄民国的 重要典籍1万余种,整个系统内容总量相当于3部《四 库全书》,可称为规模空前、名副其实的中国历代典 籍总汇,它的出版,为中国古籍全面实现信息网络化 奠定了基础; 经过近三十年的探索和发展,中文古籍数字化工作取 得了显著的成就,已开发了大量的综合类数据库。
古籍数字化技术
古籍数字化技术支持
• 3. OCR光学识别技术 • OCR (Optical Character Recognition光学字符识别)
是一种文字自动输入方式,通过光学技术对文字进行识 别,通过光电转换,获取纸张上的图像信息,利用各种模 式识别算法分析文字形态特征,判断出文字的标准编码, 并按通用格式存储到文本文件中。 • OCR系统是数字化加工处理的一个关键环节,它主要包括 版面分析、汉字识别两个方面的内容。经过专业的OCR识 别辅以人工校对可以生成准确率较高的古籍文本,较人工 录入的方式具有很大的优越性,为数字化古籍的使用提了 方便。
• 决定储存数字档案的命名原则 • 建立数据库的管理与连结架构 • 决定数字藏品的组织方式和呈现架构
• 决定数字对象的规格
– 数字化方式
• 考虑因素:使用者需求及经费状况 • Key-in、OCR、扫瞄、语音识别或影像处理
– 储存媒体
• 数据库主机硬盘、磁盘、磁带、光盘、激光视盘
– 储存格式
• 文字、影像、声音的储存规格
计算机可显示汉字的多少。 • 我国1980年颁布的GB2321字符集只能表示6763个常用汉字,2000年颁
布的GB18030共收录27484个汉字,而古籍中通用汉字就有4万,再加 上异体字、避讳字、生僻字等,古籍用字可达8万之多。因此,有超 大的字符集支持是字符数字化的基本要求。为了解决世界范围内的信 息交换、处理和显示问题,国际标准化组织制定了ISO/IEC 10646国 际标准编码,也称为Unicode统一编码。 • 由于Unicode的编码空间浩瀚,最新的Unicode 5.0可以定义71226个 汉字,这就使古籍中大量生僻字、异体字数字化成为可能。Unicode 标准解决了古籍数字化的字符编码不足和不同系统编码表不同而造成 的信息交换问题。同时,Unicode标准也使各种不同的语言平台之间 有了一个共同的编码系统,使得古籍的跨平台展现变得可能。
【精品】古籍数字化实践指导
书目数据库
古籍全文数据库
• 汉籍电子文献(.tw)
古籍全文数据库
古籍全文数据库
古籍全文数据库
古籍全文数据库
古籍全文数据库
古籍影像(书影)数据库
• 古籍影像检索系统(.tw/rbook.cgi/)
古籍影像(书影)数据库
古籍影像(书束
*xen4F6V$ G5Ceh# jLhdQ2 mUI1ep MqIKIT kpd-*h 7Pk05N 4qYK+5 8kVYJp es8E*w kKQPG9 by#a7D k7Wf7l FRI+Lu 7ypCW0 %n3!J6 4qT7aQ IJFhv) IeBqD# 87KABy c5zS4J KmXrcu m2VWio ier+hm uRA!5m OXo3Qd hNm&oo Qm$jiJ eUop)q Tqo%jI a4EZ8D rMAp1n 410Yld mxxrm+ ItEjQ9 NG3e3S 9(2ccY )qXop! aoLmyq dn5lWs !2 NIY&mfWn* Zi54(D K3E-rR UQR3Ya VqLxH# 3C6mtF 0D+E5n 8i)SUj ut+O)F o4)&C- xd8nO2 aXIteh OMTZPa BBBRrW SNuR3a hCg&XQ vS17bt sba9(8 jf9gSP $sqPIa ANAQhP o8Ei+& N16nbJ *SBuU+ x072AQ GmP%TE -R-0t& NnhioS N8F&D0 dd0C*I eGIbzC MpwZ9O DEDYW4 Li#yF8zOL6k ncwc$K pOO6G2 jA3l-0 x!*DSt SJ0shW DhS
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数字化工具
• (五)数据库+知识工具库多种信息关联的全文检索引擎 • 《四库全书》在全文主体数据库的基础上链接了《中华古
汉语字典》、《四库大辞典》、《四库全书简明目录》、 “SuperCJK汉字库”以及“古今纪年换算”等知识库和工 具库。
• 《四库全书》电子版不仅可以实现传统的特征检索(题名、 作者、关键字词语检索)以及由这些特征构成的布尔组配 检索,还可以实现由一个字到另一个字、由书目到全文、 由著作者条目到其作品、由相关作者到相关作品的关联检 索,还可实现对读者不解的文字立即提供释义与读音,实 现文中古代纪年对公元纪年的换算等。
– 通过OCR可以建立图-文之间形影不离的一一对应关系,便于实现 高效率高质量的电脑辅助校对。
– 有成规模的加工批量。即使初期在OCR前后处理的软件研发中要有 一定投入,但效率与质量总的效果比人工录入好。
数字化工具
• (3)用软件工具辅助人工校对 • 校对作业一般是在网络环境下在屏幕上进行的。
– 提供的是将古籍原稿的电子图像与数码化的文字对照比较,使校对工作 无纸化。其中有页(原稿图像)对页(数码)、列/行(原稿图像)对列 /行(数码)、字(取自不同页的原稿图像)对字(取自不同数码页)的 形影不离的校对方式,并辅以联机异体字字典,有效地减少了校对者的 视觉转移,便利于版面与文字查错,提高工作效率,减少疏漏。同时还 提供横向的聚类校对,即把不同页处的同一图像文字取出,看其转换的 代码文字是否正确。
数字化工具
• (六)简繁汉字关联与精密转换器 • 从事数字化开发,不仅着眼于我国大陆,也着眼于台、港、
澳地区以及世界各地华人和研究中国文化的读者的需求。
• 要研发的简、繁、异、日等各种汉字关联与精密转换器, 可使仅熟悉某种类型汉字的读者(如只熟悉简化字或只熟 悉繁体字)在检索时能“简入繁出”、“繁入简出”、 “正入异出”、“异入正出”、“日(日本汉字)入中 出”……,均可方便地查到所需文献。
第六章 古籍数字化技术
古籍数字化实践
• 合理目标定位
– 古籍数字化能否成功,合理的目标定位至关重要。 – 对于以文字为主的中国古籍来说,它的数字化绝不是纸张载体版
本的翻版。扫描是必要的,但扫描在很多情况下只是数字化的预 处理。 – 把古籍的内容数字化并使之与多种有效的检索、处理工具完美结 合,奉献给读者知识宝库和卓有成效的研究手段,使学者多出成 果,快出成果,这才是古籍数字化的目标。 – 还有一点不可忽视的是,古籍数字化后的文字,差错率应达到出 版界规定。
数字化工具
• (2)采用OCR技术,实现图文数码转换 • 所以选用OCR技术实现古籍文字的数码转换,其原因是:
– 对古籍汉字中简繁、异体字的输入,OCR较之人工录入有优势(十 选识别率可以达到99%,其中的90%可以正确识别,另外的9%可以 通过点击而不是键盘输入解决)。因此数据加工人员不需再做大 量的古籍文字手工录入工作,重点转向文字校对工作。
是国际互联网联盟(W3C)开发的用于网络环境下数据交换、数据管理和网页 设计的新技术。它是国际标准SGML(Standard Generalized Markup Language [ISO 8879])的一个子集,一个实用标准。
• 《四库全书》、《四部丛刊》数字化开发的实践表明:
– XML非常适合非结构化文献的全文处理,易于表达文献资料;XML将资料的存贮与 显示相分离,可支持同一资料不同格式的显现、输出,支持多种应用程序的处理; XML可直接应用于因特网,便于开发网络版电子出版物;XML有良好的层次结构和 约束,处理起来很容易,极大地减少软件开发成本;XML基于资料内容进行标识, 因而可被不同程序用于不同用途;XML具有很强的链接功能,可定义双向链接、多 目标链接、扩展链接和文件间链接,非常有利于实现各种关联检索和图文的链接 处理;XML提供了从小配置文件到大规模资料仓库的可扩展性; XML支持ISO/IEC 10646/Unicode。
古籍数字化处理流程与体系结构
古籍数字化处理流程与体系结构
体系结构: 一个基本的古 籍数字化系统 至少包括两个 子系统:数字 化子系际标准ISO/IEC 10646(GB 13000/Unicode)是古 籍数字化的适用文字平台
– 国际标准ISO/IEC 10646的全称是:信息技术-通用多八位编码字 符集(Information technology-Universal Multiple-Octet Coded Character Set)。在IT界另一通俗称呼为Unicode。
• 为了给总校人员提供有效校对工具,还用数理统计的方法,根据文字 识别可信度的统计结果,将易产生差错的字重点提示,将不易产生差 错的字隐蔽淡化,使总校工作突出了重点,不仅提高了工作效率,而 且使差错率达到低于国家出版行业万分之一的指标。
数字化工具
• (4)采用XML作为文献内容的标识语言 • XML(Extensible Markup Language)即可扩展标记语言,是一种元语言。它
– 目前已商品化字符集:ISO/IEC 10646 1:2000/Unicode 3.0。 – 其中包括汉字27484个。用户区(EUDC)汉字5000余个,共计
32000余汉字,已成功用于《四库全书》、《四部丛刊》等古籍数 字化,但不包括小学类字书用字。 – 2001年11月正式颁布:ISO/IEC 10646-2:2001(E)/Unicode 3.1, 收入汉字七万余个,除甲骨文、篆文外,可满足世界各地汉字使 用需要。
• 同样,也可根据不同地区的需要把整部简化字文献精确地 转换成繁体字文献,反之也行。
数字化工具
• (七)全球版、网络版是产品开发的重点
• 数字化的产品必须走向全球,走向网络化的世界。 • 因此,以ISO/IEC10646(Unicode)为平台,将SDSB
(Single Data/Single Binary)技术用于中文电子出版 物,使得一套数据或一套软件可以在多种语言的视窗平台 上使用,成为名副其实的全球版。同时还应将其开发成 Internet版和局域网络版,以满足多用户联机检索的需求。