古籍图像数据采集流程及技术规范
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
古籍图像数据采集流程及技术规范
一、数据统计
扫描前对古籍进行浏览整理,填写数据统计表,作为后续质检工作的依据。
1.数据统计包括如下项目:
册数页数行数每行字数每页字数书长书宽边框长边框宽备注联目号
2.页数包括书皮和扉页在内。
3.古籍的特殊装帧形式及版式在备注栏中注明。例如版式上有层楼现象;有页眉、页脚的现象;存在缺页、残页等现象。
4.书代码由总课题组负责分配,无需填写。
二、外观图像采集
1.图像采集范围:
对每一册书的六个平面分别进行拍照(正面z、背面b、书脊j、书心x、书脑n、书根g)。如有书函,对书函的处理原则同上。
2.图像命名规则:
(1)册号+平面名
(2)例如:第二卷的背面命名为:0002b
3.操作要求:
(1)光线适度,图像中不可有阴影。
(2)拍摄角度保持水平。
(3)古籍旁设置标示方位的标尺(上、下、左、右)。
4.照片尺寸:
不低于3264×2448。
5.凡能够反映古籍版本信息的内容,均应酌情采集图像信息。处理原则同上。
三、图像扫描
1.图像扫描范围:
需要数字化的图像和需要使用的图像(比如正文和书皮)。
2.图像DPI:
不少于300DPI。根据原图像的清晰度及其数字化识别率的测试情况来选择。
3.图像模式:
全彩图像。
4.亮度、对比度:
根据书页纸质的不同,扫描过程中作适当调整。
5.图像格式:
图像保存为TIF格式。
6.图像扫描顺序:
按原始数据的先后顺序扫描。
7.操作要求:
(1)扫描需尽量做到端正,书页尽量贴合扫描仪的板面,用力均匀。
(2)保证扫描内容的完整性。
(3)保证字迹清晰不扭曲,图像边缘无畸变。
(4)每扫完一页后及时检查。
8.对于有缺页的古籍,按照所缺的页数,插入相应的空白页。
四、检查校对
1.检查扫描页的质量。
2.核对每册扫描页的数量(与统计表核对)。
3.与原书核对扫描顺序。
4.与原书核对扫描内容(保证内容完整)。
五、图像整理、命名
1.图像整理标准:
(1)若原始数据有边框,则图像整理时保留边框。
(2)若原始数据无边框,则图像整理时在文字列最外围保留一定的空间。
(3)确定图像裁剪大小的统一标准。
(4)图像裁切时注意保留原有的眉批、尾注和书口。
(5)裁切图片时要求同一本书的所有图像尺寸大小保证一致。
(6)整理后的图像必须为黑底白字。
(7)整理后图像的倾斜度为零,以保证图像横平竖直。
2.图像命名规则:
(1)书代码+册号+页号+(a/b)
(2)例如:《温病条辨》*第一册第一页正面命名应为:000100010001a
(3)为保证代码位数的统一,规定如下:
书代码、册号、页号统一规定为4位。
六、图像整理质检
对整理后的图像进行质检,看是否合乎图像整理规范,并与原始数据进行核对(顺序、内容),保证图像的质量和数据的完整性。
七、图像管理
整理后的图像格式为:*.TIF、G4无损压缩。
注:子课题组上传的文件应包括四个:古籍数据统计表、外观图像采集的照片、原始的图像扫描件、图像整理命名后的扫描件。
*《温病条辨》书代码为0001