如何将繁体竖排扫描版pdf电子图书转化为可编辑的文本文件
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何将繁体竖排扫描版pdf电子图书转化为可编辑的文本文件
2010年8月5日
4:01
一、背景
酷暑难熬,心情烦躁,读书是最好的“清凉饮料”。最近,闲暇时间正在读春秋左传。我读的版本为李梦生撰、上海古籍出版社出版的《左传译注》。在读的过程中,总是感觉有的地方没有注释,只能看译文帮助理解。于是,就想找其它的版本作参考。该书“前言”中提到:“特别需要说明的是,杨伯峻先生的《春秋左传注》一书,对我的帮助尤大。”所以,就在网上下载了此书(修订本)的电子文档。
杨伯峻先生的《春秋左传注》一书是春秋左传的经典必读之书。遗憾的是,此书为繁体竖排,注释插在正文中,并且没有译文。此书对于大陆读者来说,可能很不习惯。能不能将此书重新排版,采用更适合大陆读者阅读习惯的格式,重新出版呢?这或许是我的一个梦想,因为杨伯峻先生已经去世,而且全书有1800多页。
我一时冲动居然想实现这个梦想。我在网上下载的版本是扫描图像制成的pdf格式,要想重新排版,需要可以编辑的文档。我在网上还没有找到此书可编辑的版本。所以,我就试着自己将这本书的扫描版本转化为可编辑的版本。
二、方法
我在网上看了一些相关的资料,借鉴了别人的一些经验,通过反复试验,终于找到了将繁体竖排扫描图像的pdf电子图书转化为可编辑文本的方法。
1、将扫描版pdf图书转化为图像文件
由于扫描后制成pdf格式的图书,内部的每页都是一个图像,所以必须把其中的图像文件提取出来,采用OCR识别的方法,才能转化为可编辑的文本格式。
转化为图像文件,有两种方法:
(1)直接由Adobe Acrobat导出图像文件。
我采用的是Adobe Acrobat Pro 9。选择“文件—导出—图像—TIFF”功能即可从扫描图像的pdf文中提取出多个扫描文档(每页一个)。这种方法非常简单适用,推荐使用。之所以要转化成TIFF格式的图像文件,是因为有介绍说TIFF格式的图像文件,OCR的识别率高。
(2)用Microsoft Office Document Image Writer打印生成pdf文档的图像文件。
Microsoft Office Document Image Writer是Office中带的一个工具。如果在安装Office时没有安装,对于2003和2007版本的Office,只须重新安装一遍即可。在需要安装的内容中,在“工具”中选择后安装即可。我使用的是Office 2010,在安装内容选项中没有找到这个工具。不知道是版本问题,还是2010版本本身就没有这个工具。我用Office 2007安装了此工具,使用正常。因为这就是一个虚拟打印机,所以可以采用以前版本的。安装时,只选择此工具,其它内容全部不选。这样安装后,可以保证Office 2010的正常使用。
Microsoft Office Document Image Writer安装正常后,在Adobe Acrobat Pro 9中打印时,选择此打印机即可将pdf格式的图书转化为一个TIFF文档。
2、对提取到的图像文件进行处理。
此项工作的主要目的是,提高OCR识别率,减少校对编辑时间。如果扫描文件的质量很高,可以不进行此项工作。
进行此项工作。
我之所以要进行此项工作,并不是因为扫描文件的质量不高,而是因为本书为繁体竖排,而且专有名词下面都带了下划线。就是这些下划线影响了识别率。我在没进行图像处理前进行识别,识别出来的文本错误很多,需要花费很长时间来进行校对。去掉下划线后,识别率显著提高。花了时间去掉下划线,节约了校对时间,但是效率却大幅提高了。
我采用的图像处理软件为PhotoFiltre Studio X 10.2.1。这个软件能够满足对扫描文件的处理。我最初采用的是Windows自带的“画笔”软件,但是存盘后,发现分辨率降低了,以致识别率极低。所以我最后才选定PhotoFiltre Studio X这个软件。使用其中的选择工具,把下划线和所有污点去掉。
3、OCR识别
经过比较,我选定了“汉王文本王文豪7600”(专业版)这个软件。这个软件对于繁体竖排的扫描文件识别率很高(去掉扫描文件中的下划线后),而且校对功能很方便。这是我没有想到的,说明汉王的技术确实不错,不愧为“汉王”。
最好一页一页地识别。打开需要识别的扫描文件,(1)在工具栏中选择选项“竖排”、“简繁”等配置项;(2)选择工具栏中的“版面分析”分析扫描文件的版面。可以将不需要识别的版面去掉。版面会影响识别后的排版格式。(3)选择工具栏中的“识别”进行OCR识别。(4)校对。在校对窗口中校对文本。(5)文本输出。可以将识别后的文本输出到Word 2003,输出到2010可能有些问题。所以我直接将文本复制到Word 2010中,在其中重新编辑排版。
4、繁体字的输入
对于繁体书,在OCR识别后的校对过程中,需要输入繁体字,特别一些生僻的繁体字。对于大陆读者来讲,输入和处理繁体字非常令人头痛。
(1)繁体字库。要处理繁体字,最好还是装一些繁体字库。我装的有:PMingLiU-Fixed.ttf、方正兰亭字库5.0繁体和UniFonts.exe,这些字库在网上搜索下载安装即可,安装到Windows的Fonts 目录下。UniFonts.exe字库是为了采用海峰五笔而安装的。
(2)繁体字的输入
网上介绍了很多种输入繁体字的方法,采用哪种方法取决于你所熟悉的输入法。现在,很多输入法,输入简体可以自动转换输出繁体。因为我采用的是五笔,所以采用了万能五笔和海峰五笔。
万能五笔对于一般的繁体字输入是没有问题的,但是对于生僻一点的繁体字就无法输入了。为此,我发现了可以支持大字库Unicode编码的海峰五笔,可以解决繁体生僻字的输入问题。但是对于此书中的个别生僻繁体字,仍然无法输入。
(3)生僻繁体字的输入
生僻繁体字的输入让我伤透了脑筋,总算有了比较好的解决方法。①采用海峰五笔可以解决绝大多数繁体字的输入。②对于海峰五笔无法输入或不会拆字的生僻字,我采用的是Word中的插入字符的方法。先在Word中写一个相似的字(部首相同),选择这个字,选择“插入—符号”,即可找到与这个字相似的汉字,在其中查找,找到后插入。在一个字库中找不到,就只能在另外的繁体字库中查找了,相当费时间,不过没办法,这是最后一招了。③最麻烦的是字库中没有的生僻繁体字,就只能采用造字或其它方法了。
三、效果
经过一段时间的摸索,上述方法解决了将繁体竖排扫描版pdf图书转化为可编辑的文本文件。目前,我已成功将杨伯峻先生的《春秋左传注》一书的“前言”部分(近60页,3万多字)转化为可