DPF转换Word
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
下面介绍三种将PDF格式文件转换为Microsoft Word“DOC”文档格式或纯文本文件的方法:
一、文字内容的直接识别
如果是文本内容直接生成的PDF文件,可以采用以下最简单的两种办法实现文字识别。
1、在“Adobe Reader”或“Adobe Acrobat”软件显示窗口中先用“文本选择工具”选中要编辑的文本内容,再用复制键“Ctrl+C”把选中的文本内容复制到剪贴板中,然后,就可以在文本编辑软件中直接粘贴后编辑了。
2、在“Adobe Acrobat”中将整个PDF文件“另存为”RTF文件格式,这样,就可以用“Word”直接编辑了。
二、使用工具软件进行转换
如果PDF文件中包含有非标准编码,使用上述方法未必能够完全正确地被转换,或者转化过来的是乱码,而不能被文本编辑软件所直接使用。
对于这种PDF文件,一般使用工具软件转换比较方便。
这类的软件很多,而且多可以作为Office文档编辑软件的插件使用,直接导入PDF文件进行编辑。
比如:美国ScanSoft公司的“ScanSoft PDF Converter for Microsoft Office”软件,能够在Microsoft Office中直接打开PDF文件,并且保留原来的格式和版面设计。
美国VoyagerSoft LLC 公司的“Solid Converter PDF”软件,可以将PDF 文件转换成可能被编辑的充分格式化和版面设置的Microsoft Word 文件, 保存文本、布局和图象等。
德国PixelPlanet Ltd 公司的“PDFGrabber”软件,可以将PDF文件格式转换成Excel、RTF或者Word格式。
除此之外,还有“PDF to Word”、“PDF2Office ”等等软件,都是可以直接将PDF格式转换为DOC、RTF或TXT等格式的工具软件。
使用起来非常方便,而且多可以保留PDF文件原来的格式和版面设计。
三、使用OCR方法进行识别
如果PDF格式源文件为扫描产生的文件,则文件为图像组成。
对于图像中的文字内容即使使用了前面两种识别转换方法,也无法作为文本内容在文档编辑软件中直接使用。
所以,需要使用OCR方法进行识别。
通常也有两种方法:
1、使用万方数据文字识别插件。
该插件是北京万方数据股份有限公司研制的专用于Acrobat Reader 4.0 以上版本软件的一个OCR工具,能够对PDF文件进行OCR整页识别或选择部分区域运行识别,并将识别结果保存为文本文件。
当插件安装成功后,启动Acrobat Reader,在“工具”菜单中会出现一个“万方OCR识别工具”选项,在快速工具栏上也会显示两个“万方OCR识别工具”按钮,一个提供整页识别功能,一个提供选择部分区域识别功能。
例如:单击OCR整页识别按钮后进入OCR识别准备状态,鼠标指针将转变为OCR字样。
在PDF文件浏览窗口点击所显示的PDF文件内容,出现提示框询问是否把当前页保存为TIFF图像文件,单击[是]按钮,将弹出文件保存对话框,输入要保存的文件名,单击[确定]按钮即可将当前页保存到磁盘。
单击[否]按钮会对当
前页进行识别,并弹出识别窗口,识别窗口内的文字部分即为识别的结果。
单击[保存]按钮以文本文件的形式把识别结果保存到磁盘。
万方数据文字识别插件主要对数字复印机产品所加工的PDF文件进行OCR识别,对于其他图像文字识别效果就不理想了。
图2 “万方OCR识别工具”按钮
2、使用第三方OCR软件识别。
现国内比较流行的有清华紫光、北大、汉王、尚书等OCR软件,通常对汉字的识别能力都不错。
第一步,需要将PDF格式文件转换为图像文件。
可以采用屏幕图像掠取软件,将屏幕显示的PDF文件中的文字抓取下来的办法,然后将其保存为图像文件。
也可以直接利用“Adobe Acrobat“软件中的文件“另存为”功能,将PDF格式文件分页保存为TIFF格式图像文件。
不过,要注意的是要选择单色、300DPI以上精度保存图像文件才能提高OCR识别精度。
图3 设置TIFF文件的精度
第二步,进行OCR文字识别。
下面以“清华TH-OCR 2000 千禧板”为例。
操作步骤为:
(1)“文件”菜单下,“打开”图像文件(可以一次识别多个图像文件内容);
(2)逐个图像文件内容进行OCR识别(个别图像在识别时需要进行倾斜校正、文稿校对等处理);
(3)识别完毕,自动生成与图像文件名相同,扩展文件名为TXT的文本文件,就可以对它们进行编辑了。