DPF转换Word - 360文档中心

合集下载

相关主题

下面介绍三种将PDF格式文件转换为Microsoft Word“DOC”文档格式或纯文本文件的方法：
一、文字内容的直接识别
如果是文本内容直接生成的PDF文件，可以采用以下最简单的两种办法实现文字识别。

1、在“Adobe Reader”或“Adobe Acrobat”软件显示窗口中先用“文本选择工具”选中要编辑的文本内容，再用复制键“Ctrl＋C”把选中的文本内容复制到剪贴板中，然后，就可以在文本编辑软件中直接粘贴后编辑了。

2、在“Adobe Acrobat”中将整个PDF文件“另存为”RTF文件格式，这样，就可以用“Word”直接编辑了。

二、使用工具软件进行转换
如果PDF文件中包含有非标准编码，使用上述方法未必能够完全正确地被转换，或者转化过来的是乱码，而不能被文本编辑软件所直接使用。

对于这种PDF文件，一般使用工具软件转换比较方便。

这类的软件很多，而且多可以作为Office文档编辑软件的插件使用，直接导入PDF文件进行编辑。

比如：美国ScanSoft公司的“ScanSoft PDF Converter for Microsoft Office”软件，能够在Microsoft Office中直接打开PDF文件，并且保留原来的格式和版面设计。

美国VoyagerSoft LLC 公司的“Solid Converter PDF”软件，可以将PDF 文件转换成可能被编辑的充分格式化和版面设置的Microsoft Word 文件, 保存文本、布局和图象等。

德国PixelPlanet Ltd 公司的“PDFGrabber”软件，可以将PDF文件格式转换成Excel、RTF或者Word格式。

除此之外，还有“PDF to Word”、“PDF2Office ”等等软件，都是可以直接将PDF格式转换为DOC、RTF或TXT等格式的工具软件。

使用起来非常方便，而且多可以保留PDF文件原来的格式和版面设计。

三、使用OCR方法进行识别
如果PDF格式源文件为扫描产生的文件，则文件为图像组成。

对于图像中的文字内容即使使用了前面两种识别转换方法，也无法作为文本内容在文档编辑软件中直接使用。

所以，需要使用OCR方法进行识别。

通常也有两种方法：
1、使用万方数据文字识别插件。

该插件是北京万方数据股份有限公司研制的专用于Acrobat Reader 4.0 以上版本软件的一个OCR工具，能够对PDF文件进行OCR整页识别或选择部分区域运行识别，并将识别结果保存为文本文件。

当插件安装成功后，启动Acrobat Reader，在“工具”菜单中会出现一个“万方OCR识别工具”选项，在快速工具栏上也会显示两个“万方OCR识别工具”按钮，一个提供整页识别功能，一个提供选择部分区域识别功能。

例如：单击OCR整页识别按钮后进入OCR识别准备状态，鼠标指针将转变为OCR字样。

在PDF文件浏览窗口点击所显示的PDF文件内容，出现提示框询问是否把当前页保存为TIFF图像文件，单击[是]按钮，将弹出文件保存对话框，输入要保存的文件名，单击[确定]按钮即可将当前页保存到磁盘。

单击[否]按钮会对当
前页进行识别，并弹出识别窗口，识别窗口内的文字部分即为识别的结果。

单击[保存]按钮以文本文件的形式把识别结果保存到磁盘。

万方数据文字识别插件主要对数字复印机产品所加工的PDF文件进行OCR识别，对于其他图像文字识别效果就不理想了。

图2 “万方OCR识别工具”按钮
2、使用第三方OCR软件识别。

现国内比较流行的有清华紫光、北大、汉王、尚书等OCR软件，通常对汉字的识别能力都不错。

第一步，需要将PDF格式文件转换为图像文件。

可以采用屏幕图像掠取软件，将屏幕显示的PDF文件中的文字抓取下来的办法，然后将其保存为图像文件。

也可以直接利用“Adobe Acrobat“软件中的文件“另存为”功能，将PDF格式文件分页保存为TIFF格式图像文件。

不过，要注意的是要选择单色、300DPI以上精度保存图像文件才能提高OCR识别精度。

图3 设置TIFF文件的精度
第二步，进行OCR文字识别。

下面以“清华TH-OCR 2000 千禧板”为例。

操作步骤为：
（1）“文件”菜单下，“打开”图像文件（可以一次识别多个图像文件内容）；
（2）逐个图像文件内容进行OCR识别(个别图像在识别时需要进行倾斜校正、文稿校对等处理)；
（3）识别完毕，自动生成与图像文件名相同，扩展文件名为TXT的文本文件，就可以对它们进行编辑了。