office自带的文字识别系统
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
office自带的文字识别系统
office自带的文字识别系统
2007年03月14日星期三23:44在我们日常的学习中常遇到pdf,caj等文件需要提取其中的文字。当然这两种格式文件的阅览器都具备识别功能,但是缺点是,不是所有的都能识别,或者排版格式很乱。当遇到这种情况时,不妨试试以下方法:
其实office是自带文字识别系统的,只是我们都没有留意到。首先说说他的优点:识别率高;基本不破坏原有排版格式;对所有的图片格式都适用;
下面说说具体使用步骤:
第一步:安装,在安装office时必须选择其中一个叫
“Microsoft Office Document Imaging”的组件。如果是第一次安装,直接跳到第二步。如果已经安装了office2003,那么只要再次运行安装程序,会出现如下界面(图1),默认选择“添加或删除功能”点击下一步。第二步:在出现的窗口中在“选择应用程序的高级自定义”前打勾,如图2。点击下一步。
第三步:找到Office工具下的“Microsoft Office Document Imaging”如图3,鼠标左键点击图中箭头所指处。选择“从本机运行”然后点击“更
新”就安装完毕了。
第四步:使用,首先对需要识别的文件打印(是虚拟打印),如caj,pdf可在其阅览器中选择打印。而对于图片,可以把它插入到word中再选择打印。这里要注意,打印时选择的打印机应该是虚拟打印机。如图4(以pdf文件打印为例),在箭头所指的下拉菜单中选择“Microsoft Office Document Imaging Writer”即可。然后打印很快就可以自动生成一个MDI格式的文档。
第五步:打印后会自动打开这个mdi文件,如图5。选择图中箭头所指的按钮(前面那个),进行OCR文字识别。等待识别完成后(识别时间视文件大小而定),然后再选择箭头所指(后面那个)即可将所识别的文本发送到word中去。第六步:只需要经过简单的排版即可使用所需的文字了。