IdxSubOcr(sub字幕转srt工具)使用教程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IdxSubOcr使用教程
——dert112233于2010年11月22日晚
一、引子
IdxSubOcr说明:功能:一个专门用来OCR(光学字符识别)Vobsub 格式字幕的软件,能够将idx/sub格式的字幕转成srt格式,并提供srt格式校对功能。OCR引擎为微软Office所带的Microsoft Office Document Imaging(MODI),支持英文、简体中文、繁体中文、日文。
动机:目前已经有一些免费的字幕OCR软件,英文的可以用Subresync,中文的可以用SubOCR。但是在使用了这些软件后,我还是决定开发IdxSubOcr,理由如下:
希望能够使用方便性方面有所改善。Subresync自带的OCR引擎的识别率很棒,但是每次都要敲几十个字母实在太麻烦;而且还不支持中文字符。
SubOCR实在太庞大,而且在某些机器上运行出错。
在简体中文Office2007下用Micorsoft Office Document Imaging (MODI)做OCR的步骤为:
1.先确保MODI已经正常安装。Office2003的缺省安装是第一次使用MODI时安装,Office2007的缺省安装是不装或第一次使用MODI时安装,如果你已经安装了完整版的office2003或者office2007,但是没有此组件,你就必须添加此组件。
添加如下图:
1.1放入office安装光盘(如果是虚拟光驱就是加载光盘镜像文件),因为Micorsoft Office Document Imaging(MODI)组件要从光盘安装。
图1
1.2进入控制面板点击“添加或删除程序”
图2
1.3选择office2007(如果你的是office2003,同样操作)
图3
1.4选择添加或删除功能,然后点击继续
图4
1.5选择“office工具”>Microsoft Office Document Imaging下面的Microsoft Office Document Imaging Writer,改为从本机运行,然后继续,
中途可能会要求你选择指向office光盘,很快安装就能完成。
图5
2.设置MODI
2.1如图6所示打开MODI程序
图6
2.2打开后,先选择“工具->选项”,对OCR选项进行设置。常规设置是去掉“自动拉伸”、“自动旋转”选项,再选择合适的语言。
图7
图8
与其他商业OCR软件相比,MODI具有下列特点:
支持多页TIFF。某些OCR只支持单页TIFF,OCR以后还需要对结果进行合并。当然MODI支持的TIFF页数也不是无限的,我个人的经验是不要超过300页。单页TIFF文件可以用免费的TiffToy合并成多页TIFF,然后再用MODI进行OCR。TiffToy合并时可以选择每合并多少个文件生成一个新文件。
中文标点、文本段落保持得比较好,后期校对省了很多事。支持的语言比较多,Office支持的语言基本都支持。但是这一点对大多数用户来说无法体会,因为正常情况下,MODI只支持英文和当前Office语言(如简体中文、繁体中文)的OCR,要想支持更多的语言,需要进行一些设置,这就是本文所要讨论的内容。
要想让简体中文Office2003能够OCR繁体、日文、韩文,需要做的工作包括两个方面:
安装相关语言的OCR模块。MODI本身可以看作一个外壳,真正的OCR功能需要靠不同语言的模块实现。每个语言模块包括相关DLL文件和数据文件,需要复制到MODI的安装文件夹下。
告诉MODI,目前有哪些语言的OCR模块可以使用。这个需要更改注册表,更改后在MODI的OCR选项里即可选择对应的语言。
2.3繁体中文配置
找一台安装了繁体中文Office2007的机器,进入MODI的安装文件夹,缺省为(此步不用劳烦各位忙摸摸了,我已经找齐了这些文件,并打包成压缩包供大家下载,同理,我的压缩包还包括了繁体中文系统配置简体的设置):
C:\Program Files\Common Files\Microsoft Shared\MODI\12.0将下面的文件复制到安装了简体中文Office2007的相同文件夹下:
TCCODE.UNI
TCPRINT.DAT
TCPRINT2.DAT
TCSERHT.DAT
TCTREE.DAT
TW_BU.DAT
TW_UB.DAT
TWBIG532.DLL
复制完成后,用记事本创建一个reg文件,把下面内容粘贴后存盘:
Windows Registry Editor Version5.00
[HKEY_CURRENT_USER\Software\Microsoft\Installer\Components\61BA3 86016BD0C340BBEAC273D84FD5F]
"1028"=hex(7):28,00,26,00,48,00,42,00,56,00,6e,00,2d,00,7d,00,66,00,28,00, 5a,\
00,58,00,66,00,65,00,41,00,52,00,36,00,2e,00,6a,00,69,00,4f,00,43,00,52,00,\ 5f,00,31,00,30,00,32,00,38,00,3e,00,7d,00,60,00,45,00,4d,00,61,00,65,00,2c,\ 00,37,00,71,00,39,00,2a,00,44,00,58,00,64,00,55,00,40,00,45,00,50,00,69,00,\ 3d,00,00,00,00,00
双击此reg文件导入注册表后,在MODI的OCR选项卡里,“OCR 语言”即可看到“中文(繁体)”。注意导入注册表时必须先关闭所有MODI 窗口,导入后再打开。