手把手教你如何从RMVB视频中提取出外挂字幕文件
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
字幕提取所需要用的软件:Esrxp,尚书7号,word等。废话少说,让我们进入正题
1. 软件的安装
过于简单…本节省略
2.准备工作
你需要准备一台电脑,还有用来提取字幕的rmvb。
3.Esrxp软件的介绍与调整
Esr的使用是提取字幕的关键,识别出来的字幕越完美。你后期所需要的时间就越少
Esr里面的其他设置建议使用我提供的下载里默认的,如有需要改动设置的地方,我会在文说明。
首先我们依次点文件打开影片(快捷键为工具栏第2个)本文使用TSKS的《聚光灯》12集的rmvb版本作为例子
Rmvb文件载入后,依次点字幕过滤器(快捷键为工具栏第6个)出现如下界面
拉一下进度栏(这个应该不需要我告诉你在哪里了吧)找到有字幕的地方进行调整
字幕截取的边框要根据影片字幕的位置来设置,一般字幕为2行。所以截取的时候注意一下
上下边框可以用鼠标来调整也可以使用区域内的上下数值来调整
完整宽度请勾选上(一般设置好后,下次启动软件时候会使用上次设置)
过滤器设置请钩上这样我们才能调整一些参数便于识别出完美的字幕
请选择“颜色和边线”
字幕颜色设置成和rmvb中字幕的主颜色的同色(如何正确知道字幕的颜色:可以把鼠标移动到字体上,在设置的左下角会出现当前鼠标所在处的RGB值)边线颜色设置成和rmvb中字幕的边线颜色的同色(一般都是白色字体,其他的边线颜色都可以用黑色来代替)
后处理设置请按照下图设置,这个基本是固定的,不需要按照影片设置,除非rmvb字体太小。
进阶设置(此处很重要,为识别的核心部分,识别出来的字幕完美不完美就靠它了)点击如下图所示
大家可参考我图中的设置
说明:没有打勾的不生效,意味着随便什么数值都可以(软件自动默认为最高或者最低)
不要随便勾选其他的,除非你研究了很透彻了…
需要调整的地方有2个:边线里的最高光度和最后阶段的RGB差距(图中2处的数值无参考意义,需自行根据影片设置)
最高光度需要根据不同的rmvb设置不同的值,调整到识别出来的字幕不丢字,也无太多的杂点即可。当然最好识别出来和我图中的字幕那样完美..
RG差距为字幕的清晰度,越高越清晰,但是也同时会带来非字幕地方出现杂点,影响到后面的OCR识别。所以我们的原则是:只要能看了比较清楚,OCR 软件能够顺利识别就可以了。
此处设置的时候可以拖动进度栏,观察总体字幕识别情况,不要总是盯着一
出字幕来设置。那样容易会出现本处字幕识别了完美,其他时间字幕出现丢字或者杂点太多的情况
设置完毕后我们可以开始识别了,返回到软件的主界面。点左下角的开始,让软件自己开始识别吧。识别时间需要看机器的配制和字幕的多与少。为了节约时间,本文中只识别的影片的前几分钟。
现在我们会发现识别出来会多很多无用的字幕(到底会多多少,这个要看你设置的情况了
一般设置了比较好的话,基本没有太多的无用字幕)我们需要手动删除他们依次点字幕字幕管理(快捷键为工具栏第8个)出现如下界面
删除的时候可以点最缩小的那个放大镜这样屏幕可以同时显示更多字幕,提高删除效率
删除的方法:最基本的是用鼠标点,点一次选中,再点一次不选中。
下面再告诉大家几个技巧:点好鼠标左键后不放,放下拖,鼠标所过之处会自动选上。
选择多行无字幕的图象时(就是有一大段都没有字幕,是乱七八糟的杂点)可以在开始字幕处点右键选中,结束字幕处点左键。这样这一大段的字幕就全部被选中了。
合并重复字幕:有时候会出现这样的情况,多行字幕为同一字幕,我们需要合并之,方法为
在重复字幕的第一个字幕处点右键选中,在重复字幕结束处点右键。
无用字幕选择好之后,我们点字幕管理中的删除(下图红圈所示)
关闭字幕管理,返回软件主界面。现在我们开始输出OCR所需要使用的bmp 图片。
依次打开文件保存OCR影象(快捷键为工具栏第5个)
说明:先建立一个文件夹用来保存ocr图片,选择好图片输出位置后,出现下图设置。请按照本图设置,每张图片不宜太大,否则OCR软件无法识别
输出图片结束后,我们需要把刚才提供的esr文件另存为一下。这个习惯要养成,不然会很麻烦。
下面我们开始介绍OCR软件:尚书7号的使用
打开软件,打开图片。(这里需要提醒的是,一集字幕我们按60行字幕一张图片的话会出现10多张图片,我们在打开图片时候需要一次性选择全部图片,而且第一张选种的图片必须是编号最后的图片,最后选种的图片必须是编号为1的图片,这样在尚书7号里面才会按照1 2 3 4这样的顺序排列,否则是反过来的)
图片全部打开之后,我们先点全选图片(快捷键为工具栏第5个)
然后开始识别(快捷键为工具栏第6个)识别很快,几秒一个图片。
识别结束后,再按一次全选(快捷键为工具栏第5个)然后依次点输出输出到指定文件(把识别出来的文字存为一个txt文件)
到了这里我们会发现,文中提示所需要的word还没派上用场,这个时候我们就需要用上它了。因为识别出来的文字,偶尔有几个会有识别错误,而且是批量的,我们需要用到word的全部替换功能,把一些常用字的识别错误给修正(不要问我有哪些常用字会识别错误,基本很少。做过这么一两个字幕后你就会知道那些字需要全部替换下)
OK现在我们所需要做的是把word里调整过文字复制到exrxp软件的左边的文字框里去
注意,一行对应一行哦。可以把文字的字体大小该大点,这样眼睛不累…减少错字。。- -|
然后开始我们最为辛苦的校对过程,结束后如下图
现在我们又需要用到word的排版功能,这些字幕有的开头有空格,有的无空格,我们先把他全选,然后复制到word里面去,然后在word里面再次全选文字,使用“居中”功能
然后再复制到esrxp里去,我们会发现文字刷刷的全部对齐了,如下图