中文电脑的汉语语音输入系统及其方法与制作流程

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种汉语语音输入系统及其方法,用以将任意文句的汉语语音直接转换成相应的中文文字,该系统及其方法包括声音处理过程及语言解码过程两大部分。其特征在于声音处理过程利用“段落统计模型” 计算输入汉语语音的各单音节及声调的机率,进而辨识之;语言解码过程针对声音处理过程送来的一连串音节利用“词类双连中文语言模型”找出对应的中文字。一种包含“智慧型学习技术”的汉语听写机,用本方法将语音输入转换成文字显示。

技术要求

1、一种汉语语音输入方法,用以将任意文句的汉语语音直接转换成相对应的中文文字,该方法包括声音处理过程以及语言解码过程两大部分,其特征在于,该声音处理过程利用“段落统计模型”计算输入汉语语音的每一音节以及声调的机率,进而辨识之;该语言解码过程针对该声音处理过程送来的一连串音节,以“马可夫中文语言模型”找出所对应的中文字。

2、根据权利要求1的方法,其特征在于,其中该“马可夫中文语言模型”是以“词”为基础,但以“字”来计算机率的“马可夫中文语言模型”。

3、根据权利要求1的方法,其特征在于,其中该以“词”为基础,以“字”来计算机率的“马可夫中文语言模型”系将输入的音节串所对应的同音字一一分割为若干个词,但根据两两相连的词之间相连的词头字及词尾字相连出现的机率,并比较每一个词出现的频率及前后文关系判断该音节的字。

4、根据权利要求1的方法,其特征在于,其中该“段落统计模型”的训练方式包含下列步骤:

(1)若某一单音节α的总长度为T个音框,则将该单音节分为N段,每一段含有T/N个音框;

(2)使用者重覆念该单音节数次,长度虽不尽相同,但同样等分成N段;

(3)将所有上述单音节的第一段音框的特征向量合在一起,训练成第一段的状态;

(4)将所有上述单音节的第二段音框的特征向量混合在一起,训练成第二段的状态,依此类推,训练出N个状态;

(5)上述每个状态以M个高斯机率混合来描述,以上述音框的特征向量训练各个高斯机率的参数;和

(6)上述M个状态即构成该音节α的“段落统计模型”。

5、根据权利要求4的方法,其特征在于,其中该“段落统计模型”训练法尚包含“分段共用”训练法,该方法系将输入之单音节分为N段,该N段的前面几段描述声母部分,后面几段描述韵母部分,因此可利用此两部份分别训练其他有相同声母或韵母的单音节的相关声母与韵母各段的状态。

6、根据权利要求4的方法,其特征在于,其中该“段落统计模型”的辨认方法包含下列步骤:

(1)使所有的408个基本单音节都训练成“段落统计模型”;

(2)将输入的未知音β分成N段;

(3)该N段中的每一段的每一个音框的特征向量分别代入某个音节的“段落统计模型”的该段状态的M个高斯机率混合中,以计算机率;

(4)将各段的机率相乘,即得到该未知音β相对于上述音节的“段落统计模型”的机率;和

(5)依上述方法计算该未知音β相对于所有408个基本单音节的“段落统计模型”的机率,比较后机率最高的“段落统计模型”所对应的基本单音节,即是辨识结果。

7、根据权利要求1的方法,其特征在于,其中该“中文语言模型”尚可用于部份更正声音处理部分的错误。

8、一种训练汉语语音辨认系统迅速学习新使用者的声音的训练方法,用以训练一汉语语音听写机,以辨认新使用者输入的汉语语音,该方法须先以很多位不同的语者所发语音来训练每一个单音节的涵盖各种不同语者的可能的声音特性的“段落统计模型”;其步骤包括:

(1)以“段落统计模型”训练法建立很多不同的语者发出某一单音节的“段落统计模型”,因许多位语者声音特性各不相同,故常需很多个高斯机率混合才能描述每一个状态;

(2)以某一个新使用者发出同一单音节,然后自上述很多位使用者的“段落统计模型”的许多高斯机率混合中找出最接近该某一新使用者声音的那几个高斯机率混合,而把其他的高斯机率混合抛弃,即建立出此一新使用者的“段落统计模型”;

(3)当新使用者继续发出同一单节时,此一新发的单音节的分段特征向量就可以再平均进入在步骤(2)所求的新使用者的“段落统计模型”中,算出新的高斯机率混合,而得到新的“段落统计模型”;和

(4)重覆步骤(3)的方法,新使用者的声音在“段落统计模型”中的成份于是越来越多,即可得更精密的描述新使用者声音的“段落统计模型”。

9、根据权利要求8的方法,其特征在于,该方法还包括随时于电脑屏幕上联机更正电

脑辨别错误的声音的步骤,并将此结果立即送入一存储器中,并当场重复所述的步骤(3)(4),使得机器亦即学到新的声音,下次再辨认就用新的模型,从而正确率达到不断提高。

10、一种用以听写汉语文句的汉语听写机,其特征在于包括:一滤波及模/数转换器,以将语音输入信号滤波及转换为数字信号;一个人电脑及附加数字信号处理电路板,用以接收该转换器送来的数字信号而加以处理;一特征求取器及一基频检测器与该个人电脑相连接,用以检测及计算由该个人电脑所收到的数字信号的基频及其他多种特征;一段落统计模型处理器,配合高斯机率混合处理器,以计算每一音节的端点,并辨认其基本单音节及声调;一以“词”为基础,但以“字”来计算机率的马可夫中文语言模型处理器,以计算输入语音音节的各个同音字、词的机率,并将辨认结果送回该个人电脑;一训练装置用以训练出所有基本单音节及声调的“段落统计模型”的机率数值以及“马可夫中文语言模型”的机率数值,然后将此数值送入该个人电脑。

11、根据权利要求10的汉语听写机,其特征在于,其中语音输入系以断开的单音节为单位。

12、根据权利要求10的汉语听写机,其特征在于包括一荧光屏,用以显示输入的注音符号及中文文字以及方便的改正错误的软件,以便使用者可以直接用鼠标器在荧光屏上改正错误,完全不需用到键盘。

13、根据权利要求10的汉语听写机,其特征在于包括一动态存储装置,用以暂存使用者之语词和习惯用语或所输入的某一段文字中反覆出现的特别语词,并根据该语词的出现频率,存储于不同的存储器中,这些语词及其信息可以并入听写机的整体中文语言模型中,也可以在事后清洗掉。

相关文档
最新文档