便携式语言障碍者电话语音辅助系统设计方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XX公司
便携式语言障碍者电话语音辅助系统设计方案
摘要
电话对现代人而言,乃是生活中一项重要的通讯工具,可是对于有语言障碍的朋友,却无法享受其便利。因此,我们将设计一电话接口控制器,藉由并列端口连接至个人计算机,并结合计算机上现有的声卡,以自行研发的驱动软件,组成一电话语音系统;以辅助语言障碍的朋友,可于计算机上藉由文字编辑的方式,将文字转换成语音,而能直接与通话者作在线交谈。如此,将可造福语障朋友,使他们亦能方便地使用电话与人沟通。此外,本系统尚具有一般的自动拨号、代码拨号、电话答录等功用,致使系统功能更具完善,且便利加以使用。
一、前言
一般于网络BBS上皆有文字交谈之功能,若能将文字转换成语音,然后再结合电话设备传输,则可使语障朋友亦能使用电话与他人作在线交谈。基于此一灵感,我们尝试使用计算机之声卡来作为语音发声的主要工具,然后再设计一电话接口控制器,并配合电话传输原理,来将语音信号载送于电话在线。本系统最主要之功能,即是将所编辑的文字转换成语音。现今有多种方法可以实现,其中一种方法是可以依人类发声原理,以数学算法仿真加以合成各种不同语音。不过在非快速计算机上执行,可能稍嫌复杂且缓慢。因此,本系统则采用事先录制之中文语音数据库,并藉由自行设计之语音档案路径转换公式,在当有中文输入时,即能快速寻找到其相对应的语音档案,如此将发音更为顺畅。
先前所发展作品之电话接口控制电路[3]乃是建立于ISA Bus的适配卡上,但随着计算机的日新月异,ISA Bus的规格日渐被淘汰,再加上如果是以适配卡的形式的话,假使要使用在其他计算机上使用的话,在安装及携带上有些许的不便,于是就有把它改成独立的电话接口控制器,利用并列端口与计算机连接,在外出时只需携带此一电话接口控制器及安装软件光盘,即可配合笔记型或他人的计算机使用,使其更方便让语障者所运用。此外先前的程序是针对DOS环境所开发的,现在大多改为窗口操作系统,所以程序也都重新写过改为窗口接口,在操作上更加有亲和力,还有以往只能以注音输入,现在所有的中文输入皆能适用。在文字对应语音的搜寻方面也有大幅度的改良,使之在发音过程中降低延迟的感
觉,听起来更为流畅。
二、系统架构与原理
为了实现以文字转换成语音,进而完成电话通讯的功能,本系统架构主要包含如图1所示的个人计算机和电话接口控制器二个部分。其中个人计算机为主控单元,主要负责将输入中文字转换为语音,并由声卡输出中文音至电话接口控制器,或录制来自电话接口控制器之语音。电话接口控制器为个人计算机与电话设备间的接口,具有一般电话机的功能;并藉由计算机并列端口的控制,可作为电话语音与计算机间之传输交换。
電話線
图 1. 系统架构图
2-1. 文字对应语音方式之比较
传统文字到语音转换之型态,若采用事先录制语音的方式,其语音数据之搜寻,是依输入之中文字以顺序搜索方式至数据库下找到所对应的语音数据。然而本系统则是使用字码运算映像方式,亦就是直接由输入之中文字码即可映像至所要的语音数据,如此将可免去搜寻的时间。图2与图3分别为顺序搜索映射与字码运算映射两种方法之映像流程。这样可以清楚的知道经过改良后,并不需要每个字逐一在数据库中寻找,可以直接经由字码的运算得知欲发音的字于数据库中的所在位置。例如:”发” 在数据库中位于第2716笔,使用搜寻方法必须由第一笔找到第2716笔才能找到”发”,而字码转换可直接藉由转换公式(如3-2节之说明),并配合程序之取文件的函数,即可取得第2716笔资料,因而节省了许多因找寻数据所耗费的时间。
图2. 顺序搜索映射
图3. 字码运算映射
2-2. 字码转换方法说明
计算机中的中文字码是采取BIG-5的编码规则。Big-5 是一种双字节编码方案,所有中文字的High Byte 的位于A4H~F9H 之间,而Low Byte 则分别位于40H~7EH 和A1H~FEH之间。因此可由字码之高位可区分为不同的区段,每个区段中依其低位可再分为上、下两部分。
個字
個字
Sec0
Sec1
Sec85
個字
图4. 中文字码表
(7FH~A0H)
Sec 0
63個 94個
图5. 第0段细部字码表
从图4中可看出字码之高位介于A4H~F9H 之间,共可以分出85个区段,每区段内有157个字。由于中文字码只编码到F9DCH ,所以最后一个区段第85区段只有123个字。图5为第0区段(Sec 0)字码之细部分类,此区段内所有字码之高位皆为A4H ,其低位40H~7EH 为上段,低位A1H~FEH 为下段。其中低位7FH~A0H ,依Big5编码规则中并无中文字存在。依照以上中文字码编排规则,我们将推导出字码转换语音数据库索引值之公式。当字码之低位值大于(或等于)
40H,小于(或等于)7EH时,则所产生之索引值如式(1)所示:
-
=Low Byte
Index(1)
⨯
High
Byte
157
(
+
40H)
A4H)
(-
而当字码之低位值大于(或等于)A1H时,小于(或等于)FEH时,则所产生之索引值如式(2)所示:
⨯
+
-
=Low Byte
High
Byte
Index(2)
(+
40
H)
-
A1H
(
A4H)
157
例如:中文字“世” 的字码是A540H,其高位A5H减去A4H为第1个区段(Sec 1),而其低位40H为上半部的第一个字。依上述之转换公式,可算出所对应之语音数据库索引值为:(A5H-A4H)*157+(40H-40H)=157,所以中文对应语音表中的第157笔数据为”事.wav”,就是”世”所要发音的语音文件名。
三、系统设计
3-1. 硬件说明
为了简化硬件之设计,有关语音的发音与录制部份,可交由计算机设备中现有的声卡来完成,可将文字转换后之语音送至自行研制的电话接口控制器;或是录制来自电话接口控制器之电话在线语音输入。然而电话接口控制器乃为完成电话通讯的主要单元,其电路方块如图6所示。其中各部分电路[2]将分别如下说明:
图6. 电话接口控制器电路方块图