语音信号传输的理论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Tp
典型声门脉冲波形
语音的生理属性—发音器官
3 口腔、鼻腔、咽腔 这一部分器官既是声带音的共鸣
器,又是语音中噪音成分的声源。
喉头到小舌之间的条状空间就是咽腔,这是人类特有的。一般动物 的声门位置很高,声门与口腔间几乎没有空腔。人的声门位置较低, 喉头和口腔间距离拉长,形成了咽腔。有了它,舌头和软腭有了充 分的活动空间,可以做出灵活多变的动作,发出动物发不出的复杂 声音。同时它还是口腔的延伸,是整个共鸣器的一部分。 口腔是发音器官中活动最复杂的部分,除牙齿、牙龈、硬腭外,• 其 余部位都可以活动。 双唇可做出开闭拢放各种动作,下唇还可以收回同上齿接触。上腭 后半部分的软腭与小舌可以上升或下垂,它们的主要作用是改变气 流方向。它们上升时,小舌抵住咽壁,挡住鼻腔通道,气流进入口 腔;下垂时,鼻腔通道打开,气流可进入鼻腔。
音强是指声音的强弱,它取决于发音体振动幅度的大小。 物体振动的幅度叫振幅,振幅大,发出的声音强度就大,振 幅小,声音就弱。 振幅的大小是由引起物体振动的外力的大小决定的。 语音的强弱同发音时呼出气流量的大小和说话人用力的大小 有关。发音时用力大,冲击声带或其他发音部位的气流强, 语音就强。
语音的生理属性—发音器官
发声状态时声门下的气流受阻,压力增加,气流冲击声带,声带被冲
开又合上,再被冲开,再合上,这样不停地开闭,形成有节奏的颤动。 气流从声带间一喷一喷地冲出来,产生了规律的周期波,这就是原始 的声带音。 声带音只是一种微弱的蜂鸣声,我们是听不见的,经过咽腔、口腔、 鼻腔的共鸣作用放大,我们才听到响亮的乐音。声带的颤动是语音中 乐音成分的声源。 声带还同语音的高低有密切关系。杓状软骨的转动可以调节声带的松 紧,声带绷紧时和放松时颤动的频率是不一样的,发出的声音高低也 不一样。汉语中声调的高低升降变化,就是通过控制声带松紧来实现 的。
语音的物理属性—音质
共鸣器形状对语音音质的区分还有另一方面的意义。倘若男女老少 四人来发一个a音,他们的声带长短厚薄及韧性等各有差异,产生 的音波肯定是不同形式的,但我们除了听出是四个人的声音外,总 还是听到了同一个韵母的音质。 原因还在共鸣器的形状。不同的人发同一个音时,口鼻腔形状虽然 不会绝对相同,但其形状的基本特点是一致的,比如发a时都要把 舌面压低,口腔开大,• 根后部的咽腔相对窄小。现在就是四束复 舌 合波与同一个形状的共鸣器发生共振了,每人被共振加强的音波在 绝对频率上虽不见得一样,但共振频率分布的位置却有共性,这使 我们听出了同样的元音。在元音的识别中,音质并不决定于声波的 振动形式,而决定于共鸣器形状对共振频率的选择。 这也说明了在语音传递过程中,准确的发音动作有多么重要,共鸣 器形状正是靠发音动作来调节的。
语音的定义
语音是人类发音器官发出的、具有一定意义的、能起社会交际作 用的声音。能够代表一定的意义,这是语言的声音同自然界其他 一切声音的本质区别。 人体外的声音自不必说(如钟声、风声、动物叫声、机器声),就是 人的发音器官发出的声音,也并非都是语言。• 打喷嚏、打嗝儿、 如 打哈欠、咳嗽等等,虽然也传递出了某种信息─病了,饱了,困 了或是醒了,但声音的发出不是为了交际,而是人体本能的生理 反映;又如吹口哨、口技演员的表演、哭、笑等等,这些声音的 发出是有目的的,是一定的心理活动的表现,不是单纯的生理现 象,但声音同意义之间没有固定的结合关系,不能成为代表意义 的声音符号,只能表示情绪,展示技巧。以上这些声音都不是语 言。
语音学
语音学是研究语音过程的科学,包括发音语音学、 声学语音学和听觉语音学三大分支。 发音语音学研究发音器官在发音过程中的运动和语 音的音位特征; 声学语音学研究语音的物理属性,如语音声波的频 率、振幅以及频谱特性等; 听觉语音学研究听觉和语音感知。
语音的属性—物理属性
物体由于某种外力的作用发生振动,并引起周围空气或其他 媒介物质的振动,产生了振动波─ 声波,声波作用于耳鼓膜, 使之产生同样的振动,刺激听觉神经,人就感觉到了声音。 语音也是这样产生、传递与接收的。 物理声学认为声波具有音高、音强、音长、音色四种要素, 语音同样是这四种要素的统一体。
语音的物理属性—音质
音质又叫音色,是一个声音能区别于其他声音的本质特点。声波的 振动方式与共鸣器的共振作用,都决定着音质的差别。 世界上的声音很少是只有一种单纯频率的纯音,绝大多数声音都是 由许多个频率和振幅不同的音波组成的复合音。复合音的各成分波 之间频率和振幅相互影响,形成了特定的波形,产生出特定的音质。 从波形上看,音质可分为两类──噪音与乐音。噪音是由许多无规则 的音波合成的,它们的音高和强度随时在变化,相互之间没有一定 的关系,合成的波形杂乱而无规律。这种声音听起来刺耳、嘈杂, 如刹车声,电锯锯木声,马路上车驰笛鸣的喧闹声等等。语音中也 有不少噪音成分,如辅声中的塞音、擦音、塞擦音等等。 乐音则由若干规则的纯音组成,形成的复合音波有周期性,很有规 律,这样的声音听起来和谐、悦耳,歌声、乐声和语音中的元音, 都是这样的声音。
成,称为复合信号;而单一频率的信号 称为分量信号
频率范围
频率小于20Hz 一般称为次声波(subsonic) 人的听觉器官能感知的声音频率范围约为 20Hz~20kHz的信号称为音频(Audio)信号
人发音器官发声频率约是80~3400Hz,但人说话
的信号频率约为300~3000Hz,即话音(speech)信 号
声波示意(L. A. Rowe )
压缩
稀薄 正弦波
幅度
时间
声波频率
声压变化可以是周期性的和非周期性
频率概念 循环(cycle)- 压缩/稀薄过程 频率(frequency):每秒cycle数,单位
hertz (Hz) 周期 – cycle的持续时间 (1/frequency)
声音信号一般由许多频率不同的信号组
典型声门脉冲波形
Tp
典型声门脉冲波形
• Tp为基音周期,倒数为基音频率,用fp表示,取 决于声带的尺寸和特性 • 男性说话者的fp大致分布在60-200Hz范围内 • 女性说话者和小孩的fp值在200-450Hz范围内 • 同一个人所发出的声音有高低变化,是靠控制声 带的松紧来调节的。
语音的物理属性—音强
语音的生理属性—发音器官
舌头是口腔中最活跃的部件,它柔软而灵活,不仅整个舌头可以 前后上下移动,它的各部分(舌尖、舌面、舌根)都可以独立活动。 舌头多变的动作是口腔形状能出现丰富变化的重要条件。 鼻腔不像口腔那样可以变动,它是个形状固定的共鸣腔,但当它 与口腔连通时,口腔动作的改变也可以发出不同的鼻音。 这部分器官通过复杂的动作不断改变共鸣腔的形状,用不同的共 振把原始的声带音变成了我们听见的各种声音。 口腔还有一部分动作是由某些部位靠近或闭合,阻挡了气流,气 流必须发力冲破阻挡或从窄小的通道挤过去,才能到达口鼻腔外。 在打通通道的同时,气流就冲击了阻挡它的部位,产生出不规则 振动的噪声波。这也就是语音中许多辅音的来源。
语音的物理属性—音长
音长指声音的长短,也就是声波延续的长度,它取决于发音体振 动持续的时间。在语音中,再长的音实际上也很短,音长一般决 定于发音动作持续的时间。 在四要素中,音高音强音色总是随着音波在时间上的延续表现出 来的,音长的变化往往会影响到音质音高和音强,语音中就常会 出现这种情况。如普通话的轻声,读轻声的字,声韵母的音质、 声调的音高、音节的强度都可能与读它的本调时不同,但造成轻 的决定性因素是音长缩短,轻声字音节的长度只有重读音节长度 的一半左右,这使得声韵调原有的音高音强音质来不及完全表现, 因而出现变化。
高于20kHz的信号称为超声波 (ultrasonic) 超声波及次声波一般不能引起人听觉器官的感 觉,但可借助一些仪器设备进行观察和测量
语音的物理属性—音高
ห้องสมุดไป่ตู้
音高指声音的高低,它取决于发音体振动的快慢。发音体振动越 快,发出的声音越高,反之声音则低。 物体每秒钟振动的次数叫频率,声学把频率作为测定物体振动快 慢与声音高低的标准。 说声音的频率高就是说发音体在单位时间里振动次数多,它振动 得快,发出的声音高,而频率低也就表示声音低。 频率的高低是由物体自身的质量、松紧度、长短等项因素决定的, 大而沉、粗而厚、长而松的物体振动慢,音低;小而轻、细而薄、 短而紧的物体振动快,音高。 语音的高低则与声带的长短、厚薄、松紧有关。通常,儿童和一 般妇女的声带比成年男子的声带短而薄,所以声音高;而声音低 的人声带相对说长而厚,如成年男子,女中、低音声乐演员,老 人等。同一个人发出的声音有高低变化,则是靠控制声带的松紧 来调节的。
语音的生理属性
人体没有专门用来发音的器官,起发音作用的是呼吸器官和 消化器官的一部分,它们的协同动作产生了语音。了解这部 分器官的构造、活动方式及对语音的作用,是正确发音、辨 音的基础。
语音的生理属性—发音器官
发音器官可分三部分。
1 肺和气管
肺部呼吸产生的气流是发音的动力,气流通过气管送到喉头,冲 击声带或其他发音器官,使之振动,发出声音。肺本身不能自由扩张收缩,是 依靠胸部腹部肌肉群的活动来进行呼吸的。这些肌肉群的活动还可以控制肺部 吸入气流量的大小、呼出气流量的强弱及持续时间,影响声音的强弱与长短。 2 喉头和声带 气管的顶端接着喉头。喉头由几块软骨及它们相连的肌肉、韧 带组成,是个能活动的管腔体,声带就长在喉头中间。声带是一对唇形的韧带, 边缘很薄,富有弹性。它一端合并固定在甲状软骨上,不能分开;另一端分别 附在两块杓状软骨上。杓状软骨小而灵活,能在肌肉牵引下转动,使声带拉紧 或放松,闭合或打开。声带中间的空隙叫声门,声门有四种常见状态,⑴正常 呼吸状态,声门敞开,略呈三角形;⑵深呼吸状态,声门大开呈菱形;⑶耳语 状,声带前半闭合后半接近,杓状软骨之间形成三角形空隙,叫气声门,气流 从这里擦出,基本不触及声带;⑷发音状态,杓状软骨转动向一起合,声带也 并拢,声门关闭
语音的物理属性—音质
从音波的产生上看,造成不同音质的发音条件有三种:
发音体不一样,口琴和笛子的音质不同,因为口琴的发音体是金属
簧片,笛子的发音体是竹膜。 发音方法不一样,拍手掌发出的是“啪啪”声,两手掌来回搓发出 的是“擦擦”声。在语音中,用阻碍气流的方法发出的是辅音,用 不阻碍气流的方法发出是就是元音。 共鸣器形状不同。共鸣器有自己的振动频率,它会同跟自己频率相 同或相近的音波产生共振,把它加强,其它频率的音波就会被抑制 或消耗。不同形状的共鸣器频率不一样,即使是对同一束复合音波, 产生的共振结果也不一样。对于语音来说,口鼻腔就是共鸣器,一 个人不断改变口形就会发出不同的音。
语音信号数字处理
张力
参考数目:《语音信号数字处理》杨行峻 《语音信号处理》 易克初
绪论
数字语音处理的概念
语音的基本特征 数字语音处理的发展 课程内容以及安排
前言
耳聪目明 听说读写 语音和图像——重要的感知媒体 对语音和图像的分析处理 ——媒体计算的主要研究对象和内容 语音:新一代自然人机交互的关键之一 信号处理——模式识别——人工智能
语音的定义
语言的声音同它所代表的意义是相互依存的统一体,一方面,发 音器官发出的声音必须同意义紧密结合、成为一定意义的代表, 才能成为语音;另一方面,意义必须借助声音才能成为可被人感 知、被人接受的东西,没有声音,意义便无法表达出来。 语音是一种具有多重属性的声音。首先,它同自然界其他声音一 样,是由物体振动产生声波而形成的一种自然现象,所以它具有 物理的属性方面的自然属性。语言又是人类的生理现象,发音是 人体器官的动作。因此,它同时具有生理属性。作为语言这一特 殊社会现象的物质基础,语音又具有社会属性,这是语音的本质 属性。我们在分析语音现象的时候,这三种属性都会涉及到。
语音信号处理的概念
语音信号处理简称语音处理,是以语音学和数 字信号处理为基础而形成的一门综合性学科, 处理的目的是要得到一些语音参数以便高效 的传输或存储,或者通过处理的某种运算以 达到某种用途的要求,例如人工合成出语音, 辨识出说话者,识别讲话的内容等。 它包括语音编码、语音合成、语音识别和说话 人识别四大分支。