【CN109767790A】一种语音情感识别方法及系统【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910173689.0
(22)申请日 2019.02.28
(71)申请人 中国传媒大学
地址 100000 北京市朝阳区定福庄东街1号
(72)发明人 巩微 范文庆 金连婧 伏文龙
黄玮
(51)Int.Cl.
G10L 25/63(2013.01)
G10L 25/30(2013.01)
G10L 25/45(2013.01)
(54)发明名称
一种语音情感识别方法及系统
(57)摘要
本发明公开一种语音情感识别方法及系统。
所述识别方法包括:获取语音信号;预处理所述
语音信号,获得预处理语音信号;计算所述预处
理语音信号对应的语谱图;计算多个不同语段长
度的所述预处理语音信号的情感识别率,将所述
情感识别率最高对应的语段长度确定为最佳语
段长度;根据所述最佳语段长度对应的语谱图提
取所述语音信号的声学特征;将所述声学特征采
用卷积神经网络分类识别所述语音信号的情感。
采用基于语谱图和卷积神经网络的语音情感识
别方法提升了语音情感识别率。权利要求书3页 说明书6页 附图1页CN 109767790 A 2019.05.17
C N 109767790
A
1.一种语音情感识别方法,其特征在于,所述识别方法包括:
获取语音信号;
预处理所述语音信号,获得预处理语音信号;
计算所述预处理语音信号对应的语谱图;
计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;
根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;
将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。
2.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述预处理所述语音信号,获得预处理语音信号具体包括:
将所述语音信号经过数字化处理,获得脉冲语音信号;
将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;
将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;
将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。
3.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述计算所述预处理语音信号对应的语谱图具体包括:
获取所述预处理语音信号的采样频率F s 、采样数据序列S g 和语段长度;
根据所述语段长度和窗函数的窗长N new 将所述预处理语音信号分为N段,获得N段语音信号;
根据所述语段长度和所述N段语音信号计算帧移N sfgtft ;
对第i帧语音信号S i 加窗处理,获得加窗语音信号S i ′,
S i ′=S i ×hanning(N new ),其中i的取值为1,2,......,N;
将所述加窗语音信号S i ′进行傅里叶变换,获得傅里叶变换语音信号Z i ;
根据所述傅里叶变换语音信号Z i 的相位θi 计算所述第i帧语音信号S i 的能量密度函数|Z i |2;将所述窗函数进行N sfgtft 个帧移,获得第i+1帧语音信号S i+1的能量密度函数|Z i+1|2;
获得一个[N new /2]+1行、N列的矩阵R;
将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。
4.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述将所述声学特征采用卷积神经网络分类识别所述语音信号的情感具体包括:
所述语谱图采用卷积神经网络的卷积层处理,
三维的所述语谱图转换为N个二维特征;其中,b j 为能够训练的偏差函数,k ij 为卷积核,x i 表示输入的第i段语谱图;y i 表示输出的第i段语谱图对应的二维特征;
将所述输出的第i段语谱图对应的二维特征y i 通过池化层处理,获得低分辨率声学特征y i ′;
所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全
权 利 要 求 书1/3页2CN 109767790 A