多媒体会议中新型快速实时混音算法
计算机音乐处理的实时混响与声音空间设计
![计算机音乐处理的实时混响与声音空间设计](https://img.taocdn.com/s3/m/3f662e6b7275a417866fb84ae45c3b3567ecddc6.png)
计算机音乐处理的实时混响与声音空间设计计算机技术的快速发展为音乐创作和制作带来了许多新的可能性。
其中,实时混响和声音空间设计作为音乐处理的重要组成部分,为音乐创作者提供了丰富多样的声音效果和音乐体验。
本文将重点探讨计算机音乐处理中的实时混响和声音空间设计,并展示其在音乐创作与制作领域中的应用。
一、实时混响实时混响是指通过计算机软件实时模拟各种不同的混响效果,为音频信号增添逼真的仿真空间感。
通过增加混响效果,音乐作品可以创造出更加宏大、立体、逼真的音乐环境,使听众获得身临其境的感觉。
在计算机音乐处理中,实时混响通常采用数学模型和算法来模拟真实环境中的声学特性。
从听觉感知的角度来看,混响效果主要包括混响时间、混响音色和混响空间尺寸等方面。
通过调整这些参数,音乐创作者可以根据不同的音乐风格和创作目的,精确地定制所需的混响效果。
在实际应用中,计算机软件提供了各种各样的实时混响效果库和预设,供音乐创作者选择和调节。
通过合理地运用实时混响技术,音乐制作人可以将音乐创作的空间感和立体感推向一个新的高度,让听众在欣赏音乐时获得更加深入的体验。
二、声音空间设计声音空间设计是指通过技术手段将音频信号布局在虚拟声场中的过程。
通过合理的声音空间设计,音乐创作者可以将不同的声音元素放置在适当的位置,创造出更为逼真、立体的音乐效果。
在声音空间设计中,常用的技术手段包括声音定位、声音分布和声音运动等。
通过控制声音的位置、传播路径和运动轨迹,音乐创作者可以创造出多维度的声音效果,使听众获得更加沉浸式的音乐体验。
计算机音乐处理软件提供了丰富多样的声音空间设计工具和效果库,可以实现对声音定位、运动和分布等方面的精确控制。
音乐创作者可以根据音乐作品的需求,灵活运用这些工具,打造出独特的声音空间效果。
三、实时混响与声音空间设计的应用实时混响和声音空间设计在音乐创作和制作中有着广泛的应用。
以下是几个经典例子:1.音乐制作:通过实时混响和声音空间设计,音乐制作人可以为音乐作品创造出不同的空间感。
一种新的多媒体会议实时混音方案
![一种新的多媒体会议实时混音方案](https://img.taocdn.com/s3/m/dd9363692a160b4e767f5acfa1c7aa00b52a9da0.png)
一种新的多媒体会议实时混音方案周敬利;马志龙;范晔斌;陈小平【期刊名称】《小型微型计算机系统》【年(卷),期】2009(30)1【摘要】多媒体会议中多点控制单元(multi-point controlling unit,简称MCU)在多点会议中提供音频、视频和数据等的集中处理能力,其中音频处理能力是最基本的,也是实时性要求最高的要素.针对多点多媒体会议的实际应用需求,归类并分析了多种自适应多点语音混合处理方案,提出了采用自动门限和通道压缩处理的高性能混音方案.该方案主要针对人耳听觉的特点,首先去除掉会议中人耳无法分辨的通道,提高混音信噪比;然后对剩下的通道进行语音能量压缩,在保证混音结果不溢出的同时使得输出的语音能量比较稳定,具有良好的听觉主观舒适感.同时,这套方案具有较低的算法复杂度,使用DSP等硬件较易实现,可以广泛应用在多媒体会议系统的实现中.【总页数】4页(P169-172)【作者】周敬利;马志龙;范晔斌;陈小平【作者单位】华中科技大学,计算机科学与技术学院,湖北,武汉,430074;华中科技大学,计算机科学与技术学院,湖北,武汉,430074;华中科技大学,计算机科学与技术学院,湖北,武汉,430074;华中科技大学,计算机科学与技术学院,湖北,武汉,430074【正文语种】中文【中图分类】TP393【相关文献】1.一种新的基于改进实时双通滤波器的信号数字积分方案 [J], 冯坤;马波;江志农2.Novell Netware IPX协议下实时通信的一种新的实现方案 [J], 喻勇;何子丹3.一种新的基于B/S架构的窄带实时图像传输方案 [J], 周颢;戚飞虎4.多媒体会议中的快速实时自适应混音方案研究 [J], 樊星;顾伟康;叶秀清5.一种多媒体会议系统的实时同步混音转发算法 [J], 李宇;郭雷勇;陈建铭;谭洪舟因版权原因,仅展示原文概要,查看原文内容请购买。
音频工作站MPEG-Ⅰ Layer-Ⅱ码流快速解码混音
![音频工作站MPEG-Ⅰ Layer-Ⅱ码流快速解码混音](https://img.taocdn.com/s3/m/2b5be0064a35eefdc8d376eeaeaad1f3469311fc.png)
音频工作站MPEG-Ⅰ Layer-Ⅱ码流快速解码混音
肖熙;李健
【期刊名称】《电声技术》
【年(卷),期】2003(000)002
【摘要】为了能实时完成数字音频工作站中多路MPEG-Ⅰ Layer-Ⅱ音频压缩码流的快速解码混音,在分析MPEG-Ⅰ解码器中的多相滤波器组这个核心算法的基础上,提出了多路MPEG-Ⅰ Layer-Ⅱ码流的快速解码混音算法.此算法在进行混音计算时,只需做一次在解码中较为费时的子带综合滤波计算,大大提高了多路混音的速度.实验表明,用该算法进行8路MPEG-Ⅰ Layer-Ⅱ解码混音时,在PI-Ⅱ 600MHz 的PC机达到了0.25倍实时的解码速度,完全满足了专业数字音频工作站的要求.【总页数】4页(P7-10)
【作者】肖熙;李健
【作者单位】清华大学电子工程系,北京,100084;清华大学电子工程系,北
京,100084
【正文语种】中文
【中图分类】TN912
【相关文献】
1.基于MPEG- 4码流的数字视频水印算法 [J], 田玉敏;曲蕴慧;万波
2.MPEG-2AAC多路音频解码混音的设计 [J], 叶小玲;张凯;张颖超
3.CEVA音频DSP支持
Dolby MS12多码流解码器已获认证 [J],
4.TensilicaHiFi音频DSP成为首个支持DolbyMS10多码流解码器的IP核 [J],
5.Tensilica HiFi音频DSP成为首个支持Dolby MS10多码流解码器的IP核 [J],因版权原因,仅展示原文概要,查看原文内容请购买。
多媒体会议中新型快速实时混音算法
![多媒体会议中新型快速实时混音算法](https://img.taocdn.com/s3/m/884624d97f1922791688e85b.png)
第29卷第3期2007年3月电子与信息学报JournalofElectronic8&InformationTbchn0109yVbl.29No.3Mar.2007多媒体会议中新型快速实时混音算法王文林廖建新朱晓民沈奇成(北京邮电大学网络与交换技术国家重点实验室北京100876)摘要:混音处理是多媒体会议系统中的一个关键环节,直接影响用户之问的相互交流。
现有常用的混音算法巾存在着音量突变的问题,通过对这些混音算法的分析,得出了变化的混音权重是导致音量忽大忽小的主要原因的结论。
在此基础上,该文提出了一种采用与混音输入无关的恒定混音权重的非均匀波形收缩混音算法,该算法混音结果自然流畅,避免了音量突变的问题。
该算法运算简单,速度快,没有乘除法操作,容易硬件实现。
可以广泛应用于大规模的多媒体会议系统中。
关键词:多媒体会议;音频处理单元;非均匀;波形收缩;混音中图分类号:TN919.8文献标识码:A文章编号:1009.5896(2007)03.0690.06ANoVelFhstReal-Ti】meAudioM奴iIlgAlgorithm‘inMulti]mediaConferenceWangWbn—linLiaoJian-xinZhuXia伊minShenQi—wei(&o钯‰∥工n6.o,^kt叫D嘲礼9口凡d鼬itc九i佗9死c^.,Be彬哪咖饥o,PDs幻口砌死把cDmm.,Be彬叼100876,∞{nn)Abstmct:Inmultimediaconference,audiomi)cingi8an_es8entialcomponent,whichaff&tsthecommunicationbetween118er8.Atpresent,thecommonly瑚edaudiomi)【ingalgorithmshaveproteanVolume.ByanalyziI培thosealgorith瑚,theconclusionofmutativemi)【ingⅥreights七ringonproteanvolumeisdrawn.Basethis,anovelalgorithmn砌edAsymmetric8l、)Vrave-Shrinking(AWS)i8prop08ed.Af-Ⅸedmi)【ingweightindependentofinput8i8瑚edtothenatllralandnuentoutput8withoutproteanvolume.Withoutmultiplicationanddivisionoper8tio珊,thealgorithmi88impleandf缸tthatitcanbeeasilyimplementedbyhard、视reandwidelyappliediIllarge8caleIImltimediaconferenceBystems.Keywords:Multimediaconference;APu(AudioProce88unit);A8ymmetrical;Ⅵ‘孙静·shriIll【ing;Audiomi)(ing1引言近年来,多媒体会议成为多媒体通信发展的热点之一。
多媒体会议中的快速实时自适应混音方案研究概要
![多媒体会议中的快速实时自适应混音方案研究概要](https://img.taocdn.com/s3/m/d27f3928bb68a98271fefaa3.png)
樊星等:多媒体会议中的快速实时自适应混音方案研究 113 5 实验结果我们选取有代表性的两种算法进行实际实验,一种是根据文献[1]改进的 ABW 方法实现,另一种是本文提出的 ASW 方法实现.首先我们从合成后音频输出的波形上来分析合成效果及其听觉感受. 我们比较图 4(c和图 4(d的波形,容易看出,当两路输入中有一路很弱而另一路较强时,ASW 方法的混音结果明显优于 ABW 的结果.从整体上看,ABW 输出的波形毛刺明显多于 ASW 的输出.从波形的包络上看,ASW 输出波形的包络明显地与两路输入的包络叠加更为接近 ;而 ABW 输出波形的包络则变形较大 ,这正是由于局部缩放因子引起的不良结果. 根据实际参与测试的测试人员的主观评价,ASW 输入的效果明显好于 ABW 的输出 .ASW 合成后的音频流连续、自然 ,没有跳音和断续的感觉 ,也没有爆破噪声 .ABW 合成后的音频流虽然很少有爆破噪声 ,但是有比较大的空洞感 , 同时由于分段缩放的因子取值各有不同 , 所以输入音频流会产生突然性的音量大小变化 . 综上 , 我们可以看出本文提出的 ASW 模型明显改善了文献[1]提出的 ABW 模型的缺陷. (a Decoded audo input 1 (a 解码后的语音输入 1 (b Decoded audo input 2 (b 解码后的语音输入 2 (c Two stream mixed output by ABW (c ABW 方法两路混音处理后的结果 (d Two stream mixed output byASW (d ASW 方法两路混音处理后的结果 Fig.4 图4 我们的具体测试方法是 ,通过更改参与混音人数来测试不同混音路数的混音器实时运行特性 .实验时 ,语音数据取 1 000 帧,每帧 120 个采样点(240 Bytes,共执行 10 次,总时间长度为 150s.每次运行Intel(R VTune(TM Performance Analyzer 7.0,在最后的输出结果中取语音混合函数的“Self Time”和“Total Time”两个指标 ,将结果记录下来,并计算出平均每个采样点所消耗的时间. 从实验结果上可以看出 ,随着混音路数的增加 ,每个采样点平均消耗时间的增加很缓慢 ,而且非常接近一个114 混音单元的计算时间消耗.如图 5 所示. Journal of Software 软件学报2005,16(1 图 5 中横轴表示混音器和混音单元中的混音路数,纵轴表示混音器和混音单元的时间消耗(µs,从图中我们可以看出 ,混音路数和混音的时间消耗呈近似线性关系 ;而且采用的两种方法的性能相差很大 .随着混音路数的增加,采用 ASW 模型的混音方案的性能改善也越发明显,这表明,基于 ASW 合成模型的方案完全适用于人数较多的混音环境. 25 Time consumption of AMP based on ASW model Time consumption of AMP based on individual APU model Time consumption of individual APU 20 15 10 5 0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Fig.5 Comparison of test results 测试数据比对图示图5 表 2 中的算法是采用独立的混合单元建立的混音器模型,我们可以看出,其时间消耗随着参与混音点数的增加而急剧上升.我们再看采用图 3 所示的 ASW 模型实现的混音器的测试结果,见表 3.容易看出,采用 ASW 模型实现的混音器的时间消耗随着参与混音点数的增加上升很平缓. Table 2 表2 Input num. 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Run times 10 10 10 10 10 10 10 10 10 10 10 10 10 10 Frames 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 Samples 120 120 120 120 120 120 120 120 120 120 120 120 120 120 Time consumption of AMP based on individual APU model 基于独立混音单元模型实现的混音器的时间消耗 Call times 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 Selfs time (s 64 213 66 298 71 312 72 335 73 917 80 750 81 857 86 058 94 193 94 355 90 438 98 889 97 100 100 228 Total time (s 487 297 499 533 813 385 861 305 949 241 1 051 979 1 108 437 1 253 319 1 362 439 1 398 307 1 448 525 1 490 533 1 539 408 1 669 526 Comsumption of APU per sample (s0.406 080 833 0.416 277 5 0.677 820 833 0.717 754 167 0.791 034 167 0.876 649 1670.923 697 5 1.044 432 5 1.135 365 833 1.165 255 833 1.207 104 167 1.242 110 8331.282 84 1.391 271 667 Comsumption of AMP per sample (s2.040 600 832 2.759 208 333 4.784 679 165 5.815 313 336 7.204 922 503 8.813 540 003 10.281 407 5 12.624 123 33 14.789 645 83 16.355 43 18.141 569 17 19.914 502 5 21.916 711 67樊星等:多媒体会议中的快速实时自适应混音方案研究 Table 3 表3 Input num.3 4 5 6 7 8 9 10 11 12 13 14 15 16 Run times 10 10 10 10 10 10 10 10 10 10 10 10 10 10 Frames 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 115 Time consumption of AMP based on ASW model 基于 ASW 模型实现的混音器的时间消耗 Call times 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 Selfs time (s 228 399 284 890 339 689 392 104 415 897 498 878 545 231 615 581 671 477 729 800 791 654 856 685 899 598 955 423 Total time (s 783 174 942 969 1 150 032 1 255 496 1 395 979 1 738 713 1 919 448 2 118 067 2 322 645 2 482 225 2 667 262 2 999 607 3 161 552 3 347 876 120 120 120 120 120 120 120 120 120 120 120 120 120 120 Comsumption of APU per sample (s 0.652 645 0.785 807 5 0.958 36 1.046 246 667 1.163 315 833 1.448 927 5 1.599 54 1.765 055 833 1.935 537 5 2.068 520 833 2.222 718 333 2.499 672 5 2.634 626 667 2.789 896 667 Samples 6 结论综上所述 ,不仅在一般的应用场合,基于 ASW 合成模型的混音方案能够满足实际需求 ,而且在具有高并发量要求的混音时使用 ASW 模型也能获得高质量的实时混音结果.它不仅保证了在多点混音时的高性能,具有很高的实时性 ,同时它也保持了参与混音的各路输入的时域细节特征 ,因而具有很好的听觉主观舒适感和连续感 . 相对于近年来提出的一些语音混合算法[1,7],算法性能和输入效果都有明显的改善. References: [1] [2] [3] [4] [5] [6] [7] Yang ST, Yu SS, Zhou JL. A multipoint real-time speech mixing and scheduling algorithm based on packet networks. Journal of Software, 2001,12(9:1413−1419 (in Chinese with En glish abstract. Daigle JN, Langford ID. Model for analysis of packet voice communications systems. IEEE Journal on Selected Areas in Communications, 1986,4(6:847−855. Venkat RP, Harrick MV, Srinivas R. Communication architectures and algorithms for media mixing in multimediaconferences. IEEE/ACM Trans. on Networking, 1993,1(1:20−30. Agustín JG, Hussein AW. Audio mixing for interactive multimedia communications. In: Wang P, ed. Proc of the JCIS’98. NC: Research Triangle, 1998. 217−220. ITU-T. Packet-Based multimedia communication system. ITU-T Rec H.323 v4, 2000. Schulzrinne H, Caner S, Frederick R, Jacobson V. RTP: A transport protocol for real-time applications. IETF RFC 1889, IETF, 1996. Tu WP, Hu RM, Ai HJ, Xie X. Audio MP in video conference. Geomatics and Information Science of Wuhan University, 2002, 27(1:98−101 (in Chinese with English abstract. 附中文参考文献: [1] [7] 杨树堂 ,余胜生 ,周敬利 .基于分组网络的多点实时语音混合及调度算法 .软件学报,2001,12(9:1413−1419. 涂卫平 ,胡瑞敏 ,艾浩军 ,谢兄 .视频会议中音频多点处理的研究 .武汉大学学报 (信息科学版,2002,27(1:98−101.。
基于会议系统混音算法的研究与应用
![基于会议系统混音算法的研究与应用](https://img.taocdn.com/s3/m/6804f1f8f61fb7360b4c65d4.png)
i=0 , 1 , …, Ⅳ 一1
( 1 )
⑨6 @ @可@@ 响 响@0 ⑥ V
重堡
基于会议系统混音 算法 的研究 与应用 ・ 算 法 研 究 ・
殷 晓虎, 周 娟, 张 静
( 西安 科 技 大 学
通 信 与 信 息工 程 学 院 , 陕 西 西安
7 1 0 0 5 4 )
【 摘
要 】在而解决 多路混音后的溢出噪声 问题 是语音处理 的核 心。
【 A b s t r a c t 】A u d i o p r o c e s s i n g i s v e r y i m p o t r a n t i n t h e m l u t i m e d i a c o n f e r e n c e s y s t e m . H o w t o s o l v e t h e p r o b l e m o f o v e r f l o w a f t e r
现有的混音算法存在 音量突变 的问题 , 通过对 其分 析 , 找 出 了最 主 要的原 因。在此基 础 上, 提 出 了一种 改进 的算 法—— 自对齐减 谱法 , 经仿真结果表 明: 该算 法消 除噪声效果更 明显 , 可用于多媒体视 频会议 系统 中。
【 关键词 】语音处理 ; 混音算法; 溢 出; 自对 齐减谱 法 【 中图分类号 】T N 9 1 2 【 文献标志码】A
a u d i o m i x i n g i s t h e c o r e o f a u d i o p r o c e s s i n g . No w,t h e e x i s t i n g a l g o r i t h ms h a v e a p r o b l e m w h i c h i s v o l u me c h a n g e . A s e l f—a l i g - n i n g s p e c t r a l me t h o d i s p mp os d o i n t h i s p a p e r b y na a ly z i n g t h e e x i s t i n g p r o b l e ms i n t h e a u d i o mi x i n g a l g o i r t h ms . T h e e x p e i r me n t l a r e s u l t s s h o w t h a t t h i s lg a o i r t h m h a s m o r e o b v i o u s d e n o i s i n g e f e c t s ,a nd i t c a n b e u s e d i n he t mu l t i me d i a c o n f e r e n c e s y s t e m.
实现高性能的音视频流媒体实时处理
![实现高性能的音视频流媒体实时处理](https://img.taocdn.com/s3/m/f561334803020740be1e650e52ea551810a6c9dc.png)
实现高性能的音视频流媒体实时处理随着互联网的迅速发展,音视频流媒体实时处理成为了现代社会不可或缺的一部分。
无论是在线直播、视频会议还是在线教育,音视频流媒体实时处理都扮演着重要的角色。
为了满足用户对高性能的需求,实现高性能的音视频流媒体实时处理变得至关重要。
本文将介绍实现高性能音视频流媒体实时处理的一些关键技术。
首先,高性能的音视频流媒体实时处理需要选用合适的编码/解码算法。
音视频数据量大,对网络带宽和计算资源的消耗较大。
因此,选择高效的编码/解码算法能够提高处理效率。
例如,H.264和H.265是常用的视频编码算法,能够在保证较高的视频质量的同时,显著减少数据量,提高传输效率。
同样地,对于音频编码,采用低延迟、高质量的编码算法,如AAC(Advanced Audio Coding)可以提供更好的用户体验。
其次,优化网络传输是实现高性能音视频流媒体实时处理的关键。
传输的延迟和稳定性对于音视频实时处理至关重要。
首先,选择合适的传输协议能够显著提高传输效率。
例如,使用UDP协议而不是TCP协议可以有效降低延迟,但需要结合丢包恢复和流量控制等机制来保证数据的可靠传输。
另外,利用CDN(内容分发网络)技术可以将音视频流媒体服务部署在全球各地的服务器,通过就近访问提高传输质量。
此外,高性能音视频流媒体实时处理还需要优化实时处理算法。
音视频流媒体实时处理的核心是实时编码/解码和实时传输。
因此,针对不同的应用场景,需要选择合适的实时处理算法来提高处理效率。
例如,在视频直播场景中,可以采用快速的帧间编码算法来减少编码延迟,同时结合实时传输协议来提高传输效率。
而在音频会议场景中,可以利用音频编解码技术和降噪算法,提高语音质量并减少传输时延。
最后,高性能音视频流媒体实时处理需要合理利用硬件加速技术。
硬件加速技术可以显著提高音视频流媒体实时处理的性能。
例如,利用GPU(图形处理器)可以加速视频编码和解码过程;利用DSP(数字信号处理器)可以加速音频编码和解码过程。
实时混音的实现
![实时混音的实现](https://img.taocdn.com/s3/m/48f3c5f59e31433239689383.png)
实时混音的实现<DIVid=content><scriptsrc="/mx/baid.js"><DIVid=viewad><scriptsrc="/a/lw.js">摘要本文主要讨论多路声音实时混叠的实现方法,以及实现过程中对一些特殊情况的处理。
关键词Wave混音混音器1.引言将多个Wave文件或多路Wave数据同时在Wave设备上输出,就可同时听到多个不同的声音,达到混音的效果。
如果是将多个不同端点的话音数据经局域网络传输到达某一个端点再经该端点的Wave设备输出,就能同时听到多个人的话音,从而实现局域网络中多方的话音交谈。
在网络上实现话音交谈,特别强调实时性,要尽量保证话音的平滑、连续,因此为了保证话音数据连续,减少话音数据存储带来的延时,在具体实现中,话音的录制和播放都不采用文件的形式,录制和播放的话音数据都存在缓冲区中。
在Windows系统中,一般情况下,高层Wave接口函数无法直接播放缓冲区中的话音数据,而必须用底层函数来实现,常用的是WindowsAPI中的Wave函数。
将Wave数据在Wave设备上输出使用的是WaveOutWrite函数,但是该函数不支持多路Wave数据的同时播放,为了能达到多路Wave数据同时播放的效果,对缓冲区中多路Wave数据进行必要的预处理后,再提交给Wave输出设备播放。
实现原理如图1所示。
图1多路Wave混音的实现原理2.实现原理实时地混音,就是将多路Wave数据进行相互叠加处理到另一个目的缓冲区,最终将该目的的缓冲区提交给Wave输出设备。
将每一路Wave数据作为一个单独通道,分别从每个通道取一数据片段,把取得的几个数据片段相互叠加,然后存进另外一个目的缓冲区中。
为了便于处理,缓冲区通常采用数组的形式存放Wave数据。
如果话音数据,采用采样频率1025Hz,8位单声道的数据格式,那么一秒的话音数据量为11025个字节。
一种新的网络电话会议混音算法
![一种新的网络电话会议混音算法](https://img.taocdn.com/s3/m/31634c29f78a6529647d53bf.png)
一种新的网络电话会议混音算法
摘要:混音处理在网络电话会议系统中起着举足轻重的作用,怎样解决混音中带来的溢出和噪声问题又是混音处理的核心。
通过对现有混音算法中存在问题的分析,提出了一种自适应减谱法,在不发生溢出现象的基础上,对语音信号进行傅里叶变换,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音频谱来降低噪声,再进行傅里叶反变换将其与混音权重相适应,使混音后的音质更清晰且流畅,避免了混音过程中的噪声问题,提高了混音后的质量,音质更接近于现场会议,可以应用于多媒体电话会议系统中。
关键词:混音;电话会议;自适应减谱法;傅里叶变换;功率谱。
一种多媒体会议系统的实时同步混音转发算法
![一种多媒体会议系统的实时同步混音转发算法](https://img.taocdn.com/s3/m/d854081b0812a21614791711cc7931b765ce7b04.png)
一种多媒体会议系统的实时同步混音转发算法
李宇;郭雷勇;陈建铭;谭洪舟
【期刊名称】《中山大学学报(自然科学版)》
【年(卷),期】2010(049)002
【摘要】在集中式多媒体音频会议中,混音算法决定了其混音输出语音质量的高低,而混音算法的实现要依靠同步混音转发机制的支持.对 Perkins提出的混音循环缓冲区进行分析,提出一种适用于集中式多媒体音频会议系统的实时同步混音转发算法.该算法通过设置多个循环混音缓冲区,并对其实施同步控制来实现音频数据的混音、转发功能,并利用反映操作系统调度情况的声卡缓冲区数据长度确定每次混音处理的数据长度,以减轻操作系统调度对混音的影响.实验验证了此算法的可行性和稳定性.
【总页数】6页(P31-36)
【作者】李宇;郭雷勇;陈建铭;谭洪舟
【作者单位】广东药学院医药信息工程学院,广东,广州,510006;中山大学信息科学与技术学院,广东,广州,510275;中山大学信息科学与技术学院,广东,广州,510275;中山大学信息科学与技术学院,广东,广州,510275
【正文语种】中文
【中图分类】TN919.8
【相关文献】
1.一种用于多媒体会议系统的通信带宽控制算法 [J], 蔡皖东;周兴社;康继昌
2.一种多路音频混音算法的实现与应用 [J], 胡斌
3.一种自动等响度数字混音算法 [J], 呼德;陈喆;殷福亮
4.一种新的网络电话会议混音算法 [J], 韩钰;普杰信
5.虚拟现实中一种基于运动混合的实时同步算法 [J], 王忆源;陈福民
因版权原因,仅展示原文概要,查看原文内容请购买。
基于分组网络的多点实时语音混合及调度算法
![基于分组网络的多点实时语音混合及调度算法](https://img.taocdn.com/s3/m/6fc9d5d29f3143323968011ca300a6c30c22f18c.png)
基于分组网络的多点实时语音混合及调度算法
杨树堂;余胜生;周敬利
【期刊名称】《软件学报》
【年(卷),期】2001(012)009
【摘要】平滑、流畅的语音交流是当前高性能视频会议系统追求的主要目标之一.为此,提出并实现了一种基于分组网络的多点实时语音混合及调度算法.调度算法采用了排队模型分析、多点语音流的同步控制、数据预取以及缓冲区定时刷新等策略,在有限的复杂度内有效地保证了混合后语音的连续性.同时,采用的混合方法保证了语音质量的自然度和可理解性.算法的实现使得在多点情况下,此H.323视频会议系统比现有国外同类H.323产品(如Netmeeting等)具有更好的语音听觉效果.
【总页数】7页(P1413-1419)
【作者】杨树堂;余胜生;周敬利
【作者单位】华中科技大学计算机外存储系统国家专业实验室;华中科技大学计算机外存储系统国家专业实验室;华中科技大学计算机外存储系统国家专业实验室【正文语种】中文
【中图分类】TP391
【相关文献】
1.分组网络环境下的实时语音质量客观评价 [J], 张军;张德运
2.基于RM与EDF的实时混合调度算法研究 [J], 黄仁;李建章;程平
3.基于分组网络的实时语音自适应同步算法 [J], 郭永冲;冯泽森;汤俊
4.基于分组网络的实时语音自适应同步算法 [J], 郭永冲;冯泽森;汤俊
5.基于时限单调算法的混合任务实时调度算法的研究与设计 [J], 张阳;董吉文因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第29卷第3期2007年3月电子与信息学报JournalofElectronic8&InformationTbchn0109yVbl.29No.3Mar.2007多媒体会议中新型快速实时混音算法王文林廖建新朱晓民沈奇成(北京邮电大学网络与交换技术国家重点实验室北京100876)摘要:混音处理是多媒体会议系统中的一个关键环节,直接影响用户之问的相互交流。
现有常用的混音算法巾存在着音量突变的问题,通过对这些混音算法的分析,得出了变化的混音权重是导致音量忽大忽小的主要原因的结论。
在此基础上,该文提出了一种采用与混音输入无关的恒定混音权重的非均匀波形收缩混音算法,该算法混音结果自然流畅,避免了音量突变的问题。
该算法运算简单,速度快,没有乘除法操作,容易硬件实现。
可以广泛应用于大规模的多媒体会议系统中。
关键词:多媒体会议;音频处理单元;非均匀;波形收缩;混音中图分类号:TN919.8文献标识码:A文章编号:1009.5896(2007)03.0690.06ANoVelFhstReal-Ti】meAudioM奴iIlgAlgorithm‘inMulti]mediaConferenceWangWbn—linLiaoJian-xinZhuXia伊minShenQi—wei(&o钯‰∥工n6.o,^kt叫D嘲礼9口凡d鼬itc九i佗9死c^.,Be彬哪咖饥o,PDs幻口砌死把cDmm.,Be彬叼100876,∞{nn)Abstmct:Inmultimediaconference,audiomi)cingi8an_es8entialcomponent,whichaff&tsthecommunicationbetween118er8.Atpresent,thecommonly瑚edaudiomi)【ingalgorithmshaveproteanVolume.ByanalyziI培thosealgorith瑚,theconclusionofmutativemi)【ingⅥreights七ringonproteanvolumeisdrawn.Basethis,anovelalgorithmn砌edAsymmetric8l、)Vrave-Shrinking(AWS)i8prop08ed.Af-Ⅸedmi)【ingweightindependentofinput8i8瑚edtothenatllralandnuentoutput8withoutproteanvolume.Withoutmultiplicationanddivisionoper8tio珊,thealgorithmi88impleandf缸tthatitcanbeeasilyimplementedbyhard、视reandwidelyappliediIllarge8caleIImltimediaconferenceBystems.Keywords:Multimediaconference;APu(AudioProce88unit);A8ymmetrical;Ⅵ‘孙静·shriIll【ing;Audiomi)(ing1引言近年来,多媒体会议成为多媒体通信发展的热点之一。
在多媒体会议中,音频交流最为频繁,实时性的要求也远远高于视频及数据,是多媒体会议中最基本的要素。
为了具有更好的会议临场感.与会者希望能同时听到多个发言者的声音。
在分散控制会议模式下,每个发言者的语音信号都单独传送给每个与会者,在终端处进行混音后再播放,这种方式需要占用大量的网络带宽,影响语音信号的QoS(QualityofSer、rice),并对终端有较高的要求。
为此,ITU-T提出了集巾控制会议模式%在Mcu(Multipointcontrolun“)中对来自各发言者的语音信号进行混音处理,再将结果传送到每个与会者,极大地降低了网络传输的负担和终端的处理能力【2lo目前各种混音算法都有其难以弥补的缺陷和不足,很难2005-08-18收到,2006-01.03改回国家杰出青年科学基金(60525110),新世纪优秀人才支持计划(NCET.0垂0111),高等学校博士学科点专项科研基金(20030013006),国家移动通信产品研究开发专项基金和电子信息产业发展基金资助课题满足大规模会议的应用。
文献【3】中的平均混音算法随着混音路数的增加音量急剧降低;文献【4,5】提出的对齐混音算法在混音过程巾会出现明显的音量忽大忽小的变化;文献【6】提出的自对齐混音算法则引入了部分噪音,并且音量偏小;实际应用较多的箝位混音算法17】也存在音量突然变化情况。
本文基于H.323多媒体会议中集中式会议工作模式,提出一种新型的快速实时混音算法,采用与混音输入无关的恒定混音权重,杜绝音量变化,复杂度低,基本不引入噪音,且速度快,极易于软硬件实现。
2混音处理过程根据ITU.T的H.323规范,在MCU中有MC(MultipointController)和MP(MultipointPmce880r)两.大核心模块.其中MP提供音频、视频和数据的集中处理能力,划分为AMP(AudioMP),VMP(VideoMP)和DMP(DataMP)3大模块。
其中的AMP包括了多个APU(AudioProces8ingUnit),分别对应一个会议,各APU之间独立并行工作。
APU的结构如图1所示16J. 万方数据第3期王文林等:多媒体会议中新型快速实时混音算法691H缓冲器1H解码器1卜.叫编码器1_缓冲器2H解码器2卜.一编码器2混音器一编码器ⅣIH缓冲器ⅣH解码器吖卜-一编码器Ⅳ+lIoL…………………………!图l音频处理器结构图在H.323集巾控制模式下,每个与会终端与MCU建立双工单播连接,实时与MCU交换数据流。
其中音频流的编码格式可以采用G.71l,G.722,G.723.1,G.728和G.729编码规范,与AMP中的某一个APU相连,APU.中的Buffer作为抖动缓冲使用,可以在一定的程度上减少由传输导致的丢包、顺序不一致和抖动带来的影响。
经过缓冲的音频还必须经过相应解码器处理后才能由混音器进行混音,混音完成后,再根据输出终端不同采用相应编码器进行编码。
所以。
混音一般以音频流的一帧为单位进行处理。
·3混音原理原理1声音是由于物体振动对周围的空气产生压力而传播的一种压力波,转换成电信号后,再经过抽样、量化,仍然是一种连续平滑的波形信号。
原理2量化后的语音信号的频率与声音的频率对应,振幅与声音的音量对应。
原理3量化的语音信号的叠加等价于空气中声波的叠加。
所以当各信号的抽样率一致时,混音可以实现为将各信号的采样数据线性叠加。
在上述的ITU.T的G.7)()【系列编码规范巾,只有G.722的抽样率是16000。
其它规范的抽样率是8000。
如果要将G.722解码器的输出与其他解码器的输出混音,只需要隔位丢弃采样数据即可。
假设在会议t,中,有M路音频参与混音,在时刻t第i(待1,2,…,蚴路音频解码输出的数据为Ⅱl(t),其值域为【一2‘}一,2Q一一1】,其中0是量化精度。
要求有^r+1路编码输出,通常Ⅳ-从不失一般性,可以约定第如=1,2,…,岣路输出数据为6,(t),其巾6l(t)是除0l(t)外其他肛l路的混音输出,而%+1(£)则是全部M路的混音输出,则6J(£)=∑G,(£)'歹=1,2,…,M;%+l(t)=∑q(t)(1)‘=l,l薯J由式(1)可知,6,(t)的值域不再是【-2Q~,2Q一一1】,产生了溢出,破坏了语音信号的特征参数,从而引入了噪音。
随着Ⅳ的不断增大,发生溢出的频率不断上升,一般来说,在M兰4时,溢出引入的噪音过大将导致混音后的语音无法辨认。
所以,混音算法的难点在于如何处理混音后采样值溢出问题。
4已有混音算法分析目前混音后采样值溢出处理方案较多,但基本思想一致,即根据原理2对语音信号的振幅做一定的平滑处理,即可以在不破坏(或基本不破坏)语音信号原有的频率的基础上避免溢出.故有6J(£)=∑毗.j(£)q(£),歹=1,2,…,Mi;1.‘#』Ⅳ‰+l(£)=∑毗肌。
(t)口。
(£)几乎所有的算法都由式(2)而来,其中%(z)称为混音权重,不同算法之间的区别往往仅仅是权重不相同。
(1)平均算法平均算法(a_verageaudiomi)cingalgorithm,简称V算法)最为简单,就是将采样数据线性叠加后取平均值【31'所以其混音权重函数如下:‰∽=击,i茹¨,歹=1'2'..·,M%㈣∽=击,江1,2,…,M该算法的实质是将各路语音的音量减少了肛1(或∽倍,所以随着M的增大,各路语音的衰减将愈加严重,最终导致语音细不可闻。
而且,随着会议的进行,发言者数量吖不断变化,则叫(曲也不断变化,导致音量忽大忽小甚至声音断续,影响语音效果。
所以V算法实际应用受到很大的限制,无法适应大规模会议的混音需求。
(2)对齐算法文献【4】中的混音算法是一种典型的对齐算法(alignaudiomi)【ingalgorithm,简称A算法),该算法令各路音频流当前混音帧巾采样值的绝对值的最大值为TotalMax,累加结果中采样值的绝对值的最大值为MiXedMax。
即T。
talMaXj。
tE【r'n毯阳(M1)tE【r,r+4t1'l≠,、I…17TotalMax黼2。
In粉。
l(№)I)M妇dM吗=吲#粉。
(№)I)其中r为该混音帧的起始时刻,4t为帧的长度。
而混音权重如式(5),其中易∈【l,Mi)cedMaX,/TotalMaxf】,用来调整最终输出混音结果的值。
但文献【41没有考虑到MixedMax。
可能大于极限值2口一一1,此时只能取厶∈【l,(2口~一1)/TotalMax;),否则将导致溢出。
.%,(力=差易,i=1'2'…,肘,歹=1’2,…,肘+1(5)文献[51提出的混音算法与A算法类似,但每一路语音有各自的权重,所以能将低强度信号加强,增大其可识别度, 万方数据电子与信息学报第29卷但是也会将一些背景噪音放大,其混音权重如式(6)所示。
maxfIo.f外|1蚶)=焉箸,江1J2,…,州-1'2'…,肌l(6)A算法有着不可避免的缺陷。
第一,混音权重与各路音频采样值的最大值相关,所以在计算时导致采样值需要处理两次。
第二,在实时混音过程中,连续两个混音帧的混音权重不同,这同样会导致音量忽大忽小。
第三,随着混音路数M的变化,权重也不断变化,导致音量变化。
所以A算法并不能满足实时会议混音的需求。
(3)箝位算法箝位算法(pincer8audiomi)【ingalgorithm,简称P算法)引入了一个初始值为1的筘位因子‘17J'混音权重表示为叫l,,(t)=‘,其中i≠幺亡=1,2,…,尬卢1,2,…,埘+1。