相关系数在脉冲噪声环境下的稳健性综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关系数在脉冲噪声环境下的稳健性综述
徐维超;马如豹
【摘要】作为相关分析的重要工具,相关系数在众多科学与技术领域中都得到了
广泛的研究和应用。
基于文献中两种常用的二元混合高斯模型,本文回顾和对比了5种相关系数分别在单通道以及双通道中存在脉冲噪声时的稳健性。
定量的研究结果表明,在脉冲噪声环境下,文献中最为常见的皮尔逊积矩相关系数性能急剧恶化。
而另外4种相关系数则在两种噪声模型下均表现出良好的抗干扰能力。
%As an important tool in correlation analysis, correlation coefficients have been extensively stud-ied and applied in many science and engineering
fields.Based on two commonly used bivariate contami-nated Gaussian models, this paper reviews and compares the robustness of five correlation coefficients in environments with single-channel and double-channel impulsive noise, respectively.Theoretical results indicate that the most popular Pearson′s Product Moment Correlation Coefficient is very sensitive to impul-sive noise interference.On the other hand, the other four coefficients demonstrate their robustness against impulsive noise in the two models.
【期刊名称】《广东工业大学学报》
【年(卷),期】2015(000)003
【总页数】4页(P1-4)
【关键词】皮尔逊积距相关系数;斯皮尔曼秩次相关系数;肯德尔秩次相关系数;基尼相关;皮尔逊秩变量相关系数;脉冲噪声;混合高斯模型
【作者】徐维超;马如豹
【作者单位】广东工业大学自动化学院,广东广州510006;广东工业大学自动化学院,广东广州510006
【正文语种】中文
【中图分类】O212.4;O211.5
相关分析是从19世纪80年代发展起来的探讨随机变量之间统计关系的研究课题[1], 目前仍然是统计信号处理领域中的研究重点与难点. 所谓相关, 是两个随机变量或信号之间的统计关系强弱程度的度量. 具体来说, 如果一个随机变量随着另外一个随机变量的增大(减小)而增大(减小),则该两个随机变量满足正相关关系;反之,如果一个随机变量随着另外一个随机变量的增大(减小)而减小(增大),则该两个随机变量满足负相关关系[2].
文献中经典的相关系数有3种, 分别是由统计学奠基人Pearson 提出的积矩相关系数(Pearson′s Product Moment Correlation Coefficient,PPMCC)[3-5],心理学家Spearman提出的斯皮尔曼秩次相关系数(Spearman′s rho, SR)[6], 以及统计学家 Kendall 提出的肯德尔秩次相关系数(Kendall′s tau, KT)[6].基于众多研究者的努力,这3种经典相关系数在二元高斯模型下的统计特性已基本明确.统计学家Fisher 发现了PPMCC在二元高斯模型下的概率密度函数的精确表达式, 并且证明了PPMCC是母体相关系数的渐近无偏最优估计, 其方差在样本数足够大时达到Cramer-Rao 下限[4,7]. 除了上述理论上的优点,PPMCC的算法复杂度与数据长度成正比, 运算速度快, 可以满足实时性的要求. 因此, PPMCC在各领域的应用中都
占据了主导地位.与PPMCC不同, 在二元高斯模型下, SR和KT的概率密度函数无法求得. 在Kendall等一批统计学家的努力下,SR和KT的均值和方差的表达式已经推导出来[8-12]. 徐维超等证明了SR和KT相对于PPMCC的渐近相对效率(Asymptotic Relative Efficiency, ARE)最多达到 91%[13]. 然而, 由于只用到样本的排序信息(秩次), SR 和KT 在单调非线性变换下性能保持不变, 因而更适应于一
些非线性的场合[13].
除了3种经典的相关系数之外, 其他相关系数, 如基尼相关(Gini Correlation, GC)[14]和皮尔逊秩变量相关系数(Pearson′s rank-variate correlation coefficient, PRVCC)[15]也引起了研究者的关注. GC由以色列经济学家所提出[14], 在经济学领域已经得到了广泛的应用, 并开始向生物学、社会科学和信号处理等领域延伸. 经过徐维超及其合作者的努力[11], GC在二元高斯样本下的均值和方差也已经得到了证明. 虽然早在1914年就已经由Pearson提出[15], PRVCC 在二元高斯模型下的统计特性一直未取得突破. 然而,如后文所示,从定义上可以推测,GC和PRVCC应具有类似的统计特性.
上述所有理论结果, 都是基于二元高斯模型,即假设两个随机变量符合一个联合母体相关系数为ρ的高斯分布. 尽管具有数学上的优点,高斯模型只是一种理想化的近似. 在现实世界中, 所采集的数据通常会受到脉冲噪声的污染,即样本中含有极
少量方差巨大的异常值 (外值)[16- 19]. 为了模拟这种情况,文献中通常采用二元
高斯混合模型(Contaminated Gaussian Model, CGM)进行建模[20].
本文的目的是在二元高斯混合模型下,对上述5种相关系数的稳健性进行比较与
分析. 具体内容包括: 相关系数的基本定义和性质, 噪声模型的介绍, 多种相关系数
在不同样本数据模型下的统计特性, 各种相关系数在不同环境下的适用性分析. 后
文将按照这一结构展开论述.
1.1 相关系数定义
令表示 n 对由二元连续分布母体产生的独立同分布数据对.把数据对序列按升序排列,可以得到一组新的数据对序列其中X(1)<…<X(n)为关于X的序统计量,相应的Y[i]则称之为X(i)的伴随.假设 Xj位于序列中第k个位置, 则定义数字 k 为 Xj的秩次,记为 Pj.类似地把 Yj的秩次定义为 Qj[6].令和分别代表 Xi和 Yi的算术平均, sgn(·)为符号函数.则3种经典相关系数 PPMCC (rP)、 SR (rS)以及 KT (rK)的定义分别为[2,21-22]:
rP(Xi,Yi)
rS(Xi,Yi)
rK(Xi,Yi)
另外两种相关系数GC(rG)[11]和 PRVCC(rH)[23]分别定义为:
令r一般地表示相关系数,则上述各种相关系数的共性有:
(1) 归一化, r的取值在区间[-1,1]内;
(2) 当Y和X严格线性相关或满足单调上升、单调下降关系时, r=±1;
(3) 当X和Y彼此统计独立时, r的均值为0;
(4) r(+,+)=-r(-,+)=-r(+,-)=r(-,-);
(5) 当样本数n足够大时, r 趋于高斯分布.
各种相关系数独有的性质:
(1) PPMCC、SR和KT满足对称性, GC和PRVCC则不然;
(2) PPMCC、SR和KT可以统一为广义相关系数(Daneils Generalized Correlation Coefficient)[24].
需要指出, 从定义式(1)~(5)中可以看到, 在各种相关系数的计算过程中使用数据值和秩次的信息不尽相同. 据此, 可以把上述5种相关系数分为3类:
(1) 完全利用数据值信息的PPMCC;
(2) 利用一个变量的数据值信息和另一个变量的秩信息的GC和PRVCC;
(3) 完全利用秩信息的SR和KT.
1.2 二元高斯混合模型
在双变量或双通道相关分析中, 噪声干扰的情况可以分为两类. 一类是单通道的噪声干扰, 另一类是双通道的噪声干扰. 与此相对应, 两种噪声模型可以分别建立, 统称为混合高斯模型(Contaminated Gaussian Model, CGM).
单通道的混合高斯模型(Signal-Channel Contaminated Gaussian Model, SCGM)的概率密度函数(probability density function, pdf)如下:
).
其中, N(·)表示二元正态分布和各参数意义如下: ε表示脉冲噪声出现的概率可以理解为脉冲噪声的强度, ρ′是对母体ρ的干扰.SCGM作为脉冲噪声环境下样本数据的模型, 其合理性已经在文献[25]中论证.
与(6)类似, 双通道混合高斯模型(Double-Channel Contaminated Gaussian Model, DCGM)的概率密度函数由下式定义:
).
其中, N(·)表示二元正态分布和其合理性可以通过与SCGM类似的证明方法得到验证.
式(6)和(7)在表达形式上相同, 区别在于与σy之间的关系不同.
马如豹、徐维超等[23]证明了PRVCC在SCGM下, 当数据样本的数量n足够大时, 其均值和方差的渐进闭式表达式为:
(rH)≃
(rH)≃
).
此外, 在同一篇论文中,3种经典的相关系数PPMCC、SR和KT在SCGM下均值的闭式表达式也由作者导出[25]:
(rP)≃
(rS)≃
(rK)≃].
从式(10)可以看出, PPMCC只与干扰ρ′有关, 与真正想估计的母体相关系数ρ无关. 也就是说, PPMCC 完全丢失了母体相关系数的信息, 说明PPMCC在单通道的脉冲噪声干扰下失效. 而PRVCC、SR和KT都可以在相当大的程度上抑制ε和ρ′的影响, 对脉冲噪声表现出较好的抗干扰能力.
由式(8)、(11)和(12)可以分别定义PRVCC、SR和KT对母体相关系数的无偏估计[25]:
).
通过均方根误差(Root Mean Squared Error, RMSE)仿真分析, PRVCC在SCGM 的场景下更有优势. GC与PRVCC在计算中所利用的数据信息方面以及计算表达式上都相类似, 它们在SCGM下的性能也相近.
从上述分析中可知, PPMCC对单通道脉冲噪声极其敏感. 可以预见,在双通道脉冲噪声的干扰下, PPMCC的抗干扰能力仍然很差; 同时, PRVCC和GC因为直接使用了一个通道的数值信息, 也不具备在DCGM下的稳定性.
对于SR和KT, 徐维超等[13]证明了在DCGM下,样本数量n足够大时,SR和KT
的均值的闭式表达式为
(rS)≃
(rK)≃].
对比式(11)与(16)、(12)与(17), 两组等式的差别不大, 但都表现出了在DCGM下ε和ρ′的影响更大, SR和KT的稳健性有所下降. 从式(16)和(17)可以得出SR和KT
在DCGM下对母体相关系数的无偏估计量与SCGM下的一致, 即式(14)和(15).
本文介绍了两种脉冲噪声下的数据模型, SCGM和DCGM,并且总结了PPMCC, SR, KT, GC和PRVCC等5种相关系数在SCGM下的统计特性,以及SR和KT在DCGM下的均值. 总结上述分析可以得到如下结论:
(1) 在样本数据存在脉冲噪声干扰的情况下, PPMCC对母体相关系数的估计由噪声主导, 基本失效;
(2) 在只有一个变量或通道的样本数据受到脉冲噪声的干扰而另一个变量或通道的样本数据未受污染的情况下, PRVCC和GC比较有优势;
(3) 当两个变量或通道的样本数据都受到脉冲噪声的干扰时, SR和KT有更好的稳健性.
【相关文献】
[1] Speed T. A correlation for the 21st century[J]. Science, 2011, 334(6062):1502-1503.
[2]Gibbons J D, Chakraborti S. Nonparametric Statistical Inference[M]. 3rd. New York: M. Dekker, 1992.
[3] Fisher R A. Statistical Methods, Experimental Design, and Scientific Inference[M]. New York: Oxford University Press, 1990.
[4] Fisher R A. On the ‘probable error’ of a coefficient of correlation deduced from a small sample[J]. Metron, 1921, 1:3-32.
[5] Fieller E C, Hartley H O, Pearson E S. Tests for rank correlation coefficients. I[J]. Biometrika, 1957, 44(3/4):470- 481.
[6] Kendall M, Gibbons J D. Rank Correlation Methods[M]. 5th ed. New York: Oxford University Press, 1990.
[7] Fisher R A. Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population[J]. Biometrika, 1915, 10(4):507-521.
[8] Moran P A P. Rank correlation and product-Moment Correlation[J]. Biometrika, 1948, 35(1/2):203- 206.
[9] Esscher F. On a method of determining correlation from the ranks of the variates[J]. Skand. Aktuar., 1924, 7:201- 219.
[10] David F N, Mallows C L.The variance of Spearman′s rho in normal samples[J].
Biometrika, 1961, 48(1/2):19- 28.
[11] Xu W, Hung Y S, Niranjan M, et al. Asymptotic mean and variance of Gini correlation for bivariate normal samples[J]. IEEE Trans Signal Process, 2010, 58(2):522-534.
[12] 徐维超. 相关系数研究综述[J]. 广东工业大学学报, 2012, 29(3):12-17.
Xu W C. A review on correlation coefficients[J]. Journal of Guangdong University of Technology, 2012,29(3): 12-17.
[13] Xu W, Hou Y, Hung Y, et al. A comparative analysis of Spearman′s rho and Kendall′s tau in normal and contaminated normal models[J]. Signal Processing, 2013, 93(1):261- 276.
[14] Schechtman E, Yitzhaki S. A measure of association base on Gini′s mean difference[J]. Commun Statist Theor Meth, 1987, 16(1):207- 231.
[15] Pearson K. On an extension of the method of correlation by grades or ranks[J]. Biometrika, 1914, 10(2/3):416- 418.
[16] Tumanski S. Principles of electrical measurement[M]. New York: Taylor & Francis, 2006.
[17] Stein D. Detection of random signals in Gaussian mixture noise[J]. IEEE Trans Inf Theory, 1995, 41(6):1788-1801.
[18] Chen R, Wang X, Liu J. Adaptive joint detection and decoding in flat-fading channels via mixture K alman filtering[J]. IEEE Trans Inf Theory, 2000, 46(6):2079- 2094.
[19] Reznic Z, Zamir R, Feder M. Joint source-channel coding of a Gaussian mixture source over the Gaussian broadcast channel[J]. IEEE Trans Inf Theory, 2002, 48(3):776-781. [20] Shevlyakov G L, Vilchevski N O.Robustness in Data Analysis: Criteria and Methods[M]. Utrecht: VSP, 2002.
[21] Xu W, Chang C, Hung Y S, et al. Order statistics correlation coefficient as a novel association measurement with applications to biosignal analysis[J]. IEEE Trans Signal Process, 2007, 55(12):5552-5563.
[22] Xu W, Chang C, Hung Y S, et al. Asymptotic properties of order statistics correlation coefficient in the normal cases[J]. IEEE Trans Signal Process, 2008, 56(6):2239- 2248. [23] Ma R, Xu W, Zhang Y, et al. Asymptotic properties of pearson′s rank-variate correlation coefficient under contaminated Gaussian model[J]. PLoS One, 2014,
9(11):e112215.
[24] Daniels H E. The relation between measures of correlation in the universe of sample permutations[J]. Biometrika, 1944, 33(2):129-135.
[25] Ma R, Xu W, Wang Q, et al. Robustness analysis of three classical correlation coefficients under contaminated Gaussian model[J]. Signal Processing, 2014, 104:51-58.。