相关性分析方法

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

相关性分析方法
在食品污染物监测工作中,经常会发现某一类食品中当一种污染物含量升高时,另一种污染物含量也会随之升高或降低,这种现象说明这两种污染物的含量可能存在某种线性相关关系。

而当这种相关关系达到某一高度时,这两种污染物可能有相同来源,从而为污染溯源提供参考。

探索食品中污染物的相关关系的分析方法是相关性分析,从易到难分别分为皮尔森相关系数法,秩相关系数,偏相关系数和贝叶斯网络。

1皮尔森相关系数
皮尔森相关系数又称Pearson积矩相关系数(Pearson product-moment correlation coefficient),是定量描述两个变量(设为X、Y)间线性关系密切程度和相关方向的统计指标,它可以定量描述食品中两种元素(设为X、Y)间线性关系密切程度和相关方向,其定义为:
相关系数=
∑(X
n−X̅)(Y−Y̅)
√∑(X i
n
i=1
−X̅)2∑(Y i
n
i=1
−Y̅)2
样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值范围是[-1,1]。

相关系数越接近1,正相关性越强,表明两种元素(污染物)中若有一者较高,则另一者也会较高。

相关系数越接近-1,负相关性越强,表明两种元素(污染物)中若有一者较高,则另一者则会较低。

相关系数越接近0时,相关性越弱,相关系数为0,表示不相关。

存在的问题
几种的(X、Y)点及相应的X、Y的相关系数图如下:
可以看出,皮尔森相关系数能反映线性关系、分散程度和方向(第一行),但是不能反映线性关系时的斜率(第二行),也不能反映出非线性关系的许多方面(第三行)。

相关系数大小与相关性大小的关系
许多学者都提出了通过相关系数大小判断变量相关性的标准。

用样本计算出来的相关系数r是一个样本统计量,存在抽样误差。

为此,应建立假设H0:ρ=0 ,H1:ρ≠0,并假定X和Y服从二元正态分布。

对相关系数采用t检验,检验的统计量为:
t r=r−0 S r
其中,S r为样本相关系数r的标准误:
S r=√1−r2 n−2
H0成立时,t r服从自由度为v=n-2的t分布。

检验时,若p>0.05,不拒绝原假设,即认为两个变量之间无相关性;若p<0.05,拒绝零假设,接受备择假设,即认为两个变量间相关性有统计学意义。

2秩相关系数
Pearson线性相关系数只是许多可能中的一种情况,为了使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。

如果这两条件不符合,一种可能就是采用Spearman秩相关系数来代替Pearson线性相关系数。

在统计学中,Spearman秩相关系数一般用ρs或是r s表示。

Spearman秩相关系数是一个非参数性质的(与分布无关)的度量两个变量之间的统计相关性的指标。

Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数,假设原始的数据X i,Y i已经按从大到小的顺序排列,及X i‘,Y i‘为原X i,Y i在排列后数据所在的位置,则X i‘,Y i‘成为变量X i,Y i的秩次,则d i= X i‘-Y i ‘为X i,Y i的秩次之差。

如果没有相同的秩次,则ρs可由下式计算
ρs=1−
6∑d i2 n(n2−1)
如果有相同的秩次存在,那么就需要计算秩次之间的Pearson的线性相关系数
ρs=
∑(X i′
n
i=1
−X′̅̅̅)(Y i′−Y′̅)
√∑(X i′
n
i=1
−X′̅̅̅)2∑(Y i′
n
i=1
−Y′̅)2
一个相同的值在一列数据中必须有相同的秩次,那么在计算中采用的秩次就是数值在按从大到小排列时所在位置的平均值。

如下为一个求平均秩次的例子。

Spearman秩相关系数的符号表示X和Y之间联系的方向。

如果Y随着X 的增加而增加,那么Spearman秩相关系数是正的,反之,如果Y 随着X的增加而减小,Spearman秩相关系数就是负的。

Spearman秩相关系数为0表示随着X 的增加,Y没有增大或减小的趋势。

随着X和Y越来越接近严格单调的函数关系,Spearman秩相关系数在数值上越来越大。

当X、Y有严格单增的关系时,它们之间的Spearman秩相关系数为1,反之,在X、Y有严格单减的关系时,它们之间的Spearman秩相关系数为-1。

Spearman秩相关系数经常被称为非参数相关系数,这里有两层含义:第一,制药在X和Y具有单调的函数关系的关系,那么X和Y就是完全Spearman相关的,这与Pearson相关性不同,后者只有在变量之间具有线性关系时才是完全相关的。

另外Spearman秩相关系数的样本之间精确的分布可以在不知道X和Y 的联合概率密度函数时获得。

几种的(X、Y)点及相应的X、Y的皮尔森相关系数和秩相关系数图如下:
不管变量之间的关系是不是线性的,只要变量之间具有严格的单调增加的函数关系,变量之间的Spearman秩相关系数就是1,相同情况下,Pearson相关性在变量不是线性函数关系时,并不是完全相关的。

相关文档
最新文档