相关性分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法
相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。
分类:
1、线性相关分析:研究两个变量间线性关系的程度。
用相关系数r来描述
(1)正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;一般地,
·|r|>0.95 存在显著性相关;
·|r|≥0.8 高度相关;
·0.5≤|r|<0.8 中度相关;
·0.3≤|r|<0.5 低度相关;
·|r|<0.3 关系极弱,认为不相关
(2)负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;
(3)无线性相关:r=0。
如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1<r<1。
(4)r的计算有三种:
①Pearson相关系数:对定距连续变量的数据进行计算。
②Spearman和Kendall相关系数:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩
2、偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的
变量。
如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系
3、距离分析:是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。
分为观测量之间距离分析和变量之间距离分析(1)不相似性测度:
·a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等。
·b、对计数数据使用卡方。
·c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。
(2)相似性测度:
·a、等间隔数据使用统计量Pearson相关或余弦。
·b、测度二元数据的相似性使用的统计量有20余种
分析的类别:
网络分析、
财务分析、又称有用性分析,是财务会计的一部分,是指会计信息要同信息使
用者的经济决策相关联,即人们可以利用会计信息做出有关的经济决策,相关性分
析的目的在于提高使用者的经济决策能力和预测能力
经济分析、相关性的统计与分析是经济学中常用的一种方法。
相关性是指当两
个因素之间存在联系,一个典型的表现是:一个变量会随着另一个变量变化。
相关
又会分成正相关和负相关两种情况
统计分析、相关性系数的计算过程可表示为:将每个变量都转化为标准单位,
乘积的平均数即为相关系数。
两个变量的关系可以直观地用散点图表示,当其紧密
地群聚于一条直线的周围时,变量间存在强相关性
数学分析、当两个变量的标准差都不为零时,相关性系数才有定义。
当一个或
两个变量带有测量误差时,他们的相关性就会受到削弱
几何分析、对于居中的数据来说(居中也就是每个数据减去样本均值,居中后
它们的平均值就为0),相关性系数可以看作是两个随机变量中得到的样本集向量
之间夹角的cosine函数
大气分析、对回归因素所引起的变差与总变差之间的相关性分析
生态分析、度量两个随机变量间的关联程度。
相关性系数的取值范围为(-1,+1)。
当相关系数小于0时,称为负相关;大于0时,称为正相关;等于0时,称为零
相关
遗传分析。
是对物种与物种之间具备相关性的基因、功能及其变异、传递和表
达规律的相关性分析
偏相关:研究在多变量的情况下,当控制其他变量影响后,两个变量间的直线相关程度。
又称净相关或部分相关。
例如,偏相关系数r13.2表示控制变量x2的影响之后,变量x1和变量x3之间的直线相关。
偏相关系数较简单直线相关系数更能真实反映两变量间的联系。
偏相关系数、复相关系数、简单直线相关系数之间存在着一定的关系。
以3个变量x1,x2,x3为例,它们有如下的关系:
公式
或
公式
复相关编辑
研究一个变量x0与另一组变量(x1,x2,…,xn)之间的相关程度。
例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。
复相关系数R0.12…n的测定,可先求出x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。
复相关系数为
R0.12…n的取值范围为0≤R0.12…n≤1。
复相关系数值愈大,变量间的关系愈密切定序变量编辑
讨论两个定序变量间的相关的程度与方向。
又称等级相关。
例如,研究夫妇双方文化程度的相关等。
等级相关系数有R系数和γ系数。
R系数计算方法与简单直线相关系数相同。
式中
公式
X,Y分别为x,y的测量值的等级。
英国统计学家C.E.斯皮尔曼从R系数中推导出简捷式,称斯皮尔曼等级相关系数:公式
式中d i=x i-y i,i=1,2,…,N(N为次数)。
等级相关系数R具有与简单直线相关相同的性质:取值范围在〔-1,+1〕之间;R的绝对值愈大,变量间的等级相关程度愈大。
γ系数适用于资料次数N很大的情况。
公式
式中N s为同序对数目,N d为异序对数目。
同序对表示两个个案(x i,y i)和(x j,y j)相比时,具有x i>x j,则y i>y j的性质;反之,若x i>x j,但
y i<y j,则称作一个异序对。
γ系数的取值范围在〔-1,+1〕之间。
γ的绝对值愈大,变量间的等级相关程度愈大。
关系:
相关分析与回归分析在实际应用中有密切关系。
然而在回
归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。
而在相关分析中,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。
例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。