相关性分析(相关系数)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简单相关系数:
又叫相关系数或线性相关系数。它一般用字母r 表示。它是用来度量定量变量间的线性相关关系。
复相关系数:
又叫多重相关系数
复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
偏相关系数:
又叫部分相关系数:部分相关系数反映校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数。偏相关系数的假设检验等同于偏回归系数的t检验。复相关系数的假设检验等同于回归方程的方差分析。
典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性无关的综合指标.再用两组之间的综合指标的直线相关系敷来研究原两组变量间相关关系
可决系数是相关系数的平方。
意义:可决系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。
相关系数(correlation coefficient)
相关系数是表示两个变量(X,Y)之间线性关系密切程度的指标,用r表示,其值在-1至+1间。如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r 的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。计算相关系数的公式为:
定义与说明
相关系数,或称线性相关系数、皮氏积矩相关系数(Pearson product-moment correlation coefficient, PPCC)等,是衡量两个随机变量之间线性相关程度的指标。它由卡尔·皮尔森(Karl Pearson)在1880年代提出[1],现已广泛地应用于科学的各个领域。
相关系数计算公式
相关系数(r)的定义如右图所示,取值范围为[-1,1],r>0表示正相关,r<0表示负相关,|r|表示了变量之间相关程度的高低。特殊地,r=1称为完全正相关,r=-1称为完全负相关,r=0称为不相关。通常|r|大于时,认为两个变量有很强的线性相关性。[2]
样本相关系数常用r表示,而总体相关系数常用ρ表示。
在线性关系不显著时,还可以考虑采用秩相关系数(rank correlation),如斯皮尔曼秩相关系数(Spearman's rank correlation coefficient)等。
相关性质
(1)对称性:X与Y的相关系数(rXY)和Y与X之间的相关系数(rYX)相等;
(2)相关系数与原点和尺度无关;
(3)若X与Y统计上独立,则它们之间的相关系数为零;但r=0不等于说两个变量是独立的。即零相关并不一定意味着独立性;
(4)相关系数是线性关联或线性相依的一个度量,它不能用于描述非线性关系;(5)相关系数只是两个变量之间线性关联的一个度量,不一定有因果关系的含义。
Pearson相关系数
相关系数简介
Pearson相关系数[1]用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有Pearson简单相关系数。
其计算公式为:
值域等级解释
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
相关系数极强相关
强相关
中等程度相关
弱相关
极弱相关或无相关