皮尔逊相关系数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
皮尔逊相关系数
皮尔逊积矩相关系数,用于度量两个变量X 和Y 之间的相关(线性相关),其值介于-1与1之间,其中,1 表示变量完全正相关, 0 表示无关,-1 表示完全负相关。。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商。假设有两个变量X 、Y ,那么两变量间的皮尔逊相关系数可通过以下公式计算:
公式一:∑∑∑∑∑∑∑---=2)^(2^2^)(2^),(y y n x x n y
x xy n Y X Corr
公式二:∑∑----=2
)^(2)^
())((),(Y Y X X Y Y X X Y X Corr 按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z 分数处理之后, 然后两组数据的乘积和除以样本数
Z 分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.(就是高考的标准分类似的处理)
标准差则等于变量减掉平均数的平方和,再除以样本数,最后再开方.
所以, 根据这个最朴素的理解,我们可以将公式依次精简为:
在python 算法中,我们采用公式一对皮尔逊相关系数进行计算,步骤如下
① 得到X,Y 的评分统计表,统计总的样本数N
② 分别∑X ; ∑Y ; Y X ∑; 2^2^∑∑Y X 和五个相关系数
③ 根据公式二进一步求出皮尔逊相关系数并返回