线性相关分析和线性回归
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关关系
从单变量从发,在一个样本数据中想知道某一指标在样本中的离散程度用方差(样本偏离均值的平均距离的平方数,也叫总变差)或者标准差(样本偏离均值的平均距离)表示。
两个变量的时候,这两个变量在样本中的离散程度用协方差(类比于方差)表示。
协方差表示的是总变差,描述的是两个变量的总体误差(总体误差的期望)。
协方差:协方差:cov(X,Y)=E[(X−E[X])(Y−E[Y])]数据点的协方差:2数据点的协方差:(x1−ux)(y1−uy)+(x2−ux)(y2−uy)2
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值(用上图公式表示的是每一个点与均值的误差值都是正数);如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值(用上图公式表示的是每一个点与均值的误差值都是负数)。
协方差为正值,表示两个变量正相关;协方差为负值,表示两个变量负相关;协方差为0则表示不相关(每一个点与均值的误差值有正有负)。
相关系数
协方差的数值可以衡量两个变量的关系,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出
很大的差异。
(举个向量的栗子,两个向量的夹角大小表示相关关系,但是两向量的长度不影响夹角的大小,协方差的计算类似于计算向量的距离,向量的距离也可以表示向量之间的关系,但是会受到向量长度的影响)。
因此,相关关系需要去掉量纲的影响,使用协方差同时除以X 和Y的标准差,这就是相关系数(皮尔逊相关系数)
相关系数:相关系数r:cov(X,Y)σxσy
相关系数r的取值范围是[-1,1],正值表示正相关,负值表示负相关。
当相关系r>0.6时,可以认为两个变量之前强相关,0.3<=r<=0.6时,可以认为是中等相关,当r<0.3时认为弱相关,r=0时表示不相关。
相关系数仅仅表示两个变量相关程度的大小和方向,既不等于因果关系,也没有说明两个变量之间的具体关系是怎么样的。
简单线性回归
当我们知道两个变量之间的相关系数后,还想知道具体是什么关系的,利用一个变量如何预测另一个变量。
简单线性回归是其中的一种方法,用于表示两个变量之间具有近似于线性之间的关系。
如何使用线性回归来做预测
首先需要将两个变量绘制散点图,目测两个变量的点整体的图形类似于一条直线(大概的粗线条),假设两个变量是一条直线的函数关系,利用误差平方和最小(最小二乘法)来求解函数的截距和系数。
那么得到的方程就是最佳拟合线方程
误差平方和:(实际值预测值)误差平方和:SSE=Σ(实际值−预测值)2
评估模型的精准度
回归线性方程得到后,怎样表示这个方程的预测的精准性呢?肯定是误差越小就表示越精准了。
一个点的误差=实际值-预测值,那么预测的总误差为
误差平方和(实际值预测值)y误差平方和=∑(y实际值−y预测值)2
y的误差平方和是一个带有量纲的指标,为了能得到一个更一般化的指标,因此提出了y的误差平方和/y的总波动来表示有多少百分比的y 波动没有被回归线描述,即
误差平方和总波动(的总波动(实际值平均值))误差平方和总波动(y的总波动=∑(y实际值−y 平均值)2)
那么有多少百分比的y波动可以被回归线描述为:
误差平方和总波动决定系数平方(简称方)1−误差平方和总波动→决定系数R平方(简称R方)
R方有两种解读:
1、能表示回归线的拟合程度:表示有多少百分比的y的波动可以由回归线描述
2、值的大小可以表示回归模型的精准度,R方越高,说明回归模型越精准。