相关分析和回归分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

回归分析和相关分析的联系和区别
回归分析(Regression)：Dependant variable is defined and can be forecasted by independent variable.相关分析(Correlation)：The relationship btw two variables. --- A dose not define or determine B.
回归更有用自变量解释因变量的意思，有一点点因果关系在里面，并且可以是线性或者非线形关系；
相关更倾向于解释两两之间的关系，但是一般都是指线形关系，特别是相关指数，有时候图像显示特别强二次方图像，但是相关指数仍然会很低，而这仅仅是因为两者间不是线形关系，并不意味着两者之间没有关系，因此在做相关指数的
时候要特别注意怎么解释数值，特别建议做出图像观察先。

不过，无论回归还是相关，在做因果关系的时候都应该特别注意，并不是每一个显著的回归因子或者较高的相关指数都意味着因果关系，有可能这些因素都是受第三，第四因素制约，都是另外因素的因或果。

对于此二者的区别，我想通过下面这个比方很容易理解：
对于两个人关系，相关关系只能知道他们是恋人关系，至于他们谁是主导者，谁说话算数，谁是跟随者，一个打个喷嚏，另一个会有什么反应，相关就不能胜任，而回归分析则能很好的解决这个问题
回歸未必有因果關係。

回歸的主要有二：一是解釋，一是預測。

在於利用已知的自變項預測未知的依變數。

相關係數，主要在了解兩個變數的共變情形。

如果有因果關係，通常會進行路徑分析(path analysis)或是線性結構關係模式。

我觉得应该这样看，我们做回归分析是在一定的理论和直觉下，通过自变量和因变量的数量关系探索是否有因果关系。

楼上这位仁兄说“回归未必有因果关系……如果有因果关系，通常进行路径分析或线性结构关系模式”有点值得商榷吧，事实上，回归分析可以看成是线性结构关系模式的一个特例啊。

我觉得说回归是探索因果关系的并没错，因为实际上最后我们并不是完全依据统计的结果来判断因果性，只有在统计结
果和理论及现实比较吻合的基础上我们才肯定这种因果关系。

任何统计方法只是一种工具，但是不能完全依赖于这种工具。

即使是SEM，我们也不能说完全认定其准确性，因为即使方法是好的，但是变量的复杂关系呈现的方式也是多种多样的，可能统计只能告诉你一个方向上的最优解，可未必是最符合实际的，更何况抽样数据的质量好坏也会使得结果不符合事实，从而导致人们怀疑统计方法的准确性。

统计只说明统计关联。

不证明因素关系。

回归有因果关系，相关未必。

回归分析是处理两个及两个以上变量间线性依存关系的统计方法。

此类问题很普遍，如人头发中某种金属元素的含量与血液中该元素的含量有关系，人的体表面积与身高、体重有关系；等等。

回归分析就是用于说明这种依存变化的数学关系。

任何事物的存在都不是孤立的，而是相互联系、相互制约的。

身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。

说明客观事物相互间关系的密切程度并用适当的统计指标表示出来，这个过程就是相关分析。

相关分析和回归分析是极为常用的2种数理统计方法，在环境科学及其它科学研究领域有着广泛的用途。

然而，由于这2种数理统计方法在计算方面存在很多
相似之处，且在一些数理统计教科书中没有系统阐明这2种数理统计方法的内在差别，从而使一些研究者不能严格区分相关分析与回归分析。

最常见的错误是:用回归分析的结果解释相关性问题。

例如，作者将“回归直线（曲线）图”称为“相关性图”或“相关关系图”；将回归直线的R2(拟合度，或称“可
决系数”)错误地称为“相关系数”或“相关系数的平方”；根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。

相关分析与回归分析均为研究2个或多个变量间关联性的方法，但2种数理统计方法存在本质的差别，即它们用于不同的研究目的。

相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预测因变量的值。

在相关分析中，两个变量必须同时都是随机变量，如果其中的一个变量不是随机变量，就不能进行相关分析。

这是相关分析方法本身所决定的。

对于回归分析，其中的因变量肯定为随机变量（这是回归分析方法本身所决定的），而自变量则可以是普通变量（有确定的取值）也可以是随机变量。

如果自变量是普通变量，即模型Ⅰ回归分析，采用的回归方法就是最为常用的最小二乘法。

如果自变量是随机变量，即模型Ⅱ回归分析，所采用的回归方法与计算者的目的有关。

在以预测为目的的情况下，仍采用“最小二乘法”（但精度下降—最小二乘法是专为模型Ⅰ设计的，未考虑自变量的随机误差）；在以估值为目的（如计算可决系数、回归系数等）的情况下，应使用相对严谨的方法（如“主轴法”、“约化主轴法”或“Bartlett法” ）。

显然，对于回归分析，如果是模型Ⅱ回归分析，鉴于两个随机变量客观上存在“相关性”问题，只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段，因此，若以预测为目的，最好不提“相关性”问题；若以探索两者的“共变趋势”为目的，应该改用相关分析。

如果是模型Ⅰ回归分析，就根本不可能回答变量的“相关性”问题，因为普通变量与随机变量之间不存在“相关性”这一概念（问题在于，大多数的回归分析都是模型Ⅰ回归分析！）。

此时，即使作者想描述2个变量间的“共变趋势”而改用相关分析，也会因相关分析的前提不存在而使分析结果毫无意义。

需要特别指出的是，回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。

因此，这极易使作者们错误地理解R2的含义，认为R2就是“相关系数”或“相关系数的平方”。

问题在于，对于自变量是普通变量（即其取值有确定性的变量）、因变量为随机变量的模型Ⅰ回归分析，2个变量之间的“相关性”概念根本不存在，又何谈“相关系数”呢？更值得注意的是，一些早期的教科书作者不是用R2来描述回归效果（拟合程度，拟合度）的，而是用Pearson积矩相关系数来描述。

这就更容易误导读者。