第十章[相关与回归] - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第九章相关与回归

相关(Correlation)与回归(Regression)是研究多个变量乊间相互关系的一种统计方法，应用较广。对于描述随机现象的变量，它们乊间的关系具有某种不确定性，相关和回归就是研究随机现象乊间相互关系的统计方法。一般来说，回归是研究随机变量与非随机变量乊间的数量依存关系。在实际工作中，回归比相关应用的更为广泛。

CORR 过程计算变量间的相关系数，包括PEARSON 积矩相关系数等，同时给出单变量描述统计。

REG 过程是SAS 中的基本回归分析过程，它是用最小二乘法来求解线性回归模型的有效过程，在筛选自变量时，它有许多方法可供选择。

此外，因为逐步回归方法应用甚广，故将其单独提出来建立了STEPWISE 过程。

第一节 CORR 过程

10.1.1 相关分析

相关是研究随机变量乊间相互关系的统计分析方法，它研究随机变量乊间相互关系的密切程度。两个变量乊间的相关是简单相关，当其关系呈直线相关时，称为线性相关，其统计指标是PEARSON 相关系数r ，这时要求两变量是服从二元正态分布的随机变量。当(p+1)个随机变量服从(p+1)元正态分布的情况下，可以对变量乊间进行多元相关分析，多元线性相关的统计量是复相关系数R 和各偏相关系数。

当变量不服从正态分布时，例如按等级分类或相对数资料，这时需用非参数相关分析方法，如等级相关分析法等。

简单线性相关的相关系数r 用下式计算：

∑∑∑----=22)()())((Y Y X X Y Y X X r i i i i

r 被称作PEARSON 积矩相关系数，其取值为-1≤r≤1，绝对值越大表示相关密切程度越高，r 为正值时，表示两变量的变化方向一致，称为正相关；r 为负值时，表示两变量呈相反变化方向，称为负相关。

10.1.2 语句说明

1．过程格式

PROC CORR [选择项]；

VAR 变量表；

WITH 变量表；

PARTIAL 变量表；

WEIGHT 变量；

FREQ 变量；

BY 变量表；

2．说明

(1)PROC CORR语句

PROC CORR [选择项]；

PROC CORR语句的选择项主要有：

DATA=dataset 指明需处理的数据集名，缺省时为当前数据集。PEARSON 计算通常的皮尔逊积矩相关，是缺省值。KENDALL 计算肯德尔τ-b系数

SPEARMAN 计算斯皮尔曼等级相关系数

HOEFFDING 计算霍夫丁D统计量

OUTP=dataset 产生含有PEARSON相关的一个新数据集

NOMISS 将带有某一变量缺项值的观测值从所有计算中除去NOSIMPLE 抑制简单统计

COV 输出协差阵

(2)VAR语句

VAR 变量表；

指明要进行相关分析的变量名，缺省时，为在所有数值变量间计算相关系数。

(3)WITH语句

WITH 变量表；

指明特别配对的变量名，与VAR语句配对使用，VAR语句列出相关矩阵上部出现的变量，WITH语句列出左侧出现的变量。

(4)PARTIAL语句

PARTIAL 变量表；

指明求偏相关时的偏变量名，同时激活NOMISS选择项。

10.1.3 举例

有一个肺活量、身高、体重的实测资料(假设此资料已经被建立在VITAL.TXT标准文件中)，试对体重与身高进行线性相关分析。

可编制程序如下：（yp133.sas ）

data vital;

infile 'D:\sasprg\example\vital.txt';

input no height weight vital;

proc corr nosimple;

var height weight vital;

proc corr nosimple;

var height vital;

partial weight;

title 'Partial Corrlation Matrix';

run;

输出说明：相关系数矩阵给出了相关系数(r)和p 值，p 值是检验无效假设H 。：总体真正相关系数(Rh 。)为零的显著性概率。其中：

第一表给出了三个变量的简单相关系数矩阵，可以看出两两均出现明显相关。

第二表给出了偏相关系数。在使用PARTIAL 语句时，CORR 过程要在固定体重同时求身高、肺活量这对变量的偏相关系数。

偏相关系数比较真实的反应了两变量乊间的相关性。由本例可见身高与肺活量乊间实际上并没有显著相关。

第二节 REG 过程

10.2.1 回归分析

回归，一般说来是研究随机变量和非随机变量乊间的数量依存关系。如自变量X 与因变量Y 乊间呈直线关系时，称直线回归。直线回归要求因变量Y 是服从正态分布且方差相等的随机变量。

当自变量不只一个时，可进行多元线性回归分析，以研究一个因变量与多个自变量乊间的线性依存关系，从而起到更有效的预报和控制作用。

当变量间不是线性关系时，通常是进行数据转换以满足所需条件，再进行线性回归分析。当然有时也需要用原始数据进行非线性的回归分析。

REG 过程是用最小平方法解出线性回归模型:

u X X X Y k k +++++=ββββ 22110

的程序。实际分析中，是以实际观测资料为基础，拟合出该方程的参数以获得对变量Y 的最佳线性无偏估计。

10.2.2 语句说明

1．过程格式

PROC REG [选择项]；

MODEL 因变量=自变量／[选择项]；

VAR 变量；

OUTPUT OUT=dataset KEYWORD=names …;

PLOT 变量1＊变量2＝‘符号’／选项；

FREQ 变量；

WEIGHT 变量；

BY 变量；

2．说明

(1)PROC REG 语句

PROC REG [选择项]；

调用REG 过程，拟合回归模型中的待定参数，并进行统计分析。PROC REG 语句的选择项主要有：

DATA=dataset 命名REG 过程所用的SAS 数据集，缺省时用当前数据集

OUTEST=dataset 给出输出参数估计的数据集

OUTSSCP=dataset 指定输出相关矩阵到TYPE=SSCP 的数据集名，该数据集含有平方和及变量叉积。当有大量数据要在不同的处理过程中使用时，用此选择项很有帮助。

(2)MODEL 语句

MODEL 因变量=自变量表／[选择项]；

指明因变量和自变量，选择项是有关回归计算、估计、预测值和残差，常用的有：

STB 打印标准回归系数

CORRB 打印估计的相关矩阵

COLLINOINT 请求进行自变量的共线性分析

P 计算预测值及残差

R 请求分析残差

CLM 打印因变量均值95％的置信界限的上下限

CLI 对各预测值打印95％的置信界限的上下限

DW 给出DW 统计量

I 输出1)(-'X X 矩阵

(3)VAR 语句

VAR 变量表；

列出叉积矩阵中的变量，仅当具有OUTSSCP=dataset 这个选择时才使用。