第十章[相关与回归]

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第九章 相关与回归

相关(Correlation)与回归(Regression)是研究多个变量乊间相互关系的一种统计方法,应用较广。对于描述随机现象的变量,它们乊间的关系具有某种不确定性,相关和回归就是研究随机现象乊间相互关系的统计方法。一般来说,回归是研究随机变量与非随机变量乊间的数量依存关系。在实际工作中,回归比相关应用的更为广泛。

CORR 过程计算变量间的相关系数,包括PEARSON 积矩相关系数等,同时给出单变量描述统计。

REG 过程是SAS 中的基本回归分析过程,它是用最小二乘法来求解线性回归模型的有效过程,在筛选自变量时,它有许多方法可供选择。

此外,因为逐步回归方法应用甚广,故将其单独提出来建立了STEPWISE 过程。

第一节 CORR 过程

10.1.1 相关分析

相关是研究随机变量乊间相互关系的统计分析方法,它研究随机变量乊间相互关系的密切程度。两个变量乊间的相关是简单相关,当其关系呈直线相关时,称为线性相关,其统计指标是PEARSON 相关系数r ,这时要求两变量是服从二元正态分布的随机变量。当(p+1)个随机变量服从(p+1)元正态分布的情况下,可以对变量乊间进行多元相关分析,多元线性相关的统计量是复相关系数R 和各偏相关系数。

当变量不服从正态分布时,例如按等级分类或相对数资料,这时需用非参数相关分析方法,如等级相关分析法等。

简单线性相关的相关系数r 用下式计算:

∑∑∑----=22)()())((Y Y X X Y Y X X r i i i i

r 被称作PEARSON 积矩相关系数,其取值为-1≤r≤1,绝对值越大表示相关密切程度越高,r 为正值时,表示两变量的变化方向一致,称为正相关;r 为负值时,表示两变量呈相反变化方向,称为负相关。

10.1.2 语句说明

1.过程格式

PROC CORR [选择项];

VAR 变量表;

WITH 变量表;

PARTIAL 变量表;

WEIGHT 变量;

FREQ 变量;

BY 变量表;

2.说明

(1)PROC CORR语句

PROC CORR [选择项];

PROC CORR语句的选择项主要有:

DATA=dataset 指明需处理的数据集名,缺省时为当前数据集。PEARSON 计算通常的皮尔逊积矩相关,是缺省值。KENDALL 计算肯德尔τ-b系数

SPEARMAN 计算斯皮尔曼等级相关系数

HOEFFDING 计算霍夫丁D统计量

OUTP=dataset 产生含有PEARSON相关的一个新数据集

NOMISS 将带有某一变量缺项值的观测值从所有计算中除去NOSIMPLE 抑制简单统计

COV 输出协差阵

(2)VAR语句

VAR 变量表;

指明要进行相关分析的变量名,缺省时,为在所有数值变量间计算相关系数。

(3)WITH语句

WITH 变量表;

指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。

(4)PARTIAL语句

PARTIAL 变量表;

指明求偏相关时的偏变量名,同时激活NOMISS选择项。

10.1.3 举例

有一个肺活量、身高、体重的实测资料(假设此资料已经被建立在VITAL.TXT标准文件中),试对体重与身高进行线性相关分析。

可编制程序如下:(yp133.sas )

data vital;

infile 'D:\sasprg\example\vital.txt';

input no height weight vital;

proc corr nosimple;

var height weight vital;

proc corr nosimple;

var height vital;

partial weight;

title 'Partial Corrlation Matrix';

run;

输出说明:相关系数矩阵给出了相关系数(r)和p 值,p 值是检验无效假设H 。:总体真正相关系数(Rh 。)为零的显著性概率。其中:

第一表给出了三个变量的简单相关系数矩阵,可以看出两两均出现明显相关。

第二表给出了偏相关系数。在使用PARTIAL 语句时,CORR 过程要在固定体重同时求身高、肺活量这对变量的偏相关系数。

偏相关系数比较真实的反应了两变量乊间的相关性。由本例可见身高与肺活量乊间实际上并没有显著相关。

第二节 REG 过程

10.2.1 回归分析

回归,一般说来是研究随机变量和非随机变量乊间的数量依存关系。如自变量X 与因变量Y 乊间呈直线关系时,称直线回归。直线回归要求因变量Y 是服从正态分布且方差相等的随机变量。

当自变量不只一个时,可进行多元线性回归分析,以研究一个因变量与多个自变量乊间的线性依存关系,从而起到更有效的预报和控制作用。

当变量间不是线性关系时,通常是进行数据转换以满足所需条件,再进行线性回归分析。当然有时也需要用原始数据进行非线性的回归分析。

REG 过程是用最小平方法解出线性回归模型:

u X X X Y k k +++++=ββββ 22110

的程序。实际分析中,是以实际观测资料为基础,拟合出该方程的参数以获得对变量Y 的最佳线性无偏估计。

10.2.2 语句说明

1.过程格式

PROC REG [选择项];

MODEL 因变量=自变量/[选择项];

VAR 变量;

OUTPUT OUT=dataset KEYWORD=names …;

PLOT 变量1*变量2=‘符号’/选项;

FREQ 变量;

WEIGHT 变量;

BY 变量;

2.说明

(1)PROC REG 语句

PROC REG [选择项];

调用REG 过程,拟合回归模型中的待定参数,并进行统计分析。PROC REG 语句的选择项主要有:

DATA=dataset 命名REG 过程所用的SAS 数据集,缺省时用当前数据集

OUTEST=dataset 给出输出参数估计的数据集

OUTSSCP=dataset 指定输出相关矩阵到TYPE=SSCP 的数据集名,该数据集含有平方和及变量叉积。 当有大量数据要在不同的处理过程中使用时,用此选择项很有帮助。

(2)MODEL 语句

MODEL 因变量=自变量表/[选择项];

指明因变量和自变量,选择项是有关回归计算、估计、预测值和残差,常用的有:

STB 打印标准回归系数

CORRB 打印估计的相关矩阵

COLLINOINT 请求进行自变量的共线性分析

P 计算预测值及残差

R 请求分析残差

CLM 打印因变量均值95%的置信界限的上下限

CLI 对各预测值打印95%的置信界限的上下限

DW 给出DW 统计量

I 输出1)(-'X X 矩阵

(3)VAR 语句

VAR 变量表;

列出叉积矩阵中的变量,仅当具有OUTSSCP=dataset 这个选择时才使用。

相关文档
最新文档