第十章[相关与回归]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第九章 相关与回归
相关(Correlation)与回归(Regression)是研究多个变量乊间相互关系的一种统计方法,应用较广。对于描述随机现象的变量,它们乊间的关系具有某种不确定性,相关和回归就是研究随机现象乊间相互关系的统计方法。一般来说,回归是研究随机变量与非随机变量乊间的数量依存关系。在实际工作中,回归比相关应用的更为广泛。
CORR 过程计算变量间的相关系数,包括PEARSON 积矩相关系数等,同时给出单变量描述统计。
REG 过程是SAS 中的基本回归分析过程,它是用最小二乘法来求解线性回归模型的有效过程,在筛选自变量时,它有许多方法可供选择。
此外,因为逐步回归方法应用甚广,故将其单独提出来建立了STEPWISE 过程。
第一节 CORR 过程
10.1.1 相关分析
相关是研究随机变量乊间相互关系的统计分析方法,它研究随机变量乊间相互关系的密切程度。两个变量乊间的相关是简单相关,当其关系呈直线相关时,称为线性相关,其统计指标是PEARSON 相关系数r ,这时要求两变量是服从二元正态分布的随机变量。当(p+1)个随机变量服从(p+1)元正态分布的情况下,可以对变量乊间进行多元相关分析,多元线性相关的统计量是复相关系数R 和各偏相关系数。
当变量不服从正态分布时,例如按等级分类或相对数资料,这时需用非参数相关分析方法,如等级相关分析法等。
简单线性相关的相关系数r 用下式计算:
∑∑∑----=22)()())((Y Y X X Y Y X X r i i i i
r 被称作PEARSON 积矩相关系数,其取值为-1≤r≤1,绝对值越大表示相关密切程度越高,r 为正值时,表示两变量的变化方向一致,称为正相关;r 为负值时,表示两变量呈相反变化方向,称为负相关。
10.1.2 语句说明
1.过程格式
PROC CORR [选择项];
VAR 变量表;
WITH 变量表;
PARTIAL 变量表;
WEIGHT 变量;
FREQ 变量;
BY 变量表;
2.说明
(1)PROC CORR语句
PROC CORR [选择项];
PROC CORR语句的选择项主要有:
DATA=dataset 指明需处理的数据集名,缺省时为当前数据集。PEARSON 计算通常的皮尔逊积矩相关,是缺省值。KENDALL 计算肯德尔τ-b系数
SPEARMAN 计算斯皮尔曼等级相关系数
HOEFFDING 计算霍夫丁D统计量
OUTP=dataset 产生含有PEARSON相关的一个新数据集
NOMISS 将带有某一变量缺项值的观测值从所有计算中除去NOSIMPLE 抑制简单统计
COV 输出协差阵
(2)VAR语句
VAR 变量表;
指明要进行相关分析的变量名,缺省时,为在所有数值变量间计算相关系数。
(3)WITH语句
WITH 变量表;
指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
(4)PARTIAL语句
PARTIAL 变量表;
指明求偏相关时的偏变量名,同时激活NOMISS选择项。
10.1.3 举例
有一个肺活量、身高、体重的实测资料(假设此资料已经被建立在VITAL.TXT标准文件中),试对体重与身高进行线性相关分析。
可编制程序如下:(yp133.sas )
data vital;
infile 'D:\sasprg\example\vital.txt';
input no height weight vital;
proc corr nosimple;
var height weight vital;
proc corr nosimple;
var height vital;
partial weight;
title 'Partial Corrlation Matrix';
run;
输出说明:相关系数矩阵给出了相关系数(r)和p 值,p 值是检验无效假设H 。:总体真正相关系数(Rh 。)为零的显著性概率。其中:
第一表给出了三个变量的简单相关系数矩阵,可以看出两两均出现明显相关。
第二表给出了偏相关系数。在使用PARTIAL 语句时,CORR 过程要在固定体重同时求身高、肺活量这对变量的偏相关系数。
偏相关系数比较真实的反应了两变量乊间的相关性。由本例可见身高与肺活量乊间实际上并没有显著相关。
第二节 REG 过程
10.2.1 回归分析
回归,一般说来是研究随机变量和非随机变量乊间的数量依存关系。如自变量X 与因变量Y 乊间呈直线关系时,称直线回归。直线回归要求因变量Y 是服从正态分布且方差相等的随机变量。
当自变量不只一个时,可进行多元线性回归分析,以研究一个因变量与多个自变量乊间的线性依存关系,从而起到更有效的预报和控制作用。
当变量间不是线性关系时,通常是进行数据转换以满足所需条件,再进行线性回归分析。当然有时也需要用原始数据进行非线性的回归分析。
REG 过程是用最小平方法解出线性回归模型:
u X X X Y k k +++++=ββββ 22110
的程序。实际分析中,是以实际观测资料为基础,拟合出该方程的参数以获得对变量Y 的最佳线性无偏估计。
10.2.2 语句说明
1.过程格式
PROC REG [选择项];
MODEL 因变量=自变量/[选择项];
VAR 变量;
OUTPUT OUT=dataset KEYWORD=names …;
PLOT 变量1*变量2=‘符号’/选项;
FREQ 变量;
WEIGHT 变量;
BY 变量;
2.说明
(1)PROC REG 语句
PROC REG [选择项];
调用REG 过程,拟合回归模型中的待定参数,并进行统计分析。PROC REG 语句的选择项主要有:
DATA=dataset 命名REG 过程所用的SAS 数据集,缺省时用当前数据集
OUTEST=dataset 给出输出参数估计的数据集
OUTSSCP=dataset 指定输出相关矩阵到TYPE=SSCP 的数据集名,该数据集含有平方和及变量叉积。 当有大量数据要在不同的处理过程中使用时,用此选择项很有帮助。
(2)MODEL 语句
MODEL 因变量=自变量表/[选择项];
指明因变量和自变量,选择项是有关回归计算、估计、预测值和残差,常用的有:
STB 打印标准回归系数
CORRB 打印估计的相关矩阵
COLLINOINT 请求进行自变量的共线性分析
P 计算预测值及残差
R 请求分析残差
CLM 打印因变量均值95%的置信界限的上下限
CLI 对各预测值打印95%的置信界限的上下限
DW 给出DW 统计量
I 输出1)(-'X X 矩阵
(3)VAR 语句
VAR 变量表;
列出叉积矩阵中的变量,仅当具有OUTSSCP=dataset 这个选择时才使用。