相关分析和回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

STAT
2. 相关系数计算
1) 在INSIGHT模块中,打开数据集Mylib.bldk; 2) 选择菜单“Analyze(分析)”→“Multivariate (Y X)(多变量)”; 3) 在打开的“Multivariate (Y X)”对话框中选定Y变 量:Y;选定X变量:x1、x2、x3、x4; 4) 单击“OK”按钮,得到分析结果。
基于这些p值,拒绝原假设,即不良贷款与其他几个 变量之间均存在着显著的正相关关系。
SAS软件与统计应用教程
STAT
3. 置信椭圆
继续上述步骤。 6) 选 择 菜 单 : “ Curves”→“Scatter Plot Cont Ellipse”→“Prediction:95%”,得到不良贷款与其他 几个变量的散点图及预测值的置信椭圆,如图所示。
与居民年消费额(x3)、日人流量(x2)、商场商品的丰富程 度满意度(x6)、对商场设施的满意度(x5)的相关系数显著
不为0(p < = 0.05);另一方面,不能拒绝单位面积
营业额(Y)与每小时机动车流量(x1)、对商场环境的满意 度(x4)相关系数为0的假设。
SAS软件与统计应用教程
STAT
变量Y和x1间散点图上的这个椭圆被拉得很长,表明变 量Y和x1之间有很强的相关性。
SAS软件与统计应用教程
STAT
4.1.3 用“分析家”作相关分析
【例4-2】通常用来评价商业中心经营好坏的一个综合 指标是单位面积的营业额,它是单位时间内(通常为一 年)的营业额与经营面积的比值。对单位面积营业额的 影响因素的指标有单位小时车流量、日人流量、居民年 平均消费额、消费者对商场的环境、设施及商品的丰富 程度的满意度评分。这几个指标中车流量和人流量是通 过同时对几个商业中心进行实地观测而得到的。而居民 年平均消费额、消费者对商场的环境、设施及商品的丰 富程度的满意度评分是通过随机采访顾客而得到的平均 值数据。表4-2为从某市随机抽取的20个商业中心有关 指标的数据,试据此说明变量间的相关程度。
3.90
1.94
7
9
6
2
3.2
0.26
4.24
2.86
7
4
6
3
2.5
0.72
4.54
1.63
8
8
7
4
3.4
1.23
6.98
1.92
6
10
10
5
1.8
0.69
4.21
0.71
8
4
7
6
0.9
0.36
2.91
0.62
5
6
5


15
2.6
… 1.04



5.53
1.30
10


7
9
16
2.7
1.18
5.98
H0:ρ = 0;H1:ρ ≠ 0
SAS软件与统计应用教程
STAT
1) 提出假设:假设样本是从一个不相关的总体中抽出 的,即
H0:ρ = 0;H1:ρ ≠ 0 2) 由样本观测值计算检验统计量:
t |r|
n2 1r2
~t(n2)
的观测值t0和衡量观测结果极端性的p值:
p = P{| t | ≥ | t0 |} = 2P{t ≥ |t0|} 3) 进行决策:比较p和检验水平作判断:p < ,拒
绝原假设H0;p ,不能拒绝原假设H0。
SAS软件与统计应用教程
STAT
4. 置信椭圆
可以生成两类置信椭圆: ● 均值置信椭圆:预测两变量均值的置信区域; ● 预测值置信椭圆:预测两变量分布个别观测值的 置信区域。 关于预测值置信椭圆的两点说明: 1) 作为置信曲线,表示数据以设定的百分率(置信水 平)落入的椭圆区域; 2) 作为相关性指标。若两个变量不相关,椭圆应该为 圆;两个相关的变量有拉长的椭圆,可以用椭圆长短轴 之比来衡量相关的程度。
STAT
图4-10 Y与x1、x2、x3、x4、x5、x6的散点图及置信椭圆
1) 在INSIGHT模块中,打开数据集Mylib.bldk; 2) 选择菜单“Analyze(分析)”→“Scatter Plot (Y X)(散点图)”; 3) 在打开的“Scatter Plot (Y X)”对话框中选定Y变量: Y;选定X变量:x1、x2、x3、x4; 4) 单击“OK”按钮,得到变量的分析结果。
39.7
25
3.2
102.2
12.0
10
97.1
银行想知道,不良贷款是否与贷款余额、应收贷款、贷
款项目的多少、固定资产投资等因素有关?如果有,是 一种什么样的关系?关系强度如何?
SAS软件与统计应用教程
STAT
设表4-1中数据已经存放在数据集Mylib.bldk中。
1. 制作散点图
首先制作变量之间的散点图,以便判断变量之间的相 关性。步骤如下:
1.28
8
7
9
17
1.4
0.61
1.27
1.48
6
7
1
18
3.2
1.05
5.77
2.16
7
10
9
19
2.9
1.06
5.71
1.74
6
9
9
20
2.5
0.58
4.11
1.85
7
9
6
设表4-2数据已保存在数据集Mylib.jyzk中。
SAS软件与统计应用教程
STAT
1. 相关分析的设置
在“分析家”中作相关分析的步骤如下: 1) 在“分析家”中打开数据集Mylib.jyzk; 2) 选择主菜单“Statistics”→“Descriptive(描述性统 计 ) ” → “ Correlations ( 相 关 ) ” , 打 开 “Correlations”对话框,按图4-8 设置分析变量及内容。
SAS软件与统计应用教程
STAT
表4-1 某商业银行2019年的主要业务数据
分行 不良贷款 编号 (亿元)x1
各项贷款余 本年累计应收 贷款项目个数 本年固定资产投资额
额(亿元)x2 贷款(亿元)x3 (个)x4
(亿元)x5
1
0.9
67.3
6.8
5
51.9
2
1.1
111.3
19.8
16
90.9
3
4.8
STAT
从相关系数的取值来看,单位面积营业额(Y)与居
民年消费额(x3)、日人流量(x2)接近高度相关;单 位面积营业额(Y)与每小时机动车流量(x1)、对商 场环境的满意度(x4)、对商场设施的满意度(x5)为 低度相关;单位面积营业额(Y)与商场商品丰富程度
满意度(x6)则属于中度相关。 从相关系数的假设检验结果来看,单位面积营业额(Y)
173.0
7.7
1773.74源自3.280.87.2
10
14.5
5
7.8
199.7
16.5
19
63.2






20
6.8
139.4
7.2
28
64.3
21
11.6
368.2
16.8
32
163.9
22
1.6
95.7
3.8
10
44.5
23
1.2
109.6
10.3
14
67.9
24
7.2
196.2
15.8
16
SAS软件与统计应用教程
STAT
2. 结果分析
显示结果首先给出各个变量的描述性统计量,包括观 测总数、各变量的均值及标准差等。然后给出变量的相 关系数矩阵(分析变量中任两者之间的相关系数),以 及原假设为H0:Rho = 0(即H0:ρ = 0)的检验结果 (仅给出p值),如图4-9所示。
SAS软件与统计应用教程
图4-1就是不同形态的散点图。
STAT
(a)
(b)
(c)
(d)
就两个变量而言,如果变量之间的关系近似地表现为
一条直线,则称为线性相关,如图4-1(a)和(b);如果变
量之间的关系近似地表现为一条曲线,则称为非线性相
关或曲线相关;如图4-1(c);如果两个变量的观测点很
分散,无任何规律,则表示变量之间没有相关关系,如
SAS软件与统计应用教程
STAT
结果显示各变量的统计量和相关(系数)矩阵,从相关
矩阵中可以看出,在不良贷款Y与其他几个变量的关系
中,与贷款余额(x1)的相关系数最大,而与固定资产投 资额(x4)的相关系数最小。
SAS软件与统计应用教程
STAT
5) 为了检验各总体变量的相关系数是否为零,选择菜 单:“Tables”→“CORR p-values”,得到相关系数为零 的原假设的p值,如图4-6所示。
SAS软件与统计应用教程
STAT
相关系数r有如下性质: ● 当–1 < r < 1时,为说明两个变量之间的线性关系 的密切程度,通常将相关程度分为以下几种情况:当| r | ≥ 0.8时,可视为高度相关;0.5 ≤ | r | < 0.8时,可视为 中度相关;0.3 ≤ | r | <0.5时,视为低度相关;当| r | < 0.3时,说明两个变量之间的相关程度极弱,可视为不 相关。但这种解释必须建立在对相关系数进行显著性检
3. 置信椭圆
在 分 析 家 窗 口 的 项 目 管 理 器 中 依 次 双 击 “ Scatter Plots”下的“Confidence ellipse:YX1”~“Confidence ellipse:YX6”项,得到各变量与单位面积营业额的散 点图如图4-10。
SAS软件与统计应用教程
SAS软件与统计应用教程
从各散点图中可以看
出,不良贷款(Y)与贷款 余额(x1)、应收贷款(x2)、 贷款项目多少(x3)、固定 资产投资额(x4)之间都具 有一定的线性关系。但
从各散点的分布情况看,
与贷款余额(x1)的线性关 系比较密切,而与固定
资产投资额(x4)之间的关 系最不密切。
STAT
SAS软件与统计应用教程
SAS软件与统计应用教程
STAT
4.1.2 用INSIGHT模块作相关分析
【例4-1】一家大型商业银行在多个地区设有分行,其 业务主要是进行基础设施建设、国家重点项目建设、固 定资产投资等项目的贷款。近年来,该银行的贷款额平 稳增长,但不良贷款额也有较大比例的提高,这给银行 业务的发展带来较大压力。为弄清楚不良贷款形成的原 因,希望利用银行业务的为弄清楚不良贷款形成的原因, 希望利用银行业务的有关数据做些定量分析,以便找出 控制不良贷款的办法。表4-1就是该银行所属的25家分 行2019年的有关业务数据。
验的基础之上。
SAS软件与统计应用教程
STAT
3. 相关系数的显著性检验
相关系数的显著性检验也就是检验总体相关系数是否 显著为0,通常采用费歇尔(Fisher)提出的t分布检验, 该检验可以用于小样本,也可以用于大样本。检验的具 体步骤如下:
1) 提出假设:假设样本是从一个不相关的总体中抽出 的,即
图4-l(d)。
SAS软件与统计应用教程
STAT
2. 相关系数
相关系数是对变量之间关系密切程度的度量。若相关 系数是根据总体全部数据计算的,称为总体相关系数, 记为ρ;总体相关系数的计算公式为:
COV(X,Y)
D(X) D(Y)
其中COV(X,Y)为变量X和Y的协方差,D(X)和D(Y)分 别为X和Y的方差。
SAS软件与统计应用教程
STAT
第四章 相关分析与回归分析
4.1 简单相关分析 4.2 回归分析 4.3 非线性回归
SAS软件与统计应用教程
STAT
4.1 简单相关分析
4.1.1 相关分析的基本概念 4.1.2 用INSIGHT模块作相关分析 4.1.3 用“分析家”作相关分析
SAS软件与统计应用教程
SAS软件与统计应用教程
STAT
若相关系数是根据样本数据计算的,则称为样本相关
系数(简称为相关系数),记为r。样本相关系数的计 算公式为:
n
(xi x)(yi y)
r
i1
n (xi x)2 n (yi y)2
i1
i1

一般情况下,总体相关系数ρ是未知的,我们通常是 将样本相关系数r作为ρ的近似估计值。
SAS软件与统计应用教程
STAT
相关系数r有如下性质: ● 相关系数的取值范围:–1 ≤ r ≤ 1,若0 < r ≤ 1,表 明X与Y之间存在正线性相关关系,若–1 ≤ r < 0,表明X 与Y之间存在负线性相关关系。 ● 若r = 1,表明X与Y之间为完全正线性相关关系; 若r = –1,表明X与Y之间为完全负线性相关关系;若r = 0,说明二者之间不存在线性相关关系。
SAS软件与统计应用教程
STAT
表4-2 20个商业中心有关指标的数据
商业中 心编号
单位面积年 每小时机动 日人流 居民年消
营业额(万元 车流量(万 量 (万 费额(万
/平方米)Y 辆)x1
人)x2 元)x3
对商场环 境满意度 x4
对商场设 对商场商品
施满意度 丰富程度满
x5
意度x6
1
2.5
0.51
4.1.1 相关分析的基本概念
STAT
1. 散点图
散点图是描述变量之间关系的一种直观方法。我们用 坐标的横轴代表自变量X,纵轴代表因变量Y,每组数 据(xi,yi)在坐标系中用一个点表示,由这些点形成的散 点图描述了两个变量之间的大致关系,从中可以直观地 看出变量之间的关系形态及关系强度。
SAS软件与统计应用教程
相关文档
最新文档