spss回归分析相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
散点图:
是将数据以点的形式画在直角坐标系上,通过观察散点图能够 直观的发现变量间的相关关系及它们的强弱程度和方向。
y y
x
完全正相关
x
无相关
正相关
y
y
y
x
x
x
完全负相关 负相关 无相关
实际操作:
相关分析 Correlations
• 简单散点图:生成一对相关变量的散点图 • 重叠散点图:生成多对相关变量的散点图 • 矩阵散点图:同时生成多对相关变量的矩阵散点图 • 三维散点图:生产成三个变量之间的三维散点图
n
( xi x) ( yi y)
i 1 i 1
n
2 n
2
Pearson简单相关系数的检验统计量为:
t r n2 1 r 2 ~ t (n 2)
相关分析 Correlations
Pearson系数用来度量定距型变量间的相关系数。 积距相关分析,即最常用的参数相关分析,适用于双正态连续变量。
• 2.对样本来自的两总体是否存在显著的线性关系进行推断。
由于存在随机抽样和样本数量较少等原因,通常样本相关系数不能 直接用来说明样本来自的总体是否具有显著的线性相关 而需要通过假设检验的方式对样本来自的总体是否存在显著的线性 相关关系进行统计推断。基本步骤是: (1)提出原假设,即两总体无显著的线性关系。 (2)选择检验统计量,即不同的相关系数。 (3)计算检验统计量的观测值和对应的概率值。 (4)决策:p与a的关系。
回归分析
理论和方法具有一致性; 相关分析是回归分析的基础和前提,无相关就无回归,相关程度 越高,回归越好;
回归分析是相关分析的继续和深化;
相关系数和回归系数方向一致,可以互相推算。
• (二)回归分析的种类
按自变量的多少分 简单(一元)回归: y = a+bx 复(多元)回归: y=0+ 1x1+ 2x2+…+ nxn 按回归方程式的特征分 线性回归:因变量为自变量的线性函数。 y = a+bx 一元线性回归方程 非线性回归:因变量为自变量的非线性函数
相关分析 Correlations
对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要 有Pearson简单相关系数、Spearman等级相关系数和Kendall 相关系数等。 1.Pearson简单相关系数(适用于两个变量都是数值型的数据)
R源自文库
xy
( x x)( y y)
i 1 i i
i 1 i 1
小样本下,在零假设成立时, Spearman等级相关系数服从 Spearman分布; 在大样本下, Spearman等级相关系数的检验统计量为Z统计量, 定义为 Z r n 1 Z统计量近似服从标准正态分布。
• 3.Kendall 相关系数 用非参数检验方法度量定序变量间的线性相关关系 利用变量秩数据计算一致对数目和非一致对数目。 当两个变量具有较强的正相关关系,则一致对数目较大,非 一致对数目较小, 当两个变量具有较强的负相关关系,则一致对数目较小,非 一致对数目较大, 当两个变量相关性较弱,则一致对数目和非一致对数目大致 相等
i i
r 1
n(n2 1)
6 Di2
,其中 Di2 (Ui Vi )2
i 1 i 1
n
n
如果两变量的正相关性较强,它们秩的变化具有同步性,于是
2 D ( U V ) i i i 1 2 i i 1 n n
较小,r趋向于1;
如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是 n n 2 2 较大,r趋向于0; D ( U V ) i i i
回归分析:通过一个(些)变量的变化解释另一变量的变化
线性相关分析:计算线性相关系数 r 确定两变量之间的相关 方向与密切程度 无法表明两变量之间的因果关系 无法从一个或几个变量(xi) 的变化来推测另一个变量(y)的变化情况 在于通过X的已知或设定值,去估计或预测Y的(总体)均值。 变量Y是被预测或被解释的变量,称为因变量(Dependent Variable)或 被解释变量(Explained Variable) 变量X是用来预测或解释因变量的变量,称为 自变量(Independent Variable)或解释变量(Explanatory Variable)
偏相关系数的取值范围及大小含义与相关系数相同。
• (2)对样本来自的两总体是否存在显著的净相关进行推断,检 验统计量为:
nq2 tr 1 r2
• 其中,r为偏相关系数,n为样本数,q为阶数。t统计量服从n-q2个自由度的t分布。
• 对于案例8-1,已经分析了家庭收入与计划购房面积之间的相关性。 直观感觉这种相关性会受到家庭常住人口数影响。为此可将家庭 常住人口数作为控制变量,对家庭收入与计划购房面积作偏相关 分析。 • 分析(analyze) • 相关(correlate) • 偏相关(partial)
简单散点图:
• ①表示一对变量间统计关系的散点图 • ②将纵轴变量选入【Y 轴】, • ③将横轴变量选入【X轴】, • ④将分组变量选入【设置标记】:用该变量分组,并在一张图上用 不同颜色绘制若干个散点图。 • ⑤将标记变量选入【标注个案】:将标记变量的各变量值标记在 散点图相应点的旁边。
计算相关系数:
ˆ y )2 由x的变动造成的离差(可解释的变差) ( y ˆ ˆ xe ˆ ˆ x)2 e2 ˆ )2 ( (2)SSE分析: ( y y
0 1 0 1
2 ˆ ( y y) 由残差的原因造成的误差(剩余变差)
ˆ越接近y 拟合程度越好 误差e越小 y ˆ越远离y 拟合程度越差 误差e越大 y
Spearman相关等级系数用来度量定序变量间的线性相关系数。 该系数的设计思想与Pearson简单相关系数完全相同,只是应用的范 围不一样。 对数据没有严格的要求。
Kendall采用非参数检验方法用来度量定序变量的线性相关关系。 对数据分布没有严格要求,适用于有序(等级)变量之间的关联程度。 尝试把 收入分为等级 然后kendell
计算样本的偏相关系数 假设有三个变量y、x1和x2,在分析x1和y之间的净相关时, 需控制x2的线性作用,则x1和y之间的一阶偏相关定义为:
ry1,2 ry1 ry 2 r12
2 (1 ry22 )(1 r12 )
其中,ry1、ry 2、r12分别表示y和x1的相关系数、y和x 2的相关系数、 x1和x 2的相关系数。
偏相关分析:
(3)偏相关分析也称净相关分析,它在控制其他变量线 性影响的条件下分析两变量间的线性关系,所采用的工具 是偏相关系数。
(4)控制变量个数为1时,偏相关系数称一阶偏相关; 控制两个变量时,偏相关系数称为二阶偏相关; 控制变量的个数为0时,偏相关系数称为零阶偏相关,也 就是简单相关系数。
偏相关系数的分析步骤:
• Kendall 相关系数
2 (U V ) n(n 1) U 一致对数目,V 非一致对数目,
在小样本下,Kendall相关系数服从Kendall分布;在 大样本下, Kendall相关系数的检验统计量为Z统计 量,定义为: 9n(n 1) Z 2(2n 5) Z统计量近似服从标准正态分布。
相关分析
Correlations
线性相关:当一个变量的值发生变化时,另外的一个变量也发 生大致相同的变化。(+ -) 非线性相关:如果一个变量发生变动,另外的变量也随之变动, 但是,其观察值分布近似的在一条曲线上。
相关分析 Correlations
如果仅仅研究变量之间的相互关系的密切程度和变化趋势,并用适当的 统计指标描述。这就是相关分析。 如果要把变量间相互关系用函数表达出来,用一个或多个变量的取值来 估计另一个变量的取值,这就是回归分析。 绘制散点图和计算相关系数是相关分析最常用的工具,它们的相互结合 能够达到较为理想的分析效果
相关分析 Correlations
2 Spearman等级相关系数 •Spearman等级相关系数用来度量定序变量间的线性相关关系, •设计思想与Pearson简单相关系数相同,只是数据为非定距的,故 计算时不直接采用原始数据( xi , yi ) 而是利用数据的秩,用两变量的 秩 (U ,V ) 代替 ( xi , yi ) 代入Pearson简单相关系数计算公式 •于是其中的 和 的取值范围被限制在1和n之间,且可被简化为:
相关分析 Correlations
正态分布:皮尔逊积矩相关只适用于双元正态分别的 变量。如果正态分布的前提不满足,两变量之间的关系 可能属于非线性相关。 样本独立性:被试必须来自于总体的随机样本,且被 试之间必须相互独立。 替换极值:变量中的极端如极值、离群值对相关系数 的影响较大,最好加以剔除或代之以均值或中数。
回归方程的方差分析
2 2 ˆ ˆ ( y y ) ( y y) ( y y ) 总离差平方和(SST ) 残差平方和(SSE) 回归平方和(SSR) 2
ˆ ˆ x ˆ ˆ x )2 ˆ 2( x x )2 ˆ y )2 ( (1)SSR分析: ( y 0 1 0 1 1
利用相关系数进行变量间线性关系的分析通常需要 完成以下两个步骤: 1.计算样本相关系数r; 相关系数r的取值在-1---+1之间 r>0表示两变量存在正的线性相关关系;r<0表示 两变量存在负的线性相关关系 r=1表示两变量存在完全正相关;r=-1表示两 变量存在完全负相关;r=0表示两变量不相关 |r|>0.8表示两变量有较强的线性关系; |r|<0.3 表示两变量之间的线性关系较弱
回归模型(regression model)
定义:描述因变量 y 如何依赖于自变量 x 和误差项 一元线性回归模型可表示为 方程
y 是 x 的线性函数 部分)加上误差项线性部分反映了 由于 x 的变化而引起的 y 的变化 误差项 是随机变量反映除了x 和 y 之间的线性关系以外的 随机因 素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 • • 称为模型的参数
ˆ )2 ( y y SSE ˆ的平均误差 Se MSE y与y n2 n2
SSR占SST的比例,用判定系数 表示; 用来衡量回归方程对y的解释程度。
2 2 ˆ ˆ 对y的拟合效果好 R 越大 ( y y ) 越小 y 2 2 ˆ ˆ 对y的拟合效果差 R 越小 ( y y ) 越大 y
• 在给定样本中,SST不变,如果实际观测点离样本回归线越近,则 SSR在SST中占的比重越大,因此回归直线的拟合优度可用下面的 判定系数(可决系数)测度
R
2
SSR SSE 1 SST SST
判定系数(coefficient of determination)的取值范围: 说明实际观测点离样本线越近,拟合优度越高。
越接近1,
回归分析
判定系数无方向性,相关系数则有方向,其方向与样本回归系数 β 1相同; 判定系数说明变量值的总离差平方和中可以用回归线来解释的比 例,相关系数只说明两变量间关联程度及方向;
相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的 度量值。
估计标准误差
定义:观察值与回归值之间的平均误差。 公式
ˆ ˆx 样本 : y ˆ 0 1 回归分析 总体 : E (Y ) X 0 1
ˆ ) 2 : 观察值与回归值的离差 ( y y 平方和
偏相关分析:
偏相关分析和偏相关系数
简单相关系数研究两变量间线性相关性,若还存在其他 因素影响,其往往夸大变量间的相关性,不是两变量间线性相 关强弱的真实体现。
例如,研究商品的需求量、价格和消费者收入之间的线 性关系时,需求量和价格的相关关系实际还包含了消费者收入 对价格和商品需求量的影响。此时,单纯利用简单相关系数来 评价变量间的相关性是不准确的,需要在剔除其他相关因素影 响的条件下计算变量间的相关。