第5章 相关分析与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Spearman等级相关系数为
对Spearman等级相关系数的统计检验,一 般如果个案数n≤30,将直接利用Spearman等 级相关统计量表,SPSS将自动根据该表给出对 应的P值(相伴概率)。
Kendall’s tau-b 等级相关系数
对Kendall's tua-b等级相关系数的统计 检验,一般如果个案数n≤30,将直接利用 Kendall's tua-b等级相关统计量表,SPSS将 自动根据该表给出对应的相伴概率值。
<=0.05 相关
计算相关系数有不同的方法。其中,皮 尔逊积矩相关系数(Pearson简单相关系数) 适用等间隔测度,而Spearman相关系 数和Kendall相关系数都是非参测度。
Pearson简单相wk.baidu.com系数 Pearson简单相关系数用来衡量定距变量 间的线性关系。如衡量国民收入和居民储蓄存 款、身高和体重、高中成绩和高考成绩等变量 间的线性相关关系。
③ 其它输入选项
“Model fit”输出相关系数、相关系数平方、调整系数、估计 标准误、ANOVA表。 “R squared change”输出由于加入和剔除变量而引起的复相 关系数平方的变化。 “Descriptives”输出变量矩阵、标准差和相关系数单侧显著性 水平矩阵。 “Part and partial correlation”相关系数和偏相关系数。 “Collinearity diagnostics”显示单个变量和共线性分析的公 差
[Options] 选项
①Statistics : Means and standard deviations 显示每一个变量的均值和标准差 Zero-order correlations:零阶相关系数,显示所有变 量的Pearson相关系数 ② Missing values:缺失值 Exclude cases pairwise:成对删除 Exclude cases listwise:成列删除
2.相关分析过程的操作原理
选择Analyze—Correlate 相关分析过程具体包括: Bivariate:计算双变量间的相关系数; Partial:计算偏相关系数; Distances:对变量进行相似性或不相似性测度。
双变量相关分析过程
[Statistics]——[Correlate]——[Bivariate] 数据5-1
“Statistics”
①“Regression Coefficients”回归系数选项: “Estimates”输出回归系数和相关统计量。 “Confidence interval”回归系数的95%置信区间。 “Covariance matrix”回归系数的方差-协方差矩阵。
②“Residuals”残差选项:
Two-tailed:双侧检验(默认) One-tailed:单侧检验
③ “Flag significant correlations”:选择 相关显著度水平的标识,该标识就是*号。 当显著度水平低于0.05时,显示一个*号, 当低于0.01时,将显示两个*号。
[Options] 选项
①Statistics : Means and standard deviations 显示每一个变量的均值和标准差 Cross-product deviations and covariances 每一对变量的离均差交叉积与协方差 ② Missing values:缺失值 Exclude cases pairwise:成对删除 Exclude cases listwise:成列删除
偏相关分析
二元变量的相关分析在一些情况下无法较 为真实准确地反映事物之间的相关关系。例如, 在研究某农场春季早稻产量与平均降雨量、平 均温度之间的关系时,产量和平均降雨量之间 的关系中实际还包含了平均温度对产量的影响。 同时平均降雨量对平均温度也会产生影响。在 这种情况下,单纯计算简单相关系数,显然不 能准确地反映事物之间地相关关系,而需要在 剔除其他相关因素影响的条件下计算相关系数。 偏相关分析正是用来解决这个问题的。
第5章 相关分析与回归分析
1.皮尔逊积矩系数、Spearman相关系 数以及Kendall相关系数的计算与分析; 2.偏相关系数的计算与伪相关系数的鉴 别; 3.简单线性回归; 4.多元线性回归;
统计学原理
变量间的关系分为确定性关系和非确定性关系。 确定性关系即函数关系,非确定性关系即相关关系。 相关分析的主要目的是研究变量之间关系的密切程度。 回归分析是揭示一个变量如何与其他变量相联系,前者叫做 解释变量,后者叫做被解释变量 相关分析和回归分析都是对客观事务数量依存关系的分析。
(1)线性回归过程
在数学关系式中只描述了一个变量与另一个变量之 间的数量变化关系,则称其为一元回归分析。
其回归模型为
y 称为因变量,x称为自变量, 称为随机误差, a,b 称为待估计的回归参数,下标 i 表示第i个观测 值。 如果给出a和b的估计量分别为 方程: 一般把 的“估计量”。 , ,则经验回归
“Standardized Residual Plots”设置各变量的标准化残 差图形输出。 “Histogram”用直方图显示标准化残差。 “Normal probability plots”比较标准化残差与正态 残 差的分布示意图。 “Produce all partial plot”偏残差图。对每一个自变量生 成其残差对因变量残差的散点图。
1.相关分析的统计学原理
相关系数的取值范围在−1和+1之间,即 −1≤r≤+1。其中: 若0<r≤1,表明变量之间存在正相关 关系,即两个变量的相随变动方向相同; 若−1≤r<0,表明变量之间存在负相 关关系,即两个变量的相随变动方向相反;
为了判断r对ρ 的代表性大小,需要对相关系数 进行假设检验。 (1)首先假设总体相关性为零,即H0为两总体无显 著的线性相关关系。
零假设 备择假设 H0: x,y 不相关 H1: x,y 相关
(2)其次,计算相应的统计量,并得到对应的P值。 如果P值小于或等于指定的显著性水平,则拒绝H0, 认为两总体存在显著的线性相关关系;如果P值大于 指定的显著性水平,则不能拒绝H0,认为两总体不存 在显著的线性相关关系。
>0.05 不相关 P= α通常取0.05。 也有时α取值0.01或0.001
选择求相关的变量:至少选择两个移动到:Variables内。
①Correlation Coefficients :相关类型
Pearson:皮尔逊积矩相关系数 Kendall’s tau-b:肯德尔和谐系数 Spearman:斯皮尔曼等级相关系数
② Test of significance:显著性检验
“Durbin-Watson”Durbin-Watson检验。 “Casewise diagnostic”输出满足选择条件的观测量的 相关信息。选择该项,下面两项处于可选状态: “Outliers outside standard deviations”选择标准 化残差的绝对值大于输入值的观测量; —“All cases”选择所有观测量。
称为残差, 残差可视为扰动
―Analyze‖——―Regression‖——―Linear
数据文件5-5
“Dependent”:因变量
“Independent(S)”:自变量 注:SPSS中一元回归和多元回归以及多元逐步回归都是使 用同一过程,所以该栏可以输入多个自变量。 “Selection Variable”:控制变量输入栏。控制变量相当于 过滤变量,即必须当该变量的值满足设置的条件时,观测量 才能参加回归分析。输入控制变量后,激活“Rule”按钮。 “Case Labels”:选择观测量的标签变量。在输出结果中, 可显示该观测量的值,通过该变量的值可查看相应的观测量。 “WLS”:选择加权变量。
“Save”
①“Predicted Values”预测值栏选项:
– Unstandardized 非标准化预测值。就会在当前 数据文件中新添加一个以字符“PRE_”开头命名 的变量,存放根据回归模型拟合的预测值。 – Standardized 标准化预测值。 – Adjusted 调整后预测值。 – S.E. of mean predictions 预测值的标准误。
“Plots”
该对话框用于设置要绘制的图形的参数。 “X”和“Y”框用于选择X轴和Y轴相应的变量。
左上框中各项的意义分别为: • “DEPENDNT”因变量。 • “ZPRED”标准化预测值。 • “ZRESID”标准化残差。 • “DRESID”删除残差。 • “ADJPRED”调节预测值。 • “SRESID”学生氏化残差。 • “SDRESID”学生氏化删除残差。
统计学上的定义和计算公式
定义:偏相关分析是指当两个变量同时与 第三个变量相关时,将第三个变量的影响剔除, 只分析另外两个变量之间相关程度的过程。 偏相关分析的工具是计算偏相关系数r12,3。
偏相关分析过程
[Statistics]——[Correlate]——[Partial] 数据5-2
选择两个求相关变量到:Variables 框内 选择中介变量到控制变量“Controlling”框中 显示相关显著度水平的标识“Display actual significance”
偏相关系数的计算与伪相关的鉴别 数据文件5-4
2.回归分析的统计学原理
回归分析是研究客观事物变量间的关系,它是建立在对客 观事物进行大量试验和观察的基础上,通过建立数学模型 寻找不确定现象中所存在的统计规律的方法。回归分析所 研究的主要问题就是研究因变量(y)和自变量(x)之间数量 变化规律,如何利用变量X,Y的观察值(样本),对回 归函数进行统计推断,包括对它进行估计及检验与它有关 的假设等。
计算公式如下。 Pearson简单相关系数计算公式为
对Pearson简单相关系数的统计检验是计 算t统计量,公式为
t统计量服从n−2个自由度的t分布。
Spearman和Kendall's tua-b等级相关系 数用以衡量定序变量间的线性相关关系,它们 利用的是非参数检验的方法。 定序变量又称为有序(ordinal)变量、 顺序变量,它取值的大小能够表示观测对象的 某种顺序关系(等级、方位或大小等),也是 基于“质”因素的变量。例如,“最高学历” 变量的取值是:1—小学及以下、2—初中、3— 高中、中专、技校、4—大学专科、5—大学本 科、6—研究生以上。由小到大的取值能够代 表学历由低到高。
“Method”:选择一种回归分析方式。
①强行介入法Enter(一次性进入) 这是一种不检验F和Tolerance,一次将全部自变量无条件地 纳入回归方程。 ②强行剔除Remove(一次性剔除) 指定某些变量不能进入方程。这种方法通常同别的方法联合 使用,而不能首先或单独使用,因为第一次使用或单独使用 将意味着没有哪个变量进入方程。 ③逐步进入Stepwise 每次选择符合进入条件的自变量进入方程,进入后立即检验, 不合格者剔除,直到全部合格自变量进入方程。 ④反向剔除Backward 先强行介入,再逐个剔除不合格变量,直到全合格。 ⑤正向进入Forward 每次选择符合进入条件的自变量进入方程,逐个选择,逐个 进入,直到全部合格自变量进入方程。
Уi=β0+β1x2i+β2x+…+βkxki+μi
回归分析过程操作原理
选择Analyze—Regression
打开“Regression”的右拉式菜单,菜单包含:
– 1. Linear 线性回归。 – 2. Curve Estimation 曲线估计。 – 3. Binary Logistic 二元逻辑分析。 – 4. Multinomial Logistic 多元逻辑分析。 – 5. Ordinal 序数分析。 – 6. Probit 概率分析。 – 7. Nonlinear 非线性估计。 – 8. Weight Estimation 加权估计。 – 9. 2-Stage Least Squares 两段最小二乘法。