第5章相关分析与回归分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Spearman等级相关系数为
对Spearman等级相关系数的统计检验，一般如果个案数n≤30，将直接利用Spearman等级相关统计量表，SPSS将自动根据该表给出对应的P值（相伴概率）。
Kendall’s tau-b 等级相关系数
对Kendall's tua-b等级相关系数的统计检验，一般如果个案数n≤30，将直接利用 Kendall's tua-b等级相关统计量表，SPSS将自动根据该表给出对应的相伴概率值。
<=0.05 相关
计算相关系数有不同的方法。其中，皮尔逊积矩相关系数(Pearson简单相关系数) 适用等间隔测度，而Spearman相关系数和Kendall相关系数都是非参测度。
Pearson简单相wk.baidu.com系数 Pearson简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。
③ 其它输入选项
“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。 “R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。 “Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。 “Part and partial correlation”相关系数和偏相关系数。 “Collinearity diagnostics”显示单个变量和共线性分析的公差
[Options] 选项
①Statistics ： Means and standard deviations 显示每一个变量的均值和标准差 Zero-order correlations:零阶相关系数，显示所有变量的Pearson相关系数 ② Missing values：缺失值 Exclude cases pairwise：成对删除 Exclude cases listwise：成列删除
2.相关分析过程的操作原理
选择Analyze—Correlate 相关分析过程具体包括： Bivariate:计算双变量间的相关系数； Partial:计算偏相关系数； Distances:对变量进行相似性或不相似性测度。
双变量相关分析过程
[Statistics]——[Correlate]——[Bivariate] 数据5-1
“Statistics”
①“Regression Coefficients”回归系数选项： “Estimates”输出回归系数和相关统计量。 “Confidence interval”回归系数的95%置信区间。 “Covariance matrix”回归系数的方差-协方差矩阵。
②“Residuals”残差选项：
Two-tailed：双侧检验（默认） One-tailed：单侧检验
③ “Flag significant correlations”：选择相关显著度水平的标识，该标识就是*号。当显著度水平低于0.05时，显示一个*号，当低于0.01时，将显示两个*号。
[Options] 选项
①Statistics ： Means and standard deviations 显示每一个变量的均值和标准差 Cross-product deviations and covariances 每一对变量的离均差交叉积与协方差 ② Missing values：缺失值 Exclude cases pairwise：成对删除 Exclude cases listwise：成列删除
偏相关分析
二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如，在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时，产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下，单纯计算简单相关系数，显然不能准确地反映事物之间地相关关系，而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。
第5章相关分析与回归分析
1.皮尔逊积矩系数、Spearman相关系数以及Kendall相关系数的计算与分析; 2.偏相关系数的计算与伪相关系数的鉴别； 3.简单线性回归； 4.多元线性回归；
统计学原理
变量间的关系分为确定性关系和非确定性关系。确定性关系即函数关系，非确定性关系即相关关系。相关分析的主要目的是研究变量之间关系的密切程度。回归分析是揭示一个变量如何与其他变量相联系，前者叫做解释变量，后者叫做被解释变量相关分析和回归分析都是对客观事务数量依存关系的分析。
（1）线性回归过程
在数学关系式中只描述了一个变量与另一个变量之间的数量变化关系，则称其为一元回归分析。
其回归模型为
y 称为因变量，x称为自变量，称为随机误差， a,b 称为待估计的回归参数，下标 i 表示第i个观测值。如果给出a和b的估计量分别为方程: 一般把的“估计量”。 , ，则经验回归
“Standardized Residual Plots”设置各变量的标准化残差图形输出。 “Histogram”用直方图显示标准化残差。 “Normal probability plots”比较标准化残差与正态残差的分布示意图。 “Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。
1.相关分析的统计学原理
相关系数的取值范围在−1和+1之间，即 −1≤r≤+1。其中：若0＜r≤1，表明变量之间存在正相关关系，即两个变量的相随变动方向相同；若−1≤r＜0，表明变量之间存在负相关关系，即两个变量的相随变动方向相反；
为了判断r对ρ 的代表性大小，需要对相关系数进行假设检验。（1）首先假设总体相关性为零，即H0为两总体无显著的线性相关关系。
零假设备择假设 H0: x，y 不相关 H1: x，y 相关
（2）其次，计算相应的统计量，并得到对应的P值。如果P值小于或等于指定的显著性水平，则拒绝H0，认为两总体存在显著的线性相关关系；如果P值大于指定的显著性水平，则不能拒绝H0，认为两总体不存在显著的线性相关关系。
>0.05 不相关 P= α通常取0.05。也有时α取值0.01或0.001
选择求相关的变量：至少选择两个移动到：Variables内。
①Correlation Coefficients ：相关类型
Pearson:皮尔逊积矩相关系数 Kendall’s tau-b:肯德尔和谐系数 Spearman：斯皮尔曼等级相关系数
② Test of significance：显著性检验
“Durbin-Watson”Durbin-Watson检验。 “Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项，下面两项处于可选状态： “Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量； —“All cases”选择所有观测量。
称为残差，残差可视为扰动
―Analyze‖——―Regression‖——―Linear
数据文件5-5
“Dependent”：因变量
“Independent(S)”：自变量注：SPSS中一元回归和多元回归以及多元逐步回归都是使用同一过程，所以该栏可以输入多个自变量。 “Selection Variable”：控制变量输入栏。控制变量相当于过滤变量，即必须当该变量的值满足设置的条件时，观测量才能参加回归分析。输入控制变量后，激活“Rule”按钮。 “Case Labels”：选择观测量的标签变量。在输出结果中，可显示该观测量的值，通过该变量的值可查看相应的观测量。 “WLS”：选择加权变量。
“Save”
①“Predicted Values”预测值栏选项：
– Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量，存放根据回归模型拟合的预测值。 – Standardized 标准化预测值。 – Adjusted 调整后预测值。 – S.E. of mean predictions 预测值的标准误。
“Plots”
该对话框用于设置要绘制的图形的参数。 “X”和“Y”框用于选择X轴和Y轴相应的变量。
左上框中各项的意义分别为： • “DEPENDNT”因变量。 • “ZPRED”标准化预测值。 • “ZRESID”标准化残差。 • “DRESID”删除残差。 • “ADJPRED”调节预测值。 • “SRESID”学生氏化残差。 • “SDRESID”学生氏化删除残差。
统计学上的定义和计算公式
定义：偏相关分析是指当两个变量同时与第三个变量相关时，将第三个变量的影响剔除，只分析另外两个变量之间相关程度的过程。偏相关分析的工具是计算偏相关系数r12，3。
偏相关分析过程
[Statistics]——[Correlate]——[Partial] 数据5-2
选择两个求相关变量到：Variables 框内选择中介变量到控制变量“Controlling”框中显示相关显著度水平的标识“Display actual significance”
偏相关系数的计算与伪相关的鉴别数据文件5-4
2.回归分析的统计学原理
回归分析是研究客观事物变量间的关系，它是建立在对客观事物进行大量试验和观察的基础上，通过建立数学模型寻找不确定现象中所存在的统计规律的方法。回归分析所研究的主要问题就是研究因变量(y)和自变量(x)之间数量变化规律，如何利用变量X，Y的观察值（样本），对回归函数进行统计推断，包括对它进行估计及检验与它有关的假设等。
计算公式如下。 Pearson简单相关系数计算公式为
对Pearson简单相关系数的统计检验是计算t统计量，公式为
t统计量服从n−2个自由度的t分布。
Spearman和Kendall's tua-b等级相关系数用以衡量定序变量间的线性相关关系，它们利用的是非参数检验的方法。定序变量又称为有序（ordinal）变量、顺序变量，它取值的大小能够表示观测对象的某种顺序关系（等级、方位或大小等），也是基于“质”因素的变量。例如，“最高学历” 变量的取值是：1—小学及以下、2—初中、3— 高中、中专、技校、4—大学专科、5—大学本科、6—研究生以上。由小到大的取值能够代表学历由低到高。
“Method”：选择一种回归分析方式。
①强行介入法Enter（一次性进入）这是一种不检验F和Tolerance，一次将全部自变量无条件地纳入回归方程。 ②强行剔除Remove（一次性剔除）指定某些变量不能进入方程。这种方法通常同别的方法联合使用，而不能首先或单独使用，因为第一次使用或单独使用将意味着没有哪个变量进入方程。 ③逐步进入Stepwise 每次选择符合进入条件的自变量进入方程，进入后立即检验，不合格者剔除，直到全部合格自变量进入方程。 ④反向剔除Backward 先强行介入，再逐个剔除不合格变量，直到全合格。 ⑤正向进入Forward 每次选择符合进入条件的自变量进入方程，逐个选择，逐个进入，直到全部合格自变量进入方程。
Уi=β0+β1x2i+β2x+…+βkxki+μi
回归分析过程操作原理
选择Analyze—Regression
打开“Regression”的右拉式菜单，菜单包含：
– 1. Linear 线性回归。 – 2. Curve Estimation 曲线估计。 – 3. Binary Logistic 二元逻辑分析。 – 4. Multinomial Logistic 多元逻辑分析。 – 5. Ordinal 序数分析。 – 6. Probit 概率分析。 – 7. Nonlinear 非线性估计。 – 8. Weight Estimation 加权估计。 – 9. 2-Stage Least Squares 两段最小二乘法。

第5章 相关分析与回归分析

第5章相关分析与回归分析