第10章 相关与回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
RUC, Information School, Ye Xiang
10.1 问题的提出
第10章 相关 10章 与回归分析
10- 有美国60个著名商学院的数据, 60个著名商学院的数据 例10-1 有美国60个著名商学院的数据,包括的变 量有GMAT分数、学费、进入MBA前后的工资等。 GMAT分数 MBA前后的工资等 量有GMAT分数、学费、进入MBA前后的工资等。 进入MBA学习前后的工资的散点图。可以看出, MBA学习前后的工资的散点图 进入MBA学习前后的工资的散点图。可以看出,进 MBA前工资高的 毕业后工资也高。 前工资高的, 入MBA前工资高的,毕业后工资也高。 希望能够建立一个模型描述这个关系。 模型描述这个关系 希望能够建立一个模型描述这个关系。
RUC, Information School, Ye Xiang
相关分析与回归分析
第10章 相关 10章 与回归分析
相关分析是分析客观事物之间关系的数量分 相关分析是分析客观事物之间关系的数量分 析方法。 析方法。客观事物之间的关系大致可归纳为 两大类关系,分别是函数关系 统计关系。 函数关系和 两大类关系,分别是函数关系和统计关系。 相关分析是用来分析事物之间统计关系的方 相关分析是用来分析事物之间统计关系的方 统计关系 法。 回归分析是一种应用极为广泛的数量分析方 回归分析是一种应用极为广泛的数量分析方 用于分析事物之间的统计关系 统计关系, 法。它用于分析事物之间的统计关系,侧重 考察变量之间的数量变化规律,并通过回归 考察变量之间的数量变化规律,并通过回归 方程的形式描述和反映这种关系,帮助人们 方程的形式描述和反映这种关系, 的形式描述和反映这种关系 准确把握变量受其他一个或多个变量影响的 程度,进而为预测提供科学依据。 程度,进而为预测提供科学依据。
y = − 106.892 + 1.055 x1 + 0.883 x 2 + 32.442 x 3
利用求得的多元线性回归方程可知: 利用求得的多元线性回归方程可知:
三个自变量都正向影响 正向影响Salary MBA( (1)三个自变量都正向影响Salary Post MBA(y); MBA( MBA( (2)Salary Pre MBA(x1)对Salary Post MBA(y)的影响程 Gain( Payback( 度:在Five Year Gain(x2)和Years To Payback(x3)不变的 条件下, MBA(x1)每增加(或减少) 个单位, 条件下,Salary Pre MBA(x1)每增加(或减少)1个单位, 个单位。 MBA平均增加 或减少)1.055个单位 平均增加( Salary Post MBA平均增加(或减少)1.055个单位。 Gain( MBA( (3)Five Year Gain(x2)对Salary Post MBA(y)的影响程 MBA( Payback( 度:在Salary Pre MBA(x1)和Years To Payback(x3)不变的 条件下, Gain( 每增加(或减少) 个单位, 条件下,Five Year Gain(x2)每增加(或减少)1个单位, MBA平均增加 或减少)0.883个单位 平均增加( 个单位。 Salary Post MBA平均增加(或减少)0.883个单位。 (4)Years To Payback(x3)对Salary Post MBA(y)的影响 Payback( MBA( 程度: MBA( Gain( 程度:在Salary Pre MBA(x1)和Five Year Gain(x2)不变的 条件下, Payback( 每增加(或减少) 个单位, 条件下,Years To Payback(x3)每增加(或减少)1个单位, 个单位。 MBA平均增加 或减少)32.442个单位 平均增加( Salary Post MBA平均增加(或减少)32.442个单位。
RUC, Information School, Ye Xiang
利用SPSS SPSS实现线性相关分析 10.3 利用SPSS实现线性相关分析
第10章 相关 10章 与回归分析
ቤተ መጻሕፍቲ ባይዱ
对于例10对于例10-1,利用SPSS可以很容易得 利用SPSS可以很容易得 SPSS 到进入MBA前后的工资之间的线性相关 到进入MBA前后的工资之间的线性相关 MBA前后的工资之间的 系数。 系数。 菜单: Analyze”- Correlate Correlate”菜单:“Analyze ->“Correlate Bivariate” >“Bivariate Bivariate 结果:进入MBA MBA学习前后的工资的线性 结果:进入MBA学习前后的工资的线性 相关系数r=0.924 且检验的p r=0.924, 相关系数r=0.924,且检验的p值为 0.000,说明这两个变量线性相关, 0.000,说明这两个变量线性相关,因 此可以考虑建立线性回归模型。 此可以考虑建立线性回归模型。
180 Salary Post MBA
140 100
60 25 35
RUC, Information School, Ye Xiang
45 55 Salary Pre MBA
65
10.2 定量变量的线性相关分析
第10章 相关 10章 与回归分析
如果两个定量变量没有关系, 如果两个定量变量没有关系,就谈不上建立模型或 两个定量变量没有关系 进行回归。 进行回归。但怎样才能发现两个定量变量有没有关 系呢?最简单的直观办法就是画出它们的散点图 散点图。 系呢?最简单的直观办法就是画出它们的散点图。 散点图很直观,但如何在数量上描述相关呢? 散点图很直观,但如何在数量上描述相关呢?这里 介绍一种对相关程度的度量: Pearson相关系数 相关系数( 介绍一种对相关程度的度量: Pearson相关系数( Pearson’s Coefficient)。 Pearson’s Correlation Coefficient)。 Pearson相关系数又称相关系数 线性相关系数。 相关系数又称相关系数或 Pearson相关系数又称相关系数或线性相关系数。 它是由两个变量的样本取值得到,是一个描述线性 它是由两个变量的样本取值得到,是一个描述线性 相关强度的量,一般用字母r表示。取值在相关强度的量,一般用字母r表示。取值在-1和+1 之间。当两个变量有很强的线性相关时, 之间。当两个变量有很强的线性相关时,相关系数 接近于+1 正相关) +1( 负相关), ),而当两个变 接近于+1(正相关)或-1(负相关),而当两个变 量线性相关程度较弱时,相关系数就接近0 量线性相关程度较弱时,相关系数就接近0。
Salary Pre MBA(x1) MBA( Gain( Five Year Gain(x2) Years To Payback(x3) Payback(
菜单: Analyze - Regression Regression”菜单:“Analyze”->“Regression Linear” >“Linear Linear
RUC, Information School, Ye Xiang
10.1 问题的提出
第10章 相关 10章 与回归分析
发现变量之间的统计关系, 发现变量之间的统计关系 , 并且用此规律来帮助我们进行 决策才是统计实践的最终目的。 决策才是统计实践的最终目的。 一般来说,统计可以根据目前所拥有的信息(数据) 一般来说 , 统计可以根据目前所拥有的信息 ( 数据 ) 来建 立人们所关心的变量和其他有关变量的关系。 立人们所关心的变量和其他有关变量的关系 。 这种关系一 模型( 般称为模型 Model) 般称为模型(Model)。 假如用Y表示感兴趣的变量, 表示其他可能与Y 假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变 也可能是若干变量组成的向量) 量(X也可能是若干变量组成的向量),则所需要的是建立 一个函数关系 函数关系Y 一个函数关系Y=f(X)。 这 里 Y 称 为 因 变 量 或 响 应 变 量 ( Dependent Variable , Variable) 称为自变量 自变量, Response Variable ) , 而 X 称为 自变量 , 也称为解释变量 或 协 变 量 ( Independent Variable , Explanatory Variable,Covariate) Variable,Covariate)。 建立这种关系的过程就叫做回归(Regression) 建立这种关系的过程就叫做回归(Regression)。
y = − 106.892 + 1.055 x1 + 0.883 x 2 + 32.442 x 3
RUC, Information School, Ye Xiang
利用SPSS SPSS实现线性回归分析 10.5 利用SPSS实现线性回归分析
第10章 相关 10章 与回归分析
对于例10MBA( 和什么有关。 对于例10-1,关心的是Salary Post MBA(y)和什么有关。 关心的是Salary
RUC, Information School, Ye Xiang
利用Excel Excel图表实现 10.6 利用Excel图表实现 一元线性回归分析
RUC, Information School, Ye Xiang
利用SPSS SPSS实现线性回归分析 10.5 利用SPSS实现线性回归分析
第10章 相关 10章 与回归分析
对于例10对于例10-1,关心的是Salary Post 关心的是Salary MBA( 和什么有关。 MBA(y)和什么有关。 利用逐步回归进行选择。 逐步回归进行选择 利用逐步回归进行选择。 通过SPSS软件得到三个自变量 SPSS软件得到三个自变量: 通过SPSS软件得到三个自变量:
第10章 相关 10章 与回归分析
统计数据分析基础教程
―基于SPSS和Excel的调查数据分析 基于SPSS和Excel的调查数据分析 SPSS
第10章 10章 相关与回归分析
RUC, Information School, Ye Xiang
本章内容
第10章 相关 10章 与回归分析
10.1 问题的提出 10.2 定量变量的线性相关分析 利用SPSS SPSS实现线性相关分析 10.3 利用SPSS实现线性相关分析 10.4 定量变量的线性回归分析 利用SPSS SPSS实现线性回归分析 10.5 利用SPSS实现线性回归分析 利用Excel Excel图表实现一元线性回 10.6 利用Excel图表实现一元线性回 归分析 利用Excel Excel回归分析工具实现多 10.7 利用Excel回归分析工具实现多 元线性回归分析
RUC, Information School, Ye Xiang
10.4 定量变量的线性回归分析
第10章 相关 10章 与回归分析
回归分析是研究变量间相关关系的最重要、 回归分析是研究变量间相关关系的最重要、最常 是研究变量间相关关系的最重要 用的统计方法,它在工农业生产、金融保险、 用的统计方法,它在工农业生产、金融保险、商 业与科研管理、 业与科研管理、气象地质等方面都有极其广泛的 应用,为解决实际中的预测、 应用,为解决实际中的预测、控制等问题提供了 强有力的工具。 强有力的工具。 最小二乘回归( Regression)。 最小二乘回归(Least Squares Regression)。 古汉语“二乘”是平方的意思。 古汉语“二乘”是平方的意思。 最小二乘法就是寻找一条直线, 最小二乘法就是寻找一条直线,使得所有点到该 直线的竖直距离(即按因变量方向的距离) 直线的竖直距离(即按因变量方向的距离)的平 方和最小。这样的直线很容易通过计算机得到。 方和最小。这样的直线很容易通过计算机得到。 用数据寻找一条直线的过程也叫做拟合 Fit) 拟合( 用数据寻找一条直线的过程也叫做拟合(Fit)一 直线。 条直线。
10.1 问题的提出
第10章 相关 10章 与回归分析
10- 有美国60个著名商学院的数据, 60个著名商学院的数据 例10-1 有美国60个著名商学院的数据,包括的变 量有GMAT分数、学费、进入MBA前后的工资等。 GMAT分数 MBA前后的工资等 量有GMAT分数、学费、进入MBA前后的工资等。 进入MBA学习前后的工资的散点图。可以看出, MBA学习前后的工资的散点图 进入MBA学习前后的工资的散点图。可以看出,进 MBA前工资高的 毕业后工资也高。 前工资高的, 入MBA前工资高的,毕业后工资也高。 希望能够建立一个模型描述这个关系。 模型描述这个关系 希望能够建立一个模型描述这个关系。
RUC, Information School, Ye Xiang
相关分析与回归分析
第10章 相关 10章 与回归分析
相关分析是分析客观事物之间关系的数量分 相关分析是分析客观事物之间关系的数量分 析方法。 析方法。客观事物之间的关系大致可归纳为 两大类关系,分别是函数关系 统计关系。 函数关系和 两大类关系,分别是函数关系和统计关系。 相关分析是用来分析事物之间统计关系的方 相关分析是用来分析事物之间统计关系的方 统计关系 法。 回归分析是一种应用极为广泛的数量分析方 回归分析是一种应用极为广泛的数量分析方 用于分析事物之间的统计关系 统计关系, 法。它用于分析事物之间的统计关系,侧重 考察变量之间的数量变化规律,并通过回归 考察变量之间的数量变化规律,并通过回归 方程的形式描述和反映这种关系,帮助人们 方程的形式描述和反映这种关系, 的形式描述和反映这种关系 准确把握变量受其他一个或多个变量影响的 程度,进而为预测提供科学依据。 程度,进而为预测提供科学依据。
y = − 106.892 + 1.055 x1 + 0.883 x 2 + 32.442 x 3
利用求得的多元线性回归方程可知: 利用求得的多元线性回归方程可知:
三个自变量都正向影响 正向影响Salary MBA( (1)三个自变量都正向影响Salary Post MBA(y); MBA( MBA( (2)Salary Pre MBA(x1)对Salary Post MBA(y)的影响程 Gain( Payback( 度:在Five Year Gain(x2)和Years To Payback(x3)不变的 条件下, MBA(x1)每增加(或减少) 个单位, 条件下,Salary Pre MBA(x1)每增加(或减少)1个单位, 个单位。 MBA平均增加 或减少)1.055个单位 平均增加( Salary Post MBA平均增加(或减少)1.055个单位。 Gain( MBA( (3)Five Year Gain(x2)对Salary Post MBA(y)的影响程 MBA( Payback( 度:在Salary Pre MBA(x1)和Years To Payback(x3)不变的 条件下, Gain( 每增加(或减少) 个单位, 条件下,Five Year Gain(x2)每增加(或减少)1个单位, MBA平均增加 或减少)0.883个单位 平均增加( 个单位。 Salary Post MBA平均增加(或减少)0.883个单位。 (4)Years To Payback(x3)对Salary Post MBA(y)的影响 Payback( MBA( 程度: MBA( Gain( 程度:在Salary Pre MBA(x1)和Five Year Gain(x2)不变的 条件下, Payback( 每增加(或减少) 个单位, 条件下,Years To Payback(x3)每增加(或减少)1个单位, 个单位。 MBA平均增加 或减少)32.442个单位 平均增加( Salary Post MBA平均增加(或减少)32.442个单位。
RUC, Information School, Ye Xiang
利用SPSS SPSS实现线性相关分析 10.3 利用SPSS实现线性相关分析
第10章 相关 10章 与回归分析
ቤተ መጻሕፍቲ ባይዱ
对于例10对于例10-1,利用SPSS可以很容易得 利用SPSS可以很容易得 SPSS 到进入MBA前后的工资之间的线性相关 到进入MBA前后的工资之间的线性相关 MBA前后的工资之间的 系数。 系数。 菜单: Analyze”- Correlate Correlate”菜单:“Analyze ->“Correlate Bivariate” >“Bivariate Bivariate 结果:进入MBA MBA学习前后的工资的线性 结果:进入MBA学习前后的工资的线性 相关系数r=0.924 且检验的p r=0.924, 相关系数r=0.924,且检验的p值为 0.000,说明这两个变量线性相关, 0.000,说明这两个变量线性相关,因 此可以考虑建立线性回归模型。 此可以考虑建立线性回归模型。
180 Salary Post MBA
140 100
60 25 35
RUC, Information School, Ye Xiang
45 55 Salary Pre MBA
65
10.2 定量变量的线性相关分析
第10章 相关 10章 与回归分析
如果两个定量变量没有关系, 如果两个定量变量没有关系,就谈不上建立模型或 两个定量变量没有关系 进行回归。 进行回归。但怎样才能发现两个定量变量有没有关 系呢?最简单的直观办法就是画出它们的散点图 散点图。 系呢?最简单的直观办法就是画出它们的散点图。 散点图很直观,但如何在数量上描述相关呢? 散点图很直观,但如何在数量上描述相关呢?这里 介绍一种对相关程度的度量: Pearson相关系数 相关系数( 介绍一种对相关程度的度量: Pearson相关系数( Pearson’s Coefficient)。 Pearson’s Correlation Coefficient)。 Pearson相关系数又称相关系数 线性相关系数。 相关系数又称相关系数或 Pearson相关系数又称相关系数或线性相关系数。 它是由两个变量的样本取值得到,是一个描述线性 它是由两个变量的样本取值得到,是一个描述线性 相关强度的量,一般用字母r表示。取值在相关强度的量,一般用字母r表示。取值在-1和+1 之间。当两个变量有很强的线性相关时, 之间。当两个变量有很强的线性相关时,相关系数 接近于+1 正相关) +1( 负相关), ),而当两个变 接近于+1(正相关)或-1(负相关),而当两个变 量线性相关程度较弱时,相关系数就接近0 量线性相关程度较弱时,相关系数就接近0。
Salary Pre MBA(x1) MBA( Gain( Five Year Gain(x2) Years To Payback(x3) Payback(
菜单: Analyze - Regression Regression”菜单:“Analyze”->“Regression Linear” >“Linear Linear
RUC, Information School, Ye Xiang
10.1 问题的提出
第10章 相关 10章 与回归分析
发现变量之间的统计关系, 发现变量之间的统计关系 , 并且用此规律来帮助我们进行 决策才是统计实践的最终目的。 决策才是统计实践的最终目的。 一般来说,统计可以根据目前所拥有的信息(数据) 一般来说 , 统计可以根据目前所拥有的信息 ( 数据 ) 来建 立人们所关心的变量和其他有关变量的关系。 立人们所关心的变量和其他有关变量的关系 。 这种关系一 模型( 般称为模型 Model) 般称为模型(Model)。 假如用Y表示感兴趣的变量, 表示其他可能与Y 假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变 也可能是若干变量组成的向量) 量(X也可能是若干变量组成的向量),则所需要的是建立 一个函数关系 函数关系Y 一个函数关系Y=f(X)。 这 里 Y 称 为 因 变 量 或 响 应 变 量 ( Dependent Variable , Variable) 称为自变量 自变量, Response Variable ) , 而 X 称为 自变量 , 也称为解释变量 或 协 变 量 ( Independent Variable , Explanatory Variable,Covariate) Variable,Covariate)。 建立这种关系的过程就叫做回归(Regression) 建立这种关系的过程就叫做回归(Regression)。
y = − 106.892 + 1.055 x1 + 0.883 x 2 + 32.442 x 3
RUC, Information School, Ye Xiang
利用SPSS SPSS实现线性回归分析 10.5 利用SPSS实现线性回归分析
第10章 相关 10章 与回归分析
对于例10MBA( 和什么有关。 对于例10-1,关心的是Salary Post MBA(y)和什么有关。 关心的是Salary
RUC, Information School, Ye Xiang
利用Excel Excel图表实现 10.6 利用Excel图表实现 一元线性回归分析
RUC, Information School, Ye Xiang
利用SPSS SPSS实现线性回归分析 10.5 利用SPSS实现线性回归分析
第10章 相关 10章 与回归分析
对于例10对于例10-1,关心的是Salary Post 关心的是Salary MBA( 和什么有关。 MBA(y)和什么有关。 利用逐步回归进行选择。 逐步回归进行选择 利用逐步回归进行选择。 通过SPSS软件得到三个自变量 SPSS软件得到三个自变量: 通过SPSS软件得到三个自变量:
第10章 相关 10章 与回归分析
统计数据分析基础教程
―基于SPSS和Excel的调查数据分析 基于SPSS和Excel的调查数据分析 SPSS
第10章 10章 相关与回归分析
RUC, Information School, Ye Xiang
本章内容
第10章 相关 10章 与回归分析
10.1 问题的提出 10.2 定量变量的线性相关分析 利用SPSS SPSS实现线性相关分析 10.3 利用SPSS实现线性相关分析 10.4 定量变量的线性回归分析 利用SPSS SPSS实现线性回归分析 10.5 利用SPSS实现线性回归分析 利用Excel Excel图表实现一元线性回 10.6 利用Excel图表实现一元线性回 归分析 利用Excel Excel回归分析工具实现多 10.7 利用Excel回归分析工具实现多 元线性回归分析
RUC, Information School, Ye Xiang
10.4 定量变量的线性回归分析
第10章 相关 10章 与回归分析
回归分析是研究变量间相关关系的最重要、 回归分析是研究变量间相关关系的最重要、最常 是研究变量间相关关系的最重要 用的统计方法,它在工农业生产、金融保险、 用的统计方法,它在工农业生产、金融保险、商 业与科研管理、 业与科研管理、气象地质等方面都有极其广泛的 应用,为解决实际中的预测、 应用,为解决实际中的预测、控制等问题提供了 强有力的工具。 强有力的工具。 最小二乘回归( Regression)。 最小二乘回归(Least Squares Regression)。 古汉语“二乘”是平方的意思。 古汉语“二乘”是平方的意思。 最小二乘法就是寻找一条直线, 最小二乘法就是寻找一条直线,使得所有点到该 直线的竖直距离(即按因变量方向的距离) 直线的竖直距离(即按因变量方向的距离)的平 方和最小。这样的直线很容易通过计算机得到。 方和最小。这样的直线很容易通过计算机得到。 用数据寻找一条直线的过程也叫做拟合 Fit) 拟合( 用数据寻找一条直线的过程也叫做拟合(Fit)一 直线。 条直线。