回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关概念
概念
自由度
• 模型中样本值可以自由变动的个数,称为自由度。 自由度 = 样本个数 — 样本数据受约束条件(方程)的个数 • 例如,样本数据为n,它们受k个方程的约束(系数矩阵秩 为k),那么,自由度df=n-k。
内容
• 回归分析的主要内容为:
①从一组数据出发,确定某些变量之间的定量关系式,即 建立数学模型并估计其中的未知参数。常用方法是最小二 乘法。 ②对这些关系式的可信程度进行检验。 ③在许多自变量共同影响着一个因变量的关系中,判断哪 个(或哪些)自变量的影响是显著的,哪些自变量的影响 是不显著的,将影响显著的自变量选入模型中,而剔除影 响不显著的变量,通常用逐步回归、向前回归和向后回归 等方法。 ④利用所求的关系式对某一生产过程进行预测或控制。
例题
下面是1980~1998年Y的样本值及1980~2000年预测值折线图:
回归分析
2014年6月3日
概念
• 回归分析(regression analysis) ,是一个统计预测模型,用以 描述和评估因变量与一个或多个自变量之间的关系。
• 回归分析是处理多变量间 相关关系 的一种数学方法。通 常在统计上研究相关关系可以运用回归分析和相关分析。 • 区分:相关关系和函数关系 相关关系:表现出一定程度的波动性或随机性,对自变量 的每一取值,因变量可以有多个数值与之相对应。 函数关系:反映变量间的严格依存性。当一个或几个自变 量取一定的值时,因变量有确定值与之相对应。
步骤
• (3)进行相关分析
回归分析是对具有因果关系的影响因素(自变量)和预测 对象(因变量)所进行的数理统计分析处理。只有当变量 与因变量确实存在某种关系时,建立的回归方程才有意义 。因此,作为自变量的因素与作为因变量的预测对象是否 有关,相关程度如何,以及判断这种相关程度的把握性多 大,就成为进行回归分析必须要解决的问题。进行相关分 析,一般要求出相关关系,以相关系数的大小来判断自变 量和因变量的相关的程度。
(1)随机误差项εi是随机变量,服从正态分布,且E(εi)=0, D(εi)=σε 2;满足这些条件,可根据高斯—马尔科夫定理,最小
二乘估计量是具有最小方差的线性无偏估计量。也就 是说,我们不需要再去寻找其它无偏估计量,估计量 (2)Cov(εi,εj )=0, i≠j,即随机误差项 ε 无序列相关; 的方差最多与普通最小二乘估计量的方差一样小,不 会比它更小。 (3)解释变量 X 与随机项 ε 不相关,即 Cov(ε ,X )=0。
(y=β0+β1x1+β2x2+...+βixi+ε,其中ε为随机扰动项)
分类
• 按照自变量和因变量之间的关系类型,可分为线性回归分 析和非线性回归分析:
• 在统计学中,线性回归是利用称为线性回归方程的最小二 乘函数对一个或多个自变量和因变量之间关系进行建模的 一种回归分析。这种函数是一个或多个称为回归系数的模 型参数的线性组合。
例题
(2)建立模型:消费性支出除受可支配收入的影响之外,还受 到其它变量及随机因素的影响,将其它变量及随机因素的 影响均归并到随机变量ε中; 根据X与Y的样本数据,可做二者的散点图:
例题
可知,二者变化趋势是线性的,由此建立两者之间的一元 线性回归模型
Y= β0 + β1X + εi
模型的假设条件:
步骤
• (4)计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模 型的检验和对预测误差的计算。回归方程只有通过各种检 验,且预测误差较小,才能将回归方程作为预测模型进行 预测。 • (5)确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析 ,确定最后的预测值。
注意问题
• 应用回归预测法时应首先确定变量之间是否存在相关关系 。如果变量之间不存在相关关系,对这些变量应用回归预 测法就会得出错误的结果。 • 正确应用回归分析预测时应注意:
①用定性分析判断现象之间的依存关系; ②避免回归预测的任意外推; ③应用合适的数据资料。
分类
• 按照涉及的自变量的多少,可分为一元回归分析和多元回 归分析:
• 如果在回归分析中,只包括一个自变量和一个因变量,且 二者的关系可用一条直线近似表示,这种回归分析称为一 元线性回归分析。(y=β0x+β1+ε,其中ε为随机扰动项) • 如果回归分析中包括两个或两个以上的自变量,且因变量 和自变量之间是线性关系,称为多元线性回归分析。
步骤
• (1)确定变量
明确预测的具体目标,也就确定了因变量。如预测具体目 标是下一年度的销售量,那么销售量Y就是因变量。通过 市场调查和查阅资料,寻找与预测目标的相关影响因素, 即自变量,并从中选出主要的影响因素。 • (2)建立预测模型
依据自变量和因变量的历史统计资料进行计算,在此基础 上建立回归分析方程,即回归分析预测模型。
• 有一类模型,其回归参数不Fra Baidu bibliotek线性的,可以通过转换变为 线性的,或通过转换的方法仍不能变为线性的。这类模型 进行自变量和因变量的分析称为非线性回归分析。
主要的非线性模型
• 抛物线模型 • 对数函数模型
• 双曲线模型
• 逻辑曲线模型
• 幂函数模型
• 多项式模型
• 指数函数模型
非线性模型的线性化
• 倒数变换
概念
拟合优度
• 拟合优度(Goodness of Fit)是指回归直线对观测值的拟 合程度。拟合优度是回归分析中的一个重要参数。
• 度量拟合优度的统计量是可决系数(亦称确定系数)R2。R2 的取值范围是[0,1]。R2的值越接近1,说明回归直线对观 测值的拟合程度越好;反之,R2的值越接近0,说明回归 直线对观测值的拟合程度越差。
例题
受可支配收入影响的自发消费行为。β1和β0 的符号和大小 ,均符合经济理论及目前该市的实际情况。
拟合优度:r2=0.98,说明总离差平方和的98%被样本回 归直线解释,仅2%未被解释。因此样本回归直线对样本点 拟合优度很高。 (5)预测:
分别给出1999年、2000年该市人均可支配收入为 X1999=1763元,X2000=1863元。通过Eviews软件,可得1999 年、2000年该市城镇居民年人均消费性支出预测值分别为 1354.89元和1424.05元。
概念
• 回归关系:具有相关关系的两个变量X和Y,它们之间既存 在着密切的关系,又不能由一个变量的数值精确地求出另 一变量的值。通常选定X = a时Y的数学期望作为对应 X = a 时Y的代表值,因为它反映X = a 条件下Y取值的平均水平。 这样的对应关系称为回归关系。
• 回归方程:根据回归分析可以建立变量间的数学表达式, 称为回归方程。
倒数变换是用新的变量来替换原模型中变量的倒数,从而 使原模型变成线性模型的一种方法。
• 半对数变换
这种方法主要应用于对数函数模型的线性变换。 • 双对数变换 这种方法通过用新变量替换原模型中变量的对数,从而使 原模型变换为线性模型。 • 多项式变换 这种方法适用于多项式方程的变换。
例题
• 一元线性回归分析: (1)提出问题:对某市城镇居 民年人均可支配收入X,研 究它与年人均消费性支出Y 之间的关系。
概念
• 广义上说,相关分析包括回归分析。相关分析是回归分析 的基础和前提,回归分析则是相关分析的深入和继续。相 关分析需要依靠回归分析来表现变量之间数量相关的具体 形式,而回归分析则需要依靠相关分析来表现变量之间数 量变化的相关程度。相关分析常用回归分析来补充,两者 相辅相成。
若通过相关分析显示出变量间关系非常密切,则通 过所建立的回归方程可获得相当准确的取值。
• 拟合优度的检验:主要是运用判定系数和回归标准差,检 验模型对样本观测值的拟合程度。当解释变量为多元时, 要使用调整的拟合优度,以解决变量元素增加对拟合优度 的影响。
概念
拟合优度
• R2=ESS/TSS 其中TSS=ESS+RSS TSS=总离差平方和
ESS=回归平方和
RSS=残差平方和 • R2有一个缺点,即R2随着解释变量个数的增加而增加,无 论增加的解释变量是否有意义,情况总是如此。 • 这是因为R2的定义中没有考虑自由度问题。为了避免这个 现象,需要对决定系数进行自由度调整。
概念
• 辨析:回归分析和相关分析
回归分析:当自变量为非随机变量、因变量为随机变量时 ,分析它们的关系称回归分析。回归分析可以建立回归方 程,来反映自变量在固定条件下因变量的平均状态变化情 况。 相关分析:当两者都是随机变量时,称为相关分析。相关 分析是以某一指标来度量回归方程所描述的各个变量间关 系的密切程度。
i j
无偏估计量:数学期望等于被估计的量的统计估计 量。
例题
(3)估计结果:由样本观测数据,样本回归模型为
Y=β0 + β1X+ε 用最小二乘法求得:(可通过Eviews软件估计一元线性回归模型)
Y=135.31+0.69X
(4)评价模型: 结构分析 β1=0.69是样本回归方程的斜率,它表示该市城镇居民的消 费倾向,说明年人均可支配收入每增加1元,将0.69元用于 消费性支出; β0 =135.31是样本回归方程的截距,表示不
概念
自由度
• 模型中样本值可以自由变动的个数,称为自由度。 自由度 = 样本个数 — 样本数据受约束条件(方程)的个数 • 例如,样本数据为n,它们受k个方程的约束(系数矩阵秩 为k),那么,自由度df=n-k。
内容
• 回归分析的主要内容为:
①从一组数据出发,确定某些变量之间的定量关系式,即 建立数学模型并估计其中的未知参数。常用方法是最小二 乘法。 ②对这些关系式的可信程度进行检验。 ③在许多自变量共同影响着一个因变量的关系中,判断哪 个(或哪些)自变量的影响是显著的,哪些自变量的影响 是不显著的,将影响显著的自变量选入模型中,而剔除影 响不显著的变量,通常用逐步回归、向前回归和向后回归 等方法。 ④利用所求的关系式对某一生产过程进行预测或控制。
例题
下面是1980~1998年Y的样本值及1980~2000年预测值折线图:
回归分析
2014年6月3日
概念
• 回归分析(regression analysis) ,是一个统计预测模型,用以 描述和评估因变量与一个或多个自变量之间的关系。
• 回归分析是处理多变量间 相关关系 的一种数学方法。通 常在统计上研究相关关系可以运用回归分析和相关分析。 • 区分:相关关系和函数关系 相关关系:表现出一定程度的波动性或随机性,对自变量 的每一取值,因变量可以有多个数值与之相对应。 函数关系:反映变量间的严格依存性。当一个或几个自变 量取一定的值时,因变量有确定值与之相对应。
步骤
• (3)进行相关分析
回归分析是对具有因果关系的影响因素(自变量)和预测 对象(因变量)所进行的数理统计分析处理。只有当变量 与因变量确实存在某种关系时,建立的回归方程才有意义 。因此,作为自变量的因素与作为因变量的预测对象是否 有关,相关程度如何,以及判断这种相关程度的把握性多 大,就成为进行回归分析必须要解决的问题。进行相关分 析,一般要求出相关关系,以相关系数的大小来判断自变 量和因变量的相关的程度。
(1)随机误差项εi是随机变量,服从正态分布,且E(εi)=0, D(εi)=σε 2;满足这些条件,可根据高斯—马尔科夫定理,最小
二乘估计量是具有最小方差的线性无偏估计量。也就 是说,我们不需要再去寻找其它无偏估计量,估计量 (2)Cov(εi,εj )=0, i≠j,即随机误差项 ε 无序列相关; 的方差最多与普通最小二乘估计量的方差一样小,不 会比它更小。 (3)解释变量 X 与随机项 ε 不相关,即 Cov(ε ,X )=0。
(y=β0+β1x1+β2x2+...+βixi+ε,其中ε为随机扰动项)
分类
• 按照自变量和因变量之间的关系类型,可分为线性回归分 析和非线性回归分析:
• 在统计学中,线性回归是利用称为线性回归方程的最小二 乘函数对一个或多个自变量和因变量之间关系进行建模的 一种回归分析。这种函数是一个或多个称为回归系数的模 型参数的线性组合。
例题
(2)建立模型:消费性支出除受可支配收入的影响之外,还受 到其它变量及随机因素的影响,将其它变量及随机因素的 影响均归并到随机变量ε中; 根据X与Y的样本数据,可做二者的散点图:
例题
可知,二者变化趋势是线性的,由此建立两者之间的一元 线性回归模型
Y= β0 + β1X + εi
模型的假设条件:
步骤
• (4)计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模 型的检验和对预测误差的计算。回归方程只有通过各种检 验,且预测误差较小,才能将回归方程作为预测模型进行 预测。 • (5)确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析 ,确定最后的预测值。
注意问题
• 应用回归预测法时应首先确定变量之间是否存在相关关系 。如果变量之间不存在相关关系,对这些变量应用回归预 测法就会得出错误的结果。 • 正确应用回归分析预测时应注意:
①用定性分析判断现象之间的依存关系; ②避免回归预测的任意外推; ③应用合适的数据资料。
分类
• 按照涉及的自变量的多少,可分为一元回归分析和多元回 归分析:
• 如果在回归分析中,只包括一个自变量和一个因变量,且 二者的关系可用一条直线近似表示,这种回归分析称为一 元线性回归分析。(y=β0x+β1+ε,其中ε为随机扰动项) • 如果回归分析中包括两个或两个以上的自变量,且因变量 和自变量之间是线性关系,称为多元线性回归分析。
步骤
• (1)确定变量
明确预测的具体目标,也就确定了因变量。如预测具体目 标是下一年度的销售量,那么销售量Y就是因变量。通过 市场调查和查阅资料,寻找与预测目标的相关影响因素, 即自变量,并从中选出主要的影响因素。 • (2)建立预测模型
依据自变量和因变量的历史统计资料进行计算,在此基础 上建立回归分析方程,即回归分析预测模型。
• 有一类模型,其回归参数不Fra Baidu bibliotek线性的,可以通过转换变为 线性的,或通过转换的方法仍不能变为线性的。这类模型 进行自变量和因变量的分析称为非线性回归分析。
主要的非线性模型
• 抛物线模型 • 对数函数模型
• 双曲线模型
• 逻辑曲线模型
• 幂函数模型
• 多项式模型
• 指数函数模型
非线性模型的线性化
• 倒数变换
概念
拟合优度
• 拟合优度(Goodness of Fit)是指回归直线对观测值的拟 合程度。拟合优度是回归分析中的一个重要参数。
• 度量拟合优度的统计量是可决系数(亦称确定系数)R2。R2 的取值范围是[0,1]。R2的值越接近1,说明回归直线对观 测值的拟合程度越好;反之,R2的值越接近0,说明回归 直线对观测值的拟合程度越差。
例题
受可支配收入影响的自发消费行为。β1和β0 的符号和大小 ,均符合经济理论及目前该市的实际情况。
拟合优度:r2=0.98,说明总离差平方和的98%被样本回 归直线解释,仅2%未被解释。因此样本回归直线对样本点 拟合优度很高。 (5)预测:
分别给出1999年、2000年该市人均可支配收入为 X1999=1763元,X2000=1863元。通过Eviews软件,可得1999 年、2000年该市城镇居民年人均消费性支出预测值分别为 1354.89元和1424.05元。
概念
• 回归关系:具有相关关系的两个变量X和Y,它们之间既存 在着密切的关系,又不能由一个变量的数值精确地求出另 一变量的值。通常选定X = a时Y的数学期望作为对应 X = a 时Y的代表值,因为它反映X = a 条件下Y取值的平均水平。 这样的对应关系称为回归关系。
• 回归方程:根据回归分析可以建立变量间的数学表达式, 称为回归方程。
倒数变换是用新的变量来替换原模型中变量的倒数,从而 使原模型变成线性模型的一种方法。
• 半对数变换
这种方法主要应用于对数函数模型的线性变换。 • 双对数变换 这种方法通过用新变量替换原模型中变量的对数,从而使 原模型变换为线性模型。 • 多项式变换 这种方法适用于多项式方程的变换。
例题
• 一元线性回归分析: (1)提出问题:对某市城镇居 民年人均可支配收入X,研 究它与年人均消费性支出Y 之间的关系。
概念
• 广义上说,相关分析包括回归分析。相关分析是回归分析 的基础和前提,回归分析则是相关分析的深入和继续。相 关分析需要依靠回归分析来表现变量之间数量相关的具体 形式,而回归分析则需要依靠相关分析来表现变量之间数 量变化的相关程度。相关分析常用回归分析来补充,两者 相辅相成。
若通过相关分析显示出变量间关系非常密切,则通 过所建立的回归方程可获得相当准确的取值。
• 拟合优度的检验:主要是运用判定系数和回归标准差,检 验模型对样本观测值的拟合程度。当解释变量为多元时, 要使用调整的拟合优度,以解决变量元素增加对拟合优度 的影响。
概念
拟合优度
• R2=ESS/TSS 其中TSS=ESS+RSS TSS=总离差平方和
ESS=回归平方和
RSS=残差平方和 • R2有一个缺点,即R2随着解释变量个数的增加而增加,无 论增加的解释变量是否有意义,情况总是如此。 • 这是因为R2的定义中没有考虑自由度问题。为了避免这个 现象,需要对决定系数进行自由度调整。
概念
• 辨析:回归分析和相关分析
回归分析:当自变量为非随机变量、因变量为随机变量时 ,分析它们的关系称回归分析。回归分析可以建立回归方 程,来反映自变量在固定条件下因变量的平均状态变化情 况。 相关分析:当两者都是随机变量时,称为相关分析。相关 分析是以某一指标来度量回归方程所描述的各个变量间关 系的密切程度。
i j
无偏估计量:数学期望等于被估计的量的统计估计 量。
例题
(3)估计结果:由样本观测数据,样本回归模型为
Y=β0 + β1X+ε 用最小二乘法求得:(可通过Eviews软件估计一元线性回归模型)
Y=135.31+0.69X
(4)评价模型: 结构分析 β1=0.69是样本回归方程的斜率,它表示该市城镇居民的消 费倾向,说明年人均可支配收入每增加1元,将0.69元用于 消费性支出; β0 =135.31是样本回归方程的截距,表示不