回归分析的性质和基本概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 考虑如下散点图(scatter diagram):
对应于任一给定的父 亲身高,都有儿子身 高的一个分布范围。 父亲身高增加,儿子 的平均身高也增加。
回归线
.
• 勾画一条通过这些散点图的直线,以表明儿子的平均身高 是怎样随父亲的身高增加而增加。
• 这条线叫做回归线(regression line)。 • 如下图是不同年龄处测度的男孩身高的总体分布。身高随
着年龄增加而增加,通过给定年龄平均身高画一条线。
.
例 菲利普斯曲线
• 下图给出了历史数据所表现的散点图,图中的曲线是把货 币工资变化率同失业率联系起来的菲利普斯曲线(Phillips curve)之一例。
该散点图可预测在给定的某 个失业率下货币工资的平均 变化。
.
例 通货膨胀率
• 由货币经济学中得知,其他条件不变,通货膨胀率π越高, 人们愿意以货币形式保存的收入比例k越低。如下图。可预 测在各种通货膨胀率下人们愿意以货币形式保存的收入比例。
换句话说,在双变量回归中只有一个解释变量,在复回归中 则有多于一个解释变量。
.
符号
字母Y一律指因变量,而
一律
指解释变量。Xk代表第k个解释变量。Xki 指对变量Xk 的第i次观测值。N或T指总体中的观测值的总个数,n
或t指样本中观测值总个数。
惯例: 将下标i用于横截面数据(cross-sectional data)(即 在一个时间点上收集的数据); 将小标t用于时间序列数据(time series data)(即在 一段时间点上收集的数据)。
1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
3081.5 3240.6 3407.6 3566.5 3708.7 3822.3 3972.7 4064.6 4132.2 4105.8 4219.8 4343.6
——普遍回归定律(law of universal regression)
.
高尔顿的朋友卡尔.皮尔逊(Karl Pearson)证实了 他的观点,它收集了1000名成员的身高记录发现, 对于一个父亲高的群体,儿辈的平均身高低于父 辈的身高;而对于一个父亲矮的群体,儿辈的平 均身高则高于其父亲的身高。用高尔顿的话说, 这是“回归到中等”(regression to mediocrity)。
.
回归的定义
回归分析是关于研究一个叫做因变量的变量 对另一个或多个叫做解释变量的变量的依赖关系, 其用意在于通过后者(在重复抽样中)的已知或设 定值,去估计和(或)预测前者的(总体)均值。
.
例 高尔顿的普遍回归定律
• 现代的观点关心的是给定父辈身高的情形下找出儿辈平均身 高的变化。即,一旦知道父辈的身高,怎样预测儿辈的平均 身高。
.
其他例子
• 公司的销售部主任想知道人们对公司产品的需求与广告 费开支的关系。这种研究在很大程度上有助于计算出相 对于广告费支出的需求弹性,即广告费预算每变化百分 之一时需求变化的百分比。有助于制定“最优”广告费 预算。
• 农业经济学家想研究作物(如小麦)收成对气温、降雨 量、阳光量和施肥量的依赖关系。这种依赖关系分析能 使他对给定的解释变量进行信息预测或预报作物的平均 收成。
4486 4595.3 .4714.1
4620.3 4803.7 5140.1 5323.5 5487.7 5649.5 5865.2
6062 6136.3 6079.4 6244.4 6389.6 6610.7 6742.1 6928.4
1)时间序列数据;
一个时间序列是对一个变量在不同时间取值的一组观测结果。
.
第三节 符号术语数据
因变量(Dependent variable) 被解释变量(Explained variable) 预测子(Predicted) 回归子(Regressand) 响应(Response) 内生(Endogenous) 结果(outcome) 被控变量(Controlled variable)
数据的准确性
1. 大部分社会科学数据是非实验性质的,存在观测误差。 2. 问卷型调查中,非应答问题十分严重。 3. 获取数据的抽样方法可能变化很大,要比较不同样本得来的结
果通常很困难。 4. 通常获得宏观数据(如GDP,就业,通货膨胀,失业),无法
告知个人或微观单位的情况。 5. 由于保密性质,某些数据只能加总形式公布。如企业普查,不
解释变量(Explanatory variable) 自变量(Independent variable) 预测元(Predictor) 回归元(Regressor) 刺激变量(Stimulus) 外生(Exogenous) 共变(Convariate) 控制变量(Control variable)
.
.
每个收入组的周消费支出都有相当大的变化,尽管如此,看平 均值,周消费支出随着收入的上升. 而上升。
条件期望值(conditional expected values) :给定X值下Y的期望值。取决于条件变量X的
给定值。
.
.
注意区分条件期望
和无条件期望

1. 问:一个家庭周消费支出的期望值是多少?
.
其他例子
• 经济学家想研究个人消费支出对可支配个人收入的依 赖关系。这种分析有助于估计边际消费倾向(MPC), 也就是实际收入每元价值的变化所引起的消费支出的 平均变化。
• 一位能设定价格或产出的垄断商,想知道产品需求对 价格变化的实际反应,通过定价实验能估计出产品需 求的价格弹性(price elasticity),即产品需求对价 格变化的灵敏程度,从而有助于确定最有利可图的价 格。
答:如果我们将总体中所有60个家庭的消费支出加总除以
60,得到121.20(7272/60)美元,这就是周消费支出的
无条件均值或无条件期望值
。得到该数字并不关心
各个家庭的收入水平。
2. 问:一个月收入为140美元的家庭的周消费支出的期望 值是多少? 答:101美元(条件均值)。
因此,对收入水平的了解能使我们更好的预测消费支出的 均值,这可能正是回归分析的本质。
的比率(2000/1995)是无意义的。
序数尺度(ordinal scale) 只存在自然顺序。如考试分数(A、B、C),无法相减或相除。如
无差异曲线(indifference curves),每条更高的无差异曲线标志着更 高的效用水平,但不能量化到底高多少。
名义尺度(nominal scale) 不具备比率尺度的任何特征。如性别(男,女),婚姻状况(已婚、
回归分析的基本概念
.
第三章 回归分析的基本概念
◆ 学习目的
理解回归分析的性质和双变量回归 分析的一些基本概念。
.
第一节 回归分析释义 第二节 经济变量之间的关系 第三节 符号术语数据 第四节 总体回归函数
.
第五节 随机干扰项 第六节 “线性”一词的含义 第七节 样本回归函数
.
第一节 回归分析释义
.
总体回归线(population regression line, PRL)
几何意义上,总体回归曲线就是解释变量取给定值时因 变量的条件均值或期望值的轨迹。
图中的黑圆点表示了不同X值下Y的条件均值,将这些 均值连起来,就得到所谓的总体回归线或称为总体回归曲线。 如下图:
现实中,一个总体可能有许多个家庭。图中对于每个X (收入水平)都有周消费支出Y值的一个总体,假定这些Y值 均匀分布在其条件均值左右,并且回归线穿过这些条件均值。
.
数据
1)时间序列数据; 2)横截面数据; 3)面板数据;
.
1)时间序列数据;
Table I.1 Data on Y (Personal Consumption Expenditure) and X (Gross Domestic Product),1982-1996) all in 1992 billions of dollars
相关关系的表达式一般表示为含有未知参数的函数形式,需要进行参数估计。
例如: 居民消费C与可支配收入Y之间的关系,可支配收入的取值确定后, 消费的取值虽不能唯一确定,但有一定的取值范围,0 < C < Y ,遵 循边际消费倾向递减的规律。居民消费C与可支配收入Y之间的关系 可表示为C = + Y, 、为待估参数。
.
1)时间序列数据;
平稳的时间序列数据
如果一个时间序列的均值和方差不随时间而系统的变化,那它就是 平稳的。
随时间推移,M1货币供 给稳定上升。不是平稳
的。
.
2)横截面数据;
对一个或多个变量在同一时间点上收集的数据。
Example: 1990年和1991年美国50个州的劳工会蛋产量和蛋价格,对每一年份50个 州的数据构成一个横截面数据样本。下表中有两个横截面数据样本。
例如:
1) 某一商品的销售收入Y与单价P、销售数量Q之间的关系Y = PQ 2) 某一农作物的产量Q与单位面积产量q 、种植面积S之间的关系
Q=qS
.
相关关系
指不同经济变量的变化趋势之间存在某种不确定的联系,某一或 某几个经济变量的取值确定后,对应的另一经济变量的取值虽不能唯 一确定,但按某种规律有一定的取值范围。
.
3)面板数据; 在面板数据中兼有时间序列和横截面数据的成分。
1973-1985年每个国家的通货膨胀率构成一个时间序列,而对某一年说, 7个国家的通货膨胀率又构成一个横截面。
.
数据来源
互联网,e.g. 国家统计局,Bloomberg, Wind咨询
实验数据,e.g. 评价肥胖对血压的影响时,研究者要在人 们饮食、烟酒习惯都不变的情况下收集数据。
未婚、离婚、分居)。适合于比率尺度的计量方法不适合于名义尺度。
.
第四节 总体回归函数
1.总体回归曲线
例3-1
表中数据指的是一个假想的经济社会中,构成总体的60个家庭 及其周收入(X)和周消费支出(Y)的数量。这60个家庭被 分成10个收入组(从80美元到260美元),各组中每个家庭的月 支出都列在表中。因此,我们就有10个固定的X值和与每个X相 对应的Y值,可以说,有10个Y的子总体。
如果我们研究一个变量对一个解释变量的依从关系,如消费 支出对实际收入的依赖,则称这种研究为简单(simple)或双 变量回归分析(two-variable regression analysis)。
如果我们研究一个变量对多个解释变量的依赖性,如农作物 收成依赖降雨、气温、阳光和施肥一例,则称它为复回归分析 (multiple regression analysis)。
特点:可以在有规则的时间间隔收集 Example:每日(股票价格)、每周(联邦储备委员会提供的货币供 给数字)、每月(失业率、消费者价格指数CPI)、每季(如GNP)、 每年(政府预算)、每5年(制造业普查资料)、每10年(人口普查 资料),有些数据每季和每年都有公布,如GDP和消费者支出数据。 极短时间的数据也可以搜集,如股票价格数据,可以得到连续数据 (实时牌价)。
.
第二节 经济变量之间的关系
计量经济研究是对经济变量之间关系的研究,针对某一具体 经济问题展开研究时,首先需要考察的就是相关经济变量之间有 没有关系、有什么样的关系。
经济变量之间的关系
确定的函数关系 不直接表示为其他经济变量的确定的函数, 函数表达式中没有未知参数。
一、概述
“回归”的历史溯源:
“回归”一词最先由弗朗西斯•高尔顿(Francis Galton)提 出。 高尔顿发现一个趋势: 父母高,儿女也高;父母矮,儿女也矮。但给定父母的身高, 儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身 高。换言之,尽管父母都异常高或异常矮,但儿女的身高却有 走向人口平均身高的趋势。换句话说,尽管父母都异常矮或异 常高,但儿女的身高却有走向人口总体平均身高的趋势。
允许公布任何厂家的生产、人员雇佣、能源消耗、研究与开发 费用,要研究厂际差异是困难的。
.
变量的测量尺度
比率尺度(ratio scale) 对于一个变量X,取其两个值X和X,比率X/X和距离(X-X)都
是有意义的量。大多数经济变量都属于这一类,问今年的GDP与去年 的GDP相差多少是有意义的。
区间尺度(interval scale) 两个时期之间的距离(如2000-1995)是有意义的,但两个时期
相关文档
最新文档