第1讲_导论及因果关系推断

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 这个假设使得我们过高地估计了大学回报率。因为聪明的、能力 强的人工资会比较高,这些人上大学的可能性也大。这些人即使 不上大学,其收入也会比没有上过大学的人高。
案例1:大学教育对收入的影响
根据总期望值规则,所有上大学者和未上大学者收入的平均差异为:
E(Yt- Yc) = E(Y1t- Y1c)*(1-q) + E(Y0t- Y0c)*q = E(Y1t- Y0c) - E(Y1c- Y0c) – (δ1-δ0)*q 其中,δ1 = E(Y1t- Y1c),δ0 = E(Y0t- Y0c)
• Jacob Bernoulli的大数定律: 平均值会随着测量次数的增加而越来越可靠和稳定。要得 到一个比较准确的平均值,就要增加测量次数。
• Pierre-Simon Laplace的中心极限定理: 随着样本数量的增加, 其平均值越来越趋向于呈正态分布。 • 这两个定理适用的必要条件是:差异的来源必须是独立的、 非系统的微小因素。
• 这两组人存在着系统性的差异。不满足个体的同质性假设, 只有以上两种情偏误都没有,才可以作简单的比较。
随机抽样
• 随机抽样能够解决异质性偏误和内生性偏误的双重问题,可以 保证在没有干预之前两组之间的情况一样。 • 可以针对教育和收入建立一元回归模型:
Yi = α + δiDi + εi
在上式中,Di指是否读过大学,δi代表读大学的回报率。真正 写方程时应考虑δiDi,而不是δDi ,因为读大学的效应不一样。 两种假设的含义如下: ① 异质性:εi,如果corr(ε, D)=0,则无异质性偏误,就是说被忽 略的变量( 两组人本质差异) 和是否读大学没有关系; ② 内生性:δi,如果corr(δ, D)=0,则无内生性偏误,就是说回报 率和是否读大学没有关系。
第1讲 微观计量方法导论
社会科学与定量研究
• 我们在社会科学研究中强调定量分析方法,是因为定性分 析归根结底在描述变异的现象时是不可靠的。 • 原因在于,定性研究所选取的个案不一定具有代表性,结 论很可能是错的。因为总体大,一定有各种各样的人, 个 案不能说明总体。
统计学及社会科学的两个理论基础
补充说明
随机抽样是指是否上大学(D=0或1)是随机变量, 和任何东 西都没有关系,和α没有关系,和ε也没有关系。 异质性偏误可能由忽略变量偏误(Omitted variable bias) 产生, 比如说能力、政治倾向等等。 内生性偏误可能由理性的期望行为(anticipatory behavior) 产 生,比如,因为知道读大学对你有好处,所以来读大学。 内生性的变化(δi) 意味着Y最终的变异性可以随D增大或缩小。 上面这个方程,如果得益大就参加,得益小就不参加,会导致 社会差距被拉大了,教育造成了社会不平等。 这个模型是不可估计的,它需要约束条件。一般的情况下,我 们是假定corr(ε, D)=0,δi =δ( 常数)。
案例2:语言能力对数学成绩的影响
• 理论假设:一个人的数学成绩取决于他的语言能力,语言能力强,数 学成绩就高。 • 美国有个研究生想对这个假设进行实证检验,他制定了这样一个研究 方案。他去了两个班: 1)数学A班,这个班是本科的基础班,有100个学生; 2)数学B班,是给研究生上的高级班,这是一个小班,只有10 个学生。 • 这位研究生到这两个班上收集了这样一些数据: 他问这两个班上的同学,“你认为你的语言能力怎么样”,“数学成 绩怎么样”,“强还是不强”,强就用“1” 表示,不强就用“0” 表示。
• 未上大学者的收入平均值为:E(Y0c)= E(Yc|D=0); • 对于上大学者来说,如果未读过大学,平均收入为:E(Y1c)= E(Yc|D=1);
• 对于未上大学者来说,如果读了大学,平均收入为:E(Y0t)= E(Yt|D=0);
• E(Y1t)和E(Y0c)可观测到,而E(Y1c)和E(Y0t)是反事实的,无法观测到。
说明: X应与D相关:叫做相关条件(correlation condition), X应能影响Y:叫做有关条件(relative condition)。 与D或Y不相关的X可以不用去考虑。
X应发生在D之前。
• 抽样很重要,因为我们只能讨论总体特征,不能讲个体。 • 描述性研究很重要,在没有很强假定时,能做的往往只是描述性。 • 随机实验不能完全解决问题,不一定能把实验结果推广到总体。 • 统计计量虽然不完美, 但却是社会科学刻画异质性唯一可靠的 工具。 • 因果关系总是概率性的。比如吸烟会导致癌症,但并不是说每个 人吸烟都会导致癌症。 • 我们只能研究原因的结果,而不是结果的原因。事情的发生可能 是由不同的原因造成的,不清楚是所有原因在起作用,还是只需 要其中一部分原因存在。我们能做的就是解释有了一个特别原因 会有什么样的结果,比如说教育对你的婚姻和收入有什么影响, 但是假如问为什么你有钱,就没法解释。
案例1:大学教育对收入的影响
• N:调查样本数(所有调查样本都读完高中)。 • Y:年收入(因变量); • D:是否读过大学(主要自变量)。 D=1为实验组(treatment),表示读过大学; D=0为控制组(control),表示没有读大学。 p表示未读大学的人在总样本中的比例。 • 上大学者的收入平均值为:E(Y1t)= E(Yt|D=1);
• 当观察的数据十分有限时,需要很强的假 定才能产生显著的结果。
• 在统计学中,没有免费的信息。要么你去 收集它,要么你去假定它。
用社会分组来控制异质性
• 假定条件:ε⊥D|X,即组内无异质性偏误,忽略组内的差异。 • 也就是说,我们不假定读大学者和不读大学者是一样的,而 是在分组之后,假设组内任何读大学者一样,任何不读大学 者也一样。 • 比如说我们测量了调查者在中学的成绩,假定在同样成绩的 人群里,读大学者和未读大学者没有差异。
案例1:大学教育对收入的影响
• 如果个体满足同质性假设(homogeneity),即任何读了 大学的人和任何没有读大学的人没有本质上的差异,他们 的差异只是反映在有没有读大学上,并且任何读大学的人 之间也没有本质上的差异,那么我们根本没有必要去抽样 和做大型的调查,只要研究两个人就可以了,即一个读了 大学的和另一个没有读大学的。 • 由于社会科学的研究对象几乎都存在总体变异性,抽取代 表性样本才成为必要。
• 再例如家庭背景,能上大学的人相对来说家境比较好。那么 我们将控制“家境”因素,并假设家境相似的人无论是否读大 学都没有异质性差异。
• 这就是社会分组的方法,也就是多元回归分析的方法。这样 的假设比一元回归时的假设要弱一些,因而更符合实际。
用社会分组来控制异质性
社会分组下,可把回归方程扩展为:
Yi = α + δDi + β’Xi + εi
案例1:大学教育对收入的影响
• 要研究大学教育对收入的影响,即考虑对某一个人来说, 有了大学教育和没有大学教育的收入差距。这一差距必须 是大学教育的影响。 • 对每一样本都需要得到两个数据:读大学之后的收入,不 读大学情况下的收入。 • 但是实际上只能看到其中一个,要么读了大学,要么未读 大学,不可能同时观察到两个收入。
• 这样的数据存在什么样的问题?
上述实证研究中存在的问题
1. 样本规模太小,其中的差异在统计学上未必是显著的。
2. 伪相关,这两种能力并不存在因果关系。 3. 天花板效应(ceiling effect),这是一个测量的问题,在做“好”与“差”两 种选择时,大家都自我感觉良好,显示不出其中的差异性。 4. 选择性偏差,他收集数据时以班级为单位,而他选择的班级存在级别上的差 异,它们之间不具有可比性。 5. 测度问题,他的数据是由被测者自己报的,学的简单的就自我感觉好,自我 感觉好的自然就报好,这是由主观因素主导的,缺乏客观性。 6. 生态学谬误,他的理论假设是以个人为单位的,是说个人的语言能力高会导 致数学成绩好;而他收集的数据和得出的结论中是以班级为单位的。 在同一班级中有些人可能数学成绩好,但是语言能力差,有些人数学成 绩差,但是语言能力强,它们的关系可能为正,为负,也可能不存在关系。 当数据层次和理论层次不吻合的时候,数据可能说明不了理论,甚至有可能 和理论背道而驰。这就是为什么以团体为单位来研究问题经常会出错误,因 为这反映不了个人层次上的现象。
类型逻辑思维
• 柏拉图认为,真理是永恒的、不变的,不是存在于一个具 体的事物之中。好的哲学家(即科学家)应该有很好的理 解能力,能透过具体现象看到事物的本质。
• Quetelet认为,社会科学研究中永恒不变的真理,就是取 平均值。 • 虽然社会数据存在很大的不确定性,但是我们可以通过取 平均值来解决,这可称之为类型逻辑思维。
案例1:大学教育对收入的影响
常用的估计值 E(Y1t- Y0c) 有两种偏误: • 异质性偏误(heterogeneity bias):在都没有读大学 的情 况下,读大学的人能力天生就比较强,这两组人的平均收 入本来就有差异; • 内生性偏误(endogeneity bias):大学教育这个因素对两 组人的影响是不一样的,有的人适合读大学,他们读大学 受益多;有的人不适合读大学,他们不读大学反而好。
案例1:大学教育对收入的影响
• 我们经常把读过大学者的平均收入减去未读过大学者的平均收入, 视为读大学的好处和回报,即:E(Y1t)- E(Y0c) 。 • 这暗含了以下两个假设: • E(Y1t)= E(Y0t),即未读大学的人如果读了大学,其平均收入等于读 完大学者的平均收入; • E(Y1c)= E(Y0c),即读了大学者如果不读大学,其平均收入等于未读 大学者的平均收入。
总体逻辑思维
• 达尔文的总体逻辑思维认为,社会科学的重要性在于研究 为什么个体和个体有差异,而不只是比较平均数。 • 例如,男性的平均工资比女性高,但是谁都知道有的女人 的工资比男人高。所以说平均的差异不能代表所有的个体 和个体之间的差异。 • 社会科学研究中重要的是差异,平均数只是总体的一个特 征值,是探讨真实原因的手段,而不是原因本身。
社会科学研究的三个基本原理
• 变异性原理:变异性是社会科学研究的真正本质。
• 社会分组原理:分组可减少组内差异。分组是基于组员之 间有一定的共同性,分组以后组与组之间就有差异性。
• 社会情境原理:群体变异性的模式会随着社会情境的变化 而变化。例如,教育对收入的影响可能随着社会的变化而 不一样,改革之前和改革之后不一样,中国和英国不一样, 中世纪的英国和现在的英国也不一样。
案例2:语言能力对数学成绩的影响
• 在A班上,100个学生中有90个学生说他的语言能力强,有 94个学生说他的数学能力强。 • 在B班上,10个学生中有8个说他语言能力强,有9个学生 说他的数学能力强。
• 这个研究生收集好数据之后,认为证明了他的理论假设, 因为一个班上的同学语言能力强,数学能力也强;另一个 班上的学生语言能力低,数学能力也低,这就证明了他的 理论假设。
上述差异分解为两部分: • E(Y1t- Y1c) *(Fra Baidu bibliotek-q):读大学者和他们如果不上大学相比,会有多少平均收入差异; • E(Y0t- Y0c)*q:未读大学者和他们如果上了大学相比,平均收入差异是多少。
也可以再分解成三部分: • E(Y1t- Y0c):上大学的和没有上大学的这两组人之间的简单比较; • E(Y1c- Y0c):假如两组人都不上大学的话,其收入差异,即未观察到的异质性问题; • (δ1-δ0)q :其中,δ1 = E(Y1t- Y1c):上大学者得益于大学的收入增加, δ0 = E(Y0t- Y0c):没有上大学者如果上了大学能够增加的收入, (δ1-δ0)q:即两组人上大学得到的好处的差额。 换言之,读大学的好处对这两组人可能是不一样的。
案例3:启蒙教育项目对受教育水平的影响
• 20世纪60年代,Westinghouse在美国做了一项研究。在一 个社区内,X1个儿童参加了一个启蒙教育项目,做为实验 组;而另外X2个儿童没有参加这个项目,做为控制组。 • 27年后再来测量这两组人各自的受教育水平。用Y1表示参 加了启蒙教育项目的实验组儿童的受教育水平,用Y2表示 没有参加启蒙教育项目的控制组儿童的受教育水平。 • 结果是:受过启蒙教育的儿童的受教育水平比没有受过启 蒙教育的儿童的受教育水平要低。 • 那我们是否可以得出这样的结论:启蒙教育项目对受教育 水平有负向作用?
相关文档
最新文档