事件史分析1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
风险集的概念十分重要 例子:
结婚事件 入党事件 教育机会
资料的考虑:
使用了更多的信息:事件是否发生、何时发生、因果关系的时间性 对资料有很高的要求 对资料的设置有很高的要求
删截:
左删节 – 很难在统计上处理; 右删节: 常见。
随观察(资料收集)结束而结束;随机现象; 系统偏差:时间追踪的婚姻调查:退出样本的人可能有婚
为了将随时间变化的变量结合进来,我们需要相应的资料结构,例如id=29
(Appendix
资料结构)
我们可以考虑更为复杂的资料结构。。。 • competing risks • 不同时间区间(年龄段、不同历史时期) • 不同群体间的比较
1事件史方法基本概念
13
事 件 史 资 料 的 设 置 : STATA的 STSET程 序
其他: 成人重新就学的时间性和原因 入党、培训机会等
1事件史方法基本概念
3
这些现象(因变量)的特点
因变量:事件(离散型变量) o 可数、整数、是/否,存在/不存在
时间序列过程是关注点:时间性的因素(timing) o 提升:是否、什么时间 o 何时:时间维度—需要多长时间才能经历到如此事件? o 时间不是原因,但是因果关系体现在时间维度
注意:我们假设,如果“右删截”发生,这是一个随机过程; 中间删截:知道“事件”发生,但是不知道过去的确切时间。
1事件史方法基本概念
7
因果过程的时间性:(统计意义上) 连续型 离散型 在概念上,总是连续型的
解释变量: 不随时间变化:性别 随时间变化:收入、职务
事件史研究:有关事件史的统计分析方法。
不同函数之间的关系
我们以上讨论的各种函数, f(t), F(t), S(t), h(t) ,都是关于T的分布的 各种描述,它们在数学上都是相同的,可以互为推导的。
(5)
(6)
1事件史方法基本概念
11
换言之: 对 h(x)的模型化与对 f(t), or S(t), or F(t)的模型化都是相当的. 其他几个有用的公式:
风险率的解释: “风险率”作为概率函数,是不能观察到的,但可以加以测算。 不能为负,但没有上限。如果是连续性函数,h(t)可以大于1。
例子:在生育率中,假设我们有,在 20-24年龄段, h(t) = .460
即,我们期待每个妇女-年,有 .460 个生育。
设E(T)为等待时间的期待值。如果 h(t)在t区间不变,那么 E(T) = l/h(t);在这里,T 是该事件发生前的等待时间。.
课程的重点
• 事件史统计方法的基本概念和模型 • 动手能力:建构事件史资料、应用统计分析工具、解释统计结果
阅读材料
1.统计方法参考资料
粱在。“事件史分析”。
Hans-Peter Blossfeld and Gotz Rohwer. 2002. Techniques of Event History Modeling: New Approaches to Causal Analysis. NJ: Lawrence Erlbaum Associates.
1事件史方法基本概念
2
第一讲、 事件史分析的基本概念、资料要求、描述性
统计
本讲提纲
1. 为什么需要事件史分析方法? 2. 事件史分析的基本概念 3. 事件史分析的资料要求 4. 事件史分析中的描述性统计手段
1. 为 什 么 使 用 事 件 史 分 析 方 法 ?
事件史分析:研究社会现象动态过程的一类统计模式
例子. h(t) = .460, 时间是“年”,那么 1/.460 = 2.174 年,即一个事件发 生所期待的等待时间。
我们通常假定风险随着时间 t 变化。如果在t维度的变化是连续性的,那 么这是连续时间的风险模型。如果变化是离散性的(即在某一小区间内 为常量),那么我们需要离散性时间的风险模型。
姻问题 中间删节:事件史过程中的某一部分时间段不详。可以处理。 有关删截的进一步讨论
1事件史方法基本概念
6
不同“删截”情形的讨论:
A—没有进入抽样框架,没有观察,左删截。 B—“左删截”。 C—全部过程完全观察到,在统计上没有问题; D—观察到开始及大部分过程,但从样本“消失”(drop out)。是否随机? E—“右删截”,可以统计处理。 F—没有进入抽样框架,右删截。 G—开始与结束没有观察到,“左、右删截”。
2.一个例子
id 开始年份 结束年份 持续期 入党事件 性别 教育程度
9 1985
2003
18
0ቤተ መጻሕፍቲ ባይዱ
12 1967
1983
16
1
21 1984
2003
19
0
29 1954
2003
49
0
44 1998
2003
5
0
1? 11 2? 2? 1?
现在考虑解释变量
3.
不随时间变化的变量:性别
4.
随时间变化的变量:教育程度
例子:结婚、提升、换工作,等等
事件史 :有关事件变化和相应时间性的时间序列的记录。 • 例子:有关一个人工作经历历史的记录(第一次工作,工作变化的 类型和时间)
非重复性事件(出生、死亡、入党)、重复性事件(提升、结婚)
“风险集”的概念
在某一时间点上(或时间区间内)所有可能经历某一事件的人(样 本)的集合。
Mario A. Cleves, William W. Gould, and Roberto G. Gutierrez. 2002. An Introduction to Survival Analysis Using STATA. College Station, Texas: Stata Corporation.
设 T为有关某事件发生的时间的随机变量,t为T的实现。设 f(t) 和 F(t) 分别为T的概率密度函数和累积概率函数。 我们有如下公式:
F(t) 是有关该变量小于或等于我们所选定的某一值t的概率的函数。如果 我们知道有关t的每一个值所相应的F函数值,那么,我们有了关于T分布的 全部信息。
概率密度函数(Probability density function—p.d.f.)
现在考虑分母。首先,概率是关于Δt的函数,或单调上升,或不下降 (nondecreasing)。时间区间越长,事件就越可能在这一区间发 生。针对这一情况,我们需要在分母中除以Δt。第二,我们要的是事
1事件史方法基本概念
10
件在时间 t上的风险度,而不是t开始的某一区间。因此,我们让Δt 趋 于0,使得这一区间越来越小。
1事件史方法基本概念
9
如果我们关心的事件是“死亡”,那么,生存函数提供了有关生存到时间 点t及以后的概率。
注意:如果 f(t) 是连续的,且在t = 0 and ∞之间不为0, 那么 S(t) 是一个 单调下降的连续性函数,S(0) = 1 and S(∞) = lim t∞ S(t) = C. (对于所有 无法避免的事件,如人或动物的死亡,C 为0.)
为什么:产生这些现象的因果过程: o 提升:历史背景、是否党员、单位类型,等等 o 结婚:教育程度、就业状况、历史背景,等等
一个例子:
入党事件(是/否):
• 建立“理论”模型 o 因变量:入党与否 o 解释变量:年龄、性别、教育、工作单位、父亲地位
• 使用cross-sectional资料进行分析 o 为什么有问题? o 变量之间关系不是事件发生时的关系:教育、工作单位
p.d.f. 的定义为 (2)
也就是说,p.d.f. 是c.d.f. 的导数或斜率〔slope〕。p.d.f. 与我们直观上的概 率分布性状的关联更为直接。例如,我们通常所说的钟型正态分布是概率的 密度函数,而不是累积概率函数。
2. 生存函数(Survival Function )
在生存函数分析中,我们常常使用一个密切相关的函数—生存函数 (3)
Integrating both sides where Why are they useful? S(t)可以从实际资料中测算出来,我们可以随之建立有关h(t)的模型。
1事件史方法基本概念
12
4。 事 件 史 资 料 的 结 构 和 处 理
1.特点: 时间性 变量可以随时间变化 因变量是 “生命时间”(持续期duration)
实证研究要考虑的问题:
理论上:什么样的因果过程导致了我们观察到的这些实证状况? o 就业、换工作的流动状况 o 入党的分布状况
统计上: o 什么样的统计分布过程(统计模型)可以描述我们在资料中看 到的这些模式? o 我们需要什么样的资料/信息才能对这类现象进行统计分析? o 我们怎样处理这些“删节”的案例? o 我们需要什么样的统计(估测estimation)方法来分析资料? o 怎样解释统计分析的结果?
• 使用事件史分析方法
1事件史方法基本概念
4
入党的事件史的描述
ID
事件演变的时间序列
100000
2
0000
3
00000
400100
5000001
……………….
时间
x – censored o – 经历了“入党”事件
x
x
x
o
x
o
时间
1事件史方法基本概念
5
2. 事件史分析方法的基本概念
事件:
1.离散型变量: 0/1 2.变量值随着时间而变化
理论兴趣:研究社会现象变迁的过程 因果关系的模式化(时间序列) 控制潜在特质的影响(能力与入党、提干之间关系)
例子 社会分层: 一个人在劳动力市场上的就业过程(就业、换工作、再就业) 职位提升:何时、为什么?
人口学: 出生、死亡、结婚、离婚等事件发生的时间性和原因
组织社会学: 干部升迁、调动 一个组织类型的产生、扩展、衰落:时间性和原因 组织采纳某种形式(M-form)或做法(组织制度)的原因
我们的讲座主要是讨论“统计”方面的问题,特别是有关统计模式、 统计分析、和统计解释这些方面的问题。
1事件史方法基本概念
8
3. 事件史方法的统计基础 描述和概括事件史资料有着三个基本的统计函数 --分布函数、生存函数、风险函数
1. 生命时间T (duration 持续期)的概率函数(Probability Functions of Lifetime T (duration))
2.研究应用的例子
周雪光、候立仁。1999。“文革中的孩子们—当代中国的国家与生命历程。”《中
国社会学》第二卷,第372-407页。上海人民出版社。(译自Xueguang Zhou and Liren Hou. 1999. “Children of the Cultural Revolution: The State and Life Course in PRC.” ASR 64: 12-36.) Jesper B. Sorensen. 2000. “The Longitudinal Effects of Group Tenure Composition on Turnover.” American Sociological Review 65: 298-310.
1
0
∞t
3. 风险函数( Hazard Function )
定义:某一事件在时间t尚未发生,在t和t+Δt 之间发生的概率。
(4)
h(t) 是建立事件史统计模型的关键所在。对以上公式的讨论:
这一定义的目的是对某事件在时间t发生的瞬息风险的定量化。因为时 间是连续性变量,一事件恰恰在时间t发生的概率为0。但是,我们可 以考虑该事件在t和t+Δt 之间极小间隔时间内发生的概率。我们需要 考虑这一事件的条件概率,即生存到时间t之后再可能经历事件的概 率。如果一个人在t时间前已经“死亡”,那么,他就已经不在风险集 内了。因此,我们只考虑那些“生存”到时间区域(t, t+Δt)开始时的 那些人。这些考虑反映在以上公式的分子式上:: Pr(t≤T<t+Δt).
1事件史方法基本概念
1
事件史统计分析法讲课提纲
斯坦福大学 周雪光
讲座提纲
第一讲 第二讲 第三讲 第四讲 第五讲
事件史分析法的研究对象、资料要求、统计基础 事件史方法中离散时间统计模式 (discrete-time hazard model) 事件史方法中的COX模型 (The Cox proportional hazard model) 事件史分析法中的参数方程 (Parametric hazard models) 事件史方法在实际研究中的应用
相关文档
最新文档