4.3-离散计数数据模型说课材料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 因此,非负整数和异方差特征决定,有必要引进描 述非负整数特征的概率分布分析离散计数模型。
• 七十年代末以来,许多学者在计数数据模型的处 理方法方面作出了较大贡献,包括:
– Gilbert(1979)提出了泊松回归模型,
– Hausman,Hall和Griliches(1984)提出了负二项回 归模型和Panel方法,
• 样本:34
注意入 选的解 释变量
部分参数 的经济意 义缺乏合 理解释。 只作为试
例。
ACCIDENTS = @EXP(1.645572184*TYPEA + 2.353413299*TYPEB + 0.4488787812*TYPEC + 0.8131627072*TYPED + 1.401045748*TYPEE 0.6726004217*YEAR60 + 0.3731874354*YEAR65 + 0.7675535312*YEAR70 - 0.6994767419*YEAROP60 + 6.388715642e-05*SERVMONTH)
根据中心极限定理
1ngn(0)d N(0,I)
因此, n(ˆ0) d N (0 ,I 1)
• 以上结果表明, ˆ 是 0 的一致估计量 由于大样本方差矩阵达到Cramer-Rao下界, 估计量是大样本有效的 因此,正确设定的泊松回归模型满足
n
n(ˆ0) d N (0 ,n [ ex p (xi )xi'xi] 1) i 1
• 预测结果与观测值的比较
60 50 40 30 20 10 0
5 10 15 20 25 30 ACCIDENT S ACCIDENT SF
4、估计量的性质
• 模型正确设定,当且仅当存在 0 满足
n
n
f(yi xi,0)f0(yi xi)
i1
i1
假设模型正确设定,围绕 0 对 g ( ˆ ) 进行
• 利用迭代算法,可以求解一阶条件 – 例如,Newton-Raphson方法
ˆt 1ˆt(H (ˆt)) 1g(ˆt)
g(.)是梯度向量
g() l(; y,x)
3、例题:本科不及格门数的原因分析
• 变量 – Unpass—不及格门数 – Score—高考成绩 – Stime—平均每周于用学习的时间 – Dsa—理、文科虚变量 – Dbody—健康状况虚变量
X NB(,)
P (Xk) ( () ( kk )1 )(1 1 )(1 )k
wenku.baidu.com
令 /
(r) xr1exdx 0
P (Xk) ( () ( k k )1 )( )( )k
E(X) V ar(X )(1/)
• overdispersion
5、对数分布(Logarithmic distribution )
Taylor展开
g ( ˆ) g (0 ) H (0 )( ˆ 0 )
由一阶条件可知,g(ˆ) 0
n(ˆ0)(1 nH (0))1 1 ng(0)
根据iid假设和大数定律,
1 nHn(0)1 ni n1Hi(0) p I
– I为Fisher信息矩阵
E [ H i(0 )x i] E [g i(0 )g i(0 ) 'x i] I
• 对数似然函数
n
l(;y,x) [exp(xi)yixiln(yi!)] i 1
• 最大化似然函数,一阶条件:
l(;y,x)i n1[yiexp(xi)]xi' 0
• Hessian矩阵:
H (;y,x)2l ( ; y,'x)i n 1exp(xi)xi'xi
• 由于Hessian矩阵是负定的,对数似然函数是凹 函数,估计值 ˆ 的二阶条件满足
4.3-离散计数数据模型
• 离散计数模型的提出 • 计数事件的概率模型 • 泊松回归模型 • 离散计数模型的扩展
一、离散计数模型的提出
1、经济社会研究中的离散计数问题
• 计数变量是取值为非负整数的变量 • 许多经济、社会问题的描述变量都为计数变量
– 一定时间内发生事故的次数 – 一年中公司申请的专利数量 – 一定时间内变换工作的次数 – 一定时间内到医院就诊的次数 – 家庭生育孩子的数量 – 学生在本科4年中不及格课程门数
P (Y i kx i) e x p ( e x p (x ik!))e x p (k x i )
Var(Yi xi)exp(xi)
– 非负整数特征 – 取值为0的概率不可忽略 – 可以预测事件发生概率 – 不对称分布(skewed distribution) – 异方差
2、极大似然估计(MLE)
– Gourier,Monfort和Trogonon(1984)提出了仿最 大似然法。
• 其中,最先提出的泊松方法在研究计数数据模型 问题中应用得非常广泛。
二、计数事件的概率模型
1、计数过程
• 计数过程的定义
– 随机过程 N(t),t 0 被称为计数过程,如果N(t)
表示t时间前发生的事件总量 • 平稳性(Stationary)
P(Xk)k/k 其中 [log(1)]1
方差和均值为
E(X)(1)1
V a r(X ) (1 )(1 ) 2
6、计数数据分布特征
• 如果以泊松分布作为标准,二项分布更集中于均 值,而负二项分布更为分散
• 所有分布都向左侧倾斜(skewed to the left), 说明在计数分布中,数值较小的数据出现的概率 较高。
p k(t tt ) p k (t) (p k(t) p k 1 (t)) o ( t)
t 0
dpdkt(t)(pk(t)pk1(t))
• 使用初始条件 P0 (0) 1求解以上微分方程 • 利用概率生成函数得到泊松分布
P (s,t) E (sN (t)) k 0p k(t)sk
d P d ( s t ,t ) d k 0 d t p k ( t ) s k k 1 ( p k ( t ) p k 1 ( t ) ) s k ( s ) P ( s ,t ) P (s,t) e x p [( s)t]
– 则Z服从泊松分布,参数为
4、二项分布(Binomial distribution)
• 随机变量X服从参数为n和p的二项分布, 0<p<1, 如果
P(Xk)(n)pk(1p)nk k
• 则均值和方差为 – E(X)=np, Var(X)=np(1-p)
• Underdispersion
• X 服从参数为 和 的负二项分布,即
• 数据
• 数据
• 经典模型(OLS)
• Poisson回归模型
多余变量检验
剔除不显著变量
例题☆
• 轮船事故次数(accidents)与轮船型号(typea、 b、c、d、e)、制造年份(year60、65、70、 75)、投入使用年份(yearop60、75)和实际服 务时间(servmonth)的关系研究。
P N ( t,t t) 0 1 t o ( t)
– 其中,lim o(t) 0
t0 t
P N (t,t t) 1 o ( t)
• 可以看出,在一个足够短的区间上,事件发生两 次以上的概率趋近于0
P N (0 ,t t) k p k(t t)
p k ( t t ) p k ( t ) ( 1 t ) p k 1 ( t ) t o ( t )
– 在计数数据应用中难以实现,因为相当比例的y取值为 0。
• 当y没有上界时,最常用的模型是指数函数
E(yx)exp(x)
• 非线性最小二乘方法(NLS)可以用于估计离散计
数模型,但效果不理想
– NLS 估计量是无效的,除非V ar ( y x ) 是常数 – 所有计数数据的标准分布都意味着异方差
– 在任何时间区间上,事件发生数量的分布只由 时间区间的长度决定
i.d.
N (t2s)N (t1s) N (t2)N (t1)
2、单变量泊松过程
• 在时间区间 (t,t t)上,事件发生1次的概率与t时
间前事件发生的数量无关
• 在时间区间 (t,t t) 上,事件发生1次和0次的概率
分别为
P N (t,t t) 1 t o ( t)
5、模型设定偏误的原因☆
• 柏松回归模型设定偏误的三个来源 – 均值函数假设 – 分布假设 – 独立样本假设
• 回归模型、方差函数和分布函数联系紧密 – 在泊松假定下,条件均值和方差相等 – 比通常的最小二乘回归模型少1个自由度
均值函数设定偏误
• 无法观测的异质性(Unobserved heterogeneity)
7、Katz分布族
• 非负整数分布可以用递归概率比表示
P(Xk) pk f(k,)
P(Xk1) pk1
• Katz分布族定义为
pk (k 1)
pk1
k
– 其中, 0 ,且当 0 ,k /
E(X ) 1
Var(X)
(1
)2
• 当 , 0,分布为泊松分布


np , p
1p
1p
,分布为二项分布
• 定理
– X、Y都为随机变量,Y有有限的均值和方差, 那么:
E(Y)E[E(Y x)]
V a r ( Y ) E [ V a r ( Y x ) ] V a r [ E ( Y x ) ] V a r [ E ( Y x ) ]
根据定理,
E (Yx)E u[E (Yx,u)]
V a r (Y x ) E (x ) V a r (x )2u 2
– 解释变量不足以解释所有的个体差异
• 可以通过如下方法引入 u ,u IR
exp(x)
– 其中,u独立于x
• 泊松参数 变化的来源有两个
– 解释变量x引起的系统性因素 – 独立于x的个体随机影响
令 logu ,则 exp(x)
无法观测的异质性可以看成由省略独立于x 的变量造成的
E(u)标准化为1 E(i ) i Var(i)i2u2
• 定义:概率测度族被称为线性指数族,如 果
– 每个关于y的概率密度函数都可以表示为
l( y ,m ) e x p A ( m ) B ( y ) C ( m ) y
– m是概率密度为l(y,m)的随机变量y的均值
根据Kullback不等式
l o g l ( y ,m ) l ( y ,m 0 ) d y l o g l ( y ,m 0 ) l ( y ,m 0 ) d y


( 1 ), 1 1 1
,分布为负二项分布
• 当 0, ,分布为对数分布
三、泊松回归模型
1、泊松回归模型(Poisson regression model)
• 假设1:
E(Yi xi)exp(xi)
• 假设2:
Yi xi Po(i)
• 假设3:
( y i , x i ) 独立同分布
• 从模型假设可以发现:
• 如果方差大于均值,称为overdispersion;如果 方差小于均值,称为underdispersion。
• 定理
令 X Po(),Y Po()。当且仅当X与Y独立时,
随机变量 Z=X+Y是泊松分布。 – 当X与Y独立时,Z的概率生成函数为
E ( s X Y ) E ( s X ) E ( s Y ) e s e s e ( ) ( ) s
P (Xk)(k!) 1(d dk sP )k s 0(t)kek x !p( t)
3、泊松分布(Poisson distribution)
• 在泊松过程中,标准化时间区间长度为 t=1, 则可 以得到参数为 的标准泊松分布
ek
P(X k) k!
E(X)
Var(X)
• 泊松分布的一个重要特征是均值和方差相等,称 为equidispersion。
• 以这些变量为被解释变量,研究它们的影响因素, 构成了计量经济学的一类问题。
2、计量经济学中的离散计数数据模型
• 假设 y 是计数变量,x 是一组解释变量 • 常见的建模方法是选用线性模型
E(y x) x ,用OLS进行回归 – 由于 y 0 ,E ( y x ) 应该对所有x都非负,矛盾。 • 选用自然对数变换 lo g ( y )
overdispersion
分布函数设定偏误
• Gourieroux, Monfort and Trognon (1984) 证明, 当均值正确设定时,当且仅当概率分布函数族为 线性指数族(linear exponential family)时, PMLE(pseudo maximum likelihood estimator)是 0 的一致估计量。
相关文档
最新文档