解释概率模型:Logit-Probit以及其他广义线性模型-课件PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11
发生某事件概率的边际效应
我们去看解释变量对发生某事件的概率所带来的边际效应。可以用下面的等式来表示:
12
Probit模型
Probit关系模型: 概率表示:
13
解释Probit模型
在η上的边际效应 给定自变量值后的预测概率
发生某事件概率的边际效应
14
给定自变量后的预测概率
probit模型计算的预测概率如下:
划分处理此类数据的一些统计模型常常根据数据的种类来代表和讨论,比如“二分数据分 析”、“序列数据分析”、“类别数据分析”或者“离散选择分析”,或者作为一个特别的模型, 比方说logit或者probit 模型。这些相关联的统计方法的共同特点就是它们都是对某事件的概率来建 模。因此,在本书里,我将所有分析事件概率的统计模型统一称为“ 概率模型”。我们讨论的概率 模型包括二分的,序列的,有序的logit和probit,多类别logit,条件logit,以及泊松回归模型。
由于解释上的一些困难,有些社会学家对于这些概率模型存有疑虑,由此导致他们逃避选择这 种概率模型,转而选择一些更加熟悉却未必合适的方法,比如线性回归。本书的目的就是展示如何 解释从各种概率模型中得出的结果。
3
二、广义线性模型和对其系数的解释
4
参数估测的符号和他们的显著性 给定一系列自变量后预测的η值或转化后的η值
解释概率模型
主讲人:xxx 2018.12.17
1
目录
1 介绍
2 广义线性模型和对其系数的解释
3 二分的logit和probit模型
44 序列logit和probit模型 5 有序logit和probit模型
6 多类别logit模型 7 条件logit模型
8 泊松回归模型
9
总结
2
一、介绍
在社会学家的工具箱里,最基本的统计方法就是对一个连续的线性的因变量(或者可以转化成线 性的)进行回归分析。然而很多社会科学家研究的对象是无法用经典的回归模型来分析的,因为很多 的态度、行为、特点,决定以及事件(无论本质上是连续的或者不连续的)是用离散的.虚拟的、序列 的或者简单来说,非连续的方法来测量的。
人
完成高中教 育的
没有完成高 中教育的
未完成大学 教育的
完成大学教 育的
y=1,如果某个人没有完成高中教育 y=2,如果某个人完成高中但没有完成大学教育 y=3,如果某个人完成了大学教育但没有一个专业学历 y=4,如果某个人拥有一个专业学历
有职业学历
没有职业学 历
17
相对应的概率:
18
有时候,所得的结果并不仅仅是很有序地分布在决策树的某一个分支上。马达拉 (Maddala,1983)讨论了克拉格和尤勒(Cragg&Uhler,1975)关于私家车需求的研究模型,提 供了另外一种做决定的次序。模型包括了一系列二分的选择:
在一些特殊情况logit和probit模型得出的估计是差得非常远的,这样就一定要去考虑使用最 合适的模型了。对于尾端比重很大的分布来说,我们更应该考虑模型
有时,一些因变量的结果是多样的,但它们并不是一些完全离散的毫无关联的类别。这些反应的类 别可以看做一系列阶段。晚期的响应是嵌套在早期的响应里面的。例如,结婚的决定是分两个阶段的: 一个人是否计划结婚,然后就是这个婚姻是否会在结束了某种教育程度之前开始(例如完成高中或者大 学学历)。
对η或者转化后的η产生的边际效应 给定一系列自变量值后预测的概率
对事件概率的边际效应
5
三、二分的logit和probit模型
6
logit模型
7
解释logit模型
我们基于这样一个例子做解释 对η或转化后的η的边际效应 给定自变量值后的预测概率 发生某事件概率的边际效应
8
对η或转化后的η的边际效应
y1=1,如果此人购买了一辆新车 y1=2,如果此人没有购买新车 y2=1,如果此人购买了一辆新车去代替原来的旧车 y2=2,如果此人购买了一辆新车还保留原来的旧车 y3=1,如果此人没有购买新车但卖掉了旧车 y3=2,如果此人既没有购买新车也没有卖掉旧车
19
这里有四个值得关注的概率: P1=换了一辆车的概率 P2=增加一辆车的概率 P3=卖掉一辆车的概率 P4 =没有任何改变的概率
9
对η或转化后的η的边际效应
利用这种解释,控制了其他条件后,白人发生性行为的比数是黑人的0.269倍。这个估计值比我
们之前计算出来的观察到的比数比0.282略低。如果在模型里包括了性别和种族的相互作用的话,观
察到的和估计出来的两者之间的比数比的差就会消失。
10
给定自变量后的预测概率
这些预测的概率告诉我们每一组里面有多少成员有过性行为,给出了一个简单、直观的理 解。基于logit 模型,预测大约55%的黑人男性有过性行为,白人女性青少年有过性行为仅为大 约15%。
与logit模型进行对比,预测概率基本相同,结论相似。
对某事件的边际效应
与logit模型解释类似,并且对于二分变量来讲,仍然会夸大边际效应。
15
对比
两个模型有很多相似之处,在大部分情况下,这两个都能给出一样的结论。实际上,我们 可以把从一个模型得出的估计结果转换到另外一个模型得出的估计结果。如果我们把probit估 计乘以一个数,就可以得出一个对应着logit估计值的近似。这个数值一般被认为是 π/3=1.814(Aldrich&Nelson,1984)。雨宫(Amemiya,1981)认为,值为1.6更接近真实数值。最准 确的值其实是在这两个值之间或接近这两个值。
有车一族
购买新车
未购买新 车
替代旧车
保留旧车
卖掉旧车
未卖掉旧 车
20
相对应的概率
21
青少年女性
有过婚前 怀孕
没有过婚 前怀孕
进行了人 工流产
生产前结 婚
生产后结 婚
已婚人士
将配偶包括在 倾诉对象里
没有将配偶包 括在倾诉对象
里
作为第一选择
并非第一选择
在这个序列模型里,关注的概率表达为:
22
序列logit模型特点:其中每一个阶段都有一个二分的logit 模型。 序列模型里面很重要的一点就是,选择的概率在每一个阶段都应该与在其他阶段里面的 选择概率互相独立。即结果y1,y2等都应该在概念上和统计学上互相独立。同时,假设的整 个次序也可能是根据理论所搭建出来的模型之一。例如,研究者也许会假设一个市民决定 是否会进行投票,然后再去决定选择某一个候选人,但是这个次序反过来也是可行的,因 为这两个决定很可能是同时或者互相交叉着做出的。
发生某事件概率的边际效应
我们去看解释变量对发生某事件的概率所带来的边际效应。可以用下面的等式来表示:
12
Probit模型
Probit关系模型: 概率表示:
13
解释Probit模型
在η上的边际效应 给定自变量值后的预测概率
发生某事件概率的边际效应
14
给定自变量后的预测概率
probit模型计算的预测概率如下:
划分处理此类数据的一些统计模型常常根据数据的种类来代表和讨论,比如“二分数据分 析”、“序列数据分析”、“类别数据分析”或者“离散选择分析”,或者作为一个特别的模型, 比方说logit或者probit 模型。这些相关联的统计方法的共同特点就是它们都是对某事件的概率来建 模。因此,在本书里,我将所有分析事件概率的统计模型统一称为“ 概率模型”。我们讨论的概率 模型包括二分的,序列的,有序的logit和probit,多类别logit,条件logit,以及泊松回归模型。
由于解释上的一些困难,有些社会学家对于这些概率模型存有疑虑,由此导致他们逃避选择这 种概率模型,转而选择一些更加熟悉却未必合适的方法,比如线性回归。本书的目的就是展示如何 解释从各种概率模型中得出的结果。
3
二、广义线性模型和对其系数的解释
4
参数估测的符号和他们的显著性 给定一系列自变量后预测的η值或转化后的η值
解释概率模型
主讲人:xxx 2018.12.17
1
目录
1 介绍
2 广义线性模型和对其系数的解释
3 二分的logit和probit模型
44 序列logit和probit模型 5 有序logit和probit模型
6 多类别logit模型 7 条件logit模型
8 泊松回归模型
9
总结
2
一、介绍
在社会学家的工具箱里,最基本的统计方法就是对一个连续的线性的因变量(或者可以转化成线 性的)进行回归分析。然而很多社会科学家研究的对象是无法用经典的回归模型来分析的,因为很多 的态度、行为、特点,决定以及事件(无论本质上是连续的或者不连续的)是用离散的.虚拟的、序列 的或者简单来说,非连续的方法来测量的。
人
完成高中教 育的
没有完成高 中教育的
未完成大学 教育的
完成大学教 育的
y=1,如果某个人没有完成高中教育 y=2,如果某个人完成高中但没有完成大学教育 y=3,如果某个人完成了大学教育但没有一个专业学历 y=4,如果某个人拥有一个专业学历
有职业学历
没有职业学 历
17
相对应的概率:
18
有时候,所得的结果并不仅仅是很有序地分布在决策树的某一个分支上。马达拉 (Maddala,1983)讨论了克拉格和尤勒(Cragg&Uhler,1975)关于私家车需求的研究模型,提 供了另外一种做决定的次序。模型包括了一系列二分的选择:
在一些特殊情况logit和probit模型得出的估计是差得非常远的,这样就一定要去考虑使用最 合适的模型了。对于尾端比重很大的分布来说,我们更应该考虑模型
有时,一些因变量的结果是多样的,但它们并不是一些完全离散的毫无关联的类别。这些反应的类 别可以看做一系列阶段。晚期的响应是嵌套在早期的响应里面的。例如,结婚的决定是分两个阶段的: 一个人是否计划结婚,然后就是这个婚姻是否会在结束了某种教育程度之前开始(例如完成高中或者大 学学历)。
对η或者转化后的η产生的边际效应 给定一系列自变量值后预测的概率
对事件概率的边际效应
5
三、二分的logit和probit模型
6
logit模型
7
解释logit模型
我们基于这样一个例子做解释 对η或转化后的η的边际效应 给定自变量值后的预测概率 发生某事件概率的边际效应
8
对η或转化后的η的边际效应
y1=1,如果此人购买了一辆新车 y1=2,如果此人没有购买新车 y2=1,如果此人购买了一辆新车去代替原来的旧车 y2=2,如果此人购买了一辆新车还保留原来的旧车 y3=1,如果此人没有购买新车但卖掉了旧车 y3=2,如果此人既没有购买新车也没有卖掉旧车
19
这里有四个值得关注的概率: P1=换了一辆车的概率 P2=增加一辆车的概率 P3=卖掉一辆车的概率 P4 =没有任何改变的概率
9
对η或转化后的η的边际效应
利用这种解释,控制了其他条件后,白人发生性行为的比数是黑人的0.269倍。这个估计值比我
们之前计算出来的观察到的比数比0.282略低。如果在模型里包括了性别和种族的相互作用的话,观
察到的和估计出来的两者之间的比数比的差就会消失。
10
给定自变量后的预测概率
这些预测的概率告诉我们每一组里面有多少成员有过性行为,给出了一个简单、直观的理 解。基于logit 模型,预测大约55%的黑人男性有过性行为,白人女性青少年有过性行为仅为大 约15%。
与logit模型进行对比,预测概率基本相同,结论相似。
对某事件的边际效应
与logit模型解释类似,并且对于二分变量来讲,仍然会夸大边际效应。
15
对比
两个模型有很多相似之处,在大部分情况下,这两个都能给出一样的结论。实际上,我们 可以把从一个模型得出的估计结果转换到另外一个模型得出的估计结果。如果我们把probit估 计乘以一个数,就可以得出一个对应着logit估计值的近似。这个数值一般被认为是 π/3=1.814(Aldrich&Nelson,1984)。雨宫(Amemiya,1981)认为,值为1.6更接近真实数值。最准 确的值其实是在这两个值之间或接近这两个值。
有车一族
购买新车
未购买新 车
替代旧车
保留旧车
卖掉旧车
未卖掉旧 车
20
相对应的概率
21
青少年女性
有过婚前 怀孕
没有过婚 前怀孕
进行了人 工流产
生产前结 婚
生产后结 婚
已婚人士
将配偶包括在 倾诉对象里
没有将配偶包 括在倾诉对象
里
作为第一选择
并非第一选择
在这个序列模型里,关注的概率表达为:
22
序列logit模型特点:其中每一个阶段都有一个二分的logit 模型。 序列模型里面很重要的一点就是,选择的概率在每一个阶段都应该与在其他阶段里面的 选择概率互相独立。即结果y1,y2等都应该在概念上和统计学上互相独立。同时,假设的整 个次序也可能是根据理论所搭建出来的模型之一。例如,研究者也许会假设一个市民决定 是否会进行投票,然后再去决定选择某一个候选人,但是这个次序反过来也是可行的,因 为这两个决定很可能是同时或者互相交叉着做出的。