第15章 Probit回归(概率单位回归)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
01 X i
(Z )dt
多变量:
Pi ( 01 X 1i 2 X 21i k X ki )
据此建立的Probit回归模型:
1 ( pi ) 01 X1i 2 X 21i k X ki
01 X1i 2 X 21i k X ki
• 参数估计值得协方差和相关性
• 卡方检验:原假设是模型能很好地拟合数据,根据P>a接受原假设,故 模型拟合较好
• 平行检验:P>a,可以认为因素变量个分组的回归方程具有相同的斜率。
• Probit 回归系数的解释问题:以年龄age 为例,其偏回归系 数为0.056 ,表示当性别、心电图保持不变时,年龄每增加 一岁,患冠心病的概率密度函数值增加 0.056 。 • 进一步举例如下:设对于性别为男性、心电图检验结果为轻 度异常、年龄30 岁的人患冠心病的概率为0.40 ,则相应的 概率密度函数值为-0.253 ,则相同性别、相同心电图检验结 果,年龄为31 岁者患冠心病的概率密度函数值为-0.253 +0.056 = -0.197 ,相应的概率为0.422 。则30 岁、31 岁时患 病与未患病的比值比分别为0.4/ (1 -0.4) =0.667 、0.422/(1 0.422) =0.729 ,此时的OR 值为0. 729 /0. 667 = 1. 094 ,与 Logistic 回归分析结果中的exp (β) = 1. 097 一致。
1 1 e xi Pi F ( i ) F ( xi ) i ( xi ) 1 e 1 e 1 e xi
• 通过变换可以得到另一种等价形式:
Pi ln( ) xi 1 Pi
15.1 Probit回归的基本原理
• (2)标准正态累计概率函数: 单一解释变量: Pi ( 01 X i )
15.1 Probit回归的基本原理
• Probit回归与Logistic回归相似,也是拟合0-1型因变量回归 的方法,即把取值分布在实数范围内的变量通过累积概率函 数转换成取值分布在(0,1)区间的概率值。所得概率分布 P 的表达式为: i f ( xi ) f ( i ) • Probit回归常用的累积概率函数有两个: • (1)logit概率函数:
15.2 Probit回归的案例分析
• 例1: 某医师希望研究病人的年龄(岁)、性别co 为女性, 1 为男性)、心电图检验是否异常(ST 段压低, 0 为正常、1 为 轻度异常、2 为重度异常)与患冠心病是否有关,数据文件 为“冠心病影响. sav” 拟合Logistic 回归模型 • 因变量:ca;协变量:sex , ecg 、age • exp (B) :自变量增加一个单位, 总体研究对象患病率与 未患病率的比值/倍数(优势比的变化率) 。
•
• 代表在自变量的指定水 拟合probit回归模型 平下,对有响应的观测 SPSS 操作:分析——回归——probit 的计数信息,取值非负
15.2 Probit回归的案例分析
代表在自变量的指定水平下, 总的观测计数,取值不能小于 相应的响应频数变量值 • 须为整数编码的分类变量, 须指定最大和最小值 • 代表不同的实验刺激条件 • 设置变量转换函数,当协变量与概率之间不存 在现行关系时,需要选择对协变量的转换方式 • 前者为用标准正态累计概 率函数的反函数来转换响 应比例,后者为logit变换
• 共有78 条非频数表资料记录纳入分析,其中66 条记录出现 阴性结果(Control Group)
回归系数/标准误,即Z检验统计量
显著! p= Φ(-3. 364 +0.804 • sex +0. 520 • ecg +0. 056 • age) 或者写成:probit(p)= -3. 364 +0.804 • sex +0. 520 • ecg +0. 0564 • age)
• 自然响应率估计值:在没有促销 活动的情况下,总顾客中仍会有 4.1%的人购买产品。
• 模型拟合非常好, 因素变量各分组的 回归方程具有相同 的斜率,满足平行 性假设条件
置信区间表:显示的是制定销售地点的相应概率。
响应概率probit=0.5时,促销价格半数响应估计值: 网上为46.518,货架为57.905,店铺69.8,可见网上促销最有效 刺激强度
• 一般情况下:Probit 回归更适用于从有计划的试验中获得的 数据,而Logistic回归更适用于直接的观测数据。
• Probit 回归输出对各种响应比例有效值的估计,Logistic 回归 输出对自变量发生比(OR)的估计。
• Probit曲线和logit曲线很相似。两条曲线都是在pi = 0.5 处有拐点,但logit曲线在两个尾部要比Probit曲线厚。
• 15.2 Probit回归的案例分析
15.1 Probit回归的基本原理
• Probit回归即概率单位回归,主要用来测试分析刺激强 度与反应比例之间关系的关系。例如,对于指定数量的 病人,分析他们的给药剂量与治愈比例之间的关系。此 方法应用的典型例子是分析杀虫剂浓度和杀死害虫数量 之间的关系,并据此判断什么样的剂量浓度是最佳的。 • Probit回归适用于对反应变量(因变量)为分类变量的资 料进行统计分析,也存在反应变量为二分类、有序多分 类、无序多分类三种情况,但目前最常用的是二分类的 情形, SPSS 也仅能处理反应变量为二分类的资料。
•
15.1 Probit回归的基本原理
Probit回归与logistic回归的关系
• 当Probit 回归过程选择了Logit变换时,进行的统计分析过程 就是Logistic 回归。 • Logistic模型强调因变量的最终结果是发生还是不发生,其取 值有明显的0~1分化。而概率回归研究的是在因变量具有两 种相反属性时,随着自变量的变化,因变量取某属性的比例 变化情况。如家庭购买电脑的比例与家庭人均收入之间的关 系,研究的不是在某各收入水平下是否会购买,而是在不同 的收入水平下购买的比例。
1
dZ j dx j
Z2 1 1 p dp Z f (Z ) j e 2 j x j dZ x j 2
ˆ ) ˆ ]X ˆ (Y 1| X ) [ ( X P j j
一般情况下对连续变量,X取样本均值,指的是X在平 均意义上每增加一个单位会导致事件发生的概率将会变化多 少个单位。
1 0.8 0.6 0.4 0.2 0 0 5 10 15 20
1 0.8 0.6
25
30
Logistic分布函数
0.4 0.2 0 -4 -2 0 2
累积正态概率分布曲线
• 实际应用中,对于同一资料用Probit 回归与Logistic 回归分 析的结果非常接近。但Logistic回归的应用比Probit 回归更 广泛。这是因为: • Logistic 回归中的偏回归系数可以计算其exp (b) , 即OR 值, 可以得到很好的直观解释与应用。Probit 回归模型中偏回归 系数的含义为其他自变量取值保持不变时自变量每改变一个 单位,出现某结果的概率密度函数值的改变量。显然解释起 来比较麻烦,远不如Logistic 模型中,这也导致了研究者更 喜欢使用Logistic 模型。 • 目前有很多针对Logistic 回归模型的诊断及补救措施,而对 于Probit 回归而言而有信方面相对缺乏。当然,这类似"先 有鸡还是先有蛋"的问题,很难说是因为模型诊断措施较多 而导致了Logistic 回归的更多应用,还是说因为Logistic 回 归更多的应用促进了其模型诊断措施的发展。
15.2 Probit回归的案例分析
拟合probit回归模型
• SPSS 默认变量取值= 1 表示出现阳性结果(患病) • 由于SPSS 默认的是对频数表资料进行Probit 回归分析 ,而本例资料并非各自变量不同取值水平组合的频数表 资料,每一条记录表示一个观察对象,此处需指定一个 频数变量count = 1。其方法有如下几种: • 直接定义频数变量count,并录入数据1 • 转换——计算变量: count = 1 • 语法: COMPUTE count = 1. EXECUTE.
(Z )dt
(Z ), (Z ) 分别为标准正态分布的分布函数与密度函数。
或 Pi ( 01 X1i 2 X 21i k X ki )
Probit 模型的边际分析 自变量的变化对响应概率(p)的影响:
dp 1 2Z2 f (Z ) e dZ 2
– 第14章 有序回归(等级回归分析)
– 第15章 Probit回归(概率单位回归) – 第16章 最佳尺度回归
• Logistic回归
因变量
二项Logistic回归
多项Logistic回归
有序回归 Probit回归
第15章 Probit回归(概率单位回归)
• 15.1 Probit回归的基本原理
• 协变量和三个截距项对方程的作用都有显著意义
显著!
• 由此可得对三种营业场所的probit回归方程: • 网上:probit(p)=-7.219+1.88*ln(促销价格) • 货架:probit(p)=-7.613+1.88*ln(促销价格)
• 店铺:probit(p)=-7.982+1.88*ln(促销价格)
p= Φ(-3. 364 +0.804 • sex +0. 520 • ecg +0. 0564 • age) 或者写成:probit(p)= -3. 364 +0.804 • sex +0. 520 • ecg +0. 0564 • age)
15.2 Probit回归的案例分析
• 例2:某公司在不同营业所(网上、货架、店铺)采用了不 同的促销价格,请使用probit回归对不同促销价格和对促销 有反馈的顾客数量之间的关系进行分析,并拟合响应模型。 数据文件为:“促销效果评价数据.sav”
15.1 Probit回归的基本原理
Probit回归的数据要求 • • • • 因变量(响应变量)应该是计数信息,记录在指定的自变 量条件下,有响应的观测个数。 自变量(因子变量)必须是分类变量且须用整数编码。 观测量应该是独立的。如果自变量值的数量与观察值的数 量相比过多,否则卡方检验和拟合优度检验是不适宜的 对Probit过程的参数估计同样采用极大似然估计法,构建 Probit过程时要求样本采取随机抽取方式抽取,即要求样 本分布与总体分布具有同一性。 概率回归时,最有用的是半数发生量。如收入到多少时, 有一半家庭会购买。毒素浓度达到多少时,有一半的小白 鼠会死亡。
反应比例
• 相对中位数强度估计值,即相对半数效应表。以第一行为例 说明:第一行为网上促销(地点取值为1)对货架促销(地 点取值为2 )的相对半数效应,网上与货架半数效应比值的 估计值为0.803,且其95%的直线区间不包含1,说明两者是 有明显区别的,也就是说网上促销更有效,因为它能以较小 的促销价格促使50%的顾客购买产品(即达到50%的响应 率。)
多元回归wk.baidu.com的几种重要模型
• 第一部分:多重共线情况的处理
– 第10章 岭回归分析( Ridge Regression )
• 第二部分:自变量中含定性变量的处理 – 第11章 自变量中含有定性变量的回归分析 • 第三部分:因变量中含有定性变量情况的处理
– 第12章 二项Logistic回归
– 第13章 多项Logistic回归
默认为 无,自 动给出 控制组
输出观测频数、预测频数、观测值的残差等。
输出因素变量水平间的半数效应及其致信区间 对所有因子水平具有共同的斜率这一假设的检 验,若没有因子变量,则相关中位数力不可用
当选入多个些变量 相关中位数力和信 仰置信区间不可用 只有选入一个因素 变量,两者才可以 用
输出指定响应比例的刺激剂量的置信区间 指定在没有刺激的条件下(即剂量为 0),是否有一个自然响应率 无:没有自然响应率 从样本数据估计其自然响应率 值:输入指定的自然响应率,取值必 须小于1。 例如,如果当激励为0 时响 应在10% 的时间里发生,则输入0.10。
(Z )dt
多变量:
Pi ( 01 X 1i 2 X 21i k X ki )
据此建立的Probit回归模型:
1 ( pi ) 01 X1i 2 X 21i k X ki
01 X1i 2 X 21i k X ki
• 参数估计值得协方差和相关性
• 卡方检验:原假设是模型能很好地拟合数据,根据P>a接受原假设,故 模型拟合较好
• 平行检验:P>a,可以认为因素变量个分组的回归方程具有相同的斜率。
• Probit 回归系数的解释问题:以年龄age 为例,其偏回归系 数为0.056 ,表示当性别、心电图保持不变时,年龄每增加 一岁,患冠心病的概率密度函数值增加 0.056 。 • 进一步举例如下:设对于性别为男性、心电图检验结果为轻 度异常、年龄30 岁的人患冠心病的概率为0.40 ,则相应的 概率密度函数值为-0.253 ,则相同性别、相同心电图检验结 果,年龄为31 岁者患冠心病的概率密度函数值为-0.253 +0.056 = -0.197 ,相应的概率为0.422 。则30 岁、31 岁时患 病与未患病的比值比分别为0.4/ (1 -0.4) =0.667 、0.422/(1 0.422) =0.729 ,此时的OR 值为0. 729 /0. 667 = 1. 094 ,与 Logistic 回归分析结果中的exp (β) = 1. 097 一致。
1 1 e xi Pi F ( i ) F ( xi ) i ( xi ) 1 e 1 e 1 e xi
• 通过变换可以得到另一种等价形式:
Pi ln( ) xi 1 Pi
15.1 Probit回归的基本原理
• (2)标准正态累计概率函数: 单一解释变量: Pi ( 01 X i )
15.1 Probit回归的基本原理
• Probit回归与Logistic回归相似,也是拟合0-1型因变量回归 的方法,即把取值分布在实数范围内的变量通过累积概率函 数转换成取值分布在(0,1)区间的概率值。所得概率分布 P 的表达式为: i f ( xi ) f ( i ) • Probit回归常用的累积概率函数有两个: • (1)logit概率函数:
15.2 Probit回归的案例分析
• 例1: 某医师希望研究病人的年龄(岁)、性别co 为女性, 1 为男性)、心电图检验是否异常(ST 段压低, 0 为正常、1 为 轻度异常、2 为重度异常)与患冠心病是否有关,数据文件 为“冠心病影响. sav” 拟合Logistic 回归模型 • 因变量:ca;协变量:sex , ecg 、age • exp (B) :自变量增加一个单位, 总体研究对象患病率与 未患病率的比值/倍数(优势比的变化率) 。
•
• 代表在自变量的指定水 拟合probit回归模型 平下,对有响应的观测 SPSS 操作:分析——回归——probit 的计数信息,取值非负
15.2 Probit回归的案例分析
代表在自变量的指定水平下, 总的观测计数,取值不能小于 相应的响应频数变量值 • 须为整数编码的分类变量, 须指定最大和最小值 • 代表不同的实验刺激条件 • 设置变量转换函数,当协变量与概率之间不存 在现行关系时,需要选择对协变量的转换方式 • 前者为用标准正态累计概 率函数的反函数来转换响 应比例,后者为logit变换
• 共有78 条非频数表资料记录纳入分析,其中66 条记录出现 阴性结果(Control Group)
回归系数/标准误,即Z检验统计量
显著! p= Φ(-3. 364 +0.804 • sex +0. 520 • ecg +0. 056 • age) 或者写成:probit(p)= -3. 364 +0.804 • sex +0. 520 • ecg +0. 0564 • age)
• 自然响应率估计值:在没有促销 活动的情况下,总顾客中仍会有 4.1%的人购买产品。
• 模型拟合非常好, 因素变量各分组的 回归方程具有相同 的斜率,满足平行 性假设条件
置信区间表:显示的是制定销售地点的相应概率。
响应概率probit=0.5时,促销价格半数响应估计值: 网上为46.518,货架为57.905,店铺69.8,可见网上促销最有效 刺激强度
• 一般情况下:Probit 回归更适用于从有计划的试验中获得的 数据,而Logistic回归更适用于直接的观测数据。
• Probit 回归输出对各种响应比例有效值的估计,Logistic 回归 输出对自变量发生比(OR)的估计。
• Probit曲线和logit曲线很相似。两条曲线都是在pi = 0.5 处有拐点,但logit曲线在两个尾部要比Probit曲线厚。
• 15.2 Probit回归的案例分析
15.1 Probit回归的基本原理
• Probit回归即概率单位回归,主要用来测试分析刺激强 度与反应比例之间关系的关系。例如,对于指定数量的 病人,分析他们的给药剂量与治愈比例之间的关系。此 方法应用的典型例子是分析杀虫剂浓度和杀死害虫数量 之间的关系,并据此判断什么样的剂量浓度是最佳的。 • Probit回归适用于对反应变量(因变量)为分类变量的资 料进行统计分析,也存在反应变量为二分类、有序多分 类、无序多分类三种情况,但目前最常用的是二分类的 情形, SPSS 也仅能处理反应变量为二分类的资料。
•
15.1 Probit回归的基本原理
Probit回归与logistic回归的关系
• 当Probit 回归过程选择了Logit变换时,进行的统计分析过程 就是Logistic 回归。 • Logistic模型强调因变量的最终结果是发生还是不发生,其取 值有明显的0~1分化。而概率回归研究的是在因变量具有两 种相反属性时,随着自变量的变化,因变量取某属性的比例 变化情况。如家庭购买电脑的比例与家庭人均收入之间的关 系,研究的不是在某各收入水平下是否会购买,而是在不同 的收入水平下购买的比例。
1
dZ j dx j
Z2 1 1 p dp Z f (Z ) j e 2 j x j dZ x j 2
ˆ ) ˆ ]X ˆ (Y 1| X ) [ ( X P j j
一般情况下对连续变量,X取样本均值,指的是X在平 均意义上每增加一个单位会导致事件发生的概率将会变化多 少个单位。
1 0.8 0.6 0.4 0.2 0 0 5 10 15 20
1 0.8 0.6
25
30
Logistic分布函数
0.4 0.2 0 -4 -2 0 2
累积正态概率分布曲线
• 实际应用中,对于同一资料用Probit 回归与Logistic 回归分 析的结果非常接近。但Logistic回归的应用比Probit 回归更 广泛。这是因为: • Logistic 回归中的偏回归系数可以计算其exp (b) , 即OR 值, 可以得到很好的直观解释与应用。Probit 回归模型中偏回归 系数的含义为其他自变量取值保持不变时自变量每改变一个 单位,出现某结果的概率密度函数值的改变量。显然解释起 来比较麻烦,远不如Logistic 模型中,这也导致了研究者更 喜欢使用Logistic 模型。 • 目前有很多针对Logistic 回归模型的诊断及补救措施,而对 于Probit 回归而言而有信方面相对缺乏。当然,这类似"先 有鸡还是先有蛋"的问题,很难说是因为模型诊断措施较多 而导致了Logistic 回归的更多应用,还是说因为Logistic 回 归更多的应用促进了其模型诊断措施的发展。
15.2 Probit回归的案例分析
拟合probit回归模型
• SPSS 默认变量取值= 1 表示出现阳性结果(患病) • 由于SPSS 默认的是对频数表资料进行Probit 回归分析 ,而本例资料并非各自变量不同取值水平组合的频数表 资料,每一条记录表示一个观察对象,此处需指定一个 频数变量count = 1。其方法有如下几种: • 直接定义频数变量count,并录入数据1 • 转换——计算变量: count = 1 • 语法: COMPUTE count = 1. EXECUTE.
(Z )dt
(Z ), (Z ) 分别为标准正态分布的分布函数与密度函数。
或 Pi ( 01 X1i 2 X 21i k X ki )
Probit 模型的边际分析 自变量的变化对响应概率(p)的影响:
dp 1 2Z2 f (Z ) e dZ 2
– 第14章 有序回归(等级回归分析)
– 第15章 Probit回归(概率单位回归) – 第16章 最佳尺度回归
• Logistic回归
因变量
二项Logistic回归
多项Logistic回归
有序回归 Probit回归
第15章 Probit回归(概率单位回归)
• 15.1 Probit回归的基本原理
• 协变量和三个截距项对方程的作用都有显著意义
显著!
• 由此可得对三种营业场所的probit回归方程: • 网上:probit(p)=-7.219+1.88*ln(促销价格) • 货架:probit(p)=-7.613+1.88*ln(促销价格)
• 店铺:probit(p)=-7.982+1.88*ln(促销价格)
p= Φ(-3. 364 +0.804 • sex +0. 520 • ecg +0. 0564 • age) 或者写成:probit(p)= -3. 364 +0.804 • sex +0. 520 • ecg +0. 0564 • age)
15.2 Probit回归的案例分析
• 例2:某公司在不同营业所(网上、货架、店铺)采用了不 同的促销价格,请使用probit回归对不同促销价格和对促销 有反馈的顾客数量之间的关系进行分析,并拟合响应模型。 数据文件为:“促销效果评价数据.sav”
15.1 Probit回归的基本原理
Probit回归的数据要求 • • • • 因变量(响应变量)应该是计数信息,记录在指定的自变 量条件下,有响应的观测个数。 自变量(因子变量)必须是分类变量且须用整数编码。 观测量应该是独立的。如果自变量值的数量与观察值的数 量相比过多,否则卡方检验和拟合优度检验是不适宜的 对Probit过程的参数估计同样采用极大似然估计法,构建 Probit过程时要求样本采取随机抽取方式抽取,即要求样 本分布与总体分布具有同一性。 概率回归时,最有用的是半数发生量。如收入到多少时, 有一半家庭会购买。毒素浓度达到多少时,有一半的小白 鼠会死亡。
反应比例
• 相对中位数强度估计值,即相对半数效应表。以第一行为例 说明:第一行为网上促销(地点取值为1)对货架促销(地 点取值为2 )的相对半数效应,网上与货架半数效应比值的 估计值为0.803,且其95%的直线区间不包含1,说明两者是 有明显区别的,也就是说网上促销更有效,因为它能以较小 的促销价格促使50%的顾客购买产品(即达到50%的响应 率。)
多元回归wk.baidu.com的几种重要模型
• 第一部分:多重共线情况的处理
– 第10章 岭回归分析( Ridge Regression )
• 第二部分:自变量中含定性变量的处理 – 第11章 自变量中含有定性变量的回归分析 • 第三部分:因变量中含有定性变量情况的处理
– 第12章 二项Logistic回归
– 第13章 多项Logistic回归
默认为 无,自 动给出 控制组
输出观测频数、预测频数、观测值的残差等。
输出因素变量水平间的半数效应及其致信区间 对所有因子水平具有共同的斜率这一假设的检 验,若没有因子变量,则相关中位数力不可用
当选入多个些变量 相关中位数力和信 仰置信区间不可用 只有选入一个因素 变量,两者才可以 用
输出指定响应比例的刺激剂量的置信区间 指定在没有刺激的条件下(即剂量为 0),是否有一个自然响应率 无:没有自然响应率 从样本数据估计其自然响应率 值:输入指定的自然响应率,取值必 须小于1。 例如,如果当激励为0 时响 应在10% 的时间里发生,则输入0.10。