第十讲定类或定序因变量回归分析_408009601精编版
初中数学回归分析课件
(y y
( yn bxn a)2
y ) [2 y1 (bx1 a) 2 y2 (bx2 a) ]
2
2
2
n
2
n
n
n
n
n
i 1
i 1
i 1
i 1
i 1
展开
合并同类项
yi2 2b xi yi 2a yi b2 xi2 2ab xi na 2
×
)
2.判断下列图形中具有相关关系的两个变量
是(
C
)
3.某产品 A 的产量 x 吨与耗电量 y 千瓦的对应
数据如右表.根据右表可求得回归直线方程为
ŷ=b̂x+â,且b̂=0.7,据此模型预测产品产量为 8 吨
时耗电量等于________.
−
−=3.5,点(x
−,y−)
x =4.5,y
x(吨)
3
4 5
2
i
xn2 2nx
2
i
( x1 x2
n
2
xn )
nx
n
i 1
i 1
∴ ( xi x)2 xi2 nx
2
n
xn2 ) xi2 nx
2
i 1
(i 1,
2,
3, ,n) .显然,上面的各个偏差的符号有
正、有负,如果将他们相加会相互抵消一部分,
i 1
整理
i 1
i 1
n
( xi x)( yi y ) n
( yi y ) 2
n[a ( y bx)]2 ( xi x) 2 b i 1 n
回归分析专题教育课件
学习目的 掌握简朴线性回归模型基本原理。 掌握最小平措施。 掌握测定系数。 了解模型假定。 掌握明显性检验 学会用回归方程进行估计和预测。 了解残差分析。
1
习题
1. P370-1 2. P372-7 3. P380-18
4. P380-20 5. P388-28 6. P393-35
2
案例讨论: 1.这个案例都告诉了我们哪些信息? 2.经过阅读这个案例你受到哪些启发?
3
根据一种变量(或更多变量)来估计 某一变量旳措施,统计上称为回归分析 (Regression analysis)。
回归分析中,待估计旳变量称为因变 量(Dependent variables),用y表达;用来 估计因变量旳变量称为自变量 (Independent variables),用x表达。
yˆ b0 b1 x (12.4)
yˆ :y 旳估计值
b0 :0 旳估计值
b1 : 1 旳估计值
18
19
第二节 最小平措施
最小平措施(Least squares method), 也称最小二乘法,是将回归模型旳方差之 和最小化,以得到一系列方程,从这些方 程中解出模型中需要旳参数旳一种措施。
落在拒绝域。所以,总体斜率 1 0 旳假
设被拒绝,阐明X与Y之间线性关系是明显
旳。
即 12 条 航 线 上 , 波 音 737 飞 机 在 飞 行
500公里和其他条件相同情况下,其乘客数
量与飞行成本之间旳线性关系是明显旳。
57
单个回归系数旳明显性检验旳几点阐明
为何要检验回归系数是否等于0?
假如总体中旳回归系数等于零,阐明相应旳自变 量对y缺乏解释能力,在这种情况下我们可能需 要中回归方程中去掉这个自变量。
[课件]第10章事物间的因果关系回归分析PPT
x的线性关系所决定的部分,即可以直接由x估计的部分。 b为回归系数,也是回归线的斜率。 残差:估计值ŷ和每一个实测值之间的差称为残差。残差 表示因变量y除了自变量x以外的其他所有未进入模型或未 知但可能与y有关的随机和非随机因素共同引起的变异, 即不能由x估计的部分。
最小二乘原理即残差的平方和最小。
回归系数
常数项即a
自变量的回 归系数即b
如果p值小于0.05,说明该自变 量的回归系数在统计上是显著的, 即有足够的把握认为b不为0。
建立回归方程: y=1.935+0.021x 其中y表示儿童的知识量评分 x表示儿童接触电视的时间。
15
将一元线性回归进行推广,引入多个自变量,以利用更多 的信息来解释因变量的变化,即可得多元线性回归方程
如果p值小于0.05,说明 该自变量的回归系数在统 计上是显著的,即有足够 的把握认为b不为0。
建立回归方程:
y=-6.886+1.455x1+0.009x2
强制回归法:所有自变量强制纳入回归模型 向前回归法:将自变量按顺序选入回归模型。首先选入的
是与因变量有最大相关性的自变量,同时必须满足选入条 件,然后再考虑下一个自变量。 向后回归法:与向前法相反。首先将所有变量纳入模型, 然后按顺序移除,最先移除的是与因变量相关性最小的自 变量,直至方程中没有满足移除条件的变量。 逐步回归法:将向前回归与向后回归结合起来。每向模型 引入一个新变量,均要考察原来在模型中的自变量是否还 有统计意义,是否可以被剔除。较合理。 移除法:建立回归模型前设立条件,根据条件删除自变量。
第二步:考察因变量的正态性
在因变量的正态 性不理想的情况 下,回归方程可 以体现因变量与 自变量的因果关 系,不: y=b0+b1×· x1+b2×x2
定序回归
1
0.2
0.4
0.6
0.8
2
3 score
4
5
图5-1 消费者打分和有无数码相机之间关系图
2011
厦门大学经济学院
5.15
从总体上来讲,可以看到一个明显的上升趋势。 具体地说,得分越高的手机,具有数码相机功能的 比率越高,特别是在比较不喜欢( score=2)到比较 喜欢(score=4)之间。这说明有无数码相机功能在 当时是一个界定人们对其打分是否高于平均水平的 重要属性。我们再对其他几个定性因素作类似分析 (如图5-2所示):
2011
厦门大打分( score )和不 同品牌之间的关系。在R中,可以做列联表如下:
> xtabs(~score+W1) W1 score Bird Motorola Nokia Samsung 1 37 24 34 26 2 80 64 53 66 3 98 138 132 133 4 109 108 116 96 5 28 30 35 44
5.18
第三节 定序回归模型
在我们详细介绍定序回归模型以前,先回答一个 问题,即为什么不可以用普通线性模型,例如: score 0 7 W 7 请注意,这显然是不可以的。因为等号的右边是 一个具有数值意义的实数,而等号的左边是一个只 有顺序意义的变量。此外,我们也不可以用 0-1变量 回归模型,因为 0-1变量模型要求因变量有且仅有两 个不同的取值( 0-1),但是本案例所涉及的因变量 有五个不同的取值( 1-5)。所以,我们必须建立一 个特殊的专门用于定序数据的模型,这就是下面要 讲的定序回归模型。
从中可以看到,在所有得分为 1或 2 的品牌中,频 数最高的是波导,其频数分别为37和80;在得分为3 的品牌中,摩托罗拉频数最高,为138;在得分为4
因变量是定性变量的回归分析—Logistic回归分析
因变量是定性变量的回归分析—L o g i s t i c回归分析This model paper was revised by the Standardization Office on December 10, 2020因变量是定性变量的回归分析—Logistic 回归分析一、 从多元线性回归到Logistic 回归例 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav). 其中: 年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。
从这张图可以看出什么呢从这张图又可以看出什么呢这里观点是因变量, 只有两个值;所以可以把它看作成功概率为p 的Bernoulli 试验的结果.但是和单纯的Bernoulli 试验不同,这里的概率p 为年龄和性别的函数. 必须应用Logistic 回归。
二、 多元线性回归不能应用于定性因变量的原因首先,多元线性回归中使用定性因变量严重违反本身假设条件,即:因变量只能取两个值时,对于任何给定的自变量值,e 本身也只能取两个值。
这必然会违背线性回归中关于误差项e 的假设条件。
其次,线性概率概型及其问题:由于因变量只有两个值;所以可以把它看作成功概率p ,取值范围必然限制在0—1的区间中,然而线性回归方程不能做到。
另外概率发生的情况也不是线性的。
三、 Logistic 函数Logistic 的概率函数定义为:我们将多元线性组合表示为:于是,Logistic 概率函数表示为:经过变形,可得到线性函数:这里, 事件发生概率=P (y=1)事件不发生概率=1-P (y=0) 发生比:Ω=-=pp odds 1)( 对数发生比:)(log )1(ln )log(p it p p odds =⎥⎦⎤⎢⎣⎡-= 这样,就可将logistic 曲线线性化为:从P 到logit P 经历了两个步骤变换过程:第一步:将p 转换成发生比,其值域为0到无穷第二步:将发生比换成对数发生比,其值域科为[]∞+∞-经过转换, 将P →logit P,在将其作为回归因变量来解释就不再有任何值域方面的限制了,即可线性化!四、 Logistic 回归系数的意义以logit P 方程的线性表达式来解释回归系数,即:在logistic 回归的实际研究中,通常不是报告自变量对P 的作用,而是报告自变量对logit P 的作用。
回归分析的基本思想及其初步应用ppt
线性回归模型的评估是检验模型预测效果的重 要步骤。评估的指标包括模型的拟合优度、显 著性检验和预测精度等。
显著性检验可以通过F检验和t检验来实现,用于 检验模型的参数是否显著不为零。
03
非线性回归分析
多项式回归
04
回归分析的初步应用
经济预测
总结词
通过分析历史数据和相关经济指标,回归分 析可以预测未来的经济趋势和变化。
详细描述
回归分析在经济预测中应用广泛,例如,通 过分析历史GDP、消费、投资等数据,可以 预测未来经济增长速度、通货膨胀率等经济 指标。这种预测有助于企业和政府制定经济 政策,进行资源分配和投资决策。
结果解读
查看回归分析结果,包括系数、标 准误、显著性等。
03
02
线性回归分析
选择回归分析模块,设置自变量和 因变量。
模型评估
根据回归分析结果评估模型的性能 。
04
THANKS
感谢观看
05
回归分析的注意事项
数据质量
01
02
03
完整性
确保数据集中的所有观测 值都完整无缺,没有遗漏 或缺失的数据。
准确性
数据应准确无误,避免误 差或错误的测量和记录。
一致性
不同来源或不同时间点的 数据应具有一致的格式和 标准,以便进行比较和分 析。
过拟合与欠拟合
过拟合
模型在训练数据上表现良好,但 在测试数据上表现较差。原因是 模型过于复杂,导致对训练数据 的过度拟合。
它通过找出影响因变量的因素,并确 定这些因素对因变量的影响程度,来 预测因变量的取值。
回归分析的分类
线性回归分析讲义
线性回归分析一、变量间的两类关系在现实世界的许多问题中,普遍存在着变量之间的关系.一般来说,变量之间的关系分为确定性与非确定性两类.确定性关系是指变量间的关系是完全已知、可以用函数关系来描述的,例如电学中的欧姆定律 V IR =等.而非确定性关系是指变量间有关系,但不是确切的函数关系,例如人的年龄和血压之间的关系,一般来讲,人的年龄大一些,血压就高一些,但这两者间的关系不是确定的函数关系.再如人的身高与体重,农作物的亩产量与施肥量之间等等都属于非确定性关系.这种不呈现确定性关系的变量间关系又称为相关关系.回归分析是研究相关关系的一种数学工具,也是一种最常用的统计方法.本书只讨论简单的一元线性回归分析.变量本身也可分为两类,若一个变量是人力可以控制的、非随机的,称为控制变量或可控变量,另一类变量是随机的、且随着控制变量的变化而变化,则这个变量称为随机变量或不可控变量.控制变量与随机变量之间的关系称为回归关系,若两个变量都是随机的,则它们之间的关系称作是相关关系.两者的差别在于把自变量当作控制变量还是随机变量,这就是回归与相关的不同之处.但在解决实际时常常把不可控的自变量当作可控变量处理.一般对自变量不加区分.二、一元线性回归模型设变量Y 与x 之间具有相关关系,其中x 为可控变量,作为自变量;Y 为随机变量,作为因变量(也称响应变量).当x 固定时,Y 是一个随机变量,因此有一个分布,如果该分布的期望存在,其期望值应为x 的函数,记为()x μ,称之为Y 关于x 的回归函数,()x μ就是我们要寻找的相关关系的表达式.当()x μ为关于x 的线性函数时,称为线性回归,否则称为非线性回归.进行回归分析时首先是回归函数()x μ形式的选择,这需要通过专业知识、实际经验和具体的观测才能确定,当只有一个自变量时,通常可采用画散点图的方法进行选择.请看下例:例1 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度Y 与腐蚀时间X 对应得一组数据,如表9-4所示.一般地,对于x 取定一组不完全相同的值12,,,n x x x ,设i Y 为在对应(1,2,,)i x i n =处Y 的观测结果,称1122(,),(,),,(,)n n x Y x Y x Y ,是一个样本,相应地,称1122(,),(,),,(,)n n x y x y x y 为样本观测值.一般以表格给出我们把每一数对(,)i i x y 看作直角坐标系中的一个点,在图上画出这n 个点,称该图为散点图.例1的散点图见图9-1.腐蚀时间腐蚀深度图9-1 腐蚀深度及腐蚀深度的散点图从散点图我们发现11个点基本上在一条直线附近,这说明两个变量有一个线性关系,即()x a bx μ=+,记y轴方向上的误差为ε,进一步假定2~(0,)N εσ,这里2,,a b σ均为与x 无关的常数.则上述假设可写为2~(0,)Y a bx N εεσ=++⎧⎨⎩ 2,,a b σ为常数 (2.1) 我们称(2.1)为一元线性回归模型.研究一元线性回归模型的主要内容有:参数估计、显著性检验、预测与控制等.三、回归系数的最小二乘估计取x 的n 个不完全相等的值12,,,n x x x ,得到一组独立观测样本1122(,),(,),,(,)n n x Y x Y x Y ,在模型(2.1)下,可得如下数据结构2~(0,)i i i iY a bx N εεσ=++⎧⎨⎩且相互立 通常采用最小二乘法估计,a b ,记各次拟合误差的平方和为21(,)()ni i i Q a b Y a bx ==--∑寻找,a b ,使(,)Q a b 达到最小,即,ˆˆ(,)min (,)a bQ ab Q a b = (2.2) 这样得到的ˆˆ,ab 称为,a b 的最小二乘估计,可通过对(,)Q a b 求偏导数并令它们等于0求出,即112()02()0ni i i ni i i i QY a bx a Q Y a bx x b==∂⎧=---=⎪∂⎪⎨∂⎪=---=⎪∂⎩∑∑ (2.3) 这组方程称为正规方程组,经过整理可得112111()()()n n i ii i n n ni i i i i i i na x b Y x a x b x Y=====⎧+=⎪⎪⎨⎪+=⎪⎩∑∑∑∑∑ (2.4)记 111111()()()()nnnnnxy i i i i i i i i i i i i i L x x Y Y x Y nx Y x Y x Y n ======--=-=-∑∑∑∑∑2222211111()()n n nnxx i iii i i i i L x x x nx x x n =====-=-=-∑∑∑∑2222211111()()n n nnyy i i i i i i i i L Y Y Y nY Y Y n =====-=-=-∑∑∑∑解(2.4)可得ˆˆˆxy xxb L L a Y bx⎧=⎪⎨=-⎪⎩ (2.5)称方程ˆˆˆya bx =+为线性回归方程,其图形称为回归直线.除了估计回归系数,a b 外,还需估计未知参数2σ.注意到2σ反映出观测误差的大小,样本中有关2σ的信息可由回归方程的残差ˆˆˆi i i i ie Y Y Y a bx =-=-- 来体现,称222111ˆˆˆ()()nnne i i i i ii i i S e Y Y Y a bx =====-=--∑∑∑ 为残差平方和.可以证明:22~(2)e S n χ- (2.6)于是2()2e S E n σ=-,这说明 2ˆ2e S n σ=-是2σ的一个无偏估计.为便于计算,通常将e S 作如下分解:2211ˆˆ()[()]n ne i i i ii i S Y Y Y Y Y Y ===-=---∑∑ 21ˆ[()]ni ii Y Y b x x ==---∑ 222111ˆˆ()2()()()()n n ni i ii i i i Y Y b Y Y x x b x x ====----+-∑∑∑2ˆˆˆ2()yy xy xx yy xyL bL b L L bL =-+=- 即ˆe yy xyS L bL =- (2.7) 例2 求例1中Y 关于x 的回归方程,并求2σ的无偏估计2ˆσ. 解 经计算得12922.723952.721258.72xx xy yy L L L ===45.45x = 19.45y =代入得ˆˆˆ0.306 5.551xyxxL b a y bx L ===-=于是 回归直线为ˆ 5.5510.306yx =+ 2σ的估计值为211ˆˆ() 5.5222e yy xy S L bL n n σ==-=-- . 四、线性假设的显著性检验从以上求回归直线的过程可以看出,对任意给出的n 对观测数据(,)(1,2,,)i i x y i n =,不管Y 与x 是否真的有线性关系,都可以求出Y 对x 的回归直线,但这样给出的回归直线不一定有意义.要判断回归直线是否有意义,就必须对回归方程是线性的假设作显著性检验.注意到在线性回归方程()()E Y x a bx μ==+中,如果0b =,则表示Y 不依赖x 而变化,那么这时求出的回归方程就没有意义,称回归方程不显著;如果0b ≠,那么当x 变化时,()E Y 随x 的变化而线性变化,这时称回归方程是显著的.因此,对回归方程是否有意义作判断 就是要作如下的显著性检验:01:0:0H b H b =↔≠ (2.8)考虑b 的最小二乘估计ˆb,可以证明2ˆ~(,)xxb N b L σ 又由(2.6)式,知2222ˆ(2)~(2)eS n n σχσσ-=-且ˆb 与eS 相互独立,故统计量t =~(2)t n =- (2.9) 在0H 为真时,检验统计量可取~(2)t t n =- (2.10)在水平α下,检验的拒绝域为2:(2)W t t n α=≥- (2.11)该检验称为t 检验.当拒绝0H 时,回归方程是显著的,表明回归方程有意义.反之,就认为回归方程是不显著的.由于若~(2)t t n -,有2~(1,2)tF n -,因此检验统计量也可以取22ˆˆˆ(2)xyxx e bL b F L S n σ==-仿照方差分析的做法,数据总的偏差平方和记为21()nT i yy i S Y Y L ==-=∑称 21ˆˆ()nR i xy i S Y Y bL ==-=∑ 为回归平方和,由(2.7)式,平方和有分解式 T R e S S S =+.利用上述记号,则在0H 为真时,检验统计量~(1,2)(2)Re S F F n S n =-- (2.12)在水平α下,检验的拒绝域为:(1,2)W F F n α≥- (2.13)该检验称为F 检验,显然它与t 检验是等价的.利用(2.9)式,我们还可得到参数b 的置信度为1α-的置信区间:22ˆˆˆˆ(2),(2)b n b n αα⎛⎫--+- ⎪ ⎪⎝⎭(2.14) 另外,评价回归方程好坏的有一个常用指标:回归决定系数(复行列式系数),定义如下:222T/S xyxy xxRxx yyyyl l l S R l l l ===,显然,201R ≤≤,回归决定系数越接近1,说明回归方程拟合得越好。
10 相关与回归
❖ 残差平方和:Q n Yi Yˆi 2 n Yi ˆ0 ˆ1X i 2
i 1
i 1
Y
X i ,Yi
Yi Yˆi
×
Xi ,Yˆi
Xi
X
Q
ˆ0
2
Yi ˆ0 ˆ1X i 0
Q
Yˆ ˆ0 ˆ1 X
Y
X i ,Yi
Yi Yˆi Nhomakorabea
×
Xi ,Yˆi
☻ 用经验回归方程计算的估
计值 Y与ˆ 真实值 之Y 间的差
称为离差,或称为残差。
e Y Yˆ
Xi
X
• §【基2本.3思想一】:元最线小二性乘法回——归适当模确ˆ0定型ˆ1的和 拟,使合估计的 直线与真实值间的残差平方和最小。
回归分析 的特点
回归分析特点(与相关分析相比)
比较项目
回归分析
相关分析
回归方程:反映自、因变 相关系数:绝对值在0到1 结果形式 量的具体关系,并且可依 之间,反映相关密切程度
照方程进行推算和估计
变量性质
自变量是给定的,因变量 是随机的
不必区分自变量和因变量 ,全都是随机的
变量对调 的影响
变量调换位置影响计算结 变量调换位置不影响计算
以数值方式度§量两1个0变.1量.2间线相性相关关关系系的数强弱程度。
– 总体相关系数(ρ):根据总体全部数据算出的相关系数。
– 样本相关系数(r):根据样本数据算出的相关系数。
• §10.1.2.1 Pearson简单相关系数
回归分析jiaoan_ch
第二章 回归分析 (补充教材)回归分析是研究变量之间相关关系的一种统计推断法。
例如,人的血压y 与年龄x 有关,这里x 是一个普通变量,y 是随机变量。
Y 与x 之间的相依关系f(x)受随机误差ε的干扰使之不能完全确定,故可设有:ε+=)(x f y )'11.2(-式中f(x)称作回归函数,ε为随机误差或随机干扰,它是一个分布与x 无关的随机变量,我们常假定它是均值为0的正态变量。
为估计未知的回归函数f(x),我们通过n 次独立观测,得x 与y 的n 对实测数据(x i ,y i )i=1,……,n ,对f(x)作估计。
实际中常遇到的是多个自变量的情形。
例如 在考察某化学反应时,发现反应速度y 与催化剂用量x 1,反应温度x 2,所加压力x 3等等多种因素有关。
这里x 1,x 2,……都是可控制的普通变量,y 是随机变量,y 与诸x i 间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:ε+=),,,(21k x x x f y )"11.2(-这里ε是不可观察的随机误差,它是分布与x 1,……,x k 无关的随机变量,一般设其均值为0,这里的多元函数f(x 1,……,x k )称为回归函数,为了估计未知的回归函数,同样可作n 次独立观察,基于观测值去估计f(x 1,……,x k )。
以下的讨论中我们总称自变量x 1,x 2,……,x k 为控制变量,y 为响应变量,不难想象,如对回归函数f(x 1,……,x k )的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y 和控制变量x 1,x 2,……,x k 呈现线性相关关系的情形,即假定f(x 1,……,x k )=b 0+b 1x 1+……+b k x k 。
并称由它确定的模型 )11.2('-(k=1)及)11.2(''-为线性回归模型,对于线性回归模型,估计回归函数f(x 1,……,x k )就转化为估计系数b 0、b i (i=1,……,k) 。
十二章节相关与回归分析
亲密者为小。
2024/9/29
29
PRE:用不懂得Y与X有关系时预测Y旳全部误差E1, 减去懂得Y与X有关系时预测Y旳联络误差E2,再将其化 为百分比来度量
PRE
原来的误差 — 后来的误差 后来的误差
E0 E1 E0
PRE旳取值范围是
0≤PRE≤l
削减误差百分比PRE合用于各测量层次旳变量,λ系
或
pij
f ij FY j
2024/9/29
15
r×c相对频数联合分布列联表
2024/9/29
16
控制X,Y相对频数条件分布列联表
2024/9/29
17
控制Y,X相对频数条件分布列联表
2024/9/29
18
投票行为
受教育程度X
Y
大学以 大学
FY
上
下列
投票
160
129
289
弃[例权A1]试把下表7所示旳频数61分布列联表6,8 转
2024/9/29
5
4. 单有关和复有关 从变量旳多少上看,单有关只涉及两个变量,亦称二元 有关;三个或三个以上变量之间旳关系称为复有关,亦称多 元有关。 五、直线有关和曲线有关 从变量变化旳形式上看,假如关系近似地体现为一条直 线,称为直线有关或线性有关;假如关系近似地体现为一条 曲线,则称为曲线有关或称为非线性有关。 因为数学手段旳不足,我们以学习线性有关为主。在 统计学中,经过分段处理线性有关也能够用于处理曲线相 关。
100.0% (357)
上表显示,大学以上文化程度和大学下列文化程度一样
各有60%旳人参加投票,40%旳人弃权,并没有因为受教育
程度不同,而使参加投票旳行为有所不同。所以,此时旳两
第10章 含定性变量的回归模型 《应用回归分析》 PPT课件
对一个取值为0和1的因变量, 误差项εi=yi-(β0+β1xi)只能取两个值:
当yi=1时, εi=1-β0-β1xi=1-πi 当yi=0时, εi=-β0-β1xi=-πi 显然,误差项εi是两点型离散分布,当然正态误差回归 模型的假定就不适用了。
Di
Di
1, 0,
当 xi 500 当 xi 500
8
§10.2自变量含定性变量的回归模型的应用
引入两个新的自变量
xi1=xi xi2=(xi-500)Di
这样回归模型转化为标准形式的二元线性回归模型:
yi=β0+β1xi1+β2xi2+εi (10.3)式可以分解为两个线性回归方程:
(10.3)
4.743
5.999E-02
F 79.059
Sig. .000
Coefficients
(Cons tant) X X2
Uns tandardized Co e ffi ci e nts
B
Std. E rror
5.895
.604
-3.954E-03
.001
-3.893E-03
.002
Sta nd ard i ze d Co e ffi ci e nts
Beta
.977 -.111 -.443
t -6.896 11.292
-.309 -1.187
Sig. .000 .000 .760 .247
从表10.4中看到,对β3显著性检验的显著性概率Sig=0.247, 应该接受原假设H0:β3=0,例10.1采用的回归模型(10.11)是
正确的。
因变量是定性变量的回归分析—Logistic回归分析
因变量是定性变量的回归分析—L o g i s t i c回归分析TYYGROUP system office room 【TYYUA16H-TYY-TYYYUA8Q8-因变量是定性变量的回归分析—Logistic 回归分析一、 从多元线性回归到Logistic 回归例 这是200个不同年龄和性别的人对某项服务产品的认可的数据.其中: 年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。
从这张图可以看出什么呢?从这张图又可以看出什么呢?这里观点是因变量, 只有两个值;所以可以把它看作成功概率为p 的Bernoulli 试验的结果.但是和单纯的Bernoulli 试验不同,这里的概率p 为年龄和性别的函数. 必须应用Logistic 回归。
二、 多元线性回归不能应用于定性因变量的原因首先,多元线性回归中使用定性因变量严重违反本身假设条件,即:因变量只能取两个值时,对于任何给定的自变量值,e 本身也只能取两个值。
这必然会违背线性回归中关于误差项e 的假设条件。
其次,线性概率概型及其问题:由于因变量只有两个值;所以可以把它看作成功概率p ,取值范围必然限制在0—1的区间中,然而线性回归方程不能做到。
另外概率发生的情况也不是线性的。
三、 Logistic 函数Logistic 的概率函数定义为:我们将多元线性组合表示为:于是,Logistic 概率函数表示为:经过变形,可得到线性函数:这里, 事件发生概率=P (y=1)事件不发生概率=1-P (y=0) 发生比:Ω=-=pp odds 1)( 对数发生比:)(log )1(ln )log(p it p p odds =⎥⎦⎤⎢⎣⎡-= 这样,就可将logistic 曲线线性化为:从P 到logit P 经历了两个步骤变换过程:第一步:将p 转换成发生比,其值域为0到无穷第二步:将发生比换成对数发生比,其值域科为[]∞+∞-经过转换, 将P →logit P,在将其作为回归因变量来解释就不再有任何值域方面的限制了,即可线性化!四、 Logistic 回归系数的意义以logit P 方程的线性表达式来解释回归系数,即:在logistic 回归的实际研究中,通常不是报告自变量对P 的作用,而是报告自变量对logit P 的作用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Pj 1 Pj
)
a
j 1
j 1
X
需要注意的是:1)就系数解释和检验而言,多项对数比率回归和简单对数 比率回归相同。2)方程组在统计上不独立,必须同时估算,不可一一求解。
SPSS上的应用: 1)Analyze—Regression—Multinomial Logistic 2)Dependent——用于选入无序多分类的因变量 3)Factor ——用于选入分类自变量,可以是有
L0 )
(2 log
L1)
遵循卡方分布,其自由度为非独立模型的自变量数目,可用于检验 复杂模型中自变量对似然率的增加是否显著,越大越好。
3、logit模型回归系数的假设检验
设原假设H0为:βk=0,表示自变量对事件发生的可能性无影响;如果原 假设被拒绝,说明自变量对事件发生的可能性有影响。
Wald检验
.155***
.207*
.127*
-.002*
-.001*
.613***
.242**
.214
.204*
1.263
1.192
.810
-.554
1.302*
.965*
1.346***
.776*
521
521
869.2
18
若假设β1=β2=…βj-1, 则对数升级方程组可简化方程如下:
Lj
log( Pj1 Pj2 L Pj P1 P2 L Pj
(p1+p2)/p3
-.525**
.865***
-
-
-
-
-
-
-
-
-
-
1.515*
1.470*
1.205
-.128
1.339**
.930*
1.697***
.905*
576
576
1053.7
8
模型(2)
进顶层
P1/(p2+p3)
避免底层
(p1+p2)/p3
-8.244***
-3.500**
.238***
(2)泊松分布(Poisson)
y : e y
y!
二、线性概率模型
1、模型建立
以最小二乘法为基础的线性回归方程是估测因变量的平均值,而 二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估 测概率,就是所谓的线性概率回归。用公式表示为:
P = a + ∑βiXi + ε
对二项分布线性概率模型的结果解释: 在其他变量不变的情形
a1
1
x
log(
log(
pj p j1
)
a j1
j 1 x
对于定序变量,常常假设升级的作用是一样的,即在方程
组中,各个方程的斜率项是相同的,β1=β2=……=βj-1 ,上式可
表示为:
log( Pj1 ) pj
aj
x
2、升级比
用P1,P2,……Pj表示一定序变量由低到高各级类别的概
g(P)= log (P/1-P) 以对数比率为因变量对自变量X1,X2,X3……做回归称 为对数比率回归(logistic regression),其方程式为:
log( P ) a 1 P
i X i
exp(
pi
1 exp(
K k 0
k
xik
)
x K
k 0 k ik
)
(i )
该模型即为logit回归模型。logit回归模型是普通 多元线性回归模型的推广,但它的误差项服从二项分 布,因此需要采用极大似然估计方法进行参数估计, 参数称为logit回归系数,表示当其他自变量取值保持 不变时,该自变量取值增加一个单位引起的发生比自 然对数值的变化量。
2、发生比
发生比是事件的发生频数与不发生频数之间的比,即: Odds=(事件发生频数)/(事件不发生频数)
oddsk [ pk /(1 pk )]
当比值大于1时,表明事件更有可能发生。比如一
个事件发生的概率为0.6,事件不发生的概率为0.4,发
生比等于0.6/0.4=1.5。事件发生的可能性是不发生的1.5
1)无意义的解释 从解释力上看,由于概率的值是有边界的,
在0与1之间。但林楠方程很有可能要超过该限 制,因变量的估计值可能是负数,也可能大于1, 因此模型的结果是无意义的。例如,运用林楠 方程,我们发现如果年龄为100岁,受教育程度 超过10年,则入党的概率约等于1。 2)非线性关系
三、简单对数比率回归
倍。
四、logistic回归模型的检验与评价
1、Logistic回归模型估计的假设前提
第一、数据来自于随机样本。
第二、因变量Yi被假设为K个自变量Xk(k=1,2,…,K) 的函数。
第三、正如OLS回归,logistic回归也对多重共线性有所 限制,自变量之间存在多重共线性会导致标准误的膨胀。
) aj
x
SPSS中的(ordinal logistic regression)就是截矩项都相等的累 进比对数回归模型。
SPSS操作程序 1、选择logistic回归程序: ——点击主菜单中的Analyze ——然后点击Regression ——再点击Ordinal,屏幕上出现对话窗口 2、选定模型 Dependent——选择一个有序分类因变量。 Factor——选择若干分类自变量。 Covariates——用于选入连续型的自变量。 择系统默认值,点击OK钮,运行所选命令 结果解释
率,还应包括大学毕业生,因为他们也完成了初中到高中的升级过程。
升级比在统计上是各自独立的,因而可以对照简单对数比率回
归一一估算。加总各独立升级比率回归的对数似然比和自由度,即总
模型的对数似然比和自由度。
j 1
G 2
Gi2
i 1
对数升级比回归的编码示例
教育程度 小学以下 小学以下 小学以下 小学 小学 小学 初中 初中 初中 高中 高中 高中 大学 大学
升小学 0 0 0 1 1 1 1 1 1 1 1 1 1 1
升初中 0 0 0 1 1 1 1 1 1 1 1
升高中 0 0 0 1 1 1 1 1
升大学 0 0 0 1 1
3、累进比
log(
p2
p3 L p1
p j ) a1 1x
log(
p3
p4
L
p1 p2
p j ) a2 2 x
1)皮尔逊卡方检验 皮尔逊卡方检验主要用于检验残差项的大小。计算公
式:
2 n ( yi pi )2 i1 pi (1 pi )
其中yi是观察值(0或1),pi是估算值的概率, i=1, 2…n,分母是估算值的标准差,自由度为n-J-1,其中J为 自变量数目。
2)Hosmer-Lemeshow 拟合优度检验 该方法通常适用于自变量很多,或自变量为连续变量
L L
log(
p1
p2
pj L
) p j 1
a j 1
j1x
对数累进比率回归示例——收入等级分析(Nee 1991)
自变量
截距 教育 户首年龄 户首年龄平方 成年劳动力 子女数目 现任干部 前任大队干部 前任小队干部 企业家 样本数 -2logL 自由度
模型(1)
进顶层
P1/(p2+p3)
避免底层
在logit模型中,对回归系数进行显著性检验,通常使用Wald检验,其计 算公式为:
W (¶k / SEµk )2
Wald 统计量实际上就是正态分布Z 统计量的平方。在零假设条件 下,每一个回归系数都等于0。Wald统计量服从卡方分布,其自由 度为n-k-1。
五、模型解释
由于logit模型是非线性的,因此不能以传统回归模型中自变
1、模型建立 既然用线性概率回归存在局限性,能否用比 率做因变量呢?比如用男女比率作因变量,用成功 与不成功之比做因变量。用比率做因变量存在的问 题是,比率是非对称的.
表1 概率、比率和对数比率
概率 0.01 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 0.99
量与因变量之间的关系解释之。通常以发生比率来解释logit回归
系数。
odds p 1 p
exp(
1x1 2 x2 L
k xk )
e e1x1 e2x2 L ek xk
六、多项对数比率回归
我们研究的现象常是多分类的,如职业的选择等,
这时需要用多项对数比率回归处理。
多项对数比率回归是简单对数比率回归的扩展,由
第十讲 定类或定序因变量回归分析
一、问题的提出
当因变量是一个定类变量而不是定距变量时,线性回 归模型受到挑战。 如政治学中研究是否选举某候选人,经济学研究中涉 及的是否销售或购买某种商品,社会学和人口学研究中所 涉及的如犯罪、迁移、婚姻、生育、患病等等都可以按照 二分类变量或多分类来测量。
在研究态度与偏好等心理现象时也经常 按类型进行测量的,如“强烈反对”、“反 对”、“中立”、“支持”、和“强烈支 持”。
率,那么对数升级比回归就是:
log(
p2
p3 K p1
pj )
a1
1x
log(
p3
p4 L p2
p j ) a2 2 x
L L
log(
pj p j1
)
a
j 1
j 1 x
例如升学率的研究。将学校依等级高低分为小学、初中、高中
和大学四类。初中升高中的比率不仅是初中毕业生和高中毕业生的比
3)对数似然比卡方检验
对数似然比是用较复杂模型与基本模型进行比较。通常将似然
取对数并乘以-2,即-2logL,简称对数似然。