广义线性模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
过。 年 和 在一篇论文中引进广义线性模型一词,
自那前后以来研究工作逐渐增加 年 和 出版了系统论述此专题的专著并于
年再版
主要参考资料
. 等《 》
及 等的《 》 年第 版 。
. 等:
. —。
第一部分 建模
§. 一维广义线性回归 (一) 定义 设有因变量 ,自变量 。 为一维, 一般为
4. ( , , )′, ( , , , , , ) 等。
. 的分布属于指数型,正态是其一特例。这里 考虑的 为一维,故属于一维指数型。其形式 为:
( ) (θ (θ) ) μ( ) ,θ ∈Θ (参数空间)
θ为参数,称为自然参数。 (θ) 为θ的已知函 数。μ为一测度(不一定是概率测度) ,常见的 有两种可能:
(二) 哑(或虚) 变量( )
设有一个因素(自变量之一) 有 个“状态”, 我们固然可以用数字 , ⋯ 来标识它,但不可用 于计算,因为它们无数量意义。例如农业试 验中,品种是一个因素。有 类种子,解决的办 法是引进哑变量
设这个试验只包括“品种”这一个因素,模型 为
可见
这种取哑变量法,是以状态 作为标准,而β 衡量(在产量上) 状态 超出状态之值。
其形式比在其他联系函数下来得简单,其最 重要的优点是:它使广义线性模型下统计推 断的大样本理论更易处理。当然,在一个实 际问题中选择联系函数,主要应依据问题本 身的情况。
模型 模型
这个差距中有一部分是由于“位置”与 “刻度”的差异而来, 并非真实的有实际意 义的差距。
个分布的均值,方差分别为: 把 者的均值,方差都调整为 。
. 当 为连续变量时, μ( ) 为 测度: μ( ) ;
. 当 为离散变量时, 取有限个值 , ⋯, 或可列 个值 , , ⋯,这时μ({ } ) , , ⋯, ;或μ({ } ) , ⋯
因为 两边对θ求导,有
例. 研究一些因素(自变量) 对“剖腹 产后是否有感染”的影响。
此例中 就取为 ,引进记号
经过取代后3 个分布的形状如图(1. 2) 所示, 由图上看出,其差距与图一相比有所接近
例. 研究两种化学物质 与 对引发细 胞癌变的影响。
( , )′:
例. 是某种极值(水文、地震、材 料断裂强度之类)
采用 (Γ) 分布去描述: 有密度
提醒两点
当 为 维时,只能有 个未知参数(此例中为μ) 。 若有多个参数,剩下的为冗余,它必须已知或 可由样本估计,即以估计值为已知值。
广义线性回归从以下几方面推广:
1. ( ) μ ( ′β) , 为一严格单调,充分光滑的函 数。 已知, ( 的反函数) 称为联系函数 ( ) 。有 (μ) ′β。
2. , ( ) , 可取连续或离散值,且在应用上更多 见的情况为离散值,如{ , } ,{ , ⋯⋯}等
3. 例如, 为 维, ( ) 可以是( , ) , ( , , ) , ( , ) 等。若 ( , )′, ( ) 可以是
另一种取法( , ⋯, )
(三) 联系函数·自然联系函数
联系函数∶ (μ) η ′β,μ ( ) ,其反函数 也很常用。 作为联系函数, 必须严格单调且充分光滑,即有 足够阶数的导数。有一个特殊的联系函数,即
起着重要的作用。它称为自然联系函数,这时 有′β (μ) ( (θ) ) θ
因此,指数型分布(. ) 中的自然参数,就是′β。这 一重要关系式是“自然联系函数”这一名称的 由来。
在各次观察中冗余参数不变。如在此例中, 相应 的μ值可变,为μ (与此相应,θ值则为θ μ ) ,但 则不随 变化。
两点注意:
在有些实际问题中,数据显示均值方差之间 的关系不符合(. ) 。这时就不可能使用单参 指数族的模型。在Γ和正态分布的例中包含 了一个冗余参数,调整它的值有时可以解决 上述问题。
广义线性模型(一)
数ຫໍສະໝຸດ Baidu统计与管理 卷 期 年月
简介
广义线性模型是常见的正态线性模型的直 接推广
适用于连续数据和离散数据,特别是后者,如 属性数据,计数数据
在实用上,尤其是生物,医学和经济、社会数 据的统计分析上,有重要的意义
起源
在 年曾用过它。 模型,在 世纪四五十年代曾由 和 等人使用
多维
通常的线性回归
( ) μ ′( )β(线性,线性指对β,非) , ( ) 为 的已 知(向量) 函数, ′表示转置(本讲义中“′”都 表示转置,不是导数) , ′( ) 常简记为′。
, ( ) , 都是取连续值的变量,如农作物的产 量,人的身高体重之类。
的分布为正态,或接近正态之分布。
自那前后以来研究工作逐渐增加 年 和 出版了系统论述此专题的专著并于
年再版
主要参考资料
. 等《 》
及 等的《 》 年第 版 。
. 等:
. —。
第一部分 建模
§. 一维广义线性回归 (一) 定义 设有因变量 ,自变量 。 为一维, 一般为
4. ( , , )′, ( , , , , , ) 等。
. 的分布属于指数型,正态是其一特例。这里 考虑的 为一维,故属于一维指数型。其形式 为:
( ) (θ (θ) ) μ( ) ,θ ∈Θ (参数空间)
θ为参数,称为自然参数。 (θ) 为θ的已知函 数。μ为一测度(不一定是概率测度) ,常见的 有两种可能:
(二) 哑(或虚) 变量( )
设有一个因素(自变量之一) 有 个“状态”, 我们固然可以用数字 , ⋯ 来标识它,但不可用 于计算,因为它们无数量意义。例如农业试 验中,品种是一个因素。有 类种子,解决的办 法是引进哑变量
设这个试验只包括“品种”这一个因素,模型 为
可见
这种取哑变量法,是以状态 作为标准,而β 衡量(在产量上) 状态 超出状态之值。
其形式比在其他联系函数下来得简单,其最 重要的优点是:它使广义线性模型下统计推 断的大样本理论更易处理。当然,在一个实 际问题中选择联系函数,主要应依据问题本 身的情况。
模型 模型
这个差距中有一部分是由于“位置”与 “刻度”的差异而来, 并非真实的有实际意 义的差距。
个分布的均值,方差分别为: 把 者的均值,方差都调整为 。
. 当 为连续变量时, μ( ) 为 测度: μ( ) ;
. 当 为离散变量时, 取有限个值 , ⋯, 或可列 个值 , , ⋯,这时μ({ } ) , , ⋯, ;或μ({ } ) , ⋯
因为 两边对θ求导,有
例. 研究一些因素(自变量) 对“剖腹 产后是否有感染”的影响。
此例中 就取为 ,引进记号
经过取代后3 个分布的形状如图(1. 2) 所示, 由图上看出,其差距与图一相比有所接近
例. 研究两种化学物质 与 对引发细 胞癌变的影响。
( , )′:
例. 是某种极值(水文、地震、材 料断裂强度之类)
采用 (Γ) 分布去描述: 有密度
提醒两点
当 为 维时,只能有 个未知参数(此例中为μ) 。 若有多个参数,剩下的为冗余,它必须已知或 可由样本估计,即以估计值为已知值。
广义线性回归从以下几方面推广:
1. ( ) μ ( ′β) , 为一严格单调,充分光滑的函 数。 已知, ( 的反函数) 称为联系函数 ( ) 。有 (μ) ′β。
2. , ( ) , 可取连续或离散值,且在应用上更多 见的情况为离散值,如{ , } ,{ , ⋯⋯}等
3. 例如, 为 维, ( ) 可以是( , ) , ( , , ) , ( , ) 等。若 ( , )′, ( ) 可以是
另一种取法( , ⋯, )
(三) 联系函数·自然联系函数
联系函数∶ (μ) η ′β,μ ( ) ,其反函数 也很常用。 作为联系函数, 必须严格单调且充分光滑,即有 足够阶数的导数。有一个特殊的联系函数,即
起着重要的作用。它称为自然联系函数,这时 有′β (μ) ( (θ) ) θ
因此,指数型分布(. ) 中的自然参数,就是′β。这 一重要关系式是“自然联系函数”这一名称的 由来。
在各次观察中冗余参数不变。如在此例中, 相应 的μ值可变,为μ (与此相应,θ值则为θ μ ) ,但 则不随 变化。
两点注意:
在有些实际问题中,数据显示均值方差之间 的关系不符合(. ) 。这时就不可能使用单参 指数族的模型。在Γ和正态分布的例中包含 了一个冗余参数,调整它的值有时可以解决 上述问题。
广义线性模型(一)
数ຫໍສະໝຸດ Baidu统计与管理 卷 期 年月
简介
广义线性模型是常见的正态线性模型的直 接推广
适用于连续数据和离散数据,特别是后者,如 属性数据,计数数据
在实用上,尤其是生物,医学和经济、社会数 据的统计分析上,有重要的意义
起源
在 年曾用过它。 模型,在 世纪四五十年代曾由 和 等人使用
多维
通常的线性回归
( ) μ ′( )β(线性,线性指对β,非) , ( ) 为 的已 知(向量) 函数, ′表示转置(本讲义中“′”都 表示转置,不是导数) , ′( ) 常简记为′。
, ( ) , 都是取连续值的变量,如农作物的产 量,人的身高体重之类。
的分布为正态,或接近正态之分布。