广义泊松_型回归模型的统计诊断_戴林送
poisson回归的原理_解释说明以及概述
poisson回归的原理解释说明以及概述1. 引言1.1 概述Poisson回归是一种用于建立离散计数数据和解释变量之间关系的统计方法。
它基于泊松分布,旨在预测事件在给定时间或空间区域内发生的次数。
这种回归分析方法被广泛应用于医学、经济、环境科学等领域,对于了解和解释离散事件发生的规律具有重要意义。
1.2 文章结构本文将首先介绍Poisson回归的原理,包括Poisson分布的简介、线性回归与Poisson回归的区别以及参数估计方法。
接着,我们将详细说明Poisson回归模型的假设和进行假定检验的方法,同时展示该方法在不同领域中的应用示例。
此外,我们还将讨论常见问题,并提供相应的解决方法。
最后,我们将对当前Poisson回归研究进展进行综述,并探讨未来其发展方向和应用前景。
1.3 目的本文旨在全面而系统地介绍Poisson回归的原理、解释说明以及概述,并从历史发展到当前研究热点再到未来发展方向进行深入探讨。
通过本文的阐述,读者将能够全面了解Poisson回归的基本原理和应用方法,并能够在实际问题中灵活运用此回归模型进行数据分析和预测。
2. Poisson回归的原理2.1 Poisson分布简介Poisson分布是一种离散概率分布,用于描述在一定时间或空间范围内发生某事件的次数的概率。
它假设事件在时间或空间上是独立且均匀分布的,并且事件的平均发生率是恒定的。
Poisson分布的概率质量函数如下:P(x;λ) = (e^(-λ) * λ^x) / x!其中,x表示事件发生次数,λ表示单位时间或单位空间内事件的平均发生率。
2.2 线性回归与Poisson回归的区别线性回归和Poisson回归都是统计学中常用的回归方法,但二者有着明显的区别。
线性回归假设因变量与自变量之间存在线性关系,并通过拟合直线来预测连续型因变量。
而Poisson回归则适用于因变量为计数型数据,它通过模拟Poisson 分布来进行预测和推断。
统计学中的广义线性模型解析
统计学中的广义线性模型解析统计学是一门研究数据收集、分析和解释的学科,而广义线性模型(Generalized Linear Model,简称GLM)则是统计学中一种重要的分析方法。
GLM不仅可以用于描述和预测数据,还可以帮助我们理解变量之间的关系和影响。
一、GLM的基本概念广义线性模型是由统计学家Nelder和Wedderburn于1972年提出的,它是线性回归模型的扩展。
在传统的线性回归模型中,我们假设因变量Y与自变量X之间存在线性关系,即Y = β0 + β1X + ε,其中β0和β1是待估计的系数,ε是误差项。
而GLM则允许因变量和自变量之间的关系不是线性的,可以是非线性的、离散的、非正态的等。
二、GLM的三个重要组成部分GLM由三个重要的组成部分构成:随机分布、系统性成分和连接函数。
随机分布用于描述因变量的分布特征,系统性成分用于描述自变量和因变量之间的关系,连接函数则用于将系统性成分与随机分布联系起来。
1. 随机分布在GLM中,我们常常假设因变量Y服从指数分布家族中的某个分布,如正态分布、泊松分布、二项分布等。
通过选择合适的分布,我们可以更好地描述和解释数据。
2. 系统性成分系统性成分是GLM中的关键部分,它用于描述自变量和因变量之间的关系。
通常,我们将系统性成分表示为线性组合的形式,即η = β0 + β1X1 + β2X2 + ... +βpXp,其中η是系统性成分,β0、β1、β2等是待估计的系数,X1、X2等是自变量。
3. 连接函数连接函数是将系统性成分和随机分布联系起来的桥梁。
它的作用是将系统性成分的线性组合映射到随机分布的参数空间中,使得我们可以通过系统性成分来预测和解释因变量的分布特征。
常见的连接函数有恒等函数、对数函数、逆正态函数等。
三、GLM的应用领域广义线性模型在统计学中有着广泛的应用领域。
以下是几个常见的应用示例:1. 生物医学研究在生物医学研究中,研究人员常常需要分析和解释疾病发生的风险因素。
泊松计数回归模型以及在汽车保险理赔欺诈行为中的应用
泊松计数回归模型以及在汽车保险理赔欺诈行为中的应用泊松计数回归模型,这个名字听起来挺高大上的吧?简单来说,它就是一个用来处理计数数据的统计工具。
比如说,你想知道在某段时间内,某个事件发生了多少次,像是车祸、保险索赔这些情况,泊松计数模型就能派上用场。
这就像是在开车的时候,你在看路边的限速牌,心里琢磨着,这条路上车祸发生的频率究竟有多高,能不能让我放松点儿心情开车。
说到汽车保险理赔,哎呀,这可真是个热闹的领域。
有时候大家觉得,保险公司就像那种老顽固,不管出什么事儿,都得磨破嘴皮子才能让他们赔钱。
保险索赔中也暗藏玄机,尤其是在那些可能涉及到欺诈的情况。
就像那些电视剧里的反派角色,动不动就想通过一些小手段来坑保险公司。
用泊松计数回归模型,我们能把这些情况一一捋顺,找出那些心思复杂的“老狐狸”。
想象一下,咱们用这个模型,分析一下车险理赔的情况。
可以看出,每年有多少起理赔申请,背后又有多少潜在的“套路”。
比如,某一地区的理赔申请特别多,结果我们一查,发现是因为那儿的路况实在不敢恭维,车祸频发,还是说那儿有些人总是动不动就开口索赔?通过分析这些数据,我们能得出个所以然,分清楚谁是真正的受害者,谁又是在使坏。
这种分析不仅能帮助保险公司避免损失,还能让那些真实受害者的理赔变得更加顺利。
毕竟,车祸发生了,大家心里都不好受,若还得为了理赔的事情烦心,那真是雪上加霜。
用泊松计数回归模型,保险公司可以更准确地识别哪些索赔是合理的,哪些又是“来者不善”。
这样一来,保险公司就能把资源用在刀刃上,帮助那些真正需要帮助的人,而不是在那些心思诡秘的案例上耗费精力。
可能有人会问,哎,那这个模型到底咋用?使用它也并没有想象中那么复杂。
你只需要准备好相关的数据,比如说事故发生的频率、申请理赔的次数、时间段等等,像是在玩拼图,把这些数据一块儿拼凑起来。
模型运算的过程就像是在炖一锅汤,慢慢加料,最后出来的结果才能鲜香四溢。
在这个过程中,数据的质量可得把关好,坏数据就像是放了过期调料的汤,味道可就没法说了。
广义线性模型在医学统计中的应用前景
广义线性模型在医学统计中的应用前景广义线性模型(Generalized Linear Models,简称GLMs)是一种在统计学中广泛应用的模型。
它通过将线性回归模型进行推广,可以用于统计分析和预测各种类型的数据,包括二项分布、泊松分布、正态分布等。
在医学统计中,广义线性模型具有广泛的应用前景,可以用于疾病预测、药物研发、临床试验设计等方面。
本文将讨论广义线性模型在医学统计中的应用前景。
首先,广义线性模型在医学统计中的应用之一是疾病预测。
通过利用广义线性模型分析临床数据,可以建立预测疾病患病风险的模型。
例如,研究人员可以收集患者的年龄、性别、家族史等数据,然后使用广义线性模型进行分析,得出预测某种疾病的患病概率。
这对于早期筛查高风险群体、制定预防措施具有重要意义,有助于减少疾病的发生和发展,提高患者的生活质量。
其次,广义线性模型在医学统计中的另一个重要应用领域是药物研发。
在新药开发的过程中,需要进行药效评价和不良反应监测。
广义线性模型可以将药物的剂量、给药途径等因素与药物效果进行关联,进而推导出最佳的药物治疗方式。
此外,广义线性模型还可以用于分析不良反应的发生率和严重程度,评估药物的安全性。
因此,广义线性模型在药物研发过程中有助于提高药物疗效和减少不良反应的风险,为患者提供更好的治疗方案。
另外,广义线性模型在临床试验设计中也有广泛的应用。
在临床试验中,研究人员需要收集大量的数据来评估新的治疗方法或药物的疗效。
广义线性模型可以通过对试验数据的分析,推导出治疗效果的估计值和可信区间。
这些信息对于临床医生和研究人员来说十分重要,可以帮助他们判断新治疗方法的有效性,并作出决策。
因此,广义线性模型在临床试验设计中的应用可以提高试验的效率和准确性。
此外,广义线性模型还可以用于医学图像分析和遗传学研究等领域。
在医学图像分析中,研究人员可以利用广义线性模型来分析影像特征与疾病之间的相关性,从而提取出有助于诊断和预测的特征。
广义线性模型及其在统计学中的应用
广义线性模型及其在统计学中的应用广义线性模型是统计学中一个重要的模型,可以用来建立响应变量与解释变量之间的关系,它是线性模型的一种推广形式。
该模型的应用范围十分广泛,可以用于分类、回归、时间序列分析等多个领域。
一、广义线性模型的定义广义线性模型是基于分布族以及链接函数的概率论模型,可以用来描述解释变量对响应变量的影响。
该模型通过将响应变量转化为一组线性预测器的和,并通过一个链接函数将这个和映射到一个合适的响应变量上,从而建立响应变量与解释变量之间的关系。
广义线性模型中假设响应变量的分布属于指数分布族,该分布族仅包含正态分布、泊松分布、二项分布等概率分布。
二、广义线性模型的组成部分广义线性模型由三部分组成:随机部分、线性预测部分和链接函数。
1.随机部分:随机部分是广义线性模型中的响应变量Y的概率分布,可以假设Y服从指数分布族中的某款分布,如正态分布、泊松分布等等。
2.线性预测部分:线性预测部分是用来建立解释变量和响应变量之间的关系。
假设我们有p个解释变量,那么线性预测部分就可以表示为:η = β_0 + β1x1 + β2x2 + ...+ βpxp其中,η代表了Y的总体期望值的线性预测,βi是解释变量xi 的系数。
3.链接函数:链接函数用于将线性预测部分的计算结果映射到响应变量Y的值上,使得Y的值与线性预测部分保持一致。
由于不同的概率分布族需要采用不同的链接函数,因此广义线性模型的链接函数是根据分布族来确定的。
例如,对于二项分布,采用的是logit函数作为链接函数,而对于泊松分布,采用的是对数链接函数。
三、广义线性模型的应用广义线性模型在统计学中的应用十分广泛,这里简单介绍一下它在分类和回归中的应用。
1.分类在分类问题中,广义线性模型可以通过二项分布来描述响应变量Y的分布。
例如,在疾病诊断中,我们可以将疾病的结果分为两种情况:患病与未患病。
假设我们有一些特征来描述每个患者,如年龄、性别、体重等,我们可以使用广义线性模型来预测每个患者是否患病。
用于时间序列数据的泊松回归模型
用于时间序列数据的泊松回归模型
摘要:
1.泊松回归模型的概述
2.泊松回归模型在时间序列数据中的应用
3.泊松回归模型的优点与局限性
4.未来发展方向与挑战
正文:
一、泊松回归模型的概述
泊松回归模型是一种用于分析计数数据的回归方法,其基于泊松分布理论,可以对具有泊松分布特征的数据进行建模和预测。
在时间序列数据分析领域,泊松回归模型被广泛应用于对事件发生次数、缺陷数量等计数数据的建模分析。
二、泊松回归模型在时间序列数据中的应用
1.应用场景:在时间序列数据中,泊松回归模型可以用于分析各种计数数据的变化趋势和影响因素,例如,可以用于分析一段时间内某产品的销售量、某地区的犯罪率、某疾病的发病率等。
2.模型构建:在构建泊松回归模型时,需要先对数据进行分析,确定合适的泊松分布形式,然后根据数据特点选择合适的回归函数,最后通过最小化损失函数来确定模型参数。
3.模型应用:利用泊松回归模型可以对未来事件发生次数进行预测,为决策提供依据。
三、泊松回归模型的优点与局限性
1.优点:泊松回归模型具有较强的理论依据,可以较好地拟合计数数据;模型参数估计稳定,具有较高的预测准确性;适用于多种应用场景,如销售预测、风险评估等。
2.局限性:泊松回归模型对数据分布的假设较为严格,当数据不符合泊松分布时,模型效果可能不佳;模型预测结果受限于训练数据,可能无法适应市场变化等新情况。
四、未来发展方向与挑战
1.发展方向:随着大数据时代的到来,泊松回归模型可以结合机器学习、深度学习等技术,提高模型的预测能力和泛化能力;同时,可以研究多变量泊松回归模型,以应对更复杂的实际问题。
基于嵌套结构的分层线性回归模型的统计推断
Statistics and Application 统计学与应用, 2021, 10(1), 173-182 Published Online February 2021 in Hans. /journal/sa https:///10.12677/sa.2021.101017基于嵌套结构的分层线性回归模型的统计推断周梦雨1,田茂再2,3*1兰州财经大学统计学院,甘肃 兰州2中国人民大学应用统计科学研究中心,北京 3中国人民大学统计学院,北京收稿日期:2021年1月25日;录用日期:2021年2月19日;发布日期:2021年2月26日摘 要通常在处理模型假设检验的问题时,统计推断是通过样本数据的观测信息来推断总体的主要方法,本文提出基于嵌套结构的分层线性回归模型的系数向量诊断方法,对于分层线性回归的第一层模型系数诊断主要利用传统的线性嵌套回归模型F 检验进行统计推断。
该论文的创新之处在于对分层线性回归模型的第二层系数进行统计诊断,利用嵌套多元线性回归模型推广到具有嵌套结构的分层线性回归模型中,主要构建分层线性回归模型似然函数比值来构造检验统计量。
通过高校数学成绩分层数据进行分析,来验证该方法的有效性和可行性。
关键词分层线性模型,嵌套模型,似然比,统计推断Statistical Inference of Hierarchical Linear Regression Model Based on Nested StructureMengyu Zhou 1, Maozai Tian 2,3*1School of Statistics, Lanzhou University of Finance and Economics, Lanzhou Gansu 2Scientific Research Center of Applied Statistics, Renmin University of China, Beijing 3School of statistics, Renmin University of China, BeijingReceived: Jan. 25th , 2021; accepted: Feb. 19th , 2021; published: Feb. 26th , 2021*通讯作者。
广义泊松计数模型及其统计推断
Abstrach: BaseS cm ths Generalizes Poisscm distrinutioa, ths Generalizes Poisson Count Techniqun is introOucen to solve thc oven-disceniou iC cnncn-dispcsion in thc Poissou Item CouC 入小曲口応.Fun thc statisticai inference, Uic iterative dlzo—hm using EM dlzorithm anf MM lzoi—hm is stuCien to chlchlaic thc maximum linelinoou estimain in thn moud by introuucina thn missina dath iC constnictina thn suCstitutiou fuactiou. Furthe—norn, in thn simulatiou, the biat of thn estimaie is presenten iC thn simulation —suVs am dischssen to Una effective information. Keywords: Generalizen Poisson distrinution; EM alzorithm; MM alzonthm; parameteo estimation; simulation
基于泊松计数模型的缺陷,本文提出了广义泊 松计数模型,解决了数据过度分散和过集中的问 题;通过引入缺失数据和使用MM算法,给出了广义 泊松计数模型中参数极大似然估计的迭代算法;最 后通过统计模拟来演示广义泊松计数模型的功效•
泊松回归模型适用条件
泊松回归模型适用条件
泊松回归模型是广义线性模型的一种,主要用于处理计数型变量为响应变量的情况。
在实践中,泊松回归模型常常用于分析事件发生次数,并且适用于以下情况:
1.响应变量是计数性变量:泊松回归模型适用于响应变量是计数性变量的问题,例如在一定时间内,某事件发生的次数、某网站的访问量等等。
计数型变量的特点在于它们具有正整数的取值范围,这些变量很难用传统的回归模型来分析。
泊松回归模型因其较好的适应性和解释性,可以很好地处理这些问题。
2. 独立事件性质:泊松回归模型要求独立事件性质,即响应变量的值不会影响其他事件的发生概率。
例如,若要研究一条路上的交通事故率,泊松回归模型要求交通事故与其他事故之间没有任何关联。
3.均值等于方差:泊松回归模型的核心假设是泊松分布的均值等于方差。
在实际分析过程中,可以通过检验泊松分布的假设是否成立来确认该模型的适用性,若结果不符,需要选择其他适合的回归模型。
4.线性关系:泊松回归模型要求自变量与响应变量之间具有线性关系。
如果自变量与响应变量之间存在非线性关系,则可以尝试使用变量转换或者非线性模型,如广义线性模型或者非参数模型来解决。
5.大样本:在样本量很小的情况下,泊松回归模型的效果会降低。
因此,当样本量很小时,需要使用其他模型或者增加样本量。
总之,泊松回归模型适用于独立事件性质、计数型变量且均值等于方差的数据。
当自变量与响应变量之间具有线性关系时,泊松回归模型可以通过最大似然估计法来估计模型参数,从而解决相关问题。
泊松回归的假设检验方法 -回复
泊松回归的假设检验方法-回复泊松回归是一种常用的计量经济学方法,用于研究离散的计数型变量。
与线性回归不同,泊松回归考虑的是有变量出现次数的概率分布。
在进行泊松回归分析时,为了验证模型的有效性和假设的成立,需要进行假设检验。
本文将详细介绍泊松回归的假设检验方法,包括参数估计、模型拟合度检验和残差分析。
一、参数估计泊松回归的参数估计采用了最大似然估计方法。
假设我们的模型为:ln(λ) = β0 + β1X1 + β2X2 + ... + βkXk其中,λ表示因变量Y的期望值。
ln(λ)表示λ的自然对数,是泊松回归模型中的线性部分。
β0、β1、β2等表示待估计的模型参数,X1、X2等为自变量。
在最大似然估计中,我们的目标是找到最能使观测到的样本出现概率最大的参数组合。
二、模型拟合度检验在进行泊松回归之后,我们需要进行模型拟合度检验,以验证模型的适用性。
最常见的方法是使用似然比检验和Wald检验。
1. 似然比检验似然比检验是用于比较两个模型的拟合度的方法。
在泊松回归中,我们可以通过将两个模型的对数似然函数差值与卡方分布比较来进行似然比检验。
具体步骤如下:步骤1:建立所有自变量都包含的模型M1和剔除某个自变量后的模型M2。
步骤2:计算模型M1和M2的对数似然函数值,并求差得到对数似然比。
步骤3:根据假设检验的原假设和备择假设,计算对数似然比统计量。
步骤4:将对数似然比统计量与自由度为自变量个数差值的卡方分布进行比较,得出拒绝或接受原假设的结论。
2. Wald检验Wald检验是一种常用的假设检验方法,用于检验模型中某个参数是否等于给定值。
在泊松回归中,我们可以通过比较参数估计值和其标准误差的比值与标准正态分布的临界值来进行Wald检验。
具体步骤如下:步骤1:计算参数估计值的标准误差。
步骤2:计算参数估计值与给定值的差距。
步骤3:计算参数估计值与给定值的差距与标准误差的比值。
步骤4:将比值与标准正态分布的临界值进行比较,得出拒绝或接受原假设的结论。
泊松回归结果解读
泊松回归结果解读泊松回归是一种重要的数据分析技术,可以用于对离散型变量进行建模和预测。
通过运用泊松回归分析技术,使得我们可以更好的了解各因素对因变量的影响,从而进行科学的决策和预测。
在本文中,我们将对泊松回归结果进行解读,帮助读者更加深入了解这一分析方法。
首先,我们需要理解泊松回归的基本思想和原理。
泊松回归的基本假设是因变量服从泊松分布,即在一定时间或空间范围内发生的事件数是随机的,但平均发生率是固定的。
当变量为离散型时,泊松回归可以帮助我们分析每个自变量对因变量的影响程度,并且可以利用假设检验方法检验每个因素的显著性。
一般来说,当我们进行泊松回归分析时,需要考虑以下几个方面:1.样本的数据质量。
样本数据必须合理、完整、可靠,并且要具有代表性。
2.变量的选取。
自变量的选择应该是基于前期研究和理论知识的基础上进行的,同时也需要考虑变量之间的相互作用。
3.模型的适用性。
泊松回归模型的适用性可以通过拟合度和离群值检验来判断,其中离群值检验的重点在于考虑数据的异常值对模型的影响。
在进行泊松回归分析之后,我们需要对分析结果进行解读。
下面,我们将分为三个方面来解读泊松回归分析的结果:1.变量之间的关系。
在泊松回归模型中,每一个自变量的系数代表着对应因素对因变量的影响程度。
如果系数为正数,说明该自变量与因变量之间存在正相关关系;如果系数为负数,则说明该自变量与因变量之间存在负相关关系;如果系数为零,则说明自变量与因变量之间不存在关系。
2.模型的拟合结果。
拟合度被用作评估模型的好坏,其值越接近1说明模型的预测准确性越高。
我们可以通过拟合度来判断是否需要进行模型调整,比如增加或删除某些自变量,以提高模型的预测准确性。
3.显著性检验结果。
在泊松回归模型中,通过假设检验来判断每个自变量对因变量的显著性。
如果P值小于0.05,说明该变量与因变量之间的关系是显著的;如果P值大于0.05,则说明该变量与因变量之间的关系不显著。
混合效应泊松回归模型
混合效应泊松回归模型一、前言混合效应泊松回归模型是一种广义线性混合效应模型,适用于计数数据的建模和分析。
它可以通过同时考虑固定效应和随机效应来描述观测变量与响应变量之间的关系,并且可以考虑数据中存在的过度离散性。
本文将介绍混合效应泊松回归模型的基本概念、建模方法、参数估计及统计推断等方面的内容。
二、基本概念1. 混合效应模型混合效应模型是一种常用的统计学习方法,它可以同时考虑固定效应和随机效应。
在这种模型中,固定效应通常表示为自变量对因变量的影响,而随机效应则表示为不同个体之间的差异或者数据中存在的其他随机因素。
2. 泊松回归模型泊松回归模型是一种广义线性回归模型,适用于计数数据建模。
它假设因变量服从泊松分布,并且通过对自变量进行指数化来描述自变量对因变量的影响。
3. 混合效应泊松回归模型混合效应泊松回归模型是一种广义线性混合效应模型,适用于计数数据建模。
它通过同时考虑固定效应和随机效应来描述观测变量与响应变量之间的关系,并且可以考虑数据中存在的过度离散性。
三、建模方法1. 模型设定混合效应泊松回归模型的一般形式为:$$log(Y_{ij}) = \beta_0 + \beta_1 X_{ij} + \sum_{k=1}^{p}\beta_k Z_{ijk} + u_i + \epsilon_{ij}$$其中,$Y_{ij}$表示第$i$个个体在第$j$个时间点的计数观测值,$\beta_0$表示截距项,$\beta_1$表示自变量$X$对因变量$Y$的影响,$\sum_{k=1}^{p}\beta_k Z_{ijk}$表示控制其他自变量对因变量的影响,$u_i$表示个体$i$的随机效应,$\epsilon_{ij}$表示误差项。
2. 随机效应设定在混合效应泊松回归模型中,随机效应通常分为两类:一类是基于个体的随机效应(Individual Random Effects),另一类是基于时间点或其他随机因素的随机效应(Temporal or Other Random Effects)。
泊松过程与广义泊松过程的比较论文素材
泊松过程与广义泊松过程的比较论文素材泊松过程与广义泊松过程的比较引言:泊松过程和广义泊松过程是概率论中常见的两个概念,它们在描述随机事件的过程中起到了重要的作用。
本文将对泊松过程和广义泊松过程进行比较和探讨,以进一步理解它们在实际应用中的差异和优势。
1. 泊松过程的定义和特性:1.1 定义泊松过程是一种在连续时间和集合上的随机过程,其发生的事件满足无后效性和稀疏性的特点。
泊松过程可以用于描述到达某一系统的事件或物体的数量,如电话呼叫、交通流量等。
1.2 特性泊松过程具有以下重要特性:- 事件之间的时间间隔满足指数分布;- 事件的数量在不同时间段内是独立的;- 两个事件之间的时间间隔与前一个事件的发生时间无关。
2. 广义泊松过程的定义和特性:2.1 定义广义泊松过程是泊松过程的一种扩展,它考虑了事件的强度在时间和空间上的变化。
广义泊松过程适用于描述事件强度随空间位置和时间变化的情况,如无线通信网络中的信号强度分布、地理信息系统中的事件点分布等。
2.2 特性广义泊松过程相较于泊松过程,具有以下特性:- 事件的强度在空间和时间上是可变的;- 事件之间的时间间隔满足一般的分布,不一定满足指数分布;- 事件的数量和强度之间可能存在相关性。
3. 泊松过程与广义泊松过程的比较:3.1 适用范围泊松过程适用于数量稀疏、时间间隔独立的事件模型,如电话呼叫、交通流量等。
而广义泊松过程则更适用于事件强度随空间和时间变化的情况,如信号强度分布、事件点分布等。
3.2 事件间隔分布泊松过程中,事件之间的时间间隔满足指数分布,即事件发生的概率在不同时间间隔内是相等的。
而广义泊松过程中,事件之间的时间间隔不一定满足指数分布,可以根据实际情况采用更一般的分布形式。
3.3 事件的强度变化泊松过程中事件的强度是恒定的,不随时间和空间变化。
而广义泊松过程中,事件的强度可以随时间和空间的变化而变化,更贴近实际场景中事件强度的变化情况。
3.4 相关性泊松过程中事件的数量和事件的强度是相互独立的,没有相关性。
泊松回归分段常数 -回复
国家二级(ACCESS)笔试模拟试卷78(题后含答案及解析)题型有:1. 选择题 2. 填空题选择题(每小题2分,共70分)下列各题A、B、C、D四个选项中,只有一个选项是正确的,请将正确选项涂写在答题卡相应位置上。
1.特殊运算符“Is Null”用于指定一个字段为( )。
A.空值B.空字符串C.缺省值D.特殊值正确答案:A2.在Access数据库系统中,不是数据库对象的是( )。
A.数据库B.窗体C.宏D.数据访问页正确答案:A3.数据访问页中主要用来显示描述性文本信息的是( )。
A.视图B.文字C.标签D.滚动文字正确答案:C4.如果不指定对象,Close将会( )。
A.关闭正在使用的表B.关闭正在使用的数据库C.关闭当前窗体D.关闭相关的使用对象(窗体、查询、宏)正确答案:C5.以下不属于节属性的是( )。
A.可见性B.可以扩大C.打印D.关闭正确答案:D6.以下哪项操作应该使用VBA而不要使用宏? ( )。
A.自定义过程的创建和使用B.建立子定义菜单栏C.随时打开或者关闭数据库对象D.设置窗体或报表空间的属性值正确答案:A7.软件维护指的是( )。
A.对软件的改正、适应和完善B.维护正常运行C.配置新软件D.软件开发期的一个阶段正确答案:A8.若某变量的声明字符是Boolean,则表示该变量为( )。
A.长整数B.布尔型C.货币D.字符串正确答案:B9.VBA的自动运行宏,应当命名为( )。
A.EchoB.AutoExecC.AutobatD.Auto正确答案:B10.一般而言,( )软件开发工具我们更倾向于购置。
A.非常适用的B.用途十分明确的C.使用方法精巧、复杂的D.文档理论性很强的正确答案:B11.查询姓名有值的记录的准则的是( )。
A.Is NullB.Is Not NullC.“”D.Not Null正确答案:B12.设S为学生关系,SC为学生选课关系,Sno为学生号,CnoO为课程号,执行下面SQL语句的查询结果是( )。
泊松回归模型
248科技资讯 SC I EN C E & TE C HN O LO G Y I NF O R MA T IO N学 术 论 坛泊松回归模型是基于事件的计数变量建立的回归模型。
该回归模型涉及的事件假设是独立的变量,而计数变量即事件变量发生的次数,它适用于分析观察效应近似服从泊松分布及流行病学中队列研究的资料。
1 为了说明泊松回归模型的过程,我们首先从泊松分布加以描述泊松分布是概率论中常用的一种离散型概率分布。
若随机变量 X 只取非负整数值,取 k 值的概率为:exp()==!kP k (X k)记作P (k ;λ),其中k可以等于0,1,2,则随机变量X 的分布称为泊松分布,记作P (λ)。
这个分布是泊松研究二项分布的渐近公式是时提出来的。
泊松分布P (λ)中只有一个参数λ,它既是泊松分布的均值,也是泊松分布的方差。
在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布。
因此泊松分布在管理科学,运筹学以及自然科学的某些问题中都占有重要的地位。
泊松分布(Poisson distribution)由法国数学家西莫恩·德尼·泊松(S i méo n -DenisPoisson)在1838年时发表。
它适合于描述单位时间内随机事件发生的次数。
如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。
2 有了泊松分布的定义,在研究一些计数变量时就需要用到泊松回归模型,该回归模型多为对数线性模型由于计数变量不是连续的,并且分布又才呈明显偏态,因而不可以作为常规回归的因变量。
以x i 表示某一事件发生数的观测,假定随机变量X i 等于x i 的概率,并遵循均值为λi 的泊松分布则该泊松分布的密度函数为: x exp()=x =!i i i i i i i P x (X ) x 0,1,2,...i 上式中的λi 可以根据一些可观察的特征估计得到,于是有下面的结构方程:'()exp()i i i i E X x x 式中对β'x i 取指数是为了保证参数λi为非负数。
广义泊松混合模型
广义泊松混合模型
广义泊松混合模型是一种用于建模计数数据的统计模型。
计数数据是指在一段时间内或在某个区域内发生的事件的数量,例如,在一天内发生的事故数量或在一个城市内的犯罪数量。
广义泊松混合模型可以用于研究计数数据的不同特征,例如,它们的变化、相互之间的相似性或不同组之间的差异。
广义泊松混合模型是一个混合模型,其中每个组都有一个泊松分布,这些泊松分布的参数在整个总体中是服从另一个分布的。
这个分布可以是任何分布,例如高斯分布或贝塔分布,但通常使用狄利克雷分布。
这个混合模型可以用来识别不同的子组,这些子组具有不同的计数数据特征。
广义泊松混合模型的优点是它可以允许数据中的过度离群值,同时还可以捕捉数据中的不同特征。
它还可以用于识别在不同时间或地点发生的事件之间的关系。
虽然模型的参数估计可能比其他模型更困难,但广义泊松混合模型在许多实际应用中都得到了成功的应用。
泊松模型和负二项回归模型
泊松模型和负二项回归模型泊松模型和负二项回归模型是在统计学中常用的两种模型,用于描述和预测离散型随机变量的分布特征。
本文将分别介绍这两种模型的基本原理和应用场景。
一、泊松模型泊松模型是以法国数学家泊松的名字命名的,用于描述单位时间内某个事件发生的次数的概率分布。
泊松模型的基本假设是事件在时间和空间上是独立随机发生的,且事件发生的概率是恒定的。
泊松模型的概率质量函数为:P(X=k)= (e^(-λ) * λ^k) / k!其中,X表示事件发生的次数,k表示事件发生的次数,e表示自然对数的底数,λ表示单位时间内事件平均发生的次数。
泊松模型的应用场景非常广泛,例如用于描述单位时间内电话呼叫的次数、单位面积内生物的数量、单位时间内交通事故的发生次数等。
在这些应用中,泊松模型可以帮助我们理解事件的发生规律,并进行概率预测和决策分析。
二、负二项回归模型负二项回归模型是一种经典的回归模型,用于描述离散型随机变量的分布特征。
负二项回归模型的基本假设是事件的发生次数服从负二项分布。
负二项分布的概率质量函数为:P(X=k)= (k+r-1)C(k) * p^r * (1-p)^k其中,X表示事件发生的次数,k表示事件发生的次数,r表示成功的次数,p表示事件发生的概率,(k+r-1)C(k)表示组合数。
负二项回归模型的应用场景包括单位时间内销售额的预测、单位时间内客户到达的次数预测等。
负二项回归模型可以通过拟合数据,得到最优的参数估计,并利用这些参数进行概率预测和决策分析。
泊松模型和负二项回归模型都是用于描述离散型随机变量的分布特征的模型,但两者有一些不同之处。
泊松模型假设事件在时间和空间上是独立随机发生的,事件发生的概率是恒定的;而负二项回归模型没有这些假设,它可以描述事件发生的概率随时间和空间的变化。
泊松模型的参数λ表示单位时间内事件平均发生的次数,是一个固定的值;而负二项回归模型的参数r表示成功的次数,p表示事件发生的概率,可以根据具体情况进行估计。
泊松广义估计方程
泊松广义估计方程泊松广义估计方程是统计学中一种常用的参数估计方法,广泛应用于各个领域的数据分析和模型建立中。
本文将介绍泊松广义估计方程的基本概念、原理以及其在实际问题中的应用。
一、泊松广义估计方程的基本概念泊松广义估计方程是一种参数估计方法,用于估计泊松回归模型中的参数。
泊松回归模型是一种广义线性模型,适用于因变量服从泊松分布的情况。
泊松回归模型的形式如下:ln(λ) = β0 + β1X1 + β2X2 + ... + βkXk其中,ln(λ)表示因变量的对数期望值,λ表示因变量的期望值,β0、β1、β2...βk为模型的参数,X1、X2...Xk为自变量。
泊松广义估计方程的原理是通过最大似然估计的方法来估计模型的参数。
最大似然估计是一种常用的参数估计方法,其基本思想是选择一组参数值,使得观察到的数据出现的概率最大化。
在泊松回归模型中,观察到的数据是因变量的计数值和自变量的取值,而模型的参数就是要估计的值。
通过最大似然估计,可以得到估计的参数值,从而建立起模型的预测能力。
三、泊松广义估计方程的应用泊松广义估计方程可以应用于各种实际问题中,特别适用于因变量为计数数据、自变量为分类或连续数据的情况。
例如,在医学研究中,可以使用泊松广义估计方程来分析某种疾病的发病率与各种因素的关系。
通过建立泊松回归模型,可以估计各个因素对疾病发病率的影响程度,从而为疾病的预防和治疗提供科学依据。
在市场营销领域,泊松广义估计方程也可以用来分析顾客的购买行为与各种因素的关系。
通过建立泊松回归模型,可以估计各个因素对顾客购买行为的影响,从而为企业的市场营销策略提供指导。
泊松广义估计方程还可以应用于交通流量预测、自然灾害风险评估等领域。
通过建立合适的泊松回归模型,可以对未来的事件进行预测和评估,为决策提供依据。
四、总结泊松广义估计方程是一种常用的参数估计方法,适用于泊松回归模型的参数估计。
通过最大似然估计的方法,可以得到模型的参数估计值,从而建立起模型的预测能力。
广义泊松混合模型
广义泊松混合模型广义泊松混合模型(Generalized Poisson Mixture Model)是一种概率模型,可以被用来对整体人口或整体市场的数量进行建模。
该模型基于泊松分布,通过将其扩展成为混合分布,可以更好地描述数据中的峰和尾部,比传统的泊松模型更加灵活和具有解释性。
广义泊松混合模型的数学表达式如下所示:$$y_i \sim GP(\lambda_i, \alpha), i = 1, 2, ..., n$$其中,$y_i$ 表示第 $i$ 个观测值,$GP$ 表示广义泊松分布。
$\lambda_i$ 表示第$i$ 个观测值的参数,可以表示为:其中,$\beta_0, \beta_1, ..., \beta_p$ 是系数,$x_{i1}, ..., x_{ip}$ 是自变量,$u_i$ 是一个随机效应,可以被看作是每个观测值独有的性质。
$\alpha$ 是另一个参数,它控制了分布的形状和尾部。
当 $\alpha = 0$ 时,广义泊松分布退化成为传统的泊松分布;当 $\alpha > 0$ 时,则具有更大的峰和更长的尾部。
广义泊松混合模型的优点在于,它能够捕捉到数据中的多个类型或峰,同时也能够很好地处理过度离群值的数据。
例如,在一个商品销售数据集中,可能存在不同类型的买家,某些类型的买家更喜欢购买商品,而另一些则不那么喜欢。
广义泊松混合模型能够将这些不同类型的买家拆分出来,并对不同类型的买家用不同的参数进行建模。
因此,这种模型给我们提供了更好的理解数据、更准确地预测和分析市场的方式。
广义泊松混合模型有很多应用场景,例如,可以用于管理和分析网络流量,这种混合模型可以准确地预测数据传输在网络中的速度;也可以用于疾病发病率的研究,能够帮助科学家们了解不同群体中发病率的差异和潜在原因。
总之,广义泊松混合模型是一种具有广泛应用场景的灵活模型,可以帮助我们更好地理解数据、更准确地预测市场,对于研究人员和实践人员都具有一定的借鉴意义。
泊松广义估计方程
泊松广义估计方程泊松广义估计方程是一种统计推断方法,用于估计泊松分布中未知参数的值。
泊松分布是一种离散概率分布,常用于描述单位时间内某事件发生的次数。
泊松广义估计方程是通过最大似然估计的方法,求解泊松分布的参数估计值。
在介绍泊松广义估计方程之前,我们先了解一下泊松分布。
泊松分布是一种概率分布模型,用于描述在一定时间或空间范围内,某事件发生的次数。
泊松分布的概率质量函数为:P(X=k) = (λ^k * e^(-λ)) / k!其中,λ表示单位时间或空间内事件的平均发生率,k表示事件发生的次数。
泊松广义估计方程是通过最大似然估计的方法,求解泊松分布的参数估计值。
最大似然估计是一种常用的参数估计方法,通过寻找最大化观测数据出现的可能性来确定参数的值。
在泊松广义估计方程中,我们希望找到使得观测数据出现的概率最大的参数值。
假设我们有n个观测数据,分别为x1, x2, ..., xn。
根据泊松分布的概率质量函数,我们可以得到n个数据同时出现的概率为:L(λ) = ∏(i=1 to n) [P(X=xi)] = ∏(i=1 to n) [(λ^xi * e^(-λ)) / xi!]为了方便计算,我们取对数得到对数似然函数:ln(L(λ)) = ∑(i=1 to n) [xi * ln(λ) - λ - ln(xi!)]为了求解参数λ的估计值,我们需要对对数似然函数进行最大化。
为了方便计算,我们对对数似然函数求导,并令导数等于零:d[ln(L(λ))/dλ] = ∑(i=1 to n) [xi/λ - 1] = 0通过求解上述方程,我们可以得到泊松广义估计方程的解,即参数λ的估计值。
除了求解参数估计值,我们还可以通过泊松广义估计方程进行假设检验。
假设我们有一个假设H0,我们希望通过观测数据来判断该假设的真实性。
我们可以构建一个统计量,然后根据该统计量的值来判断是否拒绝假设H0。
泊松广义估计方程在实际应用中具有广泛的应用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络出版时间:2013-11-29 09:48网络出版地址:/kcms/detail/11.2242.O1.20131129.0948.001.html广义泊松Ⅰ型回归模型的统计诊断戴林送1林金官2(1.安庆师范学院数学系,安徽,安庆,246011; 2.东南大学数学系,江苏,南京,211189)摘要: 本文研究广义泊松Ⅰ型回归模型的统计诊断方法.首先给出模型的极大似然估计, 相应地得到基于数据删除模型的诊断统计量; 其次研究基于Score检验的模型散度参数存在性与齐性的检验统计量; 然后通过模拟来研究这些统计量的有效性, 最后, 用一个医学上的数值实例来说明模型统计诊断方法的应用.关键词: 广义Poisson回归模型; 统计诊断; 数据删除; Cook距离; Score检验中图分类号: O212.1文献标识码: AStatistical Diagnostics on Generalized Poisson Regression ModelsLIN-SONG DAI1 JIN-GUAN LIN2(1. Department of mathematics, Anqing Normal College, Anqing, china;2. Department of Mathematics, Southeast University, Nanjing, china)Abstract: In this paper, diagnostics for generalized Poisson regression model arepresented. Based on MLE, the case-deletion model is considered, and several diagnosticmeasures are derived and discussed. Furthermore, score tests for existence andhomogeneity of dispersion parameters are given. The power of score test and theeffectiveness of the diagnostic measures are investigated by Monte Carlo simulation.Finally, a numerical example in medicine is given to illustrate that the method isavailable.Keywords: Generalized Poisson regression model; Statistical diagnostic; Case-deletionmodel; Cook’s distance; Score test.0 引言泊松回归模型是以泊松分布为基础的,作为模型的一个假定,要求其因变量的数学期望与方差相等. 因而,当数据中存在偏大或偏小离差时,应用泊松回归模型就可能会低估或高估标准差(Wang and Famoye,1997)[1] ,进而导致对回归系数的误判,得出错误的结论. Consuland Jain(1973)[2] 综合泊松分布和偏大或偏小因素,提出了广义泊松分布,该分布目前已得到了深入细致的研究,并且已被证实适用于很多的现象(Consul,1989)[3]. 为将广义泊松分布应用于更多的领域,Consul and Famoye(1992)[4] 以及Famoye(1993)[5] 以广义泊松分布为基础,研究了相应的回归模型. 该回归模型因其适用于偏大、偏小离差数据以及过度(inflated)数据等得到了广泛的研究和应用,应用领域包括农业、经济、公共卫生、生物、医疗、道路安全、保险等等.统计诊断的任务就是要检测已知数据是否符合既定模型的假设条件,其典型问题就是检测数据中的强影响点或异常点(韦博成等,1991)[6].目前对线性回归模型统计诊断的研究已非常深入,理论成熟,应用也最为成功;对非线性模型和广义模型的诊断理论与实践,也有一些研究成果.对于广义泊松Ⅰ型回归模型,Famoye and Wang (2004)[7]给出了模型散度参数α的t统计量;Ismail and Jemain(2005)[8] 给出了散度参数α的似然比统计量. 本文将在他们的基础上研究广义泊松Ⅰ型回归模型的统计诊断问题.1 广义泊松Ⅰ型回归模型广义泊松分布主要有两种形式,分别记为 GPⅠ与 GPⅡ.相应地,回归模型也就有两种形式.本文主要讨论 GPⅠ对应的回归模型的统计诊断问题,对于 GPⅡ对应的回归模型统计诊断问题可以类似得到.基金项目: 安徽省优秀青年基金资助项目(2009SQRZ122).设随机变量i Y 服从GP Ⅰ分布,根据 Wang and Famoye (1997)[1],i Y 的概率密度函数为()11(1)Pr()exp 01.11i i y y i i i i i i i i i i y y Y y y y αμμααμαμ−+⎛⎞⎛⎞+==−,=,,⎜⎟⎜⎟+!+⎝⎠⎝⎠" (1)其中,()exp()T i i i i x x μμβ==,1(1)(1)Ti i i k x x x −=,,,",12()T k ββββ=,,,"为回归系数. 随机变量 i Y 的期望和方差分别为2()()(1)01i i i i i i i E Y x Var Y x i n μμαμ=,=+,=,,,."广义泊松Ⅰ型回归模型是泊松回归模型的自然推广,当0α=时,概率函数(1)就退化为泊松回归模型的概率函数. 0α>时,则有 ()()i i i i Var Y x E Y x >,此时,数据中存在偏大离差;当0α<时,则有 ()()i i i i Var Y x E Y x <,数据中存在偏小离差,因此,称参数α为散度参数. 当 0α<时,一般要求满足 (1)0i αμ+>,且(1)0i y α+>,这样才能保证概率函数(1)非负.记 ()T Tθαβ=,,假定 ()Ti i y x ,, 12i n =,,,",为来自广义泊松Ⅰ型回归模型的数据集,则相应的对数似然函数为1(1)()log (1)log(1)log()11ni i i i i i i i i i y l y y y y μμαθααμαμ=⎧⎫⎛⎞+⎪⎪=+−+−−!.⎨⎬⎜⎟++⎪⎪⎝⎠⎩⎭∑ (2)()l θ 关于参数θ的Score 函数记为()()T TU U U αβθ=,,由exp()T i i x μβ=,通过计算得到i i i x μβμ∂/∂=,2T T i i i i x x μββμ∂/∂∂=,根据(2)式,有2121(1)()11(1).(1)ni i i ii i i i ii i n i i i i i y y y y U y y U x αβμμμαμααμμαμ==⎧⎫−−=−+−,⎨⎬+++⎩⎭⎧⎫⎡⎤−⎪⎪=⎨⎬⎢⎥+⎪⎪⎣⎦⎩⎭∑∑进一步,通过计算,我们得到 θ 的观测信息矩阵 ()II I II αααββαββθ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦=, (3)其中,22222231231231(1)2()()(1)(1)(1)()2(1)(12)()(1)ni i i i i i i i i i i nT T i i i i T i i nT i i i i i T i i y y y y l I y y l I x I y l I x x αααββαββμμμθαααμααμμθμαβαμαμαθμββαμ===⎧⎫−−−∂=−=+−,⎨⎬∂∂+++⎩⎭⎧⎫−∂=−==,⎨⎬∂∂+⎩⎭⎧⎫−+∂=−=.⎨⎬∂∂+⎩⎭∑∑∑于是,参数θ的极大似然估计 ˆˆˆ()T Tθαβ=, 可以由下面的迭代方程得到()()(1)()()()1ˆˆˆˆt t t t I U θθθθ+−=+, (4) 其中,ˆθ表示第 t 步的迭代值.2 数据删除模型对于广义泊松Ⅰ型回归模型,为了评价第i 个数据点 ()i i y x , 在回归分析中的作用与影响,可以通过比较第i 个数据点删除前后回归分析的结果的变化,来检测这个点是否为异常点或强影响点. 删除第i 个点后的模型可表示为 log 12Tj j x j i j n μβ=,≠,=,,,." (5)模型(5)通常称为数据删除模型(简记为CDM ).记模型(5)的对数似然函数为 ()()i l θ ,参数θ的极大似然估计为()()()ˆˆ()ˆTTi i i αβθ=. 为了研究第i 个数据点对参数估计的影响,最直接的方法就是比较ˆθ与()ˆi θ的差异. 由于广义泊松Ⅰ型回归模型的参数没有显示解,且在数据量较大时,求删除每个数据点的参数估计()ˆi θ的工作量较大,因而,通常考虑参数估计的一步近似1()ˆi θ. 定理1 对模型(5),其参数估计的一步近似可表示为1()22ˆ122()ˆ(1)()ˆˆ11(1)(1)(1)()ˆˆ11(1)(1)i i i i i i i i i i i i i i i i i i i i i i i i i i i ii i y y y y y I I x y y y y y y I I x y αααβθβαββθμμμμαααμααμαμμμμμββαμααμαμ⎛⎞⎡⎤⎜⎟⎢⎥⎜⎟⎢⎥⎜⎟⎢⎥⎜⎟⎢⎥⎣⎦⎝⎠⎡⎤⎢⎥⎢⎥⎢⎥⎢⎣⎦⎡⎤−−−−=−+−+,⎢⎥++++⎣⎦⎡⎤−−−−=−+−+⎢⎥++++⎣⎦⎛⎞⎜⎟⎜⎟⎜⎟⎜⎟⎥⎝⎠,其中,I αα为观测信息阵()I θ的逆阵中相应于I αα的分块阵,其他类似.证明: 由模型(5),可以得到CDM 的对数似然函数为()(1)()()log (1)log(1)log()11i i i i i i i i i i y l l y y y y μμαθθααμαμ⎧⎫⎛⎞+⎪⎪=−+−+−−!.⎨⎬⎜⎟++⎪⎪⎝⎠⎩⎭通过计算可以得到 ()()i l θ 关于 θ 关的一阶导数为()2()2()(1)()()11(1)()()(1)i i i i i i i i i i i i i i i i l y y y y l y l y l x θμμμθαααμααμθμθββαμ∂⎧⎫−−−∂=−+−,⎨⎬∂∂+++⎩⎭⎧⎫∂⎡⎤−∂⎪⎪=−.⎨⎬⎢⎥∂∂+⎪⎪⎣⎦⎩⎭由于参数θ的极大似然估计ˆˆˆ()T Tθαβ=,满足方程()0l θα∂∂=,()0l θβ∂∂=,所以()2ˆˆ()(1)()11(1)i i i i i i i i i ii l y y y y y θθμμμααμααμ∂⎧⎫−−−=−+−,⎨⎬∂+++⎩⎭ (6)()2ˆˆ()(1)i i i i i l y x θθμβαμ⎧⎫∂⎡⎤−⎪⎪=−.⎨⎬⎢⎥∂+⎪⎪⎣⎦⎩⎭ (7) 记观测信息阵 ()I θ 的逆阵为 1()II I II αααββαββθ⎡⎤⎢⎥−⎢⎥⎢⎥⎢⎥⎣⎦=, 则根据1()1()ˆ()ˆˆˆ()i i l I θθθθθ−∂=+,∂ (8) 可以得到定理结论成立.定理1揭示了估计量ˆθ与()ˆi θ之间的关系,若ˆθ与()ˆi θ的差异很小说明第i 个数据点对模型影响不大,反之,则说明第i 个数据点对模型影响较大. 根据定理1我们可以得到()ˆˆi θθ−,但是作为一个向量,不便于比较大小,通常运用以下与()ˆˆi θθ−相关的数量或距离来刻画影响的大小.2.1 广义Cook距离Cook 于1977年对线性回归模型定义了度量影响的 Cook 距离之后,一些作者将其推广到了广义 Cook 距离,并研究了广义 Cook 距离在各种模型中的应用. 对于广义泊松Ⅰ型回归模型,广义 Cook 距离可以类似定义为()()ˆˆˆˆ()()T i i i GD M C θθθθ=−−/,其中,M 是正定的权矩阵,0C >为尺度因子.M 和 C 可以取各种不同的值,但是对比较ˆθ与()ˆi θ的差异的影响并不太大(Wei et al ,2009)[9].一个常用选择方法是取 ˆ()M I θ=, 1C =. 根据定理 1,我们有下面的广义 Cook 距离的一步近似公式,11()()ˆˆˆ()T i i i GD I l l θθθ−=, (9)其中,()()()()ˆ()ˆ()(())i i l l T Ti lθθαβθθ∂∂∂∂=, .另一方面,常常考虑第 i 个数据点 ()i i y x , 对参数 αβ, 的影响,由(6)、(7) 及(9)式,可以得到下面的关于参数 αβ, 的广义 Cook 距离,212122(1)()()11(1)()(1)(1)i i i i i i i i i i i Ti ii ii i i i i y y y y GD I y y y GD x I x ααββμμμααμααμμμβαμαμ⎛⎞⎛⎞⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎜⎟⎝⎠⎝⎠⎛⎞−−−=+−,⎜⎟+++⎝⎠−−=.++2.2 似然距离在数据删除模型下,似然距离是与 Cook 距离同等重要的诊断统计量,并且是 Cook 距离的进一步推广. 对于广义泊松Ⅰ型回归模型,可以类似地定义第 i 个数据点关于估计量 ˆθ的似然距离为()()ˆˆ()2()()i i LD l l θθθ=−. 根据定理1,相应地有似然距离的一步近似公式,()11()ˆˆ()2()()i i LD l l θθθ=−. 2.3 W-K 统计量对于任何统计量,都可以考虑删除第 i 个数据点前后该统计量的变化,从而了解这个数据点对该统计量的影响. W-K 统计量是从数据拟合观点提出的一种诊断统计量,表示删除第 i 个数据点前后拟合值的差异.对于广义泊松Ⅰ型回归模型,我们考虑以下 W-K 统计量,ˆˆ()121i j WK j k θ−==,,,+,"其中,j θ是参数θ的第j 个分量,()ˆj i θ是删除第i 个数据点后参数的估计量,ˆ()j Var θ 是参数θ的第j 个分量的方差,可以通过观测信息阵ˆ()I θ近似获得.根据定理 1,我们得到 W-K 统计量的一步近似,11ˆˆ()()()121T i j d I WK j k θθθ−==,,,+, "其中,(00100)Tj d =,,,,,,""为 1p ×向量,其第j 个分量为1,其余为 0..但是究 检验方法进行.(10) 记 α(11)且 0H 证明: 由模型 (1),根据已得到的 Score 函数U α有22ˆˆ1ˆ()2n i i i i i i l U y y y ααααθθβθμμα⎛⎞⎜⎟⎡⎤⎜⎟⎢⎥⎣⎦⎜⎟=⎝⎠∂|=|=−−+.∂∑ 根据 (2) 式,我们计算出 Fisher 信息矩阵为 ()J J J J J αααββαββθ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦=, 其中,22212()(12)(1)n i i i l J E ααμθααααμ=⎧⎫∂=−=,⎨⎬∂∂++⎩⎭∑2()0TTl J E J αββαθαβ∂=−==,∂∂ 221()(1)nT i i i T i i l J E x x ββμθββαμ=⎧⎫∂=−=.⎨⎬∂∂+⎩⎭∑记J αα为 Fisher 信息阵()J θ的逆阵中相应于J αα的分块阵,从而有1112ˆˆ1ˆ2n i i J J J J αααααααααααθθβμ−−−⎛⎞⎜⎟=⎝⎠=,|=|=Σ. 根据文献(Cox and Hinkley,1974)[10],对假设检验问题 (10) , Score 检验统计量可表示为ˆ()()()T l l SC J ααααθθθαα∂∂⎧⎫=.⎨⎬∂∂⎩⎭将()ˆˆl J ααθαααθθ∂∂|,| 代人,可以得到 (11) 式.根据文献(Cox and Reid,1987)[11],当0H 成立时,SC α的渐近分布为 2(1)χ. 3.2 散度参数的齐性检验当模型 (1) 中散度参数 α 显著存在时,我们常常会考虑是否与 i 有关,这就是参数的齐性问题.根据 Cook and Weisberg (1983)[12] 和 Simonoff and Tsai (1994)[13]等的思想,我们对散度参数 α 重新参数化. 假定 ()i i i m m z αααρ==,, (12) 其中,α是未知常量参数,ρ是1q ×的未知向量,i z 是某协变量,m 是已知的二阶可微权函数.我们假定存在唯一的值0ρ使得对于任意的i 都有 0()1i m z ρ,=. 显然,如果 0ρρ=,则i αα=,且所有i Y 都有固定的散度参数.因此,散度参数的齐性检验就等价于检验:0000H H ρρρρ:=:≠. (13)对于假设检验问题 (13),记 ()T T T ξρθ=,,ρ是兴趣参数,θ是多余参数,在0H 成立下,参数ξ的极大似然估计记为000ˆˆ()T TTρξθ=,,根据模型 (1) 和假定 (12) ,有下面的对数似然函数1(1)()log (1)log(1)log()11n i i i i i i i i i i i i i i y l y y y y μμαξααμαμ=⎧⎫⎛⎞+⎪⎪=+−+−−!.⎨⎬⎜⎟++⎪⎪⎝⎠⎩⎭∑ (14) 记222222223(1)()()11(1)(1)2()()(1)(1)(1)i i i i i i i i i i i i i i i i iii ii i i i i i i i i i y y y y l M y y y y y l N y μμμξααμααμμμμξααμααμ−−−∂==+−,∂+++−−∂==−+.∂+++由 (14) 式有1()()n i i i m z l M ρξαρρ⎧⎫⎪⎪⎨⎬⎪⎪=⎩⎭∂,∂=.∂∂∑ 故假设检验问题 (13) 的 Score 函数为00ˆˆ1()()n i i i m z l M ξξρξαρρ⎧⎫⎪⎪⎨⎬⎪⎪=⎩⎭∂,∂|=|.∂∂∑根据 (14) 式可以得到 ()l ξ 的二阶导数如下:222121231()()()()()()()()()()()2(1)ni i i i iT T T i n i i i i i i nT i i i i i T i i i m z m z m z l M N m z m z l M N m z y m z l x ρρρξααρρρρρρρρξαρραρρμμρξαρβαμρ===⎧⎫∂,∂,∂,∂=+,⎨⎬∂∂∂∂∂∂⎩⎭⎧∂,∂,⎫∂=+,,⎨⎬∂∂∂∂⎩⎭⎧⎫−∂,∂=−.⎨⎬∂∂+∂⎩⎭∑∑∑从而,在原假设 0H 成立下的 Fisher 信息矩阵为()()J J J J J ρρρθθρξθ⎡⎤=.⎢⎥⎣⎦其中,()J J J ρθραρβ=,,且22221222122()()()(12)(1)2()()()(12)(1)()0ni i i T T i i n i i i i i TTm z m z l J E m z l J E m z l J E J ρρραρββραμρρξρρααμρραμρξρραααμρξρβ==⎧⎫∂,∂,∂=−=,⎨⎬∂∂++∂∂⎩⎭⎧⎫∂,∂=−=,,⎨⎬∂∂++∂⎩⎭∂=−==.∂∂∑∑ 记J ρρ为 Fisher 信息阵()J ξ的逆阵中相应于J ρρ的分块阵,根据分块矩阵求逆公式,有1111(())()TJ J J J J J J J J J ρρααρρρρρθθρρρραραθ−−−−==−=−.根据文献(Cox and Hinkley,1974)[10],对假设检验问题 (13) ,其Score 检验统计量可表示为ˆ()()()T l l SC J ρρρξξξρρ⎧⎫∂∂=.⎨⎬∂∂⎩⎭类似如定理 (2) 我们得到下面定理.定理3 对模型 (1) 和假定 (12) ,假设检验问题 (13) 的Score 检验统计量可表示为2111ˆ()()()()()n nT T i i ii i i m z m z SC M J J J J M ααρρρραραξρραρρ−==⎧∂,∂,⎫=−,⎨⎬∂∂⎩⎭∑∑ (16) 且0H 成立时,SC α的渐近分布为2()q χ.4 模拟研究下面通过 Monte Carlo 随机模拟方法来说明前面所介绍的统计量的有效性.4.1 CDM模型诊断统计量的随机模拟考虑广义泊松Ⅰ型回归模型 (1),其中01log 12i i x i n μββ=+,=,,,."我们取01020502αββ=.,=.,=..首先从正态分布(01)U ,中产生400个随机数作为协变量i x 的值,从而构成已知矩阵[1]i X x =,接着根据所给的参数值和X 的值,从相应的广义泊松Ⅰ型回归模型中产生400个随机数y .现将X 的第129行对应0β的协变量值从原始的1改变为31−.,将X 的第329行对应1β的协变量值从原始的05349−.改变为71.,从而人为产生2个异常点.根据第3部分的统计量111i i i GD LD WK ,,,经过计算得到相应的数值, 结果列于图 1 中.其中,图形a 显示的是在原始产生的数据下对应的广义Cook 距离,从中可以发现第248号点是一个强影响点,另外第151号、第176号、第237号 和第307号 点也有较大影响. b—f 是在人为产生两个异常点之后的数据基础上得到的统计量图形,从图形 b 、c 可以看出,除了数据中已有的影响点被检测出来外,第129和329号两个人为的异常点也被成功检测出来,这说明相关统计量是有效的.图形d 、e 和f 分别是参数01αββ,, 对应的WK 统计量.图形d 来看,已有的影响点和人为的异常点都被成功地检测出来,说明参数α受协变量X 的影响明显但不是十分显著,因为人为影响点对应的 WK 值没有已有影响点的变化大. 图形 e 来看,人为的异常点第129号点被成功地检测出来,而人为的异常点第329号点未被成功地检测出来,说明对应于参数1β的协变量值i x 的改变对0β影响不显著.同样,图形 f 来看,人为的异常点第129号点未被成功地检测出来,说明对应于参数0β的协变量值 1 的异常对1β影响不显著. 从模拟结果可以看出,三种诊断统计量是有效的.图 1 CDM 模型统计量的散点图4.2 散度参数存在性检验的随机模拟下面运用随机模拟方法研究散度参数存在性检验的 Score 统计量的功效. 根据模型 (1),假定01log 12i i x i n μββ=+,=,,,."我们取010604ββ=.,=..首先从正态分布(01)N ,中产生n 个随机数作为协变量i x 的值,从而构成已知矩阵[1]i X x =,接着根据所给的参数值和X 的值,从相应的广义泊松Ⅰ型回归模型中产生n 个随机数Y .将此过程重复5000 次,从而得到 5000 组数据()X Y ,.根据定理 2 的 (11) 式,计算得到Scroe 统计量SC α的值,并与水平005α=.时的临界值24000.05020.7950(0.0846)0.9984(0.2070)1.0000(0.4540)1.0000(0.8020)1.0000(0.9932)1.0000(1.0000)4.3 散度参数齐性检验的随机模拟下面用随机模拟方法研究散度参数齐性检验的Score 统计量的功效.根据模型 (1),假定01log exp()12i i i i i x m x i n μββαααρ=+,===,,,."我们取0102105αββ=.,=,=..首先从正态分布(01)N ,中产生n 个随机数作为协变量i x 的值,从而构成已知矩阵[1]i X x =,接着根据所给的参数值和X 的值,从相应的广义泊松Ⅰ型回归模型中产生n 个随机数Y . 将此过程重复5000 次,从而得到 5000 组数据 ()X Y ,. 根据定理3的 (15) 式,计算得到Score 统计量SC ρ的值,并与水平005α=.时的临界值2(1)3841χ=.进行比较,从而得到相应的水平和功效,具体结果列于表 2 中.表 2 给出的是样本量在 80120160200400n =,,,,;002040608ρ=,.,.,.,. 时 Score 统计量SC ρ 的功效,表2中第一列为 0ρ=时的水平,我们发现当120n >时,经验水平接近于0.05.当01ρ<. 时功效相对较小,说明此时检验保守.另外,当样本量n 或ρ增大时,功效逐渐增大,并接近于1.说明检验统计量SC ρ是有效的.表 2 统计量 SC ρ在显著水平005.下的模拟功效n0= 020=. 040=. 060=. 080=.对于数据删除模型,根据统计量111i i i GD LD WK ,,的表达式,我们经过计算得到相应的数值,结果列于下面图2中.其中,图形a 显示的是各数据点对应的广义 Cook 距离,图形b 显示的是各数据点对应的似然比距离,图形c d ,显示的分别是参数α与1β 对应的各数据点 WK 距离,考虑到篇幅问题,参数0β对应的各数据点 WK 距离未列出.从图形中可以发现第17号点是一个强影响点,另外第14号和第15号点也有较大影响.第14号和第15号对模型的参数α有一定影响,第17号点对参数1β的影响较大.现在,考虑散度参数的存在性检验与齐性检验. 对于存在性检验,00H α:=,根据定理2的检验统计量,我们计算得出4005149SC α=.,表明模型散度参数显著不为0,这也表明广义泊松Ⅰ型回归模型比较适合分析数据.对于散度参数的齐性检验,假定α都和i 有关,1217i i m i αα=,=,,,."对于权函数i m 的选择,Chen (1983)[15] 指出,在参数齐性检验中,Score 检验统计量对权函数的选择并不敏感,因此,根据 Cook and Weisberg (1983)[12] 的建议,我们选择实际中常用的幂函数和指数函数作为权函数,即假定分别为 ()i i i i m exp x m x γρ=,=. 相应的散度参数的齐性检验就变成检验00H ρ:= 以及00H γ:=. 根据定理3 的检验统计量,我们计算出117388SC ρ=.以及105677SC γ=..与显著水平 005α=. 时的临界值2(1)3841χ=.进行比较,可以认为模型散度参数是非齐的.图 2 白血病数据CDM 的统计量散点图6 总结统计诊断是回归分析的一个重要内容.本文针对于广义泊松Ⅰ型回归模型给出了基于数据删除模型的几种诊断统计量以及模型散度参数的存在性与齐性检验的Score统计量.Score 检验的统计量是在原假设成立下给出的,因而在计算上提供较大的方便. 根据模拟和实例分析,这些诊断统计量和Score统计量是有效的,尤其在实例分析中,我们数据点个数仅17个,但根据模型以及相应的统计量得出的结果是不错的.虽然在参数齐性检验中,Score检验统计量对权函数的选择并不敏感,但我们认为根据各数据点对散度参数影响的散点图来确定权函数的分析是更加有力的,对于这方面的工作我们正在努力.参考文献[1] Wang W, Famoye F. Modeling household fertility decisions with generalized Poisson regression [J]. Journal of Population Economics, 1997, 10(3): 273-283.[2] Consul P C, Jain C. A generalization of the Poisson distribution [J]. Technometrics, 1973, 15(4), 791-799.[3] Consul P C. Generalized Poisson distribution: properties and application [M]. New York: Marcel Dekker, 1989.[4] Consul P C, Famoye F. Generalized Poisson regression model [J]. Communications inStatistics-Theory and Methods, 1992, 21:89-109.[5] Famoye F. Restricted generalized Poisson regression model [J]. Communications inStatistics-Theory and Methods, 1993, 22:1335-1354.[6] Wei B C, Lu G B, Shi J Q. Introduction to statistical diagnostics [M]. Nanjing: Southeast University Press, 1991.[7] Famoye F, Wang W. Censored generalized Poisson regression model [J]. Computational Statistics & Data Analysis.2004, 46: 547-560.[8] Ismail N, Jemain A A. Generalized Poisson regression: An alternative for risk classification [J]. Journal Technology.2005, 39-54.[9] Wei B C, LIN J G, XIE J F. Statistical Diagnostics [M]. Shanghai: Higher Education Press, 2009.[10] Cox D R, Hinkley D V. Theoretical Statistics [M]. London: Chapman and Hall, 1974.[11] Cox D R, Reid N. Parameter ortrhogonality and approximate conditional inference [J]. J.R. Statist. Soc. 1987, 49: 1-39.[12] Cook R D, Weisberg S. Diagnostic for heteroscedasticity in regression [J]. Biometrika, 1983, 70: 1-10.[13] Simonoff J S, Tsai C L. Improved tests for nonconstant variance in regression based on the modified profile likelihood [J]. Applied Statitics, 1994, 43: 357-370.[14] Pregibon D. Logistic regression diagnostics [J]. Ann Statist. 1981, 9:705-724.[15] Chen C F. Score Tests for Regression Models [J]. Journal of the American Statistical Association.1983, 78, 158-161.[16] 薛留根. 单指标模型的统计诊断[J].数理统计与管理, 2012,31(1): 55-78.[17] 薛留根. 单指标模型的统计诊断[J].数理统计与管理, 2012,31(2): 226-246.[18] 张香云, 赵旭. 广义Pareto模型统计推断及其应用[J].数理统计与管理, 2011,30(6):989-995.。