广义线性模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
广义线性模型
一、广义模型的概念以及指数函数族
1.多元线性回归和正态线性模型
2.指数函数族
3.The Tweedie distribution:特殊的指数指数族一员;在0点有很大的
概率并且在非0点有合适的分布;方差与均值的p次幂成正比4.GLM的结构:连接函数、设计矩阵、预估变量、offset变量
每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重
二、构建GLM模型
1.单因子分析:无法反映变量之间的关系,GLM可以排除这类关系,
得到相对数的真实值
2.变量、分类因子、交互项目以及线性预测值:
(1)权重/暴露
(2)反应:模型视图预测的值一般地,模型的名称与反应/权重的含义相同
(3)categorical factors and naturally ordered value
(4)interaction terms:当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到
3. 变量估计:通过逆矩阵相关方法求解
三、分析因子的显著性
1. chi-squared、F-statistics、AIC 等统计量
(1)偏离:比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。
(2)偏离度调整
(3)chi-squared 统计量:模型的自由度定义为观测的数量减去变量的数量
Nested models:可以利用chi-squared来检验偏离度的变化
(4) F-statistics
(5)AIC:主要用于模型选择的统计量
AIC=-2*log likelihood+2*number of parameters
是在likelihood 与变量数量之间的权衡,AIC数值越小越好
2.模型变量的不确定性
Hat matrix
Likelihood的二阶导数与变量的方差反比例相关
Steep curvature表明变量tightly defined,
Shallow curvature 表明变量poorly defined
3.其他方法
(1)与预期值相比:每种水平下相对值的变动幅度,同时考虑每个水平下得标准偏差,其值的
(2)Comparison with time:model fit line;variation的大小应该与exposure的大小相反
不同渠道数据收集上的差异可能导致不一致的发生四、测试模型的适当性
1.残差法
偏离残差:修正了偏度的影响,分布更为正态化
皮尔逊残差:观测值与预测值之间的差异,除以预测值的方
差,这个办法使得具有不同均值的观测值可以进行比较,但
是没有对分布的形状加以调整
2.残差图:对于某种模型,如果所选的误差结构是正确的,那
么残差的平均值就是0,并且残差值的范围
3.Cook’s distance
Leverage:用于估计数据点对于模型结果的影响
五、模型refinement
1. 完全交互以及边际交互
2. 模型限制
Restrictions: price demand elasticity; competitive situation; legal or commercial consideration
Compensate: adjust the fitted relativities for correlated factors,using the offset term in the GLM
Impose restriction at the risk premium stage: allow more complete and balanced compensation by the other factors
Counterintuitive model results: behavior factors
Distribution of ratio of fitted values between restricted and unrestricted models
3. aliasing : linear dependency : one covariate may be identical to some
combination of other covariates
(1):Intrinsic aliasing