缺失值的处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、缺失值的类型
缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。
完全随机缺失(missing completely at random,MCAR)指的是观察对象的数据缺失完全是由随机因素造成的,独立于已完成的和将来要进行评价的结果,既不取决于已观察到的数据也不取决于未被观察到的数据。例如因为受试者搬迁而脱落、研究者未能评估或一些设计因素而出现缺失。
随机缺失(missing at random,MAR)指的是数据的缺失取决于以观察到的结果,不取决于未观察到的结果。例如在对一个降压药的临床研究中,根据方案,当受试者发现血压控制并不理想(舒张压太高)时决定退出研究。
非随机缺失(missing not at random,MNAR)指的是数据的缺失依赖于不完全变量自身。观察对象的缺失概率与当前尚未观察到的结果有关。一般通过复杂模型解决
二、处理缺失值的方法
1.忽视缺失值
当缺失的类型属于完全随机缺失时,则采用忽视缺失值的方法,即可以剔除缺失样本,采用完整数据进行分析
2.数据填补
适用情况:①相对小的缺失率(例如10%~15%);②在临床上或在生物学上,含有缺失值的变量对于所要研究的问题都具有非常重要的意义;③有合理的假设和结转技术策略,一般宜遵循保守的原则;④不同填补方式产生的结论需进行敏感性分析
(1)简单填补
(2)多重填补法
较复杂
参考文献为《临床研究中缺失值的类型和处理方法》