缺失值的处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、缺失值的类型

缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。

完全随机缺失(missing completely at random,MCAR)指的是观察对象的数据缺失完全是由随机因素造成的,独立于已完成的和将来要进行评价的结果,既不取决于已观察到的数据也不取决于未被观察到的数据。例如因为受试者搬迁而脱落、研究者未能评估或一些设计因素而出现缺失。

随机缺失(missing at random,MAR)指的是数据的缺失取决于以观察到的结果,不取决于未观察到的结果。例如在对一个降压药的临床研究中,根据方案,当受试者发现血压控制并不理想(舒张压太高)时决定退出研究。

非随机缺失(missing not at random,MNAR)指的是数据的缺失依赖于不完全变量自身。观察对象的缺失概率与当前尚未观察到的结果有关。一般通过复杂模型解决

二、处理缺失值的方法

1.忽视缺失值

当缺失的类型属于完全随机缺失时,则采用忽视缺失值的方法,即可以剔除缺失样本,采用完整数据进行分析

2.数据填补

适用情况:①相对小的缺失率(例如10%~15%);②在临床上或在生物学上,含有缺失值的变量对于所要研究的问题都具有非常重要的意义;③有合理的假设和结转技术策略,一般宜遵循保守的原则;④不同填补方式产生的结论需进行敏感性分析

(1)简单填补

(2)多重填补法

较复杂

参考文献为《临床研究中缺失值的类型和处理方法》

相关文档
最新文档