统计数据预处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对某一长度L测量10次,其数据如下:
次数 1 2 10.38 3 10.3 4 10.32 5 10.35 6 10.33 7 10.37 8 10.31 9 10.34 10 20.33
L(cm) 10.35
试用拉依达准则剔除坏值。
解:
(Li L )2
i 1
10
10 1
3. cm 16
• 结论:血液中胰岛素与血糖两者含量之间无 直线相关
Correlations 胰 素 岛 x1 胰 岛 素 x1 血 糖 x2 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 1 7 .314 .493 7 血糖 x2 .314 .493 7 1 7
• 拉依达准则不能检验样本量较小的情况,格 拉布斯准则则可以检验较少的数据。在国际 上,常推荐格拉布斯准则和狄克逊准则。 • 但对于异常数据一定要慎重,不能任意的抛 弃和修改。往往通过对异常数据的观察,可 以发现引起系统误差的原因,进而改进过程 和试验。
SPSS实现
• 研究者对7例糖尿病患者给某种药物后,测 量其血中胰岛素(/ml,X1)和血糖(mg%,X2)
统计判别法
• • • • • • 拉依达准则 肖维勒准则 格拉布斯准则 狄克逊准则 t检验(罗马诺夫斯基准则) 极差法
统计判断对异常数据的区分
• 异常数据有两种情况: • 1. 异常值不属于该总体,抽样抽错了,从另 外一个总体抽出一个(一些)数据,其值与总 体平均值相差较大; • 2. 异常值虽属于该总体,但可能是该总体固 有随机变异性的极端表现,比如说超过3σ的 数据,出现的概率很小。
3 3.16 3 9.48cm
L10 Li L
20 .33 11 .34
8.99 3 9.48
20.33不能用拉依达 准则剔除
对某一长度L测量10次,其数据如下:
次数 L(cm) 1 10.35 2 10.38 3 10.3 4 5 6 7 8 9 10 11 10.37
**. Correlation is significant at the 0.01 level (2-tailed).
异常数据的判别法
• 物理判别法:根据人们对客观事物已有的认识,判 别由于外界干扰、人为误差等原因造成实测数据偏 离正常结果,在实验过程中随时判断,随时剔除 • 统计判别法:给定一个置信概率,并确定一个置信 限,凡超过此限的误差,就认为它不属于随机误差 范围,将其视为异常数据剔除 • 能用物理判别法判定异常数据有时不易做到,此时 只能用统计判别法
Frequency Stem & Leaf 2.00 1 . 0 3.00 1 . 78 1.00 2 . 4 1.00 Extremes (>=121) Stem width: 10 Each leaf: 1 case(s) 胰岛素检出离群值 121
• 叶茎图和箱须图提示有极端值(≥121 )
统计判别法之二:肖维勒准则
• 肖维勒准则又称为等概率原则,以正态分布为前 提, 假设多次重复测量所得n个测量值中, 某个测量 值的残余误差|vi|= Xn - X >Zcσ,则剔除此数据。 • 实用中Zc<3, 所以在一定程度上弥补了3σ准则的不 足,另外考虑了测量次数的因素,在一定程度上 比拉依达准则更合理。 • Zc是一个与测量次数相关的系数,可以查表获取。 • 肖维勒准则可用于n<10时粗大误差的判定。
统计数据的预 处理
数据预处理
• 把混在原始数据中的“异常数据”排除、把 真正有用的“信息”提取出来,有助于推断 统计得出正确分析结论。 1 :异常数据取舍 2 :未检出值和/或缺失值估算 • 采用异常数据进行推断统计得到的结论误导 带给科研与统计控制判断出错的隐患不可小 视。
异常数据
• 单个异常值:是指单个样本观测数据组内隐 含的个别异常数据。同义词有:可疑值、异 常值、极端值、端值、离群值、逸出值、奇 异值、超限值、粗值… • 异常均数:三个以上(k≥3)样本多均数要 作统计分析比较时,无疑也要检查其中是否 隐含可疑均数。
T0(n, α)值表
• 采用格拉布斯方法判定异常数据的过程如下: • 1. 选定危险率α • α是一个较小的百分数,例如1%,2.5%,5%,它是 采用格拉布斯方法判定异常数据出现误判的几率。 • 2. 计算T值 • 如果x(n)是可疑数据,则令 •
T
x( n ) x
• 3. 根据n及α,查表得到T0(n, α)值 • 4. 如果T≥ T0(n, α),则所怀疑的数据是异常数 据,应予剔除。如果T0(n, α) ,则所怀疑的 数据不是异常数据,不能剔除。 • 5. 余下数据重复操作至无异常数据 • 格拉布斯准则可以检验较少的数据
(一)个案剔除法(Listwise Deletion)
• 最常见、最简单的处理缺失数据的方法,也是很多 统计软件(如SPSS)默认的缺失值处理方法。 • 如果缺失值所占比例比较小,这一方法十分有效。 至于具体多大的缺失比例算是“小”比例,专家们 意见也存在较大的差距。有学者认为应在5%以下, 也有学者认为20%以下即可。 • 这种方法却有很大的局限性。它是以减少样本量来 换取信息的完备,会造成资源的大量浪费,丢弃了 大量隐藏在这些对象中的信息。当缺失数据所占比 例较大,特别是当缺数据非随机分布时,这种方法 可能导致数据发生偏离,从而得出错误的结论。
患者编号 1 2 17 170 3 18 194 4 12 213 5 15 214 6 121 238 7 10 249 胰岛素(X1 ) 24 血 糖(X2 ) 142
• 作者采用直线相关分析
0.3140 P 0.05 ,
• 结论:血液中胰岛素与血糖两者含量之间无 直线相关
SPSS实现
缺失数据预处理思想
• 1.直接丢弃含缺失数据的记录 • 2.补缺 • A. 用平均值来代替所有缺失数据 • B. K -最近距离邻居法:先根据欧式距离 或相关分析来确定距离具有缺失数据样本最 近的K个样本,将这K个值加权平均来估计该 样本的缺失数据。 • C.用预测模型来预测每一个缺失数据: 该方法最大限度地利用已知的相关数据,是 比较流行的缺失数据处理技术。
• 犯错误1:将本来属于该总体的、出现的概 率小的、第二种情况的异常值判断出来舍去, 就会犯错误。----去真 • 犯错误2:不属于该总体但数值又和该总体 平均值接近的数据被抽样抽出来,统计检验 方法判断不出它是异常值,就会犯另外一种 错误。----存伪
统计判别法之一:拉依达准则
• 如果实验数据的总体x是服从正态分布的, 则 p( x u 3 ) 0.003 • 根据上式对于大于μ+3σ或小于μ-3σ的实验 数据作为异常数据,予以剔除。 • 剔除后,对余下的各测量值重新计算偏差 和标准偏差,并继续审查,直到各个偏差 均小于3σ为止。 • 无需查表,使用简便
狄克逊准则
• 亦称Q检验法,狄克逊准则是通过极差比判 定和剔除异常数据。 • 该准则认为异常数据应该是最大数据和最小 数据,因此该其基本方法是将数据按大小排 队,检验最大数据和最小数据是否异常数据。
• 将实验数据xi按值的大小排成顺序统计量 • x(1),≤x(2),≤ x(3),……≤x(n) • 计算f0值 • xn xn 1 x2 x1 f0 xn x1 或 xn x1
Zc系数表
n 3 4 5 6 7 8 9 10 Zc 1.38 1.54 1.65 1.73 1.80 1.86 1.92 1.96 n 11 12 13 14 15 16 18 20 Zc 2.00 2.03 2.07 2.10 2.13 2.15 2.20 2.24 n 25 30 40 50 100 Zc 2.33 2.39 2.49 2.58 2.80
缺失数据的处理
数据缺失的机制
• 将数据集中不含缺失值的变量(属性)称为完全变 量,数据集中含有缺失值的变量称为不完全变量, Little 和 Rubin定义了以下三种不同的数据缺失机制: • 1)完全随机缺失:数据的缺失与不完全变量以 及完全变量都是无关的。 • 2)随机缺失:数据的缺失仅仅依赖于完全变量。 • 3)非随机、不可忽略缺失:不完全变量中数据 的缺失依赖于不完全变量本身,这种缺失是不可忽 略的。
• 本例为小样本,单击Analyze,后单击 Descriptive statistics选择 [ Explore]主对话 框中,再单击[Plots…]选项→进入[ Explore: Plots ]对话框:在Boxplots项下点选 ⊙Dependents Together,在Descriptive项 下勾选Stem-and-leaf,其余各项可以不要 勾选和点选;单击[Continue]返回[Explore]对 话框,单击OK, SPSS 运行、输出结果
t检验中的K(n,α)
应注意的问题:
• ① 所有的检验法都是人为主观拟定的,至今无统 一的规定。以数据按正态分布为前提的,当偏离正 态分布和测量次数少时检验不一定可靠。 • ② 若有多个可疑数据同时超过检验所定置信区间, 应逐个剔除,重新计算,再行判别。若有两个相同 数据超出范围时,应逐个剔除。 • ③在一组测量数据中,可疑数据应很少。反之,说 明系统工作不正常。 • ④为了减少犯错误的概率,可以将3种以上统计检验 法结合使用,根据多数方法的判断结果,确定可疑 值是否为异常值
3.01cm
20.33用拉依达准则 剔除
• 对于服从正态分布的测量结果,其偏差出现 在±3σ附近的概率已经很小,如果测量次数 不多,偏差超过±3σ几乎不可能,因而,用 拉依达判据剔除疏失误差时,往往有些疏失 误差剔除不掉。 • 另外,仅仅根据少量的测量值来计算σ,这 本身就存在不小的误差。 • 因此拉依达准则不能检验样本量较小的情况。 (显著性水平为0.1时,n必须大于10)
10.32 10.35 10.33 10.37 10.31 10.34 20.33
试用拉依达准则剔除坏值。ຫໍສະໝຸດ Baidu
解:
( Li L) 2
i 1
11
11 1 3 3.01 3 9.03cm
L10 Li L
20.33 11.25
9.08 3 9.03
统计判别法之三:格拉布斯准则
• 格拉布斯准则是在未知总体标准差情况下,对正 态样本或接近正态样本异常值的一种判别方法。 • 某个测量值的残余误差|vi|= Xn - X > Tσ,则判断此 值中含有粗大误差, 应予剔除。 • T值与重复测量次数n和置信概率α均有关,因此 格拉布斯准则是比较好的判定准则。 • 格拉布斯准则理论较严密,概率意义明确,可用 于严格要求的场合,当n=20-100时,判别效果较 好。 • T值通过查表获得。
• 剔出第6对数据 前后的Pearson 相关系数,前者 是0.314,后者 是-0.936,显示 有相关性!
Correlations 胰 素 岛 xa 胰 岛 素 xa 血 糖 xb Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 1 6 -.936** .006 6 血糖 xb -.936** .006 6 1 6
• 根据狄克逊系数表将f0与f(n, α)进行比较 • 如果f0 > f(n,α),说明x(n)离群远,则判定该数据为异 常数据,予以剔除。
狄克逊系数f(n,a)与f0的计算公式
t检验准则(罗马诺夫斯基准则)
• t检验准则与狄克逊准则相似,也是检验最大实验 数据和最小实验数据。首先将实验数据按大小排 列 • x(1),≤x(2),≤ x(3),……≤x(n) • 对最小数据和最大数据分别进行检验,如果 • x( n ) x K (n, ) 或 x(1) x K ( n, ) • • 则x(1)或x(n)是异常数据,应予剔除 分别为不包括x(1)或x(n)的n-1个数据的 • 式中 x 及 均值和标准差。
• 研究者对7例糖尿病患者给某种药物后,测量 其血中胰岛素(/ml,X1)和血糖(mg%,X2)
患者编号 1 2 17 170 3 18 194 4 12 213 5 15 214 6 121 238 7 10 249 胰岛素(X1 ) 24 血 糖(X2 ) 142
• 作者采用直线相关分析
0.3140 P 0.05 ,