医学科研数据挖掘方法--数据预处理详解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
结果一 Variables Missing Report for dataset B1.LABG1 Non-missing Missing A11 419 9 A12 419 9 A21 421 7 A22 421 7 A31 423 5 A32 423 5
结果二 Combination of these variables A A A A A A O 1 1 2 2 3 3 B 1 2 1 2 1 2 S 0 0 1 1 0 0 1 0 0 1 1 1 1 8 1 1 0 0 0 0 1 1 1 0 0 1 1 6 1 1 1 1 0 0 3 1 1 1 1 1 1 409
数据集中连续变量的分布描述
对于一个数据,我们必须首先 知道在这个数据集中有多少条记录? 多少个变量?每个变量的分布如何, 描述其分布图;对连续变量需要计 算百分位数、均数等。
实
AGE(年龄) percentile ----------min 29 5% 38 10% 40 25% 45 50% 52 75% 58.5 90% 65 95% 69 max 77 mean 52.113208 std 9.1193464 n 212 . 2
数据中变量有效记录数的描述
数据集中常有一些变量值缺失,这是流行病 学研究不可避免的问题。一些变量值的缺失必然 会影响数据分析,如在做多元回归分析时,任何 一个自变量或应变量有缺失的记录都将不能进入 分析,放入方程中的变量越多,数据缺失的可能 性越大,参加分析的记录数就越少。在数据分析 前,了解数据集中一些关键变量缺失情况十分必 要。
单个分类变量的描述
实
EDU(文化程度) value --------. 1 2 3 4 Total
例
count -------- percent ---------------4|*1.87% 7|*3.27% 140|**************************65.4% 42|********19.6% 21|****9.81% 214
连续变量均数、标准差与 百分位数描述
连续变量常用的统计量有均数、标准差、中 位数。在计算这些统计量前,检查连续变量的分 布,发现异常值极为重要。个别异常的极大值或 极小值,不仅影响均数与标准差,而且如将它放 在一个线性回归模型中,会大大影响回归系数, 甚至完全改变回归结果。
实
例
Output of Unitabs() for dataset: WD.SMKCOPD , COPD=0 ===> Var. N min 10% 25% 50% 75% 90% max mean std AGE 520 15.7 19.9 25.9 32.5 43.1 54.9 74.6 35.1 12.7 HEIGHT 496 1.4 1.5 1.5 1.6 1.6 1.7 1.8 1.6 0.1 WEIGHT 496 29.5 45.5 49.0 53.0 58.0 62.5 76.0 53.6 7.0 BMI 496 15.3 18.9 19.8 20.9 22.4 23.9 28.9 21.2 2.1 Total N 520 Output of Unitabs() for dataset: WD.SMKCOPD , COPD=1 ===> Var. N min 10% 25% 50% 75% 90% max mean std AGE 307 15.6 23.0 31.6 41.8 53.3 63.6 77.0 42.3 14.6 HEIGHT 294 1.4 1.5 1.5 1.6 1.6 1.7 1.8 1.6 0.1 WEIGHT 294 32.0 43.0 47.5 52.3 58.0 64.5 77.0 53.1 8.4 BMI 294 14.7 17.9 19.4 21.2 22.9 24.8 30.9 21.2 2.7 TotalN 307 Output of Unitabs() for dataset: WD.SMKCOPD ===> Var. N min 10% 25% 50% 75% 90% max mean std AGE 832 15.6 21.4 27.6 34.0 47.9 58.4 77.0 37.9 13.9 HEIGHT 795 1.4 1.5 1.5 1.6 1.6 1.7 1.8 1.6 0.1 WEIGHT 795 29.5 44.0 48.5 53.0 58.0 63.0 77.0 53.4 7.6 BMI 795 14.7 18.6 19.7 21.0 22.6 24.3 30.9 21.2 2.3 Total N 832
源自文库 多个分类变量描述
在数据分析前,对有关的一组分类变量联 合的频数进行统计报告,用以评估这组变量各 种组合的层次有多少,各层有多少人。一方面, 可以对这些变量之间的关系进行描述,另一方 面,在进行多因素分析前,可以了解有效的样 本量。
实
C O U G H 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 P H L E G M 1 2 2 2 2 3 3 3 3 2 2 2 2 3 3 3 3
例
|--------distribution--29 31.4 36.2 41 45.8 50.6 55.4 60.2 65 69.8 74.6 77 |. |. |** |***** |******** |******* |******* |****** |** |** |. |. |----+----+----+----+--
医学科研数据的预处理方法
(Data preprocess)
1. 数据描述(核查) 2. 数据清理 3. 数据集成
为什么需要对数据进行 预处理?
1. 数据描述
单个数据集 多个数据集
一个数据集可看成一个N行M列的矩阵, N表示观测记录数,M表示观测变量数。 数据预处理无外乎从这两个方面进行, 从行的角度检查记录数与观测对象的 编号情况,从列的角度一是检查每个 变量的分布,发现异常值,二是检查 变量缺失情况。