数据统计学处理方法与选择
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)若数据并无明显的逻辑错误,可将该数据剔除前 后各做一次分析,若结果不矛盾,则不剔除;若结果矛 盾,并需要剔除,必须给以充分合理的解释,例如用何 种方法确定偏离数据,该数据在实验中何种干扰下产生 等。
第二部分 数据统计描述方法的选择
总体
抽样
样本
抽样误差
统计推断
一、计量资料的描述
某市抽查187名宾馆女性服务人员年龄资料如下
二、输入数据的质量控制
2、缺失值的处理
在资料分析中,如一例记录的某个变量有缺失值, 统计分析软件都会自动把该例作删除处理。因此,当资 料可避免地产生了缺失值,而该例记录由于其他的变量 仍有统计分析的价值,或者当删除该例记录后样本例数 太少,不能保证数据分析结果的可靠性时,则可用一些 统计学方法对缺失值进行填补。对缺失值进行估计填补 具体方法,可参阅有关文献。
录人数据时,应遵循便于录入,便于核查,便于转换,便于 分析的原则。便于录入是指尽可能地减少录入工作量,录入时, 用数值变量取代了字符变量,可以大大节约录入的时间和费用。 便于核查是指一定要设有标识变量,以方便数据核查。便于转换 是指录入数据时要考虑不同软件对字节和字符的要求,便于分析 是指每项研究最好录成一个数据文件,录入的格式满足各种统计 分析的需要,这样才能保证分析数据时的高效和全面 。
23 25 40 33 18 22 25 33 30 35 18 24 20 22 22 25 26 24 28 18 40 21 ……………………………………………………………………………. 22 19 22 20 22 33 29 38 40 22 18 19 20 25 24 29 31 32 28 26 25 19
肾衰病人预后分析临床资料
病人 病案 性 年龄 生理 肾毒 黄疸 昏迷 肌酐 胆固 肾功能
编号 号 别
评分 性
醇 预后
1 004757 男 26 14 无 有 无 520 4.1 治愈
2 007950 女 31 13 无 无 无 523 4.5 治愈
3 011093 男 55 17 无 无 无 209 3.3 治愈
2020/4/23
冯启明
二、输入数据的质量控制
1、数据核查
数据录入后,首先须对录入的数据进行核查,以确 保录入数据的准确性和真实性。核查准确性可分两步进 行。第一步逻辑检查,通过运行统计软件中的基本统计 量过程,列出每个变量的最大值与最小值,如果某变量 的最大值或最小值不符合逻辑,则数据有误;第二步将 原始数据与输入数据进行核对,更正错误。
4 017555 男 25
9
有 无 无 1033 4.1 未愈
.
.
.
.
.
.
.
.
.
.
.
274 279183 女 78 15 有 无 无 331 6.1 未愈
2、原始数据的录入
在进行统计分析前,原始数据需录入计算机。录入的文件 类型大致有:数据库文件,如dBASE、FoxBASE、Lotus、 EPIinfo等;Excel文件;统计应用软件的相应文件,如SPSS数 据文件、SAS数据文件、STATA数据文件等。目前,上述文件类 型绝大多数都可以相互转换。
在一些大型数据的录入过程中,为保证数据的质量, 往往采用对同一资料进行双人重复录入的方法,然后应 用程序对两个数据库进行比对,如有录入结果不符,则 进行核查,找出其错误所在。
二、输入数据的质量控制
2、缺失值的处理
在资料收集过程中,特别是大型数据的收集,不可避免的会 有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。通 常认为,缺失值应控制在数据记录总量的10%以内。在计算机的 数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用 来表示“无”,即该事件未发生,具有确切的含义,表明该数据 已收集到;而缺失值表示该数据未填或未收集,两者要注意区分, 以免混淆。在一般的数据库软件中,缺失值通常都用“.”表示。
187名宾馆女性服务人员年龄分布
年龄分组(岁)
频数
<20
21
20~
49
25~
89
30~
19
>=35
9
计量资料统计描述
集中趋势
均数 几何均数 中位数
离散趋势
全距 四分位数 间距 方差 标准差 变异系数
计量资料描述的常用统计指标选择
集中趋势
指标
适用范围
均数 正态分布或对称分布资料
x
几何均数 对数正态分布或成倍数关
300 250 200 150 100
50 0
93
95 39 94
体重
二、输入数据的质量控制
3、离群数据的处理
若有离群数据出现,可分为两种情况处理:
(1)如果确认数据有逻辑错误,又无法纠正,可直接 删除该数据。例如,若某一数据中某病例的身高变量为 “1755”cm,且原始记录亦如;又无法再找到该病例时, 显然这是一个错误的记录,只能删除。
二、输入数据的质量控制
3、离群数据的处理
当个别数据与群体数据严重偏离时,被称为离群数据(outlier)。 判断离群数据的方法可通过观察数据的频数表或直方图进行初步 判断;统计软件一般都有判断离群数据的方法,例如,SPSS软 件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百 分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距) 的1.5倍至3倍时被视为离群点,观察值距箱体底线或顶线的距离 超过3倍的箱体高度时被视为极端值。
数据统计学处理方法与选择
2020/4/23
第一部分 数据输入与整理
一、原始数据的录入
1、原始数据的记录形式
医学研究的原始数据常列成类似下表的二维结构,即行与列结构的数据集形式。 每 一 行 称 为 一 个 记 录 (record) , 或 一 个 观 察 单 位 (case) ; 每 一 列 称 为 一 个 变 量 Variable),用以表示变量、项目或观察指标等。
G
系的Baidu Nhomakorabea据
中位数 偏态数据或“开口数据”
M
离散趋势 指标
四分位数 间距 Q75-Q25
标准差 S
适用范围 偏态数据或“开口数据”
正态分布或对称分布资料
某市抽查187名宾馆女性服务人员年龄资料如下
23 25 40 33 18 22 25 33 30 35 18 24 20 22 22 25 26 24 28 18 40 21 ……………………………………………………………………………. 22 19 22 20 22 33 29 38 40 22 18 19 20 25 24 29 31 32 28 26 25 19
第二部分 数据统计描述方法的选择
总体
抽样
样本
抽样误差
统计推断
一、计量资料的描述
某市抽查187名宾馆女性服务人员年龄资料如下
二、输入数据的质量控制
2、缺失值的处理
在资料分析中,如一例记录的某个变量有缺失值, 统计分析软件都会自动把该例作删除处理。因此,当资 料可避免地产生了缺失值,而该例记录由于其他的变量 仍有统计分析的价值,或者当删除该例记录后样本例数 太少,不能保证数据分析结果的可靠性时,则可用一些 统计学方法对缺失值进行填补。对缺失值进行估计填补 具体方法,可参阅有关文献。
录人数据时,应遵循便于录入,便于核查,便于转换,便于 分析的原则。便于录入是指尽可能地减少录入工作量,录入时, 用数值变量取代了字符变量,可以大大节约录入的时间和费用。 便于核查是指一定要设有标识变量,以方便数据核查。便于转换 是指录入数据时要考虑不同软件对字节和字符的要求,便于分析 是指每项研究最好录成一个数据文件,录入的格式满足各种统计 分析的需要,这样才能保证分析数据时的高效和全面 。
23 25 40 33 18 22 25 33 30 35 18 24 20 22 22 25 26 24 28 18 40 21 ……………………………………………………………………………. 22 19 22 20 22 33 29 38 40 22 18 19 20 25 24 29 31 32 28 26 25 19
肾衰病人预后分析临床资料
病人 病案 性 年龄 生理 肾毒 黄疸 昏迷 肌酐 胆固 肾功能
编号 号 别
评分 性
醇 预后
1 004757 男 26 14 无 有 无 520 4.1 治愈
2 007950 女 31 13 无 无 无 523 4.5 治愈
3 011093 男 55 17 无 无 无 209 3.3 治愈
2020/4/23
冯启明
二、输入数据的质量控制
1、数据核查
数据录入后,首先须对录入的数据进行核查,以确 保录入数据的准确性和真实性。核查准确性可分两步进 行。第一步逻辑检查,通过运行统计软件中的基本统计 量过程,列出每个变量的最大值与最小值,如果某变量 的最大值或最小值不符合逻辑,则数据有误;第二步将 原始数据与输入数据进行核对,更正错误。
4 017555 男 25
9
有 无 无 1033 4.1 未愈
.
.
.
.
.
.
.
.
.
.
.
274 279183 女 78 15 有 无 无 331 6.1 未愈
2、原始数据的录入
在进行统计分析前,原始数据需录入计算机。录入的文件 类型大致有:数据库文件,如dBASE、FoxBASE、Lotus、 EPIinfo等;Excel文件;统计应用软件的相应文件,如SPSS数 据文件、SAS数据文件、STATA数据文件等。目前,上述文件类 型绝大多数都可以相互转换。
在一些大型数据的录入过程中,为保证数据的质量, 往往采用对同一资料进行双人重复录入的方法,然后应 用程序对两个数据库进行比对,如有录入结果不符,则 进行核查,找出其错误所在。
二、输入数据的质量控制
2、缺失值的处理
在资料收集过程中,特别是大型数据的收集,不可避免的会 有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。通 常认为,缺失值应控制在数据记录总量的10%以内。在计算机的 数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用 来表示“无”,即该事件未发生,具有确切的含义,表明该数据 已收集到;而缺失值表示该数据未填或未收集,两者要注意区分, 以免混淆。在一般的数据库软件中,缺失值通常都用“.”表示。
187名宾馆女性服务人员年龄分布
年龄分组(岁)
频数
<20
21
20~
49
25~
89
30~
19
>=35
9
计量资料统计描述
集中趋势
均数 几何均数 中位数
离散趋势
全距 四分位数 间距 方差 标准差 变异系数
计量资料描述的常用统计指标选择
集中趋势
指标
适用范围
均数 正态分布或对称分布资料
x
几何均数 对数正态分布或成倍数关
300 250 200 150 100
50 0
93
95 39 94
体重
二、输入数据的质量控制
3、离群数据的处理
若有离群数据出现,可分为两种情况处理:
(1)如果确认数据有逻辑错误,又无法纠正,可直接 删除该数据。例如,若某一数据中某病例的身高变量为 “1755”cm,且原始记录亦如;又无法再找到该病例时, 显然这是一个错误的记录,只能删除。
二、输入数据的质量控制
3、离群数据的处理
当个别数据与群体数据严重偏离时,被称为离群数据(outlier)。 判断离群数据的方法可通过观察数据的频数表或直方图进行初步 判断;统计软件一般都有判断离群数据的方法,例如,SPSS软 件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百 分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距) 的1.5倍至3倍时被视为离群点,观察值距箱体底线或顶线的距离 超过3倍的箱体高度时被视为极端值。
数据统计学处理方法与选择
2020/4/23
第一部分 数据输入与整理
一、原始数据的录入
1、原始数据的记录形式
医学研究的原始数据常列成类似下表的二维结构,即行与列结构的数据集形式。 每 一 行 称 为 一 个 记 录 (record) , 或 一 个 观 察 单 位 (case) ; 每 一 列 称 为 一 个 变 量 Variable),用以表示变量、项目或观察指标等。
G
系的Baidu Nhomakorabea据
中位数 偏态数据或“开口数据”
M
离散趋势 指标
四分位数 间距 Q75-Q25
标准差 S
适用范围 偏态数据或“开口数据”
正态分布或对称分布资料
某市抽查187名宾馆女性服务人员年龄资料如下
23 25 40 33 18 22 25 33 30 35 18 24 20 22 22 25 26 24 28 18 40 21 ……………………………………………………………………………. 22 19 22 20 22 33 29 38 40 22 18 19 20 25 24 29 31 32 28 26 25 19