医学统计学的基本内容
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 日常医疗卫生工作记录
例如,门诊病历、住院病历、健康检查记录、卫生监测记 录等。要做到登记完整、准确。
3. 专题调查或实验研究:
一般统计报表和医院病历资料的内容都有局限性,不能完 全满足研究的要求。为了进行深入的分析,通常需要采用专题 调查或实验研究。
基本要求:
完整,准确,及时。
质量控制:保证统一性、可重复性
年龄范围
编码
年龄范围
编码
0~未满20岁
0
20~未满65岁
1
0~未满10岁 0
65岁及以上
2
10~未满20岁 1
20~未满45岁 2
45~未满65岁 3
65岁及以上
4
年龄范围 <65岁 65岁及以上
编码 0 1
2. 有序分类可以用数值 表示其等级关系。
如:无效=0,好转=1, 显效=2,治愈=3:
有序分类资料的编码
住院天数 5 5 6 5 11 2 4 3 7
文化程度 中学 小学 大学 中学 中学 小学 中学 中学 中学
职业 无 无
管理员 无
商业 无 无 无
干部
变量 variables
分娩方式 顺产 助产 顺产
剖宫产 剖宫产
顺产 助产 助产 剖宫产
妊娠结局 足月 足月 足月 足月 足月 早产 早产 足月 足月
1.专业设计:包括研究目的、意义、创新性、研究 对象(纳入标准和排除标准) 、研究内容与方法、观 察指标的设立、研究进度及预期结果等。
2. 统计设计:设计模式,样本含量估计,随机抽 样方法,实验组与对照组的分组原则,偏倚的控 制、统计分析方法,等方面的考虑。
28
研究设计是后三个步骤的依据,因此是统计工作中最关 键的一步。
41
改表举例:
麦芽根糖浆治疗 161 例急慢性肝炎疗效
效
果 总例数
有
效
小 计 近期痊愈 好 转
例% 例 % 例 %
无效 例%
161
108 67.1 70 43.5 38 23.6 53 32.9
42
修改后的统计表如下:
疗效 近期痊愈
麦芽根糖浆治疗 161 例急慢性肝炎疗效
例数
构成比(%)
70
43.5
第八章 医学统计学的基本内容
1
统计学是一门运用概率论和数理统 计的基本原理研究数据收集、整理和 分析的方法学,医学统计学方法是统 计学在医学领域中的应用。
2
主要内容
➢医学统计学的基本概念 ➢统计资料的类型 ➢医学统计工作的基本步骤 ➢统计表与统计图
3
第一节 医学统计学的基本概念
一、同质和变异 二、总体与样本 三、参数与统计量 四、误差 五、概率
数字若是0,则填写0
●备注:表中用“*”标出,再在表的下方用 文字加以说明。
37
顶线 纵标目线
横标目 合计线
底线
标题
纵标目
数字
表8-1 某地城乡小学生蛔虫感染情况结果
组别
检测人数 阳性数 阳性率(%)
城镇小学生
8207
701
8.84
乡村小学生
14585
2167
14.86*
合计
22792 2868
12.58
15
第二节 统计资料的类型
在收集医学研究的资料时,首先要根据 研究目的确定观察单位,然后对观察单位的 某个特征—变量(variable)进行观察或测定。 观察结果或测定值称为变量值。
16
第二节 统计资料的类型
一、数值变量 二、分类变量 三、变量的转化
17
数值变量(numerical variable): 其变量值是用定量方法测得的,
Quantitative data 计量资料
Qualitative data 计数资料
等级资料 Rank data
变量的转化 不同类型的变量其统计处理方法
不同。在实际工作中,根据统计分析 的具体要求和研究目的,各种不同的 变量间可以互相转化。
23
三类资料间关系
例:一组2040岁成年人的血压(舒张压)
好转
38
23.6
无效
53
观察单位(observed unit):亦称个体 (individual),是统计研究中最基本的单 位,可以是一个人,一个样品等。
7
二、总体与样本
总体(population): 是指根据研究目的所确定的同质观
察单位的全体,更确切地说,是同质的 所有观察单位某项观察值的集合。
分为有限总体和无限总体两类。
37.3
561
232
41.4
商业人员 943 157
16.6
566
55
9.7
农民
97 30
30.9 1959 329
16.8
家政人员 725 63
8.7
537
34
6.3
合计
6904 2130 30.9 5974 1293 21.6
40
3. 编制统计表应注意的事项 ⑴重点突出,简单明了。 ⑵主谓分明,层次清楚。
要求:严密、周到。
1. 临床试验设计:design of clinical trial 2. 实验室研究的实验设计:design of experiment 3. 现场调查研究设计: design of survey
研究样本对其所属的总体要具有代表性及各组之间 的可比性。要考虑混杂因素对结果的干扰作用。
包括标题、标目、线条、数字、备注
标题:位于统计表的上方中央,要表达出统 计表的主要内容,必要时应注明时间、地点。
标目:标目用简单的文字来说明表格内的项 目,要有单位。
线条:3~4条横线,禁用竖线、斜线。
36
●数字:表内的数字必须准确无误,用阿拉 伯数字表示。同一指标的小数位数要一致, 上下要对齐,表内不留空格,数字暂缺或 未记录用“…”表示,无数字用“—”表示,
二、资料收集 (data collection):
通过合理可靠的手段或渠道获得研究所需的原始
数据。是统计分析的基础。 主要来自三方面: 1. 统计报表和报告卡:
例如,疫情报表、医院工作报表等是根据国家规定的报告 制度,由医疗卫生机构定期逐级上报的统计报表。传染病和职 业病发病报告卡、肿瘤发病及死亡报告卡、出生及死亡报告单 等。防止漏报。
20
统计资料的几种类型
变量类型
变量值表现
实例
资料类型
数值变量
定量(具体数值)
身高(cm) 计量资料
分 类
无 序
变
量有
序
二分类 多分类
对立的两类属性 不相容的多类属性
疗效(有效、无效) 计数资料
血型(A,B,O,AB)
多分类
有程度差异的多类属 性(又称等级资料)
文化程度(初中、 高中、大学...)
等级资料
统计分析方法要与研究目的及资料类型匹配。有好的 原始资料,才有好的统计分析结果。
第四节 统计表与统计图
一、统计表:是将统计分析结果以表格的形
式列出。
二、统计图:是用点、线、面等几何图形来
反映统计结果。
34
一、统计表
1. 统计表的结构 2. 统计表的种类 3. 编制统计表应注意的事项
35
1. 统计表的结构
31
三、整理资料(data sorting):
是对收集到的原始资料去伪存真、分类汇总的过程。 要求:正确表述事物的客观概貌。
1. 对原始资料进行检查和核对。 2. 根据研究目的要求,合理分组。
①质量分组:即将观察单位按其属性或类别(如性别、职业、 疾病分类、婚姻状况等)归类分组;
②数量分组:即将观察单位按数值大小(如年龄大小、血压高 低等)分组。
对样本数据进 行观察或计算 统计指标, 目的是推论总 体。
三、参数与统计量
参 数 (parameter) : 根 据 总 体 中 全 部 个 体 值计算出来的描述总体特征的指标。参数 一般用希腊字母表示,如总体均数μ、总 体率π等。(一般是未知的,或假设的)
统计量(statistic):根据样本中个体值计算 出来的描述样本特征的指标。统计量用拉 丁字母表示,如样本均数x、样本率p。
•医学上常用统计概率:对某一随机现象进行大量观察后得到的 •百分数,如高血压患病率,乳腺癌术后五年生存率。
14
频率
频率(frequency):是通过样本研究计算出的。 某药治愈率=治愈70人/总治疗100例病人
=0.70 概率是理论参数,频率是概率的估计值。 当观察例数越来越多时,频率越来越接近概率。
两种分组往往结合使用,质量分组基础上数量分组。
3. 整理与汇总:按分组要求设计整理表,进行手工汇总(划记法
或分卡法)或用计算机汇总列表(整理表)。
四、分析资料(data analysis) :
按设计的要求,根据研究目的和资料的类型,对整理 出的基础数据作进一步的计算和统计学处理,并用适 当的统计图表表达出来,最后结合专业做出结论。 1. 描述性统计, 2. 统计学推断和对比分析, 3. 相关分析, 4. 统计模型配合(多因素分析)。
21
观察单位 observations
Units;elements
个体individuals 住院号 年龄 身高 体重 2025655 27 165 71.5 2025653 22 160 74.0 2025830 25 158 68.0 2022543 23 161 69.0 2022466 25 159 62.0 2024535 27 157 68.0 2025834 20 158 66.0 2019464 24 158 70.5 2025783 29 154 57.0
8
样本(sample): 是指从总体中随机抽取部分观察单位某
项指标实测值的集合。 由于直接研究总体通常是不可能的,故
一般采用抽样研究。 抽样(sampling):
从总体中抽取部分个体的过程称为抽样
9
随机抽样 (random sampling)
为了保证样本的可 靠性和代表性,需 要采用随机的抽样 方法(在总体中每 个个体具有相同的 机会被抽到)。
一、研究设计(research design) 二、收集资料 (data collection) 三、整理资料 (data sorting) 四、分析资料 (statistical analysis)
四个步骤是相互联系、不可分割的。
27
统计学在科研活动各个阶段的作用
一、医学研究设计(design)
*:两组比较P<0.05
2. 统计表的种类
统计表
简单表 组合表
39
表8-2 某市不同职业社区居民慢性病患病率
职业
甲社区
乙社区
工人 科技人员
人数 2420
患者数 787
患病率 (%)
32.9
1564 652 4107
人数
1715 636
患者数
410 233
患病率 (%) 23.9
36.6
管理人员 1155 431
<8 低血压
等 8 正常血压
级 资 料
12 15
轻度高血压 中度高血压
17 重度高血压
计量资料 计数资料
以12kPa(90mmHg)为界分
为正常与异常两组,统计每组
例数。
变量的转换: 根据研究的需要,可将变量重新编码.
1. 定量变量测定数据可转换成有序分类变量的数据,或 二分类数据。甚至可变换成无序分类变量的数据。如年 龄变量的测定值可等级化为有序分类数据。 连续变量:(1, 2, 3, … , 87)岁;
临床疗效 编码
无效
0
好转
1
显效
2
治愈
3
3. 多分类变量的重新编码
职业:工人,农民,商业, 学生,职员:
多项分类变量的编码
职业 工人
编码1:计 算机输入用
1
编码2:分析用 X1 X2 X3 X4 1 00 0
农民 2
0 10 0
商业 3
0 01 0
学生 4
0 00 1
职员 5
0 00 0
第三节 医学统计工作的基本步骤
变量值有大小之分,一般有度量衡单 位。所得的资料称为计量资料。
18
分类变量(categorical variable): 又称定性变量。其变量值是用定
性方法得到的,通常将观察单位按某 种属性或类别分组,然后汇总各组个 数所得到的数值。
19
1.无序分类变量
①二项分类变量 ②多项分类变量 无序分类变量构成的资料称为计数资料。 2.有序分类变量 有序分类变量构成的资料称为等级资料。
4
一、同质和变异
同质(homogeneity): 是指观察单位或观察指标受共同因素制
约的部分。 变异(variation):
是指在同质的基础上个体间的差异。
5
例1 调查2003年长沙市7岁男童的身高和体重 同质:2003年、长沙市、7岁男童 变异:身高和体重各不相同
例2 研究某降压药的疗效 同质:高血压患者、用某药治疗 变异:疗效各不相同
12
四、误差
误差(error):泛指观测值与真值之差。 随机误差:
在随机误差中,最重要的是抽样误差 (sampling error)。抽样误差是抽样引起的样本 统计量与总体参数之间的差异。抽样误差有规律可 循,样本越大,抽样误差越小。
系统误差 过失误差
13
五、概率
概率(probability):是描述某一随机事Biblioteka Baidu发 生可能性大小的指标,常用P表示,取值范 围0≤P≤1。 小 概 率 事 件 : 统 计 学 上 把 概 率 P≤0.05 的 事 件称为小概率事件。
例如,门诊病历、住院病历、健康检查记录、卫生监测记 录等。要做到登记完整、准确。
3. 专题调查或实验研究:
一般统计报表和医院病历资料的内容都有局限性,不能完 全满足研究的要求。为了进行深入的分析,通常需要采用专题 调查或实验研究。
基本要求:
完整,准确,及时。
质量控制:保证统一性、可重复性
年龄范围
编码
年龄范围
编码
0~未满20岁
0
20~未满65岁
1
0~未满10岁 0
65岁及以上
2
10~未满20岁 1
20~未满45岁 2
45~未满65岁 3
65岁及以上
4
年龄范围 <65岁 65岁及以上
编码 0 1
2. 有序分类可以用数值 表示其等级关系。
如:无效=0,好转=1, 显效=2,治愈=3:
有序分类资料的编码
住院天数 5 5 6 5 11 2 4 3 7
文化程度 中学 小学 大学 中学 中学 小学 中学 中学 中学
职业 无 无
管理员 无
商业 无 无 无
干部
变量 variables
分娩方式 顺产 助产 顺产
剖宫产 剖宫产
顺产 助产 助产 剖宫产
妊娠结局 足月 足月 足月 足月 足月 早产 早产 足月 足月
1.专业设计:包括研究目的、意义、创新性、研究 对象(纳入标准和排除标准) 、研究内容与方法、观 察指标的设立、研究进度及预期结果等。
2. 统计设计:设计模式,样本含量估计,随机抽 样方法,实验组与对照组的分组原则,偏倚的控 制、统计分析方法,等方面的考虑。
28
研究设计是后三个步骤的依据,因此是统计工作中最关 键的一步。
41
改表举例:
麦芽根糖浆治疗 161 例急慢性肝炎疗效
效
果 总例数
有
效
小 计 近期痊愈 好 转
例% 例 % 例 %
无效 例%
161
108 67.1 70 43.5 38 23.6 53 32.9
42
修改后的统计表如下:
疗效 近期痊愈
麦芽根糖浆治疗 161 例急慢性肝炎疗效
例数
构成比(%)
70
43.5
第八章 医学统计学的基本内容
1
统计学是一门运用概率论和数理统 计的基本原理研究数据收集、整理和 分析的方法学,医学统计学方法是统 计学在医学领域中的应用。
2
主要内容
➢医学统计学的基本概念 ➢统计资料的类型 ➢医学统计工作的基本步骤 ➢统计表与统计图
3
第一节 医学统计学的基本概念
一、同质和变异 二、总体与样本 三、参数与统计量 四、误差 五、概率
数字若是0,则填写0
●备注:表中用“*”标出,再在表的下方用 文字加以说明。
37
顶线 纵标目线
横标目 合计线
底线
标题
纵标目
数字
表8-1 某地城乡小学生蛔虫感染情况结果
组别
检测人数 阳性数 阳性率(%)
城镇小学生
8207
701
8.84
乡村小学生
14585
2167
14.86*
合计
22792 2868
12.58
15
第二节 统计资料的类型
在收集医学研究的资料时,首先要根据 研究目的确定观察单位,然后对观察单位的 某个特征—变量(variable)进行观察或测定。 观察结果或测定值称为变量值。
16
第二节 统计资料的类型
一、数值变量 二、分类变量 三、变量的转化
17
数值变量(numerical variable): 其变量值是用定量方法测得的,
Quantitative data 计量资料
Qualitative data 计数资料
等级资料 Rank data
变量的转化 不同类型的变量其统计处理方法
不同。在实际工作中,根据统计分析 的具体要求和研究目的,各种不同的 变量间可以互相转化。
23
三类资料间关系
例:一组2040岁成年人的血压(舒张压)
好转
38
23.6
无效
53
观察单位(observed unit):亦称个体 (individual),是统计研究中最基本的单 位,可以是一个人,一个样品等。
7
二、总体与样本
总体(population): 是指根据研究目的所确定的同质观
察单位的全体,更确切地说,是同质的 所有观察单位某项观察值的集合。
分为有限总体和无限总体两类。
37.3
561
232
41.4
商业人员 943 157
16.6
566
55
9.7
农民
97 30
30.9 1959 329
16.8
家政人员 725 63
8.7
537
34
6.3
合计
6904 2130 30.9 5974 1293 21.6
40
3. 编制统计表应注意的事项 ⑴重点突出,简单明了。 ⑵主谓分明,层次清楚。
要求:严密、周到。
1. 临床试验设计:design of clinical trial 2. 实验室研究的实验设计:design of experiment 3. 现场调查研究设计: design of survey
研究样本对其所属的总体要具有代表性及各组之间 的可比性。要考虑混杂因素对结果的干扰作用。
包括标题、标目、线条、数字、备注
标题:位于统计表的上方中央,要表达出统 计表的主要内容,必要时应注明时间、地点。
标目:标目用简单的文字来说明表格内的项 目,要有单位。
线条:3~4条横线,禁用竖线、斜线。
36
●数字:表内的数字必须准确无误,用阿拉 伯数字表示。同一指标的小数位数要一致, 上下要对齐,表内不留空格,数字暂缺或 未记录用“…”表示,无数字用“—”表示,
二、资料收集 (data collection):
通过合理可靠的手段或渠道获得研究所需的原始
数据。是统计分析的基础。 主要来自三方面: 1. 统计报表和报告卡:
例如,疫情报表、医院工作报表等是根据国家规定的报告 制度,由医疗卫生机构定期逐级上报的统计报表。传染病和职 业病发病报告卡、肿瘤发病及死亡报告卡、出生及死亡报告单 等。防止漏报。
20
统计资料的几种类型
变量类型
变量值表现
实例
资料类型
数值变量
定量(具体数值)
身高(cm) 计量资料
分 类
无 序
变
量有
序
二分类 多分类
对立的两类属性 不相容的多类属性
疗效(有效、无效) 计数资料
血型(A,B,O,AB)
多分类
有程度差异的多类属 性(又称等级资料)
文化程度(初中、 高中、大学...)
等级资料
统计分析方法要与研究目的及资料类型匹配。有好的 原始资料,才有好的统计分析结果。
第四节 统计表与统计图
一、统计表:是将统计分析结果以表格的形
式列出。
二、统计图:是用点、线、面等几何图形来
反映统计结果。
34
一、统计表
1. 统计表的结构 2. 统计表的种类 3. 编制统计表应注意的事项
35
1. 统计表的结构
31
三、整理资料(data sorting):
是对收集到的原始资料去伪存真、分类汇总的过程。 要求:正确表述事物的客观概貌。
1. 对原始资料进行检查和核对。 2. 根据研究目的要求,合理分组。
①质量分组:即将观察单位按其属性或类别(如性别、职业、 疾病分类、婚姻状况等)归类分组;
②数量分组:即将观察单位按数值大小(如年龄大小、血压高 低等)分组。
对样本数据进 行观察或计算 统计指标, 目的是推论总 体。
三、参数与统计量
参 数 (parameter) : 根 据 总 体 中 全 部 个 体 值计算出来的描述总体特征的指标。参数 一般用希腊字母表示,如总体均数μ、总 体率π等。(一般是未知的,或假设的)
统计量(statistic):根据样本中个体值计算 出来的描述样本特征的指标。统计量用拉 丁字母表示,如样本均数x、样本率p。
•医学上常用统计概率:对某一随机现象进行大量观察后得到的 •百分数,如高血压患病率,乳腺癌术后五年生存率。
14
频率
频率(frequency):是通过样本研究计算出的。 某药治愈率=治愈70人/总治疗100例病人
=0.70 概率是理论参数,频率是概率的估计值。 当观察例数越来越多时,频率越来越接近概率。
两种分组往往结合使用,质量分组基础上数量分组。
3. 整理与汇总:按分组要求设计整理表,进行手工汇总(划记法
或分卡法)或用计算机汇总列表(整理表)。
四、分析资料(data analysis) :
按设计的要求,根据研究目的和资料的类型,对整理 出的基础数据作进一步的计算和统计学处理,并用适 当的统计图表表达出来,最后结合专业做出结论。 1. 描述性统计, 2. 统计学推断和对比分析, 3. 相关分析, 4. 统计模型配合(多因素分析)。
21
观察单位 observations
Units;elements
个体individuals 住院号 年龄 身高 体重 2025655 27 165 71.5 2025653 22 160 74.0 2025830 25 158 68.0 2022543 23 161 69.0 2022466 25 159 62.0 2024535 27 157 68.0 2025834 20 158 66.0 2019464 24 158 70.5 2025783 29 154 57.0
8
样本(sample): 是指从总体中随机抽取部分观察单位某
项指标实测值的集合。 由于直接研究总体通常是不可能的,故
一般采用抽样研究。 抽样(sampling):
从总体中抽取部分个体的过程称为抽样
9
随机抽样 (random sampling)
为了保证样本的可 靠性和代表性,需 要采用随机的抽样 方法(在总体中每 个个体具有相同的 机会被抽到)。
一、研究设计(research design) 二、收集资料 (data collection) 三、整理资料 (data sorting) 四、分析资料 (statistical analysis)
四个步骤是相互联系、不可分割的。
27
统计学在科研活动各个阶段的作用
一、医学研究设计(design)
*:两组比较P<0.05
2. 统计表的种类
统计表
简单表 组合表
39
表8-2 某市不同职业社区居民慢性病患病率
职业
甲社区
乙社区
工人 科技人员
人数 2420
患者数 787
患病率 (%)
32.9
1564 652 4107
人数
1715 636
患者数
410 233
患病率 (%) 23.9
36.6
管理人员 1155 431
<8 低血压
等 8 正常血压
级 资 料
12 15
轻度高血压 中度高血压
17 重度高血压
计量资料 计数资料
以12kPa(90mmHg)为界分
为正常与异常两组,统计每组
例数。
变量的转换: 根据研究的需要,可将变量重新编码.
1. 定量变量测定数据可转换成有序分类变量的数据,或 二分类数据。甚至可变换成无序分类变量的数据。如年 龄变量的测定值可等级化为有序分类数据。 连续变量:(1, 2, 3, … , 87)岁;
临床疗效 编码
无效
0
好转
1
显效
2
治愈
3
3. 多分类变量的重新编码
职业:工人,农民,商业, 学生,职员:
多项分类变量的编码
职业 工人
编码1:计 算机输入用
1
编码2:分析用 X1 X2 X3 X4 1 00 0
农民 2
0 10 0
商业 3
0 01 0
学生 4
0 00 1
职员 5
0 00 0
第三节 医学统计工作的基本步骤
变量值有大小之分,一般有度量衡单 位。所得的资料称为计量资料。
18
分类变量(categorical variable): 又称定性变量。其变量值是用定
性方法得到的,通常将观察单位按某 种属性或类别分组,然后汇总各组个 数所得到的数值。
19
1.无序分类变量
①二项分类变量 ②多项分类变量 无序分类变量构成的资料称为计数资料。 2.有序分类变量 有序分类变量构成的资料称为等级资料。
4
一、同质和变异
同质(homogeneity): 是指观察单位或观察指标受共同因素制
约的部分。 变异(variation):
是指在同质的基础上个体间的差异。
5
例1 调查2003年长沙市7岁男童的身高和体重 同质:2003年、长沙市、7岁男童 变异:身高和体重各不相同
例2 研究某降压药的疗效 同质:高血压患者、用某药治疗 变异:疗效各不相同
12
四、误差
误差(error):泛指观测值与真值之差。 随机误差:
在随机误差中,最重要的是抽样误差 (sampling error)。抽样误差是抽样引起的样本 统计量与总体参数之间的差异。抽样误差有规律可 循,样本越大,抽样误差越小。
系统误差 过失误差
13
五、概率
概率(probability):是描述某一随机事Biblioteka Baidu发 生可能性大小的指标,常用P表示,取值范 围0≤P≤1。 小 概 率 事 件 : 统 计 学 上 把 概 率 P≤0.05 的 事 件称为小概率事件。