卫生统计学 绪 论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机误差在随机抽样和观测中是不可避免的,但一般 服从正态分布,可以通过统计学方法进行分析。
非随机误差
最常见的非随机误差即系统误差。
还有一些非随机误差是在研究过程中由于研究者
的偶然失误造成的,例如误读检验结果、记录失
误等,即所谓过失误差。
系统误差
是指实测值系统偏离真实值的、具有趋向性偏大或
蛋白正常与偏低分为两类,可转化为无序分类变量数据;
若按贫血的诊断标准将血红蛋白分为四个等级:重度贫 血、中度贫血、轻度贫血、正常,则将数据转化为等级 变量数据;有时也可将定性变量定量化,如无序分
类变量的性别可转化为0(男)、1(女);有序分类变量 也可定量化转化。
练习:变量类型的判断
病例号 年龄 性别 身高 血型 心电图 尿WBC 职业
没有时间和空间范围限制的,因而观察单位是无限
的或不易确定的,这类总体称为无限总体。
实际研究中,常常是从总体中随机抽取一部分观察 单位组成样本,对样本进行研究,用样本信息推断 总体特征。 样本是从总体中随机抽取的部分观察单位的集合。
样本的观察单位数称为样本含量。
抽样的要求:
1. 随机抽样,要保证总体中各个观察单位都有同等 的概率被抽中进入样本;
Population Sampling 参数统计量
(五)误差
误差泛指实测值和真实值之差。
一般可区分为随机误差和非随机误差两大类。
随机误差
是一类不恒定的、随机变化的误差,往往使实测值无 方向性地围绕着某一数值左右波动。 抽样误差为随机误差,即由于随机抽样造成的实测值 与真实值之差。
随机误差中还包括重复误差。它是由于对同一受试对 象或检样采用同一方法重复测定时所出现的误差。控 制重复误差的手段主要是改进测定方法,提高操作者 的熟练程度。
数据按研究指标或变量的性质分为定量数据和定性
数据两大类。 1. 定量变量和定量数据 用定量方法测定观察单位某项指标(或称变量)数值的 大小,所得的数据称为定量数据;相应的,该变量
称为定量变量。
定量数据一般有度量衡单位, 如调查某地10岁儿童的 生长发育情况,每个人的身高(cm)、体重(kg)、脉
搏(次/分)、血压(kPa)等为定量变量,其组成的数 据为定量数据。 定量变量可以分为连续型变量和离散型变量。 连续性变量可以取实数轴上任何数值(定义域内),如 身高(cm)、体重(kg)、血压(kPa)等为连续性变量。 离散型变量只能取整数值,如脉搏(次/分)、一个月 中手术病人数,育龄妇女的存活子女数、死产数、 人工流产数等变量。
Statistics deals with this variability.
与你们所学专业相关不确定性问题有哪些?
能用统计学方法解决吗?
统计学和卫生统计学的概念
统计学是运用数理统计和概率论的原理和方法,研究 数据资料的搜集、整理和分析与推断的科学,是认识 社会和自然现象客观规律的数量特征的重要工具。是 一门处理数据中变异的科学与艺术。 卫生统计学是把统计学理论、方法应用于医疗卫生实
搜集资料
是根据设计的要求,获得准确可靠的原始资料,是统计 分析结果可靠的重要保证。
统计报表。如法定传染病报表,职业病报表,医院工作 报表等。
经常性工作记录。如经常性的卫生监测记录、健康检查
记录等。 专题调查或实验
整理资料
整理资料目的就是将搜集到的原始资料进行反复核
对和认真检查,纠正错误,分类汇总,使其系统化、条
第一章
绪
论
当人们研发了一种治疗高血压病的新药,应该怎 样评价该新药的疗效? 最基本的方法:比较 一组服用新药 一组服用对照药 观察疗效
患者
然后分析该新药的有效性和安全性
假设欲了解一个城市(例如成都市)居民高血压病
的患病情况,怎么办?
通常的方法:进行随机抽样 通过一定的抽样方法抽取该城市的一定数量居民,
统计学中的几个基本概念
(一)同质和变异 同质是指观察单位(研究个体)间被研究指标的影响 因素相同。
在实际工作中,影响被研究指标的主要的可控制的
因素达到相同或基本相近就可以认为是同质。 观察单位的研究特征称为变量。 由于生物个体的各种指标所受影响因素极其复杂, 同质的个体间各种指标的观察值参差不齐,存在差
偏小的误差,因此也常称为偏性或偏倚(bias)。
产生的原因往往是可知的或可掌握的,如仪器 未校正,操作不规范等。
通过完善研究设计、规范操作流程、改进技术 手段等方式,可以降低或消除系统误差。
抽样误差
抽样误差是随机误差的一种。
指由于总体中的个体间存在变异,在抽样研究中,样
本统计量与总体参数不可能完全相同,从同一总体中 随机抽取的多个样本含量相同的样本,其样本统计量 也各不相同. 这种由于随机抽样所引起的样本统计量与总体参
2. 定性变量和定性数据 将各观察单位按某变量所包括的属性或类别分组, 清点各组的观察单位数,所得的数据称定性数据; 相应的,该变量称为定性变量。
(1) 无序分类变量
变量取值为类别,各类别之间有性质上的不同,
而无程度上的差别。
①. 二项分类变量 ②. 多项分类变量 O,AB分组。 如人的性别按男、女分组。 如调查某人群的血型按A,B,
异,这种差异称为变异。
统计学的任务就是在同质的基础上,对个体变异进 行分析研究,揭示由变异所掩盖的同质事物内在的
本质和规律。
(二)总体与个体 总体是根据研究目的所确定的同质观察单位的集合. 例:调查了解2018年成都市7区12县7岁儿童生长发育 情况 总体所包括的观察单位是有限的,并有明确的时间 和空间范围,这类总体称为有限总体。
小概率事件的实例
彩票 车祸 . . .
概率与频率
假如我们用200例的样本,求得治愈率为75%。 75% 是一个频率。实际工作中,当概率不易求得时,
只要观察单位数充分多,可以将频率作为概率的估
计值。
但在观察单位数较少时,频率的波动性是很大的, 用于估计概率是不可靠的。
学习医学统计学应注意的问题
教师 工人 职员 农民 工人 工人 干部 干部 军人
μ (参数)
N
抽样规则或要求
(统计量)
X
p s 样本
n
π
σ
研究样本最终目的
总体
来自百度文库
研究目的:调查了解2015年成都市7区12县7岁儿童生长发育情况
纳入标准: 1. 区域: 7区12县 2. 年龄: 7岁(实足年龄;阳历); 性别:男性和女性儿童 3. 要求儿童父母双方在该区域取得居住户籍至少15年 调查生长发育指标:身高、体重、胸围、头围、肺活量、视力和龋齿共7个指标 根据近三年的统计资料,估计符合上述纳入标准的儿童有10万名(组成总体)。 于是如果对10万名儿童全部调查,考虑到:购置设备(或租赁设备)费、调查人员 的培训费、调查人员劳务费、餐饮费、交通费、通讯费、组织费、资料的录入与 分析费用等,平均每名儿童需4-5元,共40-50万调查费。由于人财物和调查 时间的限制,我们最好选择抽样。根据一定的计算,我们只需调查5000名儿童.
1 2 3 4 5 6 7 8 9
35 44 26 25 41 45 50 28 31
女 男 男 女 男 女 女 男 女
1.65 1.74 1.80 1.61 1.71 1.58 1.60 1.76 1.62
A B O AB A B O AB O
正常 正常 正常 正常 异常 正常 异常 正常 正常
- - + + ++ ++ ++ +++ +
践和医学科研及公共卫生领域的一门应用学科。
统计工作的步骤
设计(design) 搜集资料(collection of data) 整理资料(sorting data)
分析资料(analysis of data)
对分析结果的正确表达
统计设计
设计是统计工作的第一步,也是关键的一步,是对
统计工作全过程的设想和计划安排。
横断面研究 观察性研究 病例对照研究 队列研究
统计研究设计
动物实验 实验性研究 临床试验 社区干预试验
一个常见和普遍的误解认为:
“统计”就是分析数据
现代统 计学的奠基人之一、著名统计学家 Fisher 曾
精辟地指出: “做完实验后才找统计学家无异于请他作尸体解剖, 他能 做 的 全 部 事 情 就是 告 诉 你这 实 验 死于 什 么 原 因”。
现代医学之父William Osler爵士曾指出“医学就是关 于不确定性的科学和概率的艺术(Medicine is a science of uncertainty and an art of probability)
Statistics:the science and art of collecting, summarizing, and analyzing data that are subject to random variation.
重点掌握:基本概念、方法的使用条件、注意事项 培养统计思维方法:逻辑思维
作业
作业: P388(医学统计学,第2版,李晓松): 二、最佳选择题的1-5小题。
38
然后对该部分的居民的高血压患病情况进行调查,
然后推断该城市高血压患病情况。
以上例子说明什么? 不确定性,即相同的条件不总是导致相同的结果. 变异(variation):由于个体结构和功能千差万别,机体 反应受到各种自然和社会环境因素的影响和制约,对内 外环境刺激的反应同样千差万别,个体差异是自然界普 遍存在的现象。在统计学中,我们将这种差异称为变异。
(2) 有序分类变量或等级变量 变量取值为几个类别,各类别之间有程度上的差 别,且排列有序,给人以“半定量”的概念。 如病情分为轻、中、重三个等级;化验结果分 为-、±、+、++、+++五个等级。
3. 变量间的转化 资料类型的划分是根据研究目的而确定的,根据需要, 各类变量可以相互转化。 如以人观察单位观察某人群成年男子的血红蛋白(g/L), 得到的数据为定量数据。该数据根据相应的处理可以转 化为无序分类变量数据或有序分类变量数据,若按血红
理化,便于进一步的计算分析。
净化原始数据,使其系统化、条理化,便于进一步计算 和分析。
数据查错及缺失值的处理
分析资料
根据设计的需求,对整理后的数据进行统计分析,
结合专业知识,做出科学合理的解释。
统计描述(descriptive statistics):指用统计指标、统计 表、统计图等方法,对资料的数量特征及其分布规律进 行描述。 统计推断(inferential statistics):指如何由样本信息推断 总体特征。
2. 样本中要有足够的样本含量。
(三)参数与统计量 总体的统计指标称为参数,习惯用希腊字母表示总 体参数,如 表示总体均数, 表示总体标准差, π表示总体率;
样本的统计指标被称为统计量,用拉丁字母表示统
计量,如用 X 表示样本均数,S表示样本标准差,p 表示样本率。
(四)变量的类型和统计数据的类型 变量一般分为定量变量和定性变量两类。医学统计
数之间的差异以及样本统计量之间的差异称为抽
样误差。
(六)概率 又称几率,是描述随机事件发生可能性大小的量 值,常用符号P表示。概率的取值范围在0~1之
间,即0≤P≤1。
统计学常将P≤0.05或P≤0.01的事件称为小概率事
件,表示其发生的可能性很小,可以认为在一次抽
样中几乎不可能发生,这就是所谓小概率事件原理, 它是进行统计推断的重要基础。
非随机误差
最常见的非随机误差即系统误差。
还有一些非随机误差是在研究过程中由于研究者
的偶然失误造成的,例如误读检验结果、记录失
误等,即所谓过失误差。
系统误差
是指实测值系统偏离真实值的、具有趋向性偏大或
蛋白正常与偏低分为两类,可转化为无序分类变量数据;
若按贫血的诊断标准将血红蛋白分为四个等级:重度贫 血、中度贫血、轻度贫血、正常,则将数据转化为等级 变量数据;有时也可将定性变量定量化,如无序分
类变量的性别可转化为0(男)、1(女);有序分类变量 也可定量化转化。
练习:变量类型的判断
病例号 年龄 性别 身高 血型 心电图 尿WBC 职业
没有时间和空间范围限制的,因而观察单位是无限
的或不易确定的,这类总体称为无限总体。
实际研究中,常常是从总体中随机抽取一部分观察 单位组成样本,对样本进行研究,用样本信息推断 总体特征。 样本是从总体中随机抽取的部分观察单位的集合。
样本的观察单位数称为样本含量。
抽样的要求:
1. 随机抽样,要保证总体中各个观察单位都有同等 的概率被抽中进入样本;
Population Sampling 参数统计量
(五)误差
误差泛指实测值和真实值之差。
一般可区分为随机误差和非随机误差两大类。
随机误差
是一类不恒定的、随机变化的误差,往往使实测值无 方向性地围绕着某一数值左右波动。 抽样误差为随机误差,即由于随机抽样造成的实测值 与真实值之差。
随机误差中还包括重复误差。它是由于对同一受试对 象或检样采用同一方法重复测定时所出现的误差。控 制重复误差的手段主要是改进测定方法,提高操作者 的熟练程度。
数据按研究指标或变量的性质分为定量数据和定性
数据两大类。 1. 定量变量和定量数据 用定量方法测定观察单位某项指标(或称变量)数值的 大小,所得的数据称为定量数据;相应的,该变量
称为定量变量。
定量数据一般有度量衡单位, 如调查某地10岁儿童的 生长发育情况,每个人的身高(cm)、体重(kg)、脉
搏(次/分)、血压(kPa)等为定量变量,其组成的数 据为定量数据。 定量变量可以分为连续型变量和离散型变量。 连续性变量可以取实数轴上任何数值(定义域内),如 身高(cm)、体重(kg)、血压(kPa)等为连续性变量。 离散型变量只能取整数值,如脉搏(次/分)、一个月 中手术病人数,育龄妇女的存活子女数、死产数、 人工流产数等变量。
Statistics deals with this variability.
与你们所学专业相关不确定性问题有哪些?
能用统计学方法解决吗?
统计学和卫生统计学的概念
统计学是运用数理统计和概率论的原理和方法,研究 数据资料的搜集、整理和分析与推断的科学,是认识 社会和自然现象客观规律的数量特征的重要工具。是 一门处理数据中变异的科学与艺术。 卫生统计学是把统计学理论、方法应用于医疗卫生实
搜集资料
是根据设计的要求,获得准确可靠的原始资料,是统计 分析结果可靠的重要保证。
统计报表。如法定传染病报表,职业病报表,医院工作 报表等。
经常性工作记录。如经常性的卫生监测记录、健康检查
记录等。 专题调查或实验
整理资料
整理资料目的就是将搜集到的原始资料进行反复核
对和认真检查,纠正错误,分类汇总,使其系统化、条
第一章
绪
论
当人们研发了一种治疗高血压病的新药,应该怎 样评价该新药的疗效? 最基本的方法:比较 一组服用新药 一组服用对照药 观察疗效
患者
然后分析该新药的有效性和安全性
假设欲了解一个城市(例如成都市)居民高血压病
的患病情况,怎么办?
通常的方法:进行随机抽样 通过一定的抽样方法抽取该城市的一定数量居民,
统计学中的几个基本概念
(一)同质和变异 同质是指观察单位(研究个体)间被研究指标的影响 因素相同。
在实际工作中,影响被研究指标的主要的可控制的
因素达到相同或基本相近就可以认为是同质。 观察单位的研究特征称为变量。 由于生物个体的各种指标所受影响因素极其复杂, 同质的个体间各种指标的观察值参差不齐,存在差
偏小的误差,因此也常称为偏性或偏倚(bias)。
产生的原因往往是可知的或可掌握的,如仪器 未校正,操作不规范等。
通过完善研究设计、规范操作流程、改进技术 手段等方式,可以降低或消除系统误差。
抽样误差
抽样误差是随机误差的一种。
指由于总体中的个体间存在变异,在抽样研究中,样
本统计量与总体参数不可能完全相同,从同一总体中 随机抽取的多个样本含量相同的样本,其样本统计量 也各不相同. 这种由于随机抽样所引起的样本统计量与总体参
2. 定性变量和定性数据 将各观察单位按某变量所包括的属性或类别分组, 清点各组的观察单位数,所得的数据称定性数据; 相应的,该变量称为定性变量。
(1) 无序分类变量
变量取值为类别,各类别之间有性质上的不同,
而无程度上的差别。
①. 二项分类变量 ②. 多项分类变量 O,AB分组。 如人的性别按男、女分组。 如调查某人群的血型按A,B,
异,这种差异称为变异。
统计学的任务就是在同质的基础上,对个体变异进 行分析研究,揭示由变异所掩盖的同质事物内在的
本质和规律。
(二)总体与个体 总体是根据研究目的所确定的同质观察单位的集合. 例:调查了解2018年成都市7区12县7岁儿童生长发育 情况 总体所包括的观察单位是有限的,并有明确的时间 和空间范围,这类总体称为有限总体。
小概率事件的实例
彩票 车祸 . . .
概率与频率
假如我们用200例的样本,求得治愈率为75%。 75% 是一个频率。实际工作中,当概率不易求得时,
只要观察单位数充分多,可以将频率作为概率的估
计值。
但在观察单位数较少时,频率的波动性是很大的, 用于估计概率是不可靠的。
学习医学统计学应注意的问题
教师 工人 职员 农民 工人 工人 干部 干部 军人
μ (参数)
N
抽样规则或要求
(统计量)
X
p s 样本
n
π
σ
研究样本最终目的
总体
来自百度文库
研究目的:调查了解2015年成都市7区12县7岁儿童生长发育情况
纳入标准: 1. 区域: 7区12县 2. 年龄: 7岁(实足年龄;阳历); 性别:男性和女性儿童 3. 要求儿童父母双方在该区域取得居住户籍至少15年 调查生长发育指标:身高、体重、胸围、头围、肺活量、视力和龋齿共7个指标 根据近三年的统计资料,估计符合上述纳入标准的儿童有10万名(组成总体)。 于是如果对10万名儿童全部调查,考虑到:购置设备(或租赁设备)费、调查人员 的培训费、调查人员劳务费、餐饮费、交通费、通讯费、组织费、资料的录入与 分析费用等,平均每名儿童需4-5元,共40-50万调查费。由于人财物和调查 时间的限制,我们最好选择抽样。根据一定的计算,我们只需调查5000名儿童.
1 2 3 4 5 6 7 8 9
35 44 26 25 41 45 50 28 31
女 男 男 女 男 女 女 男 女
1.65 1.74 1.80 1.61 1.71 1.58 1.60 1.76 1.62
A B O AB A B O AB O
正常 正常 正常 正常 异常 正常 异常 正常 正常
- - + + ++ ++ ++ +++ +
践和医学科研及公共卫生领域的一门应用学科。
统计工作的步骤
设计(design) 搜集资料(collection of data) 整理资料(sorting data)
分析资料(analysis of data)
对分析结果的正确表达
统计设计
设计是统计工作的第一步,也是关键的一步,是对
统计工作全过程的设想和计划安排。
横断面研究 观察性研究 病例对照研究 队列研究
统计研究设计
动物实验 实验性研究 临床试验 社区干预试验
一个常见和普遍的误解认为:
“统计”就是分析数据
现代统 计学的奠基人之一、著名统计学家 Fisher 曾
精辟地指出: “做完实验后才找统计学家无异于请他作尸体解剖, 他能 做 的 全 部 事 情 就是 告 诉 你这 实 验 死于 什 么 原 因”。
现代医学之父William Osler爵士曾指出“医学就是关 于不确定性的科学和概率的艺术(Medicine is a science of uncertainty and an art of probability)
Statistics:the science and art of collecting, summarizing, and analyzing data that are subject to random variation.
重点掌握:基本概念、方法的使用条件、注意事项 培养统计思维方法:逻辑思维
作业
作业: P388(医学统计学,第2版,李晓松): 二、最佳选择题的1-5小题。
38
然后对该部分的居民的高血压患病情况进行调查,
然后推断该城市高血压患病情况。
以上例子说明什么? 不确定性,即相同的条件不总是导致相同的结果. 变异(variation):由于个体结构和功能千差万别,机体 反应受到各种自然和社会环境因素的影响和制约,对内 外环境刺激的反应同样千差万别,个体差异是自然界普 遍存在的现象。在统计学中,我们将这种差异称为变异。
(2) 有序分类变量或等级变量 变量取值为几个类别,各类别之间有程度上的差 别,且排列有序,给人以“半定量”的概念。 如病情分为轻、中、重三个等级;化验结果分 为-、±、+、++、+++五个等级。
3. 变量间的转化 资料类型的划分是根据研究目的而确定的,根据需要, 各类变量可以相互转化。 如以人观察单位观察某人群成年男子的血红蛋白(g/L), 得到的数据为定量数据。该数据根据相应的处理可以转 化为无序分类变量数据或有序分类变量数据,若按血红
理化,便于进一步的计算分析。
净化原始数据,使其系统化、条理化,便于进一步计算 和分析。
数据查错及缺失值的处理
分析资料
根据设计的需求,对整理后的数据进行统计分析,
结合专业知识,做出科学合理的解释。
统计描述(descriptive statistics):指用统计指标、统计 表、统计图等方法,对资料的数量特征及其分布规律进 行描述。 统计推断(inferential statistics):指如何由样本信息推断 总体特征。
2. 样本中要有足够的样本含量。
(三)参数与统计量 总体的统计指标称为参数,习惯用希腊字母表示总 体参数,如 表示总体均数, 表示总体标准差, π表示总体率;
样本的统计指标被称为统计量,用拉丁字母表示统
计量,如用 X 表示样本均数,S表示样本标准差,p 表示样本率。
(四)变量的类型和统计数据的类型 变量一般分为定量变量和定性变量两类。医学统计
数之间的差异以及样本统计量之间的差异称为抽
样误差。
(六)概率 又称几率,是描述随机事件发生可能性大小的量 值,常用符号P表示。概率的取值范围在0~1之
间,即0≤P≤1。
统计学常将P≤0.05或P≤0.01的事件称为小概率事
件,表示其发生的可能性很小,可以认为在一次抽
样中几乎不可能发生,这就是所谓小概率事件原理, 它是进行统计推断的重要基础。