卫生统计学 绪 论

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机误差在随机抽样和观测中是不可避免的,但一般 服从正态分布,可以通过统计学方法进行分析。


非随机误差

最常见的非随机误差即系统误差。
还有一些非随机误差是在研究过程中由于研究者
的偶然失误造成的,例如误读检验结果、记录失
误等,即所谓过失误差。


系统误差
是指实测值系统偏离真实值的、具有趋向性偏大或
蛋白正常与偏低分为两类,可转化为无序分类变量数据;
若按贫血的诊断标准将血红蛋白分为四个等级:重度贫 血、中度贫血、轻度贫血、正常,则将数据转化为等级 变量数据;有时也可将定性变量定量化,如无序分
类变量的性别可转化为0(男)、1(女);有序分类变量 也可定量化转化。
练习:变量类型的判断
病例号 年龄 性别 身高 血型 心电图 尿WBC 职业
没有时间和空间范围限制的,因而观察单位是无限
的或不易确定的,这类总体称为无限总体。
实际研究中,常常是从总体中随机抽取一部分观察 单位组成样本,对样本进行研究,用样本信息推断 总体特征。 样本是从总体中随机抽取的部分观察单位的集合。
样本的观察单位数称为样本含量。
抽样的要求:
1. 随机抽样,要保证总体中各个观察单位都有同等 的概率被抽中进入样本;
Population Sampling 参数统计量
(五)误差
误差泛指实测值和真实值之差。
一般可区分为随机误差和非随机误差两大类。

随机误差

是一类不恒定的、随机变化的误差,往往使实测值无 方向性地围绕着某一数值左右波动。 抽样误差为随机误差,即由于随机抽样造成的实测值 与真实值之差。


随机误差中还包括重复误差。它是由于对同一受试对 象或检样采用同一方法重复测定时所出现的误差。控 制重复误差的手段主要是改进测定方法,提高操作者 的熟练程度。
数据按研究指标或变量的性质分为定量数据和定性
数据两大类。 1. 定量变量和定量数据 用定量方法测定观察单位某项指标(或称变量)数值的 大小,所得的数据称为定量数据;相应的,该变量
称为定量变量。
定量数据一般有度量衡单位, 如调查某地10岁儿童的 生长发育情况,每个人的身高(cm)、体重(kg)、脉
搏(次/分)、血压(kPa)等为定量变量,其组成的数 据为定量数据。 定量变量可以分为连续型变量和离散型变量。 连续性变量可以取实数轴上任何数值(定义域内),如 身高(cm)、体重(kg)、血压(kPa)等为连续性变量。 离散型变量只能取整数值,如脉搏(次/分)、一个月 中手术病人数,育龄妇女的存活子女数、死产数、 人工流产数等变量。

Statistics deals with this variability.

与你们所学专业相关不确定性问题有哪些?

能用统计学方法解决吗?
统计学和卫生统计学的概念
统计学是运用数理统计和概率论的原理和方法,研究 数据资料的搜集、整理和分析与推断的科学,是认识 社会和自然现象客观规律的数量特征的重要工具。是 一门处理数据中变异的科学与艺术。 卫生统计学是把统计学理论、方法应用于医疗卫生实
搜集资料
是根据设计的要求,获得准确可靠的原始资料,是统计 分析结果可靠的重要保证。

统计报表。如法定传染病报表,职业病报表,医院工作 报表等。

经常性工作记录。如经常性的卫生监测记录、健康检查
记录等。 专题调查或实验

整理资料
整理资料目的就是将搜集到的原始资料进行反复核
对和认真检查,纠正错误,分类汇总,使其系统化、条
第一章



当人们研发了一种治疗高血压病的新药,应该怎 样评价该新药的疗效? 最基本的方法:比较 一组服用新药 一组服用对照药 观察疗效


患者
然后分析该新药的有效性和安全性

假设欲了解一个城市(例如成都市)居民高血压病
的患病情况,怎么办?
通常的方法:进行随机抽样 通过一定的抽样方法抽取该城市的一定数量居民,

统计学中的几个基本概念
(一)同质和变异 同质是指观察单位(研究个体)间被研究指标的影响 因素相同。
在实际工作中,影响被研究指标的主要的可控制的
因素达到相同或基本相近就可以认为是同质。 观察单位的研究特征称为变量。 由于生物个体的各种指标所受影响因素极其复杂, 同质的个体间各种指标的观察值参差不齐,存在差
偏小的误差,因此也常称为偏性或偏倚(bias)。

产生的原因往往是可知的或可掌握的,如仪器 未校正,操作不规范等。

通过完善研究设计、规范操作流程、改进技术 手段等方式,可以降低或消除系统误差。
抽样误差
抽样误差是随机误差的一种。
指由于总体中的个体间存在变异,在抽样研究中,样
本统计量与总体参数不可能完全相同,从同一总体中 随机抽取的多个样本含量相同的样本,其样本统计量 也各不相同. 这种由于随机抽样所引起的样本统计量与总体参
2. 定性变量和定性数据 将各观察单位按某变量所包括的属性或类别分组, 清点各组的观察单位数,所得的数据称定性数据; 相应的,该变量称为定性变量。
(1) 无序分类变量
变量取值为类别,各类别之间有性质上的不同,
而无程度上的差别。
①. 二项分类变量 ②. 多项分类变量 O,AB分组。 如人的性别按男、女分组。 如调查某人群的血型按A,B,
异,这种差异称为变异。
统计学的任务就是在同质的基础上,对个体变异进 行分析研究,揭示由变异所掩盖的同质事物内在的
本质和规律。
(二)总体与个体 总体是根据研究目的所确定的同质观察单位的集合. 例:调查了解2018年成都市7区12县7岁儿童生长发育 情况 总体所包括的观察单位是有限的,并有明确的时间 和空间范围,这类总体称为有限总体。
小概率事件的实例

彩票 车祸 . . .
概率与频率

假如我们用200例的样本,求得治愈率为75%。 75% 是一个频率。实际工作中,当概率不易求得时,
只要观察单位数充分多,可以将频率作为概率的估
计值。

但在观察单位数较少时,频率的波动性是很大的, 用于估计概率是不可靠的。
学习医学统计学应注意的问题
教师 工人 职员 农民 工人 工人 干部 干部 军人
μ (参数)
N
抽样规则或要求
(统计量)
X
p s 样本
n
π
σ
研究样本最终目的
总体
来自百度文库
研究目的:调查了解2015年成都市7区12县7岁儿童生长发育情况
纳入标准: 1. 区域: 7区12县 2. 年龄: 7岁(实足年龄;阳历); 性别:男性和女性儿童 3. 要求儿童父母双方在该区域取得居住户籍至少15年 调查生长发育指标:身高、体重、胸围、头围、肺活量、视力和龋齿共7个指标 根据近三年的统计资料,估计符合上述纳入标准的儿童有10万名(组成总体)。 于是如果对10万名儿童全部调查,考虑到:购置设备(或租赁设备)费、调查人员 的培训费、调查人员劳务费、餐饮费、交通费、通讯费、组织费、资料的录入与 分析费用等,平均每名儿童需4-5元,共40-50万调查费。由于人财物和调查 时间的限制,我们最好选择抽样。根据一定的计算,我们只需调查5000名儿童.
1 2 3 4 5 6 7 8 9
35 44 26 25 41 45 50 28 31
女 男 男 女 男 女 女 男 女
1.65 1.74 1.80 1.61 1.71 1.58 1.60 1.76 1.62
A B O AB A B O AB O
正常 正常 正常 正常 异常 正常 异常 正常 正常
- - + + ++ ++ ++ +++ +
践和医学科研及公共卫生领域的一门应用学科。
统计工作的步骤

设计(design) 搜集资料(collection of data) 整理资料(sorting data)


分析资料(analysis of data)
对分析结果的正确表达
统计设计
设计是统计工作的第一步,也是关键的一步,是对
统计工作全过程的设想和计划安排。
横断面研究 观察性研究 病例对照研究 队列研究
统计研究设计
动物实验 实验性研究 临床试验 社区干预试验
一个常见和普遍的误解认为:
“统计”就是分析数据
现代统 计学的奠基人之一、著名统计学家 Fisher 曾
精辟地指出: “做完实验后才找统计学家无异于请他作尸体解剖, 他能 做 的 全 部 事 情 就是 告 诉 你这 实 验 死于 什 么 原 因”。



现代医学之父William Osler爵士曾指出“医学就是关 于不确定性的科学和概率的艺术(Medicine is a science of uncertainty and an art of probability)

Statistics:the science and art of collecting, summarizing, and analyzing data that are subject to random variation.

重点掌握:基本概念、方法的使用条件、注意事项 培养统计思维方法:逻辑思维
作业
作业: P388(医学统计学,第2版,李晓松): 二、最佳选择题的1-5小题。
38


然后对该部分的居民的高血压患病情况进行调查,
然后推断该城市高血压患病情况。
以上例子说明什么? 不确定性,即相同的条件不总是导致相同的结果. 变异(variation):由于个体结构和功能千差万别,机体 反应受到各种自然和社会环境因素的影响和制约,对内 外环境刺激的反应同样千差万别,个体差异是自然界普 遍存在的现象。在统计学中,我们将这种差异称为变异。
(2) 有序分类变量或等级变量 变量取值为几个类别,各类别之间有程度上的差 别,且排列有序,给人以“半定量”的概念。 如病情分为轻、中、重三个等级;化验结果分 为-、±、+、++、+++五个等级。
3. 变量间的转化 资料类型的划分是根据研究目的而确定的,根据需要, 各类变量可以相互转化。 如以人观察单位观察某人群成年男子的血红蛋白(g/L), 得到的数据为定量数据。该数据根据相应的处理可以转 化为无序分类变量数据或有序分类变量数据,若按血红
理化,便于进一步的计算分析。

净化原始数据,使其系统化、条理化,便于进一步计算 和分析。

数据查错及缺失值的处理
分析资料
根据设计的需求,对整理后的数据进行统计分析,
结合专业知识,做出科学合理的解释。

统计描述(descriptive statistics):指用统计指标、统计 表、统计图等方法,对资料的数量特征及其分布规律进 行描述。 统计推断(inferential statistics):指如何由样本信息推断 总体特征。
2. 样本中要有足够的样本含量。
(三)参数与统计量 总体的统计指标称为参数,习惯用希腊字母表示总 体参数,如 表示总体均数, 表示总体标准差, π表示总体率;
样本的统计指标被称为统计量,用拉丁字母表示统
计量,如用 X 表示样本均数,S表示样本标准差,p 表示样本率。
(四)变量的类型和统计数据的类型 变量一般分为定量变量和定性变量两类。医学统计
数之间的差异以及样本统计量之间的差异称为抽
样误差。
(六)概率 又称几率,是描述随机事件发生可能性大小的量 值,常用符号P表示。概率的取值范围在0~1之
间,即0≤P≤1。
统计学常将P≤0.05或P≤0.01的事件称为小概率事
件,表示其发生的可能性很小,可以认为在一次抽
样中几乎不可能发生,这就是所谓小概率事件原理, 它是进行统计推断的重要基础。
相关文档
最新文档