医学统计学考试
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学基本概念
1.医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门应用科学。
2.统计工作的步骤:(1)设计(2)收集资料(3)整理资料(4)分析资料;或者分三步:(1)研究设计(2)资料分析(3)结论。
3.定量资料:又称为数值变量资料,特点:(1)各观察值之间有量的差别;(2)数据间有连续性。它是指变量的取值不止是可列个,而是可取某区间[a,b],(-oo,oo)
上的一切值。
4.定性资料:又称为分类资料、分类变量资料(包括二项分类、多项分类资料),特点:(1)各观察值之间有质的差别;(2)数据间有离散性。它是指变量的取值有
限的,至多是可列多个。附:无序分类:二项分类、多项分类
5.等级资料:又称为半定量资料,有序分类,指各类之间有程度的差别。特点:()各观察单位间或者相同,或者存在质的差别;(2)各等级间只有顺序,而无数值
大小,故等级之间不可度量。
6.个体individual:即每个观察单位。
7.总体population:根据研究目的确定的同质观察单位的全体。
8.样本:是从总体中随机抽取部分观察单位,其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。
9.参数parameters:描述某总体特征的统计指标称为总体参数,简称参数。如总体均数、总体标准差等。特点:参数是未知的,固有的,不变的!
10.统计量:描述某样本特征的的统计指标称为样本统计量,简称统计量。特点:统计量是已知的,变化的,有误差的!
11.概率probability:是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间。
12.随机事件:(1)可重复性:相同条件下可重复进行;(2)随机性:出现两种机两种以上结果;(3)偶然性:实验前不能肯定将出现哪种结果。
13.频率的稳定性:在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。
14.概率的统计定义:频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p就称为事件A出现的概
率(probability),记作P(A) 或P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出,频率为一变量,是样本统计量,而概率为常数,是一总体参数。实践中,当试验次数足够多时,可以近似地将频率作为概率的一个估计。
15.小概率原理:当某事件发生的概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能
发生,此即为小概率原理。
16.同质(homogeneity):性质相同的事物称为同质的。
17.变异(variation):同质的事物内个体之间或同一个体重复测量间的差别称为变异。
18.参考值范围(reference interval)又称正常值范围(normal range)。由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、
机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值(normal value)。
19.正常值范围(normal ranges),是指绝大多数正常人的某指标范围。
20.抽样误差(sampling error):由于抽样造成的样本统计量和总体参数之间的差异。
21.标准误(standard error):样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。
22.参数估计:由样本信息估计总体参数称为参数估计,包括点估计和区间估计。
23.点估计(point estimation):直接用样本统计量作为总体参数的估计值。这种估计方法简单,但未考虑抽样误差的大小。
24.区间估计(interval estimation) :按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度为1-α的可信区间(conf idence interval, CI),又
称置信区间。这种估计方法称为区间估计。
25.可信度为1-α的可信区间的确切涵义是:每100个样本所算得的100(1-α)%可信区间,平均有100(1-α)个包含了总体参数。如取α=0.05,则每100个样本所算得
的100个95%可信区间,平均有95个包含总体参数在内,有5个不包含总体参数。
26.可信区间的两个要素:第一个要素是可靠性,常用可信度1-α的大小表示;第二个要素是精确性,常用可信区间的长度CU-CL衡量。
27.均数95%可信区间,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按(见课本P42)构建可信区间,则在此100个可信区间内,
理论上有95个包含总体均数,而有5个不包含总体均数。
28.可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间!
29.第一类错误(I型错误):拒绝了实际上成立的H0假设,称为“假阳性”, 用α来表示。
30.第二类错误(II型错误):不拒绝实际上不成立的H0,称为“假阴性”,用β来表示。
31.检验效能(power of a test)或检验功效:1-β称检验效能(power of a test),过去称把握度。为当两总体确有差异,按检验水准α所能发现该差异的能力。1-β只取单
尾。
32.完全随机设计:根据某一试验因素,将试验对象完全按随机设计分为若干个组,每个组的样本例数可以相等,也可以不等,分别求出各组试验结果的均数,即为
单因素多个样本均数,单个因素可以有多个水平,R>2
33.随机区组设计又称配伍组设计(Random Block Design):即两因素多个样本均数的比较(或称两因素方差分析,two way analysis of vari ance)。
34.绝对数:在计数资料中,各组的观察数称绝对数。
35.相对数:是两个有联系的指标的比,计数资料的统计描述主要是相对数(relative number)。
36.率(rate):说明某现象发生的频率或强度,常用%、‰、1/万、1/10万等作单位,表示在一定范围内,某现象的发生数与可能发生某现象的总数之比。率的结果常
以保留1-2位整数为宜。