医学统计学基本知识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学基本知识
•总体(population)
指同质的研究对象中所有观察单位研究指标变量值的集合。总体通常限定于特定的时间与空间范围之内,且为有限数量的观察单位,称为有限总体;有时总体是假设的,没有时间和空间限制,观察单位数是无限的,称为无限总体。
•样本(sample)
医学实践与研究中,要直接研究无限总体通常是不可能的,即使是有限总体,由于人力、物力、时间、条件等限制,要对其中每个观察单位进行研究或观察,有时也是不可能的,也不必要。而只是从总体中随机抽取部分观察单位,其变量实测值构成样本,目的用样本指标推断总体特征。这种推断不要经过严谨的实验设计,以样本的可靠性和代表性为基础。样本的可靠性:主要是使样本中每一观察单位确属同质总体。样本的代表性:使样本能充分反映总体的实际情况,要求抽样遵循随机化原则,目的是使每个观察单位被抽得的机会相等,避免主观取舍及偏性;还要保证足够的样本量,即保证足够的观察单位个数。
•参数(parameter)
统计学上描述总体变量的特征称为参数。如总体均数、中位数和众数等
体参数称为样本指标。如以样本均数()推算总体均数(m),以样本标准差(s)推算总体标准差(s)等,值得注意的是,选择统计量作为参数估计值时,通常选择无偏、有效且一致的估计量,即对总体变量渐进无偏估计量。
计量资料(measurement data)
又称定量资料(quantitative data)或数值变量(numerical variable)资料。为测定每个观察单位某项指标的大小而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。
计数资料(enumeration data)
又称定性资料(qualitative data)或无序分类变量(unordered categorical variable)资料。为将观察单位按某属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别,如试验结果的阴阳性,家族史的有无等等。分两种情形:
(1)二分类:如检查某单位工作人员血清的乙型肝炎表面抗原,以每个工作人员为观察单位,结果可报告为乙型肝炎表面抗原阴性或阳性两类。两类间相互对立,互不相容。
(2)多分类:如观察某人群的血型分布,以人为观察单位,结果可分为A型、B型、AB型与O型,为互不相容的四个类别。
等级资料(ranked data)
又称半定量资料(semi-quantitative data)或有序分类变量(ordered categorical variable)资料。为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。如观察某人群某血清反应,以人为观察单位,根据反应强度,结果可分-、±、+、++、+++、++++六级。
误差(error)
泛指实测值与真值之差,按其产生的原因和性质可粗分为随机误差(random error)与非随机误差(nonrandom error)两大类,后者又可分为系统误差(systematic error)与非系统误差(nonsystematic error)两类。
随机误差
是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。例如,在实验过程中,在同一条件下对同一对象反复进行测量,虽极力控制或消除系统误差后,每次测量结果仍会出现一些随机变化即随机测量误差,以及在抽样过程中由于抽样的偶然性而出现的抽样误差。随机误差是不可避免的,在大量重复测量中,它可出现或大或小、或正或负的呈一定规律性的变化。但由于造成随机误差的影响因素太多、太复杂,以至无法掌握
其具体规律。随着科学的发展与社会进步,有些随机误差可能会逐渐被认识而得以控制。随机误差呈正态分布,可用医学统计学的方法进行分析。
系统误差
是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生的原因往往是可知的或可能掌握的。例如,可能来自于受试者抽样不均匀,分配不随机,可能来自于不同实验者个人感觉或操作上的差异,可能来自于不标准的仪器,也可能来自于外环境非实验因素的不平衡等。因而应尽可能设法预见到各种系统误差的具体来源,力求通过周密的研究设计和严格的技术措施加以消除或控制。
非系统误差
在实验过程中由研究者偶然的失误而造成的误差。例如,仪器失灵、超错数字、电错小数点、写错单位等,亦称为过失误差(gross error)。这类误差应当通过认真检查核对予以清除,否则将会影响研究结果的准确性。
基本统计量
平均数(average)
是统计中应用最广泛、最重要的一个指标体系,用来说明一组变量值的集中趋势、中心位置或平均水平。它常作为一组资料的代表值,使资料产生简明概括的印象,又便于进行组间的比较。
平均数的应用是以同质为基础的。但同质也是相对的。因此,同质是要根据研究目的来决定的。不同质的事物,需在合理分组的基础上,分别求平均数,才可分析比较,否则是毫无意义的。
常用的平均数有算术平均数、几何平均数、中位数和百分位数及众数等,前三种较为常见。
均数是算术平均数(arithmetic mean)的简称,总体均数用希腊字母m 表示,样本均数用拉丁字母表示,是一组变量值的数值上的平均,即算术平均数是获得结果之和除以结果个数。
标准差
标本方差
总体方差
标准差表示结果分布的宽度。在质量控制误差限(控制限)通常是建立在实验室自己结果的标准差基础上。
标准差的应用:
(1)表示变量值的离散程度。标准差越大,变量值分布越散,均数的代表性越差,即s越大,代表性越小,反之亦然。但当资料的度量单位不同或均数相差较大时,两组资料的标准差不能直接相比。
(2)结合均数描述正态分布特征。根据正态分布曲线下面积的规律,可以通过±s的倍数形式来概括描述变量值的分布,对这组资料的频数分布做出概括性的估计。
(3)根据正态分布原理,应用于求正常值范围,即±1.96s计算出总体观察值的95%的变量值所在范围的界限,确定出医学参考范围;还可用制定的范围做质量控制。
(4)标准差还可以用来计算变异系数及结合样本含量计算标准误。
极差
极差(range, 简记R):是一组数值中最大值与最小值的差值。单位
与变量值相同。极差越大,变异度越大,各变量值离均值越远,数据
越分散,均数的代表性越差,反之亦然。
极差是最简单的一种离散趋势指标,应用广泛。但以极差反映变异度,较为粗略。因为:(1)除了最大和最小值外,不能反映其它数据的
变异度;(2)当样本含量不同时,样本含量越大,遇到较大或较小
极端值的机会就加大,极差可能越大,故样本含量悬殊时不宜比较其
极差;(3)既使样本含量不变,极差的抽样误差亦较大。
变异系数
变异系数(Coefficient of variation, 简记为CV):是标准差与
平均值之比用百分数表示,计算公式为: