【缩印整理版】医学统计学名词解释及问答题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。

总体(population):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。

样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。

抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。

标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。样本均数的标准差称为均数的标准误。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数

区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。

参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常

置信区间揭示的是按一定置信度估计总体参数所在的范围。t分布法、正态分布法(标准误)、二项分布法。置信区间估计总体参数所在范围

可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可

能性是1- α ,而不是总体参数落在该范围的可能性为1-α 。

参数统计(parametric statistics)

非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。

变异(variation):对于同质的各观察单位,其某变量值之间的差异

同质(homogeneity):研究对象具有的相同的状况或属性等共性。

回归系数有单位,而相关系数无单位

β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。

线性相关系数(linear correlation coefficient):又称Pearson积差相关系数(Pearson product moment coefficient),是定量描述两个变量间线性关系的密切程度与相关方向的统计指标。

参数(parameter):描述总体特征的统计指标。

统计量(statistic):描述样本特征的统计指标。实验设计的基本原则

对照 (control) 对受试对象不施加处理因素的状态。在确定接受处理因素的实验组时,要同时设立对照组

重复 (replication)相同实验条件下进行多次实验或多次观察。整个实验的重复;观察多个受试对象(样本量);同一受试对象重复观察。作用是估计变异大小和降低变异

随机化(randomization) 采用随机的方式,使每个受试对象都有同等的机会被抽取或分配到试验组和对照组。

I类错误(假阳性错误)真实情况为H0是成立的,但检验结果为H0不成立,这样的错误称为I类错误。其发生的概率用α表示。在假设检验中作为检验水准。一般取0.05或0.01。

II类错误(假阴性错误)真实情况为H1是成立的,但检验结果为H1不成立,这样的错误称为II类错误。其发生的概率用β表示。由于其取值取决于H1 ,因此在假设检验中无法确定。

变异指标是用于描述一组观察值围绕中心位置散布的范围,即描述离散趋势的统计指标。数值越大,说明数据越离散,反之越集中。极差 (range);四分位数间距(quartile range);方差(variance);标准差(standard deviation);变异系数(coefficient of variation

平均数指标用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。算术均数(arithmetic mean);几何均数(geometric mean);中位数(median);众数(mode)

单纯抽样将调查总体的全部观察单位编号,从而形成抽样框架,在抽样框架中随机抽取部分观察单位组成样本。每个观察对象都有相同的机会被抽中系统抽样又称机械抽样。按照某种顺序给总体中的个体编号,然后随机地抽取一个号码作为第一个调查个体,其他的调查个体则按照某种确定的规则“系统”地抽取。最常用的方法是等距抽样

分层抽样先将总体中全部个体按某种特征分成若干“层”,再从每一层内随机抽取一定数量的个体组成样本。分层特征与研究目的有关。按各层比例抽样。为减少抽样误差,要求层内误差最小,层间误

差最大。

整群抽样先将总体分成若干“群”,从中随机抽取

几个群,抽取群内的所有观察单位组成调查样本。

“群”的确定与研究目的无关。为减少抽样误差,

需多抽几个“群”。

方差分析:又称变异数分析或 F检验,适用于对多

个平均值进行总体的假设检验,以检验实验所得的

多个平均值是否来自相同总体。

析因设计(factorial design)实验:凡同时配置两个

或两个以上处理因素,这些因素的各水平又具有完

全组合的实验,统称为析因设计(factorial design)

实验。

随机区组设计(randomized block design)是事先

将全部受试对象按某种可能与实验因素有关的特征

分为若干个区组(block),使每一区组内的受试对

象例数与处理因素的分组数相等,使每个实验组从

每一区组得到一例受试对象。

单向方差分析(one way analysis of variance)是指

处理因素只有一个。这个处理因素包含有多个离散

的水平,分析在不同处理水平上应变量的平均值是

否来自相同总体。

(2)计数资料:将观察单位按某种属性或类别分组,

所得的观察单位数称为计数资料

(count data)。计数资料亦称定性资料或分类资料。

其观察值是定性的,表现为互不相容的类别或属性。

如调查某地某时的男、女性人口数;治疗一批患者,

其治疗效果为有效、无效的人数;调查一批少数民

族居民的A、B、AB、O 四种血型的人数等。

(3)等级资料:将观察单位按测量结果的某种属性

的不同程度分组,所得各组的观察单位数,称为等

级资料(ordinal data)。等级资料又称有序变量。如

患者的治疗结果可分为治愈、好转、有效、无效或

死亡,各种结果既是分类结果,又有顺序和等级差

别,但这种差别却不能准确测量;一批肾病患者尿

蛋白含量的测定结果分为+、++、+++等。

随机变量(random variable)是指取指不能事先确

定的观察结果。随机变量的具体内容虽然是各式各

样的,但共同的特点是不能用一个常数来表示,而

且,理论上讲,每个变量的取值服从特定的概率分

布。

变异系数(coefficient of variation)用于观察指标单

位不同或均数相差较大时两组资料变异程度的比

较。用CV 表示。计算:标准差/均数*100%

直线回归(linear regression)建立一个描述应变量

依自变量变化而变化的直线方程,

并要求各点与该直线纵向距离的平方和为最小。直

线回归是回归分析中最基本、最简单的一种,故又

称简单回归(simple regression)。

回归系数(regression coefficient )即直线的斜率

(slope),在直线回归方程中用b 表示,b 的统计意

义为X每增(减)一个单位时,Y平均改变b 个单

位。

相关系数r:用以描述两个随机变量之间线性相关

关系的密切程度与相关方向的统计指标。

秩次:变量值按照从小到大顺序所编的秩序号称为

秩次(rank)。

秩和:各组秩次的合计称为秩和(rank sum),是非

参数检验的基本统计量。

方差(variance):方差表示一组数据的平均离散情

况,由离均差的平方和除以样本个数得到。

检验效能:1- β称为检验效能(power of test),它是

指当两总体确有差别,按规定的检验水准a 所能发

现该差异的能力。

百分位数(percentile)是将n 个观察值从小到大依

次排列,再把它们的位次

依次转化为百分位。百分位数的另一个重要用途是

确定医学参考值范围

随机误差(random error)又称偶然误差,是指排

除了系统误差后尚存的误差。它受多种因素的影响,

使观察值不按方向性和系统性而随机的变化。误差

变量一般服从正态分布。随机误差可以通过统计处

理来估计。

一、统计表有哪些要素构成的?制表的注意事项有

哪些?

一般来说,统计表由标题、标目、线条和数字、备

注五部分组成。但备注并不是必需的内容,可以根

据需要出现。

1简明扼要,重点突出:最好一张表突出一个中心,

不易太多中心,如果需要说明多个中心,可分成多

张统计表。

2合理安排主语和谓语的位置:对于表中任意一行,

从左至右,通过简短的连接词,可连成成一句通顺

的句子。

3表中数据要认真核对,保证准确可靠

二、为什么不宜用t 检验对多组均数进行比较?

如果用t检验进行多个样本均数的两两比较,则会

增加犯I 类错误的概率。

经检验得到拒绝H0 ,认为两组之间有差别的结论

可能犯I类错误的概率为α,不犯I类错误的概率为

1- α.每次判断均不犯I类错误的概率为(1- α)k,

k为比较的次数,上例α=0.05, k=3,则均不犯错误

的概率为( 1- 0.05)3 =0.86. 至少有一次判断犯I

类错误的概率为1-(1- α)k

三、方差分析的基本思想是什么?

按实验设计的类型,将全部观察值间的变异分解成

两个或多个组成部分,然后将各部分的变异与随机

误差进行比较(每个部分的变异可由某因素的作用

来解释),以判断各部分的变异是否具有统计学意

义,从而推断不同样本所代表的总体均数是否相同。

五、简述直线相关与回归的区别与联系

区别:1.回归说明依存关系,直线回归用于说明两

变量间数量依存变化的关系,描述y如何依赖于x

而变化;相关说明相关关系,直线相关用于说明两

变量间的直线相关关系,此时两变量的关系是平等

2.r与b有区别:r说明具有直线关系的两个

变量间相关的密切程度与相关方向; b表示x每改

变一个单位,y平均增(减)多少个单位;

3.资料要求不同:直线回归要求应变量

y是来自正态总体的随机变量,而x可以是来自正

态总体的随机变量,也可以是严密控制、精确测量

的变量,相关分析则要求x,y是来自双变量正态分

布总体的随机变量。

4.取值范围:-∞

位;r无单位。

联系:1.对同一样本,若同时计算b和r,其正负

号是一致的。

2.对同一样本,b和r的假设检验是等价的,

二者的t值相等,t b=t r。

3. 回归可解释相关。相关系数的平方r2(又称

决定系数)是回归平方和与总的离均差平方和之比,

故回归平方和是引入相关变量后总平方和减少的部

分。

六、简述实验设计的基本要素

1.处理因素(study factor,treatment)

研究者根据研究目的欲施加或欲观察的能作用于受

试对象并引起直接或间接效应的因素。

处理因素可以是主动施加的某种外部干预或措施,

也可以是客观存在的因素。

非处理因素

与处理因素同时出现、也能使受试对象产生效应的

因素。

当非处理因素夸大或缩小了处理因素与实验效应间

的真实联系时,称为混杂因素

2.受试对象/试验单位(object/experiment unit)

处理因素作用的客体,是根据研究目的而确定的观

察目标总体。可以是人、动物,也可以是生物材料,

试验单位的基本条件

3.处理/试验效应(experimental effect)

处理因素作用于试验单位的反应和结果,通过观察

指标来表达。

选择指标的依据:客观性、特异性和敏感性。

标准差与标准误有何区别和联系?

•区别:

1.含义不同:⑴s描述个体变量值(x)之间的变异度

大小,s越大,变量值(x)越分散;反之变量值越

集中,均数的代表性越强。⑵标准误是描述样本均

数之间的变异度大小,标准误越大,样本均数与

总体均数间差异越大,抽样误差越大;反之,样本

均数越接近总体均数,抽样误差越小。

2.与n的关系不同:n增大时,⑴s σ(恒

定)。⑵标准误减少并趋于0(不存在抽样误差)。

3.用途不同: ⑴s:表示x的变异度大小,计算cv,估

计正常值范围,计算标准误等⑵:参数估计和假设

检验。

•联系:二者均为变异度指标,样本均数的标准差

即为标准误,标准差与标准误成正比。

标准正态分布(u分布)与t分布有何异同?

相同点:集中位置都为0,都是单峰分布,是对称

分布,标准正态分布是t分布的特例(自由度是无

限大时)

不同点:t分布是一簇分布曲线,t 分布的曲线的形

状是随自由度的变化而变化,标准正态分布的曲线

的形状不变,是固定不变的,因为它的形状参数为

1。

相关文档
最新文档