【缩印整理版】医学统计学名词解释及问答题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。
总体(population):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。
样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。
抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。
标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。样本均数的标准差称为均数的标准误。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数
区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。
参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常
置信区间揭示的是按一定置信度估计总体参数所在的范围。t分布法、正态分布法(标准误)、二项分布法。置信区间估计总体参数所在范围
可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可
能性是1- α ,而不是总体参数落在该范围的可能性为1-α 。
参数统计(parametric statistics)
非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。
变异(variation):对于同质的各观察单位,其某变量值之间的差异
同质(homogeneity):研究对象具有的相同的状况或属性等共性。
回归系数有单位,而相关系数无单位
β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。
线性相关系数(linear correlation coefficient):又称Pearson积差相关系数(Pearson product moment coefficient),是定量描述两个变量间线性关系的密切程度与相关方向的统计指标。
参数(parameter):描述总体特征的统计指标。
统计量(statistic):描述样本特征的统计指标。实验设计的基本原则
对照 (control) 对受试对象不施加处理因素的状态。在确定接受处理因素的实验组时,要同时设立对照组
重复 (replication)相同实验条件下进行多次实验或多次观察。整个实验的重复;观察多个受试对象(样本量);同一受试对象重复观察。作用是估计变异大小和降低变异
随机化(randomization) 采用随机的方式,使每个受试对象都有同等的机会被抽取或分配到试验组和对照组。
I类错误(假阳性错误)真实情况为H0是成立的,但检验结果为H0不成立,这样的错误称为I类错误。其发生的概率用α表示。在假设检验中作为检验水准。一般取0.05或0.01。
II类错误(假阴性错误)真实情况为H1是成立的,但检验结果为H1不成立,这样的错误称为II类错误。其发生的概率用β表示。由于其取值取决于H1 ,因此在假设检验中无法确定。
变异指标是用于描述一组观察值围绕中心位置散布的范围,即描述离散趋势的统计指标。数值越大,说明数据越离散,反之越集中。极差 (range);四分位数间距(quartile range);方差(variance);标准差(standard deviation);变异系数(coefficient of variation
平均数指标用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。算术均数(arithmetic mean);几何均数(geometric mean);中位数(median);众数(mode)
单纯抽样将调查总体的全部观察单位编号,从而形成抽样框架,在抽样框架中随机抽取部分观察单位组成样本。每个观察对象都有相同的机会被抽中系统抽样又称机械抽样。按照某种顺序给总体中的个体编号,然后随机地抽取一个号码作为第一个调查个体,其他的调查个体则按照某种确定的规则“系统”地抽取。最常用的方法是等距抽样
分层抽样先将总体中全部个体按某种特征分成若干“层”,再从每一层内随机抽取一定数量的个体组成样本。分层特征与研究目的有关。按各层比例抽样。为减少抽样误差,要求层内误差最小,层间误
差最大。
整群抽样先将总体分成若干“群”,从中随机抽取
几个群,抽取群内的所有观察单位组成调查样本。
“群”的确定与研究目的无关。为减少抽样误差,
需多抽几个“群”。
方差分析:又称变异数分析或 F检验,适用于对多
个平均值进行总体的假设检验,以检验实验所得的
多个平均值是否来自相同总体。
析因设计(factorial design)实验:凡同时配置两个
或两个以上处理因素,这些因素的各水平又具有完
全组合的实验,统称为析因设计(factorial design)
实验。
随机区组设计(randomized block design)是事先
将全部受试对象按某种可能与实验因素有关的特征
分为若干个区组(block),使每一区组内的受试对
象例数与处理因素的分组数相等,使每个实验组从
每一区组得到一例受试对象。
单向方差分析(one way analysis of variance)是指
处理因素只有一个。这个处理因素包含有多个离散
的水平,分析在不同处理水平上应变量的平均值是
否来自相同总体。
(2)计数资料:将观察单位按某种属性或类别分组,
所得的观察单位数称为计数资料
(count data)。计数资料亦称定性资料或分类资料。
其观察值是定性的,表现为互不相容的类别或属性。
如调查某地某时的男、女性人口数;治疗一批患者,
其治疗效果为有效、无效的人数;调查一批少数民
族居民的A、B、AB、O 四种血型的人数等。
(3)等级资料:将观察单位按测量结果的某种属性
的不同程度分组,所得各组的观察单位数,称为等
级资料(ordinal data)。等级资料又称有序变量。如
患者的治疗结果可分为治愈、好转、有效、无效或
死亡,各种结果既是分类结果,又有顺序和等级差
别,但这种差别却不能准确测量;一批肾病患者尿
蛋白含量的测定结果分为+、++、+++等。
随机变量(random variable)是指取指不能事先确
定的观察结果。随机变量的具体内容虽然是各式各
样的,但共同的特点是不能用一个常数来表示,而
且,理论上讲,每个变量的取值服从特定的概率分
布。
变异系数(coefficient of variation)用于观察指标单
位不同或均数相差较大时两组资料变异程度的比
较。用CV 表示。计算:标准差/均数*100%
直线回归(linear regression)建立一个描述应变量
依自变量变化而变化的直线方程,
并要求各点与该直线纵向距离的平方和为最小。直
线回归是回归分析中最基本、最简单的一种,故又
称简单回归(simple regression)。
回归系数(regression coefficient )即直线的斜率
(slope),在直线回归方程中用b 表示,b 的统计意
义为X每增(减)一个单位时,Y平均改变b 个单
位。
相关系数r:用以描述两个随机变量之间线性相关
关系的密切程度与相关方向的统计指标。
秩次:变量值按照从小到大顺序所编的秩序号称为
秩次(rank)。
秩和:各组秩次的合计称为秩和(rank sum),是非
参数检验的基本统计量。
方差(variance):方差表示一组数据的平均离散情
况,由离均差的平方和除以样本个数得到。
检验效能:1- β称为检验效能(power of test),它是
指当两总体确有差别,按规定的检验水准a 所能发
现该差异的能力。
百分位数(percentile)是将n 个观察值从小到大依
次排列,再把它们的位次
依次转化为百分位。百分位数的另一个重要用途是
确定医学参考值范围
随机误差(random error)又称偶然误差,是指排
除了系统误差后尚存的误差。它受多种因素的影响,
使观察值不按方向性和系统性而随机的变化。误差
变量一般服从正态分布。随机误差可以通过统计处
理来估计。
一、统计表有哪些要素构成的?制表的注意事项有
哪些?
一般来说,统计表由标题、标目、线条和数字、备
注五部分组成。但备注并不是必需的内容,可以根
据需要出现。
1简明扼要,重点突出:最好一张表突出一个中心,
不易太多中心,如果需要说明多个中心,可分成多
张统计表。
2合理安排主语和谓语的位置:对于表中任意一行,
从左至右,通过简短的连接词,可连成成一句通顺
的句子。
3表中数据要认真核对,保证准确可靠
二、为什么不宜用t 检验对多组均数进行比较?
如果用t检验进行多个样本均数的两两比较,则会
增加犯I 类错误的概率。
经检验得到拒绝H0 ,认为两组之间有差别的结论
可能犯I类错误的概率为α,不犯I类错误的概率为
1- α.每次判断均不犯I类错误的概率为(1- α)k,
k为比较的次数,上例α=0.05, k=3,则均不犯错误
的概率为( 1- 0.05)3 =0.86. 至少有一次判断犯I
类错误的概率为1-(1- α)k
三、方差分析的基本思想是什么?
按实验设计的类型,将全部观察值间的变异分解成
两个或多个组成部分,然后将各部分的变异与随机
误差进行比较(每个部分的变异可由某因素的作用
来解释),以判断各部分的变异是否具有统计学意
义,从而推断不同样本所代表的总体均数是否相同。
五、简述直线相关与回归的区别与联系
区别:1.回归说明依存关系,直线回归用于说明两
变量间数量依存变化的关系,描述y如何依赖于x
而变化;相关说明相关关系,直线相关用于说明两
变量间的直线相关关系,此时两变量的关系是平等
的
2.r与b有区别:r说明具有直线关系的两个
变量间相关的密切程度与相关方向; b表示x每改
变一个单位,y平均增(减)多少个单位;
3.资料要求不同:直线回归要求应变量
y是来自正态总体的随机变量,而x可以是来自正
态总体的随机变量,也可以是严密控制、精确测量
的变量,相关分析则要求x,y是来自双变量正态分
布总体的随机变量。
4.取值范围:-∞
位;r无单位。
联系:1.对同一样本,若同时计算b和r,其正负
号是一致的。
2.对同一样本,b和r的假设检验是等价的,
二者的t值相等,t b=t r。
3. 回归可解释相关。相关系数的平方r2(又称
决定系数)是回归平方和与总的离均差平方和之比,
故回归平方和是引入相关变量后总平方和减少的部
分。
六、简述实验设计的基本要素
1.处理因素(study factor,treatment)
研究者根据研究目的欲施加或欲观察的能作用于受
试对象并引起直接或间接效应的因素。
处理因素可以是主动施加的某种外部干预或措施,
也可以是客观存在的因素。
非处理因素
与处理因素同时出现、也能使受试对象产生效应的
因素。
当非处理因素夸大或缩小了处理因素与实验效应间
的真实联系时,称为混杂因素
2.受试对象/试验单位(object/experiment unit)
处理因素作用的客体,是根据研究目的而确定的观
察目标总体。可以是人、动物,也可以是生物材料,
试验单位的基本条件
3.处理/试验效应(experimental effect)
处理因素作用于试验单位的反应和结果,通过观察
指标来表达。
选择指标的依据:客观性、特异性和敏感性。
标准差与标准误有何区别和联系?
•区别:
1.含义不同:⑴s描述个体变量值(x)之间的变异度
大小,s越大,变量值(x)越分散;反之变量值越
集中,均数的代表性越强。⑵标准误是描述样本均
数之间的变异度大小,标准误越大,样本均数与
总体均数间差异越大,抽样误差越大;反之,样本
均数越接近总体均数,抽样误差越小。
2.与n的关系不同:n增大时,⑴s σ(恒
定)。⑵标准误减少并趋于0(不存在抽样误差)。
3.用途不同: ⑴s:表示x的变异度大小,计算cv,估
计正常值范围,计算标准误等⑵:参数估计和假设
检验。
•联系:二者均为变异度指标,样本均数的标准差
即为标准误,标准差与标准误成正比。
标准正态分布(u分布)与t分布有何异同?
相同点:集中位置都为0,都是单峰分布,是对称
分布,标准正态分布是t分布的特例(自由度是无
限大时)
不同点:t分布是一簇分布曲线,t 分布的曲线的形
状是随自由度的变化而变化,标准正态分布的曲线
的形状不变,是固定不变的,因为它的形状参数为
1。