医学统计学 名词解释 名解 复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 总体(population):根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。假想的,无时间和空间概念的,称为无限总体(infinite population)。
2. (总体)参数(parameter):总体的统计指标或特征值。总体参数是事物本身固有的、不变的。
3. 样本(sample):从总体中随机抽取的部分个体。
4. 样本含量(sample size):样本中所包含的个体数。
5. 变量(variable):观察对象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。变量的取值称为变量值或观察值(observation)。根据变量的取值特性,分为数值变量和分类变量。
6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。
7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
分类变量(categorical variable):或称定性变量,其取值是定性的,表现为互不相容的类别或或属性,有两种情况:
1)无序分类(unordered categories):包括①二项分类,如上述“性别”变量,表现为互相对立的结果;②多项分类,如上述“血型”变量,表现为互不相容的多类结果。
2)有序分类(ordered categories):各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量。 等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。
9. 抽样误差(sampling error):由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。
10. 误差(error):统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差 。
11. 可信区间(confidence interval, CI ):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称置信区间。
12. 总体均数的可信区间:按一定的概率大小估计总体均数所在的范围(CI)。常用的可信度为95%和99%,故常用95%和99%的可信区间。
13. 变异(variation):同质事物间的差别。由于观察单位通常即为观察个体,故变异亦称为个体变异(individual variation)。
14. 组间变异(variation between group):用各组均数与总均数的离均差平方和表示
∑-=i 2i i )x x (n S 组间S ν
组间=k -1,k 为实验分组数,组间均方为MS 组间=SS 组间/( k -1)
15. 组内变异(variation within group):用各组均数与总均数的离均差平方和表示 ∑
∑∑-=-=i 2i i i j 2i ij )s (n )x (x S 1组内S ,各组自由度为n i -1,则组内自由度为ν组内=N -k ,组内均方为MS 组内=SS 组内/( N -k ) 16. 平均数(average):也叫平均值,是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median)等。
17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M 表示。适用于偏态分布资料或不规则分布资料和开口资料。所谓“开口”资料,是指数据的一端或两端有不确定值。当n 为奇数时,M=X (n+1)/2;当n 为偶数时,M=[X n/2+ X n/2+1]/2。
18. 百分位数(percentile):是一种位置指标,以P x 表示,一个百分位数Px 将全部观察值分为两个部分,理论上有x%的观察值小于Px 小,有(1-x%)的观察值大于Px 。
19. 变异系数(coefficient of variance, CV):亦称离散系数(coefficient of dispersion),为标准差与均数之比,常用百分数表示。100%X s/CV ⨯=, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。
20. 统计表(statistical table):统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。
21. 频率(relative frequency):在n 次随机试验中,事件A 发生了m 次,则比值 试验的总次数
发生的试验次数A ==n m f 称为事件A 在n 次试验中出现的频率(relative frequency)。m 称为出现的频数(frequency)。
在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。
22. 概率(probability):在重复试验中,事件A 的频率,随着试验次数的不断增加将愈来愈接近一个常数p ,这个常数p 就称为事件A 出现的概率(probability),记作P(A)或P 。
描述随机事件发生的可能性大小的数值,常用P 来表示。
23. 统计量(statistic):由样本所算出的统计指标或特征值。
24. 相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数(coefficient of product-moment correlation),总体相关系数用希腊字母ρ表示,而样本相关系数用r 表示,取值范围均为[-1, 1]。 25. 回归系数(regression coefficient):直线回归方程Y ˆ= a+b X 的系数b 称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。
26. 参考值范围(reference range):也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数:可以是90%、95%、99%等等,最常用的是95%。正常人:不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。
27. 正偏态和负偏态分布:频数分布可分为对称分布和非对称分布两种类型。非对称分布又称为偏态分布,是指观察值偏离中央的分布。当尾部偏向数轴正侧(或右侧)时,称正偏态(或右偏态)分布,如人体中一些重金属元素的分布等。反之,尾部偏向数轴负侧(或左侧)时,则称为负偏态(或左偏态)分布。
28. 统计推断(statistic inference):从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。
29. 标准误(standard error, SE):在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差的大小。据此,样本均数的标准差X σ称为标准误。