医学统计学概述数值变量
医学统计学名词解释名解复习资料
1. 总体(population):根据研究目的所确定的同质观察单位的全体。
只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。
假想的,无时间和空间概念的,称为无限总体(infinite population)。
2. (总体)参数(parameter):总体的统计指标或特征值。
总体参数是事物本身固有的、不变的。
3. 样本(sample):从总体中随机抽取的部分个体。
4. 样本含量(sample size):样本中所包含的个体数。
5. 变量(variable):观察对象个体的特征或测量的结果。
由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。
变量的取值称为变量值或观察值(observation)。
根据变量的取值特性,分为数值变量和分类变量。
6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。
对每个观察单位用定量的方法测定某项指标的数值,组成的资料。
7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
分类变量(categorical variable):或称定性变量,其取值是定性的,表现为互不相容的类别或或属性,有两种情况:1)无序分类(unordered categories):包括①二项分类,如上述“性别”变量,表现为互相对立的结果;②多项分类,如上述“血型”变量,表现为互不相容的多类结果。
2)有序分类(ordered categories):各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量。
等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。
医学统计学——数值变量资料的统计描述
血糖 频数f 组中值X f X (4)
f X2 (5)
(1) (2) (3)
=(2)×(3) =(3)×(4)
3.60~ 3
3.7
3.80~ 3
3.9
4.00~ 8
4.1
4.20~ 23
4.3
4.40~ 24
4.5
4.60~ 25
4.7
4.80~ 20
4.9
5.00~ 12
5.1
5.20~ 10
5.3
0~
5
5
0.42
10~
12
17
1.41
20~
15
32
2.66
30~
76
108
8.98
40~
189
297
24.69
50~
234
531
44.14
60~
386
917
76.23
70~
286
1203
100.00
8
病例数
频数
人数
25
正态分布:中间高、
20
两边低、左右对称
15
10
5
0
0.50 0.70 0.90 1.10 1.30 1.50 1.70 1.90
﹡表示符号: 总体均数 (μ) 样本均数 (x )
﹡应 用: 对称分布资料,尤其是正态或近似正 态分布资料
﹡计算方法:
直接法 x=
1+ 2+……+ n n
=
∑
n
加权法 x=
f 1x1 + f 2x2 + ……+f kxk f 1 +f 2+……+f k
研究生-医学统计学基本概念
研究⽣-医学统计学基本概念医学统计学基本概念⼀.医学统计学运⽤概率论和数理统计等数学的原理和⽅法,研究医学领域中资料的搜集、整理、分析和推断的⼀门学科。
⼆、统计学中的基本概念总体和样本参数与统计量随机同质与变异抽样误差概率⼩概率原理1.变量(variable)(1)变量:收集资料中确定了的观察单位称为个体,在统计⼯作中反映个体的特征称为变量。
(2)随机变量:由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,简称变量.变量的观察值(观察结果)可以是定量的也可以是定性的,可分为:数值变量:可以度量⼤⼩,如⾎压等分类变量:⽆序变量:⾎型、性别有序变量:如测定某⼈群⾎清反应分-、+、++、+++四级2.总体和样本(population and sample)总体(population):是根据研究⽬的确定的研究对象中所有同质观察单位某项指标取值的集合。
?样本(sample):是从总体中随机抽取的具有代表性的部分观察单位某项指标取值的集合。
个体:构成总体的最基本的观察单位。
样本含量:样本中所包含的最基本的个体数,常⽤n表⽰。
统计推断就是要从样本信息去推断总体特征样本要具代表性,须:①随机抽取②例数⾜够多。
3、参数与统计量( parameter and statistic )参数parameter:描述总体的统计指标或特征值,是事物本⾝固有的、不变的,为常数,常⽤希腊字母表⽰。
统计量statistic:描述某样本特征的统计指标或特征值,随试验不同⽽不同,其分布是有规律的、变化的,常⽤拉丁字母表⽰。
4. 同质与变异(homogeneity and variation)同⼀总体或其样本中的观察单位在所取指标⽅⾯必须具有相同的性质,称为同质性(homogeneity),与之相反的是异质性或间杂性(heterogeneity).同质(homogeneity):观察单位具有相的性质;异质(heterogeneity):性质不同。
公卫执业医师考点:数值变量概述
公卫执业医师考点:数值变量概述公卫执业医师考点:数值变量概述数值变量概述:其变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡单位。
如身高(cm)、体重(kg)、血压(mmHgkPa)、脉搏(次/min)和白细胞计数(×109/L)等。
这种由数值变量的测量值构成的资料称为数值变量资料,亦称为定量资料。
大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只能是正整数,如脉搏、白细胞计数等,在医学统计学中把它们也视为连续型变量。
数值变量和计数资料的区别:计量资料是由数值变量组成的、通过测定观察指标数值大小所获得的资料。
一般都有单位。
在临床科研中,收集的数据中往往包含了很多数值变量。
由这些变量组成的计量资料必须根据资料设计的特点,采取相应的'统计分析方法。
计量资料统计分析主要分为统计描述和统计推断。
统计描述主要描述资料的分布规律及其数量特征,如对资料进行集中趋势和离散趋势的描述,可以计算均数和标准差等。
统计推断主要是估计均数的可信限以及作假设检验,如均数95%可信区间的估计以及进行t检验、方差分析等。
计数资料是由分类变量组成的,是研究不同类别或属性中频数的多少或频率大小所获得的资料。
在临床科研中,收集的数据中往往包含了一些分类变量。
由这些变量组成的计数资料必须根据资料设计的特点,进行相应的统计学分析。
计数资料的统计分析主要分为统计描述和统计推断。
统计描述主要指可以计算相对数的指标,如率、构成比和相对比。
统计推断主要是估计相对数指标的可信限以及做假设检验,如率的95%可信区间的估计以及进行卡方检验等。
医学统计学的基本内容
医学统计学的基本内容
1
统计学是一门运用概率论和数理 统计的基本原理研究数据收集、整理 和分析的方法学,医学统计学方法是
统计学在医学领域中的应用。
2
主要内容
医学统计学的基本概念 统计资料的类型 医学统计工作的基本步骤 统计表与统计图
3
第一节
医学统计学的基本概念
一、同质和变异 二、总体与样本
Quantitative data 计量资料
Qualitative data 计数资料
等级资料 Rank data
变量的转化 不同类型的变量其统计处理方法 不同。在实际工作中,根据统计分析
的具体要求和研究目的,各种不同的
变量间可以互相转化。
23
三类资料间关系
例:一组2040岁成年人的血压(舒张压)
12
四、误差
误差(error):泛指观测值与真值之差。 随机误差:
在随机误差中,最重要的是抽样误差 ( sampling error )。抽样误差是抽样引起的样本 统计量与总体参数之间的差异。抽样误差有规律可 循,样本越大,抽样误差越小。
系统误差
过失误差
13
五、概率
概率 (probability):是描述某一随机事件发 生可能性大小的指标,常用P表示,取值范 围0≤P≤1。 小概率事件:统计学上把概率 P≤0.05 的事 件称为小概率事件。
所有观察单位某项观察值的集合。
分为有限总体和无限总体两类。
8
样本(sample): 是指从总体中随机抽取部分观察单位某 项指标实测值的集合。 由于直接研究总体通常是不可能的,故 一般采用抽样研究。 抽样(sampling): 从总体中抽取部分个体的过程称为抽样
卫生统计学数值变量资料的统计描述
加权法(weight method)
组段 (1) 99~ 102~ 105~ 108~ 111~ 114~ 117~ 120~ 123~ 126~ 129~ 合计
X=fXfX f n
表 3-3 某市 120 名 6 岁女孩身高(cm)均数的计算(加权法)
频数 f (2)
组中值 X (3)
fx (4)=(2)×(3)
求全距(range,R) ,R=129.5— 101.2=28.30(cm)
划分组段 确定组数 确定组距 确定各组段的上下限
列出频数表
组段 (1) 99~ 102~ 105~ 108~ 111~ 114~ 117~ 120~ 123~ 126~ 129~132 合计
表 3-2 频数 f (2)
100.00 -
30
身身
高
频
高 20
数
频
数
10
0
99 102 105 108 111114
117 120 123 126 129
身高(cm)
图3-2 某市120名6岁女孩的身高分布
频数分布两个重要特征
30
身
高
集中趋势
频
20
数
离散趋势 频数分布类型
10
0 99 102 105 108 111114 117 120 123 126 129 身高(cm)
乳牙数 (1)
频数 f (2)
频率(%) (3)
累计频数 (4)
0
2
1.67
2
1
4
3.33
6
2
7
5.83
13
3
9
7.50
22
4
14
医学统计学名词解释
医学统计学1、Medical Statistics(医学统计学):是以医学理论为指导,借助统计学的原理和方法研究医学现象中的数据搜集、整理、分析和推断的一门综合性学科。
2、Variable(变量):是指观察个体的某个指标或特征,统计上习惯用大写拉丁字母表示。
3、Numerical/Quantitative/Measurement date/variable数值变量/定量变量/计量资料/定量资料:是以定量的方式来表示观察单位某项观察指标的大小,所得的资料称之为~,有度量单位。
4、Unordered categorical/Qualitative/Enumeration date/variable无序分类变量/定性变量/计数资料/定性资料:是以定性的方式来表示观察单位某项观察指标,所得的资料称之为~,无固有度量单位。
5、Ordinal categorical/Semi-quantitative/Ranked date/variable有序分类变量/半定量资料/等级资料:是以等级的方式来表示观察单位某项观察指标,所得的资料称之为~,为半定量的观察结果,有大小顺序。
6、Homogeneity(同质):是指事物的性质、影响条件或背景相同或相近。
7、Variation(变异):是指同质的个体之间的差异。
8、Population(总体):是根据研究目的所确定的同质观察单位的全体或集合,分为有限总体和无限总体。
9、Sample(样本):是从总体中随机抽取的一部分观察单位所组成的集合。
10、Random variable(随机变量):是指取值不能事先确定的观察结果。
11、Parameter(参数):是总体特征的统计指标,采用小写的希腊字母,为固定的常数。
12、Statistic(统计量):是样本特征的统计指标,采用拉丁字母表示,由样本信息推算而得,是参数附近波动的随机变量。
13、Random Sampling(随机抽样):为了保证样本的可靠性和代表性,需要采用随机的抽样方法,使总体中每个个体均有相同的机会被抽到。
医学统计学概述数值变量
医学统计学概述数值变量医学统计学是医学领域中的重要学科,它为医学研究提供了有力的工具和方法。
在医学统计学中,数值变量是一种常见的数据类型,用于描述和分析各种医学现象和指标。
本文将概述医学统计学中的数值变量概念、分类、测量和分析方法等内容。
一、数值变量的概念数值变量是指在统计分析中,用数值表示且具有可比性的变量。
它可以分为连续变量和离散变量两种类型。
连续变量是指取值可以是任意实数的变量,通常用于描述血压、体重、身高等连续性的生理指标。
这些指标可以在一定范围内连续变动,其取值可以是小数或整数。
离散变量是指取值只能是整数的变量,通常用于描述计数或计算次数的指标,比如病例数、手术次数等。
离散变量的取值通常是有限的,而且不可分割。
二、数值变量的测量为了能够准确地描述和分析数值变量,需要采用相应的测量方法。
数值变量的测量方法包括直接测量和间接测量。
直接测量是指通过测量工具直接获得变量的数值,比如使用体重秤来测量体重、使用血压计来测量血压等。
直接测量可以精确地得到数值变量的具体数值。
间接测量是指通过其他指标或计算方法得到数值变量的数值,比如通过身高和体重计算体质指数(BMI)。
间接测量可以在一定程度上估计数值变量的数值,但精确度不如直接测量高。
三、数值变量的描述统计分析在医学统计学中,常用的数值变量的描述统计方法包括均值、中位数、标准差和百分位数等。
均值是指将所有观察值相加后除以观察次数,用来表示数值变量的平均水平。
均值可以反映一组数据的集中趋势,但容易受到极端值的影响。
中位数是指将一组数据按大小顺序排列后的中间值,用来表示数值变量的中间位置。
中位数不容易受到极端值的影响,更适合用于描绘有偏分布的数据。
标准差是指一组数据与其均值的偏离程度,用来表示数值变量的离散程度。
标准差越大,数据的离散程度越大。
百分位数是指将一组数据按大小顺序排列后,某一特定百分比所对应的数值。
常用的百分位数有25%分位数(第一四分位数)、50%分位数(中位数)和75%分位数(第三四分位数)等。
医学统计学:数值变量统计描述
table)
频数表的编制:
• (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency
table)
频数表的编制:
数值变量资料的统计描述( Descriptive Statistics)
8
…
0.64
…
159
160
1.71
1.77
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency
table)
频数表的编制: (1)求极差(range):即最大值与最小值之差,又称为全距。 本例极差: R=1.77-0.51=1.26(mmol/L) (2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组 距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分 之一, 再略加调整。 本例i= R /10=1.26/10=0.126≈0.1。 (3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限 必须包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的 频数。
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency
table)
频 数 (2) 4 7 11 13 26 23 12 96
离散型资料(discrete data)
表2-1 1998年某地96名孕妇产前检查次数分布
检查次数 (1) 0 1 2 3 4 5 >5 合计 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100.0
医学统计学数值变量统计描述教学
医学统计学数值变量统计描述教学医学统计学是医学领域的重要学科之一,它关注的是通过收集、整理和分析数据来提取有关医学问题的信息。
数值变量统计描述是医学统计学中的一个重要概念,它通过使用统计学方法来总结和描述数值变量的各种特征,包括中心趋势、离散程度和分布形态等。
一、数值变量的中心趋势统计描述中心趋势是指一组数据向中间值倾斜的程度,常用的中心趋势统计描述指标包括均值、中位数和众数。
1. 均值(mean)是一组数据的平均值,它是通过将所有数据进行求和并除以数据个数来计算得到的。
均值是数值变量的重要测量指标,它可以反映一组数据的整体水平。
然而,均值受极端值的影响较大,所以在进行均值统计描述时,应注意排除异常值的影响。
2. 中位数(median)是一组数据按大小排序后,处于中间位置的值。
中位数对极端值的影响相对较小,能够比较准确地反映数据的集中位置。
3. 众数(mode)是一组数据中出现次数最多的值。
众数一般用于描述具有明显峰值的数据分布,如血型、治疗效果的评价等。
二、数值变量的离散程度统计描述离散程度是指一组数据呈“分散”态势的程度,常用的离散程度统计描述指标包括标准差、方差和四分位距等。
1. 标准差(standard deviation)是一组数据离均值的平均距离的度量,它能够反映数据的离散程度。
标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小。
2. 方差(variance)是标准差的平方,它在统计学中用于度量数据的离散程度。
通常情况下,方差越大,数据的离散程度越大;方差越小,数据的离散程度越小。
3. 四分位距(interquartile range)是一组数据中位于第25%和第75%位置之间的区间长度。
四分位距能够反映数据的分散程度,同时也对异常值的影响较小。
三、数值变量的分布形态统计描述分布形态是指一组数据的分布特点,常用的分布形态统计描述指标包括偏态系数和峰态系数等。
1. 偏态系数(skewness)是一组数据分布偏离正态分布的程度的度量。
医学统计学的基本内容
第一章医学统计学的基本内容第一节医学统计学的含义1、医学统计学定义医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。
2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。
3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。
第二节、统计学的几个重要概念一.资料的类型1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。
一般有度量衡单位,每个对象之间有量的区别。
2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。
每个对象之间没有量的差异,只有质的不同。
3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。
注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。
二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。
2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本从总体中随机抽取部分观察对象,其某项变量值的集合。
从总体中随机抽取样本的目的是: 用样本信息来推断总体特征。
四、随机事件可以发生也可以不发生,可以这样发生也可以那样发生的事件。
亦称偶然事件。
五、概率描述随机事件发生可能性大小的数值,记作P,其取值范围0≤P≤1,一般用小数表示。
P=0,事件不可能发生必然事件(随机事件的特例);P=1,事件必然发生;P→0,事件发生的可能性愈小;P→1,事件发生的可能性愈大六、小概率事件习惯上将P≤0.05或P≤0.01 的随机事件称小概率事件。
表示某事件发生的可能性很小。
七、参数和统计量参数:总体指标,如总体均数、总体率,一般用希腊字母表示统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示八、学习医学统计学的方法1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。
医学统计学知识点汇总
数值是连续性的,称之为连续型变量。
变量
无序分类变量:所分类别或属性之间无顺序和程度上的差
异
分类变量 :定性变量
有序分类变量:有顺序和程度上的差异 4、总体:根据研究目的确定的同质研究对象中所有观察单位某变量值的集合。可以分为有限 总体和无限总体。 5、样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。样本代表 性的前提:同质总体,足够的观察单位数,随机抽样。
s12 (n1 1) s22 (n2 1) ( 1 1 )
n1 n2 2
n1 n2
v=n1+n2-2
7、单样本 u 检验:用于样本均数与已知总体均数比较,其研究目的同 t 检验。研究目的是推
断样本所代表的总体均数 μ 与已知总体均数 μ0 有无差别。其统计量 u= x μ0 s/ n
(2)σ 未知,但 n 足够大,t 分布逼近 u 分布: x -uα/2sx<μ< x +uα/2sx (3)σ 已知: x -uα/2σx<μ< x +uα/2σx
标准差
(x x)2
S= n 1
表示观察值的变异程度大小 计算变异系数 CV= s 100%
x
标准差和标准误的比较 标准误
s s= xn 估计均数的抽样误差大小
估计总体均数可信区间
sx 确定医学参考值的范围
计算标准误
x -tα/2,v
sx<μ< x +tα/2,v
进行假设检验
数值变量资料的假设检验 1、假设检验的原理:假设在一次抽样研究中得出了 u≥1.96,则 P≤0.05,此为小概率事件, 依据“小概率事件在一次随机试验中认为是不可能发生的”的定理,可认为此样本不是来自 该总体。 2、步骤:①建立假设和确定检验水准;假设有两种,一种是检验假设,常称无效假设或零假 设,记为 H0,假设样本所代表的总体参数与已知总体参数相等;另一种是备择假设,记为 H1,是与 H0 相联系且对立的假设;检验水准,亦称显著性水准,是判断拒绝或不拒绝 H0,也 是允许犯Ⅰ型错误的概率,通常用 0.05。 ②选定检验方法和计算统计量③确定 P 值,做出推断结论。P 值是指从 H0 所规定的总体中随 机抽样时,获得等于及大于现有样本统计量的概率。 3、t 检验:适用于:①样本均数与总体均数比较(σ 未知且 n<50 或 n<30);②成组设计 的两小样本均数的比较(n1,n2 均小于 30 或 50);③配对设计的两样本均数比较。 应用条件:①当样本含量较小(n<50 或 n<30)时,要求样本来自正态分布总体;②用于成 组设计的两样本均数比较时,要求两样本来自总体方差相等的总体。 4、单样本 t 检验:用于样本均数与已知总体均数的比较,研究目的是推断样本所代表的总体
医学统计学2-1数值变量的统计描述
1
1
0.99
0.99
3
4
2.97
3.96
6
10
5.94
9.90
8
18
7.92
17.82
17
35
16.83
34.65
20
55
19.80
54.45
17
72
16.83
71.28
12
84
11.88
83.16
9
93
8.91
92.07
5
98
4.95
97.02
2
100
1.98
99.01
1
101
0.99
100.00
(二)描述频数分布的特征
表1 组段 (1)
2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
97.02
2
100
1.98
99.01
1
101
0.99
100.00
101
—
100.00
—
频数分布表的编制步骤
➢ 求极差 ➢ 确定组数 ➢ 确定组距 ➢ 确定各组段的上、下限 ➢ 列表划记,统计频数
计量资料的频
Std. Dev = .66
Mean = 4.03
0
N = 101.00
101
—
100.00
—
(五)列表划记
统计出各组段内的数据个数(频数)
表1 组段 (1)
2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
医学统计学名词解释
1.医学统计学:是以医学理论为指导,借助统计学的原理和方法研究医学现象中的数据搜集、整理、分析和推断的一门综合性学科。
2.变量:是指观察个体的某个指标或特征,统计上习惯用大写拉丁字母表示3.同质:是指事物的性质、影响条件或背景相同或相近。
4.变异:是指同质的个体之间的差异5.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
6.样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
7.参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。
总体参数是固定的常数。
多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。
8.统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。
样本统计量可用来估计总体参数。
总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
9.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
10.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
11.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料。
计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位。
12.计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
fX
f1 f2 ...... fm
f
式中f为各组的频数,x为各组的组中值。
二、几何均数 (geometric mean,G)
几何均数用G表示。适用于对数正态分布资料或 等比资料,例如抗体的平均滴度和平均效价。
计算方法: – 直接法:样本含量n较小时,选用此法。有n个观察
值X1, X2,……Xn,几何均数的计算公式为:
P≤0.05 小概率事件 发生的可能性很小
六、统计量与参数,statistic & parameter
–统计量:依据样本观察值所定出的量。如:样本均数、 样本标准差 、 样本率。
–参数:总体的统计指标数值。如:总体均数、总体标 准差、 总体率。
统计描述
数值变量的统计描述
频数与频数分布表 (frequency distribution)
计算方法
– 直接法:样本含量n较小时,可根据下式计算:
M X n1 2
M
X
n 2
X
n 2
1
2
n为奇数时
n为偶数时
某病患者5人潜伏期分别为2,4,6,7, 20,求中位数。本例n=5,为奇数
M X n1 X3 6 天 2
若上例在第25天又发现一例患者,患者数
增加为6名
M
X
(X )2
为了消除观察值的总个数 N的影响,将离均差平方 和除以N,这就是总体方 差,用σ2表示。
方差(variance)
2 (X )2
N
标准差
方差的单位是原度量单位(standard deviation)
(如kg)的平方,把总体方
差开平方,这就是总体标 准差,度量单位与原始观 察值一致,即
频数分布表,又称频数表,是对样本量较大 的资料进行统计描述的常用方法。
通过频数表可以显示数据分布的范围与形态。
一、连续型定量变量的频数分布
例:某地用随机抽样方法检查140名成年男子的红细胞数
5.95
3.82
频数表(frequency table)的编制:
–求极差(range):R=Max-Min
(X )2 N
实际工作中经常得到的是样本资料,总体均数是未
知的,只能用样本均数X代替。这样用 (X X)2 代
替 (X )2,用样本含量n代替N,所得的结果比σ
偏小。英国统计学家W.S.Gosset提出用n-1代替n, 求得样本标准差更接近总体标准差σ,样本标准差
用S表示,公式为:
S (X X )2 n 1
二、四分位数间距 (quartile range,Q)
四分位数间距是两个特定的百分位数之差, 用Q表示
Q=QU-QL=P75-P25 适用于任何分布的计量资料,尤其适用于
偏态分布的资料(不宜用标准差表示离散 度)
四分位数间距比全距稳定,但仍然未考虑 到每个观察值的变异。
三、方差与标准差
为克服全距的缺点,应全面考虑组内每 个观察值的离散情况。可考虑以总体中 每个变量值X与总体平均数之差,称为离 均差X-。由于离均差有正有负,其和为 0,这样仍不能反映变异度的大小。故将 离均差平方后再相加,称离均差平方和
上式n-1称为自由度(ν)。 样本标准差计算也可用直接法或加权法。n较小时,选择 直接法,n较大,选择加权法
直接法:由于
(X
X
)2
X
2
X
n
2
标准差的计算公式可改写为:
S
X
2
X
n
2
n 1
甲组:98,99,100,101,102
乙组:80,90,100,110,120
计算两组数据的标准差
甲组:n=5,
计算方法
–直接法:当样本含量n较小时,可选用此法。 设有n个观察值,分别为X1,X2 ……,Xn, 均数的计算公式为:
X X1 X 2 ...... X n X i
n
n
–加权法:当样本含量n较大时,一般将观察 值分组,列出频数表,再用加权法计算均数。 其计算公式为:
X f1X1 f2X2 ...... fmXm
身高
CV 4.95 100% 2.98%
166.06
体重
CV 4.96 100% 9.23%
53.72
正态分布的密度函数
f (x)
1
e
(
x) 2 2
2
2
3.14159
e 2.71828
式中μ为总体均数,σ为总体标准差,π为圆周率, e为自然对数的底,x为变量,当μ、σ已知,以x
二、变量的类型
数值变量( numerical variable ,计量资料)
其变量值是定量的,表现为数值的大小,一般 有度量衡单位。如身高、体重、浓度。
分类变量 (categorical variable,计数资料)
其变量值是定性的,表现为互不相容的类别或属性
无序分类变量(计数资料) • 二项分类:阳性和阴性,治愈和未愈等 • 多项分类: A、B、O、AB血型
集中趋势指标
•集中趋势指标用于描述一组同质计量资料 的集中趋势或反映一组观察值的平均水平 。常用的平均数有算术均数、几何均数及 中位数三种。
一、算术均数(mean)
算术均数简称平均数或均数。 X表示变量X的样本均数,(希腊字母)表
示总体均数。 均数适用于对称分布资料,正态或近似
正态分布资料。
计算公式:
PX
L
i fX
n x%
fL
第三节 离散趋势指标
两组计量数据如下,分析其分布特征。
甲组:98,99,100,101,102
X1 100
乙组:80,90,100,110,120
X 2 100
两组数据的均数都是100,说明集中趋势相 同。但两组数据的分布特征不尽相同,5个 数据间的参差不齐的程度不一样。甲组数 据的变化范围较小,而乙组数据的变化范 围较大,即两组的离散度不同,离散度是 一个非常重要的统计指标。
ΣX=98+99+100+101+102 =500
50010 5002
S甲
5 1.58 5 1
ΣX2=
982+992+1002+1012+1022=
50010
乙组:n=5,ΣX=500, ΣX2 =51000
51000 5002
S乙
5 15.81 5 1
四、变异系数 (coefficient of variation,CV)
有序分类变量(等级资料) • 血清反应可分 - + + ++ 四级
三、变量间的转化
计量资料: 计数资料:
等级资料 :
个体的血红蛋白量(g/dl) 正常人数、异常人数
(按正常异常分组) 0~,重度贫血 6~,中度贫血 9~,轻度贫血 12~,正常 16~,增高 (按血红蛋白量的多少分组)
二、同质和变异 同质(homogeneity)
一、全距(range,R)
亦称极差,用R表示,是一组观察值中最大值 与最小值之差,反映个体差异的范围。全距大, 说明变异度大;反之,说明变异度小。如上例 中甲组全距为4,乙组全距为40,表明乙组变 异度大。 但全距除了最大值和最小值之外,不能反映组 内其它数据的变异度;易受个别数据的影响, 稳定性较差,抽样误差较大,而且还受n大小 的影响,平均起来,n越大,全距越大。
抽样误差愈小,用样本推断总体的精确度愈高
五、概率 probability
描述某事件发生可能性大小的量, 用P表示
P的范围[0,1] 在一定条件下,
P=1
必然事件 肯定发生
P=0
不可能事件 肯定不发生
P(0,1) 随机事件 可能发生可能不发生
P→1
随机事件 发生的可能性越大
P→0
随机事件 发生的可能性越小
3.整理资料(sorting data)
– 按设计要求,使原始数据系统化、条理化,以便近一 步计算指标和分析 。
4.分析资料(analysis data)
–基础数据计算分析、统计处理,作出结论。
–包括:1.统计描述 2.统计推断
第三节 统计中的基本概念
一、变量(Variable)
对每个观察单位的某项特征进 行测量和观察,这种被测量或观 察的特征称为变量。
频数 2 6 11 25 32 27 17 13 4 2 1
频率(%) 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7
直方图
35 频 数 30
25
20
15
10
5
0 3.8 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 红细胞计数(1012/L) 140名正常男子红细胞计数直方图
G n X1X2 Xn
上式计算时需作连乘,还要开n次方,比较麻烦,一 般采用对数形式计算。
lg
G
lg x1
x2
x3
xn
1 n
1 n
lg
x1
lg
x2
lg
x3
lg
xn
1 lg x
n
G lg 1 lg x n
例.6份血清抗体滴度为:1:2,1:4,1:8,1:8, 1:16,1:32,求平均数。
G
log
1 2
(
log
2
2
log
2
4
log
2
8
log 6
2
8
log
2
16
log
2
16
)
log
1 2
(1
2
3
6