数值变量 资料的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例4-8 为了解本地儿童体内铅负荷的现状,某市儿保所2006年以随机抽样的方 法调查了该市340名7岁以下儿童的血铅含量,血铅含量资料见表4-5。如何求340 名7岁以下儿童的平均血铅含量?
M=1.25+ (340×0.5-164)/55×0.25=1.28(umol/l)
即340名7岁以下儿童的平均血铅含量为1.28 umol/l 。
第三节 离散趋势的描述
例4-10 现对甲、乙两名高血压患者连续观察7天,测得的收缩压分别 如下:
甲患者(mmHg) 148 162 145 178 142 186 175 乙患者(mmHg) 162 164 160 163 159 166 161 甲、乙两名高血压患者收缩压的平均水平是多少?离散趋势大小如何?
(一)直接法
公式为:
(二)加权法 公式为:
例4-4 有8份血清的某种抗体效价分别为1:200,1:25,1:400, 1:800,1:50,1:100,1:50,1:25。如何求其平均血清抗体效价?
故8份血清抗体效价的平均水平为1∶100。 例4-5 某地对112名儿童接种某种疫苗一个月后,测定了各儿 童血清抗体滴度,结果见表4-4。如何求某种疫苗的平均滴度?
故10名6岁女孩的身高的均数为114.87cm。 例4-3 某市120名6岁女孩的身高(cm)资料,见表4-2。经过整理 后如表4-3所示,如何求其平均身高?
即某市120名6岁女孩的平均身高为115.7cm。
二、几何均数
在医学研究中,如抗体滴度、细菌计数、血清凝集效价、某些物质 浓度等,这些资料的数据特点是观察值间呈倍数关系,或者数据呈正偏 态分布,取对数后呈正态分布的资料(称原始观察值服从对数正态分 布),如某些传染病的潜伏期、食品中某些农药的残留量等。 其计算方法有两种:
例4-1 某市120名6岁女孩的身高(cm)资料见表4-1。
如何有效地组织、整理和表达数据的信息?
Байду номын сангаас
一、频数表的编制
1. 求全距 :本例R =129.5-101.2=28.3(cm)
2. 确定组数:一般取8~15个组段,以能显示分布特征为原则。 3. 确定组距:本例拟分11个组段,
则组距i=全距/组数=R/k =28.3/11=2.57 ≈3。
医学统计学
第四章 数值变量资料的统计描述
第一节 频数分布表与频数分布图
通过实验或者观察等各种方式得到的原始数据,如果是数 值变量资料并且样本例数较多时,我们通常会对数据进行分组, 然后制作频数表和绘制直方图,用以说明数据的分布规律和便 于统计指标的计算。
当汇总大量的原始数据时,把数据按类型进行分组,其中 每个组的数据个数,称为该组的频数。
可以得出:X甲=162.3,X乙=162.1,两人收缩压的均数几乎没有差别, 这说明他们的收缩压平均水平基本相同。但甲患者的血压波动比较大, 而乙患者相对比较稳定,说明分布情况不同,甲患者血压值较分散, 离散程度大;而乙患者血压值较集中,离散程度小。
因此,描述一组观察值,除需要说明它们的平均水平外, 还要描述其离散程度即变异程度大小。描述变量值离散程度的 指标大体可分为两类:一类是按间距计算,有极差和四分位数 间距;另一类则按平均差距计算,有方差、标准差和变异系数 等。其中标准差最常用。
二、绘制直方图
三、频数表的用途
1. 作为陈述资料的形式,便于进一步计算指标和进行统计分析。 2. 揭示资料分布特征 3. 便于观察数据分布类型 4. 便于发现某些特大或特小的可疑值 5. 当样本含量比较大时,可用各组段的频率作为概率的估计值
第二节 集中趋势的描述
平均数(average)是描述数值变量资料集中趋势最常 用的指标。它用于描述一组同质计量资料的集中位置或反映 一组观察值的平均水平,常作为一组数据的代表值用于分析 和进行组间的比较。医学上常用的平均数有算术均数、几何 均数和中位数三种。
P25=0.75+0.25/42×(340×25%-81)=0.77(umol/l)
P75 = 1.50+0.25/36×(340×75%-219) = 1.75 ( umol/l )
P95=2.50+0.25/6×(340×95%-322)=2.54(umol/l)
从列出的数据可以得知, 甲=162.3, 乙=162.1,
4. 确定组限:一个频数表应包含整个资料的全部数据,每个数据都归 属于某一组,且只能归属于某一组,不能兼属。每个组段的起点为该 组的下限,终点为上限(上限一般不列出),上限=下限+组距。第一 组段包含最小值,最后组段包含最大值。 5. 列表划记,编制频数表: 将原始资料用划记法得各个组段的频数,如表4-2所示。
其计算方法有两种:
1.直接法 当观察值个数n是奇数时:
当观察值个数n为偶数时:
2.频数表法
例4-6 某病患者7人的潜伏期(天)从小到大排列为:1,3,4,7,8,15, 19天。如何求患者的平均潜伏期?
例4-7 8名中学生甲型肝炎的潜伏期分别为12,13,14,14,15,15,15, 17天。如何求8名中学生的平均潜伏期?
(二)百分位数
百分位数(percentile)是一种位置指标,用符号PX 表示,x 表示
百分位,即把一组数据从小到大顺序排列,分为100等份,各等份含1% 的观察值,分割界限上的数值就是百分位数。
公式为:
例4-9 某市340名7岁以下儿童的血铅含量,血铅含量资料见表4-5,
如何求该市340名7岁以下儿童血铅含量的P25 ,P75 ,P95?
一、算术均数
应用:描述对称分布、正态分布(或接近正态分布)资料的集中趋势。 其计算方法有两种:
(一)直接法 公式为:
(二)加权法 公式为:
例4-2 现有10名6岁女孩的身高(cm)的测量值分别为:110.9, 120.4 , 108.2 , 121.2 , 112.3 , 121.8 , 117.0 , 111.4 , 117.2 , 108.3。如何求其平均身高?
故112人的血清平均抗体效价为1:48。
三、中位数和百分位数
(一)中位数 中位数在实际工作中有着很强的应用价值,适用于各种分布资料,
尤其适用于偏态分布、资料一端或两端无确定数值以及资料分布不明 确的情况。中位数(median,M)是将一组观察值按从小到大顺序排列, 居中心位置的数值,因而全部观察值中,大于或小于M的观察值个数 相等。
M=1.25+ (340×0.5-164)/55×0.25=1.28(umol/l)
即340名7岁以下儿童的平均血铅含量为1.28 umol/l 。
第三节 离散趋势的描述
例4-10 现对甲、乙两名高血压患者连续观察7天,测得的收缩压分别 如下:
甲患者(mmHg) 148 162 145 178 142 186 175 乙患者(mmHg) 162 164 160 163 159 166 161 甲、乙两名高血压患者收缩压的平均水平是多少?离散趋势大小如何?
(一)直接法
公式为:
(二)加权法 公式为:
例4-4 有8份血清的某种抗体效价分别为1:200,1:25,1:400, 1:800,1:50,1:100,1:50,1:25。如何求其平均血清抗体效价?
故8份血清抗体效价的平均水平为1∶100。 例4-5 某地对112名儿童接种某种疫苗一个月后,测定了各儿 童血清抗体滴度,结果见表4-4。如何求某种疫苗的平均滴度?
故10名6岁女孩的身高的均数为114.87cm。 例4-3 某市120名6岁女孩的身高(cm)资料,见表4-2。经过整理 后如表4-3所示,如何求其平均身高?
即某市120名6岁女孩的平均身高为115.7cm。
二、几何均数
在医学研究中,如抗体滴度、细菌计数、血清凝集效价、某些物质 浓度等,这些资料的数据特点是观察值间呈倍数关系,或者数据呈正偏 态分布,取对数后呈正态分布的资料(称原始观察值服从对数正态分 布),如某些传染病的潜伏期、食品中某些农药的残留量等。 其计算方法有两种:
例4-1 某市120名6岁女孩的身高(cm)资料见表4-1。
如何有效地组织、整理和表达数据的信息?
Байду номын сангаас
一、频数表的编制
1. 求全距 :本例R =129.5-101.2=28.3(cm)
2. 确定组数:一般取8~15个组段,以能显示分布特征为原则。 3. 确定组距:本例拟分11个组段,
则组距i=全距/组数=R/k =28.3/11=2.57 ≈3。
医学统计学
第四章 数值变量资料的统计描述
第一节 频数分布表与频数分布图
通过实验或者观察等各种方式得到的原始数据,如果是数 值变量资料并且样本例数较多时,我们通常会对数据进行分组, 然后制作频数表和绘制直方图,用以说明数据的分布规律和便 于统计指标的计算。
当汇总大量的原始数据时,把数据按类型进行分组,其中 每个组的数据个数,称为该组的频数。
可以得出:X甲=162.3,X乙=162.1,两人收缩压的均数几乎没有差别, 这说明他们的收缩压平均水平基本相同。但甲患者的血压波动比较大, 而乙患者相对比较稳定,说明分布情况不同,甲患者血压值较分散, 离散程度大;而乙患者血压值较集中,离散程度小。
因此,描述一组观察值,除需要说明它们的平均水平外, 还要描述其离散程度即变异程度大小。描述变量值离散程度的 指标大体可分为两类:一类是按间距计算,有极差和四分位数 间距;另一类则按平均差距计算,有方差、标准差和变异系数 等。其中标准差最常用。
二、绘制直方图
三、频数表的用途
1. 作为陈述资料的形式,便于进一步计算指标和进行统计分析。 2. 揭示资料分布特征 3. 便于观察数据分布类型 4. 便于发现某些特大或特小的可疑值 5. 当样本含量比较大时,可用各组段的频率作为概率的估计值
第二节 集中趋势的描述
平均数(average)是描述数值变量资料集中趋势最常 用的指标。它用于描述一组同质计量资料的集中位置或反映 一组观察值的平均水平,常作为一组数据的代表值用于分析 和进行组间的比较。医学上常用的平均数有算术均数、几何 均数和中位数三种。
P25=0.75+0.25/42×(340×25%-81)=0.77(umol/l)
P75 = 1.50+0.25/36×(340×75%-219) = 1.75 ( umol/l )
P95=2.50+0.25/6×(340×95%-322)=2.54(umol/l)
从列出的数据可以得知, 甲=162.3, 乙=162.1,
4. 确定组限:一个频数表应包含整个资料的全部数据,每个数据都归 属于某一组,且只能归属于某一组,不能兼属。每个组段的起点为该 组的下限,终点为上限(上限一般不列出),上限=下限+组距。第一 组段包含最小值,最后组段包含最大值。 5. 列表划记,编制频数表: 将原始资料用划记法得各个组段的频数,如表4-2所示。
其计算方法有两种:
1.直接法 当观察值个数n是奇数时:
当观察值个数n为偶数时:
2.频数表法
例4-6 某病患者7人的潜伏期(天)从小到大排列为:1,3,4,7,8,15, 19天。如何求患者的平均潜伏期?
例4-7 8名中学生甲型肝炎的潜伏期分别为12,13,14,14,15,15,15, 17天。如何求8名中学生的平均潜伏期?
(二)百分位数
百分位数(percentile)是一种位置指标,用符号PX 表示,x 表示
百分位,即把一组数据从小到大顺序排列,分为100等份,各等份含1% 的观察值,分割界限上的数值就是百分位数。
公式为:
例4-9 某市340名7岁以下儿童的血铅含量,血铅含量资料见表4-5,
如何求该市340名7岁以下儿童血铅含量的P25 ,P75 ,P95?
一、算术均数
应用:描述对称分布、正态分布(或接近正态分布)资料的集中趋势。 其计算方法有两种:
(一)直接法 公式为:
(二)加权法 公式为:
例4-2 现有10名6岁女孩的身高(cm)的测量值分别为:110.9, 120.4 , 108.2 , 121.2 , 112.3 , 121.8 , 117.0 , 111.4 , 117.2 , 108.3。如何求其平均身高?
故112人的血清平均抗体效价为1:48。
三、中位数和百分位数
(一)中位数 中位数在实际工作中有着很强的应用价值,适用于各种分布资料,
尤其适用于偏态分布、资料一端或两端无确定数值以及资料分布不明 确的情况。中位数(median,M)是将一组观察值按从小到大顺序排列, 居中心位置的数值,因而全部观察值中,大于或小于M的观察值个数 相等。