02计量资料的统计描述(1)
统计描述与统计推断
![统计描述与统计推断](https://img.taocdn.com/s3/m/a0b97296e43a580216fc700abb68a98271feaced.png)
统计描述与统计推断统计的主要工作就是对统计数据进行统计描述和统计推断。
统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述;而统计推断是指通过抽样等方式进行样本估计总体特征的过程,包括参数估计和假设检验两项内容。
(一)统计描述1.计量资料的统计描述计量资料的统计描述主要通过编制频数分布表、计算集中趋势指标和离散趁势指标以及统计图表来进行。
(1)集中趋势。
指频数表中频数分布表现为频数向某一位置集中的趋势。
集中趋势的描述指标:1)算术平均数。
直接法:x为观察值,n为个数加权法又称频数表法,适用于频数表资料,当观察例数较多时用。
f为各组段的频数。
2)几何平均数(geometric mean)。
几何平均数用符号G表示。
用于反映一组经对数转换后呈对称分布的变量值在数学上的平均水平。
直接法:加权法又称频数表法,当观察例数n较大时,可先编制频数分布表,用此法算几何平均数:3)百分位数(percentile )与中位数(median )。
百分位数是一种位置坐标,用符号x P 表示常用的百分位数有 2.5P 、5P 、50P 、75P 、95P 、97.5P 等,其中25P 、50P 、75P 又称为四分位数。
百分位数常用于描述一组观察值在某百分位置上的水平,多个百分位结合使用,可更全面地描述资料的分布特征。
中位数是一个特定的百分位数即50P ,用符号M 表示。
把一组观察值按从小到大(或从大到小)的次序排列,位置居于最中央的那个数据就是中位数。
中位数也是反映频数分布集中位置的统计指标,但它只由所处中间位置的部分变量值计算所得,不能反映所有数值的变化,故中位数缺乏敏感性。
中位数理论上可以用于任何分布类型的资料,但实践中常用于偏态分布资料和分布两端无确定值的资料。
其计算方法有直接法和频数表法两种。
直接法:当观察例数n 不大时,此法常用,先将观察值按大小次序排列,选用下列公式求M 。
统计背诵版(三份整合)
![统计背诵版(三份整合)](https://img.taocdn.com/s3/m/250449b8dd3383c4bb4cd278.png)
统计学资料背诵版一、单选题:第二章:计量资料的统计描述1、描述一组偏态分布资料的变异度,以四分位数间距指标较好。
2、用均数和标准差可以全面描述正态分布资料的特征。
3、各观察值均加(或减)同一数后标准差不变。
4、比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用变异系数。
5、偏态分布宜用中位数描述其分布的集中趋势。
6、各观察值同乘以一个不等于0的常数后,变异系数不变。
7、正态分布的资料,均数等于中位数。
8、对数正态分布是一种右偏态分布(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)9、横轴上,标准正态曲线下从0到2.58的面积为49.5%10、当各观察值呈倍数变化(等比关系)时,平均数宜用几何均数。
第三章:总体均数的估计与假设检验1、均数的标准误反映了样本均数与总体均数的差异。
2、两样本均数比较的t检验,差别有统计学意义时,P越小,说明越有理由认为两总体均数不同。
3、甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S 12、X2和S22,则理论上由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括04、在参数未知的正态总体中随机抽样,丨X-μ丨≥t0.05/2,vS X的概率为5%5、某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为74±1.96×46、关于以0为中心的t分布,叙述错误的是相同时,丨t丨越大,P越大。
7、在两样本均数比较的t检验中,无效假设为两总体均数相等。
8、两样本均数比较作t检验时,分别取以下检验水准,犯第二类错误概率最小的是α=0.309、正态性检验,按α=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率等于β,而β未知。
10、关于假设检验,说法正确的是采用配对t检验还是两样本t检验是由试验设计方案所决定的。
统计学第二章计量资料的统计描述
![统计学第二章计量资料的统计描述](https://img.taocdn.com/s3/m/06c91ff3c67da26925c52cc58bd63186bceb920a.png)
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
02计量资料的统计描述
![02计量资料的统计描述](https://img.taocdn.com/s3/m/3b2a011d8bd63186bdebbcc2.png)
02计量资料的统计描述D计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -=(2-1)2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X 表示,其计算方法如下:(1)直接法:直接用原始观测值计算。
n X X ∑=(2-2)(2)加权法:在频数表基础上计算,其中X为组中值,f 为频数。
∑∑=f fX X (2-3)2.几何均数几何均数(geometric mean )用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G 。
其计算公式为:(1)直接法 ⎪⎭⎫ ⎝⎛∑=-n X G lg lg1 (2-4) (2)加权法 ⎪⎪⎭⎫ ⎝⎛∑∑=-f X f G lg lg1 (2-5) 3.中位数中位数(median )将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。
计量资料统计(1)描述
![计量资料统计(1)描述](https://img.taocdn.com/s3/m/481ef648a300a6c30c229fce.png)
一、算术均数(简称均数mean)
总体均数记作 μ ,样本均数记作 X 。 该指标适用于对称分布,尤其是正态 或近似正态分布的资料。
.
计算方法:
l 直接法:当观察单位的个数不多时可直接计算。公式 为:
xx1x2 xn X
n
n
l 加权法:当资料中相同观察值的个数较多时,可将相
同观察值的个数,即频数f,乘以该观察值X,以代替相同
观察值逐个相加。
xf1x1f1 f2 fx 22 ffm m xm
f f
加权法用于频数表资料时,式中,f为组段频数,x为 组中值,组中值 = 组段下限 组段上限。
.2
例 2.2 对表2.1资料用加权法求平均身高
计算方法如下:
X 1 1 0 3 1 1 9 3 1 2 2 1 1 1 3 1 1 1 3 1 1 3 3 1 1 1 0 .9 1 9 5 9 4
.
例 2.1 某市1982年110名7岁男童的身高(cm)资料
112.4 117.2 122.7 123.0 113.0 108.2 118.2 108.2 118.9 118.1 123.5 118.3 120.3 116.2 114.7 119.7 114.8 119.6 113.2 120.0 119.7 116.8 119.8 122.5 119.7 120.7 114.3 122.0 117.0 122.5 119.8 122.9 128.0 121.5 126.1 117.7 124.1 129.3 121.8 112.7 120.2 120.8 126.6 120.0 130.5 120.0 121.5 114.3 124.1 117.2 124.4 116.4 119.0 117.1 114.9 129.1 118.4 113.2 116.0 120.4 112.3 114.9 124.4 112.2 125.2 116.3 125.8 121.0 115.4 121.2 117.9 120.1 118.4 122.8 120.1 112.4 118.5 113.0 120.8 114.8 123.8 119.1 122.8 120.7 117.4 126.2 122.1 125.2 118.0 120.7 116.3 125.1 120.5 114.3 123.1 122.4 110.3 119.3 125.0 111.5 116.8 125.6 123.2 119.5 120.5 127.1 120.6 132.5 116.3 130.8
医学统计学 第二章 计量资料的统计描述
![医学统计学 第二章 计量资料的统计描述](https://img.taocdn.com/s3/m/71839634ad02de80d5d84028.png)
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
![卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)](https://img.taocdn.com/s3/m/f8efb67e571252d380eb6294dd88d0d233d43c4b.png)
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
第二章 计量资料的统计描述
![第二章 计量资料的统计描述](https://img.taocdn.com/s3/m/d25616e889eb172ded63b7a9.png)
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2
xi
x2
2计量资料的统计描述指标介绍
![2计量资料的统计描述指标介绍](https://img.taocdn.com/s3/m/83c5db4302d8ce2f0066f5335a8102d276a261dc.png)
2计量资料的统计描述指标介绍计量资料的统计描述指标是对数据集合进行概括和描述的方法,可帮助我们了解数据的分布、集中趋势和离散程度,以及可能存在的异常值。
常用的统计描述指标包括均值、中位数、众数、极差、标准差、方差、四分位数和百分位数等。
1. 均值(Mean):均值是一组数据的总和除以数据的个数。
均值可以反映数据的集中程度,但容易受到异常值的影响。
2. 中位数(Median):中位数是一组数据按大小排序后,位于中间位置的数值。
中位数可以反映数据的中间位置,不受异常值的影响。
3. 众数(Mode):众数是一组数据中出现次数最多的数值。
众数可以反映数据集中的特点。
4. 极差(Range):极差是一组数据的最大值与最小值之差。
极差可以反映数据的全面分布。
5. 标准差(Standard Deviation):标准差测量数据的离散程度。
标准差越大,数据的离散程度越大。
6. 方差(Variance):方差是标准差的平方。
方差可以反映数据的离散程度,但单位是原数据的平方。
7. 四分位数(Quartiles):四分位数将一组数据按大小排序后,分为四等分,分位点分别是Q1(25%分位点)、Q2(中位数)和Q3(75%分位点)。
四分位数可以帮助我们了解数据集的分布情况。
8. 百分位数(Percentiles):百分位数是将一组数据按大小排序后,分为100等分,每个等分对应一个百分位数。
百分位数可以帮助我们了解数据的分布情况,例如第75百分位数表示排在该位置的数据值大约有75%的数据小于它。
这些统计描述指标都是通过对数据进行运算得出的,可以帮助我们了解数据的分布情况和特点。
在实际应用中,我们可以根据具体的问题选取适当的统计描述指标进行分析,帮助我们更好地理解数据。
同时,还需要注意统计描述指标的局限性,例如均值容易受到异常值的影响,中位数和众数不能反映数据的离散程度等,因此在使用时需要结合具体情况进行综合分析。
计量资料的统计描述
![计量资料的统计描述](https://img.taocdn.com/s3/m/a9d13272f61fb7360b4c6598.png)
4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27
4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61
4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36
M
x
n
2
x
n
2
1
2
4
百分位数(percentile)
0%
PX
M 即50%分位数就是中位数
100%
27
1.直接计算法
28
例2-9 对某医院细菌性痢疾治愈者的住院天数统计, 119名患者的住院天数从小到大的排列如下, 试求第5百分位数和第99百分位数
患 者 1 2 3 4 5 6 7 8 116 117 118 119 住院天数 1 1 2 2 2 3 4 4 39 40 40 42
3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25
4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26
4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26
第一篇 基本统计方法
1
第二章 计量资料的统计描述
Descriptions of Measurement Data
2
Chapt 2
Frequency distribution
Description of central tendency
计量资料的统计描述
![计量资料的统计描述](https://img.taocdn.com/s3/m/7ad1de7a783e0912a3162a13.png)
例4-2-3:利用表4-2-1计算某社区101名 正常成年女子的血总胆固醇的均数。
X 1´ 2.45 3´ 2.75 L1´ 5.75 409.75 4.06(mmol/L) 1 3L 1 101
(二)几何均数 几何均数(geometric mean G)适用于观 察值变化范围跨越多个数量级的资料。 几何均数适用于成等比级数的资料,特别是 对数正态分布资料。
例4-2-5:2004年某社区52例慢性肝炎患者的 HBsAg滴度数据如表4-2-3。试计算滴度的几何 均数。
(三)中位数 中位数(median M)是将变量值从小到 大排列,位置居于中间的那个变量值, 称为中位数。可用于各种分布的定量资 料,特别是偏态分布资料和开囗资料 (一端或两端无确切数值的资料)。
S CV ´ 100% X
S为标准差,X 为均数。
(公式4-2-15)
(六)运用变异指标的注意事项
1.变异指标表示变量值的变异程度或离散趋势,常与集中指 标平均数结合运用,说明变量值集中的位置与离散程度。 2.变异指标种类虽多,但任一变异指标,其值大表示变异大, 数值参差不齐;值小表示变异小,数值比较集中在平均数 周围。比较两个或几个同类事物的变异,要用同一变异指 标。 3.正态分布资料宜用均数与标准差描述集中与离散趋势。有 了均数与标准差就可根据正态分布理论将频数分布描绘出 来。偏态分布资料宜用中位数及四分位数间距、极差等描 述其集中趋势和变异程度。 4. 比较几组资料的变异程度,若各组资料的单位不全相同, 或均数相差悬殊时,宜用变异系数描述其变异程度。
(四) 百分位数 将频数等分为十或一百的分位数称十分位 数或百分位数 。 百分位数的符号为Px,X代表第X百分位。 一个百分位数Px将全部变量值分为两部分, 在不包含Px的全部变量值中有x%的变量 值比它小,(100-x)%变量值比它大。
计量资料描述
![计量资料描述](https://img.taocdn.com/s3/m/4128605c3b3567ec102d8a66.png)
计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。
计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。
其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。
2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。
方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。
SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。
对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。
Crosstabs过程在X2检验实习讲述。
Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。
第02章 计量资料的统计描述课件
![第02章 计量资料的统计描述课件](https://img.taocdn.com/s3/m/801aa0ec25c52cc58bd6bee9.png)
组段数 5;组距 10分
表2.1 某医院产科某月顺产婴儿出生身长(单位:cm) 48 48 47 42 53 49 45 50 48 52 49 57 46 48 46 42 49 51 50 51 56 42 59 49 48 52 42 49 55 53 51 45 47 47 47 50 48 51 51 53 46 47 57 45 46 51 46 51 47 51 55 47 52 47 48 54 47 54 49 44 53 54 45 48 44 48 42 47 48 50 55 50 53 56 49 50 56 41 53 53 49 44 49 48 45 52 52 46 54 50 44 53 49 47 48 45 51 45 50 53
(1)直接法—根据样本含量的奇偶选择公式
n为奇数时 n为偶数时
M X ( n1) 2
1
M
2
X(n) 2
X ( n 1) 2
例2-6:9只大鼠存活天数如下: 4,10,7,3,15,2,9,13,>60 则这9只大鼠的平均存活天数为多少天?
排序:2,3, 4, 7, 9,10 ,13, 15, >60 故这9只大鼠的平均存活天数为9天。
-
二、频数分布图
图2.1 100名顺产婴儿出生身长的频数分布
频数
三、频数表和频数分布图用途
1、描述频数分布的类型
25 20 15 10
5 0
图 2 - 2 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
血 清 总 胆 固 醇(mmol/L)
对称分布:各组段的频数以频数最多组段为中心左右两侧大体对称。
PX
大
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、确定组段数和组距 组段数通常取10-15组 本例组距
i 3 .3 6 / 1 0 0 .3 3 6 0 .3 0
3、根据组距写出组段 组下限(L):每个组段的起点 组上限(U):每个组段的终点
组段
第1组段
2.30~
第2组段 2.60~
…
…
…
…
最后组段 5.60~5.90
4、分组划记并统计频数
之间,尤以3.80-4.10组段人数最多,且上下组 段数的频数分布基本对称。
3、便于发现一些特大或特小的可疑值 4、便于进一步做统计分析和处理
第二节 集中趋势的描述
统计上使用平均数(average)这一指标体系 来描述一组变量值的集中位置或平均水平。
常用的平均数有: 算术均数(mean) 几何均数(geometric mean) 中位数(median)
三、医学统计工作的基本步骤
统计设计 收集资料 整理资料 分析资料
计量பைடு நூலகம்料
统计描述 统计推断
参数估计 假设检验
第二章 计量资料的统计描述
第一节 频数分布
一、频数分布表(frequency table)
No 例2-1 从某单位1999年的职工体检资料中
获得101名正常成年女子的血清总胆固醇的
第二章 计量资料的统计描述
军事预防医学系卫生统计学教研室 李婵娟
一、统计学基本概念
总体与样本 参数与统计量
总体:根据研究目的而确定的同质的 观察单位的全体。
样本:从总体中抽取的部分观察单位。
参数:总体的统计指标,如总体均数、标准
差等,采用希腊字母分别记为μ、σ。
是固定的常数。 统计量:样本的统计指标,如样本均数、标
频数
二、频数分布图
25 20 15 10 5 0
2.45 3.05 3.65 4.25 4.85 5.45 6.10
血 清 总 胆 固 醇(mmol/L)
图 2 - 1 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
频数
三、频数表和频数分布图用途
1、描述频数分布的类型
5.35 4.17 4.13 2.78 4.26 3.58 4.34 3.58 3.66 4.28 3.26 3.50 2.70 4.61 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.41 4.12 3.95 5.08 4.53 3.92 3.58 3.07 3.55 4.23 3.57 4.83 3.52 3.84 3.19 4.59 3.75 3.98 4.13 4.26 3.63 5.13 3.78 4.57 3.80 3.93 3.78 3.99 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.00 3.26
4.84 4.41 4.75 2.91 3.95 3.91 5.35 3.84 4.50 3.96 3.87 5.71 4.48 4.28 3.29 3.25
➢制表步骤 1、求极差 极差(range)也称全距,
即最大值和最小值之差,记作R。
R 5 .7 1 2 .3 5 3 .3 6 (m m o l/L )
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
人数
2、描述频数分布的特征
(1)变异的范围在2.30-5.90mmol/L; (2)有明显的统计分布规律,主要集中在3.50-4.70
右偏态分布(正偏态分布):右侧的组段数多于
左侧的组段数,频数向右侧拖尾。
25 20 15 10
5 0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
人数
左偏态分布(负偏态分布)
左侧的组段数多于右侧的组段数,频数向左侧拖尾。
25 20 15 10 5 0
2.45 3.05 3.65 4.25 4.85 5.45 6.10
血 清 总 胆 固 醇(mmol/L)
图 2 - 1 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
对称分布:各组段的频数以频数最多组段为中心左右两侧大体对称。
偏态分布
Image 测量结果如下,试编制频数分布表。
2.35 4.21 3.32 4.78 3.95 3.92 3.91 4.59 4.19 4.15 4.55 4.80 3.60 3.51 4.06 4.50 3.27 4.52 3.30 4.73 4.17 4.06 5.26 5.25 4.15 4.36 4.95
准差,采用拉丁字母分别记为 X、S 是在参数附近波动的随机变量。
总体
抽取部分观察单位
样本
参数
推断inference
统计量
二、数据类型
计量资料:用仪器、工具等测量方法获得的数据 计数资料:按某种属性分类,然后清点每类的个
数,也叫定性数据
等级资料:半定性或半定量的观察结果。有大小
顺序,所以也叫有序分类资料。
一、算术均数(mean)
简称均数,可用于反映一组呈对称分布的 变量值在数量上的平均水平。
适用条件:算数均数适用于对称分布,特别是 正态分布资料。
算术均数的计算方法 (1)直接计算法
XX1X2 Xn X
n
n
例2-2 用直接法计算101名正常成年女子的血清总胆固醇的均数。
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26
LXU
逐一划记
表2-1 101名正常成年女子的血清总胆固醇 (mmol/L)频数分布
组段
2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合计
频数, f 1 3 6 8
17 20 17 12
9 5 2 1 101