数值变量资料的统计描述

合集下载

数值变量资料的统计分析.

数值变量资料的统计分析.
可信度即指估计的准确度,是我们预先给定的概率, 符号为 ,常取95%或99%。
1、大样本(如n>100)数据总体均数的可信区间
移项后: 总体均数的95%可信区间:
缩写为: 或:
例9.14(P167):
该地健康成年女性血红蛋白值总体均数有95%的 可能落在117.48—120.12g/L之间。
2、小样本数据总体均数的可信区间
(一)极差(range)
极差又称全距,即一组观察值中最大值与最小值 之差,用R表示。
适用范围:可用于所有资料的离散趋势描述,但 较粗略。
(二)四分位数间距(quartile interval)
四分位数间距是上四分位数 (即 )与下四分 位数 (即 )之差,其间包括了全部观察值中间 的一半,用 表示。
适用范围:可用于所有资料的离散趋势描述,但主 要用于偏态分布资料。
例9.6(P160) 此150名某型食物中毒患者的四分位数间距是19.47天。
(三)方差和标准差
方差(variance)是每一观察值的离均差平方和 的平均值。总体方差用 表示,样本方差用 表 示。
标准差(standard deviation)即方差的平方 根。总体标准差用 表示,样本标准差用 表 示。
第三节 参数估计和假设检验
一.均数的抽样误差与标准误
抽样研究的目的总是通过对样本的观察,用样本的 水平推断其总体的水平。
由抽样而造成的样本指标与总体指标的差异,或各 样 本 指 标 之 间 的 差 异 , 就 称 为 抽 样 误 差 ( sampling error)。
抽样研究时,抽样误差是不可避免的,只能估计其 大小。
(2)均数对应的位置曲线最高,且以均数为中心左右对
称;
(3)正态分布曲线的位置和形状取决于两个参数

第八章 数值变量资料的统计描述

第八章  数值变量资料的统计描述
31
第三节 离散趋势指标
32
离散度(变异度):一组同质计量 离散度(变异度) 资料各数据之间参差不齐的程度, 资料各数据之间参差不齐的程度, 称为离散度。 称为离散度。 全距 常用指标: 常用指标: 全距 四分位数间距 四分位数间距 方差和标准差 方差和标准差 变异系数 变异系数
平均抗体效价 :16。 平均抗体效价1: 。
23
二、几何均数
计算几何均数注意事项: 计算几何均数注意事项: ①变量值中不能有0,因为0和负数 变量值中不能有0 因为0 不能取对数。 不能取对数。 ②不能同时有正值和负值; 不能同时有正值和负值; ③若全是负值,计算时可先把负号 若全是负值, 去掉,得出结果后再加上负号。 去掉,得出结果后再加上负号。
16
1.直接法:用于观察值个数不多时 1.直接法: 直接法
X1 + X 2 + + X n X= = n
∑X
n
17
2.加权法:用于变量值个数较多时。 2.加权法 用于变量值个数较多时。 加权法:
f1X1 + f2X 2 ++ fk X k ∑ fX X= = f1 + f2 ++ fk ∑f
29
计算公式: 计算公式:
i Px = L + (n x% Σf L ) fx
30
计算中位数及百分位数的步骤: 计算中位数及百分位数的步骤:
先找到包含Px的最小累计频率; Px的最小累计频率 1. 先找到包含Px的最小累计频率; 该累计频率同行左边的组段值为L 2. 该累计频率同行左边的组段值为L; 同行右边的频数为fx( fm); fx(或 3. L同行右边的频数为fx(或fm); 前一行的累计频数为∑fL; 4. L前一行的累计频数为∑fL; 将上述已知条件代入公式计算Px Px或 5. 将上述已知条件代入公式计算Px或 P50 。

试论数值变量资料的统计描述

试论数值变量资料的统计描述
体滴度、平均效价、某些疾病的潜伏期等。
(1)直接法
例2.4 有6份血清的抗体效价为1:10,1:20,1:40, 1:80,1:80,1:160, 求其平均效价。
该6份血清的平均抗体效价为1:45。
(2)加权法
对于上例:
注意事项:
计算几何均数时观察值中不能有0;
一组观察值中不能同时有正值和负值。
1.直接法 用于样本含量较小的资料。将观察值由小到大排 列,按下式计算:
2.频数表法 用于频数表资料。
计算步骤:①按所分组段由小到大计算累计频数和累计频 率;②确定中位数所在组段;③下式求中位数

1、离散程度的描述指标---全距
(1)全距(range,简记为R) 亦称极差 ,为一组 同质观察值中最大值与最小值之差。 (2)它反映了个体差异的范围,全距大,说明变 异度大;反之,全距小,说明变异度小。
对于同一组资料,几何均数小于均数,


3、集中趋势的描述指标---中位数
中位数(median)是一种位置指标,用 表示。
它是一组观察值按由小到大的顺序排列后位次居 中的数值,小于和大于中位数的观察值个数相等 。
应用:中位数可用于描述任何分布,特别是偏 态分布资料以及频数分布的一端或两端无确切 数据资料的中心位置。
之,标准差小,表示观察值的变异度小。
(3)应用范围:适用于对称分布资料尤其是正态分 布资料
(4)应用:①描述变量分布的离散程度; ②结合均数,描述正态分布的分布特征; ③结合均数,计算变异系数; ④结合样本含量,计算标准误。
Байду номын сангаас
(2)加权法(weighting method) 用于频数表资料或样本中
相同观察值较多时,公式为:

数值变量资料的统计描述知识介绍

数值变量资料的统计描述知识介绍
描述性统计量表格
包括均值、中位数、众数、标准差、变异系数等统计量,用于描述数值变量的 集中趋势和离散趋势。
图形描述
直方图
通过直方图可以直观地展示数值变量取值的分布情况,包括 频数和频率。
箱线图
通过箱线图可以展示数值变量的最小值、下四分位数、中位 数、上四分位数和最大值,以及异常值的情况。
文字描述
众数
总结词
众数是数据中出现次数最多的数值。
详细描述
众数是一组数据中出现次数最多的数值。在统计学中,众数用于描述数据的分布特征,特别是当数据 中出现多个众数时,说明数据存在多个峰值,此时数据的分布可能是多峰的。众数在市场调研、人口 统计等领域有广泛应用。
03
数值变量的离散程度描述
方差
方差是衡量数值变量离散程度的 重要指标,它表示各个数值与平 均数的偏差的平方的平均值。
回归分析
01
回归分析
通过建立一个或多个自变量与因 变量之间的数学模型,来描述变 量之间的因果关系。
Байду номын сангаас
02
回归分析的种类
03
回归分析的应用
线性回归、多项式回归、逻辑回 归等。
预测、解释和调控因变量的变化 趋势。
协方差分析
协方差分析
用于比较两组数值变量的总体均 值是否存在显著差异,同时考虑 变量的共同变异。
正态分布
总结词
正态分布是最常见的连续型概率分布, 其特征是钟形曲线,对称轴为均值所在 直线。
VS
详细描述
正态分布适用于许多自然现象的概率分布 ,如人的身高、考试分数等。其概率密度 函数曲线呈钟形,对称轴为均值所在直线 ,即曲线关于均值所在直线对称。在正态 分布中,约68%的数据落在均值的1个标 准差范围内,约95%的数据落在均值的2 个标准差范围内。

数值变量资料的统计描述

数值变量资料的统计描述

频数,f 组中值,X
2
76
4
78
11
80
13
82
22
84
19
86
15
88
9
90
4
92
1
94
100
fX 152 312 880 1066 1848 1634 1320 810 368 94 8484
fX2 11552 24336 70400 87412 155232 140524 116160 72900 33856 8836 721208
190 302
S甲
5 1.58(毫米 / 小时) 5 1
乙组:n=5,X=2+4+6+8+10=30
X2= 22+42+62+82+102 =220
220 302
S乙
5 3.16(毫米/ 小时) 5 1
某地100名2岁健康男童身高标准差计算
身高组段 75~ 77~ 79~ 81~ 83~ 85~ 87~ 89~ 91~ 93~95 合计
89~
9
90
810
91~
4
92
93~95
1
94
合计
100( ∑ f)
368 94
8484(∑fX)
X 2 76 4 78 1180 194 84.8(cm) 100
均数的应用:
适用于对称分布资料,因为这时均 数位于分布的中心,最能反映分布的集 中趋势。
对于正态分布资料,均数更有其重 要作用。
频数分布
直方图
频数表的用途
• 揭示资料的分布特征和分布类型; 频数分布的两个重要特征:

数值变量资料的统计描述

数值变量资料的统计描述
538.06
fX2
(5)= (2)×(3) 2
20.10 37.07 114.70 198.98 346.74 521.67 401.03 313.27 227.53 148.21 106.92 57.67
2493.89
N=∑f .
红细胞数
40
30
20
Frequency
10
Std. Dev = .45
可用于反映一组经对数转换后 呈对称分布或正态分布的变量值在 数量上的平均水平。
.
几何均数(geometric mean)
G n X1X2 Xn
lgG
1 n
(lg
X1
lg
X2
lg Xn)
lg X n
Glg1 lg X
n lg 表示以10为底的对数;
几何均数:变量对 数值的算术均数的 反对数。
lg1表示以10为底的反对数 X 0,为正值
(3) 列出组段:第一组段的下限略小于最小值,最后一个组段 上限必须包含最大值。
(4) 划记计数:用划记法将所有数据归纳到各组段,得到各组 段的频数。
.
138名成年女子的红细胞数(×1012/L)频数分布
组段
(1) 3.07~ 3.27~ 3.47~ 3.67~ 3.87~ 4.07~ 4.27~ 4.47~ 4.67~ 4.87~ 5.07~ 5.27~5.47
.
算术均数
算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量
值在数量上的平均水平或者说是集中 位置的特征值。
.
1、计算方法
(1)直接计算法
公式 : XX1X2 Xn X
n
n
举例:试计算4,4,4,6,6,8,8,8,10的均数?

2-数值变量与分类变量的统计描述分析

2-数值变量与分类变量的统计描述分析

实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。

变量值是定量的,有单位的,表示为数值的大小。

¾无序分类资料:又称为计数资料。

变量值是定性的,没有单位,表示为相互独立的类别。

¾有序分类资料:又称为等级资料。

变量值是定性的,没有单位,各类别具有程度上的差异。

注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。

一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。

一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。

离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。

反映了数据的离散程度或者变异程度。

一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。

常见近似正态分布。

偏态分布:集中位置偏向一侧,频数分布不对称。

正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。

负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。

一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。

二数值变量统计描述-精选

二数值变量统计描述-精选
离散型资料(discrete data)
根据表2-1频数的分布可绘出频数分布图。
30
25
20
频 率 % 15
10
5
0
产前检查次数 0
1
2
3
4
5
>5
某地96名妇女产前检查ics
频数分布表(frequency table)
连续型资料( continuity data) 2019年某校100名18岁健康女大学生(cm)资料
频数表的用途:
1.描述频数分布的类型和特征
Descriptive Statistics
频数分布表(frequency table)
频数表的用途:
1.描述频数分布的类型和特征
(1)对称分布 :若各组段的频 数以中 心位置左右两侧大 体对称,就认为该资料是对 称分布
频数
25
20 15
10 5
0 2.45 3.05 3.65 4.25 4.85 5.45 6.10 血 清 总 胆 固 醇(mmol/L)
本例i= R /10=1.26/10=0.126≈0.1。 (3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限 必须包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的 频数。
Descriptive Statistics
频数分布表(frequency table)
Descriptive Statistics
描述数值变量资料的集中趋势(central tendency)指标
算术均数(arithmetic mean :简称均数(mean)
可用于反映一组呈对称分布的变量值在数量上的平均水平 或者说是集中位置的特征值。

第二章 数值变量资料的统计描述

第二章 数值变量资料的统计描述

频数分布的类型
频数分布分为对称分布和偏态分布两种类型。 频数分布分为对称分布和偏态分布两种类型。 对称分布是指集中位置在正中, 对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如上表所示。 数分布大体对称,如上表所示。若将其绘制 成频数分布直方图,则更清楚。 成频数分布直方图,则更清楚。 直方图是以x 本例为体重) 为横坐标 , 直方图是以 x( 本例为体重 ) 为横坐标, 频 数或百分数为纵坐标, 数或百分数为纵坐标,用矩形面积大小表示 频数多少。 频数多少。
某地150名12岁男童体重频数分布图 名 岁男童体重频数分布图 某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重(kg)
频数分布的类型
偏态分布指集中位置偏向一侧, 偏态分布指集中位置偏向一侧 , 频数分布 不对称。 不对称。 一些以儿童为主的传染病, 一些以儿童为主的传染病 , 患者的年龄分 布 , 集中位置偏于年龄小的一侧, 频数尾 集中位置偏于年龄小的一侧 , 部向右侧延伸, 称为正偏态 ( 部向右侧延伸 , 称为正偏态( 峰 ) 分布 , 分布, 如图
一、频数分布表(frequency table)的编制 频数分布表( table)
某地儿研所测得该地150名12岁健康男童体重 某地儿研所测得该地150名12岁健康男童体重 kg)原始数据如下,试编制频数表。 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9

数值变量资料的统计描述(精)

数值变量资料的统计描述(精)

(五)变异系数(Coefficient of Variation )
S CV 100% X
主要用于对均数相差较大或单位不同的几组观
察值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为 77.5mmHg,
标准差为 10.7mmHg ;收缩压均数为 122.9mmHg, 标准
差为 17.1mmHg 。试比较舒张压和收缩压的变异程度。
主要用作划分正常人与异常人的界线。 5.医学参考值范围的制定需要按照一定步骤进行。实
际中最好结合正常人和病人的数据分布特点,权衡假阳性
和假阴性的比例,选择一个适当的百分范围,最常用的百 分界限是95%。 6.参考值范围估计的方法有多种,其中最基本的有百 分位数法和正态分布法。正态法的优点是结果较稳定,但 对资料要求严格;百分位数法适合于任何分布类型的资料, 但要求大样本。
R甲 186 142 44(mmHg)
R乙 166 159 7 (mmHg)
该法简单明了、容易使用,如用于说明传染病、食
物中毒等的最短、最长潜伏期等;缺点是结果不稳
定。
(二)四分位数间距 (Quartile)
Q P75 P25
如由上一章例2.4 算出,50岁~60岁正常女性血清
参见书中计算实例……
第三节
医学参考值范围
(Reference Value Range) 一、基本概念
通常指正常人的解剖、生理、生化、免疫及组 织代谢产物的含量等各种数据的波动范围。主要目 的:用于临床疾病诊断。最常用的是95%参考值范围。
确定95%参考值范围示意图
二、医学参考值范围的制定方法
(一)选择一定数量的参照样本
f (X )
1 e 2

实验二、数值变量资料的统计描述

实验二、数值变量资料的统计描述

实验二、数值变量资料的统计描述一、实验内容(项目)1.均数、几何均数、中位数的选择和计算。

2.标准差、方差、变异系数的选择和计算。

二、实验目的和要求能正确选择应用并计算各种指标,能对数值变量资料进行基本的统计描述。

三、主要实验仪器及材料计算机、SPSS软件、数据资料。

四、实验步骤:1.教师演示相应软件操作。

2.学生独立用软件完成统计资料的分析和计算,并提交分析计算结果。

3.教师引导下讨论结果,总结,完成并上交实验报告。

统计资料:1、某医科大学抽查了100名健康女大学生的血清总蛋白含量(g/L),检查结果如下:74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 74.0 72.0 76.5 74.3 76.5 77.6 67.3 72.0 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 75.8 73.5 75.0 72.7 70.4 77.2 68.8 67.3 75.8 73.5 75.0 72.7 73.5 72.7 81.6 73.5 75.0 72.7 70.4 76.5 72.7 77.2 84.3 75.0 71.2 71.2 69.7 73.5 70.4 75.0 72.7 67.3 70.3 76.5 73.5 78.0 68.0 73.5 68.0 73.5 68.0 74.3 72.7 73.7 试分析:(1) 输入资料建立文件。

(2) 对变量血清总蛋白含量频数分布分析:样本量、均数、中位数、最小值、最大值、方差、标准差、极差、总和、峰度系数、偏度系数及其标准误;绘制住院时间的频数分布表及直方图,观察其分布特征。

数值变量资料的统计描述(变异程度)

数值变量资料的统计描述(变异程度)
离 差 ∑ - µ) = 0 均 和 (X 离 差 方 (su of squ )SS = lxx =∑ - µ)2 均 平 和 m are (X (X - µ)2 总 方 σ2 =∑ 体 差 N 2 2 2 (X 2 ∑ − X) =∑X −(∑X) n 样 方 S = 本 差 n−1 n−1
9
样本方差为什么要除以( 样本方差为什么要除以(n-1)
组段 (1) ) 0.5~ ~ 0.6~ ~ 0.7~ ~ 0.8~ ~ 0.9~ ~ 1.0~ ~ 1.1~ ~ 1.2~ ~ 1.3~ ~ 1.4~ ~ 正 正正 正正
划记 (2) )
频数, 频数,f (3) ) 3 9 12 13 17 18 20 18 17 13
累计频数Σ 累计频数Σf (4) ) 3 12 24 37 54 72 92 110 127 140
freedom)有关。 与自由度(degrees of freedom)有关。 自由度( 自由度是数学名词,在统计学中, 自由度是数学名词,在统计学中,n个数据如不受任 何条件的限制, 个数据可取任意值, 何条件的限制,则n个数据可取任意值,称为有n个自由度 个条件的限制,就只有( 个自由度。 。若受到k个条件的限制,就只有(n-k)个自由度。计 算标准差时, 个自由度。 算标准差时, n个变量值本身有n个自由度。但受到样本 均数的限制,任何一个“离均差”均可以用另外的( 均数的限制,任何一个“离均差”均可以用另外的(n-1 离均差”表示,所以只有( 个独立的“ )个“离均差”表示,所以只有(n-1)个独立的“离均 因此只有( 个自由度。 差”。因此只有(n-1)个自由度。
490 495 500 505 510 2500
7.91
193600 211600 250000 291600 313600 1260400

数值变量资料的统计描述

数值变量资料的统计描述

(二)正态曲线( normal curve )
f(X) X
特征: 1. 对称性:以均数为中心,左右对称。 2. 集中性:正态分布在横轴上方均数为最高,频数 集中于中等大小数据的附近。 3. 标准差决定曲线的形状,均数决定曲线的位置 4. 正态分布曲线在 处各有一个拐点。 5. 曲线下面积为1,并有一定的规律
方差可以比较全面地反映变量值的变异情况,但 其方差的单位是原单位的平方,故引入标准差的 概念。 标准差:将方差开平方,恢复成原度量单位,得 到总体的标准差和样本标准差s。
总体标准差 用σ表示
公 式:
( X )
N
2
样本标准差 用S表示
公 式: s
(X X )
n 1
2
例子
0.6 0.5 0.4
f (X )
N (0,1 )
N (1,1.2 )
0 1 2 3 4
2
N (1,0.8 )
2
0.3
2
0.2 0.1 0 -4 -3 -2 -1
X
位置参数μ决定曲线的位置,形态参数σ决定曲线的形态
0.5 0.4 0.3 0.2 0.1 0 -4 -3 -2 -1 0 1 2 3 4
1. 极差(Range)

符号:R 定义:是指一组数据中最大值与最小值之差。 公式:
R X max X min



意义:反映全部变量值的变动范围。极差大, 资料的离散程度大。 优点:简便,如说明传染病、食物中的最长、最 短潜伏期等。 缺点:1. 只利用了两个极端值 2. 不稳定,n大,R也会大
谢谢!
0.98kg。
由于身高和体重的度量单位不同,不能直接比较

2.数值变量资料的统计描述

2.数值变量资料的统计描述
17
3. 中位数 (median,M)
﹡ 将一批数据从小至大排列后,位次居中的数
据值为M。 ﹡应 用
﹡计算方法
偏态分布资料; 变量值分布一端或两端无确定数值; 分布不明资料。
M = n+1
2
直接用变量值计算 或 M=
1 2
(n为奇数时) (n为偶数时)
18

n 2
+ n
2
+1
用频数表计算
i M= L+ (
2
• 对一组研究对象进行观察,某变量或指标 (如肺活量)数值出现的次数被称为频数 (frequency); • 可以将各变量值及其出现的频数编制频 数分布表(frequency distribution table); • 用来反映各变量值与其频数之间的关系, 并观察资料的分布类型
3
一、频数分布(Distribution of frenquency)表与频数分布图
= 9.83(天)
医学院 预防医学教研室 2013/7/4
24
均数、中位数的关系
正态分布时: 均数=或中位数;
正偏态分布时: 均数>中位数;
负偏态分布时: 均数<中位数
25
例:有3组同龄男孩体重(kg)如下,其平均
体重 X 都是30(kg),试分析其离散趋势。
组别
甲组 乙组 丙组
1
1
抗体滴度 ⑴ 1:2.5 1:10 1:40 1:160 1:640 合计
人数,f ⑵ 14 18 22 12 6 72
滴度倒数,X ⑶ 2.5 10.0 40.0 160.0 640.0
lgX ⑷ 0.3979 1.0000 1.6021 2.2041 2.8062
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章数值变量资料的统计描述统计描述(statistical description)即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征,以便研究者根据样本信息,正确地推论其总体规律的统计分析方法。

统计指标(statistical index)是表示数据分布特征的一个或一组数值,是统计分析的基本依据.第一节频数分布的概念与应用对获取的数据进行统计学分析之前,了解数据的分布特征是至关重要的。

因为很多参数分析方法都要求样本数据来自某种已知分布的总体,否则,就应对数据实施合适的数据转换,或者采用非参数分析方法。

对频数表及频数图进行分析是描述性统计学分析的基本内容,也是表达或探索数据分布特征的基本手段.一、频数分布1.频数分布(frequency distribution)的概念频数(frequency)是相同观察值或观察结果出现的次数;分布(distribution)指随着随机变量取值的变化,其相应的概率变化的规律性。

频数分布即观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,它是了解数据分布形态特征与规律的基础.2.频数分布的特征(1)集中趋势(central tendency):指一组变量值的集中倾向或中心位置.(2)离散趋势(tendency of dispersion):指一组变量值的分散倾向。

3.频数分布的类型⑴对称分布:指集中位置居中、左右两侧的频数分布基本对称的频数分布。

又可分为正态分布(normal distribution)和非正态分布(non-normal distribution).⑵偏态分布:是集中位置偏倚、两侧频数的分布不对称的频数分布,可分为两类:①正偏态:亦称右偏态,特点是峰偏左,此时均数与众数之差为正值,长尾向右侧(即观察值较大一端)伸延;②负偏态:亦称左偏态,特点为峰偏右,此时均数与众数之差为负值,长尾向左侧(即观察值较小一端)伸延。

二、频数表和频数图13.8412。

5313.7014.8917.5313。

1918。

8210.1514。

5611。

2314。

7317.4413.9014.1012。

2912.6114。

7814.409。

9315.1814。

5914.7118.6219.0410.9513.8110。

5318。

0616.1815。

6013。

5611.4813。

0716。

8817.0417。

9812.6710。

6216。

4314。

2611。

039。

2315。

0414。

0915.9011.4814.6417。

2415。

4313.3713。

6414.3915。

7413.9911。

3117.6116。

2611.3217。

8816.7813。

5311.6813。

2511.8814.2115。

2115.2916.6312。

8715.9313.7014。

4511.2319.8413.1115.1511。

7015。

3712.3514。

5114。

0918.2214。

3415。

4811.9816.5412。

9512。

0616.6717.0916。

8513。

2016。

4812.2912。

0914。

8315.6614。

5016。

4315。

5712。

8112。

8917。

3416。

0413.4117.1312.329。

2918。

4214。

1714.3516.1915.7313。

7414.9417。

2815。

1911。

9215.4715。

33表1—2 某地120名正常成年人血浆铜含量(μmol/L)频数表组段划记频数f频率P(%)累积频数fC累积频率PC(%)⑴⑵⑶⑷⑸⑹9。

00~下 3 2.5 3 2.510。

00~止 4 3。

3 7 5.811。

00~正正T1210。

01915.812。

00~正正下1310.83226.613。

00~正正正T1714.24940.814.00~正正正正T2218。

37159。

115。

00~正正正下1815.08974。

116.00~正正下1310。

810284.917.00~正正——11 9。

211394.118。

00~正 5 4.211898.319.00~T 2 1。

7120100.0合计——120100。

0————2.数值变量资料频数图的编制1.等距分组以横轴表示变量,以纵轴表示频数。

由表1-2的资料绘制频数图(图3—1)。

2.不等距分组以横轴表示变量,但纵轴是每个横轴单位的频数。

由表1—3的资料绘制频数图(图3—2)。

第二节 数值变量资料集中趋势的描述集中趋势(central tendency)是度量由变异导致变量值多样性的数量指标,其代表值为平均数。

平均数是一组描述或反映一组数值变量平均水平的统计指标。

根据计算或确定方法的不同,平均数可分为算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median ) 、调和平均数(harmonic mean )和众数(mode)。

一、算术平均数1.定义 算术平均数简称为均数,是一组观察值之和与观察值个数之商。

是数量上的平均。

统计符号x 。

2.应用条件 要求资料服从正态或近似正态分布。

如生理指标. 3.计算方法⑴直接法 用于观察值例数不多的资料。

计算公式见公式1—1.⑵加权法 用于观察值例数较多或观察值中相同数据较多的资料。

计算公式见公式1—2。

x =nx∑ (公式1-1)x =ffx∑∑ (公式1-2) 式中希腊字母Σ为求和的符号。

例1—2 12例肾虚失钠型哮喘病人甲皱微循环的管袢长度(μm)分别为125。

0、125。

0、125。

0、187.5、187。

5、187。

5、187。

5、250。

0、250。

0、250.0、312.5、312.5,求其均数.代入公式1-1得:x =25。

0+125.0+125.0+187。

5+187。

5+187.5+187。

5+250。

0+250。

0+250.0+312。

5+312.5)/12=2500/12=208.3(μm)例1—3 计算表1—2资料的均数。

(1)列计算表 见表1—4。

表1—4 某地120名正常成年人血浆铜含量(μmol/L )的均数、标准差计算表血浆铜含量(μmol/L ) 组中值x 频数f fx fx2⑴⑵⑶⑷=⑵⑶⑸=⑵⑷9。

00~9.50 8 28。

50 270。

75 10.00~ 10。

5l 4 42.00 441.00 11.00~ 11。

50 12 138。

00 1 587。

00 12。

00~ 12.50 13 162。

50 2 031。

25 13.00~13。

5017 229。

50 3 098。

25二、几何均数1.定义几何均数是n个数值连乘积的n次方根。

是比例或倍数上的平均。

统计符号G。

2.应用条件等比数列资料。

如抗体滴度。

3.计算方法⑴直接法用于观察值例数不多的资料。

计算公式见公式1—3.⑵加权法用于观察值例数较多或观察值中相同数据较多的资料。

计算公式见公式1-4。

注:式中希腊字母Π为求积的符号。

例1-4 某医院测得8例脾虚纳呆患儿的尿液淀粉酶含量(U/10ml)为4,4,8,8,8,16,16,32,试求其均数。

例1—5 某地46例暑温病人的血凝抑制抗体滴度如表3—8第⑴、⑵栏,试求其平均数。

(1)列计算表见表1-5。

(2)计算几何均数将表1—5第⑵、⑸栏合计数代入公式1—4,得:G=㏒—1(104.7004/46) =㏒-12.2761=189三、中位数1.定义将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。

是位次上的平均。

统计符号M。

2.应用条件不拘分布或分布类型不明的资料;一端或两端无界的资料.如潜伏期、治愈时间和发病年龄。

3.计算方法⑴直接法用于观察值例数不多的资料。

若观察值为偶数:M=X(n+1)/2 。

若观察值为偶数,位次居中的两个观察值的均数即中位数。

M=(X n/2+X(n/2+1))⑵频数表法用于观察值例数较多的资料。

计算公式见公式1—5.式中L为M所在组段的下限;i为该组段的组距;fm为该组段的f;Σf为总例数(f之和);Σf L为小于L的各组段fC。

用该式求中位数时,需先编制频数表。

例1-6某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1,1,2,2,3,4,5,7,10,试求其中位数。

本例观察值的个数为奇数,将9个观察值按从小到大的顺序排列后,位次居中的第五个观察值“3天”即其中位数。

如果观察值为10个,第10个数值为16天,则位次居中的两个观察值“3"和“4"的算术均数3.5即为M。

例1—7某医院905例男性银屑病患者的发病年龄资料见表1—6 第⑴、⑵栏,试求其M。

M的累计频率应为50%.由表1—6第(4)栏可知,“20~”组段的累计频率已大于50%,故M应位于该组段内。

代入公式1—5,得:M=20+(10/346)(905/2-306)=24。

23(岁)表1-6 905例男性银屑病病人的发病年龄年龄(岁)频数f累计频数fC累计频率PC(%)⑴⑵⑶⑷<10 54 54 5。

9710~ 252 306(ΣfL) 33.8120~(L) 346(fM)652 72.0430~ 128780 86。

1940~ 84864 95。

4750~ 29893 98。

6760~ 5898 99.23≥70 7 905(Σf)100。

00第三节数值变量资料的离散趋势描述离散趋势指标亦称变异性指标,它们是在整体上描述一组同质观察值的变异程度大小的综合指标,常用的变异性指标有极差、四分位数间距、方差、标准差和变异系数。

为了全面描述研究总体的特征,需要在计算集中性指标的同时计算离散性指标.如表1—7的两组数据,A与B两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。

A较集中,变异较小;而B较分散,变异较大。

一、极差(range)极差亦称全距(R),其计算公式见公式1-2。

R与变异程度成正比。

其特点是意义明确、计算简便,但灵敏性和稳定性较差。

二、百分位数(percentile )和四分位数间距(quartile range )1.概念 百分位数是把一组观察值从小到大排列,分为100等份,与x%位次所对应的数值即为第百分之x位数,以符号Px 表示。

如称居于全部观察值个数百分之五位置的点值为第百分之五位数,以符号P5表示。

一个Px 将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。

故百分位数是一种位置指标。

中位数即P50.四分位数间距是上四分位数Q U(P75)与下四分位数Q L(P25)之差,符号为QR 。

它是中间50%观察值的极差。

2.计算方法 可按公式1—6求得百分位数Px .公式1—6求得四分位数间距。

相关文档
最新文档