第2讲计量资料统计描述
2 计量资料的统计描述指标
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠
例
某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -
计量资料统计描述
• 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组变量 值的集中位置,代表其平均水平或是集中位置的特征 值。
36
第37页/共138页
一、算术均数
2024/8/7
(arithmetic mean)
7
第8页/共138页
一、频数分布表
2024/8/7
(2)确定组段数和组距 • 确定组段数:
n>100,10~15组;n<100,8~10组 • 确定组距:
• 组距可以相等也可以不相等,一般采用等距分组,
• 组距=极差/组数 例1 1.99/10≈2,故组距=2mmol/L
8
第9页/共138页
一、频数分布表
第30页/共138页
中介值细胞区域出异常白细胞峰
第31页/共138页
由大量白血病细胞出现形成的单一峰
第32页/共138页
第33页/共138页
红细胞分布直方图
第34页/共138页
第35页/共138页
第36页/共138页
第二节 集中趋势的描述
2024/8/7
• 算术均数(arithmetic mean)
极大值或极小值通常将均数拉向自己
2024/8/7
46
第47页/共138页
二、几何均数
2024/8/7
(geometric mean)
• 定义:有些医学资料,如抗体滴度、细菌计数等,其频数 分布明显偏态,各观察值之间呈倍数变化(等比关系), 此时宜用几何均数反映其平均增减倍数。
• 计算方法:
• 直接法
• 加权法
• 应用:等比资料或对数正态分布资料
统计学第二章计量资料的统计描述
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
统计学2 计量资料的统计描述指标课件
N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例 某地不同年龄女童的身高资料如下,比较不同 年龄女童身高的变异程度。
表 某地不同年龄女童身高(cm)的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数 (%)
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差,S 4. 变异系数,CV
变异程度指标越大,表示数据离散程度越大。
1. 极差
Range,亦称全距,即全部观察值中最大值与最 小值之差。
R = X max − X min
极差没有利用全部观察值,是简单但又粗略的变 异指标。
效价 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
例数 f 2 3 6 9 8 14 12 6 60
G=78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。
第2章计量资料的统计描述
即有序数列中,第6位上的变量值为5,故其
平均潜伏期为5天。
三、中位数和百分位数 例2-6
如上例资料在第21天又发生1例该传染病患 者,其平均潜伏期又为多少? 先将变量值按从小到大的顺序排列:2,2, 3,3,4,5,6,8,9,11,15,21。
三、中位数和百分位数
n=12,为偶数
X n X n
132.1
143.6 142.4 145.9
135.5
149.0 139.6 144.4
141.2
143.5 134.7 150.8
141.5
139.2 147.3 144.5
148.8
144.7 138.1 137.1
140.1
139.3 140.2 147.1
150.6
141.9 137.4 142.9
科学出版社卫生职业教育出版分社
X n 1
2
三、中位数和百分位数
3.计算方法
⑴直接法
当变量值个数为奇数时计算公式为
M= X n 1
2
三、中位数和百分位数
当变量值个数为偶数时计算公式为
X n X n
M=
2
1 2
符号 用M表示
三、中位数和百分位数
2.应用条件
1
偏态分布资料, 包括正偏态和负 偏态分布的资料 ,如正常人必需 微量元素含量分 布、儿童少年视 力分布等。
2
一端或两端无界 (无确定数值) 的资料,即所谓 开口资料,如传 染病平均潜伏期 等。
3
频数分布类型不 明的资料,如确 定不了资料的分 布类型,用中位 数描述集中趋势 比较稳妥。
f
=120
第二讲计量资料的统计描述
几何均数( mean) 几何均数(geometric mean)
G = n X1X2 LXn 1 ∑lg X lgG = (lg X1 + lg X2 +L+ lg Xn ) = n n lg X 1 ∑ 几何均数: 几何均数:变量 G = lg n 对数值的算术均 对数值的算术均 lg 表 以 为 的 数 数的反对数。 示 10 底 对 ; 的反对数。
2×57.5 + 5×60.5 +L+1×84.5 9311 X= = = 71.62(次 分) 2 + 5 +L+1 130
2、应用
适用于对称分布, 均数适用于对称分布,特别 是正态分布资料。 是正态分布资料。
几何均数( mean) 二、 几何均数(geometric mean) 可用于反映一组经对数 可用于反映一组经对数 转换后呈对称分布或正态分 转换后呈对称分布或正态分 布的变量值在数量上的平均 水平。 水平。
130名健康成年男子脉搏 名健康成年男子脉搏( 表2-1 130名健康成年男子脉搏(次/分)的频数分布表
脉搏组段 (1) 56~ 59~ 62~ 65~ 68 68~ 71~ 74~ 77~ 80~ 83~85 合 计 频数, f (3) 频率(%) (4)= (3)/N 累积频数 (5)=(3)↓ 累积频率 (6)=(5)/N
是否为对称分布?
50 45 40 35 30 25 20 15 10 5 0 2.45 3.05 3.65 4.25 4.85 5.45 6.10
频 数
变量
(2)偏态分布 : )
1)正偏态分布(右偏态分布):右侧的组段数多于 )正偏态分布(右偏态分布):右侧的组段数多于 ): 左侧的组段数,频数向右侧拖尾。 左侧的组段数,频数向右侧拖尾。
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
第二章 计量资料的统计描述
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2
xi
x2
2计量资料的统计描述指标介绍
2计量资料的统计描述指标介绍计量资料的统计描述指标是对数据集合进行概括和描述的方法,可帮助我们了解数据的分布、集中趋势和离散程度,以及可能存在的异常值。
常用的统计描述指标包括均值、中位数、众数、极差、标准差、方差、四分位数和百分位数等。
1. 均值(Mean):均值是一组数据的总和除以数据的个数。
均值可以反映数据的集中程度,但容易受到异常值的影响。
2. 中位数(Median):中位数是一组数据按大小排序后,位于中间位置的数值。
中位数可以反映数据的中间位置,不受异常值的影响。
3. 众数(Mode):众数是一组数据中出现次数最多的数值。
众数可以反映数据集中的特点。
4. 极差(Range):极差是一组数据的最大值与最小值之差。
极差可以反映数据的全面分布。
5. 标准差(Standard Deviation):标准差测量数据的离散程度。
标准差越大,数据的离散程度越大。
6. 方差(Variance):方差是标准差的平方。
方差可以反映数据的离散程度,但单位是原数据的平方。
7. 四分位数(Quartiles):四分位数将一组数据按大小排序后,分为四等分,分位点分别是Q1(25%分位点)、Q2(中位数)和Q3(75%分位点)。
四分位数可以帮助我们了解数据集的分布情况。
8. 百分位数(Percentiles):百分位数是将一组数据按大小排序后,分为100等分,每个等分对应一个百分位数。
百分位数可以帮助我们了解数据的分布情况,例如第75百分位数表示排在该位置的数据值大约有75%的数据小于它。
这些统计描述指标都是通过对数据进行运算得出的,可以帮助我们了解数据的分布情况和特点。
在实际应用中,我们可以根据具体的问题选取适当的统计描述指标进行分析,帮助我们更好地理解数据。
同时,还需要注意统计描述指标的局限性,例如均值容易受到异常值的影响,中位数和众数不能反映数据的离散程度等,因此在使用时需要结合具体情况进行综合分析。
第02章 计量资料的统计描述课件
组段数 5;组距 10分
表2.1 某医院产科某月顺产婴儿出生身长(单位:cm) 48 48 47 42 53 49 45 50 48 52 49 57 46 48 46 42 49 51 50 51 56 42 59 49 48 52 42 49 55 53 51 45 47 47 47 50 48 51 51 53 46 47 57 45 46 51 46 51 47 51 55 47 52 47 48 54 47 54 49 44 53 54 45 48 44 48 42 47 48 50 55 50 53 56 49 50 56 41 53 53 49 44 49 48 45 52 52 46 54 50 44 53 49 47 48 45 51 45 50 53
(1)直接法—根据样本含量的奇偶选择公式
n为奇数时 n为偶数时
M X ( n1) 2
1
M
2
X(n) 2
X ( n 1) 2
例2-6:9只大鼠存活天数如下: 4,10,7,3,15,2,9,13,>60 则这9只大鼠的平均存活天数为多少天?
排序:2,3, 4, 7, 9,10 ,13, 15, >60 故这9只大鼠的平均存活天数为9天。
-
二、频数分布图
图2.1 100名顺产婴儿出生身长的频数分布
频数
三、频数表和频数分布图用途
1、描述频数分布的类型
25 20 15 10
5 0
图 2 - 2 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
血 清 总 胆 固 醇(mmol/L)
对称分布:各组段的频数以频数最多组段为中心左右两侧大体对称。
PX
大
2-计量资料的统计描述(11硕)
其中 X =
∑ fX ∑f
X:组中值
本组段下限值+下组段下限值 2
测得130健康成年男子脉搏资料 次/分)如下,试编制频 健康成年男子脉搏资料(次 分 如下 如下, 例2-1 测得 健康成年男子脉搏资料 数表和观察频数分布情况。 数表和观察频数分布情况。
75 82 66 60 72 81 77 69 84 80 76 80 77 67 78 70 75 68 66 68 72 82 64 75 72 66 79 65 70 76 69 67 67 75 67 75 64 70 73 70 66 69 76 73 72 71 79 69 60 79 72 73 75 79 80 63 73 66 76 77 57 64 75 66 68 77 76 81 82 64 68 74 71 69 70 74 61 63 73 70 71 58 65 79 61 76 80 64 64 66 72 70 62 78 70 68 64 80 65 69 69 64 76 70 73 65 69 74 73 73 72 60 72 72 72 77 70 78 73 78 73 77 71 70 71 69 73 76 63 76
本章内容
频数分布 集中趋势的描述 离散趋势的描述 正态分布 医学参考值范围的制定
第一节 频数分布
频数分布表 频数分布图 频数表和频数分布图的用途
一、频数与频数分布表
频数(frequency) 频数 对一个随机事件进行重复观察,其中某变量值 出现的次数 频数分布表(frequency distribution table) 频数分布表 是用表格的形式将各变量的取值与之相对应的 频数用以表达的一种统计计算或分析表
研究生统计学第二章计量资料统计描述2正态分布
x x
一、正态分布的概念和特征
一、正态分布的概念和特征 如果以总频数为1,当随机变量X取值为x时的频数可用下式求得:
即随机变量X服从均数为μ,标准差为σ的正1态分x布,记2为: X~N(μ,σ2)
fx 1 e , x f(x)称随机变量X的概率密度函数。 2
布、F分布等。
正态分布的应用
利用正态分布进行质量控制 由于随机测量误差的分布符合以0为中心的正态分布,假如对同一份样品采用同样
的方法多次重复测定同一个指标,则所有测量值的分布符合以真实值为中心的正态 分布。
实验室检测质量控制
x2s 在实验室检测质量控制中,通常以
作为上下警戒值,以
和3s分别作为1.96s和2.58s的近似值。
二、标准正态分布 如果以总频数为1,不同u值时的频数(概率)可用下式求得:
(u) 1 e , u 如果以曲线下的总面积为1,则从-∞至u的 面u积2可/2用下列积分公式求得: 2
(u) 1 ueu2/2d, u u
2
二、标准正态分布 标准正态分布u 值所对应的概率和曲线下的面积
二、标准正态分布
2
一、正态分布的概念和特征
正态分布以均数所在处频数最多,两侧逐渐减少,但永不为零,左右完全对称,其图形为 近似钟形。
正态分布有两个基本参数:μ和σ2 • μ为均数,是正态分布的位置参数; • σ2是方差,为变异度参数,它决定正态分布的形态。σ2越大,则各变量值平均的离均差越
大,变量值的分布较分散,正态曲线越低平(胖); σ2越小,则各变量值平均的离均差 越小,变量值的分布较集中,正态曲线越瘦高。 有了这两个参数,即可绘制出正态分布的图形。
统计学知识点(完整)
基本统计方法第一章概论1。
总体(Population):根据研究目的确定的同质对象的全体(集合);样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。
2。
参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。
第二章计量资料统计描述1. 集中趋势:均数(算术、几何)、中位数、众数2。
离散趋势:极差、四分位间距(QR=P75—P25)、标准差(或方差)、变异系数(CV)3。
正态分布特征:①X轴上方关于X=μ对称的钟形曲线;②X=μ时,f(X)取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2。
58σ的面积为99。
00%。
4. 医学参考值范围的制定方法:正态近似法:;百分位数法:P2.5-P97.5。
第三章总体均数估计和假设检验1。
抽样误差(Sampling Error):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可避免,产生的根本原因是生物个体的变异性.2。
均数的标准误(Standard error of Mean, SEM):样本均数的标准差,计算公式:.反映样本均数间的离散程度,说明抽样误差的大小。
3。
降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。
4。
t分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度ν,ν越小,t值越分散,t分布的峰部越矮而尾部翘得越高;③当ν逼近∞,逼近,t分布逼近u分布,故标准正态分布是t分布的特例.5. 置信区间(Confidence Interval,CI):按预先给定的概率(1—α)确定的包含总体参数的一个范围,计算公式:或。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*要求层内个体差异越小越好.层间差异 越大越好。
*优点是抽样误差小,不同层可采用不同 抽样方法,各层可独立进行分析。
第2讲计量资料统计描述
11
D、整群抽样
• 整群抽样不是按个体进行抽样,而是抽取由 个体组成的群体的抽样方法。如抽取的是该地 区若干个县的全体居民。整群抽样的主要持点 是以“群”为基本抽样单位。
• 抛一枚硬币,是否国徽面一定向上?明天的股市 升还是降?某患者痊愈的可能性?这些问题的答 案都不可能绝对。
• 描述随机事件发生的可能性大小的数值,常用P来 表示。
• P的大小在0—1之间,越接近于1,说明发生的可 能性越大,越接近于0,说明发生的可能性越小。
通常一个事件的发生小于5%,就叫小概率事件。
第2讲计量资料统计描述
17
前讲回顾
统计资料的类型
• 变量、变量值
三种基本类型:
计量资料, 计数资料, 等级资料
*按变量值性质——定量资料和定性资料。
第2讲计量资料统计描述
18
计量资料的统计描述
第2讲计量资料统计描述
19
主要内容
• 频数表与频数图 • 计量资料的常用统计指标
(集中趋势 离散趋势) 正态分布 • 正常值范围估计
• 频率:在实际工作中,当观察单位的例数足够多 时,可以用频率来代替概率。频率是概率的估计 值。
第2讲计量资料统计描述
16
小结
1. 统计工作的基本步骤是什么? 2. 统计资料分为几类? 特点?
判断:大学教授的年收入,欧洲的国家 数,血红蛋白含量,患者的资料情况。 3. 什么是总体? 什么是样本? 4. 基本的概率抽样方法是什么? 5. 什么是抽样误差? 如何减小? 能否避免?
第2讲计量资料统计描述
9
B 系统抽样
* 按照一定顺序机械地每隔若干个单 位抽取一个单位,又称机械抽样、
等距抽样。
*其抽样间隔=(总体数量/样本 含量),一般是随机找一个单位为起 点,以后按抽样间隔进行抽样。
第2讲计量资料统计描述
10
C 分层抽样
*先将总体中所有观察单位按主要特征(如 年龄、性别、病情轻重等)分为若干层次.
特点:没有倾向性,多次测量计算平均值 可以减小甚至消除随机测量误差。
第2讲计量资料统计描述
14
B、 抽样误差
由于抽样原因造成的样本指标与 总体指标之间的差别。
特点:有抽样,抽样误差就不 可避免。但抽样误差有规律,统 计上往往可以计算并在一定范围 内控制抽样误差。
第2讲计量资料统计描述
15
4. 频 率 与 概 率
同质个体间的差异。来源于一些未加控制 或无法控制的甚至不明原因的因素。是统 计学存在的基础。
• 从本质上说:统计学就是通过对个体变异
的研究,揭示同质事物的本质特征与规律。
第2讲计量资料统计描述
3
2. 总 体 与 样 本
• 总体---参数(parameter)
根据研究目的确定的研究对象的全体,即性质相同的 所有观察对象的集合;分为有限总体和无限总体。
可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主
观、有目的、为方便进行抽样;
• 不能计算抽样误差,或一般按简单随机抽样 计算误差。配额抽第2讲样计量资、料统滚计描述雪球/识别抽样 8
A 单纯随机抽样
*将调查总体的全部观察单位编号, *用抽签法或随机数字表法进行抽
样。*它是最基本的抽样方法,也是 其他抽样方法的基础。
• 大多数得不到总体数据,参数是未知的 • 估计总体结果是统计学的目的之一
第2讲计量资料统计描述
5
3. 普查 与 抽样
• 普查:全面调查,根据研究目的确定总体, 人口普查,肿瘤普查
• 是社会学/卫生防疫的指标确定的依据 • 注意时效性、变化性 • 传染病报告制度,地震伤亡等都属于普查
第2讲计量资料统计描述
• 样本---统计量(statistics) 总体中的部分;研究对象。
• 总体与样本的关系
统计学解决的问题:正确从样本特征推测总体水平。
• 抽样:从总体中选择样本的过程。 • 样本量(sample size):样本所包含的个体数目。
第2讲计量资料统计描述
4
2. 总 体 与 样 本
• 参数:总体统计学特性的数字,包括总体 均数、总体方差、总体标准差;
6
3. 普查 与 抽样
选择样本的方法:概率抽样和非概率抽样
等概率抽样 非等概率抽样
抽单 样纯
随 机
样系 统 抽
样分 层 抽
样整 群 抽
第2讲计量资料统计描述
7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可 计算的,其样本统计量是参数估计和计算误 差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,
第2讲计量资料统计描述
20
第一节 频数表与频数图
原始计量资料
第2讲计量资料统计描述
21
一.几个基本概率
频数:当汇总大量的原始数据时,把数据按类型分组(组段), 其中每个组的数据个数,称为该组的频数。
频数表(频数分布):表示各组段频数的表格称为频数表或频数 分布。 表4-1计数P44,表4-2等级,表4-3计量 P45,
特点:具有累加性、方向性、可避免性
(2).随机误差:由于一些非人为的偶然因素使得结 果或大或小,是不确定、不可预知的。特点:无方向性、不能避。第2讲计量资料统计描述
13
A、 随机测量误差
在消除了系统误差的前提下,由于非人为 的偶然因素,对于同一样本多次测定结果不 完全一样,结果有时偏大有时偏小,没有倾 向性,这种误差叫随机测量误差。
的统计描述
第2讲计量资料统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
第2讲计量资料统计描述
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
• 抽样误差由小到大的依次为:
分层抽样 < 系统抽样 < 单纯随
机抽样 < 整群抽样。
思 考 题:普查和抽样有什么区别和联系?
第2讲计量资料统计描述
12
4. 误 差
误差:统计上泛指测量值与真值之差,样本指标与
总体指标之差。主要有二种:系统误差和随机误差
(随机测量误差,抽样误差)。
(1)系统误差:指数据搜集和测量过程中由于仪器不 准确、标准不规范等人为原因,造成观察结果呈倾向 性的偏大或偏小。