统计讲稿12010
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、中位数(median)
将一组值从小到大按顺序排列:
x1x2x3 xn
(1) 中位数的直接计算法 (2) 中位数的频数表计算法:
M LfimN50% fc
其中 M 表示中位数,
L 表示中位数所在的那一组的下限,
i 为该组的组距, fm 表示中位数所在组的频数,
fc 为该组以前的各组的累计频数
乙组
70 75 80 85 90
丙组
60 75 80 85 100
R 甲=100-60=40
R 乙=90-70=20
R 丙=100-60=40
2、四分位数间距
Q= P75 -P25
四分位数间距可看成中间一半观察值的极差。 适用于非正态分布 !!
3、离均差平方和
S S XX2 X2 N X2
对分层抽样的每一层进行抽样时,可采用简单随机抽样 或系统抽样
.
误差
系统误差——校正 随机测量误差 ——控制 抽样误差 ——用统计方法进行正确分析
频率与概率
频率是发生某种现象的观察单位数占可能发生 该现象的观察单位总数的比值 概率是频率的极限,是描写某一事件发生的可 能性大小的一个量度。
用A表示某一事件,P 表示该事件可能发生 的概率,可记为P(A)
B
679 416 2625 3720
O
134 84 570 788
AB
21 40 39 100
计算患病率
计算患病率
血型 胃溃疡 胃癌
正常
合计
O
983
383
2892
4258
23.1% 9.0%
A
679
416
2625
3720
18.3% 11.2%
B
134
84
570
788
17.0% 10.7%
(2) 等级(有序)资料
一、描述集中趋势的统计指标
对于连续型定量变量,描述集中趋 势常用的统计量为算术均数、几何 均数和中位数。
1、算术平均数
描述对称资料的集中位置。 1)直接法
XX 1X 2X 3 X n X
n
n
2) 加权法
其计算公式为 :
Xf1X 1f2X 2 fkX k fX
f1f2 fk
4、百分位数
百分位数计算法:
P x Lfix Nx%fc
其中 :
p 表示百分位数,L 表示百分位数所在的那一组的下限, i 为该组的组距, fx 表示百分数所在组的频数, fc 为该组以前的各组的累计频数
总结
中位数与均数、几何均数的作用相同,都能用来反映一 组数据的集中位置或平均水平,由于中位数的取定仅取决于 它在数据序列集中的位置的那个数的水平,而不是由全部观 察值综合计算出来,因而不受少数特大或特少数值的影响, 在一点上优于均数。
85014.6 51
同样是S甲 >S丙 > S乙
标准差的应用
标准差表示观察值变异程度(离散程度),当两组资料 均数相近,度量单位相同的条件下,标准差较大,说明 观察值的变异程度较大,即各观察值较分散(较远离均 数),因而均数的代表性较差;反之,标准差较小,说 明观察值变异程度较小,即各观察值较集中在均数周围 ,因而均数的代表性较好。
医学统计学
复习
医学统计中的基本概念
医学统计工作的内容
实验设计 整理资料
收集资料 分析资料
资料的类型
医学统计资料的类型
计量资料(数值资料) 分类资料 (计数资料)
不同的统计资料应采用不同的统计分 析方法。
1.计量数据
身高,体重,血压值,脉搏数 例1 某农村地区2019年14岁女孩(10名)的身高 (厘米) 有单位,有14岁女孩(10名)的身高(厘米)
年龄范围
010 20 45 〉65
分类编码
0 1 2 3 4
总体和样本
总体是同质的个体所构成的全体。 从总体中抽取部分个体的过程称 为抽样,所抽得的部分成为样本, 样本所含的个体数目称为样本含 量
从总体中抽取样本 要遵循科学原则
“代表性”——符合总体规定 “随机性”——每个个体被抽取有相同 的概率 “可靠性”——实验结果要有可重复性
习惯上常常将概率值小于0.05或0.01的事件成 为小概率事件,小概率事件基本上不会发生
计量资料的统计描述
平均水平 算术均数——适用于对称分布,尤其是正态 分布资料 几何均数——适用于几何级数分布的资料 中位数——适用于偏态、分布不明、分布末 端无确定值资料
变异程度 标准差和方差 四分位数间距等 变异系数 CV
当频数分布呈明显偏态、或两端无确定数值时,使用中 位数作为集中位置或平均水平较为合理.
当变量呈对称分布时,理论上中位数和均数相同.但对 于样本资料,由于计算均数时利用所有的观察值,所以较中位 数稳定.在统计分析中,中位数的用途不如均数那样广泛. 百分位数可用来描述资料的观察值序列在百分位置的水平, 中位数是其中的特例.
几种常用的抽样方法
2.系统抽样
当总体所含的个体较多时,可将总体分成均衡的几个 部分,然后按照预先定出的规则,从每一部分中抽取 一定数目的个体.这种抽样叫做系统抽样(或机械抽 样).
N n
几种常用的抽样方法
3.分层抽样
当总体是由有明显差异的几个部分组成时,可将总体 按差异情况分成互不重叠的几个部分——层,然后按 各层个体总数所占的比例来进行抽样,这种抽样叫做 分层抽样.
例如;病情的轻,中,重等.甲亢病人与 性别的关系。
病情分布情况
性别 轻
中
重
合计
男 14
17
13
44
女 32
46
38
116
计计算构算成比构成比
性别 轻 中 重 合计
男 14
17
13
44
31.8% 38.6% 29.5%
女 32
46
38
116
27.6% 39.7% 32.8%
(3) 数据分类的转化
定量数据转化为分类数据
标准差结合均数可计算变异系数;
标准差结合均数计算正常值范围。
6、变异系数
变异系数也称离散系数,用CV表示。其计算公式为:
CV S 100% X
变异系数是相对数,没有单位,表示相对变异
最佳选择题
如果对每一个观察值都加上一个相同的 值5,那么 B 。
A. 均数改变,标准差也变 B. 均数改变,标准差不变 C. 均数不变,标准差变 D. 均数不变,标准差也不变
5、 标准差 ( Standard of Deviation )
S X X2 n1
X
2
X
n
2
n 1
其加权法计算公式为:
S
f
X2
f
X2
f
f 1
现计算上述甲、乙、丙三组的标准差,可得:
S甲
100015.8 51
S乙
S丙
250 7.9 51
最佳选择题
如果对每一个观察值都乘上一个相同的 值5,那么 A 。
A. 均数改变,标准差也变 B. 均数改变,标准差不变 C. 均数不变,标准差变 D. 均数不变,标准差也不变
正态分布
正态分布的密度函数
f (X) 1 e(X22)2
2
X
正态分布的两个参数: 均数(数学期望)
1
2
3
1 2 3
三种不同标准差的正态分布
1 2 3
-5 -4 -3 -2 -1 0
1
2
3
4
5
1 2 3
标准正态分布(u分布)与t分布区别
相同点:集中位置都为0,都是单峰分布, 是对称分布,标准正态分布是t分布的特 例(自由度是无限大时) 不同点:t分布是一簇分布曲线,t 分布 的曲线的形状是随自由度的变化而变化, 标准正态分布的曲线的形状不变,是固 定不变的,因为它的形状参数为1。
几种常用的抽样方法
1.简单随机抽样
抽签法(俗称抓阄法)是最常用的简单随机抽样方法. (1)编号做签:将总体中的N个个体编上号,并把号码
写到签上; (2)抽签得样本:将做好的签放到容器中,搅拌均匀后,
从中逐个抽出n个签, 得到一个容量为n的样本. 当总体中的个体较多时,“搅拌均匀”不容易做到,这
样抽出的样本的代表性就会打折扣.此时可以采用 “随机数法”抽样.
医学参考值范围的估计
医学参考值范围指特定健康状况的人群 的解剖、生理、生化等各种数据的波动 范围 医学参考值范围的估计:习惯上是包括 95%(99%)的人的界值,正态分布的 用正态分布法,偏态分布的用百分位数 法
正态分布
标准正态分布
面积
1 ~ 1 1 ~ 1 6 . 2 % 8 7
标准差
标准正态分布的均数为0,标准差为1
正态分布曲线下的面积(概率)
-5 2-.548 -3 1.96-2 -1
0
1 2 1.936 4 2.585
68 .3% 95 .0% 99 .0%
三种不同均值的正态分布
-4 -3 -2 -1 0 1 2 3 4 5 6 7
lg X
n
2)、“加权法”计算
Glg1f lfgX
例2.4 :测得10人血清滴度倒数分别为2, 2,4,4,8,8,8,8,32,32
求滴度的平均水平。 解:lg2=0.301
lgG=(2lg2+2lg4+4lg8+2lg甲组 乙组 丙组
60 70 80 90 100 70 75 80 85 90 60 75 80 85 100
S S (XX)2
SS甲=(60-80)2+(70-80)2+(80-80)2+(90-80)2+(100-80)2 = 1000 SS乙=(70-80)2+(75-80)2+(80-80)2+(85-80)2+(90-80)2 = 250 SS丙=(60-80)2+(75-80)2+(80-80)2+(85-80)2+(100-80)2 = 850
可见
SS甲>SS丙>SS乙
4、方差
总体方差: 2 X2 N
其中 :为总体均 ,数 2为总体方差
样本方差 S2 X X 2 n 1
X
2
(X
n
)2
n 1
变异程度越大,则离均差平方和 越大 ,方差也就越大。
方差越大,说明个体变异越大,则平均 数的代表性就越差。反之,方差越小, 说明个体变异越小,则平均数的代表性 就越好。
二、描述离散程度的统计指标
描述观察值之间的变异程度或偏离集中 位置的程度,常用的统计量:
一类按间距计算,有极差和四分位数间距 。 另一类按平均差距计算,有离均差平方和、方
差、标准差和变异系数 。
1、极差( Range )
R =最大值-最小值
现有甲、乙、丙三组数据
甲组
60 70 80 90 100
f
2、几何均数
适用于观察值间按倍数变化,如:抗体滴 度、细菌计数、血清凝集效价、某些物质的浓 度等,用几何均数来描述平均水平。
2、几何均数
1)、 直接计算法
Gn x1x2 xn
lg G lg X 1 lg X 2 lg X 3 lg X n lg X
n
n
G lg1
滴度的平均水平1: 7
例2.5 某医生使用胎盘浸液钩端螺旋体菌苗对 326名农民接种2个月后,测得血清lgG抗体 滴度表2-4,试求平均抗体滴度(答案:139)
胎盘浸液钩端螺旋体菌苗接种 2个月后血清lgG抗体滴度
IgG滴度倒数 20 40 80 160 320 640
1280
例数 16 57 76 75 54 25 23
. 数值大小14的2.3数据137.9 142.2 148.8 140.5
150.8 140.5 141.8 144.0 142.5
2.分类数据 记录频(个)数的数据.细分为两种: (1)无序分类 例如;血型(A,B,AB,O)与胃溃疡和 胃癌的关系:
血型 胃溃疡 胃癌 正常 合计
A
983 383 2892 4258
1 . 9 ~ 6 1 . 9 6 1 . 9 ~ 1 . 9 69 6 . 0 % 5 0 2 . 5 ~ 8 2 . 5 8 2 . 5 ~ 2 . 5 89 8 . 0 % 9 0
计量数据的统计推断
1、参数估计
由样本均数推断总体均数所在范围。即对总 体参数进行估计 2、假设检验 用假设检验的推理方法来判断某个(某些)随 机样本是否来源同一总体或假设的总体
(1)某个样本是否来自已知总体 (2)两个样本是否来自同一总体 (3)多个样本是否来自同一总体
中心极限定理
分布
均数
总体
正态分布
μ
近似正态分布
标准差 σ
样本均数总体 正态分布 (大样本)
μ
x / n (标准误)
抽样误差 样本均数与总体均数之间的差异或样本均数 之间的差异都是由于抽样引起的,称为抽 样误差 影响抽样误差大小的因素有两个: 总体内各个个体间的变异程度; 样本的含量N的大小。