2.计量资料(定量资料)的统计描述资料
医学统计学复习资料(完整版)

第1章绪论医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。
1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。
2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。
分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的限制)。
反映总体特征的指标为参数,常用小写希腊字母表示。
3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。
(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。
4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。
抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
其根源在于总体中的个体存在变异性。
只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。
统计分析主要是针对抽样误差而言。
5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。
各类资料间可相互转化。
①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。
6.误差:实测值与真实值之差。
可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。
①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。
公卫执业医师-卫生统计学知识点整理

①②③④⑤第一章绪论1、统计工作的基本步骤:研究设计-搜集资料-整理资料-分析资料设计是整个研究过程中最关键的一环;研究设计是统计工作的基础和关键。
统计推断包括参数估计和假设检验。
2.计量资料(定量资料):是用定量的方法对每一个观察单位的某项指标进行测定所得的资料。
其变量值是定量的,表现为数值大小,一般具有度量衡单位。
可分为离散型变量(如现有子女数、儿童龋齿数、胎次)和连续型变量(身高、体重、血红蛋白)。
计数资料(定性资料、分类资料):是把观察单位按某种属性(性质)或类别进行分组、清点各组观察单位数所得资料。
各观察数值是定性的,一般无度量衡单位。
各属性之间互不相容(只有“阴、阳”性或···)例:性别、职业、血型。
等级资料:是把观察单位按属性程度或等级顺序分组,清点各组观察单位所得资料。
医学领域的三类资料可以相互转换。
3、同质:是指所研究的观察对象具有某些相同的性质或特征。
变异:是同质个体的某项指标之间的差异,即个体变异或个体差异性。
总体:是根据研究目的确定的同质研究对象的全体(或全部同质观察单位)。
观察单位优先的总体称为有限总体;无法确定数量的总体称为无限总体。
样本:从总体中具有代表性的一部分个体。
抽样误差:由随机抽样造成的样本指标与总体指标之间、样本指标与样本指标之间的差异称为抽样误差。
抽样误差的根源在于个体变异,在抽样研究中是不可避免的。
概率(P):是随机事件发生的可能性大小的数值度量。
P=1的事件称为必然事件;P=0的事件为不可能的事件;0<P<1的事件称为随机事件;P≤0.05的随机事件称为小概率事件。
第二章计量资料的统计描述1、频数表和频数分布图的用途:①揭示计量资料的分布类型;②揭示计量资料分布的重要特征——集中趋势与离散趋势;③便于发现特大或特小的可疑值;④作为陈述资料的形式。
例数大时可以频率估计概率;⑤便于资料的进一步统计分析。
2、集中趋势:①(算数)均数:总体均数μ和样本均数x ;用于计量资料的正态分布或近似正态分布资料②几何均数G:应用于对数正态分布或近似正态分布资料,也可用于呈倍数关系的等比资料。
医学统计学第1-2章(2015)

3. 方差(variance , 2 , S2)和标准差 (standard deviation , S)
2 X 2
N
S2
2
XX
n1
总体方差
样 本 方 差
37
4.标准差:
X 2
N
总 体 标 准 差
标准差或方差越大,说明个体差异越大,则均数的 代表性越差。
•应用: 对称分布,尤其是正态分布
7
101-
10
104-
18
107-
25
110-
21
113-
15
116-
15
119-
7
122-125
1
合计
120
19
115名正常成年女子的血清转氨酶 (mmol/L)含量分布
血清转氨酶含量
人数
12-
2
15-
9
18-
14
21-
23
24-
19
27-
14
30-
11
33-
9
36-
7
39-
4
42-45
3
20
第二节 集中趋势的描述——平均数
66.67
7
25
32
21.88
62
40
102
60.78
6
分组 血栓组 正常组 合计
表 3. 9 正常妇女和血栓形成者的血型分布
A型
B型
AB 型 O 型
合计
32
8
10
9
59
51
19
12
70
152
83
27
22
定量资料的统计描述

中位数
各种分布类型的资料,特别是偏峰分布资料; 分布一端或两端无确切数值的资料; 分布类型不明
百分位数 各种分布类型的资料
离散趋势
指标
应用条件
极差
对资料类型没有要求
四分位数 间距
方差与标 准差
变异系数
各种分布类型的资料,特别是偏峰分布资料
对称分布,特别是正态或近似正态分布 观察指标单位不同时变异程度的比较; 均数相差较大时变异程度的比较
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分 1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
End Thanks
写出组段
输出结果
输出结果
如果只需获得频数分布图,且对组段与组距没有什么特殊要求,可以通过如下操作 来完成。
输出结果
描述性统计指标
集中趋势:描述定量变量的平均水平 离散趋势:描述定量变量的变异情况
集中趋势
指标
应用条件
算术均数 对称分布,特别是正态或近似正态分布
几何均数 对数正态分布 等比数据资料(如抗体滴度资料)
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
医学统计学学习笔记

医学统计学笔记一、绪论及基本概念1. 资料类型①计量资料(定量资料、数值变量资料):连续型、离散型②计数资料(定性资料、无序分类变量、名义变量):二分类、多分类③等级资料(半定量资料、有序分类变量)信息量:计量资料>等级资料>计数资料2.误差类型①过失误差:可避免②系统误差:具有明确的方向性,可避免③随机误差:分为随机测量误差和随机抽样误差,没有固定的大小和方向,不可避免3.核心概念参数:u、σ;固定的常数,总体的统计指标,参数大小客观存在,但往往未知。
统计量:X̅,S,P;样本的统计指标,参数附近波动的随机变量。
概率为参数,频率为统计量。
4.医学统计工作的基本步骤:设计、收集资料、整理资料、分析资料二、计量资料的统计描述1.集中趋势的描述a.算术均数,简称均数(mean):主要适用于对称分布或偏度不大的资料,尤其适合正态分布资料。
不能用于开口型资料。
u(总体均数),X(样本均数)。
b.几何均数(geometric mean,G):适用于经对数转换后呈对称分布。
观察值不能为0 、不能同时有正有负。
同一资料算得的几何均数小于算术均数。
c.中位数(median, M)和百分位数(precentile, Px):适用于各种分布类型资料。
当计量资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。
用频数表法计算百分位数时,组距不一定要相等。
P x=L x+i x(n∗x%−∑f L)f xL x:第x百分位数所在组段的下限i x:第x百分位数所在组段的组距f x:第x百分位数所在组段的频数∑f L:第x百分位数所在组段上一组段累计频数d.调和均数(harmonic mean,H):适用于表达呈极严重的正偏态分布资料的平均水平。
计算方法为求倒数的均值后再取其倒数。
SPSS:在Transform中输入公式。
2.离散(dispersion)趋势的描述a.极差(range,R):也称为全距。
b.四分位数间距(quartile range,Q):即统计图中箱子的高度,常用于偏态资料离散度的描述,多与M 合用。
《医学统计学》第四章定性资料的统计描述

1、不要把构成比与率相混淆。即分析时不能以构成 比代率;这是常见的错误。
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年 龄增大而减少。该作者把构成比当作率进行分析,犯了以比代率的错误。
2、使用相对数时分母不宜过小。分母过小时相对数 不稳定。
3、注意资料的可比性;
不同时期、不同地区、不同条件下的资料比较时应注意具有 可比性。
12965.2
46.3
否
265
660291.4
40.1
说明该地市区非吸烟女性饮酒者的肺癌发病率是
非吸烟女性不饮酒者的1.15倍。
3.比数比
比数比( Odds ratio ,OR) : 常用于流行病学
中病例-对照研究资料,表示病例组和对照组中的 暴露比例与非暴露比例的比值之比,是反映疾病 与暴露之间关联强度的指标。其计算公式为
一般的,两个地方的出生率、死亡率、发病率、不同级别 医院某病的治愈率等不能直接比较。
无可比性的实例:
由表2-7可见,无论有无腋下淋巴结转移,省医院的5年生存 率均高于市医院,但从总生存率看,省医院的5年生存率低于市 医院。这不符合常理。因此,省医院与市医院的总生存率就不能 直接比较(标准化后再比)。
感谢聆听
率
某事物或现象发生的实 际数 某事物或现象发生的所 有可能数
比例基数
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
例4-1 某单位在2009年有3128名职工,该单位 每年对职工进行体检,在这一年新发生高血压 病人12例,则
《医学统计学》第1-2章

常用平均数的意义及其应用场合
平均数
意义
应用场合
均数 平均数量水平
几何均数 平均增减倍数
中位数 位次居中的观 察值水平
应用甚广,最适用于对称分布, 特别是正态分布
①等比资料;②对数正态分布 资料
①偏态资料;②分布不明资料; ③分布一端或两端出现不确定 值
22
1. 均数 (mean):
, X
应用:正态分布或近似正态分布的定量资料。
女 B 14.67 37.8
疗效
显效 有效 有效 无效
男B
16.80
37.6 无效
标识变量
用于数据管理
分析变量-表示试验效应或观察结果大小的
分组变量
变量或指标
反应变量
5
处理 复方哌唑嗪 复方降压片 安慰剂
合计
表 3.8 三种药物治疗高血压的疗效
有效
无效
合计
有效率(%)
35
5
40
87.50
20
10
30
15
定量资料的频数表和频数图(直方图)
表2.2 某市120名5岁女孩 身高频数表
组段(cm)
频数(f)
95-
1
98-
7
101-
10
104-
18
107-
25
110-
21
113-
15
116-
15
119-
7
122-125
1
合计
120
图2.1 某市城区120名5岁女孩身高频数分布
16
1、 频数分布的特征
如何选用正确的统计指标描述一个定量 资料?
14
第一节 频数分布
医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
定量资料的统计描述

1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)
统计学2 计量资料的统计描述指标课件

N
Valid
Missing
Mean
Median
Std. Deviation
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Percentiles
5
25
50
75
95
97.5
238 0
7.1387 6.6111a 3.3217 1.209
x
72.4
例 某地不同年龄女童的身高资料如下,比较不同 年龄女童身高的变异程度。
表 某地不同年龄女童身高(cm)的变异程度
年龄组 1-2月
例数 100
均数 56.3
标准差 2.1
变异系数 (%)
3.7
5-6月 120
66.5
2.2
3.3
3-3.5岁 300
97.2
3.1
3.2
5-5.5岁 500 107.8
ON AVERAGE 间距 3. 标准差,S 4. 变异系数,CV
变异程度指标越大,表示数据离散程度越大。
1. 极差
Range,亦称全距,即全部观察值中最大值与最 小值之差。
R = X max − X min
极差没有利用全部观察值,是简单但又粗略的变 异指标。
效价 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计
例数 f 2 3 6 9 8 14 12 6 60
G=78.79
只用平均数描述资料的弊病
It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。
医学统计学总复习(刘桂芬主编-研究生使用) (1)

b. t 检验 c. 用 r 检验来代替。 ④ 作结论:如 P≤0.05, 说明方程成立,列出回归方程;如 P>0.05, 说明方程不成立,不列回归方程。 5. 直线相关的概念 6. 直线相关的主要用途:用于分析两变量是否有相关关系及其方 向
观察人数
期内死亡人数
- 14 -
x~
nx
Dx
0~
25
10
1~
22
20
2~
10
9
3~
11
7
4~
10
1
5~
8
4
6~
4
0
7~
4
1
8~
3
0
9~
3
0
10~
2
0
11~
1
0
第三部分 期末成绩评定
一、成绩评定方法 总评(100%)=平时作业 10%+基础理论知识考试(笔试)60%+操作 技能考试(上机)30% 二、考试题型 (一)基础理论知识考试(笔试)(考试时间:100 分钟) 1、最佳选择题(单选)(30%,30 小题,每题 1 分) 2、辨析题(30%,10 小题,每题 3 分) 3、简答题(10%,2 小题,每题 5 分) 4、分析应用题(30%,5-6 题)
第十六章 生存分析
1.生存资料的特点 2.生存分析的几个基本概念(生存时间、死亡概率与生存概率、生存 率、中位生存期) 3.生存分析的用途 4.生存率计算方法:(1)K-M 法:例数少,且为未分组;(2)寿命表 法:例数多,且为频数表资料(注意:生存概率与生存率的结果) 5.生存率曲线比较:(1)log-rank test:两组或多组;(2)Gehan Score test:两组 6.Cox 模型(不要求) 第二十二章 医学论文统计结果报告
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
医学统计学重点要点

医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合.总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计.用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3。
资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料.是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的数值,有度量衡单位.(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容.多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析.第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2。
误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
3。
实验设计的三个基本原则:对照原则、随机化分组原则、重复原则.4。
(完整版)医学统计学复习要点

..第一章绪论1、数据/资料的分类:①、计量资料,又称定量资料或者数值变量;为观测每个观察单位某项治疗的大小而获得的资料。
②、计数资料,又称定性资料或者无序分类变量;为将观察单位按照某种属性或者类别分组计数,分组汇总各组观察单位数后而得到的资料。
③、等级资料,又称半定量资料或者有序分类变量。
为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。
2、统计学常用基本概念:①、统计学(statistics )是关于数据的科学与艺术,包括设计、搜集、整理、分析和表达等步骤,从数据中提炼新的有科学价值的信息。
②、总体(population )指的是根据研究目的而确定的同质观察单位的全体。
③、医学统计学(medical statistics ):用统计学的原理和方法处理医学资料中的同质性和变异性的科学和艺术,通过一定数量的观察、对比、分析,揭示那些困惑费解的医学问题背后的规律性。
④、样本(sample ):指的是从总体中随机抽取的部分观察单位。
⑤、变量(variable ):对观察单位某项特征进行测量或者观察,这种特征称为变量。
⑥、频率(frequency ):指的是样本的实际发生率。
⑦、概率(probability):指的是随机事件发生的可能性大小。
用大写的P 表示。
3、统计工作的基本步骤:①、统计设计:包括对资料的收集、整理和分析全过程的设想与安排;②、收集资料:采取措施取得准确可靠的原始数据;③、整理资料:将原始数据净化、系统化和条理化;④、分析资料:包括统计描述和统计推断两个方面。
第二章计量资料的统计描述1. 频数表的编制方法,频数分布的类型及频数表的用途①、求极差(range ):也称全距,即最大值和最小值之差,记作R ;②、确定组段数和组距,组段数通常取10-15组;③、根据组距写出组段,每个组段的下限为L ,上限为U ,变量X 值得归组统一定为L ≤X <U ,最后一组包括下限。
定量资料的统计描述

一、基本概念
总体与样本 变量 误差 概率
二、资料和统计分析
资料的两种类型
定量资料(计量资料) 定性资料(分类资料) 连续 离散 二项分类 多项分类
无序
有序(等级)
根据变量取值特点,计量资料分为:
连续性资料:变量值可以在实数轴上连续变
动。如红细胞数、身高、体重。
定量资料统计描述过程:
定量 资料 统计 描述
一、Descriptives过程
进行一般性的统计描述(统计指标) 适用于服从正态分布的定量资料 特殊功能:可对原变量进行标准正态 变换N(0,1)
Descriptives过程:
标准 正态 变换: Z+?
峰度系数、 偏度系数
二、Frequencies过程
涉及的统计指标比Descriptives过程全 面,可产生详细的频数表,并给出常用统 计图。 更适用于对分类资料以及不服从正态分 布的连续性变量进行描述。
Frequencies过程:
产生 频数 表
Frequencies过程:
正态 曲线
三、Explore 过程(探索性分析)
三个过程中功能最强大,对变量的描 述统计更深入详尽; 适用于对资料的性质、分布特点完全 不清楚时; 特殊功能:茎叶图、箱式图
2.Descriptive Statistic
3.Descriptives
optins
几何均数的计算
教材P45 例4.4 数据录入 分析过程
对数转换:Transform Compute
生成 新变 量lgx
Transform
Compute:
函数 组
练习
课后习题P394 第3题
分层资料 统计学

分层资料统计学
统计学中的资料分类:
(1)计量资料:也叫定量资料,指对每个观察单位的某个变量的定量结果,表现为数值大小,一般有度量衡单位。
如身高(cm)、体重(kg)等,有单位。
(2)计数资料:也叫定性资料和分类资料,是将观察单位按某种属性进行分组计数的定性观察结果。
分组是互不相容的类别或属性。
包括:
①二项分类资料:分两组。
(如性别:只有男、女两类,互不相容);
②多项分类资料:分多组。
(如ABO血型:A、B、O、AB四种血型互不相容)。
(3)等级资料:也叫有序分类资料,各类之间有程度的差别,特点具有“半定量”性质,如检查血清学检查结果:——、±、++、++++四级。
某种疾病的疗效资料分为无效、好转、显效、治愈。
统计学重点(8)

名词解释:1.参数(p a r a me t e r):总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。
是固定的常数统计量(s t a t i s t i c):样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为X、S。
是参数附近波动的随机变量。
2.系统误差(s y s t e m e r r o r):实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或能掌握的。
(受确定因素影响,大小变化有方向性)随机误差(r a n d o m e r r o r):一类不固定的、随机变化的误差,由多种尚无法控制的因素引起。
(影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析)医学参考值(r e f e r e n c e v a l u e):是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。
可信区间(c o n f i d e n c e b o u n d/c o n f i d e n c e i n t e r v a l,C I):按预先给定的概率(1-a)所确定的包含未知总体参数的可能范围。
3.I型错误(弃真):拒绝实际上成立的H0,这类“弃真”的错误称为I型错误。
(1-a)即可信度:重复抽样时,样本区间包含总体参数(m)的百分数。
I I型错误(纳伪):接受了实际上不成立的H0,这类“取伪”的错误称为I I型错误,记为β。
(1-β)即把握度(或检验效能):两总体确有差别,被检出有差别的能力。
4.P值:H0成立的前提下,用样本数据所获得的检验统计量,及比样本数据绝对值更为极端的某曲线下的面积。
二项分布(b i n o mi a l d i s t r i b u t i o n):是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验中,当每次试验的“阳性”概率π保持不变时,出现“阳性”次数x=0,1,2…n的一种概率分布。
卫生统计学名词解释

1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性.所谓有代表性的样本,是指用随机抽样方法获得的样本。
2。
随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
3。
变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象.严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
4.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data).计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位.如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data).计数资料亦称定性资料或分类资料.其观察值是定性的,表现为互不相容的类别或属性。
如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。
等级资料又称有序变量.如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等。
第02章 计量资料的统计描述课件

组段数 5;组距 10分
表2.1 某医院产科某月顺产婴儿出生身长(单位:cm) 48 48 47 42 53 49 45 50 48 52 49 57 46 48 46 42 49 51 50 51 56 42 59 49 48 52 42 49 55 53 51 45 47 47 47 50 48 51 51 53 46 47 57 45 46 51 46 51 47 51 55 47 52 47 48 54 47 54 49 44 53 54 45 48 44 48 42 47 48 50 55 50 53 56 49 50 56 41 53 53 49 44 49 48 45 52 52 46 54 50 44 53 49 47 48 45 51 45 50 53
(1)直接法—根据样本含量的奇偶选择公式
n为奇数时 n为偶数时
M X ( n1) 2
1
M
2
X(n) 2
X ( n 1) 2
例2-6:9只大鼠存活天数如下: 4,10,7,3,15,2,9,13,>60 则这9只大鼠的平均存活天数为多少天?
排序:2,3, 4, 7, 9,10 ,13, 15, >60 故这9只大鼠的平均存活天数为9天。
-
二、频数分布图
图2.1 100名顺产婴儿出生身长的频数分布
频数
三、频数表和频数分布图用途
1、描述频数分布的类型
25 20 15 10
5 0
图 2 - 2 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布
血 清 总 胆 固 醇(mmol/L)
对称分布:各组段的频数以频数最多组段为中心左右两侧大体对称。
PX
大
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
1. 频数表的编制步骤 列出各组段 第一组段
最后一组段
2018/10/28
9Leabharlann 1. 频数表的编制步骤(3)列表划记
将原始数据一一对 应入每个组段,通 过划“正” 字,来 统计每个组段内的 数据
2018/10/28
10
1. 频数表的编制步骤
(3)列表划记
统计每个组段内的 频数(例数) 频数的合计数等于 样本含量
2018/10/28
24
1.算术均数
(arithmetic mean)
又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母 表示,样本均数用 x 表示 计算方法:
直接法: 频数表法:
应用: 正态分布或近似正态分布资料
2018/10/28
25
从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频 数分布逐渐减少,是为离散趋势。
集中趋势和离散趋势是频数分布的两个重要侧面,从这两 方面就可全面的分析所研究的事物。
2018/10/28
18
4.频数分布的类型
频数分布又可分为对称分布和偏态分布
对称分布:集中位置在正中,左右两侧频数分布
第十一章 资料的描述性分析
第十一章 资料的描述性分析
第一节 第二节 统计图表 计量资料的统计描述方法 计数资料的统计描述方法
2018/10/28
2
第一节 计量资料的统计描述方法
常用的描述定量资料分布规律的统计方法 有两类:
统计图表:频数分布表/图 选用适当的统计指标:
集中趋势指标:均数、中位数 离散趋势指标:极差、标准差
(2)划分组段 确定各组段的上下限:
每个组段的起点称为该组的下限(low limit), 终点称为上 限(upper limit), 上限=下限+组距; 第一组段必须包括最小值,因此其下限取包含最小值、较 为整齐的数值; 例8.1 第一组段下限为 3.60,上限为3.60+0.20=3.80 各组段不能重叠,每一组段均为半开半闭区间,即包括下 限,不包含上限。 例8.1 第一组段为3.60~ 即[3.60,3.80);以此类推。 最后一组段,须包括最大值,且要列出这一组段的下限和 上限,即5.40~5.60, [5.40,5.60]
2018/10/28
3
第一节 数值变量资料的频数分布
频数分布表( frequency distribution table ): 将变量值化分为若干个组段,清点并记录各组段 变量值的个数,称为频数表(frequency
table ) 。
2018/10/28
4
第一节 数值变量资料的频数分布
最小 值
大体对称
偏态分布:集中位置偏向一侧,频数分布不对称
正偏态分布:集中位置偏向年龄小的一侧 负偏态分布:集中位置偏向年龄大的一侧
不同类型的分布,应采用相应的统计分析方 法。
2018/10/28
19
4.频数分布的类型
正态分布 ( normal distribution )
中间高、两边低、左右对称 属于对称分布的一种 许多医学资料都属于这种分布, 例如人体正常的生理生化指标
2018/10/28
11
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 频率
每组的频数 样本含量
2018/10/28
12
1. 频数表的编制步骤
(3)列表划记
计算出每个组段的 累计频率 =本组段的频率+上 一组段的累计频率
2018/10/28
13
1. 频数表的编制步骤
2018/10/28
14
负偏态分布
(negative skewed)
2018/10/28
22
5.频数表的用途
频数表可揭示资料的分布特征和分布类型 便于进一步计算统计指标和统计分析处理(第二节) 便于发现某些特大或特小可疑值,便于资料的校对。
2018/10/28
23
一、集中趋势指标
算术均数(arithmetic mean) 几何均数(geometric mean) 中位数和百分位数(median percentile) 以上统称为平均数(average)常用于描述一组 变量值的集中位置,代表其平均水平或是集中 位置的特征值。
2.绘制频数分布直方图
绘制频数分布直方图 坐标轴
横坐标:变量值即研究指标,无需从0开始,以单位尺度 划分。 纵坐标:为频数f,必须从0开始(f为每一组段内的人数)
直条
直条的宽度:组距 直条的高度:每一组段的频数
累计
2018/10/28
15
2.绘制频数分布直方图
2018/10/28
1.算术均数
计算方法
直接法:即将所有观察值x1,x2,x3,…,xn直接相加 再除以观察值的个数,写成公式
最 大 值
2018/10/28
5
第一节 数值变量资料的频数分布
1. 频数表的编制步骤 (1)求数据的极差: 极差(range)是全部数
据中的最大值与最小值之差,它描述了数据的变 异幅度。
公式:R=XMax-XMin 例8.1: XMax =5.59
XMin =3.60
R=5.59-3.60=1.99
正态分布
2018/10/28
20
4.频数分布的类型
a.尖峭峰 b.正态峰 c.平阔峰
2018/10/28
21
4.频数分布的类型
正偏态分布:峰偏左,尾部向右侧延伸 如:以儿童为主的传染病发病人数的分布 右偏态
正偏态分布
(positive skewed)
负偏态分布:峰偏右,尾部向左侧延伸 如:以老年人为主的慢性病发病人数的分布 左偏态
16
2.绘制频数分布直方图
2018/10/28
17
3、频数分布的特征 从频数表可以看到频数分布的两个重要的特征
集中趋势(central tendency)
血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居 多,是为集中趋势。
离散趋势(tendency of dispersion)
2018/10/28
6
1. 频数表的编制步骤
(2)划分组段 确定组数: n>100,10~15组;n<100,8~10组 确定组距:
组距可以相等也可以不相等,一般采用等距分组, 组距=极差/组数 例8.1 1.99/10≈2,故组距=2mmol/L
2018/10/28
7
1. 频数表的编制步骤