分类变量的描述性统计详解演示文稿

合集下载

最新第十六章分类变量的统计介绍教学讲义PPT课件

最新第十六章分类变量的统计介绍教学讲义PPT课件
第十六章分类变量的统计介绍
医学统计学
第十六章 分类变量的统计分析 主讲:黄志碧
第一节 常用的相对数
对分类变量进行统计描述常采用相对数。
收集到的分类资料,首先表现为绝对数。 绝对数说明事物发生的实际水平,是进行统 计分析的基础,但不便于事物进行深入地分 析比较。
一、率
率(Rate)又称频率指标,是指在一定 时间内发生某现象的观察单位数与可能 发生该现象的总观察单位数之比。它说 明某现象发生的频率或强度。

发生某现象的观察单位数 可能发生该现象的观察单位总数
K
K为比例基数,可以是百分率(%)、千分率 (‰)、万分率(1/万)或十万分率(1/10万), 可根据习惯或使计算出的率保持一、二位整数。
习惯用法:
人口出生率、死亡率、自然增长率、婴 儿死亡率等采用千分率;
肿瘤的死亡率采用十万分率。
注意
计算率时,注意分母和时间。只有可 能发生某事件的观察单位才能做分母。时 间一般以年为间期,也有月、周等。


抽样误差
抽样
p
样 本
p
统计推断
1、率的抽样误差
在率的抽样研究中,由于总体中存在个 体变异,所以由抽样得到的样本率(P)与
总体率( )之间存在差异,这种差异称
抽样误差。 在抽样研究中,抽样误差是不可避免
的,但可以用统计方法计算或估计其大小。
总体均数=
标准差=σ
n , p1
n , p2 …
n , pn
医院
有转移
无转移
甲医院 710/755=0.940 45/755=0.060
乙医院 83/383=0.2167 300/383=0.7833
5、率或构成比的比较要做假设检验。

4-分类变量的统计描述

4-分类变量的统计描述


计算公式:
甲指标 相对比 (k ) 乙指标 A 相对比 (k ) B
常用相对比指标
对比指标 关系指标 计划完成指标
对比指标


定义:指两个同类事物某种指标的比,说明 一个数为另一个数的几倍或百分之几,两指 标可是绝对数、相对数或平均数。 举例:


某市某年肺癌死亡率城区为19.39/10万,郊区为 9.99/10万,则两者相对比为:19.39/9.99=1.94 2000年我国人口普查,男子65355 万人,女子 61228 万人,男女性别比为:1.0674
关系指标


定义:指两个相关的、但非同类事物的数量比。 计算公式:
某一事物的绝对数 关系指标 k 另一有关非同类事物的绝对数

举例:某医院1995年医护人员为875人,同年平均 开放病床1436张,医护人员与病床数之比为: (875 ÷ 1436) ×100=61(人),表示该医院每 100张病床平均配备61名医护人员。病床与医护人 员之比为:1436÷875=1.64,表示每名医护人员 平均负责1.64张病床。
构成比(%)
A 100% A B C
构成比的特点
两个主要特点:
各部分构成比的合计应等于100%或1,若不 等于100%时,应作调整,使其等于100%。 事物内部某一部分的构成比发生变化,其它 部分的构成比也相应地发生变化。
举例
某正常人的白细胞分类计数构成比
白细胞分类 中性粒细胞 淋巴细胞 单核细胞 嗜酸性细胞 嗜碱性细胞
甲学校
乙学校
35~ 45~ 55~ 65~80 合计
原患病 分配患 原患病 分配患 率 pi 率pi 病率 病率 (Ni/N)pi (Ni/N)pi 6.78 1.8292 6.90 1.8616 7.20 2.0520 7.39 2.1062 9.90 2.3156 10.21 2.3881 14.68 3.1019 15.29 3.2308 10.02 9.2987 8.73 9.5867

统计学课件-分类变量的统计描述

统计学课件-分类变量的统计描述
3.兩樣本標化率為樣本值, 若瞭解兩樣本標化率之間的 差別是否有統計學意義, 應進行假設檢驗。
第三節 分類資料常用統計圖
2003 我国年部分县死因构成%
疾病
构成%
恶性肿瘤
25.28%
脑血管病
23.75%
呼吸系病
18.72%
心脏病
12.03%
损伤及中毒
5.69%
其它疾病
14.53%
圓圖
其它疾病 14.53%
0.0 1948 1952 1956 1960 1964 1968 年份
某地1950~1966年结核与伤寒死亡率(1/10万)
率標準化法的基本思想就是採用統一 的標準人口構成,以消除人口構成不 同對人群總率的影響,使算得標準化 率具有可比性
二、標準化率的計算
直接法和間接法 根據資料的情況選擇
(一)直接法計算標化率
條件(1)已知實際人群的年齡別率。
(2)選擇標準人群的年齡組人口數或構成比
淋巴节转 移 (1)

标准人 口数 (2)
(6)=(2) (5)
9300
582
4800
300
12200
48
6600
26
19000
124
35300
230
7600
97
2800
36
1900
78
500
21
50000
929
50000
613
甲地標化死亡率P’=15.42 (1/10萬) 0.91=14.03/10萬 乙地標化死亡率P’=15.42 (1/10萬) 1.11=17.12/10萬
三、標準的選擇
進行標準化法計算, 首先要選一個’’標 準” , 如標準人口數, 標準人口構成比或 標準化率等。

分类变量的描述性统计讲解

分类变量的描述性统计讲解

相对危险度(relative risk,简称RR)是指暴露于某种 危险因素的观察对象的发病的危险度与低暴露或无暴 露的观察对象的发病危险度之间的相对比值。相对危 险度常用于队列研究,可用暴露与未暴露于危险因素 的累积发病率(Pl和P0)或人时发病率(F1和F0)估计, 公式为
RR P1 或 RR F1
第三讲 分类变量的统计描述
分类变量的整理(1)
14名成人的原始数据
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
性别 男 女 男 女 男 女 男 女 男 女 男 女 男 女
身高 175 167 187 176 167 178 174 170 167 186 182 159 167 182
OR=odds1/odds2=ad/bc
病人
表3-2 COPD病人与非病人的吸烟情况资料
有吸烟史
无吸烟史
合计
231
125
356
非病人
183
296
479
合计
414
421
835
例3-4 采用例3-1的资料,将基本数据用表3-2表示,试 计算优势与优势比。
病人有吸烟史的优势
odds1

231/ 356 125/ 356
科室 标准组出院
甲院
乙院
病 人 构 成 比 原 治 愈 率 (%) 分 配 治 愈 率 (%) 原 治 愈 率 (%) 分 配 治 愈 率 (%)
Ni/N
pi



(Ni/N)pi
pi
⑷ =⑵ ⑶

(Ni/N)pi ⑹ =⑵ ⑸
内科
0.2792
妇科
0.2907

描述性统计分析详解演示文稿

描述性统计分析详解演示文稿

• 执行【Analyze】/【Descriptive Statistics】/【Ratio】命 令,弹出如下图所示对话框
第三十七页,共38页。
• 结果解读
第三十八页,共38页。
• ① Frequencies:产生变量值的频数分布表,并可计算常见 描述性统计量和绘制相对应的统计图。
• ② Descriptives:计算一般的描述性统计量。
• ③ Explore:探索性分析,使用户能够从大量的分析结果之中挖掘 到所需要的统计信息。
第六页,共38页。
• ④ Crosstabs:对分类变量进行统计推断,包括卡方检验、确切概率 等,是SPSS重要的过程。
第二十页,共38页。
• 学生身高的探索性分析 执行【Analyze】/【Descriptive Statistics】/【Explore 】命令,弹出如图所示对话框
第二十一页,共38页。
• 结果解读
1、描述性统计分析表
第二十二页,共38页。
其中,5% Trimmed Mean:去掉5%极端数之后的均值。
2、M-均值估计——检验异常数据。
第二十三页,共38页。
3、分位点表
其中Tukey's Hinges表示的是绘制箱图时所用的分位点数据,它的计 算方法和一般的百分位数略有不同。
第二十四页,共38页。
4、极值表
5、正态性检验
第二十五页,共38页。
6、方差齐次性检验
第二十六页,共38页。
7、茎叶图
• 定义:假设检验是数理统计学中根据一定假设条件由样本推断总 体的一种方法。
• 它是根据原资料作出一个总体指标是否等于某一个数值,某一随机 变量是否服从某种概率分布的假设,然后利用样本资料采用一定的 统计方法计算出有关检验的统计量,依据一定的概率原则,以较小 的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否 存在显著差异,是否应当接受原假设选择的一种检验方法。

第1讲 分类变量的描述统计(1)

第1讲 分类变量的描述统计(1)


4.双变量分类数据的频数分布
双变量分类数据的频数分布常常表现为一张二维表(two-way table),我们把它叫做列联表 (contingency table)。 下表展现了不同城市的女性对新款夏装的接受态度的调查数据表 表1.3 列联表
对新款夏装的态度 非常喜 欢 城 市 南京 上海 苏州 杭州 北京 Column Total Statistics: principle and application 52 35 96 21 31 235 有点 喜欢 58 48 28 41 48 223
表1.4 上海与南京的百分数对比表
态度 非常喜 欢 南京 34.44% 有点喜欢 38.41% 既不反对也 有点不喜 不喜欢 欢 16.56% 7.95% 完全不 喜欢 1.99% 不知 道 合计
0.66% 100.00%
上海
22.58%
30.97%
25.81%
13.55%
5.81%
1.29% 100.00%
Statistics: principle and application
南京大学金陵学院
4
1.1 变量的类型

变量(variable) 是指一个可以取两个或更多个可能值的特征、特质或属性。比如,性别
是取两个值的变量,因为一个人只可能是男性或女性。还有其它变量的例子,如人的寿命, 体重,以及汽车每升汽油所能行驶的距离,等等。
14
1.2 频数分布表

(4)饼图
图1.6 饮料的饼图

饼图也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要 用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题。
Statistics: principle and application

分类变量的统计分析课件

分类变量的统计分析课件

k
某病死亡率
(疾病别死亡率
)=
某年因某病死亡人数 同年平均人口数
k
某年龄组死亡率 (年龄别死亡率 )=同某年年同某年年龄龄组组平死均亡人人口数数 k
某死因构成比= 因某类死因死亡人数 总死亡人数
100%
某病病死率=
观察期间因某病死亡人 同时期某病患病人数

100%
治愈率= 治愈病人数 接受治疗病人数
75.0%(90/120)。
2 值的大小反映了实际数与理论数的相差情况,若无
效假设 H0成立,则理论数和实际数相差不应该太大,较大
的 2 值出现的概率较小。故根据资料计算的 2 值越大,
就越有理由推翻无效假设 H0 。
T nRnC RC n
TRC 为第R行第C列格子的理论数 nR 为R行的合计数 nC 为第C列的合计数
A乡血吸虫病患病人数 A乡的检查人数
= 17 10000 / 万=22.97 / 万 7400
A乡的血吸虫病患病率是22.97/万。
常用相对数指标:
发病率= 某时期内某病新病例数 同时期平均人口数
k
患病率=
观察期间患某病的新旧 病例数 同时期平均人口数
k
感染率= 感染某病原体人数 受检人数
k
死亡率= 某年死亡总人数 同年平均人口数
pi
Nipi
5.0 500
0.5 50
- 1100
- 550
标化吸烟率
5.50
2.75
医科大学学生标化吸烟率 p ’ =1100/20000=5.50% 工业大学学生标化吸烟率 p ’ =550/20000=2.75%
此标化率是合理的,这才反映了真实情况。

分类变量资料的统计分析PPT课件

分类变量资料的统计分析PPT课件

b
a+b
B药
c
d
c+d
合计 a+c b+d
n
1. 四格表资料的Χ2 检验的专用公式
2
(ad bc)2 n
(a b)(c d)(a c)(b d)
df =(R-1)(C-1)=1
第19页/共37页
2. 四格表资料的Χ2 检验的校正
-- Yates 连续校正
校正公式:
2
A
T T
0.52
ad bc n / 22 n
表10-12 三家医院住院患者的院内感染率比较
医院
感染
未感染
合计

43
188
231

19
170
189

15
151
166
合计
77
509
586
第26页/共37页
H0:三家医院院内感染率相同 H1:三家医院院内感染率不相同或不全相同 α=0.05
2
n
A2 nRnC
1
2
n
A2 nRnC
1
586(
432 231 77
第三节 X2 检验 (chi-square test)
基本思想
检验实际频数与理论频数的吻合程度,实 际频数与理论频数越相近, X2 值越小; 反 之,实际数与理论数相差越大, X2值越大.
计算公式:
2 A T 2
T
理论频数的计算: TRC= nRnC / n df=(行数-1)(列数-1)
列; (3) 删去理论数太小的行和列
3. 假设检验结果有差别,只能认为总的率或构 成比有差别
第29页/共37页

分类变量资料的统计分析-PPT精品

分类变量资料的统计分析-PPT精品

SM r/R n iP i
卫生学(第7版) · 第十章 分类变量资料的统计分析
20
例10-4 某地观察了吸烟者与不吸烟者各年龄组人数如表 10-6,同时观察期内吸烟者中有432人死于肺癌,不吸烟 者中有210人死于肺癌,试计算吸烟者与不吸烟者的标准化
死亡率。
年龄 组
35~ 45~ 55~ 65~ 75~ 合计
8
例10-1 2019年对某地中小学学生进行HbsAg检查, 结果见表10-1,试计算各级学生HbsAg检出率及阳 性者构成比
表 10-1 2001 年某地中小学学生 HBsAg 检出率及构成比
学生
检查人数
阳性人数 检出率(%) 阳性构成比(%)
小学生
660
6
0.91
5.41
初中生
1115
49
4.39
图10-1 率的抽样分布图
卫生学(第7版) · 第十章 分类变量资料的统计分析
27
率的抽样分布特征
1.为离散型分布; 2.当π =1-π时,呈对称分布;
3.当n增大时,逐渐逼近正态分布。 一般认为,当nπ和n(1-π)≥5时, 可近似看作
正态分布。
卫生学(第7版) · 第十章 分类变量资料的统计分析
两个指标可以是绝对数、相对数、平均数,可以是性质相同 或性质不同,但两个指标互不包含。
卫生学(第7版) · 第十章 分类变量资料的统计分析
10
例10-2 某地2019-2019年不同性别新生儿数见表 10-2,试计算该地不同年份新生儿性别比。
表 10-2 年份 2003 2004 2005
某地 2003-2005 年新生儿性别比 新生儿数 男性 女性 性别比
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例3-1 某医生研究了慢性阻塞性肺病(COPD)病人的吸烟情 况,自1998~2000年收治COPD病人356人,其中231人有 三十年及以上的经常吸烟史(日平均1支以上),在本院其它 科室收治的同年龄组段的非COPD病人(无其它呼吸系统疾 患)479人,其中有三十年及以上的经常吸烟史的183人,试计 算并比较两组病人的吸烟率。
一、相对危险度
危险度(risk)是医学研究中常用的一个统计指标, 常用概率(或频率)表示。如发病、患病或死亡的危险 度是指发病、患病或死亡的危险性,这种危险性用发病 率(incidence of a disease)。患病率(prevalence rate)、死亡率(death rate)表示。如吸烟者肺癌、 COPD的患病率高,也可以说吸烟是肺癌、COPD的高 危因素,吸烟者患肺癌、COPD的危险度大。
患者与非患者某因素优势的比值被称作优势比(比值 比)。
OR odds1 odds2
(3-2)
特 点 : 1.各 部 分 构 成 比 的 合 计 等 于 100%或 1。 2.事 物 内 部 某 一 部 分 的 构 成 比 发 生 变 化
时,其它部分的构成比也相应地发生变化。
表 3-1 吸 毒 与 非 吸 毒 人 群 职 业 构 成 对 比 分 析
吸毒组
非吸毒组
职业 学生 无业 个体 工人 司机 其它
矿工与非矿工肺癌发病的危险度(R)分别为两组人群 的10肺万癌,非发矿病工率的(发P)病危。险矿度工P的0=发2病5.危48险/度10P万1=,308.39/
相对危险度 RR 32058..4389//1100万万=12.10
该资料表明,矿工肺癌发病的危险度是非矿工的12.10倍。
二、优势与优势比
人 数 (n) 4
183 54 53 3 13
构 成 比 (%) 1.29
59.03 17.42 17.10
0.97 4.19
人 数 (n) 23 50 27
125 2
130
构 成 比 (%) 6.44
14.01 7.56
35.01 0.56
36.42
合 计 310
100.00
357
100.00
相 对 比 (relative ratio) 为两个有关指标之比,说明一个指标 是另一个指标的几倍或百分之几。两个指 标 可 能 性 质 相 同 或 性 质 不 同 。计 算 公 式 为 :
相对危险度(relative risk,简称RR)是指暴露于某种 危险因素的观察对象的发病的危险度与低暴露或无暴 露的观察对象的发病危险度之间的相对比值。相对危 险度常用于队列研究,可用暴露与未暴露于危险因素 的累积发病率(Pl和P0)或人时发病率(F1和F0)估计, 公式为
RR P1 或 RR F1
分类变量的描述性统计详解演 示文稿
优选分类变量的描述性统计
分类变量的整理(2)
14名成人的原始数据
编号
性别
身高 婚姻状况
1

175
单身
2

167
单身
3

187
单身
4

176
已婚
5

167
已婚
6

178

170
已婚
9

167
离异
10

186
离异
11

182
分居
12

159
分居
13

167
分居
14

182
分居
不同性别的婚姻状况 性别
婚姻状况 男女
单身 2 1 已婚 2 3 离异 1 1 分居 2 2
第一节 常用的比例指标及其意义
一、率: 1. 速率(rate):与时间有关,如某年某病发病率、死亡率。 2. 比率(proportion):与时间无关,如某病治愈率。
二、比: 1. 构成比(constituent ratio):部分与全部之比 2. 相对比(relative ratio):两指标之比
优势(odds)与优势比(odds ratio,简称OR)也是 医学研究中常用的统计指标之一,一般用于病例-对照研 究中。某病患者(或非患者)中某种因素存在的比例P (E)与不存在的比例(1-P(E))的比值被称作优势。
odds P(E) 1 P(E)
(3 5)
odds大于1,说明某因素存在与不存在相比之下有优势; odds等于 1为势均力敌;odds小于1,说明缺乏优势。
一、率 某现象实际发生数与可能发生某现象的总数之比,用 以说明某现象发生的频率或强度,又称频率指标,具有概 率意义。常以百分率、千分率、万分率或十万分率表示。 计算公式为:
率 = 实际发生某现象的观察 数 可能发生某现象的观察 单位总数
×K
(3-1)
式中分子是实际发生某种事件的例数,分母是发生与未发 生 某 事 件 的 总 例 数 , K为 比 例 基 数 , 如 100%, 1000‰ ,万 / 万 , 十 万 /十 万 , 等 。
P0
F0
(3-4)
前瞻性研究(队列研究)的模式:
暴露人群 非暴露人群
结局 结局
发病
未发病 发病
未发病
从时间上来看:
因 现在
果 将来
因素
发病 未发病 发病率
暴露人群 a
b
P1
非暴露人 c
d
P0

P1=a/(a+b)
p0=c/(c+d)
RR=p1/p0
例3-3 某锡矿早年用原始方法开采,自1954年起有肺癌 发病和死亡的记录,到1981年止,全公司职工肺癌发病 率为143.34/10万,其中矿工发病率308.39/10万,非 矿工发病率为25.48/10万,试计算矿工与非矿工肺癌发 病的相对危险度。
表 3-2 COPD病 人 与 非 病 人 的 吸 烟 情 况 资 料
有吸烟史 无吸烟史 合计
COPD病 人
231
非病人
183
125
356
296
479
合计
414
421
835
吸烟率 64.89% 38.02% 49.58%
构 成 比 (constituent ratio)
构 成 比 = 事物内部某一部分的观察单位数 × 1 0 0 % 事物内部各部分的观察单位数总和
相 对 比 = 甲指标 乙指标
(3-3)
第二节 相对危险度与优势比
一、相对危险度(relative risk,RR): 1. 常用于流行病学的队列研究 2. 暴露组发病危险度与低暴露(或无暴露)组发病危险度之比。
二、优势比(odds ratio,OR): 1. 常用于流行病学的病例对照研究 2. 病例组某危险因素的优势与非病例组某危险因素的优势之比。
相关文档
最新文档