分类变量资料描述
统计方法学部分对于连续变量和分类变量的描述
统计方法学部分对于连续变量和分类变量的描述全文共四篇示例,供读者参考第一篇示例:统计方法学是一门重要的学科,可应用于各个领域,包括医学、经济、社会科学等。
在统计学中,变量是一个基本概念,分为连续变量和分类变量。
这两种类型的变量在统计分析中有着不同的特点和分析方法。
连续变量是指可以取任意值的变量,通常用于度量某种属性或特征。
比如身高、体重、温度等都是连续变量。
在统计学中,对于连续变量的分析通常采用如均值、标准差、中位数等描述性统计量来描述数据的分布特征。
对于连续变量的变量间关系,通常采用相关分析、回归分析等方法进行研究。
在实际应用中,连续变量和分类变量经常同时存在,统计分析方法的选择需要考虑到变量的属性和研究目的。
对于同时包含连续变量和分类变量的数据,通常可以采用方差分析、多元回归等方法进行综合分析。
除了描述性统计和假设检验之外,统计方法学还有着更多的高级方法可以应用于连续变量和分类变量的分析。
比如聚类分析、主成分分析等多元统计方法可以帮助我们从复杂的数据中提取出有用的信息,发现变量之间的潜在关系。
统计方法学部分对于连续变量和分类变量的描述是统计学的基础,通过对数据的深入分析和挖掘,我们可以更好地理解变量之间的关系,为决策和预测提供更有力的支持。
希望本文能够帮助读者更好地理解统计方法学在连续变量和分类变量分析中的应用和意义。
第二篇示例:统计方法学是一门研究数据收集、分析和解释的学科,其中包含了多种方法用于处理连续变量和分类变量。
在统计方法学中,连续变量和分类变量是两种常见的数据类型,它们在统计分析中具有各自的特点和处理方法。
连续变量是指可以在一定区间内取任意值的变量,通常是测量得出的结果,例如身高、体重、收入等。
连续变量具有无限个可能值,可以是小数或整数,其取值范围是连续的,没有间断。
在统计分析中,对连续变量的处理通常包括描述统计和推断统计两个方面。
对于连续变量的描述统计,常见的方法包括均值、中位数、众数、标准差、极差等。
预防医学(二)第十七章 分类变量资料的统计 分析
第二节 分类变量资料的统计推断
• 一、率的抽样误差与标准误 • 由随机抽样造成的样本率和总体率的差异,以及各样本率 之间的差异称为率的抽样误差。 • 率的抽样误差可用率的标准误来表示 • 率的标准误的计算
• σp为率的标准率,π为总体率,n为样本含量
第二节 分类变量资料的统计推断
• 二、总体率的可信区间估计 • 方法:查表法、正态近似法 • 1.查表法 • 当样本含量较小(如n≤50),特别是p接近于0或1时,可根 据样本含量n和阳性数x,查相关统计学教材“百分率的可信区间” 表,求得总体率可信区间。
第三节 卡方检验(X2检验)
• 一、四格表资料的X2检验 • 2.假设检验步骤 • (1)建立检验假设,确定检验水准 • H0:π1=π2,即试验组与对照组的总体有效率相等。 • H1:π1≠π2,即试验组与对照组的总体有效率不等 • α=0.05(双侧检验) • (2)计算检验统计量
• A为实际频数 • T为理论频数
第三节 卡方检验(X2检验)
• 三、行✖列表资料的X2检验 • 例:某医院用3种方案治疗急性无黄疸型病毒性肝炎 254例, 观察结果见下表,问3种疗法的有效率是否不等。
• 检验假设具体步骤: • H0:3种治疗方案的有效率相等
第三节 卡方检验(X2检验)
• 三、行✖列表资料的X2检验 • 检验假设具体步骤: • H1:3种治疗方案的有效率不全等,α=0.05
第二节 分类变量资料的统计推断
• 四、率的u检验 • 2.计算检验统计量 • (2)两样本率比较的u检验
• 其中P1和P2为两样本率,Sp1-p2为两样本率之差的标准误, P含c量为两样本合并率,Pc=(X1+X2)/(n1+n2),n1和n2分别为两样本
分类变量的分析
分类变量的分析一.分类变量分类变量有有序变量、无序变量和二分类,其中有序和无序都是多分类举例说明,有序变量:高血压1期、II期、III期属于有序变量同时也属于等级资料,无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,男性、女性;死亡、存活属于二分类变量。
在分析方法中差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是RXC列联卡方,而有序变量也就是等级资料就得用秩和检验。
在多元回归时,有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值,而无序资料就必须要设置哑变量(虚拟变量),例如职业工人、农民、教师。
你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个OR或RR值,解释为每增加一个等级发生某病得危险性增加多少倍。
那么在无序变量就意味着工人增加一个等级,这是不可能的。
因为这样得变量各等级之间不存在1、2、3得数学关系。
在有序变量中,我们可以多元回归来检验假设,运用的原理时最小二乘法。
在无序变量中,我们必须引用哑变量(虚拟变量)来实现logistic回归。
在运用logistics回归分析之前我们必须先要理解虚拟变量。
二.下面的重点就是关于虚拟变量的讲解。
1.虚拟变量的含义虚拟变量是用以反映质的属性的一个人工变量,取值为0 或1,通常记为D(Dummy Variable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。
(注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设D=0对比较类型或肯定类型设D=1)如1 男性D =0 女性但是,虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。
例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。
虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。
例如:可以把居民分为两个年龄组:第一组:20~35岁的居民,第二组:35~60岁的居民,用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。
8 第十一章 无序分类变量描述与推断
率的标准误
(standard error of rate)
样本率的标准差叫做率的标准误,以
p
(1 )
n
表示。它是描述率的抽样误差
大小的指标,反映含量相同的样本率的离散
趋势或变异程度。σp越大,说明样本率p的 波动范围越大或率的抽样误差越大。实际应
用中, π常属未知,无法计算σp,故常以
sp
动态数列的分析指标
一、绝对增长量 1、累计增长量:固定某年为基数,各年与之相减; 2、逐年增长量:以前一年为基数,相邻的后一年与 之相减。
二、发展速度和增长速度 1、定基比:固定某年为基数,各年与之相比; 2、环比:以前一年为基数,相邻的后一年与之相比。 增长速度=发展速度-1(或100%)。
三、平均发展速度和平均增长速度 1、平均发展速度(环比发展速度的几何均数)= n√an / a0 。 2、平均增长速度=平均发展速度-1(或100%)。
实际发生的例数与可能发生该现象的 总数之比,用以说明某现象发生的强 度或频率,故又称频率指标。根据不 同需要选用适当的比例基数。
某现象实际发生的例数
率=
× 比例基数
可能发生某现象的总数
率的特点
1、真正的率:分子是分母的一部分,其数值在0到1之间 变动,它们是概率的估计值,符合二项分布,可以计 算可信区间和进行差别的假设检验;
在某一时点(或某短时期内),平均每 百(或千、万、十万等)受检查人数中 发现正患病的人数,常用于估计某病对 居民危害的严重程度。其与发病率的主 要区别在于它是从时点断面来观察疾病 的频率。
正患疾病的病例数
患病率=
× 比例基数
受检查人数
死亡率
(death rate,mortality rate)
描述分类变量资料的主要统计指标
描述分类变量资料的主要统计指标在描述统计中,经常要描述两个变量之间的关系,这就是指标。
描述分类变量资料的主要统计指标有:平均数(AV)、中位数(median)、众数(major)、方差(F)、标准差(SD)、相关系数(r)、误差(SEM)、信赖区间(CI)、 F统计值等。
一、全距n。
平均数在统计学上指全部观察单位的算术平均数,即众数、中位数和方差的算术平均数。
它反映了各个变量在总体中所占的比例。
用公式表示为n=AV。
例如:成人牙齿脱落率调查,共调查成人2046人,其中有根以上完全不能保留者占4.5%,按标准脱落百分数计算,每根牙齿应脱落2%。
则该项调查结果的全距是2.5%。
全距愈小说明变量在总体中所占的比例愈大,代表性愈强。
二、方差 1。
方差又称离散系数或变异系数。
由于各个观察单位所得的资料是来自不同的变量,因而这些资料都是不可比的。
但在抽样调查时,要使各个单位取得同样的结论,在对总体进行分析时,就必须把各单位的观察结果加以平均化,从而消除了由于来源不同引起的资料不可比问题,并使各单位的离散状况趋于一致。
这就需要用变异系数将各单位的资料加以平均,使其成为总体的平均资料。
因此,方差就是各个单位的变异程度的一种度量。
方差的符号是σ,单位是标准差(SD)。
2。
标准差的计算公式为:SD=∑[(X-Y)÷2]×100%。
式中SD表示标准差。
标准差的大小是随研究的目的而异的,通常用于某些问题的检验或推断。
如:某县的全年工业总产值的多少与全年粮食总产量的多少成正比;销售额的增长速度快慢与企业利润成正比。
对于全距,方差,标准差,原因,方差是概率统计的专有名词。
在实际工作中,我们通常简单地用:均数×方差=总体标准差(均值×方差=总体方差),来概括变量之间的关系。
当然,我们在阅读统计资料时,有时也会碰到一些专门用语,如果只看题目或只看这些专门用语,也很难理解题意,但只要知道它们的含义就行了。
医学统计学第七讲分类变量统计描述
平均发展速度和平均增长速度
➢平均发展速度是各环比发展速度的几何 平均数,说明某事物在一个较长时期中 逐期(如逐年)平均发展的程度。
➢平均增长速度是各环比增长速度的平均 数,说明某事物在一个较长时期中逐期 平均增长的程度。
其计算公式为
平 均 发 展 速 度 nan/a0
9.5 12 28
5.2
6
58 10.8 合计 536 100.0
7
66 12.3
第二节 相对数应用注意事项
3、相对数作相互比较时应注意其可比性。 (1)研究对象是否同质;研究方法是否 统一;观察时间是否一致;客观环境和影 响因素是否相当;等等。 (2)当比较两组或两组以上的总率(平 均率)时,要考虑各率的内部构成是否相 同,否则要经过标准化,才能得出正确结 论。
• 在计数资料分析中有时要考虑资料的时间特性。
• 分子和分母都是时点ຫໍສະໝຸດ 料:高血压患病率= (检出高血压病人数÷受检查人数)×100%
• 分子和分母都是时期资料:
痢疾病死率= (某年痢疾死亡数÷该年痢疾发病数)×1000‰
• 分子是时期资料而分母是时点 资料:
– 时间段为年的,称为年率;时间是一个月的, 称月率。凡是年率都不须注明。不是年率的必 须注明是周率、月率、季率。
第三节 率的标准化法
一、率的标准化概念: 把两个或两个以上内部构成不同的总
率统一到同一水平(或标准水平),使之 具有可比性,然后再进行比较的方法即率 的标准化法。
由标准化法计算的率称标准化率(或 调整率),简称标化率。
率的标准化的意义:便于合理比较。
第三节 率的标准化法
二、选择标准的原则: 1.尽可能选择有代表性的、内部构成相
6.分类变量的统计描述
某一事物各组成部分的个体数 构成比 = —————————————— × 100% 同一事物各组成部分的个体总数
医学统计学
DR. 朱彩华
3. 相对比 (Relative ratio) ratio)
医学统计学
DR. 朱彩华
如:
麻疹病人
甲地 乙地 200 240
哪个地方发病严重? 哪个地方发病严重?
易感者
甲地 乙地 1000 2000
哪个地方发病严重? 哪个地方发病严重?
医学统计学
DR. 朱彩华
甲地麻疹发病率: 甲地麻疹发病率: 200/1000 × 100% = 20% 乙地麻疹发病率: 乙地麻疹发病率: 240/2000 × 100% = 12% 一、相对数的作用 1、反映某现象当时当地的实际水平; 反映某现象当时当地的实际水平; 2、便于不同资料之间的比较。 便于不同资料之间的比较。
即得年龄标准化死亡(或发病)率。 医学统计学 DR. 朱彩华
P72表7-8,其基本操作用的是第1种方法:
各年龄组标准人( 栏 各年龄组标准人(口)数(2栏) 各年龄组的预期死亡数( 、 栏 各年龄组的预期死亡数(4、6栏) 两地标化率: 两地标化率: 甲县: 甲县 p´ = 6146 / 6152992 ×10000/10万 万 = 99.9 /10万 /10万 乙县: 乙县 p´ = 5245 / 6152992 ×10000/10万 万 = 85.2 /10万 /10万 医学统计学 DR. 朱彩华
22.3
医学统计学
DR. 朱彩华
四、率的标准化
分类变量的描述性统计讲解
相对危险度(relative risk,简称RR)是指暴露于某种 危险因素的观察对象的发病的危险度与低暴露或无暴 露的观察对象的发病危险度之间的相对比值。相对危 险度常用于队列研究,可用暴露与未暴露于危险因素 的累积发病率(Pl和P0)或人时发病率(F1和F0)估计, 公式为
RR P1 或 RR F1
第三讲 分类变量的统计描述
分类变量的整理(1)
14名成人的原始数据
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
性别 男 女 男 女 男 女 男 女 男 女 男 女 男 女
身高 175 167 187 176 167 178 174 170 167 186 182 159 167 182
OR=odds1/odds2=ad/bc
病人
表3-2 COPD病人与非病人的吸烟情况资料
有吸烟史
无吸烟史
合计
231
125
356
非病人
183
296
479
合计
414
421
835
例3-4 采用例3-1的资料,将基本数据用表3-2表示,试 计算优势与优势比。
病人有吸烟史的优势
odds1
231/ 356 125/ 356
科室 标准组出院
甲院
乙院
病 人 构 成 比 原 治 愈 率 (%) 分 配 治 愈 率 (%) 原 治 愈 率 (%) 分 配 治 愈 率 (%)
Ni/N
pi
⑴
⑵
⑶
(Ni/N)pi
pi
⑷ =⑵ ⑶
⑸
(Ni/N)pi ⑹ =⑵ ⑸
内科
0.2792
妇科
0.2907
class520111017分类变量的统计描述
编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
已知1998到2002年我国某地区的医护人 员数为4721、4833、5162、5884和6997人。
猜一猜:搜集该资料的目的?
利用该资料可以说明什么问题? 利用该资料可以计算什么指标?
动态数列
我们一步一步地算:列表计算,excel
已知
年份 医护 人员数 指 标
*数值变量资料可转化为分类变量资料进行分析
分类变量资料或计数资料的表达
体检资料:文字-数量化 性别: 个体:男性/女性
群体/汇总:男性受检者人数 女性受检者人数
总人数
实际数
实际数
把研究对象按某特征进行分类后,由原 始数据直接汇总得到的某个或各个类别的人 数或研究单位数。
*实际数和相对数都是对汇总数据的群体指 标
ቤተ መጻሕፍቲ ባይዱ
收缩压 sbp
舒张压 dbp
心电图:
超声诊断:
编号 id
姓名 name
职工体检表
性别 sex
1男
2女
出生年月日 birth 年月日
高血压家族史 his 0 无 1 父或母有 2 父母均有
身高(cm)height .
体重(Kg)weight .
血压(mmHg) 心率: 心律: 心脏杂音: 心界: 肺: 肝: 脾: 腹:
8.5.1分类变量资料资料的统计描述
♦ 1.计算相对数时分母不宜过小
例2:某医生治疗了4例支气管哮喘病患者, 其中3例有效,即报告有效率为75。 请问该说法是否正确?
♦ 2.分析时不能以构成比代替率
♦ 3.注意资料的可以性
用率或构成比进行比较时,必须注 意资料的可比性,即除了要比较的因素 外,其他可能影响研究结果的因素(如 时间、年龄、职业、地区、民族、风俗 习惯、经济水平等内部构成)要尽可能 的相同。
一、常用相对数
例1:甲小学有534人,乙小学为313人, 经 检查发现, 甲学校患龋齿者57人, 乙学校 患龋齿人数33人。 问那所学校发现患龋齿的强度高?
相对数:是指两个有联系的指标之比。
常用的相对数有率、构成比和相对比。
(一)率(频率指标)
(二)构成比(构成指标)
(三)相对比(比)
比 A B
♦ 4.正确计算平均率
例3 某班有男生50人,女生20人,男生英语四级 通过率为80%,女生四级通过率为100%,请问该 班四级通过率为多少?
• 答案A:90%。 • 答案B:85.7%
♦ 5.样本率或构成比的比较应做假 设检验
样本率或构成比是抽样得到的,存 在抽样误差,进行比较时不能仅凭表面数 值大小直接下结论,应做假设检验
2-数值变量与分类变量的统计描述分析
实习二统计描述第164~180页实习二统计描述医学统计资料类型¾数值变量资料:又称为计量资料。
变量值是定量的,有单位的,表示为数值的大小。
¾无序分类资料:又称为计数资料。
变量值是定性的,没有单位,表示为相互独立的类别。
¾有序分类资料:又称为等级资料。
变量值是定性的,没有单位,各类别具有程度上的差异。
注:不同类型的资料,统计方法不同;各种类型的资料之间是可以相互转化的。
一、数值变量资料的统计描述统计描述包括两个方面:集中趋势的描述和离散趋势的描述一、数值变量资料的统计描述(一)数值变量资料的频数表频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途1.描述数值变量资料的分布特征集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。
离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。
反映了数据的离散程度或者变异程度。
一、数值变量资料的统计描述(一)数值变量资料的频数表频数表的用途2.描述数值变量资料的分布类型正态分布:集中位置居中,左右两侧频数基本对称。
常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。
负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。
一、数值变量资料的统计描述(二)数值变量资料的频数分布图及正态曲线直方图及近似正态分布直方图及正偏态分布(二)数值变量资料的频数分布图及正态曲线一、数值变量资料的统计描述(三)集中趋势指标描述1.算数均数(均数mean )适用于正态分布或者近似正态分布总体均数:µ;样本均数:一、数值变量资料的统计描述一、数值变量资料的统计描述(三)集中趋势指标描述2.几何均数(geometric mean,G)适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。
分类资料的统计描述及参数估计(预防医学)(精)
172665
172665
253
38
146.5
22.0
5
构成比(proportion)
概念:表示某一事物各组成部分所占的比重或分布的情况. 构成比通常以100%为比例基数.
计算公式:
构成比=
事物内某一构成部分的观察单位数 同一事物内部各构成部分的观察单位数总和
100%
例如:疾病和死亡顺位等 特点:各组成部分的构成比之和为100% 某一部分比重增大,则其它部分相应减少。
治愈率(%) 65.0 41.7 47.5
2018/9/23
19
率的标准化法
在两个及两个以上总率进行对比时,为 了消除内部构成的不同的影响,采用统一标 准,分别计算标准化率后再作对比的方法称 为率的标准化法.
未经标准化的率一般称为粗率,经过标准化 的率称为标准化率或调整率.
2018/9/23 20
两指标互不包含,可以是相对数,绝对数,平均数,可以性质不同,不 一定有相同的量纲 新生儿性别比=男性新生儿数/女性新生儿数 医护比=医生人数/护士人数
2018/9/23 8
动态数列(dynamic series)
指一系列按时间顺序排列起来的统计指标(包 括绝对数、相对数和平均数),用以说明事物 在时间上的变化和发展趋势。常用的分析指标 有绝对增长量、发展速度和增长速度、平均发 展速度与平均增长速度。
a10 = 1.141101200 = 4488(人次)
即根据该医院 2006-2014 年的平均发展速度,预 计到2016年该医院的日门诊量可达4488人次。
应用相对数时的注意事项
计算率时分子与分母的选择
分析时不能以构成比代替率
计算相对数时分母不能太小 平均率的计算:不能直接相加求和
第6章 分类变量的统计描述与参数估计
6.1.2 多个分类变量的联合描述 分类变量的联合描述使用列联表; 列联表是因分类变量的各类别交叉而成的复合频 数表,被称为行×列表; 列联表的分析结果直观、易比较; 应用列联表进行变量的交叉分析是数据分析报告 中分析结果显示的主要方式之一; 列联表分二维表和多维表(或n维表); 单元格内可给出原始频数、行与列百分比和总百 分比。
(3)率(Rate) 率是一个具有时间、速度、强度含义 的概念或指标,用于说明某个时期内某个 事件发生的频率或强度,其计算公式为: 某事件的发生率=观察期内发生某事件的对 象数/该时期开始时的观察对象数
相对数在使用时应当注意适用条件: 样本量较大时相对数比较稳定; 基数不同相对数不能直接相加求和。
第6章 分类变量的统计描述 与参数估计
2013.10
离散变量是把取值范围为有限个数或者是 一个数列构成的变量。 分类变量是表示分类情况的离散变量。 根据类别的有序性,分类变量可分为有序 分类变量(Ordinal Variable)和无序分类 变量(Nominal Variable),这两类变量 在统计描述上没有差别。
(2)构成比(Proportion) 构成比是把观察对象分为k个部分,其中 某一个/多个部分的例数占总例数的比例。它 描述某个事物内部各构成部分所占的比重,其 计算公式为: 构成比=某一组成部分的样本数/总样本数 构成比的分子必须是分母的一部分,所以 其取值0-1,百分比是一个标准的构成比,而 累计频率则是构成比概念的直接延伸。
6.1 指标体系概述
6.1.1 单个分类变量的统计描述 1.频数分布 频数(绝对频数)是指本类别出现的次数; 百分比(构成比)是指本类别出现的次数占 总次数的百分比,即本类别出现次数/总次 数×100%。
分类资料的统计描述
各种疟疾的构成情况
1955年 类别 发病人数 恶性疟 间日疟 三日疟 合计 68 12 17 97 % 70 12 18 100 发病人数 21 12 17 50 % 42 24 34 100 1956年
疾病统计中常用的相对数指标
发病率(incidence rate):表示在观察期间内,可能
分类资料的统计描述
主要内容
相对数
掌握相对数的概念、计算和应用;
率的标准化
掌握率的标准化的基本思想; 掌握直接法进行率的标准化的基本步骤。
案例
《600例小儿烧伤休克期治疗分析》
600例烧伤患儿,210例早期有休克症状,其中 3岁以下者110例,占52%,3岁以上者100例, 占48%,年龄越小,休克发生率越高。
观察期间某病的现患病 例数 患病率= K 该期间的平均人口数
疾病统计中常用的相对数指标
死亡率(mortality rate):在一定人群中,死于某病的
频率,可用于反映一个地区不同时期人群的健康状况和 卫生保健工作的水平。
观察期间某病的死亡人 数 死亡率= K 该期间的平均人口数
病死率(fatality rate):表示一定时期内,患某病的全
构成比(proportion)
它说明整体和部分之间的关系,即某一事物的内部各
组成部分所占的比重或分布。
事物内部某一部分的观 察单位数 构成比= K 事物内部各部分的的观 察单位总数 构成比与率比较,有以下特点: 同一事物内部各组成部分的构成比之和一定是100%,, 即各分子之和等于分母。 某一组成部分的构成比改变时,其它部分必然发生相应 的改变,但率不受影响。
P= 8 10 2.18% 370 456
分类变量资料的统计描述
(二)标准化率的计算 1、选择标准人口
✓ 代表性的、内部构成相对稳定的较大人群 ✓ 要比较的两组资料内部各相应小组的观察单位数
相加,作为共同的标准 ✓ 两组中任选一组的内部构成作为标准
26
2、计算预期发生数 预期发生数=标准人口数×原发生率
表4-6 甲、乙两地用“标准人口数”计算标准化死亡率(1/10万)
2. 标准化的目的是在两个(或多个)总体率 比较时,采用统一标准消除内部构成不同 的影响。
30
3. 计算资料标准化率时各比较组应选用同一 标准。选用的标准不用,算得的标准化率 也不同。标准化率只反映资料的相对水平, 不代表实际水平,仅在比较时使用,原率 才能反映某时某地某现象的实际水平。
4. 样本标准化率同样存在抽样误差,若要进 行比较,应进行假设检验。
18
例:某医师对本院某年收治的1907例麻疹患者做了年龄 的分布描述,资料如下。该医生认为,1岁儿童的麻疹发 病率高于其他各年龄组,年龄越大,发病率越低。
某医院某年收治的1907例麻疹儿童的年龄分布
1. 该医生的分析是否正确? 2. 由上述资料可以得出什么结论?
19
率和构成比的区别:
1. 二者在概念和计算方法上都不相同,所得结论也不同 2. 率是说明某现象发生的频率或强度的 3. 构成比可以说明某事物内部各组成部分的比重或分布 4. 不能以构成比代替率。
术前中性白细胞构成比
= 术前中性白细胞计数 术前白细胞总数
= 4156 5800
100 %=71.66%
术前中性白细胞构成比是71.66%。
构成比的特点:
①各组成部分的构成比之和为100 %或1。 ②事物内部某一部分的构成比发生变化,其它
部分的构成比也相应地发生变化。
分类变量资料描述
二 发病样本与未发病样本的暴露比数比
基因A突变与胃癌发病资料
分组 病例组 对照组 合计
基因A突变
基因A未突变 合计
50
160 210
70
350 420
120
510 630
P 1 P 1 /( 1) OR P 1 P 2 /( 2)
OR=1.56 变的1.56倍
基因A突变的胃癌发病率是基因A不突
PRR暴露及未暴露与危险因素的患病率之比
相对危险度数值范围对暴露与疾病关联的意义 RR值范围 0~0.3 0.4~0.5 0.6~0.8 0.9~1.1 1.2~1.6 关联意义 高度关联 中度关联 微弱有益 不产生影响 微弱有害
1.7~2.5
≥2.6
中度有害
高度有害
表3-8 组别 高血压患者 非高血压患 者 随访人年 1510
第三章 第三节 分类资料的统计描述
一 常用的相对数指标 相对数是两个有关的绝对数之比或者有联系的指标的比值, 用于对计数资料进行统计描述。 1、比(相对比):表示两个有联系的指标之比
相对比=甲指标/乙指标; 如我国2008年人口普查的男性人口数和女性人口数之比 R=68357/64445=1.06 习惯上若甲指标大于乙指标,则用小数表示,说明甲是乙的 几倍;若甲指标小于乙指标,则用百分数表示,说明甲是乙 的百分之几。
四格表 2值专用公式: (不用计算理论数 )
2 ( ad bc ) n 2 (a b)(c d )(a c)(b d )
其中abcd为四格的四个实际频数 , n为总例数
Chi-Square Tests Asymp . Sig. (2-sided) .040 .058 .040 .050 4.178 184 1 .041 .029 Exact Sig. (2-sided) Exact Sig. (1-sided)
分类变量资料的统计描述
可能发生某现象的总数之比。用以说明某现 象发生的频率或强度。
常用率: 发病率、患病率、死亡率、病死
率、治愈率等。
率的计算方法
率
现象实际发生例数 可能发生某现象的总数
k
率
A( ) A( ) A( )
k
k为比例基数,常取百分率(%)、千分率(‰)、 万分率(1/万)、十万分率(1/10万)等。
计算公式:
构成比(%)
事物内部某一部分的个体数 事物内部各构成部分的个体数总和
100%
构成比(%)
A
100%
A B C
设某事物个体数的合计由A1,A2,· · ·,Ak个
部分组成,构成比的计算为:
构成比1
A1 A1+A2 +Ak
100%
…..构…成…比…2……A…1+A…2+A…2 . + Ak 100%
返 回
计划完成指标
: 定义 说明计划完成的程度,常用实际数达到计划数的百分之
几或几倍表示。
计算公式:
举例:
某县原计划在一个伤寒疫区周围的人群对1500名居民接种伤寒疫苗, 而实际上接种了1958人,计划完成指标为: (1958÷1500)×100%=130.5%,即完成了计划的130.5%,也可用倍数表 示,即完成计划的1.305 倍。
原则:①保留1~2位整数 ②惯例
例如:患病率通常用100% 、婴儿死亡率用1000‰、 肿瘤死亡率以10万/10万表示。
例 某医院1998年在某城区随机调查了 8589例60岁及以上老人,体检发现高血 压患者为2823例。
高血压患病率为: 2823 / 8589 100% = 32.87% 。
医学统计学-分类变量的统计描述
高血压 172665
40
23.2
冠心病 172665
11
6.4
脑卒中 172665
253
146.5
风心病 172665
38
22.0
例:某医院部分科室院内感染情况
科室
调查 感染 感染 感染人数 病人数 人数 率% 构成比
呼吸内科 100 10
心血管内科 100 8
泌尿外科 40 6
胸外科
42 2
普外科
定基比发展速度: 环比发展速度 定基比增长速度 环比增长速度
相对比的应用:某事物不同时间的动态分析
表5-9 某医院1991-1993年门诊量动态分析
门诊 发展速度% 增长速度%
年份 人数 定基比 环比 定基比 环比
1991 1200
100
100
—
—
1992 1500
125
125
25
ቤተ መጻሕፍቲ ባይዱ25
1993 1600
无变化
样本率或构成比的比较应进行假设检验
第二节 标准化法
什么是标准化? 为什么要进行标(准)化?
内部结构不同的两组对象进行比较:例如A组病情严 重者多,B组病情较轻的多,但要比较两种不同方法的治 疗效果,结果会怎样?
表1 两种疗法疗效比较
旧疗法
治疗
分组
治疗 人数
痊愈 人数
治愈 率%
成人组 100
绝对数:即各分类事物的合计数,绝对数反映某事物 实际发生的规模大小。
相对数:是两个有联系的(数值)指标之比。
相对数的意义: 1.消除基数影响,便于事物间的比较。 2.给出事物发生频率(强度)的估计。 3.相对数是工作决策的依据。
分类变量的描述统计
4.双变量分类数据的频数分布
双变量分类数据的频数分布常常表现为一张二维表(two-way table),我们把它叫做列联表 (contingency table)。
下表展现了不同城市的女性对新款夏装的接受态度的调查数据表
表1.3 列联表
对新款夏装的态度
非常喜 欢
有点 喜欢
既不反对 有点不 完全不 不知 Row 也不喜欢 喜欢 喜欢 道 Total
Statistics: principle and application
南京大学金陵学院
12
(1)点图
1.2 频数分布表
图1.3 饮料的点图
(2)条形图
条形图是用宽度相同的柱子的高度或长短来表示各类别数据的图形
Statistics: principle and application
图1.4 饮料的条形图
1.1 变量的类型 1.2 频数分布表 1.3 两个分类变量的关系
Statistics: principle and application
南京大学金陵学院
3
学习目标及重难点
【学习目标】: 1.用频数分布表描述数据的分布 2.用点图、条形图等图形来展示数据 3.用列联表分析两个分类变量之间的关系 【重难点】: 1.掌握用条件相对频数表示的对比条形图 2.两个分类变量是否独立
态度
非常喜 欢
有点喜欢
既不反对也 有点不
不喜欢
喜欢
完全不 喜欢
不知 道
合计
南京 上海
34.44% 22.58%
38.41% 30.97%
16.56% 25.81%
7.95% 13.55%
1.99% 0.66% 100.00% 5.81% 1.29% 100.00%
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 组段 标准组例数 被标化组例数 原阳性率 预期阳性数
❖ (1)
(2)
(3)
(4) (5)=(2)*(4)
❖ ───────────────────────────────
❖
1
714
236
0.067800
48
❖
2
754
375
0.072000
54
❖
3
619
384
0.099000
61
❖
4
559
402
0.146800
41
30 ~ 121100 132.0
160
116.6
141
40 ~ 82500 242.9
200
259.4
214
50 ~ 59300 285.2
169
291.7
173
60 ~ 37500 323.9
121
333.3
125
70 ~ 29700 172.8
51
207.5
62
合计 1018200 79.2
70 ~ 19100 172.8 10600 207.50 合计 493700 79.2 524500 68.80
二、标准化法
(一)选定标准:进行标准化计算时,首先要选定 一个“标准”,如标准人口数或标准人口构成比等, 选定标准的原则如下: 1 选择具有代表性的,较稳定的,数量较大的人群 作标准;
相对数的意义: (1)表示事物的严重程度; (2)便于比较,如上例两地发病情况以 1000‰作基数,统一了标准就可以比较了。
第二节 常用相对数
一、率:说明某现象发生的频率或强度
率
A( )
K
A() A()
式中K为比例基数,K的取值以使算得的 率保持有1到2位整数为宜;
二、构成比:说明某一事物内部各组成部分 所占的比重或分布
构成比
A
B
A C
D
100%
率和构成比的区别: (1)率和构成比的作 用不同;如发病率说明特定人群中一定时 期内新发病例的多少,而构成比则用于说 明某病患者的性别、年龄、职业等的分布 情况。(2)计算方法不同;如发病率以人 口数作分母,同期新发病例数作分子;构 成比则以某病各组病人合计数作分母,该 病某组病人数作分子。
表22-2两种方法治疗急性无黄疸型肝炎结果
组别 西药 中西医结合 合计
有效例数 48(54.78) 64(57.22)
112
无效例数 42(35.22) 30(36.78)
72
合计 90 94 184
有效率(%) 53.33 68.09 60.87
两独立样本率资料的基本格式
+
年龄组 甲
县
乙
县
人口数 死亡率 人口数 死亡率
0 ~ 323600 7.4 364500 6.00
30 ~ 56800 132.00 64300 116.60
40 ~ 42400 242.90 40100 259.40
50 ~ 30500 285.20 28800 291.70
60 ~ 21300 323.9 16200 333.30
❖ 组段 标准组例数 被标化组例数 原阳性率 预期阳性数
❖ (1)
(2)
(3)
(4)
(5)=(2)*(4)
❖ ───────────────────────────────
❖
1
714
478
0.069000
49
❖
2
754
379
0.073700
56
❖
3
619
235
0.102100
63
❖
4
559
157
0.152900
752
68.8
756
甲县标准化死亡率=752/1018200=73.90(1/10万) 乙县标准化死亡率=756/1018200=74.20(1/10万)
第七章 2检验
第一节四格表资料的 2检验
例22 1某中医院将184例急性无黄疸型 肝炎患者随机分为2组, 分别用2种方法 治疗,结果见表22 2.问两种方法疗效有 无差别?
第六章 分类资料的统计描述
第一节 相对数的意义
绝对数与相对数:(1)某年甲地区小学生 流脑发病63人,乙地区小学生流脑发病35人, 这里的63人和35人就是绝对数,它反映了事 物的实际水平,说明两地发病人数相差28人 但不能说甲地流脑感染比乙地严重;(2) 若甲乙两地小学生人数分别为50051和14388 人,则两地流脑发生率分别为1.3‰和2.4‰, 这里的1.3‰和2.4‰就是相对数,它说明甲 地流脑发生率比乙地严重。
第四节 率的标准化
一、标准化法的概念:对两组或多组率进行比较, 当其内部构成不同时,需要按统一的标准进行调整, 使之具有可比性,称为标准化法。用统一标准后计 算的率,称为标准化率。如年龄、性别、工龄、病 性等有明显的不同时,则不能直接进行比较。
❖
第 1 组被标化的结果:
❖ ───────────────────────────────
82
❖
───────────────────────────
❖ 合计 2646
1397
0.100237
245
❖ ───────────────────────────────
❖ 该组的标准化率: p'=0.092985 ❖ 标化率的标准误: Sp'=0.007784
❖
第 2 组被标化的结果:
❖ ───────────────────────────────
85
❖
───────────────────────────
❖ 合计 2646
1249
0.0872
253
❖ ───────────────────────────────
❖ 该组的标准化率: p'=0.095808
例20-4 某年甲乙两县男性肝癌死亡率资料, 见表20-6,试作标准化率的计算。
表20-6 某年两县男性肝癌死亡率(1/10万标 准,也可用样本数较多的一组(甲组或乙组)的数 据作为标准。
(二)计算:(以下是利用直接法计算标准化率 的过程)
表20-8 用直接法计算标准化率表
年龄 标准
甲
县
乙
县
组 人口数 原死亡率 预期死亡数 原死亡率 预期死亡数
0 ~ 688100 7.4
51
6.0
三、相对比:表示两个有联系的指标之比
相对比=甲指标/乙指标;习惯上若甲指标大 于乙指标,则用小数表示,说明甲是乙的几 倍;若甲指标小于乙指标,则用百分数表示, 说明甲是乙的百分之几。
第三节 应用相对数应注意的问题 一、计算相对数时分母不宜过小 二、避免“比”和“率”的误用 三、要注意资料对比分析的可比性 四、样本率(或构成比)的比较应遵循随机 原则,并要作假设检验 五、必要时作率的标准化法处理