定性资料的统计推断PPT
卫生统计学 定性资料的统计描述
度。速率具有量纲,取值范围是[0, +∞),计算公式如
下:
观察时期内某现象的发生数 强度 = K 可能发生某现象的观察人时数
公式中的比例基数K同频率计算公式。
例3 某企业2003年有2839名职工,该企业每年都对
职工进行体检,这一年新发生高血压病人5例,2003 年的高血压发病率为:
新发生高血压病人数 1000 1000 可能发生高血压的人数1年 5人 = 1000 1000 2839 1年 =1.76人 /1000人年
两个比较指标可以性质相同或不同。
相对比分为:
关系指标:
指两个有关的非同类事物的指标,如医护人员与病
床数之比,住院日数与床位数之比等。 对比指标: 指同类事物的两个指标之比,以达到比较的目的。 如2000年我国出生性别比为116.9。
例8 某市乙型脑炎的发病率1990年为4.48/10万, 2000年为0.88/10万,试计算相对比。
在时间概念上,“时点”没有明确的时间长度,通 根据具体的目的不同,类似患病率的指标还有检出 患病率适用于病程较长的疾病或发病时间不易确定 在一定的人群和时间内,发病率与患病率有着密切 常应该在一个较短的观察时间内,一般不超过一个 率、感染率、带菌率、阳性率等。 的疾病的统计研究,反映疾病在人群中的流行规模 的关系。两者与病程的关系是: 月为宜。而期间患病率是指特定的一段时间,多超 和水平,如慢性病的研究。 患病率=发病率X 病程 过一个月。
一项重要指标。
④ 孕产妇死亡率
该年由于妊娠和分娩及并发症造成的 孕产妇 孕产妇死亡数 = ×10万/10万 某年活产总数 死亡率
国际疾病分类第 10版(ICD-10)对孕产妇死亡定义 该指标不仅可以评价妇女保健工作,而且间接反 2 、间接产科原因:妊娠之前已存在的疾病,由 “与妊娠有关的原因”分为两类: 为:妇女在妊娠期至产后 42天以内,由于任何与 映一个国家的卫生水平。据卫生部公布的资料, 1、直接产科原因:包括对妊娠合并症 (妊娠期、 于妊娠使病情恶化引起的死亡。 分娩期及产褥期 )的疏忽、治疗不正确。 妊娠有关的原因所致的死亡称为孕产妇死亡。 我国孕产妇死亡率已由 2003年的51.3/10万下降到 2007年的36.6/10万。
13定性资料的统计推断
2011-1-4
22/78
资料类型: 资料类型:定性资料 设计类型:单样本率的比较, 设计类型:单样本率的比较,目的是推断 样本所代表的总体率π 与已知的总体率π 样本所代表的总体率 π 与已知的总体率 π0 是否相等。 是否相等。 分析方法:率的 检验 分析方法:率的u检验
2011-1-4
23/78
一、要有严密的抽样研究设计 这是假设检验的前提。 这是假设检验的前提 。 样本必须是从 同质总体中随机抽取的; 同质总体中随机抽取的 ; 要保证组间的均 衡性和资料的可比性, 衡性和资料的可比性 , 即除对比的主要因 如用新药和用安慰剂) 素 ( 如用新药和用安慰剂 ) 外 , 其它可能影 响结果的因素(如年龄,性别,病程, 响结果的因素( 如年龄,性别,病程,病情 轻重等)在对比组间应尽可能相同或相近。 轻重等)在对比组间应尽可能相同或相近。
计算公式为: 计算公式为:
u= p −π0
π0 (1−π0 ) / n
p −π0 −1/ 2n
=
p −π0
σp
σp =
π (1−π )
n
u=
π0 (1−π0 ) / n
=
p −π0 −1/ 2n
σp
式中, 为样本率 为样本率, 为已知的总体率, 式中 , p为样本率 , π0 为已知的总体率 , σp 为 计算的标准误, 为校正数, 由总体率 π0 计算的标准误 , 1/2n为校正数 , n 为校正数 很大时可以省略。 很大时可以省略。
)
D P 值和α值都不可以由研究者事先设定 E P 值的大小与α值的大小无关
2011-1-4
9/78
简答题
1. 假设检验的基本原理是什么? 假设检验的基本原理是什么? 2. 什么是一类错误?什么是二类错误?二者之间有 什么是一类错误?什么是二类错误? 什么关系? 什么关系? 3. 什么是概率?什么是小概率事件?怎样理解假设 什么是概率?什么是小概率事件? 检验中“小概率不可能原理” 检验中“小概率不可能原理”? 4. 假设检验中,如何确定单、双侧? 假设检验中,如何确定单、双侧? 5. 假设检验的注意事项是什么? 假设检验的注意事项是什么? 6. P 与α有什么区别和联系? 有什么区别和联系? 有什么区别和联系
医学统计学课件:02_统计描述(定量定性)
中位数(median,M)
将一组观察值从小到大按顺序排列,居于中心位置 的数值。在全部观察值中有半数的值比M大,另有半数 的值比M小。 适用于当大部分观测值比较集中,少数观测值偏向 一侧时;或资料分布情况不清楚时;或数据的最大值
(最小值)无准确测量数据时。如传染病的潜伏期。任
何分布的定量数据均可用中位数描述其分布的集中趋势, 使用范围广。
2003年4月22日全国SARS发病人数频数表
发病地区 北京 山西 广东 河北 内蒙 天津 广西 其他省市 频数 105 16 14 6 3 2 1 0 频率/% 71.4 10.9 9.5 4.1 2.0 1.4 0.7 0.0 累积频数 105 121 135 141 144 146 14移,向右侧拖尾
负偏态(左偏态)
峰向右偏移,向左侧拖尾
集中趋势的特征值
—— 平均水平的度量
算术均数(arithmetic mean,M)
适用于正态分布和近似正态分布的资
料。
总体均数用µ表示;样本均数用 x 表示。
直接计算法
将所有观察值直接相加再除以观察值的个数。
f i lg X i f1 lg X 1 f 2 lg X 2 f n lg X n 1 lg G lg f f i i
1
频数表资料的几何均数
抗体滴度 ⑴
人数,f ⑵
滴度倒数,X ⑶
lgX ⑷
f· lgX ⑸
累积频率/%
71.4 82.3 91.8 95.9 98.0 99.3 100.0 100.0
合计
147
100.0
某药物疗效的频数表
治疗效果 治愈 频数 65 频率/% 43.3 累积频数 65
定性资料的统计描述
25
三、相对比
相对比是互不包含的两个有联系指标之比。 对比的两个指标可以性质相同,也可以性质 不同。 公式为:相对比型指标=A指标 / B指标
注意:在计算相对比中,甲、乙两个指标可 以是绝对数,也可以是相对数或平均数,可 以有不同的量纲,但是互不包含。
27
例: 某年某医院出生婴儿中,男性婴儿为 370人, 女性婴儿为358人,则出生婴儿的 性别比为多少? 性别比为:370 / 358 ×100﹪=103﹪ 说明该医院年每出生100名女婴儿,就有103 名男婴儿出生。
30
2.相对危险度(relative risk,RR)表示在两种相同 条件下某疾病发生的概率之比。即暴露组发病率 与非暴露组发病率的比值。 某地某年男性吸烟和非吸烟的冠心病死亡资料 分组 死亡人数 观察人年数 死亡率 (1/10万人年) 43248 10673 240.5 112.4
吸烟组 104 非吸烟组 12
36
某医院某年住院病人中胃癌患者占5%,则() A 5%是强度指标 B 5%是频率指标 C 5%是相对比指标 D 5%说明胃癌在住院病人 中的比重
37
2.使用相对数时分母不宜过小 某药物 甲治疗100人,50人有效,有效 率为50﹪。药物乙治疗5人,3人有效, 我们能否说乙药有效率为60 ﹪?能否说 乙药比甲药治疗效果好。
9
分娩方式 顺产 助产 顺产 顺产 顺产 剖宫产 顺产 剖宫产 顺产 顺产
妊娠结局 足月 足月 足月 早产 足月 足月 死产 足月 足月 足月
按年龄(2岁一组)与职业整理
年龄 18 20 22 24 26 28 30 32 34 36 38 40 合计 工人 2 9 28 50 50 34 11 14 4 2 3 0 207 管理人员 0 2 7 34 43 35 14 2 2 1 1 0 141 农民 0 6 10 28 25 10 11 3 5 1 1 2 102 商业服务 0 10 24 52 45 34 22 14 3 4 0 0 208
统计学完整ppt课件完整版
假设检验中的两类错误:第一类错误 、第二类错误
假设检验的步骤:建立假设、选择检 验统计量、确定拒绝域、计算p值、 作出决策
假设检验的实例分析:单样本t检验 、双样本t检验等
方差分析(ANOVA)方法介绍
方差分析的基本原理:F分布与 方差分析的关系
多因素方差分析的实现方法: 析因设计、随机区组设计等
通过观察数据的峰度,判 断是否存在尖峰或平峰分 布
03
推论性统计方法
参数估计原理及应用
01
参数估计的基本概念: 点估计、区间估计
02
估计量的评价标准:无 偏性、有效性、一致性
03
参数估计的方法:矩估 计法、最大似然估计法
04
参数估计的应用:总体 均值的区间估计、总体 比例的区间估计等
假设检验流程与实例分析
ABCD
数据筛选与排序
介绍如何使用Excel进行数据筛选和排序,以便 更好地查看和分析数据。
函数与公式应用
分享一些常用的Excel函数和公式,以便更高效 地处理和分析数据。
案例分享:使用统计软件解决实际问题
案例一
使用SPSS进行市场调研数据分析,包 括描述性统计、交叉表分析、回归分析
等。
案例三
使用Python进行电商数据分析,包 括用户行为分析、销售预测、推荐系
据的科学。
统计学的作用
描述数据特征
推断总体参数 预测未来趋势
评估决策效果
数据类型与来源
数据类型 定量数据(连续型与离散型)
定性数据(分类数据与顺序数据)
数据类型与来源
01
数据来源
02
03
04
观察数据(实验数据与观测数 据)
《医学统计学》完整课件 PPT
统计分析包括以下两大内容:
1.统计描述(descriptive statistics) 将计算出 的统计指标与统计表、统计图相结合,全面描述 资料的数量特征及分布规律。
2.统计推断(inferential statistics)
使
用样本信息推断总体特征。通过样本统计量进行
②数量分组,即将观察单位按其数值的大小分组,如按年龄 的大小、药物剂量的大小等分组。
3.汇总: 分组后的资料要按照设计的要求进行 汇总,整理成统计表。原始资料较少时用手工汇 总,当原始资料较多时,可使用计算机汇总。
四、分析资料 • 分析资料(analysis of data) —— 是根据设计的
要求,对整理后的数据进行统计学分析,结合 专业知识,作出科学合理的解释。
第1章绪论 目录
第一节 医学统计学的定义和内容 第二节 统计工作的基本步骤 第三节 统计资料的类型 第四节 统计学中的几个基本概念 第五节 学习统计学应注意的几个问题
第一章 绪论
第一节 医学统计学的定义和内容
• 医学统计学(medical statistics) ---是以 医学理论为指导,运用数理统计学的原理和方 法研究医学资料的搜集、整理与分析,从而掌 握事物内在客观规律的一门学科。
6.健康统计 研究人群健康的指标与统计方 法,除了用上述的某些方法外,他还有其特有 的方法,如寿命表、生存分析、死因分析、人 口预测等方法
第二节 统计工作的基本步骤
医学统计工作可分为四个步骤: 统计设计、搜集资料、整理资料和分析资料。 这四个步骤密切联系,缺一不可,任何一个步 骤的缺陷和失误,都会影响统计结果的正确性。
2.医疗卫生工作记录 如病历、医学检查 记录、卫生监测记录等。
3.专题调查或实验研究 它是根据研究目 的选定的专题调查或实验研究,搜集资 料有明确的目的与针对性。它是医学科 研资料的主要来源。
统计知识讲座PPT课件
图表设计原则与规范
01
02
03
04
简洁明了
图表设计应简洁明了,避免过 多的装饰和复杂的背景,突出
数据本身的特点。
一致性
在同一份报告中,应保持图表 风格、字体、颜色等要素的一
致性,提高整体美观度。
数据准确性
图表中的数据应准确无误,来 源可靠,避免误导读者。
注解清晰
对于图表中的重要信息,应提 供清晰的注解和说明,帮助读
标准差
方差的算术平方根,反映 数据波动程度,标准差越 小,数据越稳定。
数据分布形态的描述
偏态分布
正态分布
数据分布不对称,偏向某一方向,可 分为左偏和右偏。
一种对称分布,其形态由均值和标准 差决定,具有广泛的应用。
峰态分布
数据分布的尖峭或扁平程度,峰度越 高,数据分布越尖峭;峰度越低,数 据分布越扁平。
假设检验与显著性水平
假设检验
先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。假设 检验包括原假设和备择假设的设立、检验统计量的选择、显著性水平的确一类错误的概率。通常取0.05或0.01等小概率值作为显 著性水平,表示在原假设为真时,拒绝原假设的最大允许概率。
对收集到的数据进行预处理,包括数据筛 选、缺失值处理、异常值处理等。
数据分析
结果呈现
运用统计学方法对数据进行描述性分析和 推断性分析,如均值、方差、假设检验等 。
将分析结果以图表、报告等形式呈现,为 市场决策提供支持。
案例二:医学实验数据处理
实验设计
根据研究目的和实验条件,设计合理的实验 方案和数据收集计划。
数据可视化
Python的matplotlib、seaborn等库 提供丰富的数据可视化功能,可绘制 各种静态、动态、交互式的图表。
《统计学》完整ppt课件
适用于等级资料或无法精确测量的数据,如医学 领域的疗效评价、心理学中的量表评分等。
3
秩和检验的优缺点
优点在于对数据分布的假设较为宽松,适用范围 广;缺点是当样本量较大时,检验效率可能降低 。
符号检验
符号检验的基本原理
通过比较样本数据的中位数或均值与某个参考值的大小关 系,判断总体分布是否存在显著差异。
推论性统计分析
介绍如何在Excel中进行推论性统计分析, 如假设检验、方差分析等。
Python编程实现统计分析案例展示
Python统计分析库介绍
数据处理与可视化
简要介绍Python中常用的统计分析库,如 NumPy、Pandas、SciPy等。
演示如何使用Python进行数据清洗、处理 及可视化,包括缺失值处理、异常值检测 等。
相关分析与回归分析
相关分析
研究两个或多个变量之间相关关系的统计分析方法,通过计算相关系数来衡量变量之间 的相关程度。
回归分析
研究因变量与一个或多个自变量之间关系的统计分析方法,通过建立回归模型来预测因 变量的取值。
04
CATALOGUE
非参数统计方法
卡方检验
卡方检验的基本原理
通过比较实际观测值与理论期望值之间的差异,判断两个或多个分 类变量之间是否存在显著关联。
03
CATALOGUE
推论性统计方法
参数估计方法
点估计
用样本统计量直接作为总体参数的估计值。
区间估计
根据样本统计量和抽样分布,构造一个包含总体参数的真值的置信区间,并给出该区间被总体参数真值覆盖的概 率。
假设检验原理及步骤
假设检验的基本原理
先对总体参数提出一个假设,然后利用样本信息判断这一假设是否合理,即判断总体参数与假设值是 否有显著差异。
2024全新统计学ppt课件(2024)
非平稳时间序列转换方法
01
02
03
转换后时间序列建模与 预测
对转换后序列进行平稳 性检验
选择合适模型进行建模 与预测
2024/1/29
33
组合预测模型应用
2024/1/29
组合预测模型原理
综合多个单一模型预测结果,提高预测精度和 稳定性。 组合预测模型构建步骤
34
组合预测模型应用
选择合适的单一预测模型
单侧检验与双侧检验
介绍单侧检验与双侧检验的概 念,根据实际问题选择合适的 检验类型。
常见的假设检验方法
列举并介绍常见的Z检验、t检 验、F检验和χ²检验等方法,阐 述其适用条件和计算步骤。
假设检验的注意事项
讨论假设检验中可能犯的第一 类错误和第二类错误,阐述样
本容量对假设检验的影响。
17
04
方差分析与回归分析应用举例
数据输入与格式设置
快速输入数据、设置数据格式、使用数据验 证等技巧。
数据可视化
创建图表、修改图表样式、添加数据标签等 可视化操作。
2024/1/29
数据整理与清洗
利用筛选、排序、查找替换等功能进行数据 清洗。
数据分析工具
使用Excel内置的数据分析工具进行描述性 统计、回归分析等。
38
SPSS软件操作界面简介
分布函数与概率密度函数
02
定义分布函数,介绍离散型随机变量的概率分布列及连续型随
机变量的概率密度函数。
常见的随机变量分布
03
列举并介绍常见的离散型(如二项分布、泊松分布)和连续型
(如正态分布、指数分布)随机变量分布。
15
参数估计方法
2024/1/29
资料分析ppt课件
推断性统计分析需要基于一定的假设和前提条件,因此需 要注意其适用范围和局限性,同时还需要考虑数据的代表 性和可靠性等问题。
机器学习与数据挖掘
机器学习与数据挖掘是利用计算机算法和模型,从大 量数据中提取有用信息和知识的方法。
输入 标题
详细描述
机器学习与数据挖掘包括分类、聚类、关联规则挖掘 、序列挖掘等,这些方法可以帮助我们发现数据中的 潜在规律和模式,为决策提供支持。
总结词
总结词
机器学习与数据挖掘需要基于大量的数据和复杂的算 法,因此需要专业的技能和经验,同时还需要注意其
可解释性和实际应用价值等问题。
详细描述
机器学习与数据挖掘是数据分析的高级阶段,能够提 供对数据更深入的挖掘和理解,为创新和发现提供支 持。
PART 05
数据分析结果解读与报告 撰写
结果解读与解释
PART 02
资料分析方法
定性分析方法
01
02
03
04
归纳法
通过收集和整理资料,归纳出 事物的内在本质和发展规律。
演绎法
根据已有的理论或假设,对资 料进行分析和推理,得出结论
。
结构化访谈法
通过访谈方式,对研究对象进 行深入了解,获取详细的信息
和经验。
小组讨论法
组织多个研究者或专家,对某 一主题进行深入探讨,形成共
随着数据来源和类型的不断增加,资料分析的方法和技术也需要不断更 新和完善,未来的发展将更加注重数据挖掘和机器学习等先进技术的应
用。
随着数据安全和隐私保护的日益重要,资料分析需要更加注重数据安全 和隐私保护的问题,未来的发展将更加注重数据安全和隐私保护的法律 法规和技术标准的制定和实施。
2023-2026
定性资料的统计描述.
性别 频数(N) 百分比(%)
男
54
42.5
女
73
57.5
合计
127
100.00
绝对数
相对数
定性资料的统计描述
频数图 80
频数
70
60
50
40
30
20
10
0
男
女
图1 卫检班同学性别分布情况
频数表
表7 卫检班同学血型的分布情况
血型 频数(N) 百分比(%)
A型
33
26.00
B型
27
21.30
AB型
适用资料:连续型变量资料
纵轴:对数尺度;
横轴:算术尺度,连续性变量(时间、年龄 等)
表2-9 某地1975-1990年痢疾与百日咳死亡率
年度
痢疾
百日咳
1975
1.45
0.22
1980
0.82
0.05
1985
0.23
0.02
1990
0.14
0.01
1.6
死 1.4
痢疾:1.45-0.14=1.31
亡 1.2 率1
强度型指标
随访资料:如计算发病率,死亡率
发病 失访
观察开始时间
观察结束时间
相对比型指标(ratio)
指两个有关联的指标A与B之比 ,简称比。 A和B可以性质相同,也可以性质不同。 如性别比,师生比,变异系数,OR值,RR 值等。
比= A 100% B
相对数指标类型辨析
相对数指标类型辨析
图例:在图外要附图例说明。 多组比较:若要比较的事物不止一个时,
可以画几个平行的百分条图,以示比较。 各条图的排列顺序相同,图例相同。
定性资料的统计推断PPT
22 2 1 11 1 5 1 1 1 1 1 1 5 4 4 5 12 2 1 4 2 4 4 22 2 .84
4.确定P值,作出推断结论
检验统计量
=
2.84,v
1
,小于界值
2 0.05,1
3.84,
得出P>0.05。按α=0.05的水准,不拒绝H0,差异 无统计学意义,尚不能认为两种化疗方法的临床
8.1 成组设计四格表资料的检验
适用于:完全随机设计、两样本、 定性资料(两分类)、目的是检验 两个样本的总体分布是否相同。
注意比较:其与两独立样本均数比 较 t检验的区别及联系。
一、基本思想
表8.1 两种方法治疗肝炎的疗效比较
疗法
有效
无效
合计
有效率(%)
中药 35(38.12)a 45(41.88)b 80(a+b=n1) 西药 46(42.88)c 44(47.12)d 90(c+d=n2) 合计 81(a+c=m1) 89(b+d=m2) 170(a+b+c+d= n)
8.3.2 多个独立样本率的比较
例8.6 用三种不同治疗方法治疗慢性支气管炎的疗效 ,如表8.7所示,试比较三种治疗方法治疗慢性支气管 炎的疗效。
这是三个独立的样本率比较,行R=3,列C=2,称为3×2 列联表。检验的步骤如下。
1. 建立检验假设,确定检验水准 H0 :1=2=3 ,即三种治疗方法的疗效相同; H1 :1,2,3不等或不全相等 =0.05。 2. 计算检验统计量 按式(8.9)计算得
➢ 当 n≥40,且所有格子的T均≥5时,选用2检验的基本公 式或四格表资料2检验的专用公式 ;
定性资料的统计分析
A T 2
检验的自由度取决于可以自由取值的格子数目, 而不是样本含量n。四格表资料只有两行两列,ν =1, 即在周边合计数固定的情况下,4个基本数据当中只 有一个可以自由取值。
2 分布图形
0.5 0.4 0.3 0.2 0.1 0 0 2 4 6
1
f ( )
2
6
10
可通过 检验的基本公式来理解。
2
卡方分布: 若k个随机变量,z1,z2,…zk,相互独立且服从标
准正态分布,则随机变量x=z12+z22+…+zK2被称 为服从自由度为k的卡方分布,记作: x 2 (k )
2
( AT ) , (行数-1)(列数 1) T
2
H1:π1≠π2 即试验组与对照组降低颅内压的总体有效率不相等
α =0.05。
(2)求检验统计量值
T11 104 174/ 200 90.48 ,T12 104 90.48 13.52
T21 174 90.48 83.52 ,T22 26 13.52 12.48 。
表7-2 两组降低颅内压有效率的比较
组 别 试验组 对照组 合 计 有 效 99(90.48) a 75(83.52) c 174(a+c) 无 效 5(13.52) b 21(12.48) d 26(b+d) 合 计 104 (a+ b) 96 (c+d) 200 (n) 有效率(%) 95.20 78.13 87.00
( b c 1) 2 bc
, =1
本例检验步骤如下:
(1)建立检验假设
H0:总体B=C,即两种方法肝癌检出率相同
统计学PPTPPT课件
假设检验
零假设和备择假设
零假设是我们要检验的假设,备择假 设是与零假设相对立的假设。
第一类错误和第二类错误
第一类错误是拒绝了正确的零假设, 第二类错误是接受了错误的零假设。
显著性水平
显著性水平表示在零假设为真的情况 下,拒绝零假设的概率。
样本容量和样本误差
样本容量越大,样本误差越小,推断 的准确性越高。
通过观察记录的方式收集数据,适用于小样本的定性研究。
实验法
通过实验的方式控制变量,收集数据,适用于因果关系的研究。
数据的整理和展示
数据整理
对数据进行清洗、分类、 编码等处理,使其符合统 计分析的要求。
数据展示
通过图表、表格等形式展 示数据,以便更好地理解 和分析数据。
数据可视化
利用图形、图像等技术将 数据可视化,以便更直观 地展示数据的特征和关系。
在生物统计学中,统计学方法用于遗 传学、分子生物学等领域的研究。
在商业决策中的应用
市场调查
通过统计学方法进行市场调查,了解客户需 求和市场趋势。
预测分析
利用统计学方法进行销售预测、需求预测等, 为决策提供依据。
质量控制
通过统计学方法监控生产过程,确保产品质 量符合标准。
风险评估
统计学用于评估商业风险,如信用评级、投 资组合优化等。
010203定量数据数值型数据,如身高、体 重、年龄等,可以通过测 量或计数得到。
定性数据
非数值型数据,如性别、 婚姻状况、文化程度等, 通常通过分类或编码得到。
数据来源
数据可以来源于调查、观 察、实验、档案资料等途 径。
数据收集的方法
调查法
通过问卷、访谈等方式收集数据,适用于大样本的定量研究。
定性资料的统计描述
第五章 定性资料的统计描述在医学研究与实践中,大量资料都是按照事物的特征或属性进行分类的,这类资料称为定性资料,也称分类资料或计数资料。
如性别、HIV 感染情况、病情轻重等都属于分类资料。
对于这类资料,其绝对数往往不便于进行相互比较。
例如甲医院某年因某病死亡105人,同年乙医院因该病死亡185人。
但不能据此认为乙医院该病的死亡情况比甲医院严重,因为两医院因该病住院的人数不一定相等,此时需要采用相对数指标进行统计描述。
第一节 常用相对数及其应用相对数是两个有关联的数值之比,常用的相对数指标有率、构成比和相对比三种。
一、率率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。
根据计算公式中分母的观察单位总数是否引入时间因素,率包括频率和速率两类指标。
频率(frequency)计算中,分母没有引入时间因素,无时间量纲,分子是分母的一部分,其取值在0~1之间,如常见的发病率、患病率、病死率、治愈率等指标,都属于频率型指标,其实质是比例,在流行病学中也常称为累积发生率。
其计算公式可表达为:K =⨯同时期实际发生某现象的观察单位数频率某时期可能发生某现象的观察单位总数(5.1) 式中,K 为比例基数,可以是100%、1000‰、100000/10万等。
比例基数的选择主要根据习惯用法或使计算结果保留1~2位整数,以便阅读。
例5.1 为研究吸烟与肺癌的关系,某医生收集了2003~2005年286例住院肺癌患者的吸烟史,吸烟的肺癌患者有166例,而同时期同年龄段的1855名非肺癌患者中,吸烟的有407例。
试计算该资料中肺癌患者与非肺癌患者的吸烟率。
由式(5.1),肺癌患者的吸烟率=166/286100%=58.04%⨯,非肺癌患者吸烟率=407/1855100%=21.94%⨯,肺癌患者的吸烟率比非肺癌患者的吸烟率高36.1%。
速率(rate)是带有时间因素的频率,根据数理统计的定义是指随时间变化而改变的速度,此处取其某现象在单位时间内的发生频率之意。
第8章 有序定性资料统计推断
实例讲解
§ 例8.3:甲乙两位专家同时对200名肿瘤患者的 病理切片的病理分期进行读片评定。分析两位 专家评定结果是否一致?详见8-3.sav数据库。
实例讲解
§ 例8.4:某研究者调查一批高血压患者的血压控 制情况和食用盐的口味,问血压情况与食盐口 味是否有相关性?详见8-4.sav数据库。
§THE END
单向有序行×列表
§ 两组单向有序分类资料
基本思想:比较的两个样本(样本含量分别为n1及n2)如
果来自同一总体或分布相同的两个总体(即H0成立),则n1样 本之秩和T 与其理论秩和 n1(N+1)/2 之差 [ T-n1(N+1)/2 ] 由抽 样误差所致,故此差值一般不会很大,差值很大的概率应很小 。若从现有样本中算得的 T 与其理论秩和相差很大,则说明从 H0 规定的总体中随机抽得现有样本及更极端样本的概率P很小 ,故按检验水准拒绝H0.
单向有序行×列表 § 多组单向有序分类资料
多组单向有序定性资料是两组单向有序分类资料的扩展,相当 于单因素方差分析的秩和检验。称为H检验(W.H.Kruskal与 W.A.Wallis,1952),又称Kruskal-Wallis法。
单向有序行×列表
§ 多组单向有序分类资料
基本思想:与单因素的方差分析类似。K个对比组,计算各
§ Kappa一致性检验
模块解读---双向有序属性不同
§ Spearman等级相关检验
实例讲解
§ 例8.1:用复方猪胆胶囊治疗老年性慢性支气管 炎患者403例,问该药对此两型支气管炎疗效是 否相同?详见8-1.sav数据库。
实例讲解
§ 例8.2:某医院用三种复方小叶枇杷治疗老年性 慢性支气管炎,比较其疗效有无差异?哪些总 体间分布有差异?详见8-2.sav数据库。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
效果不同。
若不校正,P<0.05,结论相反!
8.2 配对设计四格表资料的检验
适用于:配对设计、定性资料(两分 类)、以比较两种处理的效果是否相 同为目的。
注意比较:其与配对设计定量资料的t 检验的区别及联系。
一、基本思想
表8.4 配对设计四格表资料比较的一般形式
甲方法
乙方法
+
-
合计
+ 合计
a
二、方法步骤
第1步 建立检验假设
例8.1
H0:1 2,即两种方法治疗急性病毒性肝炎的有效率相同 H1:1 2,即两种方法治疗急性病毒性肝炎的有效率不相同
第2步 确定检验水准 α=0.05
第3步 计算统计量
1、计算理论频数,见表中括号内的数字。 2、计算2值:
2 3 3 5 . 1 2 8 2 4 4 5 . 8 2 1 8 4 4 6 . 8 2 2 8 4 4 4 . 1 2 7 2 0 . 92 3 . 1 8 24 . 8 1 84 . 8 2 84 . 1 7 2
v 2 1 2 1 1
第4步 确定P值,作出统计推断
查2
界值表,2 0.05,1
3.84。按=0.05水准,
不拒绝H0,差异无统计学意义,故尚不能认为 中药与西药治疗急性病毒性肝炎的有效率不同。
2值 20.05() 20.05() 20.01()
P值 0.05 0.05 0.01
统计结论
不拒绝H0,差异无统计学意义 拒绝H0,接受H1,差异有统计学意义 拒绝H0,接受H1,差异有高度统计学意义
(ab)(cd)(ac)(bd)
例8.3
组别 甲法 乙法 合计
表8.3 两种方法的缓解效果比较
缓解
未缓解
合计
2(4.95) 11(8.05)
13
14(11.05)15(17.95) 29
16
26
42
缓解率(%) 15.38 48.28 38.10
1.建立检验假设 H0:1 2 ,H1:1 2
2.确立检验水准 α=0.05 3.计算检验统计量 先计算各观察值的T(表括号中的频数)
8.1 成组设计四格表资料的检验
适用于:完全随机设计、两样本、 定性资料(两分类)、目的是检验 两个样本的总体分布是否相同。
注意比较:其与两独立样本均数比 较 t检验的区别及联系。
一、基本思想
表8.1 两种方法治疗肝炎的疗效比较
疗法
有效
Hale Waihona Puke 无效合计有效率(%)
中药 35(38.12)a 45(41.88)b 80(a+b=n1) 西药 46(42.88)c 44(47.12)d 90(c+d=n2) 合计 81(a+c=m1) 89(b+d=m2) 170(a+b+c+d= n)
R:处理的水平数(组数) C:效应指标的水平数(即效应指标的分类数)
该表:R=2(中药、西药),C=2 (有效、无效) ; 故称四格表 (fourfold table)
检验统计量2的计算
2
(AT)2
T
=(行数-1)(列数-1)
(基本公式)
2值的大小反映了各格子中实际频数A与 理论频数T的接近程度。
b
n1
c
四格表专用公式
2abb ad d b d c2n cca
式中a、b、c、d分别为四格表的实际频数,n为 总例数=a+b+c+d
例8.2
表8.2 人工牛黄辅助治疗乙型脑炎的临床效果
组别 未加牛黄
治愈 26
未治愈 45
合计 治愈率(%)
71
36.62
加牛黄
53
36
89
59.55
合计
79
81
160
49.38
43.75 51.11 47.65
相关概念—实际频数与理论频数
实际频数:Actual /Observed frequency,简称A或O)
此表中4个A:35、45、46、44
理论频数:Theoretical /Expected frequency,简称T或E)
此表中4个T :38.12、 41.88、 42.88、 47.12
有1个T(4.95)介于1和5之间,同时n=42;故应采用校正公式
22 2 1 11 1 5 1 1 1 1 1 1 5 4 4 5 12 2 1 4 2 4 4 22 2 .84
4.确定P值,作出推断结论
检验统计量
=
2.84,v
1
,小于界值
2 0.05,1
3.84,
得出P>0.05。按α=0.05的水准,不拒绝H0,差异 无统计学意义,尚不能认为两种化疗方法的临床
2检验的应用
k组(k≥2)总体率之间差别有无统计 学意义
k组(k≥2)总体构成比之间差别有无 统计学意义
两分类变量间有无相关关系 频数分布的拟合优度检验
主要内容
8.1 成组设计四格表资料的检验 8.2 配对设计四格表资料的检验 8.3 成组设计行乘列表的检验 8.4 似然比检验和确切概率法 8.5 检验的多重比较
TRC
nRnC n
(公式) 如:
T 11 81 17 总 0 有 8中 效 0 药 率组 3.1 总 82 治
相关概念—基本格子及其算法
疗法 中药 西药 合计
有效
无效
35(38.12) 45(41.88)
46(42.88) 44(47.12)
81
89
合计 80 90 170
基本格子:实际频数所在的格子,n=R×C
2abb ad d b d c2n cca
22 6 4 2 4 5 6 3 5 3 6 4 3 6 5 5 6 5 2 3 1 5 3 6 3 20 68 .31
v 1
按α=0.05水准,拒绝H0,接受H1,差异有统计 学意义,可以认为加用人工牛黄能提高乙型脑炎的 治愈率。
三、计算公式及其应用
8 定性资料的统计推断
问题:
用药与对照人群的流感发病率不同吗?
组别
用药组 对照组
合计
观察数
100 120 220
发病数
14 30 44
发病率(%)
14 25 20
2检验(Chi-square test)
定性资料统计推断 的常用方法
理论分布依据:2
分布,连续型随机 变量的概率分布, 具有可叠加性,形 态与v密切相关
➢ 当 n≥40,且所有格子的T均≥5时,选用2检验的基本公 式或四格表资料2检验的专用公式 ;
➢ 1T5,而n40时,选用2检验的校正公式或改 用四格表资料的确切概率法计算;
➢ n<40,或T<1时,改用四格表资料的确切概率 法。
2检验的校正公式
(A T0.5)2
2
T
2 (adbcn/2)2n