常见的几种统计方法分解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(二)变异:同质基础上个体值之间 的差异,称为变异。 同质:指观察单位或观察指标 受共同因素制约的部分。
例如,同种族、同年龄、同性别的健康人, 在相同的条件下测其脉搏、呼吸、体温等 生理指标可以有很大差异。
四、统计学中的基本概念
(三)参数和统计量 1.参数:总体指标。 2.统计量:样本指标。 (四)抽样误差 1.定义:在统计学上把由抽样造成的 样本统计量和总体参数之间的差异或 者是各个样本统计量之间的差异统称 为抽样误差。
3. 等级资料
定义: 介于计量资料和计数资料之间的一种资 料,通过半定量方法测量得到。 特点: 每一个观察单位没有确切值 各组之间有性质上的差别或程度上的不同。 ①癌症分期:早、中、晚。 ②药物疗效:治愈、好转、无效、死亡。 ③尿蛋白: ,,,++,+++及以上
资料的类型
计量资料
对每一观察对象 用定量的方法, 测定某项指标所 得的资料。一般 有度量衡单位, 每个对象之间有 量的区别。
常用的几种统计方法
宿州市立医院心内一科 田 真
前言
学习统计学方法,主要目的在于建立统 计学观念,提高医学统计学思维,学会运用 统计学理论和方法充分挖掘资料中蕴含的信 息,恰如其分地进行理性概括,并据此写出 严谨的研究报告和学术论文。
例如:某医生比较两种疗法对活动期十 二指肠球部溃疡的疗效。
呋喃硝胺 100人 西米替丁 100人
(2)三类资料类型可以相互转化。
例:某地调查高血压的患病情况。
计量资料
每人的血压:以mmHg计
以舒张压≥90mmHg为高血压,结果在1000 人中有10名高血压患者,990名非高血压患 者,整理后的资料 计数 资料 按低血压、正常、高血压分 组所得资料。 等级资料
四、统计学中的基本概念
(一)总体与样本 1、总体(population) 根据研究目的所确定的同质的所有 观察单位某项变量值的集合。
2检验的适用资料
两组样本率的比较;
多组样本率的比较;
两组或多组构成比的比较;
配对设计下两分类资料检验。
一、四格表资料的检验
四格表资料的检验主要用于两个样本 率(或构成比)的假设检验,一般制 成表 6-2 的计算格式(以阳性和阴性 为例)。
表6-2
四格表资料检验计算表
组 别 甲 组
阳性数
阴性数
2
例6.7
以例6.6资料为例
表6-3 用药组和对照组流感发病率的比较
组 别 发病人数 未发病人数 合计
用药组
对照组 合 计
14(20)
30(24) 44
86(80)
90(96) 176
100
120 220
两种方法计算结果
2
14 20 86 80 30 24 90 96
伪造统计数据违反科学道德
1976年New Science 杂志关于科研舞弊 行为的调查
(1)74%的调查表反映有不正当修改数据 的情况 (2)17%拼凑实验结果 (3)7%凭空捏造数据 (4)2%故意曲解结果
二、统计工作的基本步骤
设计 收集资料 整理资料 分析资料
(一)设计
1.专业设计:选题、建立假说、确定 研究对象 设类型、
四、统计学中的基本概念
(五)概率 概率:是描述随机事件发生 的可能性大小的数值。 (1)必然事件: P(A)=1 (2)不可能事件: P(A)=0 (3)随机事件(偶然事件):0< P(A)<1 (4)小概率事件:P≤0.05 或 P≤0.01
t检验不是处理计数资料的万能方法
卡方检验不是处理计数资料的万能方法
2
26 2 7 36 71 2 71
2
33 38 62 9
2.74
本例:X2=2.71< X2 0.05,1=3.84 本例若对X2值不校正,α=4.06,得P<0.05,结论 正好相反。
三、行×列表的检验
行×列表(R×C表)的检验主要用Leabharlann Baidu解决多个 样本率或多个样本构成比的比较以及有序分类资 料的关联性检验。
卡方检验
秩和检验或Ridit分析
原则:选择最恰当的统计指标准确描述资料的特征。 正态分布 计量资料 非正态分布
X S
Md , ( P25 , P75 )
计数资料
率或比
X2检验
X2 检验或称卡方检验,是一种用途较 广的假设检验方法,常用于检验两个 或多个样本率及构成比之间有无差别, 还用来检验配对定性资料及两种属性 或特征之间是否有关系等。
(二)收集资料
(二)资料要求 1.完整:观察单位及观察项目完整。 观察单位:最基本的获取数据的单元。可以是一 个体,亦可以是一个单位、家庭、地区,一批样品, 一个采样点。 2.准确:即真实、可靠。真实是统计学的灵魂。 3.及时:即时限性。如人口普查规定调查开始日期 和截止日期。
(三)整理资料
整理资料即原始数据的条理化、 系统化的过程。所采取的手段→合 理化分组,目的→实现专业目标。 质分组:按事物的属性或性质分组 →分类变量; 量分组:按数据的大小→数值变量。
合计
a
b
a+b
乙 组
合 计
c
a+c
d
b+d
c+d
a+b+c+d=n
X2检验的基本公式为
• 条件:n>40, T>=5
2
A T
T
2
理论频数T
TRC
n R nC n
四格表检验专用公式
省去计算T值
n (a b)(c d )(a c)(b d )
2
ad bc
2 2 2
2
20
80
24
96
4.125
14 90 86 30
2
220 4.125 100 120 44 176
2
结果判断
X2临界值:X20.05,1=3.84, 请记住 : X2 0.01,1=6.63, X2=u2 本例 : X2=4.125> X20.05,1=3.84, 两组差 别有统计学意义。与前面的结论相同。
2 A 2 n n n 1 R C
式中n为总例数, A 为每格子的实际频数,nR 、 nC 分别 为与某格子实际频数(A)同行、同列的合计数。
行×列表资料的检验的注意事项
1. 理论数不宜太小,一般不宜有1/5以上 格子的理论频数小于5,或有一个理论频 数小于1。对理论数太小有三种处理方法: ①最好增加样本含量以增大理论频数;根 本的方法。 ②删去理论频数太小的行和列;此法不好。 ③将理论频数较小的行或列与邻行或邻列 合并以增大理论频数。但后两法可能会损 失信息,
计数资料
对观察对象按属 性或类型分组计 数所得的资料。 每个对象之间没 有量的差异,只 有质的不同。
(数值变量或 (无序分类变量 定量资料) 或定性资料)
等级资料 (有序分类变量
或半定量资料)
对观察对象按属 性或类型程度的 不同分组计数, 但各属性或类型 之间又有程度的 差别。
注意:
( 1 )不同类型的资料采用的统计分 析方法不同;
一、医学统计学概述
定义
是用统计学原理和方法研究生物 医学问题的一门学科。医学统计方法 在医学研究中的运用主要有三个方面:
一、医学统计学概述
②描述数据的统计特征,如数据化简、统计指标的选
①以正确的方式收集数据,如实验设计、调查设计等。
择与计算、统计结果的表达等。
③统计分析及得出正确结论,如根据概率分布,对实
医学论文中的统计学问题
60年代到80年代,国外医学杂志调查结果: 有统计错误的论文20%~72%。 1996年对4586篇论文统计(中华医学会 系列杂志占6.9%),数据分析方法误用达 55.7%。
1996年,有机构对申报科技成果的4586篇科研论文分析, 统计方法使用率为76%。 医学论文中统计运用错误,除了影响论文的科学性,还可 能导致严重的伦理学问题。
1. 计量资料
定义:通过度量衡的方法,测量每一个观察单位 的某项研究指标的量的大小,得到的一系列数据 资料。 特点:有度量衡单位 多为连续性资料 (通过测量得到)
如患者的身高(cm)、体重(kg)、 血压(mmHg)、脉搏(次/分)、 红细胞计数(1012/L)
2. 计数资料
定义:将全体观测单位按照某种性质或特 征分组,然后再分别清点各组观察单位的 个数。 特点:没有度量衡单位 多为间断性资料(通过枚举或记数得来) 如肤色(黑、白)、血型(ABO)、职业 (工农兵)、性别(男女)
双向无序,两个分类变量皆为无序分类变量,一般
用卡方检验。
单向有序资料,采用秩和检验。 双向有序且属性相同,研究目的通常是分析两种检 测方法的一致性,此时应用一致性检验。 双向有序属性不同,根据具体情况可选择秩和检验, 等级相关分析或者线性趋势检验。
表 5-1 两种方法治疗慢性乙型肝炎的疗效比较 方 法 肝炎灵注射液 常规 疗法 合 计 有效数 51 27 78 无效数 9 24 33 合计 60 51 111 有效率(%) 85.00 52.94 70.27
四格表值的校正
条件: ( 1 )任一格的 1≤T < 5 ,且 n≥40 时,需计算校 正值。 (2)任一格的T<1或n≤40时,用确切概率计算 法。
基本公式
2
AT
0.5
2
T
2
专用公式
2
ad bc n 2 n
(a b)(c d )(a c)(b d )
(四)分析资料
1. 统计描述:用统计指标、统计图表 对资料的数量特征及分布规律进行测 定和描述。 2. 统计推断:用样本信息推断总体特 征: ①参数估计。 ②假设检验。
三、统计资料的类型
有三种类型的资料: 计量资料,计数资料,等级资料 基本概念:变量及变量值,研究者对每个 观察单位的某项特征进行观察和测量,这 种特征称为变量,变量的测得值叫变量值 (也叫观察值),称为资料。按变量值的 性质可将资料分为定量资料和定性资料。
有关总体的三个要点:
研究目的、同质的、全体
例如:了解某地2002年正常成人白细胞数 目的:了解某地2002年正常成人白细胞数 观察对象:该地2002年全部正常成人 观察单位:每个人
观察值:测得的白细胞数
同质: 同一地区、同一年份、同为正常成人 全体:该地2002年全部正常成人白细胞数
四、统计学中的基本概念
疗效 90人 疗效 85人
据此能否立即 下结论,呋喃 硝胺的疗效高 于西米替丁?
冠心灵与单纯西药 疗效对比
显效 单纯西药 冠心灵 9 19 有效 25 18 无效 6 5 合计 40 42
问题:某医师用“冠心灵”治疗 冠心病,其疗效是否优于单纯西药?
授课提纲
医学统计学概述 统计工作的基本步骤 统计资料的类型 医学统计中的基本概念 常用的几种统计方法
和技术方法等→个性
2.统计设计:围绕专业设计确定统计 方法。 样本大小、分组方法、统计分析指标及统计分析
(二)收集资料
(一)资料来源 第一手资料 ① 经常性:统计报表(死亡登记、 疫情 报告等),工作记录(病历、 化验); ② 一时性:专题调查、实验或临床 试验。 第二手资料:已公布的资料,如全国、 全省卫生统计资料。
验和观察结果存在的差异和关联作出统计推断 。
工作生活中常见的统计学问题
如何判断药物的疗效?(假设检验) 明天是否下雨?体育彩票能否中奖? (概率论) 子女为什么象父母,其强度有多大? (相关与回归) 美国的民意测验是如何进行的?(设计, 抽样) 中国的市场调查的可信性有多大?(现 场调查) 统计学是对令人困惑费解的数字问题 做出设想的艺术。
例6.8 某医师用甲、乙两疗法治疗小儿单纯性消化不良, 治疗结果如表6-4,问两疗法的治愈率是否相等?
表6-4 甲、乙两疗法治疗小儿单纯性消化不良的治愈率比较
组 别 用药组
发病人数 26(28.8)
未发病人数 7(4.2)
合计 33
对照组
合 计
36(33.2)
62
2(4.8)
9
38
71
计算结果及判断
60 年代到 80年代,国外医学杂志调查表明: 20%~72%的论文有 统计错误。 1984 年对《中华医学杂志》、《中华内科杂志》、《中华外科 杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查 结果为: 相对数误用占 11.2%,抽样方法误用占 15.9%,统计图表误用占 11.7% 1996年对4586篇论文统计(中华医学会系列杂志占 6.9%),数 据分析方法误用达55.7%。 2001年《中华预防医学杂志》:中华医学会系列杂志误用约54% (1995)。
例如,同种族、同年龄、同性别的健康人, 在相同的条件下测其脉搏、呼吸、体温等 生理指标可以有很大差异。
四、统计学中的基本概念
(三)参数和统计量 1.参数:总体指标。 2.统计量:样本指标。 (四)抽样误差 1.定义:在统计学上把由抽样造成的 样本统计量和总体参数之间的差异或 者是各个样本统计量之间的差异统称 为抽样误差。
3. 等级资料
定义: 介于计量资料和计数资料之间的一种资 料,通过半定量方法测量得到。 特点: 每一个观察单位没有确切值 各组之间有性质上的差别或程度上的不同。 ①癌症分期:早、中、晚。 ②药物疗效:治愈、好转、无效、死亡。 ③尿蛋白: ,,,++,+++及以上
资料的类型
计量资料
对每一观察对象 用定量的方法, 测定某项指标所 得的资料。一般 有度量衡单位, 每个对象之间有 量的区别。
常用的几种统计方法
宿州市立医院心内一科 田 真
前言
学习统计学方法,主要目的在于建立统 计学观念,提高医学统计学思维,学会运用 统计学理论和方法充分挖掘资料中蕴含的信 息,恰如其分地进行理性概括,并据此写出 严谨的研究报告和学术论文。
例如:某医生比较两种疗法对活动期十 二指肠球部溃疡的疗效。
呋喃硝胺 100人 西米替丁 100人
(2)三类资料类型可以相互转化。
例:某地调查高血压的患病情况。
计量资料
每人的血压:以mmHg计
以舒张压≥90mmHg为高血压,结果在1000 人中有10名高血压患者,990名非高血压患 者,整理后的资料 计数 资料 按低血压、正常、高血压分 组所得资料。 等级资料
四、统计学中的基本概念
(一)总体与样本 1、总体(population) 根据研究目的所确定的同质的所有 观察单位某项变量值的集合。
2检验的适用资料
两组样本率的比较;
多组样本率的比较;
两组或多组构成比的比较;
配对设计下两分类资料检验。
一、四格表资料的检验
四格表资料的检验主要用于两个样本 率(或构成比)的假设检验,一般制 成表 6-2 的计算格式(以阳性和阴性 为例)。
表6-2
四格表资料检验计算表
组 别 甲 组
阳性数
阴性数
2
例6.7
以例6.6资料为例
表6-3 用药组和对照组流感发病率的比较
组 别 发病人数 未发病人数 合计
用药组
对照组 合 计
14(20)
30(24) 44
86(80)
90(96) 176
100
120 220
两种方法计算结果
2
14 20 86 80 30 24 90 96
伪造统计数据违反科学道德
1976年New Science 杂志关于科研舞弊 行为的调查
(1)74%的调查表反映有不正当修改数据 的情况 (2)17%拼凑实验结果 (3)7%凭空捏造数据 (4)2%故意曲解结果
二、统计工作的基本步骤
设计 收集资料 整理资料 分析资料
(一)设计
1.专业设计:选题、建立假说、确定 研究对象 设类型、
四、统计学中的基本概念
(五)概率 概率:是描述随机事件发生 的可能性大小的数值。 (1)必然事件: P(A)=1 (2)不可能事件: P(A)=0 (3)随机事件(偶然事件):0< P(A)<1 (4)小概率事件:P≤0.05 或 P≤0.01
t检验不是处理计数资料的万能方法
卡方检验不是处理计数资料的万能方法
2
26 2 7 36 71 2 71
2
33 38 62 9
2.74
本例:X2=2.71< X2 0.05,1=3.84 本例若对X2值不校正,α=4.06,得P<0.05,结论 正好相反。
三、行×列表的检验
行×列表(R×C表)的检验主要用Leabharlann Baidu解决多个 样本率或多个样本构成比的比较以及有序分类资 料的关联性检验。
卡方检验
秩和检验或Ridit分析
原则:选择最恰当的统计指标准确描述资料的特征。 正态分布 计量资料 非正态分布
X S
Md , ( P25 , P75 )
计数资料
率或比
X2检验
X2 检验或称卡方检验,是一种用途较 广的假设检验方法,常用于检验两个 或多个样本率及构成比之间有无差别, 还用来检验配对定性资料及两种属性 或特征之间是否有关系等。
(二)收集资料
(二)资料要求 1.完整:观察单位及观察项目完整。 观察单位:最基本的获取数据的单元。可以是一 个体,亦可以是一个单位、家庭、地区,一批样品, 一个采样点。 2.准确:即真实、可靠。真实是统计学的灵魂。 3.及时:即时限性。如人口普查规定调查开始日期 和截止日期。
(三)整理资料
整理资料即原始数据的条理化、 系统化的过程。所采取的手段→合 理化分组,目的→实现专业目标。 质分组:按事物的属性或性质分组 →分类变量; 量分组:按数据的大小→数值变量。
合计
a
b
a+b
乙 组
合 计
c
a+c
d
b+d
c+d
a+b+c+d=n
X2检验的基本公式为
• 条件:n>40, T>=5
2
A T
T
2
理论频数T
TRC
n R nC n
四格表检验专用公式
省去计算T值
n (a b)(c d )(a c)(b d )
2
ad bc
2 2 2
2
20
80
24
96
4.125
14 90 86 30
2
220 4.125 100 120 44 176
2
结果判断
X2临界值:X20.05,1=3.84, 请记住 : X2 0.01,1=6.63, X2=u2 本例 : X2=4.125> X20.05,1=3.84, 两组差 别有统计学意义。与前面的结论相同。
2 A 2 n n n 1 R C
式中n为总例数, A 为每格子的实际频数,nR 、 nC 分别 为与某格子实际频数(A)同行、同列的合计数。
行×列表资料的检验的注意事项
1. 理论数不宜太小,一般不宜有1/5以上 格子的理论频数小于5,或有一个理论频 数小于1。对理论数太小有三种处理方法: ①最好增加样本含量以增大理论频数;根 本的方法。 ②删去理论频数太小的行和列;此法不好。 ③将理论频数较小的行或列与邻行或邻列 合并以增大理论频数。但后两法可能会损 失信息,
计数资料
对观察对象按属 性或类型分组计 数所得的资料。 每个对象之间没 有量的差异,只 有质的不同。
(数值变量或 (无序分类变量 定量资料) 或定性资料)
等级资料 (有序分类变量
或半定量资料)
对观察对象按属 性或类型程度的 不同分组计数, 但各属性或类型 之间又有程度的 差别。
注意:
( 1 )不同类型的资料采用的统计分 析方法不同;
一、医学统计学概述
定义
是用统计学原理和方法研究生物 医学问题的一门学科。医学统计方法 在医学研究中的运用主要有三个方面:
一、医学统计学概述
②描述数据的统计特征,如数据化简、统计指标的选
①以正确的方式收集数据,如实验设计、调查设计等。
择与计算、统计结果的表达等。
③统计分析及得出正确结论,如根据概率分布,对实
医学论文中的统计学问题
60年代到80年代,国外医学杂志调查结果: 有统计错误的论文20%~72%。 1996年对4586篇论文统计(中华医学会 系列杂志占6.9%),数据分析方法误用达 55.7%。
1996年,有机构对申报科技成果的4586篇科研论文分析, 统计方法使用率为76%。 医学论文中统计运用错误,除了影响论文的科学性,还可 能导致严重的伦理学问题。
1. 计量资料
定义:通过度量衡的方法,测量每一个观察单位 的某项研究指标的量的大小,得到的一系列数据 资料。 特点:有度量衡单位 多为连续性资料 (通过测量得到)
如患者的身高(cm)、体重(kg)、 血压(mmHg)、脉搏(次/分)、 红细胞计数(1012/L)
2. 计数资料
定义:将全体观测单位按照某种性质或特 征分组,然后再分别清点各组观察单位的 个数。 特点:没有度量衡单位 多为间断性资料(通过枚举或记数得来) 如肤色(黑、白)、血型(ABO)、职业 (工农兵)、性别(男女)
双向无序,两个分类变量皆为无序分类变量,一般
用卡方检验。
单向有序资料,采用秩和检验。 双向有序且属性相同,研究目的通常是分析两种检 测方法的一致性,此时应用一致性检验。 双向有序属性不同,根据具体情况可选择秩和检验, 等级相关分析或者线性趋势检验。
表 5-1 两种方法治疗慢性乙型肝炎的疗效比较 方 法 肝炎灵注射液 常规 疗法 合 计 有效数 51 27 78 无效数 9 24 33 合计 60 51 111 有效率(%) 85.00 52.94 70.27
四格表值的校正
条件: ( 1 )任一格的 1≤T < 5 ,且 n≥40 时,需计算校 正值。 (2)任一格的T<1或n≤40时,用确切概率计算 法。
基本公式
2
AT
0.5
2
T
2
专用公式
2
ad bc n 2 n
(a b)(c d )(a c)(b d )
(四)分析资料
1. 统计描述:用统计指标、统计图表 对资料的数量特征及分布规律进行测 定和描述。 2. 统计推断:用样本信息推断总体特 征: ①参数估计。 ②假设检验。
三、统计资料的类型
有三种类型的资料: 计量资料,计数资料,等级资料 基本概念:变量及变量值,研究者对每个 观察单位的某项特征进行观察和测量,这 种特征称为变量,变量的测得值叫变量值 (也叫观察值),称为资料。按变量值的 性质可将资料分为定量资料和定性资料。
有关总体的三个要点:
研究目的、同质的、全体
例如:了解某地2002年正常成人白细胞数 目的:了解某地2002年正常成人白细胞数 观察对象:该地2002年全部正常成人 观察单位:每个人
观察值:测得的白细胞数
同质: 同一地区、同一年份、同为正常成人 全体:该地2002年全部正常成人白细胞数
四、统计学中的基本概念
疗效 90人 疗效 85人
据此能否立即 下结论,呋喃 硝胺的疗效高 于西米替丁?
冠心灵与单纯西药 疗效对比
显效 单纯西药 冠心灵 9 19 有效 25 18 无效 6 5 合计 40 42
问题:某医师用“冠心灵”治疗 冠心病,其疗效是否优于单纯西药?
授课提纲
医学统计学概述 统计工作的基本步骤 统计资料的类型 医学统计中的基本概念 常用的几种统计方法
和技术方法等→个性
2.统计设计:围绕专业设计确定统计 方法。 样本大小、分组方法、统计分析指标及统计分析
(二)收集资料
(一)资料来源 第一手资料 ① 经常性:统计报表(死亡登记、 疫情 报告等),工作记录(病历、 化验); ② 一时性:专题调查、实验或临床 试验。 第二手资料:已公布的资料,如全国、 全省卫生统计资料。
验和观察结果存在的差异和关联作出统计推断 。
工作生活中常见的统计学问题
如何判断药物的疗效?(假设检验) 明天是否下雨?体育彩票能否中奖? (概率论) 子女为什么象父母,其强度有多大? (相关与回归) 美国的民意测验是如何进行的?(设计, 抽样) 中国的市场调查的可信性有多大?(现 场调查) 统计学是对令人困惑费解的数字问题 做出设想的艺术。
例6.8 某医师用甲、乙两疗法治疗小儿单纯性消化不良, 治疗结果如表6-4,问两疗法的治愈率是否相等?
表6-4 甲、乙两疗法治疗小儿单纯性消化不良的治愈率比较
组 别 用药组
发病人数 26(28.8)
未发病人数 7(4.2)
合计 33
对照组
合 计
36(33.2)
62
2(4.8)
9
38
71
计算结果及判断
60 年代到 80年代,国外医学杂志调查表明: 20%~72%的论文有 统计错误。 1984 年对《中华医学杂志》、《中华内科杂志》、《中华外科 杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查 结果为: 相对数误用占 11.2%,抽样方法误用占 15.9%,统计图表误用占 11.7% 1996年对4586篇论文统计(中华医学会系列杂志占 6.9%),数 据分析方法误用达55.7%。 2001年《中华预防医学杂志》:中华医学会系列杂志误用约54% (1995)。