计数资料的统计推断

合集下载

医学统计学---统计推断

医学统计学---统计推断

第一节 常用相对数
例5-1 某医院1998年在某城区随机调查 了8589例60岁及以上老人,体检发现高 血压患者为2823例。 高血压患病率为: 2823 / 8589 100% = 32.87% 。

第一节 常用相对数
二、构成比 构成比:表示事物内部某一部分的个体数 与该事物各部分个体数的总和之比,用来 说明各构成部分在总体中所占的比重或分 布。 通常以100%为比例基数。其计算公式为
表 5-4 甲、乙两种疗法治疗某病的治愈率比较 治愈率(%) 60.0 35.0 53.8 病人数 100 300 400 乙疗法 治愈数 65 125 190 治愈率(%) 65.0 41.7 47.5


普通型 重 型 合 计
病人数 300 100 400
甲疗法 治愈数 180 35 215
第三节 率的标准化法

第三节 率的标准化法
标准化法计算的关键是选择统一的标准构成。 选择标准构成的方法通常有三种: 1.两组资料中任选一组资料的人口数(或人口 构成)作为两者的“共同标准”。这种方法适 用于直接法。 2.两组资料各部分人口之和组成的人口数(或 人口构成)作为两者的“共同标准”。这种方 法适用于直接法。 3.另外选用一个通用的或便于比较的标准作 为两者的“共同标准”,如采用全国、全省或 全地区的数据作为标准。

式中两指标可以是绝对数、相对数或平均 数。
第一节 常用相对数
例5-3 某年某医院出生婴儿中,男性婴儿为370 人,女性婴儿为358人,则出生婴儿性别比例为 370/358×100 = 103,说明该医院该年每出生 100名女婴儿,就有103名男性婴儿出生,它反 映了男性婴儿与女性婴儿出生的对比水平。 据大量观察,出生婴儿男多于女,出生性别比 一般在104~107之间。这个医院的出生性别比 为103,说明该年该医院出生女婴相对较多。

统计描述与统计推断

统计描述与统计推断

统计描述与统计推断统计的主要工作就是对统计数据进行统计描述和统计推断。

统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述;而统计推断是指通过抽样等方式进行样本估计总体特征的过程,包括参数估计和假设检验两项内容。

(一)统计描述1.计量资料的统计描述计量资料的统计描述主要通过编制频数分布表、计算集中趋势指标和离散趁势指标以及统计图表来进行。

(1)集中趋势。

指频数表中频数分布表现为频数向某一位置集中的趋势。

集中趋势的描述指标:1)算术平均数。

直接法:x为观察值,n为个数加权法又称频数表法,适用于频数表资料,当观察例数较多时用。

f为各组段的频数。

2)几何平均数(geometric mean)。

几何平均数用符号G表示。

用于反映一组经对数转换后呈对称分布的变量值在数学上的平均水平。

直接法:加权法又称频数表法,当观察例数n较大时,可先编制频数分布表,用此法算几何平均数:3)百分位数(percentile )与中位数(median )。

百分位数是一种位置坐标,用符号x P 表示常用的百分位数有 2.5P 、5P 、50P 、75P 、95P 、97.5P 等,其中25P 、50P 、75P 又称为四分位数。

百分位数常用于描述一组观察值在某百分位置上的水平,多个百分位结合使用,可更全面地描述资料的分布特征。

中位数是一个特定的百分位数即50P ,用符号M 表示。

把一组观察值按从小到大(或从大到小)的次序排列,位置居于最中央的那个数据就是中位数。

中位数也是反映频数分布集中位置的统计指标,但它只由所处中间位置的部分变量值计算所得,不能反映所有数值的变化,故中位数缺乏敏感性。

中位数理论上可以用于任何分布类型的资料,但实践中常用于偏态分布资料和分布两端无确定值的资料。

其计算方法有直接法和频数表法两种。

直接法:当观察例数n 不大时,此法常用,先将观察值按大小次序排列,选用下列公式求M 。

医学统计学之卡方x2检验

医学统计学之卡方x2检验

举例
买彩票
奖项 中奖概率
T
A
一等 1% 10 0
0
二等 5% 50 0
0
三等 10% 100 20
2%
四等 20% 200 180
18%
五等 64% 640 800
80%
二、基本原理
基本思想是检验实际频数和理论频数的差别是否 由抽样误差所引起的,由样本率来推断总体率。
x2反映了实际频数于理论频数的吻合程度,x2值
α=0.05。
T11 =44(41/70)=25.8 T12=44(29/70)=18.2 T21=26(41/70)=15.2 T22 = 26(29/70)=10.8
(2)求检验统计量值
2 (20 25.8)2 (24 18.2)2 (21 15.2)2 (5 10.8)2 8.40
作χ2检验后所得概率P接近检验水准α,需要
计数资料的统计推断
卡方检验是χ2检验(Chi-square test) 是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的 一种具有广泛用途的统计方法,是分类 计数资料的假设检验方法,可用于两个 或多个率间或构成比之间的比较,计数 资料的关联度分析,拟合优度检验等等。
2 检验的应用
①检验两个样本率之间差别的显著性; ②检验多个样本率或构成比之间差别的
显著性; ③配对计数资料的比较; ④检验两个双向无序分类变量是否存在
关联。
某医生想观察一种新药对流感的预防效 果,进行了如下的研究,问此药是否有 效?
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220

统计方法介绍

统计方法介绍

(4)百分位数:第X百分位数以Px表示,它将 全部观察值分成二个部分,其中有x%个观察 值小于Px, (100-x)%个观察值大于Px。 用途:1.描述一组资料在各个百分位置上 的水平,用一组百分位数如P5 ,P25, P50, P75, P95,可以描述总体或样本的分布特征,如集 中位置、变异度等。 2.确定医学正常值范围。
三. 方差分析
方差分析主要用于检验计量资料中两 个或两个以上样本均数间差别的显著性。 常见的错误是进行各组之间的两两t 检验。这将增加第一类误差的概率。 两组以上均数的比较不能用两两t检验, 而必须用方差分析。如差别有统计学意义, 然后再进一步用SNK等方法作两两比较。
例: 小白鼠给药前后发生咳嗽的推迟时间(秒)
1. 样本均数与总体均数比较的t检验
检验样本是否来自均数为μ0的已知总体 。 如:要研究现在13岁男孩的身高是否比20年 前的13岁男孩高。 20年前的13岁男孩平 均身高为1.30。现测量了13岁男孩100名 平均身高为1.35,标准差为0.12,要检验 现在13岁男孩身高的总体均数是否高于 1.30。
—————————————————————————— 单位组 处理1 处理2 ……... 处理k
—————————————————————————— 1 2 ┇ b X11 X21 ┇ Xb1 X12 X22 ┇ Xb2 ……... ……... ……... X1k X2k ┇ Xbk
——————————————————————————
二个或多个构成比的比较或两个属性之间有无关系:
────────────────────── 血 型 民族 ────────────────── A B O AB 合计 ───────────────────── 傣族 f11 f12 f13 f14 n1+ 佤族 土家族 f21 f31 f22 f32 f23 f33 f24 f34 n2+ n3+

《医学统计学》教学大纲(医学检验)

《医学统计学》教学大纲(医学检验)

《医学统计学》课程教学大纲(Medical Statistics)一、课程基本信息课程编号:14232080课程类别:专业必修课适用专业:医学检验技术学分:理论教学学分:2学分,实验学分:0.5学分总学时:40学时(其中讲授学时:24学时;实验(上机)学时:16学时)先修课程:医学基础课程后续课程:医学检验、预防医学选用教材:李康主编:医学统计学(第6版)[M].北京:人民卫生出版社,2013必读书目:[1]方积乾主编.医学统计学(第7版)[M].北京:人民卫生出版社,2013[2]袁兆康.医学统计学[M].北京:人民军医出版社.2013[3]张文彤主编.SPSS统计分析基础教程(第2版)[M].北京:高等教育出版社,2011选读书目:[1] 颜虹, 医学统计学[M]. 北京:人民卫生出版社,2005[2] 康晓平,实用卫生统计学 [M].北京:北京大学医学出版社,2002[3] Belinda Barton,Medical Statistics: A Guide to SPSS, Data Analysis and Critical Appraisal [M].美国:WILEY Blackwell,2014二、课程教学目标通过本门课程的学习,要使学生学会人群健康研究的统计学方法,学会数值变量和分类变量资料的分析,配对资料的分析,直线相关和直线回归,非参数统计方法,病例随访资料分析。

其目的使大家具备新的推理思维,结合专业问题合理设计试验,科学获取资料,提高科研素质。

本课程教学的主要方法有理论讲授、课堂讨论、实验实习、课堂演算、统计软件SPSS上机等。

通过实验实习,使学生加深对理论的理解。

三、课程教学内容与教学要求1.绪论教学要求:掌握:同质与变异,总体、个体和样本,变量的分类,统计量与参数,抽样误差,频率与概率等基本概念。

理解:统计工作的基本步骤,医学统计学的主要内容。

了解:学习统计学的目的和要求。

计数资料的统计描述与卡方检验

计数资料的统计描述与卡方检验

25
41 45 50 28 31

男 女 女 男 女
1.61
1.71 1.58 1.60 1.76 1.62
AB
A B O AB Oຫໍສະໝຸດ 正常异常 正常 异常 正常 正常

++ ++ ++ +++ +
农民
工人 工人 干部 干部 军人
3.92
3.49 5.48 6.78 7.10 5.24
1、频数表
部分原始数据
重 中 轻
800 200 100
合计 1100
1、标准化法的基本方法
• 方法1:采用标准人口构成与原始分组率, 计算标准化率,直接比较。 • 方法2:采用分组标准化率与原始人口,计 算标准化比,间接比较。
1)、直接法--标准人口
病情程度
例数
甲医院
感染数 160 20 5 185 感染率 例数 20% 10% 5% 16.8% 800 200 100 1100
计数资料的统计描述与卡方检验
四川大学华西医院 康德英
临床研究中计数资料来源、分类
• 本身设置为分类变量(PI/ECOT) • 从计量资料转化而来:
如评价降压疗效时,将舒张压降低值分为三类: <5mmHg 无效
5-10mmHg
10-20mmHg
有效
显效
Note:计量资料转化为计数资料,过程本身损 失信息,应慎重。
4、NNT
• NNT(Numbers Needed to Treat):为避免 一例不良事件发生而需要治疗的病例数.其 值为绝对危险度的倒数(1/AR) • 类似还有:NNH(Numbers Needed to Harm)。

计数资料的统计描述与统计推断

计数资料的统计描述与统计推断

2 nnARn2C 1
(一) 多个样本率的比较:
表3.8 三种药物治疗高血压的疗效
处理
有效
无效
合计
有效率%
复方哌唑嗪 35
5
40
87.50
复方降压片 20
10
30
66.67
安慰剂
7
25
32
21.88
合计
62
40
102
60.78
38
H0:三种处理方法的有效率相等, 即π1= π2= π3 H1:三种处理方法的有效率不等或不全相等
某类死因构某 成同 年 比年 某死 类亡 死总 因人 死 1数 亡 0% 0人数
8
(二)疾病统计指标
某 病 发病 一率 定 该时 期期 间内 新可 病 发能 的 生 例发 平 的 数生 均 某 某 人 K病
某病患病率 某该时时点点某受病检现人患口病 K数例数


病死同 因率期 某某 病
死亡人数 病病 10人 % 0 数
29
31
(三)四格表χ2检验的专用公式
2
(ad b)c2n
(ab)c(d)a (c)b (d)
两组人群尿棕色素阳性率比较
组别
阳性数
阴性数
合计
铅中毒病人 对照组
29(a) 9(c)
7(b) 28(d)
36(a+b) 37(c+d)
合计
38(a+c)
35(b+d)
73(n)
阳性率(%) 80.56 24.32 52.05
712 142 185
61
1100
4
0.6
9
6.3

生物信息学-统计原理部分-统计检验

生物信息学-统计原理部分-统计检验

一、判断题:1.研究人员测量了100例患者外周血的红细胞计数,所得资料为计数资料。

(×)2.统计分析包括统计描述和统计推断。

(√)3.计量资料、计数资料和等级资料可根据分析需要相互转化。

(√)1. 为了了解某地20~29岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名20~29岁的健康女性,并对其血红蛋白进行测量,请问本次调查的总体是:A.该地所有20~29的健康女性B.该地所有20~29的健康女性的血红蛋白测量值C.抽取的这2000名20~29岁女性D.抽取的这2000名20~29岁女性的血红蛋白测量值2.抽样的目的是:A.研究样本统计量B.由样本统计量推断总体参数C.研究典型案例研究误差D.研究总体统计量3.参数是指:A.参与个体数B.总体的统计指标C.样本的统计指标D.样本的总和4.关于随机抽样,下列那一项说法是正确的:A.抽样时应使得总体中的每一个个体都有同等的机会被抽取B.研究者在抽样时应精心挑选个体,以使样本更能代表总体C.随机抽样即随意抽取个体D.为确保样本具有更好的代表性,样本量应越大越好5.总体的要求是:A.大量的B.同质的C.随机的D.固定的6.统计学上说的系统误差、测量误差和抽样误差三种误差,在实际工作中有:A.三种误差都不可避免B.系统误差和抽样误差不可避免C.系统误差和测量误差不可避免D.测量误差和抽样误差不可避免7.同性三胞胎的身长、体重均有不同,这是:A.变异B.同质C.系统误差D.抽样误差8.某医生对100名高血压病人采用某新疗法进行治疗,该研究的总体是:A.全院收治的高血压病人B.这100名高血压病人C.该医生收治的所有病人D.接受该新疗法的所有高血压病人E.所有高血压病人生物信息学-统计原理统计检验•(statistical test)也称假设检验。

利用样本信息,根据一定概率,对某一总体参数的假设经检验后作出拒绝或接受的决断。

对某一总体参数作出假设(nullhypothesis H)搜集样本数据产生样本统计量确定对假设拒绝还是接受•若某一随机变量X 服从总体均数为μ、总体标准差为σ的正态分布N(μ,σ2))1,0(~2N X u σμ-=由于样本均数服从总体均数为μ、总体标准差为的正态分布N( μ, σ2) )1,0(~2N X u Xσμ-=σμXX u -=,1X X X t n S S nμμν--===-n mν=-n 为计算某一统计量用到的数据个数,m 为计算该统计量用到其它独立统计量的个数。

计量资料统计推断(t检验)-预防医学-课件

计量资料统计推断(t检验)-预防医学-课件

02
t检验的步骤
建立假设
假设检验的基本思想
设立原假设的依据
在假设检验中,通常先设立一个原假 设,然后基于样本数据对原假设进行 检验,判断是否拒绝原假设。
原假设的设立通常基于已有的研究结 果、理论或实践经验,并且原假设应 该是一个可以验证的命题。
原假设与备择假设
原假设通常是研究者想要否定的假设 ,备择假设则是研究者想要接受的假 设。
p值是用于判断是否拒绝原假设 的统计量,p值越小,说明样本 数据与原假设之间的差异越大,
越有理由拒绝原假设。
显著性水平
显著性水平是预先设定的一个临 界值,用于判断是否拒绝原假设
,通常取0.05或0.01。
结论的表述
根据p值与显著性水平的比较结 果,可以得出是否拒绝原假设的 结论,并进一步解释结果的意义
断实验处理或条件改变对数据的影响。
两独立样本t检验
总结词
用于比较两个独立样本的平均值是否存 在显著性差异。
VS
详细描述
两独立样本t检验,也称为两组独立样本t 检验,是统计学中常用的方法之一,用于 比较两个独立样本的平均值是否存在显著 差异。这种方法常用于比较不同组对象的 数据、不同条件下的独立测量等。通过计 算t统计量,我们可以判断两组独立样本 的均值是否存在显著差异,从而推断不同 组别或条件对数据的影响。在进行两独立 样本t检验时,需要注意样本来自的总体 是否具有方差齐性和正态分布等统计假设 ,以确保检验结果的准确性和可靠性。
t检验的适用范围
• t检验适用于样本量较小、数据分布情况未知或总体标准差未知的情况。在预防医学领域,t检验常用于比较两组人群的生理 指标、行为习惯等计量资料的差异。
t检验的假设条件
• 假设条件包括:样本数据来自正态分布总体、总体 方差齐性、独立样本等。在进行t检验之前,需要检 验样本数据是否满足这些假设条件,以确保统计推 断的准确性。

统计学简答题汇总

统计学简答题汇总

统计学简答题汇总1、标准正态分布(u分布)与t分布有何异同?相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(⾃由度是⽆限⼤时)不同点:t分布是⼀簇分布曲线,t 分布的曲线的形状是随⾃由度的变化⽽变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。

3、简述直线回归与直线相关的区别。

1资料要求上不同:直线回归分析适⽤于应变量是服从正态分布的随机变量,⾃变量是选定变量;直线相关分析适⽤于服从双变量正态分布的资料。

2 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越⼤回归直线越陡峭,表⽰应变量随⾃变量变化越快;相关系数是表明两个变量之间相关的⽅向和紧密程度的,相关系数越⼤,两个变量的关联程度越⼤。

第⼀章医学统计中的基本概念2、抽样中要求每⼀个样本应该具有哪三性?从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。

(1)代表性: 就是要求样本中的每⼀个个体必须符合总体的规定。

(2)随机性: 就是要保证总体中的每个个体均有相同的⼏率被抽作样本。

(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较⼤的可信度。

由于个体之间存在差异, 只有观察⼀定数量的个体⽅能体现出其客观规律性。

每个样本的含量越多,可靠性会越⼤,但是例数增加,⼈⼒、物⼒都会发⽣困难,所以应以“⾜够”为准。

需要作“样本例数估计”。

3、什么是两个样本之间的可⽐性?可⽐性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对⽐原则。

实习⼀统计研究⼯作的基本步骤1、什么叫医学统计学?医学统计学与统计学、卫⽣统计学、⽣物统计学有何联系与区别?医学统计学:是运⽤统计学原理和⽅法研究⽣物医学资料的搜索、整理、分析和推断的⼀门学科统计学:是研究数据的收集、整理、分析与推断的科学。

计量资料的统计分析

计量资料的统计分析

实例:某部队干部体检得到体脂的均数和标准差分别
为18.9%和5.8%,血清胆固醇的均数与标准差分别为 4.84mmol/L和1.03mmol/L,试比较两者的变异情况。
由于体脂和血清胆固醇是两个不同的观察指标, 不能直接比较其标准差大小,而应比较变异系数。 对本例: 体脂变异系数: C1V 15..8 8 910% 03.0 6% 9
68


┆┆







计量 计量 计数 等级 等级 计量 计数 计量 计量
计数
注:体重指数=体重/身高3 (Kg/m3); 嗜肥肉史
劳动强度 轻1,中等2,重3
紧张程度 不紧张1,一般2,紧张3
班制
日班制1,两班制2,三班制3
有1,无0
平均数指标
Average Number
平均数指标
平均数(average) 是描述一群同质变量值集 中位置的特征值,用以说明同类现象或事物数量的 中等水平(集中趋势)。
教学内容
9.7 3学时 计量资料的统计分析(理论课) 9.7 2学时 计量资料的软件实现(操作演示)
9.9 3学时 计数资料的统计分析(理论课) 9.9 2学时 计数资料的软件实现(操作演示)
计量资料的统计描述
Descriptive Statistics
统计资料的分类
1、计量资料(或定量变量) 2、计数资料(或无序分类变量) 3、等级资料(或有序等级变量)
缺点:比较稳定,但不能反映其余数据的变异情 况,没有充分利用每个变量值的信息。 适用条件:四分位数间距用来描述大样本偏态资 料的变异情况。通常与中位数结合使用。
➢方差(Variance)

2012级临床专升本 统计学复习题

2012级临床专升本  统计学复习题

专升本统计复习题汇总目录:第一部分:统计绪论习题一、名解1、总体2、样本3、变量4、同质5、参数6、统计量7、误差8、小概率事件二、选择题1、若要通过样本作统计推断,样本应是A.总体中典型的一部分 B. 总体中任一部分C. 总体中随机抽取的一部分D. 总体中选取的有意义的一部分E. 总体中信息明确的一部分2、统计量A. 是统计总体数据得到的量B. 反映总体统计特征的量C. 是根据总体中的全部数据计算出的统计指标D. 是用参数估计出来的E. 是由样本数据计算出的统计量3、抽样误差是指A.不同样本指标之间的差别B.样本指标与总体指标之间由于抽样产生的差别C.由于抽样产生观察值之间的差别D.样本中每个个体之间的差别E.随机测量误差和过失误差的总称4、教材中提及美国人1954年实施了旨在评价索尔克(Salk)疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。

有180万儿童参与,约有1/4参与者得到了随机化。

这180万儿童是。

A.目标总体B.研究总体C.1份样本D. 1份随机样本E. 180万份样本上述试验最终肯定了索尔克疫苗的效果。

请问系结论是针对(E)而言。

A.180万儿童B.每个儿童C.所有使用索尔克疫苗的儿童D.所有儿童E.180万儿童中随机化的1/45、概率是描述某随机事件发生的可能性大小的数值,以下对概率的描述哪项是正确的A.其值的大小在0和1之间B.当样本含量n充分大时,我们有理由将频率近似为概率C.随机事件发生的概率小于0.05或0.01时,可认为在一次抽样中它不可能发生D.必然事件发生的概率为1E.其值必须由某一统计量对应的概率分布表中得到6、统计学中所说的总体是指A.任意想象的研究对象的全体B.根据研究目的确定的研究对象的全体C.根据时间划分的研究对象的全体D.根据人群划分的研究对象的全体E.根据地区划分的研究对象的全体三、是非题1、定量变量、分类变量和有序变量可以相互转换。

2、同质的个体间不存在变异。

统计学复习题

统计学复习题

《医学统计学》复习资料广西医科大学流行病与卫生统计学教研室2013.1.52012年留学生总复习练习题Part A理论考试题型一、单选题(每题1.5分,共45分。

请在答题卡上将正确答案对应的字母涂黑二、辨析题(每题3分,共15分。

判断对错,并给出理由)三、简答题(每题5分,共10分)四、分析应用题(共30分+10分)Part B练习题一、单选题(每题1.5分,共45分。

请在答题卡上将正确答案对应的字母涂黑)(一)计量资料统计描述1.卫生统计工作的步骤为________。

A.统计研究调查、搜集资料、整理资料、分析资料B.统计资料收集、整理资料、统计描述、统计推断C.统计研究设计、搜集资料、整理资料、分析资料D.统计研究调查、统计描述、统计推断、统计图表2.某病患者5人的潜伏期(天)分别为6,8,5,10,>13,则平均潜伏期为________。

A.5天B.8天C.6~13天D.11天3.算术均数与中位数相比,。

A.抽样误差更大B.不易受极端值的影响C.更充分利用数据信息D.更适用于分布不明及偏态分布资料值为。

4.标准正态分布中,单侧u0.05A.1.96B.0.05C.1.64D.0.0255.统计分析的主要内容有________。

A.统计描述和统计学检验B.区间估计与假设检验C.统计图表和统计报告D.统计描述和统计推断E.统计描述和统计图表6.统计资料的类型包括________。

A.频数分布资料和等级分类资料B.多项分类资料和二项分类资料C.正态分布资料和频数分布资料D.数值变量资料和等级资料E.数值变量资料和分类变量资料7.抽样误差是指________。

A.不同样本指标之间的差别B.样本指标与总体指标之间由于抽样产生的差别C.样本中每个体之间的差别D.由于抽样产生的观测值之间的差别E.测量误差与过失误差的总称8.统计学中所说的总体是指________。

A.任意想象的研究对象的全体B.根据研究目的确定的研究对象的全体C.根据地区划分的研究对象的全体D.根据时间划分的研究对象的全体E.根据人群划分的研究对象的全体9.描述一组偏态分布资料的变异度,宜用________。

χ2检验

χ2检验
计数资料的统计描述和假设检验
第一节 计数资料的统计描述
计数资料中清点出的各组例数称为绝对数。绝 对数可以反映客观事物或现象的基本信息,但不便 于比较。
甲乙两地麻疹流行情况:甲地患儿100人,乙地患儿50人。
甲地麻疹流行严重 甲地易感儿童667人——15% 乙地易感儿童250人——20%
需要考虑两地易感儿童的人数
配对四格表的格式
A处理 + 合计 B处理 + 合计
2 ( b c ) 2 bc
a c a+c
b d b+d
a+b c+d n

2
( b c 1) 2 bc
三、行×列资料的χ2检验
行×列表:行数或列数至少有一个超过2的
统计表称为行×列表,也可以表示为R×C表。 行×列表χ2检验可用于: 多个样本率的比较 2个或多个样本构成比的比较 双向无序分类资料的关联性检验
一、相对数
相对数:两个有关联的数值之比就称为相对数,
用以说明事物的相对水平。
常用的相对数: 强度相对数(率)、结构相对数(构成比)、相对比
二、应用相对数时的注意事项
1。结构相对数不能代替强度相对数(以比代率) 2。计算相对数应有足够数量 3。正确计算合计率 4。应注意资料的可比性 (其一:内部构成是否相同) 5。对比不同时期资料应注意客观条件是否相同 6。样本率(或构成比)的抽样误差
A组
B组 合计
a(A11)) b(A12)
c(A21) d(A22) a+c b+d
a+b
c+d n
(ad bc)2 n (a b)(c d )(a c)(b d )
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

21
四格表配对计数资料
甲乙两种培养基的生长情况
乙种 + 合计 + 1 (a) 1 3 (c) 14
甲种 7 (b) 7 (d) 14
合计 18 10 28
22
例:问两种培养基的效果是否不同
第一步:建立假设 H0 : B=C=b+c/2 H1 : B‡C 第二步:确定显著性水平 α=0.05 第三步:计算统计量: b+c>40时,基本公式
样本所代表的总体间是否存在着差别做出判断。 样本所代表的总体间是否存在着差别做出判断。
2
主要内容
一、率(或构成比)的抽样误差和标准误 二、总体率(或构成比)的估计:点估计、区间
估计
三、总体率(或构成比)的假设检验
1.率(或构成比)的 µ 检验 2. x2检验
四、假设检验的注意事项
一、率(或构成比)的抽样误差和标准误
11
(1)四格表资料的x2检验
什么是四格表资料?凡是两个率或构成比资料都 可以看做四格表资料。举例。
组别 实验组 对照组 合计 发病人数 14 30 44 未 发 病人数 86 90 176 观察例数 100 120 220 发病率(%) 14 25 20
14 30
86 90
四格表的一般形式
组 别 1 2 合计 阳 性 a c a+c 阴 性 b d b+d 合计 a+b c+d a+b+c+d
只能说明不全相同, 只能说明不全相同,但不能确定 哪两个不同。需要进一步证明时, 哪两个不同。需要进一步证明时, 用行x列表的 分割法。 列表的x 用行 列表的 2分割法。
30
注意事项
1 假设检验时可能犯两类错误 2.选择检验方法要注意符合其应用条件 选择检验方法要注意符合其应用条件 3.正确理解假设检验的结论 正确理解假设检验的结论 4.当差别无显著性时 有两种可能 当差别无显著性时,有两种可能 当差别无显著性时 5.统计学的显著性与否和日常生活中的 统计学的显著性与否和日常生活中的 显著性概念不同. 显著性概念不同 6.单侧检验与双侧检验 单侧检验与双侧检验
理论频数与自由度的计算:A是实际频数,T是根据假设检验 理论频数与自由度的计算: 是实际频数, 来确定的,当H0成立时,计算出的格子中的数。每个格子中 成立时,计算出的格子中的数。 来确定的, 的理论频数计算公式为:TRC=NRxNC/N, NR所在的行合计, , 所在的行合计, 的理论频数计算公式为: NC所在的列合计,代入公式中求x2值。 所在的列合计, (求上例的4个T值) 四格表资料的专用公式: 四格表资料的专用公式:
自由度一定时,P值越小, x2值越 大。 当P 值一定时,自由 度越大, x2 越大。 υ=1时, P=0.05, x2 =3.84 P=0.01, x2 =6.63 P=0.05时, υ=1, x2 =3.84 υ=2, x2 =5.99 当自由度取1时, u 2 = x2
9
x2检验的基本公式
(A −T) χ =∑ T
某医生想观察一种新药对流感的预防效果, 某医生想观察一种新药对流感的预防效果,进行了如下 的研究,问此药是否有效? 的研究,问此药是否有效?
组别 实验组 对照组 合计 发病人数 14 30 44 未 发 病人数 86 90 176 观察例数 100 120 220 发病率(%) 14 25 20
8
x2分布规律
2
2
A:表示实际频数,即实际观察到的例数。 T:理论频数,即如果假设检验成立,应该观察 到的例数。 ∑ :求和符号 自由度:υ=(R-1)x(C-1) R行数, C列数 注意:是格子数,而不是例数。
10
基本原理
(A −T) χ =∑ T
2 2
如果假设检验成立,A与T不应该相差太大。 理论上可以证明 ∑(A-T)2/T服从x2分布, 计算出x2值后,查表判断这么大的x2是否为 小概率事件,以判断建设检验是否成立。
均数的标准差和标准误(复习 。 均数的标准差和标准误 复习)。 复习
抽样误差产生的原因、概念 标准误的计算公式 与样本量的关系:成反比。
σp = π (1 − π )
n
Sp =
p(1 − p) n
例题:某市为了解已婚育龄妇女子宫颈癌的患病 情况,进行了抽样调查,随机抽取2000人,患者 80例。试求此患病率的标准误。
χ
专用公式:
2
=

2
(A − T ) T
2
χ
=
(b
− c) b + c
2
b+c≤40时,校正公式:
χ

2
=


=
( A − T − 0 .5 ) 2 T
χ
2
(b
− c − 1) b + c
2
自由度:ν=(2-1) x (2-1)=1 第四步:确定P值 第五步:判断结果
24
行x列表配对计数资料
甲 法 正常 减弱 异常 合计 乙法 正常 60 0 8 68 减弱 3 42 9 54 异常 2 9 17 28 合 计 65 51 34 150
13
四格表资料的专用公式
( ad − bc ) n 2 χ = ( a + c )( a + b )( c + d )( b + d )
2
适用条件: 当不满足上述条件时用 校正公式。
n ad − bc − n 2 χ2 = ( a + c )( a + b )( c + d )( b + d )
28
配对计数资料的关联与差异问题
关联与差异是不同的问题,共有四种 组合: 1. 有关联无差异 2. 有关联有差异 3. 无关联无差异 4. 无关联有差异
29
四、注意事项
1、计量资料的注意事项同样 、 适用( 适用(见下张幻灯片) 2、公式的适用条件n 2、公式的适用条件n 、T 3、多组率经x2检验有显著性时, 、 检验有显著性时,
31
四格表的确切概率法
此方法是四格表的补充 当 n < 40 或 至少有一T < 1
Pi =
(a + b)!(c + d )!(a + c)!(b + d )!
a !b !c !d !n !
P=
å
Pi
32
第七 讲 计数资料的统计推断
统计推断
用样本信息推论总体特征的过程。 用样本信息推论总体特征的过程。 包括: 包括: 参数估计: 运用统计学原理, 参数估计 运用统计学原理,用从样本计算出来的统计指
标量,对总体统计指标量进行估计。 标量,对总体统计指标量进行估计。
假设检验:又称显著性检验, 假设检验:又称显著性检验,是指由样本间存在的差别对
2
该公式从基本公式推 导而来,结果相同。 计算较为简单。 适用条件: N>40且 T≥5
例题
上例:问此药是否有效。 上例:问此药是否有效。 第一步: 第一步:建立假设 H0 : π1=π2 =20% π H1 : π1 ‡ π2 第二步: 第二步:确定显著性水平 α=0.05 第三步:计算统计量: 值大于5, 第三步:计算统计量: n =200>40,每格的 值大于 , ,每格的T值大于 可选用公式??(计算过程) ??(计算过程 可选用公式??(计算过程) 第四步:确定P值 第四步:确定 值 第五步:判断结果 第五步:
配对计数资料的关联问题
第一步: 第一步:建立假设 H0 :两法结果独立 H1 :两法结果不独立 第二步: 第二步:确定显著性水平 α=0.05 第三步:计算统计量: 第三步:计算统计量:
p ij = p i p j p ij ¹ p i p j
完全类似于成组资料比较的公式
第四步:确定P值 第四步:确定 值 第五步: 第五步:判断结果
二、总体率(或构成比)的估计
点估计:将样本率直接作为总体率的估计值. 区间估计(对照总体均数的区间估计) 公式: P±Uα.SP 条件: nP>5, n(1-P)>5 例题: 意义:
三、总体率(或构成比)的假设检验 总体率(或构成比) 假设检验
当两个样本率不同时,有两种可能: 1. P1 , P2所代表的总体率相同,由于抽样误 差的存在,造成的不同,这种差别在统计上叫 差别无统计学意义。 差别无统计学意义 2. P1 , P2所代表的总体率不同,即两个样本 来不同的总体,其差别有统计学意义 其差别有统计学意义。 其差别有统计学意义 现在就是要用统计学的方法进行判断到底 属于那种情况。
25
检验
第一步:建立假设 H0 : 两法分布相同 H1 :两法分布不相同 第二步:确定显著性水平 α=0.05 第三步:计算统计量: :
(ni - mi ) k- 1 T= å= 1 n + m - 2 A k i i i ii
k
26
2
检验
自由度:ν=k-1 第四步:确定P值 第五步:判断结果
27
1.总体率(或构成比)的 u检验
目的:比较一未知总体率与已知总体率是否相同 公式: p − π0
其中符号的含义
u =
适用条件: 已知π0 nP>5, n(1-P)>5
π 0 (1 − π 0 ) n
7
2. x2检验
是一种假设检验的方法,当样本量不大, 是一种假设检验的方法,当样本量不大, 或几个率进行比较时可用x 检验。 或几个率进行比较时可用 2检验。
19
配对计数资料的x2检验
什么是配对资料? 什么是配对资料?例
甲乙两种培养基的生长情况
乙种 + 合计 + 1 (a) 1 3 (c) 14
相关文档
最新文档